เอ็นจิ้นการประมวลผลข้อมูลที่อยู่เบื้องหลัง Amazon Elastic MapReduce คืออะไร
เอ็นจิ้นการประมวลผลข้อมูลที่อยู่เบื้องหลัง Amazon Elastic MapReduce คืออะไร

วีดีโอ: เอ็นจิ้นการประมวลผลข้อมูลที่อยู่เบื้องหลัง Amazon Elastic MapReduce คืออะไร

วีดีโอ: เอ็นจิ้นการประมวลผลข้อมูลที่อยู่เบื้องหลัง Amazon Elastic MapReduce คืออะไร
วีดีโอ: Free Webinar #41 "ทำ Big Data Analytics ไม่ง้อ Hadoop" 2024, อาจ
Anonim

อเมซอน EMR ใช้ Apache Hadoop เป็นการแจกจ่าย เครื่องมือประมวลผลข้อมูล . Hadoop เป็นโอเพ่นซอร์ส, เฟรมเวิร์กซอฟต์แวร์ Java ที่รองรับ ข้อมูล - แอปพลิเคชันแบบกระจายแบบเข้มข้นที่ทำงานบนคลัสเตอร์ขนาดใหญ่ ของ ฮาร์ดแวร์สินค้าโภคภัณฑ์

นอกจากนี้ Amazon Elastic MapReduce คืออะไร

Amazon Elastic MapReduce ( EMR ) เป็น Amazon Web Services ( AWS ) เครื่องมือสำหรับการประมวลผลและวิเคราะห์ข้อมูลขนาดใหญ่ อเมซอน EMR ประมวลผลข้อมูลขนาดใหญ่ทั่วทั้งคลัสเตอร์ Hadoop ของเซิร์ฟเวอร์เสมือนบน Amazon Elastic คลาวด์คอมพิวเตอร์ ( EC2 ) และ อเมซอน บริการจัดเก็บอย่างง่าย ( S3 ).

นอกจากนี้ Amazon EMR ได้รับการจัดการอย่างสมบูรณ์หรือไม่ มันคือ จัดการอย่างเต็มที่ บริการ Data Lake ที่สามารถแยกการจัดเก็บข้อมูลออกจากทรัพยากรการประมวลผล และทำให้คลัสเตอร์การประมวลผลสามารถปรับขนาดได้ พร้อมใช้งานตามความต้องการ และรวมถึงความสามารถสำหรับหลายคลัสเตอร์ในการเข้าถึงชุดข้อมูลเดียวกันพร้อมกัน

อาจมีคนถามว่า AWS EMR ทำงานอย่างไร

โดยทั่วไป เมื่อคุณประมวลผลข้อมูลใน อเมซอน EMR อินพุตคือข้อมูลที่จัดเก็บเป็นไฟล์ในระบบไฟล์พื้นฐานที่คุณเลือก เช่น อเมซอน S3 หรือ HDFS ข้อมูลนี้ผ่านจากขั้นตอนหนึ่งไปยังขั้นตอนถัดไปในลำดับการประมวลผล ขั้นตอนสุดท้ายเขียนข้อมูลเอาท์พุตไปยังตำแหน่งที่ระบุ เช่น an อเมซอน ถัง S3

ec2 กับ EMR ต่างกันอย่างไร?

ไม่เหมือน EMR , EC2 ไม่จัดหมวดหมู่โหนดทาสเป็นโหนดหลักและโหนดงาน สิ่งนี้จะเพิ่มความเสี่ยงในการสูญเสียข้อมูล HDFS ในกรณีที่โหนดถูกลบ/สูญหาย EC2 ใช้ไลบรารี Apache (s3a) เพื่อเข้าถึงข้อมูลบน s3 ในทางกลับกัน, EMR ใช้รหัสที่เป็นกรรมสิทธิ์ของ AWS เพื่อให้เข้าถึง s3 ได้เร็วขึ้น

แนะนำ: