ปัญหาของไฟล์ขนาดเล็กใน Hadoop คืออะไร?
ปัญหาของไฟล์ขนาดเล็กใน Hadoop คืออะไร?

วีดีโอ: ปัญหาของไฟล์ขนาดเล็กใน Hadoop คืออะไร?

วีดีโอ: ปัญหาของไฟล์ขนาดเล็กใน Hadoop คืออะไร?
วีดีโอ: STOU005-M2[EP2/10] หลักการทำงานของ Hadoop 2024, พฤศจิกายน
Anonim

1) ปัญหาไฟล์เล็ก ใน HDFS : เก็บของ ไฟล์ขนาดเล็ก ซึ่งเป็นอย่างมาก เล็กกว่า กว่าขนาดบล็อกไม่สามารถจัดการได้อย่างมีประสิทธิภาพโดย HDFS . การอ่านผ่าน ไฟล์ขนาดเล็ก เกี่ยวข้องกับการค้นหาและการกระโดดข้ามระหว่างโหนดข้อมูลไปยังโหนดข้อมูลเป็นจำนวนมากซึ่งเป็นการประมวลผลข้อมูลที่ไม่มีประสิทธิภาพ

นอกจากนี้ ไฟล์ใดบ้างที่จัดการกับปัญหาไฟล์ขนาดเล็กใน Hadoop

1) ฮาร์ ( Hadoop คลังเก็บเอกสารสำคัญ) ไฟล์ ได้รับการแนะนำให้รู้จักกับ จัดการกับปัญหาไฟล์ขนาดเล็ก . HAR ได้แนะนำเลเยอร์ที่ด้านบนของ HDFS ซึ่งให้อินเทอร์เฟซสำหรับ ไฟล์ การเข้าถึง โดยใช้ Hadoop คำสั่งเก็บถาวร HAR ไฟล์ ถูกสร้างขึ้น ซึ่งรัน a แผนที่ลด งานแพ็ค ไฟล์ ถูกเก็บไว้ใน เล็กกว่า จำนวน ไฟล์ HDFS.

นอกจากนี้ ฉันสามารถมีหลายไฟล์ใน HDFS ใช้ขนาดบล็อกที่ต่างกันได้หรือไม่ ค่าเริ่มต้น ขนาด ของ บล็อก คือ 64 MB คุณ สามารถ เปลี่ยนตามความต้องการของคุณ มาถึงคำถามของคุณใช่คุณ สามารถสร้างได้หลายไฟล์ โดยแตกต่างกัน ขนาดบล็อก แต่ในแบบเรียลไทม์นี้ จะ ไม่ชอบการผลิต

ยิ่งไปกว่านั้น เหตุใด HDFS จึงไม่จัดการไฟล์ขนาดเล็กอย่างเหมาะสม

มีปัญหากับ ไฟล์ขนาดเล็ก และ HDFS ทั้งหมด ไฟล์ , ไดเรกทอรีและบล็อกใน HDFS คือ แสดงเป็นวัตถุในหน่วยความจำของ namenode ซึ่งแต่ละอันมีพื้นที่ 150 ไบต์ ตามกฎทั่วไป นอกจากนี้, HDFS ไม่ใช่ มุ่งสู่การเข้าถึงอย่างมีประสิทธิภาพ ไฟล์ขนาดเล็ก : มัน เป็น ออกแบบมาสำหรับการเข้าถึงสตรีมมิ่งขนาดใหญ่ ไฟล์.

ทำไม Hadoop ถึงช้า?

ช้า ความเร็วในการประมวลผล ดิสก์นี้ต้องใช้เวลาจึงทำให้กระบวนการทั้งหมดเป็นอย่างมาก ช้า . ถ้า Hadoop ประมวลผลข้อมูลในปริมาณน้อย มาก ช้า เปรียบเทียบ เหมาะอย่างยิ่งสำหรับชุดข้อมูลขนาดใหญ่ เนื่องจาก Hadoop มีเอ็นจิ้นการประมวลผลแบบกลุ่มที่แกนกลาง ความเร็วสำหรับการประมวลผลแบบเรียลไทม์นั้นน้อยกว่า

แนะนำ: