สารบัญ:

รูปแบบไฟล์ที่แตกต่างกันใน Hadoop คืออะไร?
รูปแบบไฟล์ที่แตกต่างกันใน Hadoop คืออะไร?

วีดีโอ: รูปแบบไฟล์ที่แตกต่างกันใน Hadoop คืออะไร?

วีดีโอ: รูปแบบไฟล์ที่แตกต่างกันใน Hadoop คืออะไร?
วีดีโอ: ฺเรียนไวกับ IMC EP.5 | Hadoop แผ่ว ช้างตัวเล็กลง! คนที่ทำ Big Data หันมาใช้เทคโนโลยีอะไรกัน 2024, อาจ
Anonim

โชคดีสำหรับคุณ ชุมชนข้อมูลขนาดใหญ่ได้ปรับให้เหมาะสมสามอย่างโดยพื้นฐานแล้ว รูปแบบไฟล์ สำหรับใช้ใน Hadoop คลัสเตอร์: Optimized Row Columnar (ORC), Avro และ Parquet

ต่อมาอาจมีคนถามอีกว่ารูปแบบข้อมูลประเภทต่าง ๆ มีอะไรบ้าง?

มีสาม ประเภทของข้อมูล การทำแผนที่และ GIS รูปแบบข้อมูล . แต่ละ พิมพ์ ถูกจัดการแตกต่างกัน

ประเภทรูปแบบข้อมูล

  • ไฟล์ตาม Shapefiles, ไฟล์ออกแบบ Microstation (DGN), ภาพ GeoTIFF
  • ตามไดเร็กทอรี - ESRI ArcInfo Coverages, US Census TIGER
  • การเชื่อมต่อฐานข้อมูล - PostGIS, ESRI ArcSDE, MySQL

นอกจากนี้ รูปแบบไฟล์ใดดีที่สุดในกลุ่ม? RCFile เป็นคอลัมน์แถว รูปแบบไฟล์ . นี่ก็คือรูปอื่นของ รูปแบบไฟล์ไฮฟ์ ซึ่งมีอัตราการบีบอัดแถวสูง หากคุณมีข้อกำหนดในการดำเนินการหลายแถวพร้อมกัน คุณสามารถใช้ RCFile รูปแบบ.

เมื่อคำนึงถึงสิ่งนี้ รูปแบบอินพุตทั่วไปใน Hadoop คืออะไร

InputFormat สร้าง Inputsplit

  • InputFormat ที่พบบ่อยที่สุดคือ:
  • FileInputFormat- เป็นคลาสพื้นฐานสำหรับ file-basedInputFormat ทั้งหมด
  • TextInputFormat- เป็น InputFormat เริ่มต้นของ MapReduce
  • KeyValueTextInputFormat- คล้ายกับ TextInputFormat
  • ตามลิงค์เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ InputFormat ใน Hadoop

รูปแบบไฟล์ orc ใน Hadoop คืออะไร?

รูปแบบไฟล์ ORC คอลัมน์แถวที่ปรับให้เหมาะสม ( ORC ) รูปแบบไฟล์ เป็นวิธีที่มีประสิทธิภาพสูงในการจัดเก็บข้อมูล Hive ออกแบบมาเพื่อเอาชนะข้อจำกัดของไฮฟ์อีกตัวหนึ่ง รูปแบบไฟล์ . โดยใช้ ไฟล์ ORC ปรับปรุงประสิทธิภาพเมื่อ Hiveis อ่าน เขียน และประมวลผลข้อมูล

แนะนำ: