RDD ใน Scala คืออะไร?
RDD ใน Scala คืออะไร?

วีดีโอ: RDD ใน Scala คืออะไร?

วีดีโอ: RDD ใน Scala คืออะไร?
วีดีโอ: What Is RDD In Spark? | Apache Spark RDD Tutorial | Apache Spark Training | Edureka 2024, พฤศจิกายน
Anonim

ชุดข้อมูลแบบกระจายที่ยืดหยุ่น ( RDD ) เป็นโครงสร้างข้อมูลพื้นฐานของ Spark เป็นคอลเล็กชันของอ็อบเจ็กต์แบบกระจายที่ไม่เปลี่ยนรูป RDDs สามารถมี Python, Java หรือ.ได้ทุกประเภท สกาลา อ็อบเจ็กต์ รวมถึงคลาสที่ผู้ใช้กำหนด อย่างเป็นทางการ an RDD เป็นคอลเล็กชันระเบียนแบบอ่านอย่างเดียวที่แบ่งพาร์ติชัน

คำถามก็คือ อะไรคือความแตกต่างระหว่าง RDD และ DataFrame?

RDD – RDD เป็นการรวบรวมองค์ประกอบข้อมูลที่กระจายไปทั่วหลายเครื่อง ใน กลุ่ม. RDDs เป็นชุดของวัตถุ Java หรือ Scala ที่แสดงข้อมูล ดาต้าเฟรม - NS ดาต้าเฟรม เป็นการรวบรวมข้อมูลแบบกระจายซึ่งจัดเป็นคอลัมน์ที่มีชื่อ เป็นแนวคิดเท่ากับตาราง ใน ฐานข้อมูลเชิงสัมพันธ์

นอกจากนี้ RDD มีการกระจายอย่างไร? ยืดหยุ่น จำหน่าย ชุดข้อมูล ( RDDs ) พวกเขาคือ แจกจ่าย คอลเลกชันของวัตถุซึ่งถูกเก็บไว้ในหน่วยความจำหรือบนดิสก์ของเครื่องต่าง ๆ ของคลัสเตอร์ โสด RDD สามารถแบ่งออกเป็นหลายโลจิคัลพาร์ติชันเพื่อให้พาร์ติชันเหล่านี้สามารถจัดเก็บและประมวลผลบนเครื่องต่างๆ ของคลัสเตอร์ได้

spark RDD ทำงานอย่างไร

RDDs ใน Spark มีคอลเลกชันของเร็กคอร์ดที่มีพาร์ทิชัน RDDs ใน Spark ถูกแบ่งออกเป็นกลุ่มข้อมูลเชิงตรรกะขนาดเล็ก - เรียกว่าพาร์ติชั่น เมื่อมีการดำเนินการ ภารกิจจะถูกเรียกใช้ต่อพาร์ติชั่น พาร์ทิชันใน RDDs เป็นหน่วยพื้นฐานของความเท่าเทียม

RDD หรือ DataFrame อันไหนเร็วกว่ากัน

RDD - ในขณะที่ดำเนินการจัดกลุ่มและการรวมอย่างง่าย RDD API ทำงานช้าลง ดาต้าเฟรม - ในการทำการวิเคราะห์เชิงสำรวจ การสร้างสถิติรวมเกี่ยวกับข้อมูล ดาต้าเฟรม เป็น เร็วขึ้น . RDD - เมื่อคุณต้องการการเปลี่ยนแปลงและการกระทำในระดับต่ำ เราใช้ RDDs . นอกจากนี้ เมื่อเราต้องการนามธรรมระดับสูง เราใช้ RDDs.

แนะนำ: