วีดีโอ: ลดตามคีย์คืออะไร?
2024 ผู้เขียน: Lynn Donovan | [email protected]. แก้ไขล่าสุด: 2023-12-15 23:54
ฟังก์ชัน Spark RDD reduceByKey รวมค่าสำหรับแต่ละค่า กุญแจ ใช้การเชื่อมโยง ลด การทำงาน. หมายความว่าโดยสัญชาตญาณ ฟังก์ชันนี้จะให้ผลลัพธ์แบบเดียวกันเมื่อใช้ซ้ำๆ กับชุดข้อมูล RDD ชุดเดียวกันกับหลายพาร์ติชั่นโดยไม่คำนึงถึงลำดับขององค์ประกอบ
แล้วความแตกต่างระหว่าง groupByKey และ reduceByKey คืออะไร?
groupByKey () เป็นเพียงการจัดกลุ่มชุดข้อมูลของคุณตามคีย์ ลด ByKey () เป็นเหมือนการจัดกลุ่ม + การรวมกลุ่ม ลด ByKey สามารถใช้เมื่อเรารันบนชุดข้อมูลขนาดใหญ่ aggregateByKey() มีเหตุผลเช่นเดียวกับ ลด ByKey () แต่มันให้คุณส่งคืนผลลัพธ์ใน แตกต่าง พิมพ์.
ยังรู้ด้วยว่าทำไมการลดลงจึงเป็นการกระทำที่จุดประกาย? สปาร์ค ลด การดำเนินการคือ การกระทำ ประเภทของการดำเนินการและทริกเกอร์การดำเนินการ DAG แบบเต็มสำหรับคำสั่งที่ขี้เกียจทั้งหมด Spark RDD ลด ฟังก์ชันลดองค์ประกอบของ RDD นี้โดยใช้ตัวดำเนินการไบนารีการสับเปลี่ยนและการเชื่อมโยงที่ระบุ สปาร์ค ลด การดำเนินการเกือบจะคล้ายกับ ลด วิธีการในสกาล่า
ข้างบนนี้ Pairrdd คืออะไร?
Spark จัดเตรียมการดำเนินการพิเศษบน RDD ที่มีคู่คีย์/ค่า RDD เหล่านี้เรียกว่า RDD คู่ คู่ RDD เป็นหน่วยการสร้างที่มีประโยชน์ในหลาย ๆ โปรแกรม เนื่องจากจะเปิดเผยการดำเนินการที่อนุญาตให้คุณดำเนินการกับแต่ละคีย์ในแบบคู่ขนานหรือจัดกลุ่มข้อมูลใหม่ทั่วทั้งเครือข่าย คู่RDDs เป็นคู่ KEY/VALUE
reduceByKey เป็นการกระทำหรือไม่
ลด () ส่งออกคอลเลกชันที่ไม่ได้เพิ่มไปยังกราฟ acyclic กำกับ (DAG) ดังนั้นจึงถูกนำมาใช้เป็น การกระทำ . อย่างไรก็ตาม, ลด ByKey () ส่งคืน RDD ซึ่งเป็นเพียงระดับ/สถานะอื่นใน DAG ดังนั้นจึงเป็นการแปลง