ลดตามคีย์คืออะไร?
ลดตามคีย์คืออะไร?

วีดีโอ: ลดตามคีย์คืออะไร?

วีดีโอ: ลดตามคีย์คืออะไร?
วีดีโอ: วิธีหาคีย์เพลง วิธีเปลี่ยนคีย์เพลง เล่นดนตรีง่ายขึ้นเยอะ Chupeedoo lesson 2024, พฤศจิกายน
Anonim

ฟังก์ชัน Spark RDD reduceByKey รวมค่าสำหรับแต่ละค่า กุญแจ ใช้การเชื่อมโยง ลด การทำงาน. หมายความว่าโดยสัญชาตญาณ ฟังก์ชันนี้จะให้ผลลัพธ์แบบเดียวกันเมื่อใช้ซ้ำๆ กับชุดข้อมูล RDD ชุดเดียวกันกับหลายพาร์ติชั่นโดยไม่คำนึงถึงลำดับขององค์ประกอบ

แล้วความแตกต่างระหว่าง groupByKey และ reduceByKey คืออะไร?

groupByKey () เป็นเพียงการจัดกลุ่มชุดข้อมูลของคุณตามคีย์ ลด ByKey () เป็นเหมือนการจัดกลุ่ม + การรวมกลุ่ม ลด ByKey สามารถใช้เมื่อเรารันบนชุดข้อมูลขนาดใหญ่ aggregateByKey() มีเหตุผลเช่นเดียวกับ ลด ByKey () แต่มันให้คุณส่งคืนผลลัพธ์ใน แตกต่าง พิมพ์.

ยังรู้ด้วยว่าทำไมการลดลงจึงเป็นการกระทำที่จุดประกาย? สปาร์ค ลด การดำเนินการคือ การกระทำ ประเภทของการดำเนินการและทริกเกอร์การดำเนินการ DAG แบบเต็มสำหรับคำสั่งที่ขี้เกียจทั้งหมด Spark RDD ลด ฟังก์ชันลดองค์ประกอบของ RDD นี้โดยใช้ตัวดำเนินการไบนารีการสับเปลี่ยนและการเชื่อมโยงที่ระบุ สปาร์ค ลด การดำเนินการเกือบจะคล้ายกับ ลด วิธีการในสกาล่า

ข้างบนนี้ Pairrdd คืออะไร?

Spark จัดเตรียมการดำเนินการพิเศษบน RDD ที่มีคู่คีย์/ค่า RDD เหล่านี้เรียกว่า RDD คู่ คู่ RDD เป็นหน่วยการสร้างที่มีประโยชน์ในหลาย ๆ โปรแกรม เนื่องจากจะเปิดเผยการดำเนินการที่อนุญาตให้คุณดำเนินการกับแต่ละคีย์ในแบบคู่ขนานหรือจัดกลุ่มข้อมูลใหม่ทั่วทั้งเครือข่าย คู่RDDs เป็นคู่ KEY/VALUE

reduceByKey เป็นการกระทำหรือไม่

ลด () ส่งออกคอลเลกชันที่ไม่ได้เพิ่มไปยังกราฟ acyclic กำกับ (DAG) ดังนั้นจึงถูกนำมาใช้เป็น การกระทำ . อย่างไรก็ตาม, ลด ByKey () ส่งคืน RDD ซึ่งเป็นเพียงระดับ/สถานะอื่นใน DAG ดังนั้นจึงเป็นการแปลง