Spark Broadcast คืออะไร?
Spark Broadcast คืออะไร?

วีดีโอ: Spark Broadcast คืออะไร?

วีดีโอ: Spark Broadcast คืออะไร?
วีดีโอ: 3.7 Apache Spark Tutorial | Spark Broadcast Variables 2024, พฤศจิกายน
Anonim

ออกอากาศ ตัวแปรใน Apache Spark เป็นกลไกในการแบ่งปันตัวแปรระหว่างผู้ดำเนินการซึ่งกำหนดให้เป็นแบบอ่านอย่างเดียว ปราศจาก ออกอากาศ ตัวแปร ตัวแปรเหล่านี้จะถูกส่งไปยังผู้ดำเนินการแต่ละคนสำหรับการเปลี่ยนแปลงและการดำเนินการทุกครั้ง และสิ่งนี้อาจทำให้เกิดค่าใช้จ่ายของเครือข่าย

มีคนถามเหมือนกันว่าควรออกอากาศ spark เมื่อไหร่?

ออกอากาศ ตัวแปรส่วนใหญ่จะใช้เมื่องานในหลายขั้นตอนต้องการข้อมูลเดียวกัน หรือเมื่อต้องการแคชข้อมูลในรูปแบบดีซีเรียลไลซ์ ออกอากาศ ตัวแปรถูกสร้างขึ้นโดยใช้ตัวแปร v โดยเรียก SparkContext

นอกจากนี้ accumulators และตัวแปรการออกอากาศใน spark คืออะไร? Spark รองรับการแชร์สองประเภท ตัวแปร : ตัวแปรออกอากาศ ซึ่งสามารถใช้เพื่อแคชค่าในหน่วยความจำบนโหนดทั้งหมดและ ตัวสะสม ซึ่งก็คือ ตัวแปร ที่ "บวก" เท่านั้น เช่น ตัวนับและผลรวม

เมื่อพิจารณาถึงสิ่งนี้ ตัวสะสมประกายไฟคืออะไร?

ตัวสะสม เป็นตัวแปรที่ "เพิ่ม" ผ่านการดำเนินการเชื่อมโยงเท่านั้น ดังนั้นจึงสามารถสนับสนุนควบคู่กันได้อย่างมีประสิทธิภาพ สามารถใช้เพื่อใช้งานตัวนับ (เช่นใน MapReduce) หรือผลรวม Spark สนับสนุนโดยกำเนิด ตัวสะสม ประเภทตัวเลข และโปรแกรมเมอร์สามารถเพิ่มการรองรับประเภทใหม่ได้

ฉันจะอัปเดตตัวแปรการออกอากาศใน spark ได้อย่างไร

  1. ย้ายการค้นหาข้อมูลอ้างอิงไปยัง forEachPartition หรือ forEachRdd เพื่อให้อยู่ในผู้ปฏิบัติงานทั้งหมด
  2. รีสตาร์ท Spark Context ทุกครั้งที่มีการเปลี่ยนแปลง refdata ด้วย Broadcast Variable ใหม่

แนะนำ: