สารบัญ:

ฉันจะสร้าง PySpark DataFrame จากรายการได้อย่างไร
ฉันจะสร้าง PySpark DataFrame จากรายการได้อย่างไร

วีดีโอ: ฉันจะสร้าง PySpark DataFrame จากรายการได้อย่างไร

วีดีโอ: ฉันจะสร้าง PySpark DataFrame จากรายการได้อย่างไร
วีดีโอ: การเตรียมข้อมูลบนระบบ Big Data ด้วย PySpark 2024, พฤศจิกายน
Anonim

ฉันกำลังทำตามขั้นตอนเหล่านี้เพื่อสร้าง DataFrame จากรายการทูเพิล:

  1. สร้าง NS รายการ ของสิ่งอันดับ ทูเพิลแต่ละตัวมีชื่อของบุคคลที่มีอายุ
  2. สร้าง RDD จาก รายการ ข้างต้น.
  3. แปลง แต่ละทูเพิลต่อแถว
  4. สร้าง NS ดาต้าเฟรม โดยใช้ createDataFrame บน RDD ด้วยความช่วยเหลือของ sqlContext

เมื่อพิจารณาถึงสิ่งนี้ คุณจะแปลง DataFrame เป็นรายการใน Python ได้อย่างไร

  1. ขั้นตอนที่ 1: แปลง Dataframe เป็นอาร์เรย์ Numpy ที่ซ้อนกันโดยใช้ DataFrame.to_numpy() เช่น
  2. ขั้นตอนที่ 2: แปลงอาร์เรย์ 2D Numpy เป็นรายการ
  3. ขั้นตอนที่ 1: ย้าย dataframe เพื่อแปลงแถวเป็นคอลัมน์และคอลัมน์เป็นแถว
  4. ขั้นตอนที่ 2: แปลง Dataframe เป็นอาร์เรย์ Numpy ที่ซ้อนกันโดยใช้ DataFrame.to_numpy()

นอกจากนี้ Spark DataFrame คืออะไร? NS Spark DataFrame เป็นชุดข้อมูลที่กระจายซึ่งจัดเป็นคอลัมน์ที่มีชื่อซึ่งมีการดำเนินการเพื่อกรอง จัดกลุ่ม หรือคำนวณการรวม และสามารถใช้กับ Spark เอสคิวแอล ดาต้าเฟรม สามารถสร้างได้จากไฟล์ข้อมูลที่มีโครงสร้าง RDD ที่มีอยู่ ตารางใน Hive หรือฐานข้อมูลภายนอก

รู้ยัง PySpark SQL คืออะไร?

Spark SQL คือ Spark โมดูลสำหรับการประมวลผลข้อมูลที่มีโครงสร้าง มันมีนามธรรมโปรแกรมที่เรียกว่า DataFrames และยังสามารถทำหน้าที่เป็นกระจาย SQL เครื่องมือสืบค้นข้อมูล ช่วยให้การสืบค้น Hadoop Hive ที่ยังไม่ได้แก้ไขสามารถทำงานได้เร็วขึ้นสูงสุด 100 เท่าในการปรับใช้และข้อมูลที่มีอยู่

spark DataFrames ไม่เปลี่ยนรูปหรือไม่

ใน Spark คุณไม่สามารถ - ดาต้าเฟรม เป็น ไม่เปลี่ยนรูป . คุณควรใช้

แนะนำ: