สารบัญ:

คุณใช้ซุปที่สวยงามใน Python ได้อย่างไร?
คุณใช้ซุปที่สวยงามใน Python ได้อย่างไร?

วีดีโอ: คุณใช้ซุปที่สวยงามใน Python ได้อย่างไร?

วีดีโอ: คุณใช้ซุปที่สวยงามใน Python ได้อย่างไร?
วีดีโอ: EP2. ใช้ Beautiful Soup ใน Python เพื่อตรวจสอบและวิเคราะห์เว็บไซต์ 2024, พฤศจิกายน
Anonim

หากคุณกำลังใช้ Debian หรือ Ubuntu Linux เวอร์ชันล่าสุด คุณสามารถติดตั้ง Beautiful Soup ด้วยตัวจัดการแพ็คเกจของระบบ:

  1. $ apt-get install หลาม -bs4 (สำหรับ Python 2)
  2. $ apt-get ติดตั้ง python3-bs4 (สำหรับ Python 3)
  3. $ easy_install สวยซุป4.
  4. $ pip ติดตั้ง beautifulsoup4.
  5. $ หลาม ติดตั้ง setup.py

เช่นเดียวกัน ผู้คนก็ถามว่า คุณจะทำซุปที่สวยงามใน Python ได้อย่างไร?

ใช้ ซุปที่สวยงาม คุณต้องติดตั้ง: $ pip install beautifulsoup4 ซุปที่สวยงาม ยังอาศัย parser ค่าเริ่มต้นคือ lxml คุณอาจแล้ว มี แต่คุณควรตรวจสอบ (เปิด IDLE และพยายามนำเข้า lxml) ถ้าไม่ทำ: $ pip ติดตั้ง lxml หรือ $ apt- รับ ติดตั้ง หลาม -lxml.

ในทำนองเดียวกันคุณนำเข้า Beautiful Soup อย่างไร? เพื่อเริ่มต้น, นำเข้า NS ซุปที่สวยงาม ห้องสมุด เปิดไฟล์ HTML แล้วส่งไปที่ ซุปที่สวยงาม แล้วพิมพ์ “ สวย ” ในเทอร์มินัล คุณควรเห็นหน้าต่างเทอร์มินัลของคุณเต็มไปด้วยข้อความ html ต้นฉบับที่มีการเยื้องอย่างดี (ดูรูปที่ 3)

คล้าย ๆ กัน มีคนถามว่า ซุปสวยใช้ทำอะไร ?

ซุปที่สวยงาม เป็นแพ็คเกจ Python สำหรับแยกวิเคราะห์เอกสาร HTML และ XML (รวมถึงการมีมาร์กอัปที่มีรูปแบบไม่ถูกต้อง เช่น แท็กที่ไม่ปิด ดังนั้นตั้งชื่อตามแท็ก ซุป ). มันสร้าง parse tree สำหรับหน้า parsed ที่สามารถ ใช้แล้ว เพื่อดึงข้อมูลจาก HTML ซึ่งมีประโยชน์สำหรับการขูดเว็บ

คุณขูดเว็บไซต์ด้วย Python และ BeautifulSoup ได้อย่างไร

อันดับแรก เราต้องนำเข้าไลบรารีทั้งหมดที่เราจะใช้งาน ถัดไป ประกาศตัวแปรสำหรับ url ของหน้า จากนั้นใช้ประโยชน์จาก Python urllib2 เพื่อรับหน้า HTML ของ url ที่ประกาศ สุดท้าย แยกหน้าออกเป็น ซุปที่สวยงาม รูปแบบให้เราได้ใช้ ซุปที่สวยงาม ในการทำงานกับมัน

แนะนำ: