Python

Cara Mengurai dan Mengikis HTML Menggunakan Pyquery

Cara Mengurai dan Mengikis HTML Menggunakan Pyquery
"Pyquery" adalah modul Python pihak ketiga yang memungkinkan Anda untuk mengurai dan mengekstrak data dari dokumen "xml" dan "html". Ini terinspirasi oleh perpustakaan JavaScript jQuery dan fitur sintaks yang hampir identik, memungkinkan Anda untuk menggunakan banyak fungsi pembantu dan kode singkatan untuk mengurai dan memanipulasi pohon dokumen. Artikel ini akan membahas panduan sederhana tentang Pyquery yang akan membantu Anda memulai modul.

Instalasi Pyquery

Untuk menginstal Pyquery di Ubuntu, gunakan perintah yang ditentukan di bawah ini:

$ sudo apt install python3-pyquery

Anda juga dapat menginstal versi terbaru Pyquery dari manajer paket “pip” dengan menjalankan dua perintah berikut secara berurutan:

$ sudo apt install python3-pip
$ pip3 instal pyquery

Untuk menginstal Pyquery di distribusi Linux lainnya, instal "pip3" dari manajer paket dan jalankan perintah kedua yang disebutkan di atas.

Membuat Pohon Dokumen yang Dapat Diurai

Sebelum Anda dapat mengurai dan mengekstrak data dari dokumen HTML, Anda perlu membuat pohon dokumen. Anda dapat membuat pohon dokumen dari markup HTML sederhana menggunakan contoh kode di bawah ini:

dari pyquery impor PyQuery sebagai pq
dokumen = pq("Halo Dunia !!")
cetak (dokumen)
cetak (tipe (dokumen))

Pernyataan pertama mengimpor kelas "PyQuery" dari modul "pyquery". Selanjutnya, instance baru dari kelas PyQuery dibuat. Setelah menjalankan contoh kode di atas, Anda akan mendapatkan output berikut:

Halo Dunia !!

Perhatikan baris kedua dalam output. Di sini "dokumen", yang merupakan turunan dari kelas "PyQuery", tidak mengembalikan objek tipe string. Anda dapat dengan cepat menanyakan semua metode yang tersedia untuk instans "dokumen" dengan menambahkan baris tambahan berikut ke contoh kode di atas:

dari pyquery impor PyQuery sebagai pq
dokumen = pq("Halo Dunia !!")
cetak (bantuan (dokumen))

Anda juga dapat menelusuri API untuk kelas PyQuery secara online.

Untuk membuat pohon dokumen dari URL, gunakan kode berikut sebagai gantinya (ganti "url" dengan alamat yang Anda inginkan):

dari pyquery impor PyQuery sebagai pq
dokumen = pq(url='https://contoh.com')
cetak (dokumen)

Untuk membuat pohon dokumen dari file HTML lokal, gunakan kode di bawah ini (ganti nilai "nama file" sesuai dengan kebutuhan Anda):

dari pyquery impor PyQuery sebagai pq
dokumen = pq(namafile='index.html')
cetak (dokumen)

Sekarang setelah Anda memiliki pohon dokumen, Anda dapat mulai menguraikannya.

Memanipulasi Pohon Dokumen

Anda dapat mengekstrak data dan memanipulasi pohon dokumen menggunakan berbagai metode. Beberapa metode yang paling umum tercantum di bawah ini dengan sampel. Untuk semua metode yang dapat digunakan, lihat API yang tersedia di sini.

Anda dapat menggunakan metode "teks" untuk mendapatkan konten teks dari suatu elemen:

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo Dunia !!

")
p = dokumen('p')
cetak (p.teks())

Anda dapat memilih tag / elemen tertentu dengan memberikan namanya sebagai argumen ke instance "dokumen". Setelah menjalankan contoh kode di atas, Anda akan mendapatkan output berikut:

Halo Dunia !!

Anda bisa mendapatkan atribut tag dengan menggunakan metode "attr". Untuk melakukannya, pilih tag yang ingin Anda urai ('p' dalam kasus ini) dan berikan nama atribut sebagai argumen ('id' dalam kasus ini) atau gunakan notasi titik.

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo Dunia !!

")
p = dokumen('p')
cetak (dokumen)
cetak (p.attr("id"), p.attr.Indo)

Setelah menjalankan contoh kode di atas, Anda akan mendapatkan output berikut:

Halo Dunia !!

Anda dapat memanipulasi CSS menggunakan metode "css". Untuk menambahkan gaya CSS ke

atau tag lainnya, Anda dapat menggunakan kode berikut:

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo Dunia !!

")
p = dokumen('p')
p.css("warna": "merah")
cetak (dokumen)
cetak (p.attr("gaya"))

Ganti bagian ""color": "red"" dengan gaya kustom Anda sendiri. Setelah menjalankan contoh kode di atas, Anda akan mendapatkan output berikut dan dapat memverifikasi bahwa CSS telah diterapkan dengan benar:

Halo Dunia !!


warna merah

Jika Anda memiliki kelas pra-gaya, Anda bisa menggunakan metode "addClass" untuk menerapkan gaya yang ada.

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo Dunia !!

")
p = dokumen('p')
p.addClass("gayaku")

Anda dapat menambahkan dan menambahkan markup kustom Anda sendiri menggunakan contoh kode di bawah ini:

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo Dunia !!

")
p = dokumen('p')
p.tambahkan("

Hai

")
p.menambahkan("

Sampai jumpa

")
cetak (dokumen)

Ganti argumen dalam metode "tambahkan" dan "tambahkan" dengan nilai Anda sendiri. Setelah menjalankan contoh kode di atas, Anda akan mendapatkan output berikut:

Hai

Halo Dunia !!

Sampai jumpa

Untuk menghapus konten elemen, gunakan metode "kosong".

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo Dunia !!

")
p = dokumen('p')
p.kosong()
cetak (dokumen)

Setelah menjalankan contoh kode di atas, Anda akan mendapatkan output berikut:

Anda dapat menggunakan metode "filter" untuk memilih elemen tertentu ketika ada beberapa tag dengan jenis yang sama. Misalnya, kode di bawah ini mengambil "

” tag yang memiliki “id” sebagai “halo”:

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo

Dunia !!

")
p = dokumen('p')
cetak (p.filter("#halo"))

Setelah menjalankan contoh kode di atas, Anda akan mendapatkan output berikut:

Halo

Anda dapat menemukan beberapa tag / elemen sekaligus menggunakan metode "temukan":

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo

Dunia !!

")
cetak (dokumen.temukan('p'))

Berikan tag / nama elemen sebagai argumen ke metode "temukan". Setelah menjalankan contoh kode di atas, Anda akan mendapatkan output berikut:

Halo

Dunia !!

Anda dapat beralih antara parser “xml” dan “html” menggunakan argumen “parser” tambahan:

dari pyquery impor PyQuery sebagai pq
dokumen = pq("

Halo

Dunia !!

", parser="html")
cetak (dokumen)

Jika Anda memerlukan bantuan lebih lanjut dengan Pyquery, lihat dokumentasi resmi dan contoh yang tersedia di sini.

Kesimpulan

PyQuery memungkinkan Anda untuk dengan cepat mengurai dokumen html dengan menulis kode minimum, karena mencakup banyak fungsi pembantu yang sepenuhnya menghilangkan kebutuhan untuk menulis kode khusus. "jQuery" seperti sintaks dan struktur juga membantu dalam memilih elemen dan node tanpa masuk lebih dalam ke pohon dokumen, terutama ketika ada banyak markup bersarang.

Cara Mengubah Pengaturan Mouse dan Touchpad Menggunakan Xinput di Linux
Sebagian besar distribusi Linux dikirimkan dengan pustaka "libinput" secara default untuk menangani kejadian input pada sistem. Ini dapat memproses ke...
Petakan ulang tombol mouse Anda secara berbeda untuk perangkat lunak yang berbeda dengan Kontrol Tombol X-Mouse
Mungkin Anda membutuhkan alat yang dapat membuat kontrol mouse Anda berubah dengan setiap aplikasi yang Anda gunakan. Jika demikian, Anda dapat mencob...
Ulasan Mouse Nirkabel Microsoft Sculpt Touch
Saya baru-baru ini membaca tentang Microsoft Sculpt Touch mouse nirkabel dan memutuskan untuk membelinya. Setelah menggunakannya untuk sementara waktu...