Cara Mengikis Laman Web dengan Python

Kadang-kadang anda mungkin ingin mengekstrak data dari laman web ke dalam format yang berbeza. Tetapi bagaimana jika laman web tidak mempunyai cara mudah untuk mengeksport data tersebut? Di sinilah pengikisan web masuk.

Kami telah melancarkan kursus kemalangan di saluran YouTube freeCodeCamp.org yang akan mengajar anda bagaimana melakukan pengikisan web menggunakan perpustakaan Python Beautiful Soup.

Kursus ini dikembangkan oleh Jim Ergin dari JimShapedCoding. Jim telah menggunakan dan mengajar Python selama bertahun-tahun.

Beautiful Soup akan membolehkan anda mengumpulkan maklumat yang anda mahukan dari mana-mana laman web yang anda mahukan. Ini boleh menjadi laman web bank, media sosial, Wikipedia, atau laman web lain.

Beautiful Soup menyediakan kaedah untuk menavigasi, mencari, dan mengubahsuai pokok parse. Ini menjadikannya lebih mudah untuk membedah dokumen HTML dan mengekstrak data yang anda perlukan. Dan tidak memerlukan banyak kod untuk menulis aplikasi.

Dalam kursus ini, anda akan belajar bagaimana mengikis halaman HTML asas hanya untuk mempelajari konsep. Kemudian, anda akan beralih ke laman web sebenar. Pada akhirnya, anda akan belajar bagaimana menyimpan maklumat yang anda mengikis dari laman web.

Berikut adalah topik yang dibahas dalam kursus ini:

  • Struktur HTML Asas, Penjelasan Tag HTML
  • Pemasangan bungkusan
  • Mengikis fail tempatan
  • Kaedah cari & cari_cantik Sup ()
  • Alat periksa penyemak imbas web
  • Mendapatkan harga dalam projek mengikis web asas
  • Menggunakan perpustakaan permintaan untuk melihat HTML laman web  
  • Mengikis laman web pengeluaran
  • Mengulangi objek sup.find_all () yang serupa
  • Menyaring kerja yang dikikis
  • Menyiapkan projek untuk mengikis setiap 10 minit
  • Menyimpan perenggan pekerjaan dalam fail teks

Tonton kursus crash penuh di saluran YouTube freeCodeCamp.org (jam 1 jam).