Skip to content

jwlin/web-crawler-tutorial

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

[公告] 本課程已停止更新。新版課程已發布於 Python 網頁爬蟲入門實戰 2023

已經購買 hahow 課程的舊生,可填寫此表單索取新版課程折價券

(以下為原課程內容)

  • 註:本課程為 2017 年錄製,部份課程影片因為各大網站/服務變動的關係,影片內容可能過時/失效。但教材程式碼部份會不定時更新修正,購課前請參考 lecture 目錄下各章節講義,確認教材符合您的學習需求。
  • 教材程式碼最後更新日期: 2022/01/05

課程單元

  1. 環境設定與網頁爬蟲初探 (PyCharm 設定,virtualenv 設定,套件安裝,爬蟲初探與例外狀況處理)
  2. 網頁解構與 BeautifulSoup 講解 (寫爬蟲之前的注意事項,BeautifulSoup 重要功能如 find(), find_all() 講解,網頁結構巡覽,正規表示式)
  3. 網頁爬蟲範例實戰 (PTT 八卦版今日熱門文章, Yahoo 奇摩電影本週新片資訊, 兩大報當日焦點新聞, Google Finance 網頁)
  4. 與 API 互動 (API 格式簡介及實例介紹: freegeoip.net, facebook graph api, imdb api, google fianance api)
  5. 資料儲存 (儲存圖片檔、儲存資料到 CSV 檔、儲存資料到資料庫 SQLite)
  6. 各類型文件的爬蟲 (非 UTF-8 編碼的文件及 xml 檔)
  7. 期末專題 (手機比價)
  8. 處理表單及登入頁 (requests.post(), 搭配範例: 台灣證券交易所股票資料及空氣品質監測網)
  9. 處理動態網頁 (Selenium Webdriver)
  10. 中文自然語言處理 (jieba 簡介,斷詞,自訂與繁體字字典,搭配歌詞文字雲範例)
  11. 爬蟲撰寫經驗談 (常被網站封鎖的原因與解法,常見的網站安全措施的處理,如何更換代理 IP,補充教材)

說明

  • 範例程式在各章目錄內, 講義在 lecture 目錄下
  • 範例程式所需套件 pip install -r requirements.txt (Python 3)