Skip to content

yzhsieh/web-crawler-tutorial

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

92 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

by Jun-Wei Lin with Pycone 松果城市 (facebook)

課程單元

  1. 環境設定與網頁爬蟲初探 (PyCharm 設定,virtualenv 設定,套件安裝,爬蟲初探與例外狀況處理)
  2. 網頁解構與 BeautifulSoup 講解 (寫爬蟲之前的注意事項,BeautifulSoup 重要功能如 find(), find_all() 講解,網頁結構巡覽,正規表示式)
  3. 網頁爬蟲範例實戰 (PTT 八卦版今日熱門文章, Yahoo 奇摩電影本週新片資訊, 兩大報當日焦點新聞, Google Finance 網頁)
  4. 與 API 互動 (API 格式簡介及實例介紹: freegeoip.net, facebook graph api, imdb api, google fianance api)
  5. 資料儲存 (儲存圖片檔、儲存資料到 CSV 檔、儲存資料到資料庫 SQLite)
  6. 各類型文件的爬蟲 (非 UTF-8 編碼的文件及 xml 檔)
  7. 期末專題 (手機比價)
  8. 處理表單及登入頁 (requests.post(), 搭配範例: 台灣證券交易所股票資料及空氣品質監測網)
  9. 處理動態網頁 (Selenium Webdriver)
  10. 中文自然語言處理 (jieba 簡介,斷詞,自訂與繁體字字典,搭配歌詞文字雲範例)
  11. 爬蟲撰寫經驗談 (常被網站封鎖的原因與解法,常見的網站安全措施的處理,如何更換代理 IP,補充教材)

說明

  • 範例程式在各章目錄內, 講義在 lecture 目錄下
  • 範例程式所需套件 pip install -r requirements.txt (Python 3)

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%