GitHub - jwlin/web-crawler-tutorial: Python 網頁爬蟲入門實戰

[公告] 本課程已停止更新。新版課程已發布於 Python 網頁爬蟲入門實戰 2023

已經購買 hahow 課程的舊生，可填寫此表單索取新版課程折價券

(以下為原課程內容)

註：本課程為 2017 年錄製，部份課程影片因為各大網站/服務變動的關係，影片內容可能過時/失效。但教材程式碼部份會不定時更新修正，購課前請參考 lecture 目錄下各章節講義，確認教材符合您的學習需求。
教材程式碼最後更新日期: 2022/01/05

環境設定與網頁爬蟲初探 (PyCharm 設定，virtualenv 設定，套件安裝，爬蟲初探與例外狀況處理)
網頁解構與 BeautifulSoup 講解 (寫爬蟲之前的注意事項，BeautifulSoup 重要功能如 find(), find_all() 講解，網頁結構巡覽，正規表示式)
網頁爬蟲範例實戰 (PTT 八卦版今日熱門文章, Yahoo 奇摩電影本週新片資訊, 兩大報當日焦點新聞, Google Finance 網頁)
與 API 互動 (API 格式簡介及實例介紹: freegeoip.net, facebook graph api, imdb api, google fianance api)
資料儲存 (儲存圖片檔、儲存資料到 CSV 檔、儲存資料到資料庫 SQLite)
各類型文件的爬蟲 (非 UTF-8 編碼的文件及 xml 檔)
期末專題 (手機比價)
處理表單及登入頁 (requests.post(), 搭配範例: 台灣證券交易所股票資料及空氣品質監測網)
處理動態網頁 (Selenium Webdriver)
中文自然語言處理 (jieba 簡介，斷詞，自訂與繁體字字典，搭配歌詞文字雲範例)
爬蟲撰寫經驗談 (常被網站封鎖的原因與解法，常見的網站安全措施的處理，如何更換代理 IP，補充教材)

Name		Name	Last commit message	Last commit date
Latest commit History 145 Commits
ch1		ch1
ch10		ch10
ch11		ch11
ch2		ch2
ch3		ch3
ch4		ch4
ch5		ch5
ch6		ch6
ch7		ch7
ch8		ch8
ch9		ch9
lecture		lecture
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt