Skip to content

StevenHsu22/Crawler-project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

42 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Crawler

17 June 2022. Update: 2022/06/17.

所需python套件

  • requests

  • bs4

  • fake_useragent

此程式目的

  • 爬取各大平台餐飲資料,並存成所需欄位,最終進行資料分析。

Ptt爬蟲

  • pttcrawler: 透過 requests 與 bs4 抓取資料,並可自行設定關鍵字與頁數。

Dcard爬蟲

  • dcardcrawler: 透過 Dcard API 中搜尋關鍵字的語法抓取特定資料,另特別使用 fake_useragent 避免被擋爬。

Google評論爬蟲

  • googlecrawler: 透過 requests 爬取 google 地圖的評論資料,且需在事前將須爬取店家的 requests 存成另一個檔案,此外,也特別使用 fake_useragent 避免被擋爬。

補充:店家 requests 的查找方式

1.選擇一個商家資訊網址

2.打開開發者工具 > Network > XHR。

3.重新整理,讓工具抓到新讀取的資料。

4.找到重複的連結(listentitiesreviews….)。

簡易api呈現

  • sampleapi: 透過將爬取到的資料存至 phpmyadmin,再利用 SQL 語法與 HTTP Get 做簡易串接,最終在 swagger 中呈現。(目前由於 swagger 服務問題尚無法呈現在 swagger,只能在 postman 呈現)

About

ptt、dcard、google評論爬蟲

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages