Skip to content

WalterLu3/IR_final_project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

28 Commits
 
 
 
 
 
 
 
 

Repository files navigation

IR_final_project

用法:

DcardCrawler(number,title) 

number文章數量,title板名,會抓下"title"版名的最新number個數量。 title名稱就去dcard網頁,隨便點一個板,就會看到他的英文網址,裡面有title。 像是美妝:https://www.dcard.tw/f/makeup 所以title就知道要輸入makeup 假如說要抓前1000筆makeup板文章,DcardCrawler(1000,"makeup") 會直接在資料夾底下創出dill檔案

PTTCrawler(number,title) 

用法與dcard相同,也要打英文板名,記得大小寫

需要下載PTTLibrary package

pip install PTTLibrary

clustering.py
V是全20000篇標題+文章+留言的集合
Cluster總共有20個,前面i = 0-9是ptt看板,後面10-19是Dcard看板,順序寫在code裡面。
配合stopwords.txt放在clean資料夾使用。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages