Skip to content

HunterChao/Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

本仓库下包括拉钩、豆瓣和链家三个爬虫

拉钩抓取全部公司介绍信息

运行文件为lagou.py,由于拉钩网对ip有限制,采用更换代理ip的形式进行反爬虫,0103.txt为可用的代理ip,运行时lagou.py随机使用代理ip
拉钩抓取数据部分截图

链家抓取二手房信息数据

采用scrapy框架抓取,运行文件为run.py,在控制台下直接运行即可,无需在cmd下启动
链家爬取数据部分截图

链家项目的详细介绍请见知乎专栏:https://zhuanlan.zhihu.com/p/25132058?refer=pythoncrawl

豆瓣电影信息抓取

按电影分类爬取豆瓣上全部电影信息,共87000余条数据。
包括读取电影分类信息GetPage.py,爬取各类别下电影详情介绍FullContents.py。
豆瓣电影信息的详细介绍请见知乎专栏:https://zhuanlan.zhihu.com/p/24771128?refer=pythoncrawl

About

拉钩 | 豆瓣 | 链家爬虫项目的合集

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages