Skip to content

gaokaigithub/myspider

Repository files navigation

myspider

学习爬虫
jike.py 抓取极客学院的课程信息;
domain.py 使用selenium获取查询域名是否已被注册;
test2.py 使用ghost获取查询域名是否已被注册;
test.py 使用qtwebkit获取查询域名是否已被注册,相比还是ghost.py比较简洁。
lg.py 用selenium登陆万网,才发现登陆框在iframe中。
zhihu 使用scrapy获取知乎用户的头像,保存在了本地。
weixin 通过搜狗搜索爬取微信公众号并将获取内容使用mongodb进行保存,不过很容易被ban,只简单地设置了cookie,并且只爬取了关键词的相关搜索结果的一定页数,没有爬取所有结果
amazon 使用scrapy获取amazon书籍信息(关键词:python),并保存至mysql。
xici.py requests+bs4+pymysql,获取西祠高匿代理ip,存储到了mysql

About

学习爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages