myspider

学习爬虫
jike.py 抓取极客学院的课程信息；
domain.py 使用selenium获取查询域名是否已被注册;
test2.py 使用ghost获取查询域名是否已被注册;
test.py 使用qtwebkit获取查询域名是否已被注册，相比还是ghost.py比较简洁。
lg.py 用selenium登陆万网，才发现登陆框在iframe中。
zhihu 使用scrapy获取知乎用户的头像，保存在了本地。
weixin 通过搜狗搜索爬取微信公众号并将获取内容使用mongodb进行保存，不过很容易被ban，只简单地设置了cookie，并且只爬取了关键词的相关搜索结果的一定页数，没有爬取所有结果
amazon 使用scrapy获取amazon书籍信息（关键词：python），并保存至mysql。
xici.py requests+bs4+pymysql，获取西祠高匿代理ip，存储到了mysql

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
amazon		amazon
weixin		weixin
zhihu		zhihu
README.md		README.md
course.xlsx		course.xlsx
domain.py		domain.py
fen.py		fen.py
haibao.py		haibao.py
jike.py		jike.py
lg.py		lg.py
test.py		test.py
v2ex.py		v2ex.py
wanwang.py		wanwang.py
xici.py		xici.py
zh.py		zh.py
zhihu.py		zhihu.py

gaokaigithub/myspider

Folders and files

Latest commit

History

Repository files navigation

myspider

About

Resources

Stars

Watchers

Forks

Languages