学习爬虫
jike.py 抓取极客学院的课程信息;
domain.py 使用selenium获取查询域名是否已被注册;
test2.py 使用ghost获取查询域名是否已被注册;
test.py 使用qtwebkit获取查询域名是否已被注册,相比还是ghost.py比较简洁。
lg.py 用selenium登陆万网,才发现登陆框在iframe中。
zhihu 使用scrapy获取知乎用户的头像,保存在了本地。
weixin 通过搜狗搜索爬取微信公众号并将获取内容使用mongodb进行保存,不过很容易被ban,只简单地设置了cookie,并且只爬取了关键词的相关搜索结果的一定页数,没有爬取所有结果
amazon 使用scrapy获取amazon书籍信息(关键词:python),并保存至mysql。
xici.py requests+bs4+pymysql,获取西祠高匿代理ip,存储到了mysql
-
Notifications
You must be signed in to change notification settings - Fork 4
gaokaigithub/myspider
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
学习爬虫
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published