ProxyFetch

简介

使用python的requests库，实现对三个IP代理网站的免费IP代理的爬取，使用协程进行运行三个爬虫加快整体爬取速度,使用Ubuntu的cron服务来定时刷新MySQL数据库里面的数据，并检测获得的IP是否可用并刷选保留可用IP代理。另外写了一个ProxyPool代理爬虫项目可以通过简单的添加xpath页面解析规则和添加item清理即可完成一个新代理网站的开发，这里提到爬取的代理网站ProxyPool代理爬虫项目里都有，详情可到项目里看~

爬取的代理网站有网站一www.goubanjia.com，网站二proxy.mimvp.com和网站三www.xicidaili.com三个网站。

网站一对页面数据进行加密了，所以直接用selenium来获取js渲染后的页面。另外该网站对IP显示加入了噪音，最后采用正则获取IP地址。

网站二端口字段的值用图片显示，用简单的向量空间搜索算法进行图片识别获得端口号。

网站三很简单...

Requirements

Ubuntu 17.10

python3 (anaconda3)

requests

gevent

DButils

Pillows

以上第三方库可以使用requirements直接安装，pip install -r requirements, 即可配置python环境需求，此外还需要用到MySQL数据库。

使用方法

配置好环境，直接运行run_fetch.py即可

说明

仅作学习交流使用！

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
example		example
iconset		iconset
README.md		README.md
__init__.py		__init__.py
caphcat_identify.py		caphcat_identify.py
caphcat_sample.py		caphcat_sample.py
config_MySQL_sample.py		config_MySQL_sample.py
fectch.py		fectch.py
fectch_goubanjia.py		fectch_goubanjia.py
fectch_mimvp.py		fectch_mimvp.py
fectch_xici.py		fectch_xici.py
filter.log		filter.log
filter_ip.csv		filter_ip.csv
filter_ip.py		filter_ip.py
requirements.txt		requirements.txt
run_fetch.py		run_fetch.py

Barnettxxf/ProxyFetch

Folders and files

Latest commit

History

Repository files navigation

ProxyFetch

简介

Requirements

使用方法

说明

About

Topics

Resources

Stars

Watchers

Forks

Languages