Skip to content

gaokaigithub/2m3m

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

2m3m

爬取2m3m域名,并进行规则检索

domain.py

根据时间来爬取2m3m网站上的域名,目前主要爬取的是com域名,网站更新com后缀比较勤快。
第一次运行会爬取即将删除的域名,再次运行就只会爬取更新的域名,加入了检测域名是否更新的函数(is_update()),有更新了才会去爬取域名。
获取的域名数据保存为h5格式,便于检索使用。

want.py

want主要用来检索自己想要的域名,目前可以检索:全字母,全数字,数字+字母,限制长度,包含某个字符以及字符+英文单词,词库使用的15000个常用单词。
添加了regdomain(),可以重写此函数,利用正则来检索域名。最后添加了查询域名是否注册的程序。

ToDo

1、目前爬虫使用的是requests,只做了简单的防ban处理,下一步计划使用西祠代理ip以及使用scrapy提高爬取速度。
2、存储获取的域名数据时,会出现 'natural name warning',下一步计划研究下hdf5存储数据,解决该问题。
3、对于检索功能,目前比较薄弱,尚未加入拼音检索,下一步计划加入拼音检索功能。
4、尝试爬取抢米网域名数据,获取更多域名后缀。
5、需要寒假时解决以上问题了。

About

爬取2m3m域名,并进行规则检索

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages