Skip to content

Latest commit

 

History

History
10 lines (6 loc) · 399 Bytes

robot.md

File metadata and controls

10 lines (6 loc) · 399 Bytes

爬虫前需要注意的地方

注意文件robot.txt。这个文件定义了,网站不能被访问的文件以及文件夹,擅自爬取的话需要负法律责任。并且很多网站这些目录时不能访问的。爬取页面之前一定要查清那些目录不能爬取。

可以通过在浏览器中输入地址查看内容。

在浏览器中输入

http://uiseed.cn/robbo.txt

就n