爬虫前需要注意的地方 注意文件robot.txt。这个文件定义了,网站不能被访问的文件以及文件夹,擅自爬取的话需要负法律责任。并且很多网站这些目录时不能访问的。爬取页面之前一定要查清那些目录不能爬取。 可以通过在浏览器中输入地址查看内容。 在浏览器中输入 http://uiseed.cn/robbo.txt 就n