关于初始化 #19

WangDongWei515 · 2020-07-12T13:23:17Z

请问下如果想把之前得到的数据都删了，重新跑自己需要的数据，是把data里的数据都删了就好了吗？
还有想请问下如果只是爬自己感兴趣的目标集的话
items = set(response.xpath(
'//a[contains(@href, "/item/")]/@href').re(r'/item/[A-Za-z0-9%\u4E00-\u9FA5]+'))
for item in items:
new_url = 'https://baike.baidu.com'+urllib.parse.unquote(item)
new_item_name = re.sub(
'/', '', re.sub('https://baike.baidu.com/item/', '', new_url))
if new_item_name not in self.olds:
yield response.follow(new_url, callback=self.parse)
把这里直接注释掉，然后在网址那里改成自己需要的就行了吗？

lixiang0 · 2020-07-13T15:13:36Z

第一个问题，是的。
第二个问题，不是很理解你要做什么，不过值爬你需要的词条只需要修改yield语句，只产生你感兴趣的链接就行了。

WangDongWei515 · 2020-07-14T00:54:07Z

第一个问题，是的。
第二个问题，不是很理解你要做什么，不过值爬你需要的词条只需要修改yield语句，只产生你感兴趣的链接就行了。

已经修改好了，十分感谢！

zihao-miao · 2020-09-09T15:22:20Z

第一个问题，是的。
第二个问题，不是很理解你要做什么，不过值爬你需要的词条只需要修改yield语句，只产生你感兴趣的链接就行了。

已经修改好了，十分感谢！

怎么修改的，大佬请赐教，我这个只能爬取中文名，其他的关系无法爬取，我是在Windows上运行的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于初始化 #19

关于初始化 #19

WangDongWei515 commented Jul 12, 2020

lixiang0 commented Jul 13, 2020

WangDongWei515 commented Jul 14, 2020

zihao-miao commented Sep 9, 2020

关于初始化 #19

关于初始化 #19

Comments

WangDongWei515 commented Jul 12, 2020

lixiang0 commented Jul 13, 2020

WangDongWei515 commented Jul 14, 2020

zihao-miao commented Sep 9, 2020