关于简书爬虫 #44

FHU-yezi · 2021-04-20T10:05:06Z

如果作者开发一个从特定文章获取数据的功能，也许会提升运行效率。

看了目前的爬虫代码，是从个人主页获取的，但是文章中获取好像有点难，开发工具里找不到对应的网络请求。

要爬的字段主要是这几个：

后两个已经可以解决了，前三个可以在 Html 中找到，但直接 Get 获取不到，看网络请求发现没有，应该是 JS 发起请求再填充进去的，但我没有 JS 开发能力，没办法解析代码。

初步定位到请求应该来自 _app.js 这个文件，不知道具体怎么发起的，居然可以隐藏网络请求。

最后，我自己有个简书爬虫库，主页的 JianshuResearchTools 就是，也用的 Requests 和 BeautifulSoup4，可以参考一下，如果能提几个 PR 更好。

感谢开发大大。

kangvcar · 2021-04-20T11:11:04Z

@FHU-yezi 感谢您的提议，您的提议非常棒！by the way 您的 JianshuResearchTools 很棒。

FHU-yezi · 2021-04-30T11:12:28Z

已经找到了接口，功能已经在 JRT 中实现，明天发版就包含了。

kangvcar added the enhancement New feature or request label Feb 4, 2024

Provide feedback