CNKI-selenium-crawler

配置：

本项目使用selenium模块，浏览器使用的是火狐。

1.下载geckodriver，地址https://github.com/mozilla/geckodriver/releases

2.将适配的安装包放置在火狐浏览器的安装路径、Python的Stricpts文件夹

3.将火狐的安装路径添加到电脑环境变量的用户变量的path中。

功能：

1.社科基金项目数据爬取

2.论文的元数据爬取

3.论文的参考和引证的期刊文献爬取

参考文献

引证文献

注意事项：

1.任意网络均适用，不需要购买知网。

2.可以按原始代码从社科基金项目开始直到产出论文的参考、引证文献的爬取。也可以自定义。

3.爬取速度可以调节，修改程序里的t.sleep()中的数值即可，建议1到6之间，可以采用random随机。

4.论文元数据爬取需要严格按照三个程序的顺序，即题名等、被引数等、论文地址。

5.所有结果均以excel方式保存，注意看文件路径。本项目中基金号为主键。

6.仅作学习使用。

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
社科基金数据		社科基金数据
论文元数据		论文元数据
论文参考、引证文献		论文参考、引证文献
README.md		README.md
专利图1.drawio		专利图1.drawio
未命名绘图.drawio		未命名绘图.drawio
自杀言论检测模型.drawio		自杀言论检测模型.drawio
项目概要.drawio		项目概要.drawio

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

社科基金数据

社科基金数据

论文元数据

论文元数据

论文参考、引证文献

论文参考、引证文献

README.md

README.md

专利图1.drawio

专利图1.drawio

未命名绘图.drawio

未命名绘图.drawio

自杀言论检测模型.drawio

自杀言论检测模型.drawio

项目概要.drawio

项目概要.drawio

Repository files navigation

CNKI-selenium-crawler

About

Releases

Packages

Languages

stay-leave/CNKI-selenium-crawler

Folders and files

Latest commit

History

Repository files navigation

CNKI-selenium-crawler

About

Resources

Stars

Watchers

Forks

Languages