jd-spider

爬取京东商品详情页信息：价格，主图，详情图，店铺信息等

反爬策略

通过多次实验发现，京东反爬策略大致如下：

同一IP，同时访问链接次数大于100以上，定义为爬虫，会重定向到京东首页；

爬虫策略

爬取的链接数量过大，采用分批次爬取，每次不超过100个链接数，可以自定义每个批次的数量，在上一个批次全部爬取完之后，进行下一批次的爬取
文本信息，轮播图片来源于相应sku的h5页面，无论提供的链接是pc端还是h5端的，最终都转化为h5链接（因为h5页面比较好爬）
详情图片默认来源于pc页面，若没有，则取对应的h5页面的图片链接

启动方式

默认只爬取页面文本信息，并导出excel

npm run jd

or 一键爬取文本信息和图片信息

npm run jdImg

需要的数据

默认配置下，只需要下载resource的template.xlsx,并替换需要爬取的url链接，然后执行命令，就可以开始了
若不使用template.xlsx模版，则需要修改相应配置文件 config.js

默认excel导出项

链接
商品名称
价格
店铺名称
是否为自营

默认图片下载

分为主图（轮播图）和详图（详情图）
按sku建立文件夹
若需按其他规则建立文件夹，需要修改相应代码 download.js

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
resource		resource
src		src
utils		utils
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
config.js		config.js
package-lock.json		package-lock.json
package.json		package.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

resource

resource

src

src

utils

utils

.DS_Store

.DS_Store

.gitignore

.gitignore

README.md

README.md

config.js

config.js

package-lock.json

package-lock.json

package.json

package.json

Repository files navigation

jd-spider

反爬策略

爬虫策略

启动方式

需要的数据

默认excel导出项

默认图片下载

About

Releases

Packages

Contributors 2

Languages

Cecilxx/jd-spider

Folders and files

Latest commit

History

Repository files navigation

jd-spider

反爬策略

爬虫策略

启动方式

需要的数据

默认excel导出项

默认图片下载

About

Topics

Resources

Stars

Watchers

Forks

Languages