Skip to content

Cecilxx/jd-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

jd-spider

爬取京东商品详情页信息:价格,主图,详情图,店铺信息等

反爬策略

通过多次实验发现,京东反爬策略大致如下:

  1. 同一IP,同时访问链接次数大于100以上,定义为爬虫,会重定向到京东首页;

爬虫策略

  1. 爬取的链接数量过大,采用分批次爬取,每次不超过100个链接数,可以自定义每个批次的数量,在上一个批次全部爬取完之后,进行下一批次的爬取
  2. 文本信息,轮播图片来源于相应sku的h5页面,无论提供的链接是pc端还是h5端的,最终都转化为h5链接(因为h5页面比较好爬)
  3. 详情图片默认来源于pc页面,若没有,则取对应的h5页面的图片链接

启动方式

默认只爬取页面文本信息,并导出excel

npm run jd

or 一键爬取文本信息和图片信息

npm run jdImg

需要的数据

  1. 默认配置下,只需要下载resource的template.xlsx,并替换需要爬取的url链接,然后执行命令,就可以开始了
  2. 若不使用template.xlsx模版,则需要修改相应配置文件 config.js

默认excel导出项

  1. 链接
  2. 商品名称
  3. 价格
  4. 店铺名称
  5. 是否为自营

默认图片下载

  1. 分为主图(轮播图)和详图(详情图)
  2. 按sku建立文件夹
  3. 若需按其他规则建立文件夹,需要修改相应代码 download.js

About

NodeJS京东商品详情页爬虫:轮播图,详情图,价格,店铺信息,是否自营等

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published