Skip to content

toannd96/Crawler_Web_Js

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Crawler-JS

Dùng scrapy-splash kết hợp lua script để crawl các trang web sử dụng Javascript (websosanh)

├── crawl_service
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── run.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── websosanh.py
        └── lazada.py
├── requirements.txt
└── scrapy.cfg
  • Cài đặt Splash

Cài Docker sau đó chạy

$ sudo docker pull scrapinghub/splash

$ sudo docker run -p 8050:8050 scrapinghub/splash
  • Cài các thư viện cần thiết khác ( Nên dùng virtualenv )
pip install -r requirements.txt
  • Chạy script
python run.py

hoặc

scrapy crawl wss 
scrapy crawl lazada

Releases

No releases published

Packages

No packages published

Languages