GitHub - tkanng/Train-Crawler: 12306火车时刻表信息爬虫，车次经停站信息爬虫，ADSL反反爬虫机制。

1. 基本介绍：

config.py：配置信息文件
generate_task2db.py:从12306网站上下载train_list和station_name信息，对数据进行初步处理。生成两类任务：车次时刻表信息抓取任务(train_crawler.py)与车次经停靠站点信息（path_stations_crawler.py）。_id（主键）：任务抓取url参数。车次时刻表信息抓取任务，对应起始站代码和终点站代码；车次经停靠站点信息抓取任务，对应车次序号train_no、起始站代码和终点站代码。status: 任务执行状态。以0作为任务抓取的初始状态值，表示UN_PROCESSED，1表示PROCESSING,2表示PROCESSED
train_crawler.py: 车次时刻表信息抓取爬虫。
path_stations_crawler.py: 经停靠站台信息抓取爬虫。
get_page.py : 为防止反爬虫机制，由requests库改进而来的网页请求模块。这个模块中，集成了ip切换机制与其他强有力的反反爬虫技巧。
adsl_server.py: ADSL拨号服务器运行的脚本。ADSL服务器与爬虫服务器，通过redis数据库进行通信。

2. 使用方法：

配置config.py: 在config.py中添加对应的MongoDB地址和redis地址（在本项目中不是必须）。
在对应数据库中新建两个collection，在默认代码中两个collection位于crawler_task_status数据库下,分别是train_info_test和path_stations_test
数据存储方式，可以在train_crawler.py（车次时刻表信息）和path_stations_crawler.py（某一车次停靠站详细信息）

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
adsl_server.py		adsl_server.py
config.py		config.py
generate_task2db.py		generate_task2db.py
get_page.py		get_page.py
path_stations_crawler.py		path_stations_crawler.py
station_name.temp		station_name.temp
train_crawler.py		train_crawler.py
train_list.temp		train_list.temp
train_name_code		train_name_code
列车信息各API.txt		列车信息各API.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

adsl_server.py

adsl_server.py

config.py

config.py

generate_task2db.py

generate_task2db.py

get_page.py

get_page.py

path_stations_crawler.py

path_stations_crawler.py

station_name.temp

station_name.temp

train_crawler.py

train_crawler.py

train_list.temp

train_list.temp

train_name_code

train_name_code

列车信息各API.txt

列车信息各API.txt

Repository files navigation

1. 基本介绍：

2. 使用方法：

About

Releases

Packages

Languages

tkanng/Train-Crawler

Folders and files

Latest commit

History

Repository files navigation

1. 基本介绍：

2. 使用方法：

About

Topics

Resources

Stars

Watchers

Forks

Languages