Skip to content

一个题库,包括抓取试题,抓取答案,图像识别答案,抓取分类,导入数据库

Notifications You must be signed in to change notification settings

reece15/tiku_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

tiku_sprider

帮别人写的一个题库爬虫,包括抓取试题,抓取答案,图像识别答案,抓取分类,导入数据库

  • category.py 运行可在当前目录下生成分类数据 cate.txt
    • 单线程运行 速度较慢
  • sprider.py 运行可在当前目录下生成 某个分类的 试题数据 data.txt
    • 单线程运行 速度较慢
  • sprider2.py 运行可在data文件夹下创建以每个分类编号命名的 试题数据
    • 线程池 + 队列 + 消费者生产者模型 速度较快
  • sprider_qustion 运行可抓取data文件夹内所有问题的答案数据,生成ans_all.txt
    • 线程池 + 队列 + 消费者生产者模型 速度较快
    • 自动识别图像类型的答案
  • dbsave.py 运行可将所有数据导入数据库
    • 线程池 + 队列 + 消费者生产者模型 速度较快

随手写的工具,没怎么优化。不过测试单机可以很快抓取10w+试题,答案,以及几十万图片

About

一个题库,包括抓取试题,抓取答案,图像识别答案,抓取分类,导入数据库

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages