百度汉语字典爬虫

利用爬虫从百度抓取所有汉字的词组，然后整理有效的词组在mysql数据库中。

基于百度汉语数据(共抓取35W词组拼音数据) 。

使用方法

安装

$ git clone https://github.com/SivanLaai/BaiduPinyinCrawler.git
$ cd BaiduPinyinCrawler
$ mv setting_sample.ini setting.ini
$ pip install -r requirements.txt

安装mysql

创建表格

CREATE TABLE `single_character_info` (
  `pinyin` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NOT NULL,
  `word` varchar(255) NOT NULL,
  `plainPinyin` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NOT NULL,
  `definition` varchar(4096) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci DEFAULT NULL,
  `pronunciation` varchar(255) DEFAULT NULL,
  `wordID` int DEFAULT NULL,
  PRIMARY KEY (`word`,`pinyin`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

配置setting

[LOG]
LEVEL = INFO //日志等级
LOG_PATH = ./FundCrawler/logs //日志目录

[MYSQL]
host = 127.0.0.1 //MYSQL服务器ip
PORT = 20137 //MYSQL服务器端口
USERNAME = username
PASSWORD = password
DATA_BASE_NAME = Fund

运行爬虫

# 会开始抓取百度下所有的词组和拼音以及常见的含义。
$ python PinyinDataCrawler.py

注意事项

因为数据量过大，爬虫的抓取时间可能需要1到2天，需要保证程序的正常运行。
先配置好mysql。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
data		data
.gitignore		.gitignore
Config.py		Config.py
LICENSE		LICENSE
Logger.py		Logger.py
PinyinDataCrawler.py		PinyinDataCrawler.py
README.md		README.md
requirements.txt		requirements.txt
setting_sample.ini		setting_sample.ini

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data

data

.gitignore

.gitignore

Config.py

Config.py

LICENSE

LICENSE

Logger.py

Logger.py

PinyinDataCrawler.py

PinyinDataCrawler.py

README.md

README.md

requirements.txt

requirements.txt

setting_sample.ini

setting_sample.ini

Repository files navigation

百度汉语字典爬虫

使用方法

注意事项

About

Releases

Packages

Languages

License

SivanLaai/BaiduPinyinCrawler

Folders and files

Latest commit

History

Repository files navigation

百度汉语字典爬虫

使用方法

注意事项

About

Topics

Resources

License

Stars

Watchers

Forks

Languages