日本語の事前学習コーパスの作成

このレポジトリは日本語の事前学習コーパスを作ることを目的としています.

※このスクリプトはGENIAC(松尾研究室)の活動で開発が進められています.

mC4のクリーニング

mc4をクリーニングし､機械学習で商用サイトなどをフィルタリングし､textを出力します
もとのサイズの20%くらいまでクリーニングできます(推定値)
並列化に対応していないコードなので注意
他のdatasetでも清掃可能です｡

CommonCrawlのWarcファイルからのコーパス構築

CommonCrawlからWARCファイルをダウンロード
日本語のページを抜き出し､クリーニング､ゴミ記事の削除､jsonlを生成
までやるコードです

予定

3/2 Streamlitを使い, アプリ上からコーパス構築を進められるツールの作成
3/3 コードの並列化に対応
3/5 大規模データ加工に秀でたAmazon EMRを使用し, 分散でデータの加工を実行するコードの追加

TODO

クリーニング精度
記事の分割精度
ほか

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
mc4s		mc4s
warc		warc
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
env.yml		env.yml
setup_commands		setup_commands

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

mc4s

mc4s

warc

warc

.gitignore

.gitignore

Dockerfile

Dockerfile

LICENSE

LICENSE

README.md

README.md

docker-compose.yml

docker-compose.yml

env.yml

env.yml

setup_commands

setup_commands

Repository files navigation

日本語の事前学習コーパスの作成

mC4のクリーニング

CommonCrawlのWarcファイルからのコーパス構築

予定

TODO

About

Releases

Packages

Languages

License

KanHatakeyama/JapaneseWarcParser

Folders and files

Latest commit

History

Repository files navigation

日本語の事前学習コーパスの作成

予定

TODO

About

Resources

License

Stars

Watchers

Forks

Languages