Skip to content

johtani/extract-kana-java

Repository files navigation

フリガナ抽出アプリ

引数として与えられたテキスト(もしくは改行区切りのファイル)のフリガナをいくつかの形態素解析器を使って出力します。

概要

テキストを入力に与えると以下の形態素解析器を利用して読み仮名を取得して出力するアプリです。 現在対応している形態素解析器は以下の通りです。

事前準備

  • ビルドにはJava、Gradleが必要
  • リポジトリをローカルにクローン
  • Sudachiのcore辞書をここからダウンロード
    • ダウンロードしたzipファイルより、system_core.dicをプロジェクト直下にコピー

ビルド

Gradleを利用してビルドします。

cd extract-kana-java
./gradlew build

使用方法

テキスト入力

cd extract-kana-java
./furigana.sh 東京タワー

出力

東京タワー,kuromoji_neologd,トウキョウタワー,sudachi,トウキョウ タワー

ファイル入力

./furigana.sh -m=FILE ファイル名

ヘルプ出力

./furigana.sh -h

TODO(以下、未実装)

  • NDJSONフォーマットによる出力
  • ファイル出力オプション

ライセンス

Apache License 2.0

About

Output furigana using some tokenizers

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published