Skip to content

ncaq/dic-nico-intersection-pixiv

Repository files navigation

dic-nico-intersection-pixiv

ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書。

ダウンロード

dic-nico-intersection-pixiv-google.txt

Google日本語入力およびMozc形式です。

説明

ニコニコ大百科とピクシブ百科事典の双方に登録されている単語の辞書です。 読みがなはニコニコ大百科のデータを使っています。

ニコニコ大百科と、ピクシブ百科事典のデータを利用させていただいています。

ルールベースでIME辞書の役に立たなそうな単語を除外しています。

曖昧に絞り込んでいるので、本当はPixiv百科事典に存在しないのに単語が載っていたり、逆に存在していても載っていなかったりします。

誤変換指摘の記事をなるべく除外しようとしていますが、擬陽性や偽陰性が存在します。

品詞は諦めて全部アスキー文字の場合アルファベット、そうでない場合固有名詞にしています。 あまり変換に影響しないので気にしていません。

想定利用シーン

  • 標準辞書が貧弱なMozcの拡張辞書
  • Android版Google日本語入力に入れてサジェストを強化
  • 東方Project辞書(名前、曲、スペルカードなど)
  • ネットスラング、作品名、VTuber、ポケモン、アイドルマスター辞書

開発動機

主に東方Project関連の単語の変換を行いたかったのですが、東方Project辞書 | Cue:LABは開発当時は東方紺珠伝に対応していなかったことと、複数の辞書を世界の固有名詞が増えるたびに更新していくのは大変だという理由で、あまり使いたくありませんでした。

色々な単語を備えてうってつけなのが、ニコニコ大百科IME辞書に思えますが、これは単語量が多すぎて、PCならともかくスマートフォンのGoogle日本語入力が重たくなってしまいます。 また量が多すぎて読みで遊んでいる単語(読みが通常の読み方とは異なる記事の一覧に載っているような単語)が沢山あって、誤爆をしやすいという問題がありました。 さらに下記のブログ記事に書いたように、括弧を使った単語が括弧なしの単語とコンフリクトしてしまい、括弧なしの単語がうまく変換できませんでした。 よって自分でニコニコ大百科をスクレイピングしています。

単語をメジャーなものだけに絞り、遊んでいる読みの単語を排除するにはどうすれば良いか考えた結果、ピクシブ百科事典にも登録されている単語のみを採用すれば良いと思いつきました。

ニコニコ大百科のデータの処理に関しては、ニコニコ大百科IME辞書 神は細部に宿り給うの処理方法を参考にさせて頂きました。

読みが違う単語を弾くために、読みが通常の読み方とは異なる記事の一覧のデータを使用して私自身も編集に参加しています。

ライセンス

コード部分はMITライセンスです。

生成物はスクレイピング結果を利用している都合上、著作権は主張しません。

ブログ記事