GunocyのURLを入力するとその記事カテゴリを判定する。
djangoによるwebアプリとして実装。
webアプリの分類器はナイーブベイズを使用。
・ナイーブベイズ
・SVM
入力はニューステキストを単語とその出現回数で表現するBag-of-wordsとした。
ゼロ頻度問題に対しては単語の出現回数に1を加えるラプラススムージングによって緩和した。
入力はBag-of-wordsをTF-IDFにて重み付けした後,LSIによって300次元へ次元削減を行ったものとした。
パラメータはグリッドサーチで最も点数の高いものとした。
必要なライブラリに関してはrequirement.txt内に記した。
$ python manage.py makemigrations
$ python manage.py migrate
$ python manage.py collect_db
$ python manage.py train_naive_bayes
$ python manage.py runserver
svmの学習を行うには,
$ python manage.py train_svm
またそれぞれの学習結果はstatic/image以下にConfusion matrixとして表示。