Interest Estimation for Conversation System

入力発話内の全名詞に対して発話者が興味を持っているかどうかを推定する． kerasを用いて実装．

##データセット学習のデータフォーマットは以下の通りである．

<sequence><TAB><label>

正解ラベルは全名詞に対して付与され，カンマ区切りで表される

未知語に対しての興味推定

Word2Vecの学習にWikipediaデータを用いており，Word2Vecの語彙に無い語を未知語と定義
未知語に対しての推定は周辺文脈から推定

推定対象及び周辺文脈内の名詞を全てタグに置き換えて学習することで未知語を多く含む発話に対して頑健な興味推定手法になっている？

特徴量

係り受け解析結果に基づいた文脈抽出
推定対象からの単語距離
品詞情報
頻度情報 (Word2Vecの学習コーパス内での頻度，未知語の頻度は0)
極性辞書

系列ラベリング

https://github.com/Hironsan/anagoを参考に双方向LSTMによる系列ラベリングで興味の有無を推定付与したラベルは

*POS:興味あり
*NEG:興味なし
*NON:名詞（興味推定対象）でない

の3つである

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
Embedding.py		Embedding.py
Function.py		Function.py
Model.py		Model.py
README.md		README.md
evaluation.py		evaluation.py
setting.py		setting.py
training.py		training.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

Embedding.py

Embedding.py

Function.py

Function.py

Model.py

Model.py

README.md

README.md

evaluation.py

evaluation.py

setting.py

setting.py

training.py

training.py

Repository files navigation

Interest Estimation for Conversation System

未知語に対しての興味推定

特徴量

系列ラベリング

About

Releases

Packages

Languages

tanaka504/interest_estimation

Folders and files

Latest commit

History

Repository files navigation

Interest Estimation for Conversation System

未知語に対しての興味推定

特徴量

系列ラベリング

About

Topics

Resources

Stars

Watchers

Forks

Languages