入力発話内の全名詞に対して発話者が興味を持っているかどうかを推定する. kerasを用いて実装.
##データセット 学習のデータフォーマットは以下の通りである.
<sequence><TAB><label>
正解ラベルは全名詞に対して付与され,カンマ区切りで表される
Word2Vecの学習にWikipediaデータを用いており,Word2Vecの語彙に無い語を未知語と定義
未知語に対しての推定は周辺文脈から推定
推定対象及び周辺文脈内の名詞を全てタグに置き換えて学習することで未知語を多く含む発話に対して頑健な興味推定手法になっている?
- 係り受け解析結果に基づいた文脈抽出
- 推定対象からの単語距離
- 品詞情報
- 頻度情報 (Word2Vecの学習コーパス内での頻度,未知語の頻度は0)
- 極性辞書
https://github.com/Hironsan/anago
を参考に双方向LSTMによる系列ラベリングで興味の有無を推定
付与したラベルは
*POS:興味あり
*NEG:興味なし
*NON:名詞(興味推定対象)でない
の3つである