Skip to content

tanaka504/interest_estimation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Interest Estimation for Conversation System

入力発話内の全名詞に対して発話者が興味を持っているかどうかを推定する. kerasを用いて実装.

##データセット 学習のデータフォーマットは以下の通りである.

<sequence><TAB><label>

正解ラベルは全名詞に対して付与され,カンマ区切りで表される

未知語に対しての興味推定

Word2Vecの学習にWikipediaデータを用いており,Word2Vecの語彙に無い語を未知語と定義
未知語に対しての推定は周辺文脈から推定

推定対象及び周辺文脈内の名詞を全てタグに置き換えて学習することで未知語を多く含む発話に対して頑健な興味推定手法になっている?

特徴量

  • 係り受け解析結果に基づいた文脈抽出
  • 推定対象からの単語距離
  • 品詞情報
  • 頻度情報 (Word2Vecの学習コーパス内での頻度,未知語の頻度は0)
  • 極性辞書

系列ラベリング

https://github.com/Hironsan/anagoを参考に双方向LSTMによる系列ラベリングで興味の有無を推定 付与したラベルは

*POS:興味あり
*NEG:興味なし
*NON:名詞(興味推定対象)でない

の3つである

About

No description or website provided.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages