感情には慣性がある


はじめに

 卒論に取り組み始めた時,IEMOCAPデータセットにおける感情認識精度が最もよかった論文です.また,感情の一貫性という観点から感情認識精度を向上させている点が私の研究と類似していて,研究を進めるうえで参考にしました.

Title タイトル

「Contextualized Emotion Recognition in Conversation as Sequence Tagging」
URL: https://aclanthology.org/2020.sigdial-1.23/
出典: Proceedings of the 21th Annual Meeting of the Special Interest Group on Discourse and Dialogue. 2020. p. 186-195.

Author 著者・所属

Yan Wang, Jiayu Zhang, Jun Ma, Shaojun Wang, Jing Xiao
Ping An Technology

Motivation 研究の出発点

 感情認識の分野では,文脈情報を含んだ発話のベクトル化にRNNを利用している.しかし,RNNでは長期的な依存関係をとらえることができないという欠点がある.そこでTransformerアーキテクチャを導入することでこの課題に取り組む.
 また,会話の中では似たような感情が連続し表出しやすいという傾向があり,論文ではこの性質をEmotional consistencyと名付けている.
最近の感情認識モデルは発話間の文脈情報をとらえられているが,感情間に内在している関係を無視しているため,Emotional consistencyを考慮することで感情認識精度が向上すると考えられる.

Mehod 研究手法

 この研究が提案しているモデルCESTaの注目ポイントは2つある.1つ目は発話間の長期依存関係をとらえるためにTransformerを導入した点.2つ目は,感情認識タスクをsequence taggingの問題として考え,sequence taggingの手法であるCRFをモデルに組み込んだ点である.CESTaの構造は下の図のようになっている.
                   
 CESTaは主に4つのモジュールから構成されている.

Utterance Feature Extraction

 CNNsを使って各発話から特徴量を抽出する.convolution layer,max-pooling layer, 全結合層が1層ずつのシンプルなアーキテクチャを採用している.

Global Context Encoder

 このモジュールは感情を認識する際に,文脈や話者間の影響を考慮する役割があり,BiLSTMを採用している.ここで,LSTMの欠点である長期依存関係をとらえるために多層Transformerを導入している.まずCNN層で得られた発話特徴量をTransformerに入力し,multi-head self-attention 層,全結合層を経て文脈情報を含んだ発話ベクトルがBiLSTMに渡される.

Individual Context Encoder

感情にはemotional inertiaという慣性があり,会話相手だけでなく自分自身の影響も考慮する必要がある.このモジュールはLSTMを採用しており,CNN層で得られた発話特徴量を入力して逐次更新していく.

CRF layer

 この論文の肝であるEmotional consistencyを考慮して感情を推定する最後の層となる.CRFとはsequence taggingタスクに用いられる手法で,感情認識タスクをsequence taggingタスクとして解くことで感情間の相関を考慮し,全体最適となる推定結果を得ることが可能となる.

Insight 結果と知見

 この論文では感情認識の研究でよく使われるデータセットのIEMOCAP,DailyDialogue,MELDを使って評価している.評価結果は下の図のようになった.
            
 この実験結果から得られた知見は3つある.
 1つ目は,発話者情報を利用することで感情認識精度が向上すること.発話者を区別しないと異なる発話者の発話をすべて等しいものとして扱ってしまうため精度が落ちると考えられる.
 2つ目は,Transformerが長期的な依存関係をとらえられていること.下の図の黄色がTransformerを用いたモデル,青がRNNを用いたモデル,赤が2つのモデルの差分を表す.x軸の会話長が長くなるにつれて差分が大きくなっていることがわかる.
                   
 3つ目は,CRF層を導入することでemotional consistencyを考慮した感情推定が可能になった点.
 
 この研究では,上の3つの結果を検証するためにAblation Studyを行っており,同様の結果が得られた.

Contribution Summary 貢献を1行でまとめる

 「Yan WangらはEmotional consistencyを考慮した感情認識を行うため,CRFを用いたsequence taggingタスクとして感情認識を行った結果,感情間の関係を考慮することで感情認識精度が向上することがわかった.」

Keyword キーワード

Emotional consistency, sequence tagging, CRF, Transformer

Unknown 残った課題

  • CESTaをマルチモーダルな感情認識ができるように拡張する
  • CESTaは全体最適になるように感情を予測するため過去の情報だけでなく未来の発話情報も必要になる.当然会話システムでは未来の発話情報を利用することができないため,リアルタイム処理ができるように改良する必要がある.

Reflection 考察

  • 感情にはEmotional consistencyという性質があると仮定して研究に取り組んでいたが,仮定しただけでなく実際のデータセットを用いてそのような傾向がみられることを示したことで説得力が上がった.
  • 実験結果を考察する際,データセットによる結果の違いをデータセットの特徴と関連付けて説明していたためなぜうまくいったのか(うまくいかなかったのか)を理解できた.

Reference 関連研究

  • context LSTM: Soujanya Poria, Erik Cambria, Devamanyu Hazarika, Navonil Majumder, Amir Zadeh, and Louis-Philippe Morency. 2017. Context-dependent sentiment analysis in user-generated videos. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 873–883.
  • DialogueRNN: Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, and Alexander Gelbukh. 2019. Dialoguegcn: A graph convolutional neural network for emotion recognition in conversation. arXiv preprint arXiv:1908.11540.
  • KET: Peixiang Zhong, Di Wang, and Chunyan Miao. 2019. Knowledge-enriched transformer for emotion detection in textual conversations. arXiv preprint arXiv:1909.10681.
  • DialogueGCN: Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, and Alexander Gelbukh. 2019. Dialoguegcn: A graph convolutional neural network for emotion recognition in conversation. arXiv preprint arXiv:1908.11540.
  • CNN: Yoon Kim. 2014. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882.
  • CNN+cLSTM: Soujanya Poria, Erik Cambria, Devamanyu Hazarika, Navonil Majumder, Amir Zadeh, and Louis-Philippe Morency. 2017. Context-dependent sentiment analysis in user-generated videos. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 873–883.

おわりに

 この研究ではLSTMとTransformerを組み合わせたり,機械学習のモデルに古典的な手法であるCRFを取り入れたりと様々な技術を組み合せている.最新の技術だけでなく,様々な技術について知り組み合せることが重要だと感じた.