機械学習による試験問題の自動採点(Automated Scoring)関連情報まとめ


タスク概要

これまで研究されてきた自動採点(Automated Scoring)はおおまかに以下の2つのタスクに分かれている。

  • Essay Scoring
    • 小論文のような長い記述問題を自動採点するタスク。1,2文ではなく、複数の文が集まって解答となる問題である
  • Short Answer Scoring
    • 解答が1文ほどの長さ(多くても20~30文字程度)で、いくつかの採点基準がありそれに沿って得点が採点される問題である

自動採点タスクの特性

自動採点では、以下のような観点がタスクの特性としてある。

  • 教師データのアノテーションが高コストである
    • ドメイン固有のデータに対して自動採点が求められることが多く、少量の教師データしかない・作れない
    • 試験・テストの問題数が多くなるほど、複数問題に渡って使用可能な汎用的な手法が求めれられる
  • 機械学習モデルによってだた予測返すだけでなく、どう修正したらよいかのフィードバックがあると効果的である
    • 解答のどの箇所が間違っていたのかといった根拠を示すことにより、どのように直したらよいかわかる

Papers

大きく分けて、教師あり学習のもの、テキストの類似度を使っているものに分類できる。(また、その両方の組み合わせ)

Survey

言語処理学会

書籍

Dataset

最近の動向をつかむための個人的おすすめ論文

以下の論文を読めば最近の動向はおそらく把握できると思われる。
Automated Scoringタスクとして、BERTなどによる転移学習の手法を使うことでなるべく少ないデータでより高精度を達成することが課題としてあるだろう。また、Active Learningなどの手法も合わせて使うことでより効果的なアプリケーションを作ることができると考えられる。

Neural network based methods

データ量、少量データに関連した論文