A Survey of Explanations in Recommender System (2007)


推薦システムの説明性に関するサーベイ論文
推薦システムの説明性についてはいろいろな研究があるけど、
この論文では7つの分類を定義してしっかりとまとめている.

2章,3章まではいろいろな研究を引いていて非常に密な内容になっているが
それ以降はゆるい記述が続く.

ただ説明性を明確に体系立てているので,推薦システムの状況を整理する際に非常に有効に働くとかんがえられる

1 Intorduction

近年MAEやPrecision, Recallは推薦システムの一部分しか評価できないという認識が広まっている
ユーザ満足度やderivatives(どう訳すのが適切だろう…)が重要視されている

本論文の目的
  • 良いexplanationとはなにかという問に対するsystematic overviewを示す
  • 既にある方法論のサーベイを行う

2. Why explanation are the best thing since sliced bread…

良い説明性(good explainations)とは
  • ユーザの信頼性(trust)と忠実性(loyalty)を促進する
  • 満足度を高める
  • ユーザが欲しいものを早く・簡単に見つけられるようになる
  • 推薦されたアイテムを買ったり試したりするように促すことができる
説明性がめざつ7つの目的

いくらかの推薦システムとの対応

[2]: http://www.tandfonline.com/doi/abs/10.1080/713827254#.Uh7R82R5Nxg
[5]: http://www.cs.utexas.edu/~ml/papers/submit.pdf
[6]: http://dl.acm.org/citation.cfm?id=301208
[7]:
[10]: http://dl.acm.org/citation.cfm?id=642713
[11]: http://link.springer.com/chapter/10.1007/3-540-47952-X_43
[18]: http://dl.acm.org/citation.cfm?id=358995
[20]: http://www.csi.ucd.ie/UserFiles/publications/1124449497930.pdf
[21]:
[24]:
[28]:
[31]: http://dl.acm.org/citation.cfm?id=506619
[35]:
[37]:

2.1 Explain how the system works: Transparency

「自動的に番組をログがしてくれるビデオレコーダーに"ゲイ"と判断され,そのような番組を録画されてしまった場合どうすべきか」

explanationとは推薦結果がどのように選ばれたかを明らかにすることである.

Transparencyはユーザビリティの規範としても定められおり,
-> [25] http://dl.acm.org/citation.cfm?id=97281
推薦システムのユーザスタディでも重要であると示されている
-> [31] http://dl.acm.org/citation.cfm?id=506619

2.2 Allow users to tel the system it is wrong: Scrutability

システムが情報を集め、解釈する過程でその結論をユーザに開示することはますます重要になる.

transparencyの次のステップはシステムをscrutable(理解できるように)にすることである

[11]: http://link.springer.com/chapter/10.1007/3-540-47952-X_43
=> 引用されているのは博論だけど多分これでいいはず

Explanationはユーザが「システムが何をしようとしているか」を理解し,必要に応じて推薦をコントロールする過程の一部であるべきである.
=>[32]: http://link.springer.com/article/10.1007/s10462-005-4607-7

Scrutabilityはユーザビリティの規範のなかで"User Control"として定められている[25]

2.3 Increase user's confidence in the sytem: Trust

Trustは時折Transparencyとも関連するとされる.
過去の研究ではtransparencyとpossibility of interactionはuser trustを高めるとされている.
=>[14]: http://dl.acm.org/citation.cfm?id=1153176
=>[31]: http://dl.acm.org/citation.cfm?id=506619

またTrustは推薦システムの正確性にも依存する
=>[22]: http://dl.acm.org/citation.cfm?id=1759988

ユーザが推薦システムに感じた信頼性は推薦システムに返ってくるとTrustに関する研究では提案している(?)
=>[9]: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9660&rep=rep1&type=pdf

ユーザはなぜ悪い推薦が起こり、それをどうすれば改善できるかを理解しているのであれば,寛大である.
そして推薦システムがフランクであり、これは良くない推薦であるということを受け入れてくれれば、システムは推薦システムを高く評価する

加えてインタフェースデザインは信頼性に影響する
ウェブページの信頼性はデザインで決まると46.1%ユーザが答えた
=>[16]: http://dl.acm.org/citation.cfm?id=997097
ウェブの記事の信頼性は記事に含まれる著者の写真に依存するとも言われている
=>[15]: http://dl.acm.org/citation.cfm?id=634242

2.4 Convince users to try or buy: Persuasiveness

Explanationはシステムや推薦結果へのユーザ評価を増加させる
=>[18]: http://dl.acm.org/citation.cfm?id=358995
(多分アクションが増えるということ)
これはユーザに対するというより、システムにたいするメリットのほうが大きい

システムの予測が正しいかどうか評価させることで、ユーザをコントロールすることが示されている
この実験の参加者はビデオを借りるように誘導され,コンピュータのような大きな投資を必要とするアイテムの場合でも誤った予測はユーザに影響を与えなかった
しかし過剰なpersuasionはユーザがアイテムに望まないアイテムに対するアクションを強いることになり,ユーザの期待に反する形となることも考慮すべき重要な点である
=>[10]: http://dl.acm.org/citation.cfm?id=642713

2.5 Help users make good decisions: Effectiveness

ユーザにアクションを強いるより、説明性はユーザのよりよい決定を助けるべきである.
Effectivenessは推薦システムの正確性に強く依存する.
effective explanationはユーザが推薦されたアイテムを好みに応じて評価するのを助ける.
結果不適切なものを捨てやすくなることで、有効なアイテムを見つけやすくなる.
BilgicとMooneyは推薦システムの重要な評価はどの推薦結果が有用かユーザが正確に意思決定できるかという点であると強調している
=>[5]: http://www.cs.utexas.edu/~ml/papers/submit.pdf

また説明性の高いシステムは新しい領域や広いオプションを新規ユーザに対して提示し,全体を把握することを助ける
=>[14]: http://dl.acm.org/citation.cfm?id=1153176
=>[28]: http://dl.acm.org/citation.cfm?id=1111475

2.6 Help users make decision faster: Efficiancy

[25]のprincipalにおける"How quickly a task can be perfomed"に対応する

Efficiencyはユーザに競合する選択肢の関係性を理解させるのを助ける
=>[20]: http://www.csi.ucd.ie/UserFiles/publications/1124449497930.pdf
=>[24]: http://dl.acm.org/citation.cfm?id=1101024
例えばデジタルカメラにおける競合する選択肢というのは「安ければメモリが小さく画素数が低い」ということであり
少ないメモリーと低い画素数を許容出来るユーザには安いアイテムを直ちに進めたい[20]

2.7 Make the use of the system fun: Satisfaction

悪い説明性はユーザの関心を損ね[31]、システムの受容性を下げ[18]、良いExplanationはユーザの満足度を高める[34]
=> [18]: http://dl.acm.org/citation.cfm?id=358995
=> [31]: http://dl.acm.org/citation.cfm?id=506619
=> [34]: http://dl.acm.org/citation.cfm?id=1075239
推薦されたアイテムに対する記述の長さは有用性と安心さとpositiveに相関する[31]

商用システムにおいては新しい機能はユーザ評価に気を配るべきである.

3 How we know an explanation is good

どのように良い説明性を測るべきかを述べる
以下に過去の説明性の評価方法について述べ,推薦システムの説明性をどのように評価すべきかを補足する

またいくつかの指標が複数の説明性を評価できる性質を持っていることについても紹介する.

3.1 Transparency

transparencyの評価についての研究は多くなく,その多くはscrutabilityと一緒に評価される.
しかしtransparencyを評価することは不可能ではない.
例えばそのシステムがアイテムにより推薦されているのか,ユーザによって推薦されているのかを理解しているかをユーザに尋ねることで測ることができる

ユーザにはシステムに対して何が好きかを"学習"させるというタスクが与えられている.
ユーザがどれだけの情報を伝えてくれたか,またそれを伝えてくれるのにどれぐらいかかったかなどを評価指標として用いることができる.

3.2 Scrutability[11]

重要な認識として,ユーザは推薦システムをたいてい調べない(do not scrutinize often).
評価の過程において重要なのは,ユーザに対して調査したがるようなタスクベースのシナリオを提供することである.
(例えば、ディズニー映画が推薦されるのを止めてみろ、など)

評価の方法としては、タスクを完了するまでの時間や完了度がある.
しかしインタフェースの問題だった場合はミスリーディングを引き起こす
(ツールが見つからない、など)

3.3 Trust

Trustについては5次元スケールが提案・確認されている
=>[26]:
この確認は名声や製品の裏書を制限するものであり,このスケールを推薦システムに適用するためには追加の確認が必要である

明示的にユーザから示された興味と、ユーザの行動から見える暗黙的な興味は必ずしも一致しない
=>[27]:

Trustはユーザのロイヤリティや売上の増加から測ることができる.

インタフェースがユーザの意見にもたらす影響にツイての研究では,ユーザロイヤリティはログインの回数で測ることができる
この研究ではユーザに評価するアイテムを自由に選ばせることによってユーザロイヤリティが向上したとしている
=>[22]:

人気のアイテムばかり推薦するAmazonの保守的な推薦は売上を向上させると考えられている
=>[33]:

3.4 Persuasiveness

Presuasionは選ばれたアイテムの尤もらしさの違い,
例えばユーザがexplanationの後アイテムの評価を変更したかといった行動や,
説明の有無によってユーザのアクション率が変化したかなどで測ることができる.

協調フィルタリングによる映画の推薦を題材にした研究において,
21通りの異なるインタフェースで説明性のテストを行った結果
類似するユーザの良い評価と悪い評価の割合をヒストグラムで表示した場合が最も成果が高かった
=> [18]:

またPersuasionはユーザの評価を変えさせることができるため,
以前に評価しているアイテムを再評価した際の評価値が,explanationがなかったケースに比べて高いかなどで測ることができる.
=> [10]

そしてTrustと同様に売上の数値の増加によっても図られる

3.5 Effectiveness

Effectivenessは推薦されたコンテンツを消費する前と後での評価の変化をもって測ることができる.
例えば本が推薦されたときの評価値と読み終わった時の評価値があまり変わらなかった時,それはEffectivenessが高かったということである.
=>[5]:

また説明性があるシステムとないシステムで比較した時,
説明性があるシステムのユーザのほうが選ばれたアイテムに満足を感じているとなれば,
それはEffectivenessが高かったということになる

Effectivenessは一般的な推薦の評価値であるRecallとPresicionに強く関係する.
特にインタネットニュースのようなコンテンツを簡単に消費できるようなシステムでは,ますますそれが直接的に関わってくる.

3.6 Efficiency

Efficientlyは一般的な対話式推薦システムの評価指標としてよく用いられる.
レストランの推薦システムに関する研究では,完了するまでの時間とシステムとの対話回数が減ることが示されている.
=> [35]

インタフェースによる満足するアイテムを見つけるまでの時間の変化について調べた研究もあるが,その結果は重要なものではなかった
=> [28]

3.7 Satisfaction

直接計る方法としては,説明性があるときとないときを比較しどちらが好きか,使って楽しかったかどうかで計る方法がある.
間接的な方法としては3.3のロイヤリティと同様に計ることが可能である.

satisfactionを計る上で重要なのが,推薦プロセスのsatisfactionとプロダクトのsatisfactionを明確に分離することである.
プロセスのsatisfactionを計る方法としては,満足がいくアイテムを見つけるというタスクをクリアするまでのステップ数を計る方法がある.

ユーザビリティの問題を量的に見つけるためには以下の様な方法がある.

  • ポジティブなコメントとネガティブなコメントの割合
  • 評価者がストレスを感じた回数
  • 評価者が明確ではないと感じた回数

3.8 Choosing criteria

これらの説明性にはトレードオフが存在する.

  • transparencyを高めるとシステムへの滞在時間を増やすため,Efficientlyを損ねる
  • persuavinessを高めると買ったあとに後悔する確率も高まるので,Effectivenessを損ねる

説明性を設計する時にはシステムのゴールを考慮しなくてはならない.
例えば本を売るようなシステムを考える時まず第一に考えるべきはTrustである.
Trustはユーザのloyalityを高めることで,売上を高めてくれる.
テレビ番組の選択のような場合には,effectivenessよりsatisfactionを優先すべきである.
最も適切な番組を与えられることより,ユーザが楽しむということのほうが重要である.

4. Presenting Recommendation

推薦結果をどのように表示するかという話.

4.1 Top item

最も評価値の高いアイテム一つを推薦する方法.

4.2 Top N-items

評価値の高いアイテムをN個推薦する.
それぞれのアイテムの推薦理由だけでなく、アイテム間の関係性についても説明すべきである

4.3 Similar to top item(s)

表示されているアイテムに類似するアイテムを提示する.

4.4 Predocted ratings for all items

全てのアイテムに評価値を付けることで,ユーザに修正をさせる

4.5 Structured overview

コンテンツの構造を可視化する.

4.6 Recommender "Personality"

推薦システム自体の個性.

正確性を求めると,ユーザにとって意外なもの,驚きが少なくなって満足度はさがる.
でもその一方でユーザに対する驚きとかばかりを考えるとTrustが保証できない.

5 Interacting with recommender system

推薦システムをユーザにフィットさせることは半分の問題解決にしかなっていない.
もう半分はユーザ自身にシステムを変えさせることである.

インタラクションと過去の行動を独立に扱う推薦システムは"single-shot"と呼ばれる
=> http://cbrwiki.fdi.ucm.es/mediawiki/index.php/Case-Based_Recommender_Systems
=> なんか書いてあった

ユーザが推薦システムに意見を伝える4つの方法
=>[17]:
暗黙的な方法が効果的に働く場合もあるが,本論文では明示的なものに焦点をあてて説明する.

5.1 The user specifies their requirements

ユーザに直接要求を伝えさせる事により,システムが仮定したユーザの好みの誤りを避けることが可能となる
=>これが関節的な方法ではしばしば困難である

5.2 The user asks for an alteration

より直接的な手段として,代わりの推薦すべきアイテムをユーザに選ばせる方法もある.
ただトライアンドエラーを繰り返す必要があり,ユーザ満足度とトレードオフのような形である.

選ばないことがシステムに与える影響がユーザに分かるようにフィードバックをユーザに与える.
例えば選んだアイテムとそうでないアイテムの違いを説明すること.

5.3 The user rates items

ユーザは推薦結果を改善するために,過去に評価したアイテムの評価をしなおしたり,新たなアイテムに評価をつけたりする.

5.4 The user given their opinion

ユーザビリティの基本的な考え方としてアイテムを認識するほうが記憶から呼び出すより簡単であるということ,
そして選択肢を与えられたときは,ユーザがそれを欲しいかほしくないかという意見を持つ頃は簡単であるというものがある

ユーザがアイテムを目の前にした時の感情を簡単に分類する

more like this

このアイテムを気に入ったのでもっと同じようなアイテムが欲しい

No more like this

既に持っている、嫌いなどの理由でこのようなアイテムをもう推薦してほしくない
嫌いなどの場合,ユーザがどの側面について批判的なのかを判別するのは非常に困難

Surprise me!

推薦システムは多くの場合ユーザの一面に対する情報しか保持していない.
そのためユーザはそのあり方をより広げたいと望むことがある.
ユーザの要望に応じてランダムな推薦を行う機能を提供し,
どれだけの情報を与えればシステムがどのようになるかという情報をユーザに提供する