ナッシュ均衡をわかりやすく説明


「ナッシュ均衡」の形式的な説明

相手の行動が変わらない場合,自分がその行動以外の行動を取ると利得が減ることはあっても増えることはない状態

これ、結局腑に落ちにくいですよね。テストが迫っているので自分なりに直感的な説明で理解してみました。

ナッシュ均衡の直感的な説明

これは、「背に腹は変えられない」という状況です。

リゾート地に夜についたけどホテル取り忘れた!という状況を考えましょう。

相手はホテルのフロントの方だとしましょう。この方は旅人が来たら泊めることは合理的に決定しているとします。(だって、私が入る入らないのいずれにせよ、ホテル側はお金が入ることはあっても減ることはないでしょう?)
今回は相手の戦略はさておき、自分の選択しうる行動について注目しましょう。

今、考えられる私の戦略は以下です。

(i)高級ホテルにダメもとで泊まる
(ii)港の公園で野宿する

(i)だとホテルは1万2千円得しますが、私はその分お金を失います。
(ii)だとホテルの利得は0円(変わらない)ですが、私は港の潮風にふかれ、睡眠の質が最悪になり、ダメージを負います。
このダメージは(i)の金銭的なダメージよりも大きいものとします。

この場合、(i)の高級ホテルにダメもとで泊まるという戦略は、ナッシュ均衡です。
なぜでしょうか?

(i)以外の戦略をとる、すなわち(ii)を選ぶと、より大きなダメージを負います。

今、ホテルのフロントの人は「人が来たら受け入れる」という行動を仮定しています。
これは「相手の行動が変わらない」ということに対応しています。

相手の行動が変わらない場合、自分がその行動以外の行動を取ると、利得が減ることはあっても増えることはない状態

に該当しますよね。すなわち、背に腹は変えられないと私たちが渋々納得して選ぶような行動と相手の行動の組がナッシュ均衡というわけです。

なお、ナッシュ均衡は、単一の行動をとりうる場合(AKA 単純戦略)は存在しないこともあります。一方で、確率的にプレーヤーが行動を選ぶとき(AKA 混合戦略)は、必ず存在するそうです。

参考

イラストで学ぶ人工知能概論(第二版) 学校の授業の教科書です。

感想

五島列島の福江島に行ったときにこんな状況になりました。
身近な例を勉強と絡めて考えると、自己参照効果により学習の効果が上がるそうです。
また、他人に説明することは学習効果が高く、想起学習の要素もあるため、Qiitaに記事を書くことは自分自身にもメリットが大きいですね。