ここでは2x2ゲーム(プレイヤーが2人で戦略が2つ)の混合戦略のナッシュ均衡の求め方、及びその期待利得の求め方について記します。必要に応じて、以下の関連投稿も参照して下さい。
- ナッシュ均衡の求め方:2人ゲームの利得行列の場合
- 2人ゲームでの混合戦略ではない純粋戦略のナッシュ均衡の求め方について記しています。
- 混合戦略
- 混合戦略と混合戦略のナッシュ均衡とは何かについて書いています。
- ナッシュ均衡(ざっくりした説明)
- ナッシュ均衡とは何かについて、ざっくり記しています。
2x2ゲームの混合戦略ナッシュ均衡を求める
以下の2x2ゲームの混合戦略のナッシュ均衡を求めてみます。
まず、プレイヤー1がAを選ぶ確率を\(p\)とします(Bを選ぶ確率は\(1-p\)となります)。次に、プレイヤー2がAを選ぶ確率を\(q\)とします(Bを選ぶ確率は\(1-q\)となります)。
さて、プレイヤー1の戦略で\(p=1\)と\(p=0\)の混合戦略は、「Aを選ぶ」「Bを選ぶ」という純粋戦略と同等なので、ここでは求めるべきものから除外します。すなわちここでは「純粋戦略ではない混合戦略のナッシュ均衡」=「すべての戦略を選ぶ確率が0ではない混合戦略のナッシュ均衡」を求めることとします。したがって\(0<p<1\)とします。同様にプレイヤー2に対しても\(0<q<1\)とします。
\(0<p<1\)、\(0<q<1\) のように「すべての戦略を選ぶ確率が正である混合戦略」は、正しくは完全混合戦略(completely mixed strategy) と呼ばれます。
ここでプレイヤー1が戦略Aを選んだときの期待利得(利得の期待値)は
\[ q \times 5+(1-q) \times 1=4q+1 \tag{1} \]
であり、戦略Bを選んだときの期待利得(利得の期待値)は
\[ q \times 2 +(1-q) \times 3=-q+3 \tag{2} \]
です。 完全混合戦略であるためには、期待利得が等しくなければならないので(理由は後述)
\[4q+1=-q+3\]
でなければなりません。これより\(q=2/5\)を得ます。同様にプレイヤー2を考えます。
プレイヤー2が戦略Aを選んだときの期待利得(利得の期待値)は\( p \times 3+(1-p) \times 1=2p+1 \)であり、戦略Bを選んだときの期待利得(利得の期待値)は
\( p \times 4 +(1-p) \times 0=4p \)です。やはり期待利得が等しくなければならないので、\(2p+1=4p\)でなければならず、これより\(p=1/2\)を得ます。これより混合戦略のナッシュ均衡は
プレイヤー1はAを\(1/2\)、Bを\(1/2\)で選び、プレイヤー2はAを\(2/5\)、Bを\(3/5\)で選ぶ
となります。
このように2x2ゲームで混合戦略のナッシュ均衡を求めるには、各プレイヤーの2つの戦略を選んだときの期待利得が等しくなるようにすれば良いです。「なぜそうなるのか?」「ナッシュ均衡における期待利得はいくつになるのか?」「そもそも期待利得の計算って、どうするのか?」について、次に考えてみます。
均衡で期待利得が等しい理由
そもそも「期待利得(利得の期待値)」からつまずいていることも多いので、プレイヤー1の期待利得について、少し詳しく説明します。各プレイヤーが\(p,q\)に従って戦略を選んだときに、戦略の組\((A,A),(A,B),(B,A),(B,B)\)が実現する確率は\(pq,p(1-q),(1-p)q,(1-p)(1-q)\)で、そのときに実現する利得は\(5,1,2,3\)です。これより混合戦略を用いたときのプレイヤー1の期待利得は
\[ pq \times 5+p(1-q) \times 1+(1-p)q \times 2+(1-p)(1-q) \times 3 \]
となります。なお前の2項を\(p\)で、後の2項を\(q\)でくくると期待利得は
\[p(-4q+1)+(1-p)(-q+3) \tag{3} \]
と書くこともできます(この式は後で使います)。
次に「プレイヤー1がAを選んだときの期待利得」です。プレイヤー1がAを選ぶ(確率ではなく確実に選ぶ)と、プレイヤー2がAを選ぶ確率は\(q\)、Bを選ぶ確率は\(1-q\)で、そのときの利得はそれぞれ1と5ですから、期待利得は式(1)のように計算できて\(4q+1\)となります。同様にプレイヤー1がBを選ぶと期待利得は式(2)のように計算できて\(-q+3\)となるわけです。
さてこれと式(3)を見比べると、式(3)は
\[ p \times(Aを選んだときの期待利得)+ (1-p) \times
(Bを選んだときの期待利得)\]
となっていることが分かります。つまり自分がA、Bを選ぶときの確率を\(p,1-p\)としたときの期待値は「期待利得の期待値」になっている訳です。
「期待利得の期待値」が、もともとの「期待値」と同じになることは「複合くじに関する公理」と呼ばれる仮定です。ここが成立しないと考える研究も存在します。
ナッシュ均衡では、与えられた\(q\)に対して、プレイヤー1は期待利得(=式(3))を最大にする確率\(p\)を選びます(最適反応戦略)。このとき\(4q+1>-q+3\)だと\(p=1\) 、\(4q+1<-q+3\)だと\(p=0\)が式(3)を最大にすることが分かります。高い期待値を与える戦略を確率1で選ぶことが自分にとっては良く、低い期待値を与える戦略にの戦略に少しでも確率を割り当てると利得は低くなってしまうのです。
しかし\(0<p<1\)でなければなりませんので、\(p=0,p=1\)ではいけません。このことから完全混合戦略であるためには、Aを選んだときの期待利得とBを選んだときの期待利得は等しくなければならず、\(4q+1=-q+3\)でなければならないのです。プレイヤー2についても同様です。
ナッシュ均衡における期待利得を求める
以上でナッシュ均衡が\(p=1/2\)、\(q=2/5\)と計算できることが分かりました。ここで\(4q+1=-q+3=A\)と置いてみると、式(3)は
\[pA+(1-p)A=A \tag{4} \]
となります。これからナッシュ均衡における期待利得は\(A\)であることが分かります。つまり混合戦略を用いたときの期待利得は、本来は式(3)に\(p,q\)の値を代入して求めなければならないのですが、ここでは\(p\)は必要なく、\(-4q+1\)か\(-q+3\)のどちらか(簡単な方)に\(q=2/5\)を代入するだけで良いことが分かります。これよりナッシュ均衡におけるプレイヤー1の期待利得は\(-q+3=13/5\)となることが分かります。同様にプレイヤー2のナッシュ均衡における期待利得は\(4p=2\)となります。
相手の利得が自分の戦略を決める
この計算方法は、解法を鵜呑みにするのではなく、その意味を考えると「本当にこれで良いのか?」と考えこんでしまいます(よね??)。この計算方法では「相手が2つの戦略を選ぶ期待利得が等しくなるように、自分の戦略が決まる」からです。つまり端的には「相手の利得が自分の戦略を決める」「自分の利得は自分の混合戦略均衡を決めるために関係ない」ように見えるからです。
図3はここまでの例題とプレイヤー2の利得は同じであり、プレイヤー1の利得が定まっていないようなゲームです。この場合でも完全混合戦略があるとすれば、それは\(p=1/2\)となります。
ただそれは「ナッシュ均衡でプレイヤー1が選ぶ戦略に、プレイヤー1の利得が全く関係ない」と言うわけではありません。例えば\(a=b=1,c=d=0\)では、プレイヤー1の支配戦略はAとなり、ナッシュ均衡も(A,B)となります((\(p=1,q=0\)。)つまり(\a,b,c,d\)が「完全混合戦略がナッシュ均衡となるような条件」を満たさなければなりません(それは\((a-c)(b-d)<0\)です)。
ここから先は話が難しくなりますし、長くなりましたので別の機会にしたいと思います。
まとめ
以上、2x2ゲームの混合戦略のナッシュ均衡の求め方について記してみました。こうしてみると、混合戦略のナッシュ均衡とは何なのか?と考える方も多いと思います。混合戦略のページに少しそれについて書きましたが、機会を見ながら追加していければと思います。
注意点
- 式(4)から分かることをもう1つ。ナッシュ均衡では、プレイヤー1はどんなpを選んでも期待利得はAになります。これはナッシュ均衡では、プレイヤー1は何を選んでも最適反応戦略(利得を最大にする戦略)になるので、果たしてナッシュ均衡戦略\((p=1/2)\)を選ぶインセンティブがあるのか?という問題が起こります。これを論じたハルサニのpurification theoremという定理があります。これは完備情報の混合戦略ナッシュ均衡は、不完備情報の純粋戦略ナッシュ均衡の極限として表現できるという定理ですが、ここでは触れていません。
参考文献
- Harsanyi, J.C. Games with randomly disturbed payoffs: A new rationale for mixed-strategy equilibrium points. Int J Game Theory 2, 1-23 (1973). https://doi.org/10.1007/BF01737554
コメント
“混合戦略ナッシュ均衡の求め方” への3件のフィードバック
[…] 混合戦略ナッシュ均衡の求め方(簡略版) […]
[…] ナッシュ均衡において、正の確率が割り振られる純粋戦略の期待利得はすべて等しくなる説明は「混合戦略ナッシュ均衡の求め方」を参照。 […]
[…] 混合戦略ナッシュ均衡の求め方はこちら […]