混合戦略ナッシュ均衡の求め方

ここでは２x２ゲーム（プレイヤーが２人で戦略が２つ）の混合戦略のナッシュ均衡の求め方、及びその期待利得の求め方について記します。必要に応じて、以下の関連投稿も参照して下さい。

ナッシュ均衡の求め方：2人ゲームの利得行列の場合
- ２人ゲームでの混合戦略ではない純粋戦略のナッシュ均衡の求め方について記しています。
混合戦略
- 混合戦略と混合戦略のナッシュ均衡とは何かについて書いています。
ナッシュ均衡（ざっくりした説明）
- ナッシュ均衡とは何かについて、ざっくり記しています。

２x２ゲームの混合戦略ナッシュ均衡を求める

以下の２x２ゲームの混合戦略のナッシュ均衡を求めてみます。

図1：利得行列の混合戦略を求める

まず、プレイヤー１がAを選ぶ確率を\(p\)とします（Bを選ぶ確率は\(1-p\)となります）。次に、プレイヤー２がAを選ぶ確率を\(q\)とします（Bを選ぶ確率は\(1-q\)となります）。

図2：各プレイヤーが戦略を選択する確率

さて、プレイヤー１の戦略で\(p=1\)と\(p=0\)の混合戦略は、「Aを選ぶ」「Bを選ぶ」という純粋戦略と同等なので、ここでは求めるべきものから除外します。すなわちここでは「純粋戦略ではない混合戦略のナッシュ均衡」＝「すべての戦略を選ぶ確率が0ではない混合戦略のナッシュ均衡」を求めることとします。したがって\(0<p<1\)とします。同様にプレイヤー２に対しても\(0<q<1\)とします。
\(0<p<1\)、\(0<q<1\) のように「すべての戦略を選ぶ確率が正である混合戦略」は、正しくは完全混合戦略(completely mixed strategy) と呼ばれます。

ここでプレイヤー１が戦略Aを選んだときの期待利得（利得の期待値）は
\[ q \times 5+(1-q) \times 1=4q+1 \tag{1} \]
であり、戦略Bを選んだときの期待利得（利得の期待値）は
\[ q \times 2 +(1-q) \times 3=-q+3 \tag{2} \]
です。完全混合戦略であるためには、期待利得が等しくなければならないので（理由は後述）
\[4q+1=-q+3\]
でなければなりません。これより\(q=2/5\)を得ます。同様にプレイヤー２を考えます。
プレイヤー２が戦略Aを選んだときの期待利得（利得の期待値）は\( p \times 3+(1-p) \times 1=2p+1 \)であり、戦略Bを選んだときの期待利得（利得の期待値）は
\( p \times 4 +(1-p) \times 0=4p \)です。やはり期待利得が等しくなければならないので、\(2p+1=4p\)でなければならず、これより\(p=1/2\)を得ます。これより混合戦略のナッシュ均衡は

プレイヤー１はAを\(1/2\)、Bを\(1/2\)で選び、プレイヤー２はAを\(2/5\)、Bを\(3/5\)で選ぶ

となります。

このように２x２ゲームで混合戦略のナッシュ均衡を求めるには、各プレイヤーの２つの戦略を選んだときの期待利得が等しくなるようにすれば良いです。「なぜそうなるのか？」「ナッシュ均衡における期待利得はいくつになるのか？」「そもそも期待利得の計算って、どうするのか？」について、次に考えてみます。

均衡で期待利得が等しい理由

そもそも「期待利得（利得の期待値）」からつまずいていることも多いので、プレイヤー１の期待利得について、少し詳しく説明します。各プレイヤーが\(p,q\)に従って戦略を選んだときに、戦略の組\((A,A),(A,B),(B,A),(B,B)\)が実現する確率は\(pq,p(1-q),(1-p)q,(1-p)(1-q)\)で、そのときに実現する利得は\(5,1,2,3\)です。これより混合戦略を用いたときのプレイヤー１の期待利得は
\[ pq \times 5+p(1-q) \times 1+(1-p)q \times 2+(1-p)(1-q) \times 3 \]
となります。なお前の２項を\(p\)で、後の２項を\(q\)でくくると期待利得は
\[p(-4q+1)+(1-p)(-q+3) \tag{3} \]
と書くこともできます（この式は後で使います）。

次に「プレイヤー１がAを選んだときの期待利得」です。プレイヤー１がAを選ぶ（確率ではなく確実に選ぶ）と、プレイヤー２がAを選ぶ確率は\(q\)、Bを選ぶ確率は\(1-q\)で、そのときの利得はそれぞれ1と5ですから、期待利得は式(1)のように計算できて\(4q+1\)となります。同様にプレイヤー１がBを選ぶと期待利得は式(2)のように計算できて\(-q+3\)となるわけです。

さてこれと式(3)を見比べると、式(3)は
\[ p \times（Aを選んだときの期待利得）+ (1-p) \times
（Bを選んだときの期待利得）\]
となっていることが分かります。つまり自分がA、Bを選ぶときの確率を\(p,1-p\)としたときの期待値は「期待利得の期待値」になっている訳です。

「期待利得の期待値」が、もともとの「期待値」と同じになることは「複合くじに関する公理」と呼ばれる仮定です。ここが成立しないと考える研究も存在します。

ナッシュ均衡では、与えられた\(q\)に対して、プレイヤー１は期待利得（＝式(3)）を最大にする確率\(p\)を選びます（最適反応戦略）。このとき\(4q+1>-q+3\)だと\(p=1\) 、\(4q+1<-q+3\)だと\(p=0\)が式(3)を最大にすることが分かります。高い期待値を与える戦略を確率１で選ぶことが自分にとっては良く、低い期待値を与える戦略にの戦略に少しでも確率を割り当てると利得は低くなってしまうのです。

しかし\(0<p<1\)でなければなりませんので、\(p=0,p=1\)ではいけません。このことから完全混合戦略であるためには、Aを選んだときの期待利得とBを選んだときの期待利得は等しくなければならず、\(4q+1=-q+3\)でなければならないのです。プレイヤー２についても同様です。

ナッシュ均衡における期待利得を求める

以上でナッシュ均衡が\(p=1/2\)、\(q=2/5\)と計算できることが分かりました。ここで\(4q+1=-q+3=A\)と置いてみると、式(3)は
\[pA+(1-p)A=A \tag{4} \]
となります。これからナッシュ均衡における期待利得は\(A\)であることが分かります。つまり混合戦略を用いたときの期待利得は、本来は式(3)に\(p,q\)の値を代入して求めなければならないのですが、ここでは\(p\)は必要なく、\(-4q+1\)か\(-q+3\)のどちらか（簡単な方）に\(q=2/5\)を代入するだけで良いことが分かります。これよりナッシュ均衡におけるプレイヤー１の期待利得は\(-q+3=13/5\)となることが分かります。同様にプレイヤー２のナッシュ均衡における期待利得は\(4p=2\)となります。

相手の利得が自分の戦略を決める

この計算方法は、解法を鵜呑みにするのではなく、その意味を考えると「本当にこれで良いのか？」と考えこんでしまいます（よね？？）。この計算方法では「相手が２つの戦略を選ぶ期待利得が等しくなるように、自分の戦略が決まる」からです。つまり端的には「相手の利得が自分の戦略を決める」「自分の利得は自分の混合戦略均衡を決めるために関係ない」ように見えるからです。

図３はここまでの例題とプレイヤー２の利得は同じであり、プレイヤー１の利得が定まっていないようなゲームです。この場合でも完全混合戦略があるとすれば、それは\(p=1/2\)となります。

図３：プレイヤー１の利得が分からない

ただそれは「ナッシュ均衡でプレイヤー１が選ぶ戦略に、プレイヤー１の利得が全く関係ない」と言うわけではありません。例えば\(a=b=1,c=d=0\)では、プレイヤー１の支配戦略はAとなり、ナッシュ均衡も(A,B)となります（（\(p=1,q=0\)。）つまり(\a,b,c,d\)が「完全混合戦略がナッシュ均衡となるような条件」を満たさなければなりません（それは\((a-c)(b-d)<0\)です）。

ここから先は話が難しくなりますし、長くなりましたので別の機会にしたいと思います。

まとめ

以上、２x２ゲームの混合戦略のナッシュ均衡の求め方について記してみました。こうしてみると、混合戦略のナッシュ均衡とは何なのか？と考える方も多いと思います。混合戦略のページに少しそれについて書きましたが、機会を見ながら追加していければと思います。

注意点

式(4)から分かることをもう１つ。ナッシュ均衡では、プレイヤー１はどんなpを選んでも期待利得はAになります。これはナッシュ均衡では、プレイヤー１は何を選んでも最適反応戦略（利得を最大にする戦略）になるので、果たしてナッシュ均衡戦略\((p=1/2)\)を選ぶインセンティブがあるのか？という問題が起こります。これを論じたハルサニのpurification theoremという定理があります。これは完備情報の混合戦略ナッシュ均衡は、不完備情報の純粋戦略ナッシュ均衡の極限として表現できるという定理ですが、ここでは触れていません。

参考文献

Harsanyi, J.C. Games with randomly disturbed payoffs: A new rationale for mixed-strategy equilibrium points. Int J Game Theory 2, 1-23 (1973). https://doi.org/10.1007/BF01737554