5月, 2020 | NABENAVI.net

2020年5月28日2020年7月5日

グリコ・チョコレート・パイナップルゲームのゲーム理論による解

グリコ（グリコじゃんけん）は「勝ち」と「負け」しかないのに、3点や6点の得点を割り当てて誤って計算されている答が多く、ゲーム理論として正しく解かれたものは（自分が知る限り）存在しない。ここでは「グリコ・パイナップル・チョコレート」ゲームの正しい解について分析する。

このゲームは古くから知られていて、今でも子どもたちが遊んでいるのを見かける。多くの者の興味を引くようで、考察しているホームページや文献はいくつかあるが、どれも正しくない。…ということで、2019年度の渡辺ゼミの卒論で上野陽菜さんがこの問題に取り組んでくれたので、以下に発表。

本来は日本OR学会の2020年春季研究発表会で発表する予定であったが、コロナウィルス問題で学会が中止になったためここに公開。

結果の要旨を先にまとめると：

相手と自分が立っている位置によって戦略は異なる。例えば、両方があと3歩でゴールできる場合は（3歩でも6歩でもゴールするので）普通のじゃんけんと同じになり、グー・チョキ・パーを1/3ずつ出すことが均衡になる。
一方が他方よりゴールに近い場合、ゴールにより近い（つまり勝っている）プレイヤーは相手を6歩で勝たせる確率を少なくしようとしてチョキを多めに出す。これに対してゴールからより遠い（つまり負けている）プレイヤーはグーを出す確率を多めにして、少しずつ進む戦略を選ぶことが均衡となる。
両者がスタート地点にいるとき、スタート地点が遠くなると均衡戦略は、巷でよく計算される「グー・チョキ・パーを2:2:1で出すこと」（グー、チョキ、パーを3点、6点、6点で換算した1回のゲームの均衡戦略）に近づく。

はじめに

「グリコ・パイナップル・チョコレート」はスタート地点からじゃんけんをして、グー（以下G）で勝てば「グリコ」で３歩進み、チョキ（以下C）かパー（以下P）で勝てば「チヨコレイト」「パイナツプル」で６歩進んで、先にゴールしたほうが勝ち、というゲームである。古くから知られていて、私が子供の頃、50年くらい前には既に存在していたが、今でも子どもたちが遊んでいるのを見かける。この記事では、この「グリコ・チョコレート・パイナップル」ゲームの2人のときのゲーム理論における解を解析する。

もし、この2人ゲームの利得行列を図１の左側（進む歩数、進まれた歩数が利得）と考えるならば、ナッシュ均衡（零和ゲームなのでマキシミニ戦略と同じ）は「G,C,Pを2/5、2/5、1/5（2:2:1)で出す」ことが解になる。（求め方はいろいろなところに書いてある、例えばwikipedia）また右側と考えるならば「G,C,Pを1/4,1/2,1/4で出す」ことが解になる。

ちなみに右側は拙著「ゼミナールゲーム理論入門」に載っていて、求め方も（丁寧に）解説している。初心者にゲーム理論への興味を湧かせるために、このような例を用いたのだが、いつの間にかこの例が広まってしまった。中には「この解はおかしい」という人まで現れた。いやね、おかしいのは分かってて「このような利得だと考えると」と注意をしているのに…。失敗だった。いつか、これを正しておかなければ死ねないと、ずっと思っていた。本稿を仕上げることで、やっと死ねる。

図１のようなモデル化は間違っている。誤りの1つ目の点は、このゲームは元々「先にゴールしたほうが勝ち」というルールであり結果は「勝ち」「負け」しかなく、進んだ歩数が利得ではないからである。3とか6などの数値には正確な意味がなく、勝つか負けるかしかなく、勝ちは+1、負けは-1というゲームになるはずだ。

もう１つ上記のモデルが誤っている点、見落としている点は、このゲームは相手と自分が立っている位置によって、戦略が異なるということである。これを確認するには2人ともあと三歩以内でゴールできるという状態を想定すれば良い。このときは３歩でも６歩でもゴールできるので、G,C,Pは同じ効果を持つ（与える利得は同じ）。このときのナッシュ均衡は普通のじゃんけんと同じ「G,C,Pを1/3ずつ出す」となることは明らかだ。すなわち、このゲームにおける均衡戦略は「お互いが、あと何歩でゴールできるか」という状態に依存する。

ここではゲームを「先にゴールすれば勝ち、ゴールされれば負け」と考え、「勝てば利得が1、負ければ利得が-1」の2人零和ゲームと考える。そして2人のゴールまでの距離を状態変数としたゲーム（マルコフゲーム）と捉え、定式化して分析する。

問題のモデル化

このゲームを2人零和ゲームと考え、以下のようにモデル化する。

計算を単純にするため、3歩を1ステップと考える。
2人のプレイヤーが、ゴールのNステップ前の距離からじゃんけんをはじめ、Gで勝つと1ステップ、C,Pで勝つと2ステップ進む。あいこだと、どちらも進まない。
先にどちらかがゴールすればゲームが終了する。先にゴールした方は勝ちで利得1を獲得し、ゴールされた方は負けで利得-1とする。
「行き過ぎ」は考えない。ピッタリゴールしなくても勝ちとする。例えば1ステップ前からCで2ステップ進んでも、勝利とする。
時間経過による利得の割引は考えない。

プレイヤー1が、あと\(n\)ステップ、プレイヤー2があと\(m\)ステップでゴールする状態を\((n,m)\)（ \(1 \leq n,m \leq N\)）で表す。状態\((n,m)\)で、どちらかのプレイヤーが勝つと状態が遷移し、あいこだと同じ状態に留まる。たとえば状態\((10,9)\)のとき、プレイヤー1がパーで勝てば状態\((8,9)\)に遷移する。

状態\((n,m)\)でプレイヤーが直面するゲームのナッシュ均衡（マキシミニ戦略でもある）における、プレイヤー1の期待利得（ゲームの値）を\(v_{n,m}\)とする。

\(n=0,-1\)または\(m=0,-1\)の場合にはゲームが決着し値が定まっている。これが再帰的に問題を解く初期状態となる。すなわち
\( \begin{align}
v_{0,m}=v_{-1,m}=1 & v_{n,0}=v_{n,-1}=-1 \tag{1}
\end{align} \)
（\(1 \leq n,m \leq N\)）とする。

このとき状態\((n,m)\)におけるゲームのプレイヤー1の利得は、以下の表となることが分かる。

零和ゲームであることから、プレイヤー2の利得は、上記行列に-1を乗じたものとなる。

問題の解法

ゲーム\((n,m)\)のプレイヤー1の均衡戦略とゲームの値\(v_{n,m}\)を求める。なお、ここでプレイヤー2の戦略は、状態\((m,n)\) でのプレイヤー1の戦略と同じになる。

プレイヤー1が均衡において、G,C,Pを出す確率（混合戦略）を\(q_G,q_C,q_P\)とする。このときプレイヤー2がG,C,Pを出したときのプレイヤー1の期待利得を\(E_G,E_C,E_P\)とすると、
\( \begin{align}
E_G=q_Gv_{n,m}+q_Cv_{n,m-1}+q_Pv_{n-2,m} \\
E_C=q_Gv_{n-1,m}+q_Cv_{n,m}+q_Pv_{n,m-2} \\
E_P=q_Gv_{n,m-2}+q_Cv_{n-2,m}+q_Pv_{n,m}
\end{align} \)
となる。

ここでナッシュ均衡では
\[
E_G=E_C=E_P=v_{n,m} \tag{2}
\]
が成立する。

上記の理由を正確に説明すると長くなるため端折って説明する。このゲームには、純粋戦略のナッシュ均衡はない。そして、これから１つの戦略に確率0を割り当てる（つまり2つの戦略のみに確率を割り当てる）ような混合戦略を用いたナッシュ均衡が存在しないことも分かる。ナッシュ均衡は必ず存在するので、このゲームにはすべての戦略に正の確率を割り振るような混合戦略（完全混合戦略と呼ぶ）のナッシュ均衡しかないことが分かる。

このゲームは零和ゲームであるたｍ、\(E_G,E_C,E_P\)はプレイヤー２がG,C,Pを出したときのプレイヤー1の期待利得であると同時に、プレイヤー２の期待利得に-1をかけたものとなる。もし均衡において\(E_G=E_C=E_P\)でなければ、プレイヤー２はこの値が最も高くなる戦略（G,C,Pのどれか）に確率0を割り当てることが最適反応戦略となる（最も高くなる戦略が２つある場合は、２つに0を割り振る）。これは上記の完全混合戦略しかナッシュ均衡がないことに矛盾する。これから\(E_G=E_C=E_P\)が得られて、期待利得\(v_{n,m}\)もこれと等しくなることが分かる。これより式(2)を得る。

ナッシュ均衡において、正の確率が割り振られる純粋戦略の期待利得はすべて等しくなる説明はこちら（混合戦略なッシュ均衡の求め方）も参照。

式(2)に対して、式(1)を初期条件として用いて、\(q_G,q_C,q_P\)と\(v_{n,m}\)を求めることで、再帰的に期待利得\(v_{n,m}\)と均衡戦略を求めることができる。しかしこの方程式は\(v_{n,m}\)に関ずる非線形方程式（３次方程式）になるため、数値的に解くこととする。

なお\(q_G,q_C,q_P\)はプレイヤー２の均衡戦略であるが（ナッシュ均衡は、プレイヤー１の期待利得を考えることで、プレイヤー２の戦略が求められる、こちらを参照）、\(n\)と\(m\)を入れ替えてプレイヤー１の戦略を求める。

計算結果

まずプレイヤー１の期待利得について、基本的な確認をしてみる。

図１は、プレイヤー２のゴールまでステップ数\(m\)を横軸に取り、プレイヤー１のゴールまでのステップ数\(n\)ごとにプレイヤー１の期待利得を示したものである（\(n=1\dots,10\)）。

プレイヤー１の期待利得を\(v\)とするとき、プレイヤー１の勝利確率\(p\)は
\[ p=\frac{1}{2}\left(v+1\right) \]
で与えられるので、図1はプレイヤー１が勝利確率と考えることもできる。

表１はプレイヤー１の勝利確率である。例えば自分があと１ステップ（３歩）でゴールでき、相手が２ステップ（６歩）のとき（(n=1,m=2)）、相手はチョキかパーで勝てば逆転勝利できる位置にあるが、自分の勝利確率は63%(2/3)、相手は37%(1/3)である。

これらから、次のことが確認できる。

プレイヤー１もプレイヤー２も同じ位置にいるとき（\(n=m\)）、プレイヤーの勝つ確率は同じ（期待利得は0、勝つ確率は0.5で等しい）。
プレイヤー１の位置を固定すると（\(n\)のグラフを固定）、プレイヤー２の位置がゴールから遠くなればなるほど（\(m\)が増加するほど）、プレイヤー１の勝利確率は高くなり、
プレイヤー２の位置を固定すると（\(m\)の値を固定）、プレイヤー１の位置がゴールから遠くなればなるほど（\(n\)が増加するほど）、プレイヤー１の勝利確率は低くなる。

次に戦略について見ていこう。計算から次のようなことが分かった。

プレイヤー１の戦略に対し、グーとチョキを入れ替えるとプレイヤー2の戦略となる。パーの戦略は同じになる。
パーを出す確率は、グーやチョキよりも低い。グーとチョキのどちらが高いかは、状態によって変化する

これらはたぶん均衡を求める式を丁寧に調べると証明できるのであろうが、やっていない。

さて、図２は\(m=1\)（プレイヤー２があと１ステップでゴールするとき）の両プレイヤーの戦略を、プレイヤー１の位置\(n\)を横軸としてグラフにしたものである。このゲームの特徴がよく現れている。

先に予想したとおり、２人ともあと１ステップでゴールできる場合（ \(n=m=1\)）では、G,C,Pを出す確率は\(1/3\)となり、普通のじゃんけんと同じになることが分かる。それ以外では、プレイヤー１はグーを出す確率が高く、プレイヤー２はチョキを出す確率が高い。プレイヤー２はあと１ステップでゴールできるので、グーよりもチョキやパーを出すことで有利にならないため、相手に２ステップ進ませることを何としても避けたい。そのためチョキを出してプレイヤー１がチョキやパーで進むことを阻止したいわけだ。プレイヤー１はそれを読み込むと、グーを出す確率を高くして、１ステップだけ進んでおこうとして、それが均衡となる。プレイヤー１の位置が２ステップのとき\(n=1,m=2\)では、それが最も顕著に現れ（プレイヤー２は１ステップでゴールできるにも関わらず、プレイヤー１に２ステップ進まれると逆転負けする）、プレイヤー１がグーを出す確率（＝プレイヤー２がチョキを出す確率）は0.52にまで上昇する。

図３は\(m=5\)（プレイヤー２があと５ステップでゴールするとき）のグラフである。

この例から分かるように、均衡戦略は次の２つの要因に影響される。

(1)ゴールまでの距離：プレイヤー１がゴールから離れるほど、グーを出す確率が増加しチョキを出す確率が減少する（プレイヤー２はチョキを出す確率が増加し、グーを出す確率が減少する）。プレイヤー１がゴールから遠いとき、プレイヤー２はプレイヤー１が２ステップ進むことを避けるためチョキを出す確率を高め、それをプレイヤー１が読み込みグーを出す確率が高くなることを表している。相手がゴールより遠いときには逆転させないように１ステップづつ進ませる（自分がゴールから遠いときには１ステップづつ進む）戦略となる。同じ位置 \(n=m\) にいるときはグーとチョキを出す確率が同じになるので、基本的には勝っているときはチョキを出す確率が高く、負けているときはグーを出す確率が高くなる。

(2)奇数と偶数ステップの効果：プレイヤー１は偶数ステップではグーを出す確率が増加し、チョキを出す確率が減少する。先に見たようにプレイヤー１が残り２ステップでゴールする場合\(n=2\)、プレイヤー２はプレイヤー１が２ステップ進んで一気にゴールすることを阻止するためチョキを出す確率を高めるので、プレイヤー１はそれを読み込んでグーを出す確率を高める。これと同様の理由が再帰的に続くと考えられる。例えばプレイヤー１が残り３ステップと４ステップのときを考えると、どちらも１回ではゴールできず、少なくとも２回で勝たなければゴールできない。プレイヤー１が残り４ステップのとき、一気に２ステップ進まれると、残り１回で勝つチャンスがプレイヤー１に生まれるが、１ステップでは少なくともあと２回勝たなければダメなままである。これに対しプレイヤー１が残り３ステップのときは、１ステップ進んでも、２ステップ進んでも残り１回で勝つチャンスがプレイヤー１に生まれる。つまりプレイヤー２としては、プレイヤー１が偶数ステップのときに２ステップ進むことを阻止したいインセンティブが強くなる。それをプレイヤー１が読み込む結果だと思われる。

上記の２つの要因によって図3の戦略は解釈できると思われる。

\(n=m=1\)ではG,C,Pを出す確率は\(1/3\)となる。
\(n=m\)ではグーとチョキを出す確率が同じ。
\(n=m\)として、\(n,m\)を大きくすると、均衡戦略は図１の左側の利得行列のナッシュ均衡である\(2/5,2/5,1/5\)に近づくことが分かる。すなわち両者がスタート地点にいるとき、スタート地点が遠いならば「グー・チョキ・パーを2:2:1で出す」ことが均衡戦略となる。

最後の結果から、巷で言われる(?)図１の左側の利得行列の計算も、あながち間違っているわけではないと言える。

まとめ

以上、グリコ、チョコレート、パイナップルの解をゲーム理論で解析した。なおこの確率はナッシュ均衡の確率を計算したものであり、相手がナッシュ均衡に従わない場合は必勝戦略とならないことに注意したい。例えば、チョキばかり出してくる馬鹿な相手に、上記の結果のナッシュ均衡戦略で勝負するよりは、グーを出したほうが良い。

この混合戦略のナッシュ均衡は、自分がナッシュ均衡に従っているならば、相手が何を出して来ようが、均衡における自分の期待確率を同じにしていることに注目したい。つまり自分が勝っているとき（相手よりも先に進んでいるとき）は均衡に従えば、相手が何を出そうが自分の有利さをそのまま保つことができる。これに対し、自分が負けているとき（相手が先に進んでいるとき）は均衡に従うと、相手が何を出しても自分の不利さをそのまま保つような戦略になってしまっている。そこで実践的な意味では、自分が先に進んでいるときは上記の確率に従い、負けているときは相手が均衡戦略から外れ、デタラメに出すことを期待して他の戦略を用いたほうが良いだろう。上記の偶数・奇数ステップでの知見を逆手に取り、自分が偶数ステップにいるときチョキの確率を高めて、２ステップ進む確率を高めたほうが良いかもしれない。

混合戦略のナッシュ均衡が何を意味しているのかは、混合戦略の項に少し記したが、私自身も理解していないことがいくつかある。これらは機会を見て、追加していきたい。

じゃんけん研究

2020年5月18日2022年1月6日

混合戦略ナッシュ均衡の求め方

ここでは２☓２ゲーム（プレイヤーが２人で戦略が２つ）の混合戦略のナッシュ均衡の求め方について記します。通常は最適反応戦略のグラフを書いて求めますが、ここではグラフを書かずに簡便な方法を考えていこうと思います。以下の関連投稿も参照して下さい。

ナッシュ均衡の求め方：2人ゲームの利得行列の場合
- ２人ゲームでの（混合戦略ではない）純粋戦略のナッシュ均衡の求め方について記しています。
ナッシュ均衡を計算するプログラム（webアプリ）
- 混合戦略まで含めてすべてのナッシュ均衡を計算するweb上のアプリケーションです。戦略が10以下までです。
混合戦略
- 混合戦略と混合戦略のナッシュ均衡とは何かについて書いています。
ナッシュ均衡（ざっくりした説明）
- ナッシュ均衡とは何かについて、ざっくり記しています。
グリコ・チョコレート・パイナップルの正しい解
- 混合戦略の真骨頂！
普通、講義で学ぶ「最適反応戦略のグラフ」を書く方法は、以下のオンライン講義を参考にすると良いでしょう。
- ゲーム理論１_22 混合戦略のナッシュ均衡を求める
- ゲーム理論１_23 混合戦略のナッシュ均衡を求める２

２☓２ゲームの混合戦略ナッシュ均衡を求める

以下の２☓２ゲームの混合戦略のナッシュ均衡を求めてみます。

まず、プレイヤー１がAを選ぶ確率を\(p\)とします（Bを選ぶ確率は\(1-p\)となります）。次に、プレイヤー２がAを選ぶ確率を\(q\)とします（Bを選ぶ確率は\(1-q\)となります）。

さて、プレイヤー１の戦略で\(p=1\)と\(p=0\)の混合戦略は、「Aを選ぶ」「Bを選ぶ」という純粋戦略と同等なので、ここでは求めるべきものから除外します。すなわちここでは「純粋戦略ではない混合戦略のナッシュ均衡」＝「すべての戦略を選ぶ確率が正である混合戦略のナッシュ均衡」を求めることとします。したがって\(0<p<1\)とします。同様にプレイヤー２に対しても\(0<q<1\)とします。

\(0<p<1\)、\(0<q<1\) のように「すべての戦略を選ぶ確率が正である混合戦略」は完全混合戦略(completely mixed strategy) と呼ばれます。

ここでプレイヤー１が戦略Aを選んだときの期待利得（利得の期待値）は
\[ q \times 5+(1-q) \times 1=4q+1 \tag{1} \]
であり、戦略Bを選んだときの期待利得（利得の期待値）は
\[ q \times 2 +(1-q) \times 3=-q+3 \tag{2} \]
です。完全混合戦略であるためには、期待利得が等しくなければならないので（理由は後述）
\[4q+1=-q+3\]
でなければなりません。これを解いて\(q=2/5\)を得ます。

利得の期待値の計算については後ほど詳しく説明しています。

同様にプレイヤー２を考えます。プレイヤー２が戦略Aを選んだときの期待利得（利得の期待値）は\( p \times 3+(1-p) \times 1=2p+1 \)であり、戦略Bを選んだときの期待利得（利得の期待値）は\( p \times 4 +(1-p) \times 0=4p \)です。やはり期待利得が等しくなければならないので、\(2p+1=4p\)でなければならず、これを解いて\(p=1/2\)を得ます。

以上のことより、混合戦略のナッシュ均衡は

プレイヤー１はAを\(1/2\)、Bを\(1/2\)で選び、プレイヤー２はAを\(2/5\)、Bを\(3/5\)で選ぶ　(*)

となります。

このように２☓２ゲームで混合戦略のナッシュ均衡を求めるには、各プレイヤーの２つの戦略を選んだときの期待利得が等しくなるようにすれば良いです。「なぜそうなるのか？」「ナッシュ均衡における期待利得は？」「そもそも期待利得の計算って、どうするの？」について、次に考えてみます。

均衡で期待利得が等しい理由

そもそも「期待利得（利得の期待値）」からつまずいていることも多いので、プレイヤー１の期待利得について、少し詳しく説明します。各プレイヤーが\(p,q\)に従って戦略を選んだときに、戦略の組\((A,A),(A,B),(B,A),(B,B)\)が実現する確率は\(pq,p(1-q),(1-p)q,(1-p)(1-q)\)で、そのときに実現する利得は\(5,1,2,3\)です。これより混合戦略を用いたときのプレイヤー１の期待利得は
\[ pq \times 5+p(1-q) \times 1+(1-p)q \times 2+(1-p)(1-q) \times 3 \]
となります。なお前の２項を\(p\)で、後の２項を\(q\)でくくると期待利得は
\[p(-4q+1)+(1-p)(-q+3) \tag{3} \]
と書くこともできます（この式は後で使います）。

次に「プレイヤー１がAを選んだときの期待利得」です。プレイヤー１がAを選ぶ（確率ではなく確実に選ぶ）と、プレイヤー２がAを選ぶ確率は\(q\)、Bを選ぶ確率は\(1-q\)で、そのときの利得はそれぞれ1と5ですから、期待利得は式(1)のように計算できて\(4q+1\)となります。同様にプレイヤー１がBを選ぶと期待利得は式(2)のように計算できて\(-q+3\)となるわけです。

さてこれと式(3)を見比べると、式(3)は
\[ p \times（Aを選んだときの期待利得）+ (1-p) \times
（Bを選んだときの期待利得）\]
となっていることが分かります。つまり自分がA、Bを選ぶときの確率を\(p,1-p\)としたときの期待値は「期待利得の期待値」になっている訳です。

「期待利得の期待値」が、もともとの「期待値」と同じになることは「複合くじに関する公理」と呼ばれる仮定です。ここが成立しないと考える研究も存在します。

ナッシュ均衡では、与えられた\(q\)に対して、プレイヤー１は期待利得（＝式(3)）を最大にする確率\(p\)を選びます（最適反応戦略）。このとき\(4q+1>-q+3\)だと\(p=1\) 、\(4q+1<-q+3\)だと\(p=0\)が式(3)を最大にすることが分かります。高い期待値を与える戦略を確率１で選ぶことが自分にとっては良く、低い期待値を与える戦略にの戦略に少しでも確率を割り当てると利得は低くなってしまうのです。

しかし\(0<p<1\)でなければなりませんので、\(p=0,p=1\)ではいけません。このことから完全混合戦略であるためには、Aを選んだときの期待利得とBを選んだときの期待利得は等しくなければならず、\(4q+1=-q+3\)でなければならないのです。プレイヤー２についても同様です。

ナッシュ均衡における期待利得を求める

以上でナッシュ均衡が\(p=1/2\)、\(q=2/5\)と計算できることが分かりました。ここで\(4q+1=-q+3=A\)と置いてみると、式(3)は
\[pA+(1-p)A=A \tag{4} \]
となります。これからナッシュ均衡における期待利得は\(A\)であることが分かります。つまり混合戦略を用いたときの期待利得は、本来は式(3)に\(p,q\)の値を代入して求めなければならないのですが、ここでは\(p\)は必要なく、\(-4q+1\)か\(-q+3\)のどちらか（簡単な方）に\(q=2/5\)を代入するだけで良いことが分かります。これよりナッシュ均衡におけるプレイヤー１の期待利得は\(-q+3=13/5\)となることが分かります。同様にプレイヤー２のナッシュ均衡における期待利得は\(4p=2\)となります。

相手の利得が自分の戦略を決める

この計算方法は、解法を鵜呑みにするのではなく、その意味を考えると「本当にこれで良いのか？」と考えこんでしまいます（よね？？）。この計算方法では「相手が２つの戦略を選ぶ期待利得が等しくなるように、自分の戦略が決まる」からです。つまり端的には「相手の利得が自分の戦略を決める」「自分の利得は自分の混合戦略均衡を決めるために関係ない」ように見えるからです。

図３はここまでの例題とプレイヤー２の利得は同じであり、プレイヤー１の利得が定まっていないようなゲームです。この場合でも完全混合戦略があるとすれば、それは\(p=1/2\)となります。

ただそれは「ナッシュ均衡でプレイヤー１が選ぶ戦略に、プレイヤー１の利得が全く関係ない」と言うわけではありません。例えば\(a=b=1,c=d=0\)では、プレイヤー１の支配戦略はAとなり、ナッシュ均衡も(A,B)となります（\(p=1,q=0\)）。つまり\(a,b,c,d\)が「完全混合戦略がナッシュ均衡となるような条件」(\((a-c)(b-d)<0\)) を満たさなければなりません。

２☓２ゲームのナッシュ均衡をすべて求める

上記の方法は２☓２ゲーム（プレイヤーが２人で戦略が２つのゲーム）の完全混合戦略のナッシュ均衡を計算する方法です。しかし、この方法ではそれ以外＝「完全混合戦略ではないナッシュ均衡」は求められないため改めて注意が必要です。以下の図４の２つのゲームを見てみましょう。

図４の左側の例は図１の例題のゲームに、純粋戦略でのナッシュ均衡の求め方に従って最適反応戦略となる利得に下線を引いた図です。これから分かるように、このゲームには両プレイヤーの利得に下線が引かれる戦略の組はありません。すなわち、このゲームには、純粋戦略のナッシュ均衡がないのです。したがってこのゲームのナッシュ均衡は既に求めた完全混合戦略のナッシュ均衡が１つあるだけになります。

これに対して、図４の右側のゲームでは（A,A)（B,B)の両プレイヤーの利得に下線が引かれています。すなわちこのゲームでは（A,A)（B,B) という２つのナッシュ均衡があります。そして、さらに完全混合戦略のナッシュ均衡が１つあるのです。ここまでの方法に従って、その均衡を求めてみましょう。プレイヤー１がAを選ぶ確率を\(p\)（Bを選ぶ確率は\(1-p\)）、プレイヤー２がAを選ぶ確率を\(q\)（Bを選ぶ確率は\(1-q\)）とします。

プレイヤー１が戦略Aを選んだときの期待利得は\( q \times 2+(1-q) \times 0=2q\)
、戦略Bを選んだときの期待利得は\( q \times 0 +(1-q) \times 4=-4q+4\)
です。期待利得が等しくなければならないので\(2q=-4q+4\)であることから、\(q=2/3\)を得ます。

同様にプレイヤー２を考えます。プレイヤー２が戦略Aを選んだときの期待利得は\( p \times 3+(1-p) \times 0=3p\)で、戦略Bでは\( p \times 0 +(1-p) \times 1=1-p \)です。やはり期待利得が等しくなければならないので、\(3p=1-p\)でなければならず、これを解いて\(p=1/4\)を得ます。

これらを総合すると図４の右側のゲームのナッシュ均衡は

(1)プレイヤー１がA、プレイヤー２がAを選ぶ。（\(p=1,q=1\)に相当する）
(2)プレイヤー１がAを1/4、Bを3/4で選び、プレイヤー２がAを2/3、Bを1/3で選ぶ。
（\(p=1/4,q=2/3\)に相当する）
(3)プレイヤー１がB,プレイヤー２がBを選ぶ。（\(p=1,q=1\)に相当する）

と３つあることになります。

2☓2ゲームのほとんどのゲーム（特殊な場合を除く）は、以下の4タイプに分けることができます。

(1)2人のプレイヤーとも、支配戦略がある（囚人のジレンマなど）
(2)1人のプレイヤーだけに支配戦略がある（合理的な豚など）
(3)プレイヤーに支配戦略がなく、純粋戦略のナッシュ均衡がある（調整ゲーム、チキンゲームなど。図４の右側のゲームがこれ）
(4) プレイヤーに支配戦略がなく、純粋戦略のナッシュ均衡もない（マッチングペニー、サッカーのPKのゲームなど。図１（図４左側）のゲームがこれ）

(1)と(2)には完全混合戦略のナッシュ均衡はなく、プレイヤーが支配戦略を使う純粋戦略のナッシュ均衡が１つあるだけです。ちなみにこれに対して上記の混合戦略のナッシュ均衡の求め方を用いると\(p\)や\(q\)が負になったり、１を超えたりします。上記の求め方で0や1を超える値が出たときは、支配戦略がないかもう一度チェックする必要があります。既に見たように(3)では3個、(4)では1個のナッシュ均衡があります。

したがってナッシュ均衡をすべて求めるためには(1)-(4)に留意して求める必要があります。２☓２のナッシュ均衡の解を求める、ここで述べた方法ではなく、最適反応戦略のグラフを書く方法が一般的で、その方法を使うと(1)-(4)まで包括的(?)に求めることができます。拙著ゼミナールゲーム理論入門などを参照して下さい。

すでに話したように「混合戦略まで含めると、ナッシュ均衡は必ず存在する」という定理がありますが、さらに加えて、ほとんどの場合にナッシュ均衡は奇数個であることも証明されています。「ほとんどの場合」というのは、例えば利得が全部同じ数だったりすると、あらゆる混合戦略がナッシュ均衡になったりするわけで、そういう特殊な場合を除く、ということです。「２次方程式の解は、ほとんどの場合２個である」というのと同じような意味です（重根の場合を除いている）。

まとめ

まとめると２☓２のナッシュ均衡を求めるには

STEP.1　まず純粋戦略のナッシュ均衡を求める。
STEP.2　(1)か(2)のタイプ、すなわち支配戦略がある場合は、それで終わり。完全混合戦略のナッシュ均衡はない。
STEP.3　(3)か(4)のタイプの場合は完全混合戦略のナッシュ均衡があるので、各プレイヤーが一方の戦略を選ぶ確率を\(p,q\)とそれぞれ置き、各プレイヤーが２つの純粋戦略を選んだときの期待利得を求める。
STEP.4 上記で求めた、各プレイヤーが２つの純粋戦略を選んだときの期待利得が等しくなるように\(p,q\)を定める。相手の期待利得が等しくなるように自分の混合戦略が決まることに注意する。

となります。以上、２☓２ゲームの混合戦略のナッシュ均衡の求め方について記してみました。こうしてみると、混合戦略のナッシュ均衡とは何なのか？と考える方も多いと思います。混合戦略のページに少しそれについて書きました。

注意点

式(4)から分かることをもう１つ。ナッシュ均衡では、プレイヤー１はどんなpを選んでも期待利得はAになります。これはナッシュ均衡では、プレイヤー１は何を選んでも最適反応戦略（利得を最大にする戦略）になるので、果たしてナッシュ均衡戦略\((p=1/2)\)を選ぶインセンティブがあるのか？という問題が起こります。これを論じたハルサニのpurification theoremという定理があります。これは完備情報の混合戦略ナッシュ均衡は、不完備情報の純粋戦略ナッシュ均衡の極限として表現できるという定理ですが、ここでは触れていません。

参考文献

Harsanyi, J.C. Games with randomly disturbed payoffs: A new rationale for mixed-strategy equilibrium points. Int J Game Theory 2, 1–23 (1973). https://doi.org/10.1007/BF01737554

東京都立大学　2020ゲーム理論１　オンライン講義（2020：コロナ対応）

2020年5月15日2020年10月26日

ゲーム理論における混合戦略

ここでは混合戦略とは何か、混合戦略のナッシュ均衡とは何かについて記していきます。計算方法は、ここではありません。必要ならば、以下も参照してみて下さい。

混合戦略ナッシュ均衡の求め方（簡略版）
- ２☓２ゲームの混合戦略のナッシュ均衡の計算方法について記しています。
ナッシュ均衡の求め方：2人ゲームの利得行列の場合
- ２人ゲームでの混合戦略ではない純粋戦略のナッシュ均衡の求め方について記しています。略
ナッシュ均衡（ざっくりした説明）
- ナッシュ均衡とは何かについて、ざっくり記しています。
グリコ・チョコレート・パイナップルゲームの解

ナッシュ均衡のないゲーム？

戦略形ゲームの解であるナッシュ均衡について、その考え方と2人ゲームでの求め方について書きました。しかし2人の「じゃんけん」に対してナッシュ均衡を求めると、ナッシュ均衡が存在しないように見えます。

ナッシュ均衡は「お互いが利得を最大にしている戦略の組」です。じゃんけんでは「相手がグーなら自分はパーが良い（利得を最大にする）」「自分がパーなら、相手はチョキが良い」「相手がチョキなら自分はグーが…」と循環してしまい、お互いが利得を最大にしている戦略の組はないことが分かります。（循環するからダメなわけではないんですけど、正確には…）

確認するために、ナッシュ均衡の求め方にしたがい最適反応戦略（利得を最大にする戦略）となる利得に下線を引くと以下の図になり、両プレイヤーの利得に共に下線が引かれている戦略の組はないことが分かります。

じゃんけんには戦略が３つありますが、戦略が２つであってもこのような（一見すると）ナッシュ均衡がないゲームはあります。以下のゲームは、その典型例として、よく用いられます。

（マッチングペニー）2人のプレイヤーAとBが、それぞれ表(Head)か裏（Tail）を選ぶ。2人が同じものを選べばAの勝ち、違うものを選べばBの勝ち。

このゲームは「1セント硬貨（ペニー）をお互いに持ち、同時に表か裏かを出す」というゲームから由来していることから、マッチングペニー（matching pennies。 penniesって複数形なんだ…)と呼ばれています。

脱線しますが、日本人だと2人で順番を決めたり、勝ち負けを決めたりするときはじゃんけんをします。あっち（欧米）だとじゃんけんがなく、そのような状況では「表か裏を選ぶ」という方法を考えるのが定番のようで、ゲーム理論をやっていると頻繁に「表」「裏」を選ぶという状況が登場します。マッチングペニーが実際に行われているかどうか、私は知らないのですが（誰か教えて下さい）、テニスの試合なんかだと最初にサーブを取るかコートを選ぶかを決めるときに、一方の選手がラケットを地面に立ててぐるぐる回して放し、もう一方が落ちるラケットの上面が表か裏かを言い当てるという方法を使います（私のようなド素人だと、ラケットの表と裏が分からなくて、そこでつまづきます）。マッチングペニーに近いですが、ラケットを回すほうは自分の意志で表か裏を選択しているわけではないので「ゲーム」ではないですね。ちなみにテニスの大きな試合（サッカー・アメフトなんかもそう）では審判がコイントスをして決めますが、これも第3者が決めているので「ゲーム」ではありません。くじと一緒です。

マッチングペニーでは、出したコインの表と裏が一致したときに、勝つプレイヤーと負けるプレイヤーをあらかじめ決めておく必要があります。これはマッチングペニーのルールがプレイヤーに対して非対称であることによります。ワタナベじゃんけんも同じで、どのような場合に誰が勝つかという、結果とプレイヤーを予め結びつけておく必要があります。戦略が２つだと対称で等確率に勝負がつくゲームは作れないのです。じゃんけんは、どのプレイヤーも勝ちの場合と負ける場合のルールが対称になっているゲーム（対称ゲーム）で、あらかじめ結果と勝者とを結びつけておく必要がありません。しかし戦略が３つ必要になります。どちらが好みでしょうか。日本人の私はじゃんけんのほうが好きですが（ラケットやペニーのような「道具」も必要なく、最初にどのようなときに誰が勝つかというプレイヤーを特定する必要もない）。じゃんけんは「あいこ」があるため勝負に時間がかかることがあります。戦略の数、必要とする道具、対称性、あいこと勝負の決定性、などを考慮するとどちらが良いかは好みで分かれるでしょう。

混合戦略

脱線してしまいましたが話を元に戻すと、マッチングペニーもじゃんけんと同様にナッシュ均衡がないように見えます。このような一見すると均衡がないゲームも、プレイヤーが確率を使って戦略や行動を選択すると考えるとナッシュ均衡が存在します。これはゲーム理論の出発点とも言える部分で、歴史的にはゲーム理論のキモと言うか核と言うか、そんな考え方なんです。

ゲーム理論では、プレイヤーが確率を用いて行動や戦略を選択することを１つの戦略とみなし、それを混合戦略(mixed strategy)と呼びます。もともと考えていた戦略を混合戦略と区別したいときは純粋戦略（pure strategy)と呼びます。純粋戦略は、確率１でそれを選ぶ混合戦略と同じと考えられるため、混合戦略は純粋戦略を含んだ考え方であると言えます（混合戦略は純粋戦略の拡張と言う方が数学的には正しいかな）。

「確率で戦略や行動を選ぶ」と言うと、「難しそうだ」「実際にそんなことあるのか」と言われそうですが、じゃんけんだと各プレイヤーが「グー・チョキ・パーを1/3ずつで選ぶ」というのが混合戦略のナッシュ均衡になります。マッチングペニーだと各プレイヤーが「表と裏を1/2ずつ選ぶ」というのがナッシュ均衡となります。そう考えると「確かに確率的に戦略を選ぶという考え方は分からないでもないな…」と思いませんか？

しかし、この混合戦略とナッシュ均衡の考え方は、なかなかの曲者で、正しく理解しにくいのです。以下では、これについて話していきます。

等確率でない場合

「確率で選ぶ」ということは「等確率で選ぶ」ことと同じではありません。以下の例を考えてみましょう。

（サッカーのPK戦のゲーム）サッカーのPK戦を簡便にしたモデルを考える。キッカーは（キーパーから見て）ボールを左か右かのどちらかに蹴り、キーパーは（自分から見て）左か右に飛んでゴールを阻止するとする（以下の図）。

これをお互いが同時に右か左かを選ぶ戦略形ゲームと考える。キッカーとキーパーは、違う方向に飛べばゴールの成功率は高く、同じ方向に飛べば低くなる。またキッカーは左に蹴る方が得意であり、左のほうが成功率が高い。キッカーの利得は、ゴールの成功率、キーパーの利得は失敗率（１からゴールの成功率を引いたもの）とし、各成功率は以下のような利得行列で与えられているとする。

このようなゲームの解はどうなるだろう？

このゲームもナッシュ均衡を求めてみると、やはり（純粋戦略の）ナッシュ均衡はないことが分かります。そこで混合戦略のナッシュ均衡を求めると、

キッカーは右を5/8、左を3/8で選び、キーパーは右を7/8、左を1/8で選ぶ

となります。キッカーもキーパーも右と左を等確率で選ぶわけではありません。

どうやってこれを求めるのか？混合戦略のナッシュ均衡を求めることは、ゲーム理論の試験問題の定番です。いろんな大学のゲーム理論の講義の宿題や試験、さらには公務員試験などで出題されていて、ここを訪れた皆さんならやったことがあるか、もしくはそれを知りたくてここに来たのかもしれません。求め方は大切ですし、面白いのですけど、それは別に記すことにしましょう。

このページでは求め方ではなく、考え方について記していきますが、その前に、まず１つ重要な事実をお伝えします。上記のように一見するとナッシュ均衡がないように見えるじゃんけん、マッチングペニー、サッカーのPK問題でも混合戦略というものを考えるとナッシュ均衡がありました。実は

プレイヤーが何人いても、戦略がいくつあっても、混合戦略まで考えれば必ずナッシュ均衡は存在する

という数学の定理があるのです。凄い！凄すぎる！ナッシュ均衡は必ずあるんです（←ジョン・カビラさん風に読んで下さい、川平慈英さんでも可！）。これはゲーム理論において、たぶんいちばん重要な定理です。

この定理を証明した人は誰でしょう？賢明なあなたなら、それはもうお分かりだと思います。その人は、その功績を認められて1994年にノーベル経済学賞を取りました。

混合戦略のナッシュ均衡とは何なのか？

さてここでは求め方ではなく、上で求めた確率は「いったい何なんなのか？何の意味があるのか？」ということについて述べてみます。

専門家は、これについてハルサニーのpurification theorem(Harsanyi(1973))を考えると思いますが、ここではもう少し初心者向けの話をしてみます。

「何なんだと言われても、ナッシュ均衡でしょ？としか言いようがない！」というかもしれません。それでは以下の考え方は正しいでしょうか？

（疑問１）キッカーは右を5/8、左を3/8で選ぶことが最適で、これに従うことが一番良いのだろうか？もし実際に自分が上のようなゲームに直面し、キッカーだったら、右を5/8で蹴ると一番良いのだろうか？

この「混合戦略のナッシュ均衡の戦略はゲームの必勝戦略で、それを出すことがプレイヤーにとっては一番いいんだ！」という考え方は正しいのでしょうか？

また、必勝戦略であるかどうかの前に、

（疑問２）もしあなたがキッカーで5/8の確率で右に3/8の確率で蹴ろうとすると、どうやってボールを蹴るのだろうか？

という疑問もあります。疑問２は専門家には簡単なことなのでしょうが、学生に投げかけてみると、ほとんど答えられないようです。疑問１くらいだとさっぱり分かりません。

混合戦略のナッシュ均衡は求められるのに、それが何なのか分かっていないことが多い人が何と多いことか。私も成績をつける都合で宿題や試験に出しているんだということを正直に告白しなければなりません。教員は、それに何の意味があるのか分かっていないものを、学生に求めさせていることを大いに反省しなければなりません。はい、いつか話そうと思っていました。なので、今回のこの記事は、スゴーク長くなっているのです。

まず疑問２について答えてみます。混合戦略は「確率で戦略を決定する」のですから、忠実に再現するには、何らかの「くじ」や「サイコロ」のような確率を発生させる仕組みが必要です。ゲーム理論の専門家は、これをランダムデバイス（random device）と呼びます。もし「右を5/6、左を1/6で選べ」と言われたら、「サイコロを振って1の目が出たら左、それ以外は右」を選びます。では「右を5/8、左を3/8で選べ」だと、どうすれば良いのでしょうか？このページの最後に答を記すので、皆さんで考えてみて下さい。

混合戦略のナッシュ均衡は必勝法か？

さていよいよ疑問１の「現実にゲームに直面したときに、混合戦略のナッシュ均衡に従うことは自分にとって最適なのか」ということについて考えてみます。実はこれはよく分からないんです。状況は零和ゲームか、非零和ゲームかで変わってきます。しかし私は「ざっくり言うと、必ずしもそうではない」と考えています。

それはまずじゃんけんについて考えると、分かりやすくなります。

２人じゃんけんのナッシュ均衡の戦略は「グー・チョキ・パーを1/3ずつ出す」という戦略になります。お互いに、この戦略を選んでいると、勝ち・負け・引き分けの確率は共にに1/3となります。

では仮に相手が「グーしか出さないやつ」で、そしてそれをあなたが知っていたら、あなたはどうします？このときはパーを出すことが最適です。当たり前です。そして、そうすれば、あなたは100％勝つことができます。しかし、もしあなたがナッシュ均衡の戦略である「グー・チョキ・パーを1/3ずつ出す」という戦略を選ぶとどうなるでしょう。このとき、あなたの勝つ確率は1/3になってしまいます。相手がグーしか出さないやつなのに、あなたと相手の勝つ確率は、同じになってしまいます！

じゃんけんにおいて「グー・チョキ・パーを1/3ずつ出す」ということは最適戦略ではありません。これはナッシュ均衡の戦略でしかないのです。よくナッシュ均衡の戦略を「最適戦略」と書いている文章を見かけますが（学会発表などでもよく見られます…実は自分もそう書いてしまうことがあるのですが）、「最適」という言葉は相手の戦略が所与の場合でしか使えません。最適戦略と書かないで下さい、均衡の戦略と書いて下さい。

で？結局のところ「何なんだと言われても、ナッシュ均衡でしょ？としか言いようがない」っという所に戻って来てしまいます。つまり「混合戦略のナッシュ均衡は何を意味しているか」という問題は、そもそもの「ナッシュ均衡とは何か」という問題に立ち返ることになります。

ゲーム理論のナッシュ均衡には、いくつかの解釈があります。１つ目は「合理的なプレイヤーが、お互いがよく考えて行動を選択するとナッシュ均衡になるだろう」という考え方（伝統的なゲーム理論、合理的プレイヤーのゲーム理論）、2つ目は「プレイヤーの中で高い利得を獲得したプレイヤーだけが生き残り、そうでないプレイヤーが淘汰されるような環境で生き残っていく戦略はナッシュ均衡になるだろう」という考え方（進化ゲーム的解釈）。他に「第3者がプレイヤーにそれを推薦すると、プレイヤーはそれを選ぶだろう。それによって第3者は、自分やプレイヤー達を良い結果に導くことができる、と言う考え方もあると思いますが（メカニズムデザインなど）、あまり中心的ではないので、ここでは1つ目と2つ目の考え方に立ってみます。

１つ目と２つ目のの立場に立っても、ナッシュ均衡の戦略とは「あなたはそうすると良い、これが必勝法だ」というよりは、むしろ「プレイヤーは達はそう行動するだろうという予測」を述べているのに近いはずです。

混合戦略は確率的に行動を選択する戦略なので「プレイヤーは達はそう行動するだろうという予測」と言っても、 1回のゲームの結果では当たっているかどうかは分かりません。サイコロで1の目が出る確率は1/6ですが、１回だけサイコロを振って出た目を見ても、その予測が正しいかどうか分からないのと同じことですよね。しかし何回も同じようなゲームが試行された場合、ナッシュ均衡の予測が当たっているかどうかを検証することができます。これについては

実験経済学における混合戦略の実験
テニスやサッカーなどのスポーツの試合における実証

などがあり、いずれも混合戦略による予測は、それほど悪くはないという結果が導かれています。

まとめ

うーんかなり疲れてきたので、このへんで終わりにします。まとめると

ナッシュ均衡がないように見えるゲームも、混合戦略のナッシュ均衡がある。必ずある。それを証明したすごい人がいる。
混合戦略のナッシュ均衡は最適戦略ではない。あくまでも均衡である。
ナッシュ均衡は「そのようにプレイすることが良い」とは必ずしも言っておらず（注）、「人々はナッシュ均衡のようにプレイするだろう」と言っている。

そうは言ってもゲームにおいて「勝つために混合戦略のナッシュ均衡をうまく活用」する方法はあるはずです。これについては、また別の機会に考えてみます。

混合戦略については、どのゲーム理論のテキストにも載っていますが、それが一体何なんだということについて書いてある本は、ほとんどないように見えます。この混合戦略のナッシュ均衡の解釈はかなり難しいからです。しかし東大の神取道宏先生は、一般向けの本などで（例えば神取（2014））このことについて言及されていて、さすがだなーと思います。

なお3/8で右、5/8で左に蹴るには、コインを3枚投げて、1枚だけ表が出たら右、それ以外（2枚表が出るか、全部表が出るか、全部裏が出る）だったら左に蹴るというのが正解です。「8本のあみだくじを引く」「八面体のサイコロを使う」なども正解でしょう。

注意点

ゲーム理論の研究者間だと混合戦略のナッシュ均衡は「ゲームの情報に僅かに不完備性があるゲームの純粋戦略均衡を考え、その不完備性がゼロに近づいたときの極限における均衡」と考えることもあります(Harsanyi (1973))。初心者向けのここではそれについては触れませんでした。

参考文献

神取道宏 (2014)、ミクロ経済学の力、日本評論社。
Harsanyi, J. C.(1973) Games with randomly disturbed payoffs: A new rationale for mixed-strategy equilibrium points. Int J Game Theory 2, 1–23 . https://doi.org/10.1007/BF01737554

東京都立大学　2020ゲーム理論１　オンライン講義（2020：コロナ対応）

2020年5月14日2021年2月22日

チキンゲーム

チキンゲーム(chicken game)は、2人のプレイヤーがそれぞれ「強気(Bull)」と「弱気(chicken)」のどちらかを選び
(1)相手が「弱気」なら、自分は「強気」の方が「弱気」より良い
(2)しかし両方が「強気」を選ぶと、2人にとって最悪な結果となる
というゲームです。

チキンゲームの例

以下の例を考えてみます。

（チキンゲームの例）2人のプレイヤー１と２はこれから共同でプロジェクトを行う予定であり、契約の前に獲得予定の利益100万円の分配について交渉をしている。2人はそれぞれ「強硬」か「妥協」のどちらかを選ぶ。両方が妥協すれば50万円ずつ折半となるが、一方が「強硬」に出て一方が「妥協」すると、強硬に出た方は75万、妥協した方は25万と利益を分ける。両方が強硬に出ると交渉は決裂してプロジェクトは行われず、双方の利益は0になる。

この状況を利得行列にすると、以下のようになります。

この状況では、各プレイヤー（１と２）はそれぞれ
(1)相手が妥協を選ぶなら、自分は妥協より強硬が良い
(2)両方が強硬を選ぶなら二人にとって最悪な結果となる
ことが分かります。これがチキンゲームです。

チキンゲームの解

チキンゲームの条件(2)は以下の(2*)と(3)ように書き直せるため、チキンゲームは以下の3条件に書き直すことができます。

(1)相手が「弱気」なら、自分は「強気」のほうが「弱気」より良い
(2*)相手が「強気」なら、自分は「弱気」のほうが「強気」より良い
(3)両方が「強気」より、両方が「弱気」のほうが２人にとって良い

(1)と(2*)からこのゲームの解（ナッシュ均衡）は、

一方のプレイヤーが「強気」を選び、一方のプレイヤーが「弱気」を選ぶ

であることが分かります。上述の100万円を分ける交渉の例だと

（A)プレイヤー１が「強気」、プレイヤー２が「弱気」を選ぶ
（B)プレイヤー１が「弱気」、プレイヤー２が「強気」を選ぶ

という２つの解が存在します（実は他に確率で選択を行う混合戦略のナッシュ均衡が１つある）。実際にナッシュ均衡の求め方に従って、利得に下線を引くと以下の図となり、両プレイヤーの利得に下線が引いてある戦略の組は、上記の(A)と(B)であることが分かります。

この（A)と（B)のナッシュ均衡のどちらが解になるのか、という問題は調整ゲームと同じで難しい問題です。調整ゲームと同じように、それまでの慣習などで「フォーカルポイント」が存在すればそれが解になりえますが、そのようなものがない場合はナッシュ均衡が実現するかどうかも難しい可能性があります。（調整ゲームとの関連は後述）

囚人のジレンマと間違えないで！

よくチキンゲームと囚人ジレンマは混同されます。上記の条件(1)(2*)(3)を見ると、(1)と(3)は囚人のジレンマと同じです。囚人のジレンマを

相手が協力するならば、自分は協力しない方が良い。しかし2人が共に協力しないよりは、2人が共に協力したほうが良い。

とだけ説明すると、これは囚人のジレンマか、チキンゲームか分かりません（相手が協力しないときに、自分は協力したほうが良いのか、協力しないほうが良いのかが分からないですよ）。囚人のジレンマと混同しないように注意しましょう。

調整ゲームとの関連は？

既に見たようにチキンゲームは調整ゲームと同じ構造を持っているようにも見えます。上述の100万円を分ける交渉において、各プレイヤーはAかBの「ラベル」を選ぶこととし、プレイヤー１はAならば「強気」をBならば「弱気」を選ぶことを意味しているとし、プレイヤー2はAならば「弱気」をBならば「強気」を選ぶことを意味しているとし、ゲームを置き換えるとしましょう。このゲームは以下のような利得行列に書き換えることができます。

このゲームは、相手と同じものを選んだほうが良い「調整ゲーム」であることが分かります。チキンゲームはこのように「2人だけの」「1回だけの」ゲームだと考えれば広義の調整ゲームであるとみなすことができ、分析上は区別する必要はありません。

しかしゲーム理論においては、
＊多人数のプレイヤーがいて、各プレイヤーは「強気」か「弱気」のどちらかを選ぶようなプレイヤーであるとする（戦略がある程度「固定」されている）。
＊それらのプレイヤーが、2人ずつ出会ってゲームを行う
＊プレイヤーの戦略は「進化」や「学習」によって更新される
と考える文脈（進化と学習のゲーム理論）もあります。この枠組みでは、上記のラベルの入れ替えはできません。この文脈では、チキンゲームと調整ゲームは異なるものと考えられます。実際に多くの進化や学習のゲームでは、調整ゲームはすべてのプレイヤーが同じ行動を選ぶ(上述のAとBを選ぶゲームでは全員がAを選ぶか、全員がBを選ぶかという結果になる）ことが解になるのに対し、チキンゲームはプレイヤーが棲み分けを行う（上述のチキンゲームでは、強気と弱気を選ぶプレイヤーが50%ずつに分かれる）ことが解になります。

このような進化や学習のようなモデルでは、チキンゲームは調整ゲームよりはむしろ混雑ゲームと似た構造になっていると考えられます。

東京都立大学　2020ゲーム理論１　オンライン講義（2020：コロナ対応）

ゲーム理論１_08 ２人ゲームの例と調整ゲーム

はじめに

問題のモデル化

問題の解法

計算結果

まとめ

じゃんけん研究

２☓２ゲームの混合戦略ナッシュ均衡を求める

均衡で期待利得が等しい理由

ナッシュ均衡における期待利得を求める

相手の利得が自分の戦略を決める

２☓２ゲームのナッシュ均衡をすべて求める

まとめ

注意点

参考文献

東京都立大学 2020ゲーム理論１ オンライン講義（2020：コロナ対応）

ナッシュ均衡のないゲーム？

混合戦略

等確率でない場合

混合戦略のナッシュ均衡とは何なのか？

混合戦略のナッシュ均衡は必勝法か？

まとめ

注意点

参考文献

東京都立大学 2020ゲーム理論１ オンライン講義（2020：コロナ対応）

チキンゲームの例

チキンゲームの解

囚人のジレンマと間違えないで！

調整ゲームとの関連は？

東京都立大学 2020ゲーム理論１ オンライン講義（2020：コロナ対応）

東京都立大学　2020ゲーム理論１　オンライン講義（2020：コロナ対応）

東京都立大学　2020ゲーム理論１　オンライン講義（2020：コロナ対応）

東京都立大学　2020ゲーム理論１　オンライン講義（2020：コロナ対応）