篠原じゃんけんとその解

篠原さんというゲームデザイナーの方が発案した「よくばりじゃんけん(または、篠原じゃんけん)という面白いじゃんけんがあるそうです。

知らなきゃ損する? ボードゲームに欠かせない「ゲーマーじゃんけん」と「よくばりじゃんけん」のルール

そのナッシュ均衡を一橋大学の宇井先生が求めています。以下に、宇井先生の原稿があります(篠原じゃんけんの説明も、その中にあります)

「よくばりじゃんけん」の分析

宇井先生の求め方は秀逸です。このじゃんけんは、グーを出すと、それによって脱落する人が出て人数が変わるため、普通は再帰的にしか求められないのですが、宇井先生は混合戦略均衡の性質と対称性をうまく利用して、きれいに解かれています。

多人数で勝者を決定するじゃんけんには「わたなべじゃんけん」がありますが、「生き残るかどうか!」というゲーム性と面白さは、さすがゲームデザイナー!ですね。

グリコ・チョコレート・パイナップルゲームのゲーム理論による解

グリコ(グリコじゃんけん)は「勝ち」と「負け」しかないのに、3点や6点の得点を割り当てて誤って計算されている答が多く、ゲーム理論として正しく解かれたものは(自分が知る限り)存在しない。ここでは 「グリコ・パイナップル・チョコレート」ゲームの正しい解について分析する。

このゲームは古くから知られていて、今でも子どもたちが遊んでいるのを見かける。多くの者の興味を引くようで、考察しているホームページや文献はいくつかあるが、どれも正しくない。…ということで、2019年度の渡辺ゼミの卒論で上野陽菜さんがこの問題に取り組んでくれたので、以下に発表。

本来は日本OR学会の2020年春季研究発表会で発表する予定であったが、コロナウィルス問題で学会が中止になったためここに公開。

結果の要旨を先にまとめると:

  • 相手と自分が立っている位置によって戦略は異なる。例えば、両方があと3歩でゴールできる場合は(3歩でも6歩でもゴールするので)普通のじゃんけんと同じになり、グー・チョキ・パーを1/3ずつ出すことが均衡になる。
  • 一方が他方よりゴールに近い場合、ゴールにより近い(つまり勝っている)プレイヤーは相手を6歩で勝たせる確率を少なくしようとしてチョキを多めに出す。これに対してゴールからより遠い(つまり負けている)プレイヤーはグーを出す確率を多めにして、少しずつ進む戦略を選ぶことが均衡となる。
  • 両者がスタート地点にいるとき、スタート地点が遠くなると均衡戦略は、巷でよく計算される「グー・チョキ・パーを2:2:1で出すこと」( グー、チョキ、パーを3点、6点、6点で換算した1回のゲームの均衡戦略)に近づく。

はじめに

「グリコ・パイナップル・チョコレート」はスタート地点からじゃんけんをして、グー(以下G)で勝てば「グリコ」で3歩進み、チョキ(以下C)かパー(以下P)で勝てば「チヨコレイト」「パイナツプル」で6歩進んで、先にゴールしたほうが勝ち、というゲームである。古くから知られていて、私が子供の頃、50年くらい前には既に存在していたが、今でも子どもたちが遊んでいるのを見かける。この記事では、この「グリコ・チョコレート・パイナップル」ゲームの2人のときのゲーム理論における解を解析する

もし、この2人ゲームの利得行列を図1の左側(進む歩数、進まれた歩数が利得)と考えるならば、ナッシュ均衡(零和ゲームなのでマキシミニ戦略と同じ)は「G,C,Pを2/5、2/5、1/5(2:2:1)で出す」ことが解になる。(求め方はいろいろなところに書いてある、例えばwikipedia) また右側と考えるならば「G,C,Pを1/4,1/2,1/4で出す」ことが解になる。

図1:誤った利得行列の例

ちなみに右側は拙著「ゼミナールゲーム理論入門」に載っていて、求め方も(丁寧に)解説している。初心者にゲーム理論への興味を湧かせるために、このような例を用いたのだが、いつの間にかこの例が広まってしまった。中には「この解はおかしい」という人まで現れた。いやね、おかしいのは分かってて「このような利得だと考えると」と注意をしているのに…。失敗だった。いつか、これを正しておかなければ死ねないと、ずっと思っていた。本稿を仕上げることで、やっと死ねる。

図1のようなモデル化は間違っている。誤りの1つ目の点は、このゲームは元々「先にゴールしたほうが勝ち」というルールであり結果は「勝ち」「負け」しかなく、進んだ歩数が利得ではないからである。3とか6などの数値には正確な意味がなく、勝つか負けるかしかなく、勝ちは+1、負けは-1というゲームになるはずだ。

もう1つ上記のモデルが誤っている点、見落としている点は、このゲームは相手と自分が立っている位置によって、戦略が異なるということである。これを確認するには2人ともあと三歩以内でゴールできるという状態を想定すれば良い。このときは3歩でも6歩でもゴールできるので、G,C,Pは同じ効果を持つ(与える利得は同じ)。このときのナッシュ均衡は普通のじゃんけんと同じ「G,C,Pを1/3ずつ出す」となることは明らかだ。すなわち、このゲームにおける均衡戦略は「お互いが、あと何歩でゴールできるか」という状態に依存する。

ここではゲームを「先にゴールすれば勝ち、ゴールされれば負け」と考え、「勝てば利得が1、負ければ利得が-1」の2人零和ゲームと考える。そして2人のゴールまでの距離を状態変数としたゲーム(マルコフゲーム)と捉え、定式化して分析する。

問題のモデル化

このゲームを2人零和ゲームと考え、以下のようにモデル化する。

  • 計算を単純にするため、3歩を1ステップと考える。
  • 2人のプレイヤーが、ゴールのNステップ前の距離からじゃんけんをはじめ、Gで勝つと1ステップ、C,Pで勝つと2ステップ進む。あいこだと、どちらも進まない。
  • 先にどちらかがゴールすればゲームが終了する。先にゴールした方は勝ちで利得1を獲得し、ゴールされた方は負けで利得-1とする。
  • 「行き過ぎ」は考えない。ピッタリゴールしなくても勝ちとする。例えば1ステップ前からCで2ステップ進んでも、勝利とする。
  • 時間経過による利得の割引は考えない。

プレイヤー1が、あと\(n\)ステップ、プレイヤー2があと\(m\)ステップでゴールする状態を\((n,m)\)( \(1 \leq n,m \leq N\))で表す。状態\((n,m)\)で、どちらかのプレイヤーが勝つと状態が遷移し、あいこだと同じ状態に留まる。たとえば状態\((10,9)\)のとき、プレイヤー1がパーで勝てば状態\((8,9)\)に遷移する。

状態\((n,m)\)でプレイヤーが直面するゲームのナッシュ均衡(マキシミニ戦略でもある)における、プレイヤー1の期待利得(ゲームの値)を\(v_{n,m}\)とする。

\(n=0,-1\)または\(m=0,-1\)の場合にはゲームが決着し値が定まっている。これが再帰的に問題を解く初期状態となる。すなわち
\( \begin{align}
v_{0,m}=v_{-1,m}=1 & v_{n,0}=v_{n,-1}=-1 \tag{1}
\end{align} \)
(\(1 \leq n,m \leq N\))とする。

このとき状態\((n,m)\)におけるゲームのプレイヤー1の利得は、以下の表となることが分かる。

状態(\(n,m\))におけるプレイヤー1の利得表

零和ゲームであることから、プレイヤー2の利得は、上記行列に-1を乗じたものとなる。

問題の解法

ゲーム\((n,m)\)のプレイヤー1の均衡戦略とゲームの値\(v_{n,m}\)を求める。なお、ここでプレイヤー2の戦略は、状態\((m,n)\) でのプレイヤー1の戦略と同じになる。

プレイヤー1が均衡において、G,C,Pを出す確率(混合戦略)を\(q_G,q_C,q_P\)とする。このときプレイヤー2がG,C,Pを出したときのプレイヤー1の期待利得を\(E_G,E_C,E_P\)とすると、
\( \begin{align}
E_G=q_Gv_{n,m}+q_Cv_{n,m-1}+q_Pv_{n-2,m} \\
E_C=q_Gv_{n-1,m}+q_Cv_{n,m}+q_Pv_{n,m-2} \\
E_P=q_Gv_{n,m-2}+q_Cv_{n-2,m}+q_Pv_{n,m}
\end{align} \)
となる。

ここでナッシュ均衡では
\[
E_G=E_C=E_P=v_{n,m} \tag{2}
\]
が成立する。

上記の理由を正確に説明すると長くなるため端折って説明する。このゲームには、純粋戦略のナッシュ均衡はない。そして、これから1つの戦略に確率0を割り当てる(つまり2つの戦略のみに確率を割り当てる)ような混合戦略を用いたナッシュ均衡が存在しないことも分かる。ナッシュ均衡は必ず存在するので、このゲームにはすべての戦略に正の確率を割り振るような混合戦略(完全混合戦略と呼ぶ)のナッシュ均衡しかないことが分かる。

このゲームは零和ゲームであるたm、\(E_G,E_C,E_P\)はプレイヤー2がG,C,Pを出したときのプレイヤー1の期待利得であると同時に、プレイヤー2の期待利得に-1をかけたものとなる。もし均衡において\(E_G=E_C=E_P\)でなければ、プレイヤー2はこの値が最も高くなる戦略(G,C,Pのどれか)に確率0を割り当てることが最適反応戦略となる(最も高くなる戦略が2つある場合は、2つに0を割り振る)。これは上記の完全混合戦略しかナッシュ均衡がないことに矛盾する。これから\(E_G=E_C=E_P\)が得られて、期待利得\(v_{n,m}\)もこれと等しくなることが分かる。これより式(2)を得る。

ナッシュ均衡において、正の確率が割り振られる純粋戦略の期待利得はすべて等しくなる説明はこちら(混合戦略なッシュ均衡の求め方)も参照。

式(2)に対して、式(1)を初期条件として用いて、\(q_G,q_C,q_P\)と\(v_{n,m}\)を求めることで、再帰的に期待利得\(v_{n,m}\)と均衡戦略を求めることができる。しかしこの方程式は\(v_{n,m}\)に関ずる非線形方程式(3次方程式)になるため、数値的に解くこととする。

なお\(q_G,q_C,q_P\)はプレイヤー2の均衡戦略であるが(ナッシュ均衡は、プレイヤー1の期待利得を考えることで、プレイヤー2の戦略が求められる、こちらを参照)、\(n\)と\(m\)を入れ替えてプレイヤー1の戦略を求める。

計算結果

まずプレイヤー1の期待利得について、基本的な確認をしてみる。

図1は、プレイヤー2のゴールまでステップ数\(m\)を横軸に取り、プレイヤー1のゴールまでのステップ数\(n\)ごとにプレイヤー1の期待利得を示したものである(\(n=1\dots,10\))。

図1:プレイヤー1の期待利得(プレイヤー1の勝つ確率と同じ)

プレイヤー1の期待利得を\(v\)とするとき、プレイヤー1の勝利確率\(p\)は
\[ p=\frac{1}{2}\left(v+1\right) \]
で与えられるので、図1はプレイヤー1が勝利確率と考えることもできる。

表1はプレイヤー1の勝利確率である。例えば自分があと1ステップ(3歩)でゴールでき、相手が2ステップ(6歩)のとき((n=1,m=2))、相手はチョキかパーで勝てば逆転勝利できる位置にあるが、自分の勝利確率は63%(2/3)、相手は37%(1/3)である。

表1:プレイヤー1の勝利確率

これらから、次のことが確認できる。

  • プレイヤー1もプレイヤー2も同じ位置にいるとき(\(n=m\))、プレイヤーの勝つ確率は同じ(期待利得は0、 勝つ確率は0.5で等しい)。
  • プレイヤー1の位置を固定すると(\(n\)のグラフを固定)、プレイヤー2の位置がゴールから遠くなればなるほど(\(m\)が増加するほど)、プレイヤー1の勝利確率は高くなり、
  • プレイヤー2の位置を固定すると(\(m\)の値を固定)、プレイヤー1の位置がゴールから遠くなればなるほど(\(n\)が増加するほど)、プレイヤー1の勝利確率は低くなる。

次に戦略について見ていこう。計算から次のようなことが分かった。

  • プレイヤー1の戦略に対し、グーとチョキを入れ替えるとプレイヤー2の戦略となる。パーの戦略は同じになる。
  • パーを出す確率は、グーやチョキよりも低い。グーとチョキのどちらが高いかは、状態によって変化する

これらはたぶん均衡を求める式を丁寧に調べると証明できるのであろうが、やっていない。

さて、図2は\(m=1\)(プレイヤー2があと1ステップでゴールするとき) の両プレイヤーの戦略を、プレイヤー1の位置\(n\)を横軸としてグラフにしたものである。このゲームの特徴がよく現れている。

図2:あと1ステップ(3歩)でプレイヤー2がゴールするとき

先に予想したとおり、2人ともあと1ステップでゴールできる場合( \(n=m=1\))では、G,C,Pを出す確率は\(1/3\)となり、普通のじゃんけんと同じになることが分かる。それ以外では、プレイヤー1はグーを出す確率が高く、プレイヤー2はチョキを出す確率が高い。プレイヤー2はあと1ステップでゴールできるので、グーよりもチョキやパーを出すことで有利にならないため、相手に2ステップ進ませることを何としても避けたい。そのためチョキを出してプレイヤー1がチョキやパーで進むことを阻止したいわけだ。プレイヤー1はそれを読み込むと、グーを出す確率を高くして、1ステップだけ進んでおこうとして、それが均衡となる。プレイヤー1の位置が2ステップのとき\(n=1,m=2\)では、それが最も顕著に現れ(プレイヤー2は1ステップでゴールできるにも関わらず、プレイヤー1に2ステップ進まれると逆転負けする)、プレイヤー1がグーを出す確率(=プレイヤー2がチョキを出す確率)は0.52にまで上昇する。

図3は\(m=5\)(プレイヤー2があと5ステップでゴールするとき) のグラフである。

図2:あと5ステップ(15歩)でプレイヤー2がゴールするとき

この例から分かるように、均衡戦略は次の2つの要因に影響される。

(1)ゴールまでの距離:プレイヤー1がゴールから離れるほど、グーを出す確率が増加しチョキを出す確率が減少する(プレイヤー2はチョキを出す確率が増加し、グーを出す確率が減少する)。 プレイヤー1がゴールから遠いとき、プレイヤー2はプレイヤー1が2ステップ進むことを避けるためチョキを出す確率を高め、それをプレイヤー1が読み込みグーを出す確率が高くなることを表している。相手がゴールより遠いときには逆転させないように1ステップづつ進ませる(自分がゴールから遠いときには1ステップづつ進む)戦略となる。同じ位置 \(n=m\) にいるときはグーとチョキを出す確率が同じになるので、基本的には勝っているときはチョキを出す確率が高く、負けているときはグーを出す確率が高くなる。

(2)奇数と偶数ステップの効果:プレイヤー1は偶数ステップではグーを出す確率が増加し、チョキを出す確率が減少する。先に見たようにプレイヤー1が残り2ステップでゴールする場合\(n=2\)、プレイヤー2はプレイヤー1が2ステップ進んで一気にゴールすることを阻止するためチョキを出す確率を高めるので、プレイヤー1はそれを読み込んでグーを出す確率を高める。これと同様の理由が再帰的に続くと考えられる。例えばプレイヤー1が残り3ステップと4ステップのときを考えると、どちらも1回ではゴールできず、少なくとも2回で勝たなければゴールできない。プレイヤー1が残り4ステップのとき、一気に2ステップ進まれると、残り1回で勝つチャンスがプレイヤー1に生まれるが、1ステップでは少なくともあと2回勝たなければダメなままである。これに対しプレイヤー1が残り3ステップのときは、1ステップ進んでも、2ステップ進んでも残り1回で勝つチャンスがプレイヤー1に生まれる。つまりプレイヤー2としては、プレイヤー1が偶数ステップのときに2ステップ進むことを阻止したいインセンティブが強くなる。それをプレイヤー1が読み込む結果だと思われる。

上記の2つの要因によって図3の戦略は解釈できると思われる。

  • \(n=m=1\)ではG,C,Pを出す確率は\(1/3\)となる。
  • \(n=m\)ではグーとチョキを出す確率が同じ。
  • \(n=m\)として、\(n,m\)を大きくすると、均衡戦略は図1の左側の利得行列のナッシュ均衡である\(2/5,2/5,1/5\)に近づくことが分かる。すなわち両者がスタート地点にいるとき、スタート地点が遠いならば「グー・チョキ・パーを2:2:1で出す」ことが均衡戦略となる。

最後の結果から、巷で言われる(?)図1の左側の利得行列の計算も、あながち間違っているわけではないと言える。

まとめ

以上、グリコ、チョコレート、パイナップルの解をゲーム理論で解析した。なおこの確率はナッシュ均衡の確率を計算したものであり、相手がナッシュ均衡に従わない場合は必勝戦略とならないことに注意したい。例えば、チョキばかり出してくる馬鹿な相手に、上記の結果のナッシュ均衡戦略で勝負するよりは、グーを出したほうが良い。

この混合戦略のナッシュ均衡は、自分がナッシュ均衡に従っているならば、相手が何を出して来ようが、均衡における自分の期待確率を同じにしていることに注目したい。つまり自分が勝っているとき(相手よりも先に進んでいるとき)は均衡に従えば、相手が何を出そうが自分の有利さをそのまま保つことができる。これに対し、自分が負けているとき(相手が先に進んでいるとき)は均衡に従うと、相手が何を出しても自分の不利さをそのまま保つような戦略になってしまっている。そこで実践的な意味では、自分が先に進んでいるときは上記の確率に従い、負けているときは相手が均衡戦略から外れ、デタラメに出すことを期待して他の戦略を用いたほうが良いだろう。上記の偶数・奇数ステップでの知見を逆手に取り、自分が偶数ステップにいるときチョキの確率を高めて、2ステップ進む確率を高めたほうが良いかもしれない。

混合戦略のナッシュ均衡が何を意味しているのかは、混合戦略の項に少し記したが、私自身も理解していないことがいくつかある。これらは機会を見て、追加していきたい。

じゃんけん研究

ゲーム理論における混合戦略

ここでは混合戦略とは何か、混合戦略のナッシュ均衡とは何かについて記していきます。計算方法は、ここではありません。必要ならば、以下も参照してみて下さい。

ナッシュ均衡のないゲーム?

戦略形ゲームの解であるナッシュ均衡について、その考え方と2人ゲームでの求め方について書きました。しかし2人の「じゃんけん」に対してナッシュ均衡を求めると、ナッシュ均衡が存在しないように見えます。

じゃんけんの利得行列(勝ちは+1、負けは-1、あいこを0としている)

ナッシュ均衡は「お互いが利得を最大にしている戦略の組」です。じゃんけんでは「相手がグーなら自分はパーが良い(利得を最大にする)」「自分がパーなら、相手はチョキが良い」「相手がチョキなら自分はグーが…」と循環してしまい、お互いが利得を最大にしている戦略の組はないことが分かります。(循環するからダメなわけではないんですけど、正確には…)

確認するために、ナッシュ均衡の求め方にしたがい最適反応戦略(利得を最大にする戦略)となる利得に下線を引くと以下の図になり、両プレイヤーの利得に共に下線が引かれている戦略の組はないことが分かります。

じゃんけんの最適反応戦略とナッシュ均衡

じゃんけんには戦略が3つありますが、戦略が2つであってもこのような(一見すると)ナッシュ均衡がないゲームはあります。以下のゲームは、その典型例として、よく用いられます。

(マッチングペニー)2人のプレイヤーAとBが、それぞれ表(Head)か裏(Tail)を選ぶ。2人が同じものを選べばAの勝ち、違うものを選べばBの勝ち。

このゲームは「1セント硬貨(ペニー)をお互いに持ち、同時に表か裏かを出す」というゲームから由来していることから、マッチングペニー(matching pennies。 penniesって複数形なんだ…)と呼ばれています。

マッチングペニー

脱線しますが、日本人だと2人で順番を決めたり、勝ち負けを決めたりするときはじゃんけんをします。あっち(欧米)だとじゃんけんがなく、そのような状況では「表か裏を選ぶ」という方法を考えるのが定番のようで、ゲーム理論をやっていると頻繁に「表」「裏」を選ぶという状況が登場します。マッチングペニーが実際に行われているかどうか、私は知らないのですが(誰か教えて下さい)、テニスの試合なんかだと最初にサーブを取るかコートを選ぶかを決めるときに、一方の選手がラケットを地面に立ててぐるぐる回して放し、もう一方が落ちるラケットの上面が表か裏かを言い当てるという方法を使います(私のようなド素人だと、ラケットの表と裏が分からなくて、そこでつまづきます)。マッチングペニーに近いですが、ラケットを回すほうは自分の意志で表か裏を選択しているわけではないので「ゲーム」ではないですね。ちなみにテニスの大きな試合( サッカー・アメフトなんかもそう)では審判がコイントスをして決めますが、これも第3者が決めているので「ゲーム」ではありません。くじと一緒です。

マッチングペニーでは、出したコインの表と裏が一致したときに、勝つプレイヤーと負けるプレイヤーをあらかじめ決めておく必要があります。これはマッチングペニーのルールがプレイヤーに対して非対称であることによります。ワタナベじゃんけんも同じで、どのような場合に誰が勝つかという、結果とプレイヤーを予め結びつけておく必要があります。戦略が2つだと対称で等確率に勝負がつくゲームは作れないのです。じゃんけんは、どのプレイヤーも勝ちの場合と負ける場合のルールが対称になっているゲーム(対称ゲーム)で、あらかじめ結果と勝者とを結びつけておく必要がありません。しかし戦略が3つ必要になります。どちらが好みでしょうか。日本人の私はじゃんけんのほうが好きですが(ラケットやペニーのような「道具」も必要なく、最初にどのようなときに誰が勝つかというプレイヤーを特定する必要もない)。じゃんけんは「あいこ」があるため勝負に時間がかかることがあります。戦略の数、必要とする道具、対称性、あいこと勝負の決定性、などを考慮するとどちらが良いかは好みで分かれるでしょう。

混合戦略

脱線してしまいましたが話を元に戻すと、マッチングペニーもじゃんけんと同様にナッシュ均衡がないように見えます。このような一見すると均衡がないゲームも、プレイヤーが確率を使って戦略や行動を選択すると考えるとナッシュ均衡が存在します。これはゲーム理論の出発点とも言える部分で、歴史的にはゲーム理論のキモと言うか核と言うか、そんな考え方なんです。

ゲーム理論では、プレイヤーが確率を用いて行動や戦略を選択することを1つの戦略とみなし、それを混合戦略(mixed strategy)と呼びます。もともと考えていた戦略を混合戦略と区別したいときは純粋戦略(pure strategy)と呼びます。純粋戦略は、確率1でそれを選ぶ混合戦略と同じと考えられるため、混合戦略は純粋戦略を含んだ考え方であると言えます(混合戦略は純粋戦略の拡張と言う方が数学的には正しいかな)。

「確率で戦略や行動を選ぶ」と言うと、「難しそうだ」「実際にそんなことあるのか」と言われそうですが、じゃんけんだと各プレイヤーが「グー・チョキ・パーを1/3ずつで選ぶ」というのが混合戦略のナッシュ均衡になります。マッチングペニーだと各プレイヤーが「表と裏を1/2ずつ選ぶ」というのがナッシュ均衡となります。そう考えると「確かに確率的に戦略を選ぶという考え方は分からないでもないな…」と思いませんか?

しかし、この混合戦略とナッシュ均衡の考え方は、なかなかの曲者で、正しく理解しにくいのです。以下では、これについて話していきます。

等確率でない場合

「確率で選ぶ」ということは「等確率で選ぶ」ことと同じではありません。以下の例を考えてみましょう。

(サッカーのPK戦のゲーム)サッカーのPK戦を簡便にしたモデルを考える。 キッカーは(キーパーから見て)ボールを左か右かのどちらかに蹴り、 キーパーは(自分から見て)左か右に飛んでゴールを阻止するとする(以下の図)。

PK戦のゲーム

これをお互いが同時に右か左かを選ぶ戦略形ゲームと考える。 キッカーとキーパーは、違う方向に飛べばゴールの成功率は高く、同じ方向に飛べば低くなる。またキッカーは左に蹴る方が得意であり、 左のほうが成功率が高い。キッカーの利得は、ゴールの成功率、キーパーの利得は失敗率(1からゴールの成功率を引いたもの)とし、各成功率は以下のような利得行列で与えられているとする。

PKゲームの利得行列

このようなゲームの解はどうなるだろう?

このゲームもナッシュ均衡を求めてみると、やはり(純粋戦略の)ナッシュ均衡はないことが分かります。そこで混合戦略のナッシュ均衡を求めると、

キッカーは右を5/8、左を3/8で選び、キーパーは右を7/8、左を1/8で選ぶ

となります。キッカーもキーパーも右と左を等確率で選ぶわけではありません。

どうやってこれを求めるのか?混合戦略のナッシュ均衡を求めることは、ゲーム理論の試験問題の定番です。いろんな大学のゲーム理論の講義の宿題や試験、さらには公務員試験などで出題されていて、ここを訪れた皆さんならやったことがあるか、もしくはそれを知りたくてここに来たのかもしれません。求め方は大切ですし、面白いのですけど、それは別に記すことにしましょう。

このページでは求め方ではなく、考え方について記していきますが、その前に、まず1つ重要な事実をお伝えします。上記のように一見するとナッシュ均衡がないように見えるじゃんけん、マッチングペニー、サッカーのPK問題でも混合戦略というものを考えるとナッシュ均衡がありました。実は

プレイヤーが何人いても、戦略がいくつあっても、混合戦略まで考えれば必ずナッシュ均衡は存在する

という数学の定理があるのです。凄い!凄すぎる!ナッシュ均衡は必ずあるんです(←ジョン・カビラさん風に読んで下さい、川平慈英さんでも可!)。これはゲーム理論において、たぶんいちばん重要な定理です。

この定理を証明した人は誰でしょう?賢明なあなたなら、それはもうお分かりだと思います。その人は、その功績を認められて1994年にノーベル経済学賞を取りました。

混合戦略のナッシュ均衡とは何なのか?

さてここでは求め方ではなく、上で求めた確率は「いったい何なんなのか?何の意味があるのか?」ということについて述べてみます。

専門家は、これについてハルサニーのpurification theorem(Harsanyi(1973))を考えると思いますが、ここではもう少し初心者向けの話をしてみます。

「何なんだと言われても、ナッシュ均衡でしょ?としか言いようがない!」というかもしれません。それでは以下の考え方は正しいでしょうか?

  • (疑問1)キッカーは右を5/8、左を3/8で選ぶことが最適で、これに従うことが一番良いのだろうか?もし実際に自分が上のようなゲームに直面し、キッカーだったら、右を5/8で蹴ると一番良いのだろうか?

この「混合戦略のナッシュ均衡の戦略はゲームの必勝戦略で、それを出すことがプレイヤーにとっては一番いいんだ!」という考え方は正しいのでしょうか?

また、必勝戦略であるかどうかの前に、

  • (疑問2)もしあなたがキッカーで5/8の確率で右に3/8の確率で蹴ろうとすると、どうやってボールを蹴るのだろうか?

という疑問もあります。疑問2は専門家には簡単なことなのでしょうが、学生に投げかけてみると、ほとんど答えられないようです。疑問1くらいだとさっぱり分かりません。

混合戦略のナッシュ均衡は求められるのに、それが何なのか分かっていないことが多い人が何と多いことか。私も成績をつける都合で宿題や試験に出しているんだということを正直に告白しなければなりません。 教員は、それに何の意味があるのか分かっていないものを、学生に求めさせていることを大いに反省しなければなりません。はい、いつか話そうと思っていました。なので、今回のこの記事は、スゴーク長くなっているのです。

まず疑問2について答えてみます。混合戦略は「確率で戦略を決定する」のですから、忠実に再現するには、何らかの「くじ」や「サイコロ」のような確率を発生させる仕組みが必要です。ゲーム理論の専門家は、これをランダムデバイス(random device)と呼びます。もし「右を5/6、左を1/6で選べ」と言われたら、「サイコロを振って1の目が出たら左、それ以外は右」を選びます。では「右を5/8、左を3/8で選べ」だと、どうすれば良いのでしょうか?このページの最後に答を記すので、皆さんで考えてみて下さい。

混合戦略のナッシュ均衡は必勝法か?

さていよいよ疑問1の「現実にゲームに直面したときに、混合戦略のナッシュ均衡に従うことは自分にとって最適なのか」ということについて考えてみます。実はこれはよく分からないんです。状況は零和ゲームか、非零和ゲームかで変わってきます。しかし私は「ざっくり言うと、必ずしもそうではない」と考えています。

それはまずじゃんけんについて考えると、分かりやすくなります。

2人じゃんけんのナッシュ均衡の戦略は「グー・チョキ・パーを1/3ずつ出す」という戦略になります。お互いに、この戦略を選んでいると、勝ち・負け・引き分けの確率は共にに1/3となります。

では仮に相手が「グーしか出さないやつ」で、そしてそれをあなたが知っていたら、あなたはどうします?このときはパーを出すことが最適です。当たり前です。そして、そうすれば、あなたは100%勝つことができます。しかし、もしあなたがナッシュ均衡の戦略である「グー・チョキ・パーを1/3ずつ出す」という戦略を選ぶとどうなるでしょう。このとき、あなたの勝つ確率は1/3になってしまいます。相手がグーしか出さないやつなのに、 あなたと相手の勝つ確率は、同じになってしまいます!

じゃんけんにおいて「グー・チョキ・パーを1/3ずつ出す」ということは最適戦略ではありません。これはナッシュ均衡の戦略でしかないのです。よくナッシュ均衡の戦略を「最適戦略」と書いている文章を見かけますが(学会発表などでもよく見られます…実は自分もそう書いてしまうことがあるのですが)、「最適」という言葉は相手の戦略が所与の場合でしか使えません。最適戦略と書かないで下さい、均衡の戦略と書いて下さい。

で?結局のところ「何なんだと言われても、ナッシュ均衡でしょ?としか言いようがない」っという所に戻って来てしまいます。つまり「混合戦略のナッシュ均衡は何を意味しているか」という問題は、そもそもの「ナッシュ均衡とは何か」という問題に立ち返ることになります。

ゲーム理論のナッシュ均衡には、いくつかの解釈があります。1つ目は「合理的なプレイヤーが、お互いがよく考えて行動を選択するとナッシュ均衡になるだろう」という考え方(伝統的なゲーム理論、合理的プレイヤーのゲーム理論)、2つ目は「プレイヤーの中で高い利得を獲得したプレイヤーだけが生き残り、そうでないプレイヤーが淘汰されるような環境で生き残っていく戦略はナッシュ均衡になるだろう」という考え方(進化ゲーム的解釈)。他に「第3者がプレイヤーにそれを推薦すると、プレイヤーはそれを選ぶだろう。それによって第3者は、自分やプレイヤー達を良い結果に導くことができる、と言う考え方もあると思いますが(メカニズムデザインなど)、あまり中心的ではないので、ここでは1つ目と2つ目の考え方に立ってみます。

1つ目と2つ目の の立場に立っても、ナッシュ均衡の戦略とは「あなたはそうすると良い、これが必勝法だ」というよりは、むしろ「プレイヤーは達はそう行動するだろうという予測」を述べているのに近いはずです。

混合戦略は確率的に行動を選択する戦略なので「プレイヤーは達はそう行動するだろうという予測」 と言っても、 1回のゲームの結果では当たっているかどうかは分かりません。サイコロで1の目が出る確率は1/6ですが、1回だけサイコロを振って出た目を見ても、その予測が正しいかどうか分からないのと同じことですよね。しかし何回も同じようなゲームが試行された場合、ナッシュ均衡の予測が当たっているかどうかを検証することができます。これについては

  • 実験経済学における混合戦略の実験
  • テニスやサッカーなどのスポーツの試合における実証

などがあり、いずれも混合戦略による予測は、それほど悪くはないという結果が導かれています。

まとめ

うーんかなり疲れてきたので、このへんで終わりにします。まとめると

  • ナッシュ均衡がないように見えるゲームも、混合戦略のナッシュ均衡がある。必ずある。それを証明したすごい人がいる。
  • 混合戦略のナッシュ均衡は最適戦略ではない。あくまでも均衡である。
  • ナッシュ均衡は「そのようにプレイすることが良い」とは必ずしも言っておらず(注)、「人々はナッシュ均衡のようにプレイするだろう」と言っている。

そうは言ってもゲームにおいて「勝つために混合戦略のナッシュ均衡をうまく活用」する方法はあるはずです。 これについては、また別の機会に考えてみます。

混合戦略については、どのゲーム理論のテキストにも載っていますが、それが一体何なんだということについて書いてある本は、ほとんどないように見えます。この混合戦略のナッシュ均衡の解釈はかなり難しいからです。しかし東大の神取道宏先生は、一般向けの本などで(例えば神取(2014))このことについて言及されていて、さすがだなーと思います。

なお3/8で右、5/8で左に蹴るには、コインを3枚投げて、1枚だけ表が出たら右、それ以外(2枚表が出るか、全部表が出るか、全部裏が出る)だったら左に蹴るというのが正解です。「8本のあみだくじを引く」「八面体のサイコロを使う」なども正解でしょう。

注意点

ゲーム理論の研究者間だと混合戦略のナッシュ均衡は「ゲームの情報に僅かに不完備性があるゲームの純粋戦略均衡を考え、その不完備性がゼロに近づいたときの極限における均衡」と考えることもあります(Harsanyi (1973))。初心者向けのここではそれについては触れませんでした。

参考文献

  • 神取道宏 (2014)、ミクロ経済学の力、日本評論社。
  • Harsanyi, J. C.(1973) Games with randomly disturbed payoffs: A new rationale for mixed-strategy equilibrium points. Int J Game Theory 2, 1–23 . https://doi.org/10.1007/BF01737554

東京都立大学 2020ゲーム理論1 オンライン講義(2020:コロナ対応)

じゃんけんの必勝法と行動ファイナンス・行動経済学

じゃんけん必勝法とナッシュ均衡の理解

じゃんけんの必勝法はゲーム理論の答である「ナッシュ均衡」を理解するために良い教材になります。
2人でジャンケンをするとき、ゲーム理論の解であるナッシュ均衡は「2人ともグー・チョキ・パーをすべて1/3で出すこと」となり、それ以外はありません。

「グー・チョキ・パーをすべて1/3で出す」以外に、ジャンケンの必勝法があったならば、どうなるのでしょうか?
例えば、1つの必勝法として「グーを多く出し、チョキをあまり出さない」という調査結果が知られており、したがって「パーを出すと勝つ確率があがる」とされています(こちら)。また、2回続けて同じ手を出すと、次は異なる手を出すことが多く、したがって「2回続けてアイコになったら、それに負ける手を出せ」というのも必勝法の1つとされています。

( じゃんけんで出やすい手 のページも参考にしてください)

しかし「初心者にはパーを出せ」という必勝法を知っている人には、チョキを出すと勝つことができます。また「2回続けてアイコになったら、それに負ける手を出せ」という人には2回続けてアイコになったら、3回目も同じ手を出すと勝つことができます。このように「グー・チョキ・パーをすべて1/3で出す」以外のあらゆる「ジャンケンの必勝法」は、それを使うことが知られてしまうと、もう必勝法にはなりません。

ゲーム理論の解であるナッシュ均衡は「(自分がナッシュ均衡の戦略を選んでいる状態では)、自分はナッシュ均衡以外の戦略を選んでも利得が高くならない」という状態です。「ナッシュ均衡が答だ」と知っているプレイヤー達は、相手がそれに従っていると知っていても、自分もその答に従うことが最適であり、ナッシュ均衡以外の戦略に変えたいと思う動機を持たないのです(これはナッシュ均衡の自己拘束性と呼ばれる)。

逆に<ナッシュ均衡以外の予測が答だ>とされると、誰かはそこから選択や行動を変えることで利得が高くなります。したがって、その予測や予言をゲームをするプレイヤーが知ったときには、多くの人が知ったときには当たらなくなります。

このような理由から、ナッシュ均衡である 「2人ともグー・チョキ・パーをすべて1/3で出すこと」が唯一のゲームの解とされています。

(2020/05/18追記:混合戦略のナッシュ均衡について説明したこちらの記事も参照して下さい)。

行動ファイナンス・行動経済学とじゃんけんに対する考察

行動経済学や行動ファイナンスと呼ばれる分野は、人間が必ずしもゲーム理論や経済学の理論通りに行動しないということを研究する分野です。「人間は経済学で考えるほど合理的には行動しないんだ!」という事実を、たくさん教えてくれるこの分野は、多くの人にとって魅力的に映ります。

ジャンケンの必勝法について考察することは、行動経済学や行動ファイナンスに対して私達がどのように接するべきかを考える手がかりになります。行動ファイナンスや行動経済学では、理論から乖離した人間の行動や現象が観察されることがあります。行動ファイナンスや行動経済学と言っても、その立場には以下のようにいくつかのものがあるように思えます。


(1)人間の行動が、自己の獲得する金銭を最大にするのではなく、別に目的があることを明らかにする。この立場では個人は効用を最大にする合理的な人間と解釈している。例えばファイナンスでは「ファンドマネージャーは、運用益を最大にしようとするのではなく、他者の運用益の平均を下回らないように行動する」「最後通牒ゲームでは自己の獲得利益を最大にするだけではなく、他者と公平であることも望み、それとのバランスで効用が決まる」など。


(2)人間の思考や認知には限界があったり、感情が理性的な判断を邪魔することで本人が目的としていることと異なる選択をすることがある。この立場では、個人は効用を最大にできない非合理的な人間と解釈される。

上記の立場から、じゃんけんの必勝法を考察してみると、以下のようになるのではないでしょうか。

(1)の立場で発見された必勝法は、それが皆に知られても必勝法として残る可能性があると考えられます。ジャンケンに当てはめると、例えば「私はチョキを愛してやまない」という人がいたとすれば(そんな人はいないけど…)、彼に対して「グーで勝つ」という必勝法は、たとえ彼がそれを知っても残る可能性があります。つまりこの場合は、彼は「勝つこと」より、「チョキを出して負けたこと」に喜んでいれば、それで勝った方も負けた方も自分の目的に従って合理的な選択をしたことになります。

余談ですが、私は競馬が好きなんですけど、毎年の回収率はマイナスです。非合理的だという人がいるんですが、私が競馬をするのはお金をプラスにするという目的よりは、自分の予想が当たるかどうかを楽しんだり、自分お好きな馬を応援したりするようなレジャーとしての目的が強く、ディズニーランドに行くのにお金を払ったりするのと同じように、競馬にお金を支払ってレジャーを楽しんでいることになります。もし競馬の目的を「お金を儲けることである」と規定されたら、私は非合理的な人間となりますが、「自らの予想が当たるかどうかを試す行為や、自分が好きな馬に賭けてそれを応援するという行為」が目的であるなら、これは合理的な行為だということになります。

しかし、じゃんけんにおいて「私はチョキを愛してやまない」という行為は考えにくいですよね?

これに対して(2)の立場で発見された必勝法-「初心者にはパーを出せ」「2回続けてアイコになったら、それに負ける手を出せ」と言った類のもの-は、それが皆に知られてしまったときに、なくなってしまうように思えます。ただし、人間の思考や認知に限界があるので「分かっていてもできない、だからこのような必勝法は使える」というのは1つの考え方かもしれません。これは「人間は、自分で乱数を作ることが難しい」などの認知科学の研究成果と合致する考え方でもあります。

行動ファイナンスや行動経済学の研究に興味を持つ人には、このような人間の非合理的な行動パターンを利用して、超過利益を得ようとすることが目的である人も多くいるようです。果たして彼らは上記のことについて、どのように、どのくらい考えているのでしょうか。非合理的な人間行動の判断ミスやアノマリは「何らかの理由でなくならない」と考えるのでしょうか、それとも「それはやがてはなくなるけど、全員にそれが知られてなくなるまでの時間に、それを利用して利益をあげよう」と考えるのでしょうか。

私は、行動ファイナンスや行動経済学で明らかになった「事実そのもの」よりは、「その事実が将来になくなるものなのかなくならないものなのか。その判断基準が何なのか。なくならないとしたら、その理由は何であるか」について知りたいです。今後、これについてはたくさん勉強しなければならないなと思っています。

じゃんけんで出やすい手

初心者にはパーを出せ

じゃんけんで出やすい手について。じゃんけんでは統計的にグーが出やすく、チョキが出にくいことが知られています。

もはや古典とも言える有名な結果は、桜美林大学の芹沢光雄教授のデータで「学生725人に、のべ11567回ジャンケンさせたところ グーが4054回(35.0%)、パーが3849回(33.3%)、最も少ないのはチョキで3664回(31.7%)」というものです。(例えば日本じゃんけん協会「勝利の法則」。なおこの記事は「2009年6月20日の日本経済新聞土曜版「日経プラスワン」に掲載された」とされているものが多いのですが、私が見たのはそれより前の読売オンラインでした。その記事では「卒論でそれを調べた学生がいた」というものだったと記憶しています。)

世界じゃんけん協会(The world rock paper scissors society) のホームページでも、出典は不明ながら「グーが35.4%、パーが35.0%、チョキが29.6%」となっていて(じゃんけんの戦略(rock-paper-scissors strategies)) やはりグーが一番出やすい手だと言われています。このことから、何も条件がなく初めての人とじゃんけんをするときは「パーを出すと勝つ確率が上がるので、パーを出せ」とされています。

ちなみに私のゲーム理論の講義では、この話をした後に学生とじゃんけんをしてみます。そして私はチョキを出すのですが、学生もこの必勝法を鵜呑みにして、パーを出すことはほとんどありません。相手も自分もこの事実を知っていると、その必勝法は使えません。

ゲーム理論における2人じゃんけんの解(ナッシュ均衡)は「グー、チョキ、パーを1/3の確率で出す」です。ゲーム理論では、相手が自分の行動を読んでも、自分も相手も利得がそれ以上は高くならない手を選び合うと考えます。 「グー、チョキ、パーを1/3の確率で出す」 以外の解は、それに従うことを相手が知れば、もう解にはならないのです。自分が興味があるのはこのような統計が人々に知られるようになると、人間の行動が変わり、統計が変わるのかどうかです(それについての考察はこちら)。10年後に調べてみると、じゃんけんではチョキを出す人が多くなっていると面白いですね。

2回同じ手であいこになったら、次はそれに負ける手を

他に有名な必勝法としては 「じゃんけんを続けてするときは「相手は異なる手を出しやすいので、いま相手が出している手に負けるような手を出せ」」と言うのがあります。例えばパーであいこになったとき、次は相手はパーと異なる手(グーかチョキ)を出しやすいので、グーを出せば勝つ確率は高くなる、と言ったものです。特に、2回同じ手であいこになったときは、相手が手を変える確率はずっと高くなります。例えばパーで2回あいこになったときは、3回目にグーを出せば勝つ確率はずっと高いと言われています。

関連記事