ナッシュ均衡の求め方:2人ゲームの利得行列の場合

ここではゲーム理論におけるナッシュ均衡を求める方法について。「プレイヤーが2人で混合戦略(確率を用いる戦略)を考えない場合」について説明します。ゲーム理論の基本中の基本と言えます。

  • 混合戦略(確率を用いる戦略)のナッシュ均衡の求め方こちら
  • クールノー均衡の求め方はこちら
  • ナッシュ均衡とは何かはこちら
  • ナッシュ均衡の概念を理解するおけいこはこちら

ナッシュ均衡の求め方

ナッシュ均衡は「すべてのプレイヤーが最適反応戦略(利得が最も高くなる戦略)を選び合う戦略の組み合わせ」ですから、以下の方法で求めることができます。

  • STEP1 プレイヤー1の立場で考える。
    • 相手(プレイヤー2)のすべての戦略に対して、プレイヤー1がもっとも利得が高くなる戦略をチェックする(プレイヤー1の最適反応戦略)。ここでは利得に下線を引く。
  • STEP2 プレイヤー1の立場でチェックが終わったら、プレイヤー2の立場で考える。
    • 相手(プレイヤー1)のすべての戦略に対して、プレイヤー2がもっとも利得が高くなる戦略をチェックする(プレイヤー2の最適反応戦略)。ここでは利得に下線を引く。
  • STEP3 すべてのチェックが終わったら、両プレイヤーの利得に下線が引かれているのがナッシュ均衡。(利得ではなく、戦略の組であることに注意!)

例題

以下の利得行列でナッシュ均衡を求めてみましょう。

ナッシュ均衡を求めてみよう

今回は、ナッシュ均衡を求める手順を習得することが目的なので、ストーリーは特につけずに、単なる記号で利得行列を考えます。利得行列の読み方が不安、分からないって方は、こちらをご覧ください。

STEP1 まず、プレイヤー1の立場で考えます。相手(プレイヤー2)のすべての戦略に対して、プレイヤー1がもっとも利得が高くなる戦略(最適反応戦略)をチェックし、利得の下に下線を引いて行きます。

1.1 プレイヤー2がLという戦略を選んだ場合を考えます。プレイヤー1はTを選べば利得3、Bを選べば利得2です。したがってプレイヤー1はTを選びます(TがLに対する最適反応戦略)。そこでTを選んだ時の利得3に下線を引きます。

プレイヤー2のLに対するプレイヤー1の最適反応戦略はT

1.2 プレイヤー2がMという戦略を選んだら?プレイヤー1はTを選べば利得0、Bを選べば利得1です。したがってプレイヤー1はBを選びます(BがMに対する最適反応戦略)。そこでBの利得1に下線を引きます。

プレイヤー2のMに対するプレイヤー1の最適反応戦略はB

1.3 最後にプレイヤー2がRという戦略を選んだ場合を考えます。プレイヤー1はTを選んでも、Bを選んでも利得は2で同じです。この場合はTとBの利得2の両方に下線を引きます( TもBもRに対する最適反応戦略)。

プレイヤー2のRに対するプレイヤー1の最適反応戦略はTとB

STEP2 プレイヤー1に対する検討が終わったので、次にプレイヤー2の立場で考えます。相手(プレイヤー1)のすべての戦略に対して、プレイヤー2の利得がもっとも高くなる戦略(最適反応戦略)をチェックし、利得に下線を引いて行きます。

2.1 プレイヤー1がTという戦略を選んだ場合を考えます。プレイヤー2はLを選べば利得4、Mを選べば利得2、Rを選べば利得0です。したがってプレイヤー2はLを選びます(LがTに対する最適反応戦略)。そこでLの利得4に下線を引きます。

プレイヤー1のTに対するプレイヤー2の最適反応戦略はL

2.2 最後にプレイヤー1がBという戦略を選んだ場合を考えます。プレイヤー2はLを選べば利得2、Mを選べば利得3、Rを選べば利得9です。したがってプレイヤー2はRを選びます(RがBに対する最適反応戦略)。そこでRの利得9の下に線を引きます。

プレイヤー1のBに対するプレイヤー2の最適反応戦略はR

STEP3これでプレイヤー1とプレイヤー2のすべてのチェックが終わりました。プレイヤーの両方の利得に下線が引かれている戦略の組がナッシュ均衡です!「

ナッシュ均衡は(T,L)と(B,R)

ナッシュ均衡は「プレイヤー1はTを選び、プレイヤー2はLを選ぶ」「プレイヤー1はBを選び、プレイヤー2はRを選ぶ」の2つです。このようにナッシュ均衡は複数出てくる場合があります(これが悩みの種)。これを(T,L)と(B,R)のように、ベクトルのように書く場合もあります。

ナッシュ均衡は「戦略の組 (profile of strategies)」なので、戦略の組として答えます。「ナッシュ均衡は(3,4)と(2,9)です」などと答えては間違いです。それは利得の組ですから。「Tがナッシュ均衡」などと答えても間違いです。Tはプレイヤー1の戦略(a strategy of player 1)です。戦略の組み合わせではありません。

東京都立大学 2020ゲーム理論1 オンライン講義(2020:コロナ対応)

ナッシュ均衡を理解する演習

利得行列や数式を用いずにナッシュ均衡を理解する

ゲーム理論の解はナッシュ均衡こちらで説明)です。「ゲーム理論が少し分かった!」と思えるためには、ナッシュ均衡が理解できていなければなりません。しかし、よくあるゲーム理論の教え方では、ナッシュ均衡は利得行列を使って説明され、プレイヤーの利得が数式や数値や表で与えられて、それを機械的に計算しナッシュ均衡を求める人が多い気がしています。

利得行列からナッシュ均衡を求める方法はこちら(ナッシュ均衡の求め方:2人ゲームの利得行列の場合)。

しかし、それで正しくナッシュ均衡の概念が理解できたと考えられるでしょうか?(いやない、反語)。ここでは、数式や表を用いない例題でナッシュ均衡を理解していきましょう。

まずナッシュ均衡の定義をおさらいしましょう。ナッシュ均衡とは、

どのプレイヤーも、他のプレイヤーがそのナッシュ均衡の戦略を選んでいるならば、自分はそのナッシュ均衡の戦略を選ぶことが利得がもっとも高くなる。

です。つまり、

どのプレイヤーも、他のプレイヤーがそのナッシュ均衡の戦略を選んでいるならば、自分はそのナッシュ均衡の戦略以外を選ぶと、利得が同じか低くなる(高くなることはない)

ということです。この「同じか低くなる」と言うのは1つのポイントです。相手の戦略に対し、利得が最大になる戦略が1つならば「低くなる」で良いのですが、最大となる戦略が<同点>で2つ以上あるときは、「低くなるか同じ」 です。

なお「利得が高くなる」とは、プレイヤーにとって「良い」とか「好ましい」ということです。

2人ゲームの例

2人ゲームで練習してみましょう。なお以下では確率で戦略を選ぶ「混合戦略」は考えません。

練習1:アリスと文太は、禅寺かショッピングモールへ行く。アリスは禅が好きで、文太の行動に関わらず禅寺のほうがショッピングモールより良いと考えている。その中でどちらに行っても、文太に会えないよりは会える方が良いと考えている。一方、文太はどちらに行くかより、アリスに会えることが大切である。そして、アリスに会えたなら、ショッピングモールのほうが禅寺よりもいい。アリスに会えないときも同じである。以下から、ナッシュ均衡を選べ。複数あるときはすべて選び、ないときは「なし」と答えよ。
(A)2人とも禅寺へ行く
(B)アリスは禅寺へ、文太はショッピングモールへ行く
(C)アリスはショピングモールへ、文太は禅寺へ行く
(D)2人ともショッピングモールへ行く

正解は(A)。(A)では、どちらのプレイヤーも、自分だけが行動を変えると利得が小さくなるのでナッシュ均衡です。(B)では文太は禅寺へ行ったほうが利得が高くなりますし、(C)と(D)では、アリスは禅寺へ行ったほうが利得が高くなります。したがってナッシュ均衡ではありません。

なお(C)で「文太はショッピングモールに行ったほうが利得が高くなるのでナッシュ均衡ではない」としても良いです。「ナッシュ均衡ではない」ことを示すには、選択を変えると利得が高くなるプレイヤーが1人でもいることを示せば良いので、アリスと文太の両方について言わなくても、どちらか1人で良いわけです。なお上記の場合、アリスにとって禅寺に行くことは支配戦略です。支配戦略がある場合は、ナッシュ均衡では必ずその戦略が選ばれます。

次はどうでしょうか?

練習2:アリスと文太は、禅寺かショッピングモールへ行く。アリスも文太も、お互いのことが大好きで、どちらに行くかよりも、相手に会えるほうが大切である。ただし、アリスは、会えたときも会えないときも、禅寺のほうがショピングモールよりも良く、文太はショッピングモールのほうが禅寺よりも良い。以下から、ナッシュ均衡を選べ。複数あるときはすべて選び、ないときは「なし」と答えよ。
(A)2人とも禅寺へ行く
(B)アリスは禅寺へ、文太はショッピングモールへ行く
(C)アリスはショピングモールへ、文太は禅寺へ行く
(D)2人ともショッピングモールへ行く

正解は(A)か(D)。2人が会えている(A)と(D)では、どちらか一方だけが行動を変えると、そのプレイヤーの利得が小さくなるのでナッシュ均衡です。(B)と(C)で、どちらか一方だけが行動を変えると、そのプレイヤーの利得が高くなるのでナッシュ均衡ではありません

さてさて、次はどうでしょうか?

練習3:アリスと文太は、禅寺かショッピングモールへ行く。アリスは文太が大好きで、どこに行くかよりも文太に会えることが大切。そして、その中で会えても会えなくても、禅寺のほうがショピングモールよりも良いと考えている。文太は残念ながらアリスが嫌いで、どこに行くかよりもアリスに会わないほうが会えるより絶対良いと考えている。その中で、会えたときも会えないときも、禅寺よりショピングモールのほうが良い。以下から、ナッシュ均衡を選べ。複数あるときはすべて選び、ないときは「なし」と答えよ。
(A)2人とも禅寺へ行く
(B)アリスは禅寺へ、文太はショッピングモールへ行く
(C)アリスはショピングモールへ、文太は禅寺へ行く
(D)2人ともショッピングモールへ行く

この場合はナッシュ均衡は「なし」です。2人が会えている(A)と(D)では、文太が行動を変えると会えなくなって利得が高くなり、2人が会えていない(B)と(C)では、アリスが行動を変えると高くなるので、どれもナッシュ均衡ではありません。(なおこのような場合も確率で戦略を選ぶ混合戦略を用いると、ナッシュ均衡がありますが、その場合は利得を数値で表さなければ確率が計算できません)。

3人以上のゲームの例

ナッシュ均衡についての理解が深まってきたでしょうか?それでは3人以上の例を考えて、練習してみましょう。まず簡単な「多数決」を考えてみましょう。

練習4:(奇数人での多数決) 5人で「海」か「山」を選ぶ。 多い人数が選んだ方を選ぶと勝ち、少ない人数が選んだ言葉を選ぶと負け。当然、勝つほうが負けるより良いとします。以下から、ナッシュ均衡を選べ。複数あるときはすべて選び、ないときは「なし」を選べ。
(A) なし
(B) 全員が「海」を選ぶ
(C) 4人が「海」、1人が「山」を選ぶ
(D) 3人が「海」、2人が「山」を選ぶ
(E) 2人が「海」、3人が「山」を選ぶ
(F) 1人が「海」、4人が「山」を選ぶ
(G) 全員が「山」を選ぶ

正解は(B)と(G)です。 全員が同じ言葉を選ぶ(B)と(G)では、どの人も他者の選択はそのままで自分の選択を変えると利得が低くなるので、ナッシュ均衡です。それ以外では、少数派になっているプレイヤーは、他者の選択がそのままのときに自分の選択だけを変えると多数派となり、利得が高くなるので、ナッシュ均衡ではありません。

では、次はどうでしょう。ライアーゲームの最初に出てくる「少数決」です。少数派になったほうが勝ちです。

練習5:(奇数人の少数決) 5人で「海」か「山」を選ぶ。少ない人数が選んだ方を選ぶと勝ちで、 多い人数が選んだ方を選ぶと負け。以下から、ナッシュ均衡を選べ。複数あるときはすべて選び、ないときは「なし」を選べ。
(A) なし
(B) 全員が「海」を選ぶ
(C) 4人が「海」、1人が「山」を選ぶ
(D) 3人が「海」、2人が「山」を選ぶ
(E) 2人が「海」、3人が「山」を選ぶ
(F) 1人が「海」、4人が「山」を選ぶ
(G) 全員が「山」を選ぶ

正解は(D)と(E)です。それ以外では、多数派になっている人は、自分だけの選択を変えると少数派となり利得が高くなりますので、ナッシュ均衡ではありません。

これに対し(D)と(E)では、すべてのプレイヤーが自分だけ選択を変えても利得が高くならない(同じか低くなる)のでナッシュ均衡です。なぜかと言うと、少数派となったプレイヤーは自分の選択を変えると多数派になり利得が下がりますし、多数派のプレイヤーは自分だけが選択を変えても、やはり多数派になってしまい(多数派が変わってしまいます)利得は同じになります。

もうお腹いっぱいでしょうかね?それでは、最後の問題です。

練習6:(7人じゃんけん)7人でじゃんけんをします。もちろんすべてのプレイヤーは、勝ち、あいこ、負けの順に良い(利得が高い)とします。
(A) なし
(B) 7人ともにグーを出す
(C) 3人がグー、4人がパーを出す
(D) 1人がグー、2人がパー、4人がチョキを出す
(E) 2人がグー、2人がパー、3人がチョキを出す
(F) 3人がグー、2人がパー、2人がチョキを出す

答えは(E)と(F)です!(B)「7人ともにグーを出す」や (C)「3人がグー、4人がパーを出す」では、グーの人がパーに変えることで負けから勝ちに転じて利得が高くなります。また(D)「1人がグー、2人がパー、4人がチョキ」では、グーの人がチョキに手を変えると、アイコから勝ちに転じて利得が高くなります。したがってナッシュ均衡ではありません。しかし(E)と(F)の場合は、どの人も自分だけが手を変えても、あいこからあいこになるだけで利得は高くなりません。したがって、(E)と(F)はナッシュ均衡です。

ナッシュ均衡(ざっくりした説明)

ここではまずナッシュ均衡について、ざっくり説明します。

  • ナッシュ均衡の求め方(2人ゲームの利得行列)はこちらのページで。
  • クールノー均衡はこっち。
  • 定義などは、また後ほど。

ナッシュ均衡とは

ゲーム理論におけるナッシュ均衡とは、ざっくりいうと

どのプレイヤーも、自分だけでは、それ以上利得が大きくできない状態

です。「状態」って言い方は不正確過ぎるか。もう少し正確に言うと、ナッシュ均衡とは

どのプレイヤーも、他のプレイヤーがそのナッシュ均衡の戦略を選んでいるもとでは、その戦略が一番利得が高くなる(他の戦略では利得が同じか低くなる)

ような戦略の組です。あんまり変わんないか。

ナッシュ均衡の例

例を挙げましょう(これは支配戦略を説明するときに用いた例の「客数」を変えたものです)。

2つのコンビニ、セレブ(セレブイレブン)とファミモ(ファミリーモール)が、まだコンビニがないA駅とB駅のどちらか一方に出店しようと考えている。コンビニを1日に利用する客はA駅が600人、B駅が750人である。セレブとファミモがもし違う駅を選べば、利用客を独占できる。しかし同じ駅に出店すると、ファミモが人気で、ファミモはセレブの2倍の客数を獲得できる。すなわち両方がA駅に出店すると、セレブ200人、ファミモ400人。B駅に出店すると、セレブ250人、ファミモ500人である。ここで客数を利得と考える。セレブとファミモはどちらの駅に出店するだろうか?

このゲームを利得行列で書くと下のようになります

ナッシュ均衡の例

例えば「セレブとファミモが共にA駅を選ぶこと」はナッシュ均衡ではありません。なぜならセレブは、ファミモがA駅を選んでいるなら、B駅に変えたほうが利得が高くなるからです。このように、他のプレイヤーの戦略が変わらないもとで、あるプレイヤーが選択を変えると利得が高くなるならば、その戦略の組はナッシュ均衡ではありません。

ナッシュ均衡ではない

これに対し、例えば「セレブがA駅、ファミモがB駅を選ぶこと」はナッシュ均衡です。なぜならセレブもファミモも、相手がそれを選んでいる限り、自分の利得をもっとも高くしているからです。つまりナッシュ均衡では、

どのプレイヤーも(相手がその戦略を選んでいるならば)、それ以上利得を高くできない (他の戦略では利得が同じか低くなる)

と言うことになります。

ナッシュ均衡である

ナッシュ均衡は2つ以上あるときもある

しかしこの例では「セレブがA駅、ファミモがB駅を選ぶこと」だけではなく、「セレブがB駅、ファミモがA駅を選ぶこと」 もナッシュ均衡になることが分かります。つまりナッシュ均衡は1つとは限らず、2つ以上ある場合もあります。このときどちらをゲーム理論の解とすべきかは難しい問題で、これは「均衡選択」と呼ばれる理論と「均衡精緻化」と呼ばれる理論で考えられています(2つの違いを説明するのはちょっと難しい)これはまた別の機会に。

ナッシュ均衡が複数あるゲームの代表例は、調整ゲームチキンゲームです。調整ゲームの記事では、どういうときにナッシュ均衡が実現しやすいかについても述べています。

ナッシュ均衡がなぜ解なのか

ナッシュ均衡以外が結果として予測されたとします。このとき、もしすべてのプレイヤーがその予測を知ったならば、少なくとも1人はその予測から違う行動を取ることで利得を高くすることができるはずです。そのプレイヤーは、ナッシュ均衡と違う行動を取るでしょうから、もはやその予測は当たりません。このことから、ゲームの結果の予測をプレイヤーが知っても結果が成り立つためには、その予測はナッシュ均衡でなければならないはずです。(「じゃんけんの必勝法と行動ファイナンス・行動経済学」も参考にしてください)

注意点と補足

  • すべてのプレイヤーが支配戦略を選んでいるときはナッシュ均衡になります。これはナッシュ均衡の特殊ケースと考えられます。したがって囚人のジレンマの結果もナッシュ均衡であると言えます。
  • 上記の点から考えると、じゃんけんにはナッシュ均衡がありませんが、確率を用いる「混合戦略」を考えるとナッシュ均衡が存在します。このような混合戦略まで考えると、すべてのn人有限ゲームにナッシュ均衡が存在します。この素晴らしい定理を誰が証明したかは、よく考えれば分かるはずである。これによって、その人はノーベル経済学賞を受賞しています。私ではありません。
  • ナッシュ均衡が分かったような気がしない?もう少し理解を深めたい?ではナッシュ均衡のおけいこ(1)で練習しましょう
  • 2人ゲームの利得行列でのナッシュ均衡の求め方はこちら
  • 混合戦略のナッシュ均衡の求め方
  • クールノー均衡はこっち

東京都立大学 2020ゲーム理論1 オンライン講義(2020:コロナ対応)

囚人のジレンマ

囚人のジレンマとは

囚人のジレンマは、ゲーム理論の中で、もっとも有名な例・モデルと言えるでしょう。
2人のプレイヤーが「協力するか」「協力しないか」を選ぶ問題で、以下の3つの条件が成立するときに、それは囚人のジレンマと呼ばれます。

(1)各プレイヤーは、相手が協力するならば、自分は協力しないほうが良い。
(2)各プレイヤーは、相手が協力しなくても、自分は協力しないほうが良い。
(3)しかし各プレイヤーは、2人が協力しないよりは、2人が協力したほうが良い。

(1)と(2)から、相手が何を選んでも自分は「協力する」より「協力しない」ほうが良いので、2人は協力しないことを選択します。しかしその結果が2人が協力することよりも悪くなっているために問題となるわけです。

ここで 「協力する」ことはゲーム理論では支配戦略と呼ばれます。支配戦略は、相手が何を選んでも、自分にとって他の選択より良い選択です。このことから支配戦略を選ぶことは自明のように思えるのですが、 囚人のジレンマを考えると支配戦略を選ぶことが必ずしも自明では思えなくなります。

囚人のジレンマの由来

この問題が囚人のジレンマと呼ばれるのは、タッカー(A. Tucker。カルーッシュ・クーン・タッカー条件(Karush-Kuhn-Tucker condition)のタッカーです)という数学者が上の状況を以下のようなストーリーで表現したことが由来であると言われています(以下はタッカーのオリジナルのストーリーとは違います)。

(囚人ジレンマ ストーリー)重罪を犯しているが、証拠が不十分なため軽微な罪で逮捕されている2人の囚人がいる。彼らは別々な部屋で取引を持ちかけられる「お前だけが重罪について自白すれば無罪にしてやる」。
 もし2人が黙秘を続けると、軽微な罪で懲役1年である。しかし1人が自白し、1人が黙秘をすると、自白した方は釈放、黙秘した方は(捜査に協力しないことで罪が重くなり)懲役10年。しかし両方が自白すると(重罪で)懲役5年になる。
 さて、あなたが囚人ならば自白したほうが良いか、黙秘したほうが良いか?

この状況を表にすると、以下のようになります。

囚人のジレンマ

先に述べた「協力すること」を「黙秘」に、「協力しないこと」を「自白」に置き換えると、囚人のジレンマの3条件に当てはまることが分かります。すなわち、

(1)各囚人は、相手が黙秘するなら、自分は自白するほうが良い。
(2)各囚人は、相手が自白するとしても、自分は自白するほうが良い。
(3)しかし各囚人は、2人が自白するよりは、2人が黙秘したほうが良い。

相手が黙秘しても自白しても、自分は黙秘するより自白するほうが良いので、2人は自白を選びます。しかし、その結果は2人が黙秘するよりも悪くなります。

囚人のジレンマの例

この問題が興味を持たれるのは、社会や経済や政治の問題にこのジレンマが多く現れるからです。例えば

  • 2国間の軍備拡張の問題。相手国が軍備拡張しない場合、自国だけが軍備拡張をすれば相手に外交上優位な立場に立てる。相手国が軍備拡張しない場合は、自分も拡張して追いつかなければ、相手に優位に立たれてしまう。しかし、両国とも拡張すると、拡張前と力のバランスは変わらず、ただ軍事費だけが増えてしまう(核兵器の問題にも同様な文脈が使われます)。
  • 安売りの問題。競争関係にある2店舗が、顧客を取り合うために、商品の価格を現状維持とするか、安売りをするかの問題。相手が現状維持の場合、自分だけが安売りをすれば顧客を奪い売上が増えるので、安売りをしたほうが良い。相手が安売りをしている場合、自分だけが現状維持をすると顧客を奪われ売上が減少するので、こちらも安売りをしたほうが良い。しかし両者が安売りをすると、顧客を奪うことはできず、価格の低下で売上だけが減ってしまう。

と言った現象です。なお安売りの問題は、安売りをしている企業にとっては問題ですが、消費者にとってはそれ以上に恩恵があります。市場の価格競争は、囚人のジレンマという構造を利用して消費者の厚生を高める仕組みだと言うこともできます。

囚人のジレンマの繰り返し

囚人のジレンマは、本来なら協力することが望ましい2人が協力しない方が良いという結果になってしまうジレンマです。これは、協力することをコミットするような契約(協力しなければ罰金を払うなど)を結ぶことで解決できる可能性がありますが、国家間の関係のように、このような契約を結ぶことが難しい場合もあります。このような場合、囚人のジレンマの状況は1回きりではなく、長期間に継続する問題でもあります。このような長期間に続く囚人のジレンマは、囚人のジレンマを何度も繰り返すようなゲームだと考え、繰り返しゲームという枠組みで分析されます。

注意点

囚人のジレンマを語るには、以下のことに注意する必要があります。

  • 2人ではなく3人以上の多人数版の囚人のジレンマは共有地の悲劇と呼ばれます。(3人以上でも、「囚人のジレンマ」と呼ばれることもありますが)。
  • 「2人が協力しない」というゲームの解を支配戦略ではなく、ナッシュ均衡であるとしている解説もあります。全員が支配戦略を選ぶことは、ナッシュ均衡の特殊ケースなので、そうしても間違いではありません。しかしナッシュ均衡より強い支配戦略として理解するほうが適切です。
  • 囚人のジレンマと言われている状況でも、3つの条件のうち、(2)について抜けている場合があります。例えば
    X先生と2人で教授会で口論になり、教授会の時間がどんどん長引いている。(1′)X先生が折れるなら、自分は折れるより折れないほうがいい。(2′)自分が折れるなら、X先生は折れるより折れないほうがいい。(3′)でも2人が折れないなら、教授会は長引くばかりで、それなら2人とも折れたほうがいい(まったくの、まったくのフィクションです)。
    一見すると条件が3つ揃ってるように見えますが、(1′)も(2′)も「相手が協力するなら、自分は協力しないほうが良い」という囚人のジレンマの条件(1)を2人のプレイヤーに分解して言い換えただけで、条件(2)(相手が折れないなら、自分は折れたほうが良いのか、折れないほうが良いのか)が特定されていません。もし「相手が折れないなら、自分は折れたほうがいい」ならば、これはチキンゲームです。

囚人のジレンマのブックガイド

  • 囚人のジレンマ--フォンノイマンとゲームの理論 (1995)、ウィリアム・パウンドストーン(著)、松浦俊輔(訳)、青土社、\2600、ISBN:4791753607。
    • まさに「囚人のジレンマ」をタイトルにした本だが、それのみではなくゲーム理論の歴史と逸話に、ゲーム理論の初歩的な考え方を絡めた読み物である、ゲーム理論とは何かを知る入門書としても面白い。囚人のジレンマの誕生や囚人のジレンマに関する多くの研究について知ることができる。キューバ危機ではノイマン自身が原子力安全委員会の委員長として、ソ連とアメリカの囚人のジレンマにどう対応したかなどが興味深く記されている。原著はW. Poundstone、 Prisonaer’s Dillemma (1992)、Doubleday。
  • つきあい方の科学―バクテリアから国際関係まで (1984)、R. アクセルロッド (著)、Robert Axelrod (原著)、松田 裕之 (翻訳)、Minerva21世紀ライブラリー(ミネルヴァ書房)、\2600、ISBN:4623029239。
    • 「囚人のジレンマ」の研究の中で、一般の人に有名で影響が強く、分かりやすいのはロバート・アクセエルロッドのコンピュータプログラムどうしのトーナメントによる実験であろう。この本は、その詳細をな結果や経緯をもとに、囚人のジレンマ研究のビジネスへの応用が解かれている。
  • 信頼の構造--こころと社会の進化ゲーム (1998)、山岸敏男(著)、東京大学出版会、\3200、ISBN:413011086
    • 社会心理学の立場から実験やゲーム理論の成果などをふまえて囚人のジレンマや社会的ジレンマがどのように起こり、どのように解決されるかの要因を探り、分かりやすく解説した本。馴れ合いや安易な集団主義に警告を発し、真の信頼関係を築くために何が必要なのかを語る。出版当時は、これからの日本がどうあるべきかを示唆すると共に実験経済学などの方面を踏まえて、これからのゲーム理論がどのように進むべきかも考えさせられた。
  • 社会的ジレンマ--環境破壊からいじめまで(2000)、山岸敏男(著)、PHP新書、\660、ISBN:4569611745
    • 前述の本が社会的ジレンマ研究のサーベイや実験経過などを理論的に解説する研究者向けの本であるのに対して、同著者のこの本は社会的ジレンマとその解決を一般向けに解説した本であった。
  • 対立と協調の科学-エージェント・ベース・モデルによる複雑系の解明 (2003)、ロバート・アクセルロッド (著)、寺野 隆雄 (翻訳)、ダイヤモンド社、\3800、ISBN:447819047X ロバート・アクセルロッド最新刊 

支配戦略

支配戦略とは

戦略形ゲームにおいては、各プレイヤーがどの戦略(選択、行動、代替案)を選ぶかを決めることが分析の主たる目的となります。

このとき1人のプレイヤーに対して

自分以外のプレイヤーが何を選んでも、自分の他の戦略よりも良い戦略(利得を高くする戦略)

があれば、その戦略を(そのプレイヤーの)支配戦略と呼びます。
プレイヤーに支配戦略があれば、そのプレイヤーはその支配戦略を選ぶと考えます。

支配戦略の例

例を挙げましょう。

支配戦略の例(コンビニ戦争2):2つのコンビニ、セレブ(セレブイレブン)とファミモ(ファミリーモール)が、まだコンビニがないA駅とB駅のどちらか一方に出店しようと考えている。コンビニを1日に利用する客はA駅が1200人、B駅が300人である。セレブとファミモがもし違う駅を選べば、利用客を独占できる。しかし同じ駅に出店すると、ファミモが人気で、ファミモはセレブの2倍の客数を獲得できる。すなわち両方がA駅に出店すると、セレブ400人、ファミモ800人。B駅に出店すると、セレブ100人、ファミモ200人である。ここで客数を利得と考える。セレブとファミモはどちらの駅に出店するだろうか?

ゲーム理論を持ち出すまでもなく、ちょっと考えるとセレブもファミモもA駅を選ぶことが分かるでしょう。B駅を独占しても高々300人ですからね。でも最初はこの例から始めましょう。

このゲームを利得行列で書くと下のようになります。

コンビニ戦争2

このときセレブの視点に立ってみましょう。セレブは

  • ファミモがA駅を選ぶならB駅(300)よりA駅(400)を選ぶほうが良い。
  • セレブは、ファミモがB駅を選んでも B駅(100)よりA駅(1200)を選ぶほうが良い。

と言うことが分かります。セレブは、ファミモが何を選んでも、B駅よりはA駅の方が良い戦略です。したがってA駅はセレブの支配戦略です(以下の図)。

セレブの支配戦略

同様に ファミモの視点に立って考えてみます。

ファミモの支配戦略

セレブは、ファミモが何を選んでも、B駅よりはA駅の方が良い戦略です。したがってA駅はセレブの支配戦略です。

もしすべてのプレイヤーに支配戦略があれば、すべてのプレイヤーが支配戦略を選ぶことがゲームの答となり、そのゲームは解けたことになると言えるでしょう。今回の例では、セレブもファミモも支配戦略はA駅でしたから、両方ともA駅を選ぶと予測でき、ゲームは解けたことになります。

支配戦略はゲーム理論における「強い解」

支配戦略は、相手の選択に関わらず、自分にとって他の選択より良いような選択がある場合です。このときプレイヤーは、相手や自分にとっての知識が完全でなくても行動を確定することができます。例えば、

(禅が好きなアリス)アリスと文太は、それぞれ禅寺に行くか、ショッピングセンターに行くか悩んでいる。アリスはとにかく禅寺に行きたいので、文太が禅寺に行っても行かなくても、ショッピングセンターよりは禅寺がいい。

この場合、アリスにとって禅寺に行くことが支配戦略になり、アリスは禅寺に行くことが確定します(だから「悩んでいる」って問題設定はおかしいんだけど)。しかも

  • 文太の利得は全く分かっていない。つまりプレイヤーに支配戦略があれば、相手の行動どころか、利得さえ分からなくても、そのプレイヤーの行動は確定する。
  • アリスも結果に対する好みがすべて確定しているわけではない。例えば「文太と一緒に禅寺に行くこと」と「アリスだけが禅寺に行き、文太はショッピングセンターに行くこと」のどちらが良いかは問題には定められていない(文太が好きなのか、嫌いなのか?)。つまりプレイヤーは、相手の選択それぞれに対する自分の好みだけが分かっていれば行動は確定する。

ということになります。つまり支配戦略があれば、細かい情報はなくてもプレイヤーはそれを選ぶことになります。このことは、支配戦略によるプレイヤーの行動の予測は、かなり確かなものになっているということで、支配戦略がないゲーム(その解はナッシュ均衡)よりも、より確からしい予測を与えているということになります。

  • 「禅が好きなアリス」は文太の好みが分からないと、文太が何を選ぶかは分からない。この例の続きは(未完)。
  • 支配戦略がない場合は、ゲームの解としてはナッシュ均衡を考えることになる。

このように支配戦略があればゲームの解は自明なように思えますが、必ずしもそうではないように見えるゲームがあります。それが囚人のジレンマであり、共有地の悲劇です。

戦略形ゲームとは?利得行列とは?

戦略形ゲームは、展開形ゲームと並ぶ非協力ゲームの表現形式です(参照:戦略形ゲームと展開形ゲーム)。戦略形ゲームは、プレイヤー、戦略、利得の3つの要素から構成されます。すべてのプレイヤーは同時に戦略を選び、その結果、各プレイヤーの利得が決まります。

戦略形ゲームの例

戦略形ゲームの例として、次のような問題を考えてみましょう。

戦略形ゲームの例(コンビニ戦争1):2つのコンビニ、セレブ(セレブイレブン)とファミモ(ファミリーモール)が、まだコンビニがないA駅とB駅のどちらか一方に出店しようと考えている。コンビニを1日に利用する客はA駅が600人、B駅が300人である。セレブとファミモがもし違う駅を選べば、利用客を独占できる。しかし同じ駅に出店すると、ファミモが人気で、ファミモはセレブの2倍の客数を獲得できる。すなわち両方がA駅に出店すると、セレブ200人、ファミモ400人。B駅に出店すると、セレブ100人、ファミモ200人である。ここで客数を利得と考える。セレブとファミモはどちらの駅に出店するだろうか?

本題に入る前に言っておきたいのですが、別にこのページはコンビニの戦略の話をしたいのではなくて、ゲーム理論とは何かを話すための「例」ですからね。「両方に出店するというのはないのでしょうか」とか聞く人がいるけど(本当にたくさんいる)、そうしたければ、そういう例を勝手に考えてください。むかし、あるビジネス系の雑誌に、こういう例を出したら、雑誌の編集部の人がコンビニの会社の人に聞きに行って、そしたら「うちには『客を取り合う』という発想はない。2つのコンビニに同じ駅に出店すると集積効果があって、利用客は増える」とか言われてしまったのですが、そうならば、そういう例を作ればいいですよ。でも増えたりしたら、例として分かりにくいじゃないですか。ここはリアリティを求めてるんじゃなくて、わかりやすい例にしてるんです。

で、本題です。上記の例の場合、戦略形ゲームの3要素(プレイヤー、戦略、利得)は

  • プレイヤー:セレブとファミモ
  • セレブの戦略:A駅に出店する、B駅に出店する
  • ファミモの戦略:A駅に出店する、B駅に出店する
  • 利得:上記に書かれている客数

のようになります。このようにプレイヤーが2人のゲームを2人ゲームと呼び、その中でも両プレイヤーの戦略の数が2つの場合は2✕2ゲーム(ツーバイツーゲーム、と呼ぶ)と呼ばれます。2✕2ゲームは、戦略形ゲームの中で最も簡単なゲームであると言えます。

「利得は上記に書かれている」と言われても見にくいので、このような2人戦略形ゲームを表すには、以下のような利得行列という表を使います。

利得行列

この表では、セレブが行(水平方向)を選択し、ファミモが列(垂直方向)を選択し、交わったセルの左側の数値がセレブの利得、右側の数値がファミモの利得を表します。例えば、セレブがA駅、ファミモがB駅を選ぶと…

セレブがA駅、ファミモがB駅を選択

このようになり、セレブの利得が600、ファミモの利得が300になることが分かります。

利得行列にはいろいろな書き方があり、下の図のようにセルを左下と右上に区切り、左下に第1プレイヤー(行を選ぶプレイヤー、今回はセレブ)の利得、右上に第2プレイヤーの利得を書く場合もあります。

利得行列の別の書き方

ゲームを解く

戦略形ゲームにおいて、「プレイヤーが選ぶ戦略の組合せはどこになるのか」を求めることをゲームを解くと呼びます。ゲームを解くポイントは、支配戦略とナッシュ均衡です。

戦略形ゲームと展開形ゲーム

ものすごく乱暴に言うと「ゲーム理論(非協力ゲーム)には、戦略形ゲーム展開形ゲームがあり、戦略形ゲームは利得行列で表し、展開形ゲームはゲームの木で表す」ということになります。乱暴すぎて、かなり間違ってますが、最初から細かいことは覚えられないので、ざっくりこうしておきましょう。

さらに戦略形と展開形について、初めて学ぶときは

  • 戦略形ゲームは、プレイヤーが同時に行動を選ぶ「同時ゲーム」。代表的なゲームはじゃんけんなど。
  • 展開形ゲームは、プレイヤーが順番で行動を選ぶ「交互ゲーム」を含む「すべてのゲームを表現する」ゲーム。代表的なゲームはチェスや将棋など。

くらいに考えると良いです。これも乱暴すぎますけど。

ゲーム理論では「同時か、逐次か」と言った「時間」が重要なのではなく、相手の行動が観察できるかどうかが重要です。例えば、2人でじゃんけんをするとき、

  1. まず1人(先手)が相手に分からないように「ぐー、ちょき、ぱー」のどれかを選んで紙に書いて封筒に入れ、
  2. もう1人(後手)は封筒を開けずに 後から「ぐー、ちょき、ぱー」を選び
  3. 先手の書いた紙が公表されて勝負をする

としましょう。この場合は、時間としては交互に行動していますが、同時にじゃんけんをしているのと変わりありません(同時にじゃんけんすると、後出しっぽくなる人がいるのを考えると、こっちのほうがずっと「同時」かも知れない) 。先手は後手の行動を知らず、後手も先手の行動を知りません。この場合は戦略形ゲームになっていると言えます。

同時のゲームとは時間を指しているのではない

このように(すべてのプレイヤーが)他のプレイヤーの行動が観察できずに行動を選ぶ場合は戦略形ゲームです。オークションや競りを例に挙げれば、封印された紙に価格を書いて、最後に競り人がそれを開いて一番高額の人に出品された物を売る、と言った「封印入札」なども戦略形ゲームの典型的な例と言えます。

これに対して、チェスや将棋や囲碁では、自分より前に行動した人がどのような行動をしたかがすべて分かります。このようなゲームは完全情報ゲームと呼ばれますが、展開形ゲームで分析されるゲームの代表例です。オークションや競りでは、オークションハウスでの絵画の取引やマグロの競りなど、誰かが値段をつけたのを見て、それより高く買いたい人は更に高い価格をつける...などの「イングリッシュオークション」は展開形ゲームの典型例と言えます。同じ競りやオークションでも、ルールや形式によって違うゲームと考えられる点に注意です。

戦略形ゲームは「利得行列」と呼ばれる道具を用いて表現し、展開形ゲームは「ゲームの木」と言う道具を用いて表現します。戦略形ゲームと展開形ゲームについては、別の投稿で詳しく説明します。