ゲーム理論

ゲーム理論はジョン・フォン・ノイマンが開発したとされ，経済学の分野で発展してきたものです。このゲーム理論は，生物学においても積極的に利用され，進化ゲーム理論として発展してきました。

経済学においては，各個人が最大化するように努めていると仮定される量は効用と呼ばれます。これは，各人がさまざまな結果に対して持つ好みを表わすものです。その結果，経済行動がうまく説明できるような効用関数を構成することができても，観測された行動とは独立に効用関数を測定することはできません。

これに対して，生物学におけるゲーム理論では，最適化すべきは遺伝子頻度の動態という自然過程が求められているため，生涯を通じての繁殖成功度が個体の行動の良さを測る利得関数とみなされます。

生物が従わなければならない制約には，エネルギーの保存，活動時間の制約，生化学反応の効率など，物理的，化学的，個体の行動上の決定における情報の制約などが挙げられます。

ナッシュ均衡 Nash Equilibrium

動物か，鳥になったつもりになって考えてみましょう。A か B か，あるいは右か左か， 2 つの餌場があったと仮定しましょう。このとき，どちらの餌場に行けば良いかは，簡単に決まります。餌がよりたくさんある餌場を選べば良いだけです。生物学的には，摂食速度の高い方の餌場を選択する，と言ったりします。

ところが，複数の捕食動物がいるときには，状況が少し変わってきます。つまり，多数の動物がひとつの餌場に集中すると，餌が得られる可能性が低くなってくるからです。そのため，ある個体にとって，最適な行動とは，他の個体の行動によって変わってきます。ところがその他個体も自分自身の行動を適応的に決めることになるので話はややこしくなってきます。

2 つの餌場にいる個体数を x₁，x₂ とします。ある餌場での 1 個体あたりの摂食速度（せっしょくそくど）は，採餌個体数（さいじこたいすう）が増えると減少していくと考えられます。そこで，2 つの餌場でのそれぞれの摂食速度を f_i とすると，

と表せることになります。

他の個体がいないとき，第 1 の餌場の方がエサが豊富だとしましょう。すなわち， a₁ > a₂ と仮定します。

個体数が全体で N とします。N が小さければ，すべての個体がエサが豊富な場所 (i = 1) に集中します。すなわち x₁ = N かつ x₂ = 0 です。

ところが，個体数が増加するにつれて，各個体の摂食速度は低下し，ついにはある時点で， i = 2 の餌場での摂食速度と等しくなります。さらに個体密度が増加すると， 1 番目の餌場と 2 番目の餌場とが両方とも利用されるようになります。それぞれの個体が摂食速度の高い餌場選ぶとすれば，平衡状態では 1 個体あたりの摂食速度が等しいという関係が成り立つはずです。これを数式で表現すれば，

これを理想自由分布と言います。この式 N = x₁ + x₂ とを連立させて解くと，それぞれの場所における採餌個体数を，全個体数 N の関数として求めることができます。

これは N 人のプレーヤーがおのおのの採餌速度を決めるというゲームとみなすことができます。すなわち各個体が，採餌速度を利得関数とみなして，利得が高くなるように餌場を決めるという戦略とみなした非協力的ゲームであると言います。結果として得られる解のことを，ナッシュ均衡 (Nash equilibrium) と呼びます。

実際に，魚や池にいるカモの群れに 2 箇所で同時にエサをやるという実験をすると，それぞれの箇所の採餌速度に応じた数に個体数が分かれることが観察されるそうです。

このように，エサを得るという行動や繁殖などの行動はゲームとして記述可能であるという考え方があります。そしてこの考え方はゲーム理論によって定式化できるのです。この場合の利得とは，個体の生存確率を最大化するような振る舞いをする関数となります。

進化生物学の立場では，子孫を残す確率が問題となります。子孫を残す確率を最大化するように各個体が振舞うという意味であり，それぞれの個体が進化というゲームをしているとみなすのです。

協力ゲームと非協力ゲーム

協力ゲームとは，各プレーヤーが提携してある利得を最大化するように振舞うゲームであり，非協力ゲームとは，プレーヤーどうしが提携しないゲームを指します。

例えば，集団の個体が協力して全個体の採餌効率を最大化すると仮定してみます。全体の採餌量は，

と表せます。これを x₁ + x₂ = N という制約の元に最大化する解は，先の解と異なることになります。

進化生物学的には，各個体がそれぞれの利得を最大化する，すなわち，非協力的ゲームを演じていると考えられています。しかし，協力することがない，とは言えません。例えば，両親を同じくする兄弟は，約半分の遺伝子を共有しているので，自分の兄弟が繁殖すれば間接的に自らの遺伝子を増加させることにつながります。自らの摂食速度が下がっても第 1 の場所に残った兄弟の摂食速度が上がるのであれば，早めに第 2 の餌場に移動するという行動を引き起こす遺伝子は，集団の中に広がることができるのです。

このような行動を血縁淘汰，あるいは血縁選択と呼びます。

進化とは何か

生物が進化するという事実を遺伝学的に見ると，以下のように考えることができるでしょう。

まず，交配(交尾)可能な生物集団，種と呼ばれる個体群の集団の中には，いくつもの異なる遺伝形質が存在しています。ある広がりをもった「遺伝子プール」がその種によって保持されていると考えます。生物は，広義の「環境」，すなわち種をとりまく生態系，つまり環境の中で生きています。同種の他の個体や，他の生物との間には，相互に複雑に関係しながら暮らしています。ここで，餌などの資源をめぐる競争や協力が行われます。そして，それによって，より多くの資源を獲得した個体が，もっとも多くの子孫を残すことに成功するであろうと予想できます。このような個体を「適応度が高い」と言います。そして，適応度が高いことの直接の結果として，その個体は，自分と同じ遺伝形質をもつ個体を次世代に増やすことになります。すなわち，ある生物集団内の遺伝子プールの中の遺伝子の分布は，個体ごとの適応度の違いによって，変化します。そして，この結果として，より適応度が高い個体が大きな割合を占めるようになると予想できます。このような生物集団の形質の変遷が，進化生物学者が進化と呼んでいるものです。

ゲーム理論の導入

動物は，しばしば，種内で争いを起こします。オス同士はメスの獲得をめぐって争います。我々の親戚と行っても良いチンパンジーでは，オスのチンパンジーは群れの支配権をめぐって，他のオスと争います。メスライオン同士は狩場を維持するために互いに争います。この争いによって，致命的な傷をおってしまうこともあります。悲しいことに，人間という種も戦争という残忍な能力を隠し持っています。

しかし，この争いは相手を殺してしまうまで激化せず，ある範囲内に収まることが普通です。動物行動学（エソロジー）では，いわゆる儀式的闘争 という概念を提唱してきました。脅しの信号やジェスチャーで，お互いの力や決意を一方が立ち去るまで相手に見せるということをするのです。雄鹿はまず大声を上げ，次に平行に歩き出し，角を絡ませて押し合いをします。角が突き刺さると致命傷になりますが，そこまで争いが激化することは稀です。

儀式的闘争は，同性間淘汰ともわれます。角や牙などを使って直接争う場合もあれば，威嚇によって済まされる場合もあります。ヒキガエルの鳴き声のように，メスへのアピールのようでありながら，他のオスの排除効果もあった例もあるそうです。つまり同性間の闘争が常に一対一で対面して行われるわけではないようです。この儀式的闘争は，直接闘争を行う種のばあいでも，儀礼的なディスプレイ行為から始められます。儀礼的ディスプレイ行為で勝敗が付かない場合は，より進んだ威嚇的ディスプレイへとエスカレートし，軽い小突きあいを経て，本格的な闘争に移行します。この過程で勝敗が決することも珍しくはありません。

生物学者は，以下のように考えてきました：

儀式的闘争が自然界で観察されるのは，儀式的闘争が種の保存にとって良いからである。致命的な傷をおってしまうような種の争いは，種の保存にとってマイナスだからである。つまり，むやみに誰とでも戦う戦略が進化的に安定な戦略ではないからであろうということです。

しかし，この考え方には問題もあります。どういうことかと言うと，群れ全体，あるいは，種全体としての淘汰という意味ではありそうなことだけれど，個々の動物にはより強い淘汰がはたらくはずです。つまり群れのルールに従わず，致命的な傷をおわせるように争いを激化した方が，この個体が多くの争いで勝ち残り，そのような個体の遺伝子はそうでない個体の遺伝子より多く繁殖することができるわけです。

闘争がどこまでエスカレートするかは種にもよりが，その行為によって，得られる利益の大きさに左右されます。ライオンであれば，年老いたオスの方が若いオスよりもエスカレートしやすいらしいです。これは年老いたオスには残された時間が短く，死によって支払うことになるコストに比べれば，利益が大きいからと考えられました。アラビヤヤブチメドリのような，普段はさえずりによって求愛と儀礼的ディスプレイを行う種でも，時には死に至るほどの闘争が行われます。

この個体淘汰から見た儀式的闘争は，ジョン・メイナード＝スミス (John Maynard Smith) によってゲーム理論の導入を導入することで説明されるようになりました。

チキンゲーム

チキンゲームとは， 2 台の車に乗った 2 人が，互いの車に向かって一直線に車を走らせるゲームです。衝突を避けるためには，どちらかがハンドルを切って，道をそらす必要があります。先にハンドルを切ったプレーヤーがチキン（臆病者）と呼ばれ，屈辱の汚名をきせられるわけです。すなわち，どちらが臆病者かを競うゲームです。このようなチキンゲームにおいては，どちらか一方のプレーヤーが引き下がらなければ，車の激突という悲劇が待っています。

チキンゲームは，交渉における重要な基本原理であると言われています。譲歩する猶予が与えられた各プレーヤーの戦略として記述されます。そして双方のプレーヤーの少なくとも一方が譲歩しない限り，悲劇的な結末は避けられません。

衝突を回避するという屈辱は，衝突に比べれば些細な結末であるとされます。そのため，起こりうる衝突を事前に回避する行動が，合理的な行動といえるでしょう。ただし，相手が回避する戦略しか採らないプレーヤーならば，必ずしも回避する必要はありません。

チキンゲームにおける利得表を以下に示します。双方ともに直進すれば，衝突という大ダメージを受けます。これを -c で表しています。一方，自分が直進して相手がハンドルを切れば，b の報酬が得られます。反対に，自分がハンドルを切って相手が直進した場合には，自分の得られる利得は 0 です。最後に，相当ともハンドルを切れば，報酬を分け合うと考えて b/2 の報酬が得られることになります。

チキンゲームの利得表
	直進する	ハンドルをきる
直進する	-c	b
ハンドルをきる	0	b/2

チキンゲームは，競争や交渉の基本原理を表していると考えられており，譲歩することが戦略として記述されていることに注意してください。

タカ・ハトゲーム

チキンゲームは，進化ゲーム理論の分野ではタカ・ハトゲームとしても知られています。

種の中での異なる形質の集団は 2 つに分けることができると考えてみましょう。この 2 種の個体群が，資源の獲得競争をする事態を考えます。もっともシンプルバージョンのルールでは，共有資源を分割する方法として 2 人のプレーヤーが， 2 種類の戦略から 1 つを選択するものとします。このとき，ハト(Dove)派とタカ(Hawk)派という名前で呼ばれる行動(戦略)をする遺伝的形質を持っているとします。このような単純化したモデルにもとづいて，個体群の変化の様子を考えます。これがゲーム理論の進化生物学への応用に当たります。

ある生物種があって，この生物種の個体は，資源の確保をめぐって，以下のように行動するものと仮定します。ひとつの集団 D に属する個体は，相手と会ったときに資源を共有しようとします(ハト派 Dove)。相手も D に属していれば，資源は共有されることになります。もし，相手が自分を威嚇してきたら，資源を取ることをあきらめるという戦略をとります。 D に属する個体の戦略を「ハト派戦略」と呼びます。

もうひとつの集団 H に属する個体(タカ派 Hawk)は，相手と競争（闘争）し資源を独占しようとします。 タカ派(H)は闘争を好み，ハト派(D)は逃走(ダジャレじゃないよ^^;)を好みます。タカ派(H)がハト派(D)に出会ったときには，タカ派は相手を威嚇し，その結果，すべての資源を独占できます。しかし，もしもタカ派(H)の相手もタカ派(H)であったならば，双方が資源を独占しようとするため，お互いに闘って資源を取りあいます。その結果，自分が傷つくことがあり得ます。 H に属する個体の戦略を「タカ派戦略」と呼びます。

このように，資源をめぐる出会いとその後の行動とを，「対戦」と呼びます。これらの個体同士が対戦したときの得失を考えてみます。

議論を簡潔にするために，タカ派戦略とハト派戦略とは，遺伝的に決定されていると仮定します。

争いに勝って手に入れられる利得を b (benefit:利得)としましょう。戦いに負けてこうむる怪我などの被害を c (cost:費用)とします。タカ派同士がであって争えば，お互いの期待利得は (b-c)/2 になります。争いは拡大され，一方のタカが勝利し，他方は負傷します。両方のタカは同じ強さだと仮定すれば，勝利する確率は 1/2 です。タカがハトに出会えば，タカが勝って利得 b を得ますが，ハトは撤退するので利得は 0 です。ハト同士が出会うと，お互いが負傷することなく（平和的に解決するので），一方が勝利するでしょう。従って平均利得は b/2 となります。このようにして次の利得行列表を得ます。

タカ派とハト派との利得行列表
	タカ Hawk	ハト Dove
タカ Hawk	(b-c)/2	b
ハト Dove	0	b/2

b < c のとき，すなわち，互いに争って得られる利得が，戦いの代償よりも小さければ，タカ派もハト派も有利な戦術とは言えません。すなわち ナッシュ均衡ではありません。群れの全員がタカ派であれば，ハト派になるのが得策です。反対に，群れの全員がハト派であれば，タカ派としてプレイする方が得策です。このように考えると，タカ派とハト派は群れの中で共存できることになります。進化生物学の言葉で言い換えれば， 淘汰ダイナミクスは混合集団に収束します。

もし，集団全ての個体がハトならば，資源は平和的に分配されることになります。しかし，そこにタカ派戦略が入り込んで来た場合，タカ派は非常に高い適応度を得ることができます。従って，タカ派が集団中に広まることになります。

逆に，タカ派ばかりの集団にハト派が進入すれば，ハト派は資源をほとんど得られません。しかし，タカ派のように傷つくことはありません。そのような集団の中で，最大の適応度を持つのはハトになります。

すなわち，いずれの集団でも少数派が有利となり（頻度依存選択），頻度を増大させて行きます。集団が均衡状態に達したとき，この戦略のバランスを 進化的に安定な戦略 ESS (Evolutionary Stable Strategy) であると言います。進化的に安定な戦略は，個体の成功度を最大化します。しかし，集団全体の総利得が最大化されるとは限りません。

このようなモデルでは，

相手の手を予測することができない
過去に戦った特定の対戦相手の，あるいは統計的な情報を記憶していない
争っている資源に対する要求が双方等しい（一方が満腹であったりしない）
資源量に対する双方が持つ情報が等しいなどが仮定されているが，実際の生物の行動に応用されるときにはこれらの要素が加味される。

というようなことが仮定されます。

この生物種は有性生殖でなく，無性生殖によって繁殖するものとします (オスの立場で考えても，メスの立場で考えても良いのです)。すなわち，各個体ともに自分の子を残す能力をもっているものとします。進化の議論では，ある個体が残せる子の数のことを， 適応度 と呼びます。ここで，ある個体が実際に残せる子の数は，その個体が保有している資源の量によって定まると考えます。つまり，上のタカ・ハトゲームにおける個体同士の対戦による得失は，その個体の適応度を変化させることに相当します。

このようなモデルでは，個体同士が対戦する前には，どの個体も同じ適応度を持っていると仮定されます。そして，対戦によって，その適応度は増加したり減少したりします。その後に繁殖が行われて，子孫を残します。子の世代でも，また，最初には同じ適応度を持っていると仮定されます。そして，対戦によって適応度が変化してから繁殖するという同じ過程を繰り返すわけです。

このモデルでは，対戦なしに子を残す個体はないと考えます。必ず他の個体との対戦が行われるのです。そこでの対戦の結果，生じる適応度の変化は，どのような相手が，どんな割合で存在しているのかによって異なることになります。つまり，タカ派(H)とハト派(D)との構成比と，対戦による得失を表すパラメータによって，残される子の比率が変化することになります。

対戦前に各個体が持っている適応度を W₀ とします。また，ハト派(D)に属する個体の比率を p とします。そうするとタカ派(H)に属する個体の比率は 1-p で表せます。ここから 1 回の対戦を行った結果，タカ派(H)とハト派(D)とに属する個体の適応度がどのように変化するかを求めてみます。そして，その結果，次の世代の集団内の H と D との個体比率が，どのように変化するかを考えてみましょう。上の議論を元に考えれば，1 回の対戦後の適応度 W_H, W_D は以下のようになります。b は一回の対戦で得られる利益(benefit)， c は対戦で負傷する痛手(cost)です。

次に H と D とのそれぞれの占める割合が，この対戦の後で残すことができる子の世代で，どうなるかを考えてみます。最初の時点では， H と D との占める割合は p, 1－p でした。それに，それぞれに上の適応度を掛けた値が，次世代の出生数に比例するはずです。したがって，次世代での H と D との個体の比率 p' , 1－p' は次のようになります。

上式の右辺の分母は，次の世代個体総数であり，分子は H と D とに属する個体の数です。

このような結果がどのような結末を迎えるのを考えます。 (4)式, (5)式は，H と D との現在の比率によって，それぞれの固有の適応度がどのように変化するのかを表していると考えられます。 (6)式, (7)式は，次の世代の H と D との比率を表しています。さらに，その次（孫）の世代を考えるには，こうして作られた p' を，再帰的に (4)式と(5)式に戻してやって，再計算すれば良いことになります。この操作を繰り返し行えば H と D という 2 つの戦略をとる集団の消長が分かることになります。

実習

それでは実習です。

java HawkDove

とするとシミュレーションが始まります。シミュレーションの初期値は，Wh = Wd = 1.0, すなわちタカ派の適応度とハト派の適応度とは等しいと家庭しています。そして p = 0.5, したがって 1-p = 0.5，すなわち，タカ派とハト派の比率が等しいと家庭しています。さらに，闘争に伴なうコスト cost = 1.0, 得られる利得 benefit = 1.0, としています。これらの値をさまざまに変化させて遊んでみましょう。

安定性の解析

上のシミュレーションでは，コストが高くつくとタカ派戦略は安定ではなくなります。その場合，タカ派の比率とハト派の比率が均衡するようになります。この状態を求めてみると， (4)式の右辺の増加分と(5)式の右辺の増加分とが等しいとおいて，

これを p について解けば，

を得ます。(9)式がタカ派の存在確率，(10)式がハト派の存在確率でした。このことから c > b であることがハト派の存在には不可欠であることが分かります。すなわち，ハト派が生き残るためには，闘争のコストが利得を上回っている必要があり，そのときのみ，安定解が存在することが分かります。

ある戦略 S を持つ個体だけからなる集団があったとき，この集団にどんな戦略を持つ個体が侵入しても，侵入に成功しないとき，この戦略 S を進化的に安定な戦略 と呼びました。例えば H だけしかいない集団で，c < b であれば，ここに突然変異で D が起こっても生き残れないことになります。従って，戦略 H は ESS です。

逆に c > b であれば，H の集団の中に D が入り込む余地が出てきます。

2 人ゲームの一般化

今，二つの戦略 A と B とがあって，2 人が対戦するものとしてみましょう。このときの利得行列は，以下のようになります。

	戦略 A	戦略 B
戦略 A	a	b
戦略 B	c	d

A と A との対戦では両者の利得は a
B と B との対戦では両者の利得は d
A と B との対戦で A の利得は b, B の利得は c

進化ゲームの考え方は，プレーヤー A とプレーヤー B とで構成された，ある集団を考え，利得と適応度を同一視することです。x_A を A の頻度， x_B を B の頻度とすると，A と B とに対する期待利得はそれぞれ，

この式では，各プレーヤーがプレーヤー A と対戦する確率は x_A，プレーヤー B と対戦する確率は x_B で与えられると仮定します。

2 つの戦略 A と B との間における頻度依存淘汰を以下のように定義します。 A の頻度を x_A，B の頻度を x_B とするとベクトル x=(x_A, x_B) は集団の構成を表しています。 f_A(x) を A の適応度，f_B(x) を B の適応度とします。すると淘汰のダイナミクスは，

と書くことができます。(13), (14) はレプリケーター方程式と呼ばれ，ロトカ・ヴォルテラ方程式の一般化になっています。ここで， φ=x_Af_A(x) + x_Bf_B(x) は平均適合度を表します。x_A + x_B = 1 が成り立つので， x_A = x, x_B = 1 - x という変数 x を定義して，

この式から，平衡点は x=0, x=1, f_A(x)=f_B(x) であることが分かります。

囚人のジレンマ

囚人のジレンマ (Prisoners' Dilemma) とは，ゲーム理論や経済学において，個々の最適な選択が全体として最適な選択とはならない状況の例としてよく挙げられる問題です。非ゼロ和ゲームの代表例でもあります。この問題自体はモデル的ですが，実社会でもこれと似たような状況（値下げ競争，環境保護など）は頻繁に出現します。

囚人のジレンマとは，以下のような状況を指します

共同で犯罪を行った（と思われる）2 人が捕まったとします。警官はこの 2 人の囚人に自白させる為に，彼らの牢屋を順に訪れ，自白した場合などの司法取引について次のような条件を提示します。

もし，おまえらが 2 人とも黙秘したら，2 人とも懲役 2 年だ。
だが，共犯者が黙秘していても，おまえだけが自白したら，おまえだけは刑を 1 年に減刑してやろう。ただし，共犯者の方は懲役 15 年だ。
逆に共犯者だけが自白し，おまえが黙秘したら共犯者は刑が 1 年になる。ただし，おまえの方は懲役 15 年だ。
ただし，おまえらが 2 人とも自白したら，2 人とも懲役 10 年だ。

なお，2 人は双方に同じ条件が提示されている事を知っているものとします。また，囚人 2 人は別室に隔離されていて，2 人の間で強制力のある合意を形成できないものとします。

このとき，囚人は共犯者と協調して黙秘すべきか，それとも共犯者を裏切って自白すべきか，というのが問題です。

2 人の囚人のうち A の懲役を以下の表にまとめました。

囚人のジレンマにおける囚人 A 利得表
	B 協調(黙秘)	B 裏切り(自白)
A 協調(黙秘)	-2	-15
A 裏切り(自白)	-1	-10

囚人 2 人にとって，互いに裏切りあって 10 年の刑を受けるよりは，互いに協調しあって 2 年の刑を受ける方が得でしょう。しかし囚人達が自分の利益のみを追求している限り，互いに裏切りあうという結末を迎えます。なぜなら囚人 A は以下のように考えるからです。

囚人 B が「協調」を選んだとしましょう。このとき，もし自分 (=A) が B と協調すれば自分は懲役 2 年ですが，逆に，自分が B を裏切れば懲役は 1 年ですみます。だから B を裏切ったほうが得だと言えるでしょう。
囚人 B が「裏切り」を選んだとしましょう。このとき，もし自分が B と協調すれば自分は懲役 15 年ですが，逆に自分が B を裏切れば懲役は 10 年ですむ。だから B をやはり裏切ったほうが得だ。

以上の議論により，B が自分との協調を選んだかどうかによらず B を裏切るのが最適な戦略（支配戦略）ですので，A は B を裏切ります。一方，囚人 B も同様の考えにより，囚人 A を裏切ることになります。

よって A，B は互いに協調しあったほうが得であるにもかかわらず，互いに裏切りあって 10 年の刑を受けることになります。合理的な各個人が自分にとって「最適な選択」（裏切り）をすることと，全体として「最適な選択」をすることが同時に達成できないことから，ジレンマと言われるのです。

なお，この場合のパレート効率的な組合せは，(2,2)，(15,1)，(1,15) の 3 点であり， (10,10) はナッシュ均衡ではあってもパレート効率的ではありません。

繰り返し囚人のジレンマ

2 人プレーヤーの囚人のジレンマのゲームを 1 回しかしない場合は，両者が「裏切り」を選択します。では，囚人のジレンマのゲームを繰り返し行った場合はどうなるでしょうか。これは，囚人達がゲームの繰り返し回数を知っているかどうかによって変わってきます。

ゲームの繰り返し回数を囚人達が双方とも知っていた場合は，全ての回で囚人がともに「裏切り」を選択する事が分かっています。これは状況を最終回から順に帰納法的に考えてみれば分かります（後退帰納法）。

最終回のゲームの後にもうゲームをやらないので，最終回のゲームの戦略が他のゲームの戦略に影響する事はありません。よって，最終回のゲームの戦略は，ゲームを一回しかやらない場合の戦略と同様であり，囚人たちはともに「裏切り」を選択します。
最終回のゲームでは双方とも必ず「裏切り」を選択するのだから，最終回の一回前のゲームで自分が「協調」を選択しようが「裏切り」を選択しようが，最終回のゲームには影響しません。よって，最終回の一回前のゲームにも，やはり駆け引き的要素は存在しません。このゲームでも囚人達はともに「裏切り」を選択するでしょう。
以下同様に考える事で，全てのゲームで囚人がともに「裏切り」を選択する事が分かります。

次にゲームの繰り返し回数をいずれの囚人も知らない場合を考えます。 1980 年にロバート・アクセルロッドは，繰り返し型の囚人のジレンマで利得の多くなる戦略を調べるために，様々な分野の研究者から戦略を集めて実験を行ったそうです。実験には 14 種類の戦略が集まり，アクセルロッドはこれらを総当りで対戦させました。その結果，全対戦の利得の合計が最も高かったのは，「しっぺ返し戦略（titfor tat）」でした。「しっぺ返し戦略」とは，最初は「協調」し，以降は、前回相手の出した手をそのまま出すという戦略です。

アクセルロッドは，続いて 2 回目の実験を行いました。この実験には，62 種類の戦略が集まりました。前回の勝者が「しっぺ返し戦略」であることは伝えられていたため，集まった戦略はこれよりも高い利得を得ようと工夫されたものでした。それにもかかわらず，最大の利得を得たのは，またしても「しっぺ返し戦略」でした。

なお，実験の結果は，実験の具体的方法や他の戦略の種類，数にも影響されるため，「しっぺ返し戦略」が常に最強とは限りません。ですが，ある条件下では「しっぺ返し」戦略が「常に裏切り」戦略よりも有効であることを，以下のように示すことができます。

例えば，2 人のプレーヤー Pa と Pb が「協調」か「裏切り」かの戦略を選べるとき，それぞれの利得を以下の表は示しています。並んだ数字の左側は Pa の利得であり，右側は Pb の利得です。

繰り返し囚人のジレンマにおける利得表
Pa/Pb	Pb 協調	Pb 裏切り
Pa 協調	2, 2	0, 3
Pa 裏切り	3, 0	1, 1

ゲームが1回きりの場合は，ナッシュ均衡は（裏切り, 裏切り）のみです。しかし，ゲームを複数回行う場合は，ゲームが次回も続く確率を p とすると，利得は以下のようになります。

ゲームを複数回行う場合の囚人のジレンマにおける利得表
Pa/Pb	Pb しっぺ返し	Pb 常に裏切り
Pa しっぺ返し	2, 2	0, 3
Pa 常に裏切り	3, 0	1, 1

この場合，p >0.5 において 2+1/(1-p) > 2(1-p) となります。すなわち，相手が「しっぺ返し」戦略をとっている時に，自分が「常に裏切り」戦略を取る利得がなくなり，（しっぺ返し,しっぺ返し）がナッシュ均衡となります。

参考文献

リチャード・ドーキンス著，日高，岸，羽田，垂水訳. (1991) 利己的な遺伝子. 東京:紀伊國屋書店
ジョン・メイナード＝スミス著，寺本，梯訳. (1985) 進化とゲーム理論. 東京:産業図書
ロバート・アクセルロッド著，松田訳. (1998) つきあい方の科学. 東京:ミネルヴァ書房

第9回 2010年6月18日