コーディネーション形態・社会構造の進化 にゲームの利得構造が与える影響

コーディネーション形態・社会構造の進化
にゲームの利得構造が与える影響
筑波大学 大学院システム情報工学研究科 秋山 英三
概 要
本稿では、社会構造・個体間のコーディネーション形態の進化に、ゲー
ムの利得構造が与える影響を分析した。個体間のゲーム的相互作用とし
ては、2x2 対称ゲームが繰り返される状況を想定した。ゲームの繰り返し
の中で、過去の行動の記憶から次の行動を決めるようなプレーヤーを仮
定し、プレーヤーの記憶長 m が m = 2, 3 の場合について、エラー(プ
レーヤーの行動選択ミス)が起こる場合と起こらない場合に分けて、進
化シミュレーションによる分析を行った。m = 2 でエラーのないケース
については、まず、ゲームの利得構造によって、(1) 個体間の「役割を固
定化する」ようなコーディネーション形態の進化と、それをベースとしと
した「階層的社会ネットワーク」の進化が見られた。また、(2) 役割を時
間軸に沿って交互に交替し続ける「役割交替コーディネーション」の進化
と、それをベースとした「平等な社会ネットワーク」の進化が起こるこ
とも示された。さらに、階層的な役割固定コーディネーションが起こる
ゲームの領域と、平等な役割交替コーディネーションが進化するゲーム
では、記憶長が 3 の場合や、エラーが存在する場合でも同様のコーディ
ネーション形態が進化することが示された。
1
ゲームと社会構造・個体間関係の進化
人間集団・社会的動物の集団では、階層的な個体間関係が広く観察される。
例えば、狼、ブチハイエナ、カバ、コクマルガラスなど様々な動物の集団の研
究や [Cha80, CTSMM02]、人間の幼児や思春期くらいまでの人間の子供を対
象とした社会学の研究では [SW77, SW79]、集団内の相互作用を通して、集
団内の個体間に階層構造が形成されることが示されている。1
一方、人間集団・社会的動物の集団では平等な時間的役割分業に基づく個
体間関係が見られることもある。例えば、ペンギンの子育てにおける平等な
交互役割交替、生殖時の魚(ハムレット)の雌雄交替の他、実験室における
人間被験者の turn taking による協調行動など、ある程度平等に役割を交互
に交替することで、集団内の個体間で資源の分配やリスクの分散を図ってい
る [WSJ92, HSSH05]。
1 動物集団においては、上位の個体は、食事、生殖の面で有利になることが多い。社会的集団
における階層構造は、資源の分配を巡る個体間の闘争を回避し、集団の秩序を維持するのに寄与
すると言われている。集団の階層構造は、動物集団では「順位制(dominance hierarchy)」と
呼ばれ、人間集団では「社会階層(social hierarchy)」と呼ばれる。
本稿では、どのようなゲーム的相互作用が上記のような社会集団構造の進
化2 をもたらすのかを進化ゲーム的アプローチによって分析する。個体間の
ゲーム的相互作用としては、「2x2 対称ゲーム」が繰り返される状況を想定
する。
2x2 (対称) ゲームとは、各プレーヤーの選択肢が2つの(対称)2人ゲー
ムのことである。様々な 2x2 対称ゲームの中で non-trivial なゲームと言える
ものは、1 に示されている囚人ジレンマゲーム、チキンゲーム、指導者ゲー
ム、英雄ゲームの 4 つだけであることが [Rap67] で示されている。
(a) 囚人ジレンマと (b) チキンゲームは有名なので、ここではゲーム (c)(d)
について少し補足する。
(c) 指導者ゲームには、C(消極的)、D(積極的) という二つの選択肢があ
り、二人のプレーヤーが別々の選択肢を選んだ状態が純粋戦略ナッシュ均衡
でありパレート最適でもある。このような役割分業が成立したとき、本稿で
は D を選択している方を「指導者」、C を選択している方を「追随者」と呼
ぶことにする。このゲームで最も得なのは指導者になることだが、両プレー
ヤーがそう思って積極的に行動してしまうと最悪の結果に陥ることになる 3 。
(d) 英雄ゲームでも D は「積極的な行動」であり C は「消極的な行動」で
ある。ただし、リーダーになる (積極的) よりもリーダーに従っている (消極
的) ほうが得になるようなゲームである。したがって、行動 D は、多少の自
己犠牲を払って積極的に行動し社会に貢献する、ということを意味する。つ
まり「英雄」的行動である。
上述したとおり、ゲーム (c)(d) では、二人のプレーヤーが別々の選択肢を
選んだ状態がパレート最適であり、両者が C を選ぶ状態をパレート支配して
いることに注意しよう。ゲーム (c)(d) が繰り返される状況で、二人が高い利
得を獲得続けるためのシンプルな行動コーディネーションとしては、例えば、
1-(a) のように、指導者と追随者の役割を時間軸に沿って固定化する「役割固
定 (FR = Fixed Role) コーディネーション」と、1-(b) のように、役割を時
間軸に沿って交互に交替し続ける「役割交替 (AR = Alternating Role) コー
ディネーション」がある。4
繰り返しゲームでは、過去の相手/自分の行動を考慮して次の行動の選択
を行う「記憶つき戦略」の進化の研究が数多く行われている。例えば、繰り返
2 進化=ある形質やある行動様式が適者生存メカニズムによって集団中に広がること
3 指導者ゲーム的状況は、(1) 行動のコーディネーションがグループ内で行われると皆にメリッ
トがあるが、(2) そのメリットは平等ではなく、積極的な者が得をするような状況で現れる。例
として、捕食者から逃げる2匹の生物が、一度に一匹しか通ることができない逃げ道に行き着い
た状況を考えよう。この場合、2匹が行動を調整して、片方が先に通路を通り、もう片方がその
後を追いかける状態が望ましい。最悪なのは、両方が通路に飛び込んで傷つけ合い、捕食者の餌
になることである [BC04]。また、多くのグループワークでは、グループにリーダーがいる方が
生産性が上がる。この時、リーダーになることに特権的な利益があると指導者ゲーム状況になる。
4 「役割交替 (AR) コーディネーション」は [BC04] では「Alternating Reciprocity」と呼
ばれている。本稿では、
「コーディネーション」というキーワードで AR と FR を統一的に議論
するため、「役割交替コーディネーション」という言葉を用いる。
2
(a) Player 1
Player 2
(b) Player 1
C C C C C C ..
D D D D D D ..
C D C D C D ..
Player 2
D C D C D C ..
図 1: 2つのコーディネーション形態:(a) 役割固定 (FR) コーディネーショ
ン (b) 役割交替 (AR) コーディネーション
表 1: 4 つの代表的な 2x2 対称ゲーム [Rap67] : 行方向はプレーヤー1の選
択、列方向はプレーヤー2の選択、数値はプレーヤー1の利得をそれぞれ表
す。プレーヤー2の利得は省略されているが、プレーヤー1の利得行列の転
置行列となる(対称ゲーム)
D C
(a) 囚人
D
C
(b) チキン
D
C
1
0
5
3
D
C
0
1
5
3
(c) 指導者
(d) 英雄
D
C
D
C
D
C
0
3
5
1
D
C
0
5
3
1
し囚人ジレンマの研究では、直前の相手の行動をマネする戦略、つまり、直
前の相手の行動だけを覚える「記憶長 1」の戦略 — TIT-FOR-TAT — が議
論の中心の 1 つとなっている [AH81]。
繰り返し 2x2 ゲームに関しては、例えば、Crowley[Cro01] は、タカ・ハト
ゲーム(チキンゲーム)を一般化したゲームで、対戦相手の body size の情報
の有無が戦略の進化に与える影響を計算機シミュレーションにより分析した。
計算機シミュレーションでは、前回の相手と自分の行動の記憶を用いる記憶
長 2 に相当する classifier system を用いて、1000 世代の進化を分析した。そ
して、AR コーディネーションをサポートする戦略や FR コーディネーショ
ン5 をサポートする戦略が進化する条件を分析した。その結果、body size の
情報が十分にあるときには FR コーディネーションを目指す戦略が進化する
ことを示した。Browning ら [BC04] は、上述の 4 つのゲームについて、20 戦
略の集団内で 151 ラウンドの繰り返しゲームのランダム対戦が行われる状況
を想定し、より長い記憶長(記憶長 6)の遺伝的アルゴリズムを用い 1000 世
代の進化を分析した。そして、最終的に進化した戦略は、AR コーディネー
ションを形成する傾向があることを示した。また、Tanimoto ら [TS07] は、
ジレンマ発生の原因となる要因に着目して 2x2 ゲームをパラメータ表現する
ことに成功し、記憶長 2 の戦略の進化とコーディネーション形態に、ゲーム
5 Crowley
では “CorD” と呼ばれている。
3
表 2: 2x2 ゲームの一般型
D
C
D
C
0
S
T
1
のジレンマ構造が与える影響を総括的に検証した6 。
一方、現実世界のプレーヤーにミス (エラー) は避けられないので、例えば、
囚人ジレンマの研究については、エラー付き繰り返し囚人ジレンマの理論あ
るいはシミュレーション研究が数多く行われている (例えば [FM90], [Lin91],
[NS93b], [WA95])。本稿では、(1) 社会環境(個体間の相互作用)として様々
な 2x2 ゲームの繰り返し状況を想定し、適者生存に基づく進化シミュレーショ
ンを行うことで、ゲームの形態が行動の進化に与える影響を詳細に分析する。
(2) 戦略空間としては、記憶長 2 あるいは 3 の戦略群を仮定して、さらに、(3)
行動選択時にエラーがある状況とない状況の両方の状況について。そして、
(A) 適者生存の結果生き残った戦略の特徴と (B) 戦略間の関係のネットワー
ク構造を分析する。次節で述べるように、シミュレーションでは、無限ラウ
ンドの繰り返しゲームを仮定し、進化が収束するまで世代を進行させる。
モデル
2
2.1
2x2 ゲーム
前節で述べたとおり、様々な 2x2 ゲームの繰り返し状況を個体間の相互作用
として堅いする。本稿では、[Hau06] に倣い、2 の形の利得行列を考え、様々
な S, T についての進化的現象を分析する。S, T の値は −2 ≤ S, T ≤ 7 の範
囲で 0.2 刻みで調べた。S, T の値とゲームの名前との対応は 2 にある。
2.2
エラー有り/なしの繰り返しゲームと、記憶つき戦略
本研究のゲーム世界では、上記の 2x2 ゲームを「段階ゲーム (stage game)」
として、集団内のエージェントどうしで繰り返しゲーム (multi-stage game)
が行われる。各エージェントは、相手・自分の前回の行動の記憶から 次の
stage game の行動を決定する戦略を持つ。本稿では、(1) 前回の「相手と自
6 下記に述べるように、本稿のモデルは利得のパラメータ表現の方法が Tanimoto 等 [TS07]
と異なる ([Hau06] の方式) が、本稿の結果のうち、記憶長 2、エラー無しに関する部分は、
Tanimoto 等の結果を支持することが、一部、分かっている。[TS07] の方法は、ジレンマの強
さをパラメータとしているのでジレンマ構造が戦略の進化に与える影響を明確に出来るというメ
リットがあり、一方、[Hau06] の方法は利得行列の要素をそのままパラメータとして使うので利
得行列の形をそのまま参照できて扱い易いというメリットがある。
4
図 2: 2 の S, T とゲームの名前との対応。ただし、Chicken 1, Chicken 2 な
ど、ゲーム名の後の数値 1, 2 は著者が便宜的に追加したものである。また、
Domain A/B は、ゲームの一般名がなかったので、これも著者が便宜的に記
した名前である。なお、各ゲームの定義は研究者によって微妙に異なること
があるので注意。例えば、“Prisoner’s Dilemma 1” と書いた領域のみを「囚
人ジレンマゲーム」とする研究者もいる。
分」の行動の記憶を参考にする (記憶長 m = 2)、(2) 前回の「相手と自分」の
行動と、前々回の相手の行動の記憶を参考にする (記憶長 m = 3) の2通りの
ケースに関する分析を行う。
記憶長 m = 2 の場合、プレーヤーが記憶している前回 (自分, 相手) の行動
は (C, C), (C, D), (D, C), (D, D) の4通りあるが、これらの「記憶状態」を、
状態 3, 状態 2, 状態 1, 状態 0 と呼ぶことにする(つまり、D=0, C=1 と考え
たときの 2 進表現を考える)。そして、状態 n の時に C を出す確率を pn とす
ると、ありうる全記憶状態に対してプレーヤーが C を出す確率は p3 p2 p1 p0 と
なる。本稿では、このような、記憶状態に対する C の選択確率の列のことを
「反応ルール」と呼ぶことにする。プレーヤーの記憶能力に応じた「過去の状
態」の種類は、記憶の長さに応じて 2m 状態ある。pn = 0, 1(100%C を選択
m
するか 100%D を選択するか)を仮定すると、記憶長 m の戦略の種類は 22
通りとなる。例えば記憶長 m = 2 の場合、[0000], [0001], [0010], . . . , [1111] の
計 16 の反応ルールが存在する。
本研究では、十分に長い相互作用を仮定し、ゲームの繰り返し回数は無限
回とした。また、本研究では、繰り返しの過程で (1) エラーがある(プレー
ヤーが行動選択時に間違えて、自らの反応ルールと逆の行動を採る)場合と
(2) エラーがない場合の両方の分析を行うが、エラーがある場合は一定の確率
1 >> p > 0 で各エージェントは行動を間違えることとした。この場合、上
記 2m 状態の確率分布の遷移をマルコフ過程としてとらえると、2 人のプレー
ヤーの反応ルールによって遷移行列は一意に決定する。定常状態の確率分布
5
は、p > 0 なら遷移行列の固有値 1 の固有ベクトルを正規化したものに対応
する。定常状態の確率分布と stage game の利得から無限回繰り返しゲーム
の平均利得を求めることができる。p の大きさは、1 >> p であるかぎり、次
節で紹介する分析結果に根本的な変化はもたらさない (コンピュータシミュ
レーションでは p = 0.01 とした)。なお、エラーがある場合、これらの定常
状態確率分布や平均利得はプレーヤーの初期の行動選択の影響を受けない。
従って、エラーがある場合はプレーヤーの「戦略」は「反応ルール」そのも
のとして良い。例えば、m = 2 の i 番目の戦略を Si2 と書くことにすると、
2
S02 = [0000], S12 = [0001], . . . , S15
= [1111] と書ける7 。
一方、エラーがない場合は、
「戦略」は「反応ルール」と「初期の行動選択」
を合わせたものとなる。
(プレーヤーの初期の行動選択は平均利得に影響を与
えることがある。)例えば、いわゆる「GRIM TRIGGER 戦略(最初の行動
は C で、その後は、前回二人とも C だったときだけ C で応じる。それ以外
2
= [1000 : 1] と表現される。ここで、コロンの
は D を選択する。)」は、S17
あとの「1」は、第一ラウンドに C を選択するということを示している。エ
ラーがない場合、初期の行動選択に関する多様性があるので、記憶長 m の戦
m
略の種類は、22 + [(m − 1)/2] + 1 通りである。
([·] はガウス記号。)例えば、
m = 2 の場合は 32 種の戦略が存在する。
また、エラーがない場合、状態の遷移は完全に決定論的になり、また、記
憶状態の個数も有限個なので、プレーヤーの行動列は、遷移状態のあと必ず
周期状態か一定状態に収束する。上述のように、ゲームの繰り返し回数は無
限回と仮定しているので、平均利得の計算では遷移状態は無視し周期状態の
利得のみを考慮する。
2.3
FR/AR コーディネーションと m = 2 戦略のコーディング
(a)
[0100:0] D D D D D D ..
(b)
[0100:1] C C C C C C ..
[0010:0] D C D C D C ..
[0010:1] C D C D C D ..
図 3: m = 2 戦略によるコーディネーション形態の例:(a)FR 型戦略による
FR コーディネーション (b)AR 型戦略による AR コーディネーション
戦略間の具体的な繰り返し対戦の例を 3 に示す。例えば、(a) の [0100:0] と
[0100:1] の対戦では、上記 (1) で述べた FR コーディネーションが形成され
る。FR コーディネーションの形成では、これら 2 つの戦略のように、# =
7 エラーの存在により、プレーヤーの意図としての戦略と観測される戦略とは異なる。例え
ば、S02 = [0000] は、どのような記憶状態からでも D を選択する戦略だが、エラーがある場合、
確率 p で C を選択するので、「観測される」戦略は [pppp] である。
6
0 か 1 として [#10#:#] の形式を持つ戦略が中心的な役割を果たす。両者と
も、前回の (自分, 相手) の行動が (C, D) の時に C 、(D, C) の時に D を選択
する反応ルールを持つ。以下では、このタイプの戦略のことを FR 型戦略と
呼ぶ。
また、(b) の [0010:0] と [0010:1] の対戦では、上記 (1) で述べた AR コー
ディネーションが形成される。AR コーディネーションの形成では、これら
2 つの戦略のように、# = 0 か 1 として [#01#:#] の形式を持つ戦略、つま
り、前回の (自分, 相手) の行動が (C, D) の時に D、(D, C) の時に C を選択
する反応ルールを持つ戦略が中心的な役割を果たす。以下では、このタイプ
の戦略のことを AR 型戦略と呼ぶ。
また、他のタイプの戦略、つまり [#00#:#] の形式を持つ戦略と [#11#:#]
の形式を持つ戦略をそれぞれ DD 型戦略、CC 型戦略と呼ぶことにする。
エラー無しの場合、m = 2 の戦略は FR 型, AR 型, DD 型, CC 型がそれぞ
れ 8 つずつ、計 32 種類存在する。なお、以上の戦略の記憶長が m = 2 とい
うのはあくまでも表記上で、実質的に m = 2 がすべて活用されるとは限らな
い。例えば、[1010:1] は表記上は m = 2 の戦略だが、実際の振る舞いは、前
回の相手の行動を模倣する TIT-FOR-TAT であり、実質的には m = 1 戦略
である。
2.4
適者生存ダイナミクス
本研究では、標準的な進化ゲームモデルと同様、無数に個体がいることを
仮定した集団での進化ダイナミクスを分析する。同じ「戦略」を持つ個体は
同じ「種族」に属すると考える。種族 i の個体数は、1.0 を全体にした割合
(頻度) xi で表される。個体は同族集団も含めたすべての個体と戦う8 。種族
i に属する個体と種族 j に属する個体が繰り返しゲームを行なった結果、1 ラ
ウンドあたりで 種族 i の個体が獲得する平均利得を gij と書くと、種族 i の
個体が population の全ての個体とゲームを行なって獲得する利得は
si =
∑
gij xj
j
である。従って、集団全体の平均利得は
s=
∑
si xi
i
となる。各種族の頻度は、平均利得が集団全体の平均を上回るかどうかで測
る。つまり si > s なら種族 i の頻度は増加し、逆のケースでは減少する。
8 対戦確率が戦略頻度に比例する well mixed な population なら、ランダムに対戦すると考
えても同様の結果になる。
7
本稿では、Maynard Smith[Smi82](あるいは Nowak 等 [NS93a] で突然変
異がないケース)と同様に、次の世代の各種族の頻度が
xi (t + 1) = xi (t)si (t)/s(t)
に従って変化すると仮定する。また、第一世代で「全戦略の頻度は均等」と
した (例えば、m = 2 でエラーがない時は 1/32)。
m = 2, エラー無し 2x2 ゲームにおける戦略と社
会構造(戦略間ネットワーク)の進化
3
本節では、エラー無し 2x2 ゲームにおける記憶長 m = 2 の戦略の進化と社
会構造の進化を概観する。そのため、まず、特徴的な二つの 2x2 ゲームで起
こる進化の様子を例として紹介し、最後に、2x2 ゲーム全般に関する分析結
果を示す。
3.1
階層社会の進化
[0101:0]
share
0.25
0.20
[1101:0]
0.15
[0000:0] [0100:0] [1000:0] [1100:0]
0.10
[0100:1]
0.05
[0101:1]
[1100:1] [1101:1]
50
100
[1110:1] [1111:1]
150
200
generation
図 4: 指導者ゲーム (S = 3, T = 5) の population dynamics:横軸は世代、縦
軸は各戦略の頻度である。各戦略名ラベルは、頻度がゼロに収束しなかった
ものについて表示している。
2 の 2x2 ゲームで S = 3, T = 5 としたゲーム(指導者ゲーム)での進化ダ
イナミクスを 4 に示す。図から分かるように、第 100 世代までに戦略頻度分
布はほぼ収束する。進化の結果、頻度がゼロに収束しない戦略のことを「生
き残る戦略」と呼ぶことにすると9 、このゲームで生き残る戦略は FR 型の戦
略すべてと、DD 型戦略、CC 型戦略の一部である。
これら生き残った戦略の間にどのような関係があるのかを示したのが 5 で
ある。図中、各矢印の両端に位置する二戦略が対戦すると、FR コーディネー
9(本稿では個体の数が無限に多いケースを想定しているが、
)仮に個体数が有限だとすると、
頻度がゼロに収束するということは「絶滅」を意味する。
8
[0000:0] [0100:0]
[1000:0] [1100:0]
[0101:0]
[1101:0]
[0100:1]
[0101:1]
[1100:1][1101:1]
[1110:1][1111:1]
図 5: 指導者ゲームで進化する社会構造(戦略間ネットワーク): 各矢印の
両端に位置する二戦略が対戦すると、FR コーディネーション (1) が形成され
る。矢印の先端に位置する戦略が D を、矢印の根本に位置する戦略が C を
出し続けることになる。ただし、矢印の両端以外では FR コーディネーショ
ンは形成されないので注意。例えば、各戦略が決定論的でかつエラーがない
状況を考えているので、同一戦略どうしが対戦すると両者は完全に同じ行動
を選択し続ける。つまり、同一戦略どうしでは FR コーディネーションは形
成できない(AR コーディネーションも同じ理由で不可能)。また、図中、一
番上に位置する4戦略のグループがあるが、このグループ内の戦略どうしが
対戦するとお互い D を出し続ける。一番下に位置する4戦略のグループもあ
るが、このグループ内の戦略どうしが対戦するとお互い C を出し続ける。
ションが形成される (1)。矢印の先端に位置する戦略が D を、矢印の根本に
位置する戦略が C を出し続けることになる。指導者ゲームの文脈で言うと、
矢印の先端の戦略が指導者、根本の戦略が追随者になる。
図中、最上位に示した 4 戦略グループは、他のすべての戦略に対して指導
者となる。上から二番目の位置に示した戦略 [0101:0]、最上位グループの戦
略に対しては追随者となるが、それ以外の戦略に対しては指導者となる。こ
のように、戦略間の FR コーディネーションを二項関係とした集団内の戦略
の階層構造が、適者生存で生き残った戦略の間に形成される。
3.2
役割交替平等社会の進化
2 の 2x2 ゲームで S = −1, T = 5 としたゲーム(広義囚人ジレンマゲーム)
での進化ダイナミクスを 6 に示す。図から分かるように、第 100 世代にかけ
て GRIM TRIGGER 戦略 ([1000:1]) の頻度が増加する。その間、AR 型戦略
以外の戦略は、GRIM TRIGGER 戦略を除いて全て頻度がゼロに収束する。
その後、GRIM TRIGGER 戦略も頻度がゼロに収束し、第 400 世代までに戦
9
GRIM [1000:1]
[1010:1]
[0010:1]
図 6: 広義囚人ジレンマゲーム (2 の “Prisoner’s Dilemma 2”: S = −1, T = 5)
の population dynamics: 横軸は世代、縦軸は各戦略の頻度である。
1010:1
1011:0
0011:0
0011:1
0010:1
0010:0
1011:1
1010:0
図 7: 役割交替平等社会の進化: 各線分の両端に位置する二戦略が対戦する
と、AR コーディネーション (1) が形成される。ただし、各戦略が決定論的で
かつエラーがない状況を考えているので、同一戦略どうしが対戦すると両者
は完全に同じ行動を選択し続けるので、AR コーディネーションを形成でき
ないことに注意すること。また、唯一線が引かれていない [0010:0] と [1010:0]
の対戦では、お互い D を選択し続ける。細い線が引かれている [1011:0] と
[1011:1] との対戦では、お互い C を選択し続ける。
略頻度分布はほぼ収束する。進化の結果生き残る戦略は、AR 型の 8 戦略の
みである。
これら生き残った 8 つの AR 型戦略の間にどのような関係があるのかを示
したのが 7 である。各線分の両端に位置する二戦略が対戦すると、AR コー
ディネーションが形成される (1)。
このように、適者生存で生き残った 8 戦略の間には([0010:0] と [1010:0] の
間を除いて)、役割を時間的に交替で分業する、平等な分業ネットワークが形
成される。
10
図 8: ゲームの利得構造がコーディネーション形態の進化に与える影響: 横軸、
縦軸はそれぞれ 2 の S, T を表す。二重線が 2 の軸に対応している。進化の結
果、(a)FR コーディネーション (b)AR コーディネーション (c)CC コーディ
ネーション (両プレーヤーが C を選択肢続ける) (d)DD 型行動 (両プレーヤー
が D を選択肢続ける) が観測される確率を濃淡図で示している。色が濃いほ
ど、該当する行動が観測される頻度が大きい。具体的には、集団内の対戦で、
(プレーヤー 1, プレーヤー 2) の 4 ラウンド分の行動が (a) (C,D) (C,D) (C,D)
(C,D) あるいは (D,C) (D,C) (D,C) (D,C) となる確率;(b) (D,C) (C,D) (D,C)
(C,D) あるいは (C,D) (D,C) (C,D) (D,C) となる確率;(c) (C,C) (C,C) (C,C)
(C,C) となる確率; (d) (D,D) (D,D) (D,D) (D,D) となる確率を示している。
3.3
ゲームの利得構造と、社会ネットワークの相の遷移
以上では、二つの 2x2 ゲームを例に、階層社会と役割交替分業社会の進化
を見てきた。では、さらに広範囲の 2x2 ゲームでは、ゲームの利得構造によっ
てどのような戦略と社会構造が進化するだろうか?
2x2 ゲームの利得構造と、観測されるコーディネーション形態の関係を示
したのが 8 である。この図では、進化が収束したあと、集団内の戦略間で、
(a)FR コーディネーション (b)AR コーディネーション (c)CC コーディネー
ション (両プレーヤーが C を選択肢続ける) (d)DD 型行動 (両プレーヤーが
D を選択肢続ける) が観測される確率が濃淡図で示されている。
FR/AR コーディネーションが進化する過程は上記に述べたとおりである。
一方、CC コーディネーションが進化する背景には大きく分けて二つのメカ
ニズムがある。S + T < 2 の領域では CC コーディネーションが進化してい
るが、これは、(1)GRIM TRIGGER 戦略が集団を支配するケースと、(2) 単
に「T, S の値が小さくなることによって C が支配戦略になる」ケースがあ
る。S + T > 2 の領域で見られる CC コーディネーションの進化は、GRIM
TRIGGER 戦略の進化に基づいている10 。GRIM TRIGGER 戦略が進化す
る場合、この戦略が単独で集団のほぼ 100%を占めるので、AR コーディネー
ションや FR コーディネーション形成時に見られたような「戦略間のネット
ワーク構造」は見られない。
10 DD 型行動が進化する領域が指導者ゲームの領域の一部に見られるが、そのメカニズムはま
だ分析ができていない。
11
CC
AR
FR
AR
図 9: ゲームの利得構造とコーディネーション形態に関する概念図: 8 のデー
タを基に、各ゲームで最も集団に広がっているコーディネーション形態を大
まかに示した概念図。横軸、縦軸はそれぞれ 2 の S, T で、2 に対応している。
なお、この図では描かれていないが、FR の領域の左下、CC と接している点
線部のあたりに、わずかだが FR/AR/CC コーディネーションよりも「DD
型行動」が優勢になるゲームの領域が存在する。
8 のデータを基に、各 2x2 ゲームで最も頻繁に観測されるコーディネー
ション形態を示したのが 9 である。ゲームの利得構造の変遷とともに、実
現する社会の相が変化していくことが分かる11 。例えば、S = 1.8 付近で
T の値を −2 から増加していくと、集団で優勢なコーディネーション形態が
CC → AR → CC → F R → DD と変遷していくことが分かる。そして、そ
の変化の境界は S, T 空間の中でほぼ線形に近いシンプルな構造をしているこ
とが分かる。また、2 に与えられるゲームの区分と (ゲームの定義に基づく
S, T 空間の区分) と、進化の結果観測されるコーディネーション形態に基づ
くゲームの区分とは必ずしも対応しないということも分かる。例えば、同じ
指導者ゲームの領域でも、FR コーディネーションが支配的になる領域と CC
コーディネーションが支配的になる領域が存在する。
4
エラーのあるケース、m = 3 のケース
以上で見られた「ゲームの利得構造と(戦略進化の結果として実現する)
社会構造との関係」は、(a) 繰り返し時にエラーがある場合や、(b) もう少し
記憶長が長い m = 3 戦略の場合ではどの程度成立するだろうか?
まず、記憶長 m = 2 のままでエラーのあるケースを考察する。エラーがあ
11 まだ完全な対応はなされていないが、現時点で分かっている範囲で、9 に見られる結果の一
部は [TS07] の結果の一部をサポートしているものと思われる。例えば、[TS07] では、T の増
加に由来するジレンマを強くすると AR コーディネーション → CC コーディネーション → AR
コーディネーションと遷移することが報告されるが、9 にも対応する領域が存在する (S を固定
して T をある程度まで増加させていく)。
12
CC
AR
FR
AR
DD
図 10: ゲームの利得構造とコーディネーション形態の関係の概念図: m = 2
でエラーのあるケース: 各ゲームで最も集団に広がっているコーディネーショ
ン形態を示した概念図。横軸、縦軸はそれぞれ 2 の S, T で、2 に対応して
いる。
(S,T) = 5, 3
3, 5
0.5, 5
-1, 5
5, -0.5
5, 0.5
0.5,1.25
-1, 2
図 11: m = 3 の時、代表的な 2x2 ゲームで進化するコーディネーション形態:
上のグラフはエラーのないケース、下のグラフはエラーのあるケースに該当
する。各グラフの下には 2 に記載のゲーム名が書かれている。具体的な S, T
の値は一番下に記されている。各ゲームについて、4 本の縦棒グラフが 4 つ
の行動タイプがどの程度の頻度で観測されるか表す。左から順番に、DD 型
行動、FR コーディネーション、AR コーディネーション、CC コーディネー
ションに対応する。
13
るケースで、ゲームの利得構造とコーディネーション形態の関係をまとめた
概念図を 10 に示す。エラーの無いケース (9) との比較で目立った特徴として
は以下のことが挙げられる。まず、エラー無しのケースで FR、AR コーディ
ネーションが優勢となる S, T の利得を持つゲームでは、エラーがあるケース
でも同じコーディネーション形態が優勢となる。つまり、FR、AR コーディ
ネーションはエラーに対して頑健である。エラーの有無で大きく変化がある
点は、チキンゲーム(とその周辺の)ゲームでエラーが無い場合には CC コー
ディネーション優勢になるのに対し、エラーのある場合には DD 型行動が優
勢になる点である。これは、エラー無しの場合に CC コーディネーションを
実現していた GRIM TRIGGER 戦略が、エラーのある場合にはエラーをきっ
かけに「DD 型行動」を招いてしまうことに起因する。
次に、記憶長を m = 3 としたケースについて考察する。ここでは、計算時
間の都合上、m = 2 のように S, T 空間全体について調べるのでなく、いくつ
かの代表的 2x2 ゲームに関して分析を行った。代表的 2x2 ゲームで観測され
るコーディネーション形態を示したのが 11 である。記憶長 m = 2 の場合の概
念図と比較から顕著に分かる特徴としては、以下の 2 点が挙げられる。まず、
m = 2 で FR/AR コーディネーションが見られるゲームでは、m = 3 の場合
でも、エラーの有無にかかわらず同じコーディネーション形態が優勢となる
ことが予想される。つまり、FR/AR コーディネーションの進化は、m = 2 か
ら m = 3 への戦略空間の拡張に対しても頑健であると思われる。つぎに、2
における “Chicken 2” の領域のゲームでは、m = 2 ではエラーがない場合に
CC コーディネーション、エラーのある場合には DD 型行動が進化したのに
対し、m = 3 の場合は AR コーディネーションが進化する。つまり、m = 2
から m = 3 となることで AR コーディネーションが進化する領域が広がる。
5
まとめ
本稿では、社会構造・個体間のコーディネーション形態の進化に、ゲームの
利得構造が与える影響を分析した。個体間のゲーム的相互作用としては、2x2
対称ゲームが繰り返される状況を想定した。ゲームの繰り返しの中で、過去
の行動の記憶から次の行動を決めるようなプレーヤーを仮定し、プレーヤー
の記憶長 m が m = 2, 3 の場合について、エラー(プレーヤーの行動選択ミ
ス)が起こる場合と起こらない場合に分けて、進化シミュレーションによる
分析を行った。
m = 2 でエラーのないケースについては、まず、ゲームの利得構造によっ
て、(1)FR コーディネーションをベースとしとした「階層的社会ネットワー
ク」の進化や、(2)AR コーディネーションをベースとした「平等な社会ネット
ワーク」の進化が起こることが示された。また、[TS07] が m = 2、エラーな
しのケースについて示したとおり、利得が変化するにつれて、進化するコー
14
ディネーション形態も、FR コーディネーション、AR コーディネーション、
CC コーディネーションと DD 型行動の間を変遷することが確認された。
さらに、FR コーディネーションの領域と AR コーディネーションが進化す
るゲームでは、記憶長が 3 の場合や、エラーが存在する場合でも同様のコー
ディネーション形態が進化すること12 、つまり、FR/AR コーディネーション
が進化するゲームの利得の領域は、エラーの有無や記憶長 m = 2, 3 の違いの
影響をほとんど受けないことが示された。
以上の結果は、社会の構造や、個体間のコーディネーション形態が、プレー
ヤーの能力(記憶長、ミスの有無)以上に、個体間のゲーム的相互作用の形
態に強く規定されるという可能性を示唆する。一方、個体間のゲームが「タ
カ・ハトゲーム」の時は、プレーヤーの能力によって、社会構造やコーディ
ネーション形態が大きく変わる傾向があるということも示された。
参考文献
[AH81]
R. Axelrod and WD Hamilton. The evolution of cooperation.
Science, 211(4489):1390, 1981.
[BC04]
L. Browning and A. M. Colman. Evolution of coordinated
alternating reciprocity in repeated dyadic games. Journal of
Theoretical Biology, 229(4):549–557, August 2004.
[Cha80]
I.D. Chase. Social process and hierarchy formation in small
groups: a comparative perspective. American Sociological Review, 45(6):905–924, 1980.
[Cro01]
P. H. Crowley. Dangerous games and the emergence of social
structure: evolving memory-based strategies for the generalized hawk-dove game. Behav. Ecol., 12(6):753–760, November
2001.
[CTSMM02] Ivan D Chase, Craig Tovey, Debra Spangler-Martin, and
Michael Manfredonia. Individual differences versus social dynamics in the formation of animal dominance hierarchies. Proc
Natl Acad Sci U S A, 99(8):5744–5749, Apr 2002.
12 モデルは違うが、[Tan08] でも、FR,AR コーディネーションがエラー(や突然変異)に
対して頑強となることについて議論されている。その理由として、FR および AR コーディネー
ション([Tan08]ST reciprocity)は bit に遊びがなく,擬態的戦略が侵入できる余地が相対的に
CC コーディネーション([Tan08] では R reciprocity)より小さいことを挙げている。つまり、
前者は時間方向の役割分担が必須なので 2 記憶長をすべて使わざるを得ないのに対して,後者は
時間の概念がなく,単に同時に C 出し合っていればよく、擬態の余地があるということである。
15
[FM90]
D. Fudenberg and E. Maskin. Evolution and cooperation in
noisy repeated games. American Economic Review, 80:274–
279, 1990.
[Hau06]
Christoph Hauert. Spatial effects in social dilemmas. J Theor
Biol, 240(4):627–636, Jun 2006.
[HSSH05]
D. Helbing, M. Sch
”onhof, H.U. Stark, and J. Holyst. How individuals learn to
take turns: Emergence of alternating cooperation in a congestion game and the prisoner’s dilemma. Advances in Complex
Systems, 8:87–116, 2005.
[Lin91]
K. Lindgren. Evolutionary phenomena in simple dynamics. In
C. G. Langton, C. Taylor, J. D. Farmer, and S. Rasmussen,
editors, Artificial Life II, pages 295–312. Addison Wesley Publishing Company, Reading, MA, 1991.
[NS93a]
M. Nowak and K. Sigmund. Chaos and the evolution of cooperation. Proceedings of the National Academy of Sciences of
the United States of America, 90(11):5091–5094, June 1993.
[NS93b]
Martin Nowak and Karl Sigmund. A strategy of win-stay, loseshift that outperforms tit-for-tat in the prisoner’s dilemma
game. Nature, 364(6432):56–58, July 1993.
[Rap67]
A. Rapoport. Exploiter, leader, hero, and martyr: The four
archetypes of the 2x2 game. Behavioral Science, 12(2):81–84,
1967.
[Smi82]
John Maynard Smith. Evolution and the Theory of Games.
Cambridge University Press, 0002 edition, 10 1982.
[SW77]
R.C. Savin-Williams.
Dominance in a human adolescent
group. Animal Behaviour, 25:400–406, 1977.
[SW79]
R.C. Savin-Williams. Dominance hierarchies in groups of early
adolescents. Child development, pages 923–935, 1979.
[Tan08]
J. Tanimoto. What initially brought about communications?
Biosystems, 92(1):82–90, Apr 2008.
[TS07]
J. Tanimoto and H. Sagara. A study on emergence of alternating reciprocity in a 2x2 game with 2-length memory strategy.
Biosystems, 90(3):728–737, 2007.
16
[WA95]
J. Wu and R. Axelrod. How to cope with noise in the iterated
prisoner’s dilemma. Journal of Conflict Resolution, 39:183–
189, 1995.
[WSJ92]
H. Weimerskirch, JC Stahl, and P. Jouventin. The breeding biology and population dynamics of king penguins Aptenodytes
patagonica on the Crozet Islands. Ibis, 134(2):107–117, 1992.
17