相互作用の発生に関するラムダゲーム系を用いた検討

相互作用の発生に関するラムダゲーム系を用いた検討
*森江 太郎, 鈴木 麗璽, 有田 隆也
名古屋大学 大学院情報科学研究科複雑系科学専攻
〒464-8601 名古屋市千種区不老町
E-mail: [email protected], {reiji, arita}@nagoya-u.jp
Abstract: 本研究は, 複数の主体が互いに独立な状況からどのようにして様々な関わり合いを持つようにな
るのかについて知見を得ることを目的とし, ラムダゲーム系を用いてシミュレーションを行った. その結果, 主
体が関わり合いを持つ場合の多くは相手の利得を低める意地悪のような行動をきっかけとして始まり, その後
様々な関係に発展していることが分かった.
1 はじめに
複数の意思決定主体が存在し, それぞれ一定の目的の実現を目指して相互に依存しあっている状況をゲーム
的状況といい, ゲーム的状況における様々な研究がこれまで行われてきた. 一方で, 現実において状況は不変で
なく, 常に複数の主体が相互に関わり合っているわけではない.
本研究の目的は, 様々な複数主体間の関わり合い, 相互作用がどのように発生するかという点について知見
を得ることである. そのために,関数(ルール)の規定する定義域外の入力(戦略)に対しても出力(得点)
を返しうる枠組みを λ 計算で実現したラムダゲーム系を用いる [1, 2]. 複数の主体が実質的に互いに独立であ
る状況をラムダゲーム系で記述し, そのような状況下でどのような行動が広がるか, 関わり合いが発生するか,
発生する場合のプロセスはどうなっているかを進化的計算によって調べる.
2 λ 計算
λ 計算は 1936 年, Alonzo Church によって考案された数学的体系である. λ 計算は自然数関数や実数関数
といった特定の領域にとらわれず, 関数の世界に内在する本質的な性質を抽出した体系といえる [3, 4].
λ 計算において扱われる関数式を λ 式と呼び, 以下のように再帰的に定義される*1 .
定義 2.1 (λ 式)
(1)
変数 x1 , x2 , · · · は λ 式である.
(2)
M が λ 式で x が変数のとき, (λx.M ) は λ 式である.
(3)
M と N が λ 式のとき, (M N ) は λ 式である.
λ 式 M 中の変数 x を λ 式 N に置き換える操作を代入と呼び, M [x := N ] と書く.
λ 計算において, 関数のある値に対する関数値を求める操作を β 簡約と呼び, 次のように再帰的に定義する.
定義 2.2 ((1 ステップの)β 簡約)
(1)
(λx.M ) N −
→ M [x := N ]
(2)
M−
→ N ならば, (λx.M ) −
→ (λx.N ), M P −
→ N P , および P M −
→ PN
*1
(1)
(2)
fl
fl
fl
fl
fl
λ 式を定義通りに書くと括弧が非常に多くなり見づらいため, 以下の省略記法を用いる. なお記号 ≡ は左辺と右辺が構文的に等し
いことを表す.
λx1 x2 · · · xn .M ≡ (λx1 . (λx2 . (· · · (λxn .M ) · · · )))
M1 M2 M3 · · · Mn ≡ ((· · · ((M1 M2 ) M3 ) · · · ) Mn )
39
定義 2.3 (β 簡約)
M ≡ M0 −
→ M1 −
→ ··· −
→ Mn ≡ N (n = 0) のとき, M ³ N
fl
fl
fl
fl
3 ラムダゲーム系
図 1 のような 2 つの戦略がある 2 人ゲームを考える. このルールは条件文を 2 回使って, プレイヤー 1 の戦
略は A か B か, プレイヤー 2 の戦略は A か B かというように, 各プレイヤーの戦略を区別し, それぞれの場
合に応じて利得を決定しているといえる.
図1
ゲームの利得表の例. a, b, c, d の値はプレイ
図2
ヤー 1 の利得を表す.
本研究で用いた初期状態の利得表
よって戦略 A を λ 式 T で, 戦略 B を λ 式 F で表し, 利得を Barendregt 数で表す*2 とすると, 以下のよう
にルール λ 式 R を記述できる.
R ≡ λx.x (λy.y⌈a⌉⌈c⌉) (λy.y⌈b⌉⌈d⌉)
このルール λ 式 R を対戦相手の戦略 λ 式 Stropp と自分の戦略 λ 式 Strself に順に適用することによって,
利得を表す λ 式が出力される. また, 利得が出力される途中の, R がまず 1 つの戦略 λ 式に適用されて作られ
る λ 式を R′ とする. この R′ はいわば自分の選択肢によって起こる結果を示すものであり, 相手の戦略によっ
て R′ が異なることは相手の行動の影響を受けることを示す.
′
RStropp Strself ³ Ropp
Strself ³ Rewardself
fl
fl
ここで, R は実際には T, F 以外の任意の λ 式に適用することができる. すなわち, 定義外の戦略が許容さ
れる. とはいえ, 出力が利得 λ 式以外だった場合, ゲームとして成り立たないと考えられるため, ここでは本来
の戦略である T, F と対戦したとき及び自分自身の λ 式と対戦したときに利得 λ 式が出力される λ 式が定義
外戦略として許容される.
4 モデル
4.1 概要
2 体の意思決定主体がそれぞれ 2 つの戦略を持っていて, それぞれの利得は相手の戦略に関わらず自分の戦
略のみで決まる状況を初期状態とする. つまり, 図 2 のように T は相手が T か F かに関わらず m 点を得,F
は相手が T か F かに関わらず n 点を得るようなルールとする.
*2
λ 式で真偽値及び条件文や自然数は以下のように記述できる.
定義 3.1 (真偽値)
T ≡ λxy.x, F ≡ λxy.y
定義 3.2 (条件文)
”if x then P else Q” ≡ λx.xP Q
定義 3.3 (Barendregt 数)
⌈0⌉ ≡ λx.x, ⌈n + 1⌉ ≡ λx.xF ⌈n⌉
40
その下で λ 式の集団を用意し, 獲得利得を適応度として GP で進化的計算を行い, 現れた λ 式がどのような
戦略か, 相互作用は発生するのか, 進化のプロセスはどうなっているのかを調べる.
4.2 アルゴリズム
各個体は λ 式で表現される 1 つの戦略を持つプレイヤーとする. 次の手順で集団を進化させる.
(1)
集団のサイズを N として, 本来の戦略である T と F それぞれ半数ずつからなる初期集団を構成する.
(2)
最終世代数 Glast に到達するか, 突然変異で新たに出現した異なる 2 つの戦略 λ 式同士の対戦で, 利得
λ 式以外のものが出力されるまで以下の操作を繰り返す.
(2-1) それぞれの戦略 λ 式は集団の自分以外全員と上記のルールで総当り戦を行う.
(2-2) 総当り戦での合計利得を適応度として選択を行い, 交叉率 Pcross と突然変異率 Pmut に基づい
てそれぞれの操作を施し次世代集団を構成する.
5 結果と考察
Average Payoff
5.1 代表例
図3
8
7
6
5
4
3
2
1
0
0
5000
10000
15000
20000
Generation
25000
30000
35000
R ≡ λx.x (λy.y⌈0⌉⌈2⌉) (λy.y⌈0⌉⌈2⌉) 下における各世代の一回の対戦での平均利得
表1
T
F
Succ1
Succ2
Succ3
T
0
2
3
4
5
図 3 の利得表(一部)
F
0
2
3
4
5
Succ1
0
2
3
4
5
Succ2
0
2
3
4
5
Succ3
0
2
3
4
5
図 3 の例では, 定義された利得の上限である 2 を超える succ1 ≡ λv1 .v1 (λv2 v3 .v3 F v2 ) や Strsucc2 ≡
λv1 .v1 (λv2 v3 v4 .v4 F v2 ) (λv5 v6 .v6 F v5 ) といった戦略が続々出現している. しかし, これらの R′ ≡ λx.x⌈0⌉⌈2⌉
は T や F のつくる R′ と同じもので, 表 1 のように高利得を得る選択肢が増えたが, 相手の選択に依存せず自
分の選択のみで利得が決まり, 利得に関して互いに独立なままだった.
図 4 の例では利得表 2 のような初期状態から,表 2 のような相互作用が存在する系となった. まず, ご
く初期に Spite ≡ λv1 .v1 ⌈3⌉⌈0⌉⌈3⌉⌈0⌉ が生じた. この戦略は通常と異なる R′ を作り, 通常なら 3 点得ら
れるはずの T に 0 点を与える, いわば妨害的戦略である. 一方で T からは 3 点を得るため集団に広まっ
た. Spite 同士の対戦では互いに 0 点となるため平均利得が 0 となってしまった後, 117200 世代頃に,
M u1 ≡ λv1 v2 v3 .v1 (v2 (λv4 .v3 ) F ) と M u2 ≡ λv1 v2 v3 .v1 (v2 (λv4 .v3 ) λv5 v6 .v6 F v5 ) が出現した. これらは同
じ戦略と対戦しても利得が 0 となるが, お互いの対戦では利得を得ることができる戦略であり, 互恵的戦略と
いえる.
41
Average Payoff
4
3.5
3
2.5
2
1.5
1
0.5
0
0
20000
40000
60000
80000
100000
120000
Generation
図4
R ≡ λx.x (λy.y⌈3⌉⌈0⌉) (λy.y⌈3⌉⌈0⌉) 下における各世代の一回の対戦での平均利得
表2
T
F
Spite
M u1
M u2
T
3
0
3
3
3
図 4 の利得表(一部)
F
3
0
3
3
3
Spite
0
0
0
0
0
M u1
0
0
0
0
1
M u2
0
0
0
3
0
5.2 相互作用の発生
図 4 の例では R′ が通常のものと異なる戦略が発生し, 相互作用が起こった. 今回行った実験では, 相互作用
が起こった場合のほとんどは相手の利得を 0 にする妨害的戦略の発生に端を発していた.
集団を占めている戦略の利得を減らすような R′ を作る妨害的戦略は, 自分の利得が集団の平均利得と同程
度でも侵入できるのに対し, 相手の利得を増やすような R′ を作る戦略は, 自分の利得がより高くなければ侵入
できない. また, 妨害的戦略のほとんどは集団を占めている戦略に 0 点を与えたため, 自分と同じ戦略との対
戦で利得が何であれ侵入できたが, 集団を占めている戦略の利得を変えないような R′ を作る戦略は, 同戦略と
の対戦でも平均利得と同程度を得なければ侵入できない. よって, 通常と異なる R′ を作る戦略のうち, 相手の
利得を 0 にする妨害的戦略が最も集団に侵入する条件が易しく, まず妨害的な戦略が場を支配し, 平均利得が
0 となる段階を経ることで様々な関わり合いが発生しやすくなったと考えられる.
6 おわりに
本研究では, 複数の主体が独立である状況にラムダゲーム系を適用し, どのような戦略が生じ, 相互作用が起
こるかを調べた. その結果, 互恵的な相互作用については, 互いに独立な状態から突然広まるにはハードルが高
く, 比較的広まりやすい非協調的な相互作用を介することで発生しやすくなることが分かった. これは, 非協調
的な行動が協調関係の発生に寄与し得ることを示唆しており, 大変に興味深い.
今後は, ゲームを通じてルール λ 式そのものが変わるようにモデルを変え, 主体と環境が相互作用する中で,
複数主体間相互作用の発生・消滅を調べていきたいと考えている.
参考文献
[1] 舛本現, ラムダゲーム : メタゲームへのアプローチ, 数理解析研究所講究録 1381 巻, 65-79 (2004).
[2] Masumoto, G., Ikegami, T. A new formalization of a meta-game using the lambda calculus, BioSystems 80, 219-231 (2005).
[3] 高橋正子, 計算論 : 計算可能性とラムダ計算, 近代科学社, (1991).
[4] 横内寛文, プログラム意味論, 共立出版, (1994).
42