離散最適化基礎論 第 6回 展開形ゲーム:基礎概念

.
概要
ゲームの種類 (第 1 回講義から)
.
▶
離散最適化基礎論 第 6 回
展開形ゲーム:基礎概念
.
非協力ゲーム (non-cooperative game)
▶
▶
▶
▶
岡本 吉央
[email protected]
協力ゲーム (cooperative game)
▶
▶
▶
電気通信大学
戦略形ゲーム (strategic game)
展開形ゲーム (extensive game)
...
特性関数形ゲーム (characteristic function game)
...
...
2012 年 11 月 9 日
最終更新:2012 年 11 月 9 日
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
11:51
2012 年 11 月 9 日
1 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
概要
2012 年 11 月 9 日
4 / 57
目次
.
目標
.
展開形ゲームが何であるのか,理解する
▶
展開形ゲームの構成要素
▶
混合戦略と行動戦略
▶
完全情報展開形ゲームのナッシュ均衡計算法
.
2 / 57
展開形ゲームとは?
概要
.
2012 年 11 月 9 日
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
3 / 57
.
1.
展開形ゲームとは?
2.
展開形ゲームにおける混合戦略と行動戦略
3.
完全情報展開形ゲームと後ろ向き帰納法
4.
今日のまとめ
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
展開形ゲームとは?
展開形ゲームが対象とする状況
例 1:将棋
▶
プレイヤーが何人かいる
▶
各プレイヤーはルールに従って順番に戦略を選択する
▶
各プレイヤーには何度も戦略を選択する機会が与えられるかも
しれない
▶
各プレイヤーは他のプレイヤーの選んだ戦略を知っているかも
しれないし,知らないかもしれない
▶
各プレイヤーは自分が既に選んだ戦略を覚えていないかもしれない
http://en.wikipedia.org/wiki/File:Shogi Ban Koma.jpg
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
5 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
例 2:コンビニ出店 — ゲーム木による表現
2 つのコンビニチェーン A と B が駅 1 と駅 2 のどちらに出店するか決める
▶
A は計画が進んでおり,あとはどちらに出店するか決めるのみ
▶
B は計画が遅れている
▶
B は A の出店を見た後で,どちらに出店するか決められる
▶
B は A の 2 倍の客を獲得できる
▶
駅 1 でのコンビニ利用者数は 600
▶
駅 2 でのコンビニ利用者数は 300
岡本 吉央 (電通大)
6 / 57
展開形ゲームとは?
例 2:コンビニ出店
.
2012 年 11 月 9 日
離散最適化基礎論 (6)
(A, B)
1
B
v2
A
v1
2
2012 年 11 月 9 日
7 / 57
.
岡本 吉央 (電通大)
B
v3
1
(200, 400)
2
(600, 300)
1
(300, 600)
2
(100, 200)
離散最適化基礎論 (6)
2012 年 11 月 9 日
8 / 57
.
展開形ゲームとは?
展開形ゲームとは?
例 3:コンビニ出店 (Part 2) — ゲーム木による表現
例 3:コンビニ出店 (Part 2)
2 つのコンビニチェーン A と B が駅 1 と駅 2 のどちらに出店するか決める
▶
A は計画が進んでおり,あとはどちらに出店するか決めるのみ
▶
B は計画が遅れている
▶
B は A の出店を見た後で,どちらに出店するか決められない
▶
B は A の 2 倍の客を獲得できる
▶
駅 1 でのコンビニ利用者数は 600
▶
駅 2 でのコンビニ利用者数は 300
(A, B)
B
v2
1
A
v1
2
B
v3
1
(200, 400)
2
(600, 300)
1
(300, 600)
2
(100, 200)
u
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
9 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
例 4:カードゲーム
2 人のプレイヤーで次のようなカードゲームを行う
▶
カードは 3 種類:High > Middle > Low (「>」はカードの強さ)
▶
プレイヤー 1 は確率 1/2 で High を,確率 1/2 で Low のカードを得る
▶
プレイヤー 2 は Middle のカードを確実に得る
プレイヤーは自分のカードを得てから,以下の行動を選択する
▶
▶
▶
10 / 57
展開形ゲームとは?
例 4:カードゲーム
▶
2012 年 11 月 9 日
(1/2)
High
1
v1
R
0
v0
プレイヤー 1 は 1 ドル賭けるか,2 ドル賭けるか申告する
プレイヤー 1 が 1 ドル賭けた場合,プレイヤー 2 とすぐに勝負し,
負けた方が勝った方に 1 ドル払う
プレイヤー 1 が 2 ドル賭けた場合,プレイヤー 2 は 1 ドル払って
降りるか,2 ドルで勝負するかを申告する
勝負の場合は負けた方が勝った方に 2 ドル払う
(1, -1)
P
2
v3
P
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
u
Low
(1/2)
1
v2
R
2
v4
(-1, 1)
P
プレイヤー 0 は「自然」(nature) という仮想的プレイヤーで
プレイヤーが操作できない偶然手番 (chance move) を司る
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
11 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
展開形ゲームの記述:ゲーム木
プレイヤーの集合を N で表す
▶ 通常はプレイヤー 1,プレイヤー 2 とプレイヤーを名づける
▶ プレイヤー 0 は「自然」
ゲームの進行を根つき木で表現する
High
1
v1
2
v3
High
(1, -1)
Low
(1/2)
1
v2
(-2, 2)
(1/2)
1
v2
R
2
v4
P
P
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
(-1, 1)
(1, -1)
F
P
2
v3
u
Low
P
(1, -1)
P
R
0
v0
u
2
R
v4
1
v1
(2, -2)
P
F
0
v0
(1/2)
(1, -1)
P
R
12 / 57
展開形ゲームとは?
展開形ゲームの記述:プレイヤー
(1/2)
2012 年 11 月 9 日
木の頂点集合 V (T ),内部頂点の集合 = {v0 , v1 , v2 , v3 , v4 }
(-1, 1)
N = {1, 2}
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
13 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
2012 年 11 月 9 日
展開形ゲームとは?
展開形ゲームの記述:戦略
展開形ゲームの記述:プレイヤー分割
根つき木の各内部ノードにプレイヤーの選択できる (純粋) 戦略が
与えられている
根つき木の各内部頂点にプレイヤーが 1 人割り当てられる
(1/2)
High
1
v1
0
v0
(1, -1)
P
R
2
v3
(1/2)
P
(2, -2)
F
(1, -1)
u
Low
1
(1/2)
v2
R
2
v4
P
P
(-2, 2)
F
(1, -1)
14 / 57
High
▶
A(v0 ) = {High, Low}
▶
A(v1 ) = {P, R}
▶
A(v2 ) = {P, R}
▶
A(v3 ) = {P, F}
Low
▶
A(v4 ) = {P, F}
(1/2)
1
v1
R
0
v0
(1, -1)
P
2
v3
P
(2, -2)
F
(1, -1)
u
1
v2
R
2
v4
P
P
(-2, 2)
F
(1, -1)
▶
P0 = {v0 }
▶
P1 = {v1 , v2 }
▶
P2 = {v3 , v4 }
(-1, 1)
(-1, 1)
(純粋) 戦略の選択 1 つ 1 つが部分木に対応する
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
15 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
16 / 57
.
展開形ゲームとは?
展開形ゲームとは?
展開形ゲームの記述:情報分割
展開形ゲームの記述:偶然手番の確率分布
.
プレイヤー i の情報集合
.
プレイヤー i が割り当てられた内部頂点で,
プレイヤー
i が区別できないもの同士を集めたもの
.
自然が割り当てられた内部頂点において各戦略が選ばれる確率
(1/2)
High
1
v1
R
0
v0
(1, -1)
P
2
v3
P
(2, -2)
F
(1, -1)
▶
(1/2)
Pr[自然が High を選択] = 1/2
u
Low
(1/2)
1
v2
Pr[自然が Low を選択] = 1/2
(-1, 1)
(1, -1)
P
R
0
v0
(1, -1)
F
P
▶
(-2, 2)
P
2
R
v4
High
1
v1
2
v3
P
(2, -2)
F
(1, -1)
u
Low
(1/2)
1
v2
R
2
v4
P
P
(-2, 2)
F
(1, -1)
▶
U0 = {{v0 }}
▶
U1 = {{v1 }, {v2 }}
▶
U2 = {{v3 , v4 }}
(-1, 1)
プレイヤー i の情報分割とは,プレイヤー i の情報集合を全部集めたもの
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
17 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
展開形ゲームのルール
根つき木の葉にたどり着いたときに,各プレイヤーが受け取る利得
High
1
v1
1
2
3
(1, -1)
P
R
0
v0
2
v3
P
(2, -2)
F
(1, -1)
根つき木の根からゲームを開始する
今いる頂点が葉 ⇒ そこの利得を各プレイヤーが受け取る
今いる頂点が内部頂点 ⇒
その頂点に割り当てられているプレイヤーが戦略を選択する
選択に従って部分木へ移動する
3. その部分木において再帰的にゲームをプレイする
1.
2.
u
Low
(1/2)
1
v2
P
2
R
v4
F
(1/2)
(-2, 2)
High
(1, -1)
1
v1
(1, -1)
P
R
0
v0
(-1, 1)
P
2
v3
(1/2)
1
v2
R
2
v4
離散最適化基礎論 (6)
2012 年 11 月 9 日
19 / 57
.
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
(-1, 1)
P
岡本 吉央 (電通大)
P
u
Low
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
2012 年 11 月 9 日
展開形ゲームの種類:完全情報ゲーム
.
情報完備ゲーム (game with complete information) とは?
.
すべてのプレイヤーがプレイヤー集合,ゲーム木,戦略,プレイヤー
分割,偶然手番の確率分布,情報分割,利得関数,ゲームのルールを
すべて知っている展開形ゲーム
.
.
完全情報ゲーム (game with perfect information) とは?
.
.すべての情報集合の要素数が 1 であるような展開形ゲーム
(A, B)
B
v2
そうでないゲームは情報不完備ゲームと呼ばれる
1
A
v1
2
▶
▶
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
21 / 57
.
B
v3
岡本 吉央 (電通大)
2
(600, 300)
1
(300, 600)
2
(100, 200)
2012 年 11 月 9 日
22 / 57
2012 年 11 月 9 日
24 / 57
展開形ゲームとは?
1
2
B
v3
2
完全記憶ゲームではない例
U
2
U v2
(A, B)
1
(200, 400)
離散最適化基礎論 (6)
.
完全記憶ゲーム (game with perfect recall) とは?
.
各プレイヤーが,自分のいままで選択した戦略をすべて覚えているような
展開形ゲーム
.
A
v1
1
将棋は完全情報ゲーム
偶然手番があってもよい
展開形ゲームとは?
展開形ゲームの種類:完全記憶ゲーム
B
v2
20 / 57
展開形ゲームとは?
展開形ゲームの種類:情報完備ゲーム
.
18 / 57
展開形ゲームとは?
展開形ゲームの記述:利得関数
(1/2)
2012 年 11 月 9 日
1
v1
(200, 400)
(600, 300)
1
(300, 600)
2
(100, 200)
1 U
v4 D
1
D
v5
u1
u2
1
U
v6
D 2
v3
1
D
v7
U
D
U
D
U
D
u
▶
.
完全情報ゲームは完全記憶ゲーム
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
23 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
.
展開形ゲームとは?
展開形ゲームとは?
展開形ゲーム:形式的定義 — プレイヤー分割
展開形ゲーム:形式的定義 — ゲーム木
▶
プレイヤーの集合 N = {1, 2, . . . , n}
▶ プレイヤー分割 (player partition) とは V (T ) − L(T ) の分割
{P0 , P1 , P2 , . . . , Pn }
ゲーム木 (game tree) は根つき木 T
▶
▶
根つき木 (rooted tree) とは,根 (root) と呼ばれる特別な頂点を持つ
展開形ゲームでは根を初期頂点と呼ぶこともある
▶
T の頂点集合を V (T ) と書く
▶
▶
各頂点 v ∈ V (T ) から出る辺の集合を E (v ) と書く
▶
▶
E (v ) = ∅ となる頂点 v ∈ V (T ) を T の葉 (leaf) と呼ぶ
▶
T の葉をすべて集めた集合を L(T ) と書く
▶
L(T ) の要素ではない T の頂点は T の内部頂点と呼ばれる
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
25 / 57
V (T ) − L(T ) = P0 ∪ P1 ∪ P2 ∪ · · · ∪ Pn
∀ i ̸= j: Pi ∩ Pj = ∅
▶
Pi はプレイヤー i の手番をすべて集めた集合
▶
P0 は偶然手番をすべて集めた集合
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
2012 年 11 月 9 日
展開形ゲームとは?
展開形ゲーム:形式的定義 — 情報分割
展開形ゲーム:形式的定義 — 戦略
プレイヤーの集合 N = {1, 2, . . . , n},プレイヤー分割 {P0 , P1 , . . . , Pn }
▶ プレイヤー i の情報分割 (information partition) とは Pi の分割 Ui
プレイヤー i の情報集合 u ∈ Ui における戦略の集合を A(u) と書く
▶
▶
∪
Pi = u∈Ui u
∀ u ̸= u ′ ∈ Ui : u ∩ u ′ = ∅
▶
ただし,∀ u ∈ Ui , ∀ v , v ′ ∈ u: |E (v )| = |E (v ′ )|
▶
各 u ∈ Ui をプレイヤー i の情報集合 (information set) と呼ぶ
▶
普通は,T の根から葉へ至る任意のパスと各情報集合は高々1 回し
か交わらないと仮定
▶
P0 に対するプレイヤー分割 U0 において,
「∀ u ∈ U0 : u0 の要素数は 1」であるとする
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
27 / 57
▶
各戦略 a ∈ A(u) と各頂点 v ∈ u に対して
ちょうど 1 つの辺 ea ∈ E (v ) が対応する
▶
u においてプレイヤー i が戦略 a を選んだとき,
ゲーム木において実際は v ∈ u にいるならば,
ゲームは v から ea をたどって到達する部分木に移行する
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは?
展開形ゲーム:形式的定義 — 利得関数
偶然手番 v ∈ P0 ,戦略集合 A({v })
▶ 偶然手番 v における確率分布 pv : A({v }) → R
利得関数 f : L(T ) → RN
▶
2012 年 11 月 9 日
28 / 57
展開形ゲームとは?
展開形ゲーム:形式的定義 — 偶然手番における確率分布
▶
26 / 57
▶
∀∑
a ∈ A({v }): pv (a) ≥ 0
pv (a) = 1
任意の v ∈ L(T ) と i ∈ N に対して
f (v )i はゲームが v にたどりついたときプレイヤー i が受け取る利得
a∈A({v })
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
29 / 57
.
展開形ゲームにおける混合戦略と行動戦略
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
30 / 57
展開形ゲームにおける混合戦略と行動戦略
目次
展開形ゲームにおける戦略は,各情報集合における選択の集まり
展開形ゲームにおける戦略は,各情報集合における選択の集まり
1.
展開形ゲームとは?
(1/2)
High
2.
3.
展開形ゲームにおける混合戦略と行動戦略
完全情報展開形ゲームと後ろ向き帰納法
Low
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
31 / 57
.
岡本 吉央 (電通大)
2
v3
P
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
u
1
v2
R
P
今日のまとめ
(1, -1)
P
R
0
v0
(1/2)
4.
1
v1
2
v4
(-1, 1)
離散最適化基礎論 (6)
2012 年 11 月 9 日
32 / 57
.
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 (2)
展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 (1)
(A, B)
B
v2
1
A
v1
2
B
v3
Aの
利得行列
A
1
(v1 ) 2
(1,1)
200
300
(A, B)
(200, 400)
1
2
(600, 300)
1
(300, 600)
2
(100, 200)
B (v2 , v3 )
(1,2) (2,1)
200
600
100
300
A
v1
2
岡本 吉央 (電通大)
B
v3
Bの
利得行列
A
1
(v1 ) 2
(2,2)
600
100
これを展開形ゲームの標準化と呼ぶことがある
.
B
v2
1
1
(200, 400)
2
(600, 300)
1
(300, 600)
2
(100, 200)
B (v2 , v3 )
(1,2) (2,1)
400
300
200
600
(1,1)
400
600
これを展開形ゲームの標準化と呼ぶことがある
離散最適化基礎論 (6)
2012 年 11 月 9 日
33 / 57
.
岡本 吉央 (電通大)
展開形ゲームにおける混合戦略と行動戦略
離散最適化基礎論 (6)
A
v1
2
B
v3
(A, B)
(200, 400)
1
2
(600, 300)
1
(300, 600)
2
(100, 200)
B
v2
1
A
v1
2
B
v3
u
Aの
利得行列
A
1
(v1 ) 2
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
35 / 57
.
岡本 吉央 (電通大)
High
R
2
v3
F
0
v0
(1/2)
1
v2
R
2
v4
P
F
(1/2)
(1, -1)
(-2, 2)
1の
期待利得行列
(P, P)
1
(P, R)
(v1 , v2 ) (R, P)
(R, R)
2 (u)
P
0
−1/2
1/2
0
High
F
0
1
0
1
岡本 吉央 (電通大)
1
(300, 600)
2
(100, 200)
(1/2)
(1, -1)
離散最適化基礎論 (6)
2012 年 11 月 9 日
R
2
v3
2012 年 11 月 9 日
37 / 57
.
P
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
2の
期待利得行列
(P, P)
1
(P, R)
(v1 , v2 ) (R, P)
(R, R)
1
v2
R
2
v4
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
展開形ゲームにおける混合戦略は,この表現における混合戦略
各情報集合における純粋戦略上の確率分布を集めたもの
High
1
v1
R
0
v0
(1, -1)
2
v3
P
(2, -2)
F
(1, -1)
u
Low
(1/2)
1
v2
R
2
v4
P
F
P
岡本 吉央 (電通大)
(-2, 2)
1の
期待利得行列
(P, P)
1
(P, R)
(v1 , v2 ) (R, P)
(R, R)
2 (u)
P
0
−1/2
1/2
0
1/2
(1, -1)
P
1
(1/2)
(2, -2)
P
v1
1/3
2
High
R
1/2 v3
2/3
(1, -1)
F
0
u
v0
(-2, 2)
P
1/4 2
1/3
Low
R
v4
2/3
1
(1/2)
(1, -1)
F
v2
(-1, 1)
P
3/4
F
0
1
0
1
(1, -1)
(-1, 1)
離散最適化基礎論 (6)
38 / 57
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームにおける行動戦略
(1/2)
2 (u)
P
F
0
0
1/2 −1
−1/2 0
0
−1
(-1, 1)
展開形ゲームにおける混合戦略
P
36 / 57
(1, -1)
P
P
離散最適化基礎論 (6)
B (u)
1
2
400 300
600 200
u
Low
展開形ゲームにおける混合戦略と行動戦略
.
1
v1
0
v0
(-1, 1)
P
(600, 300)
展開形ゲームにおける混合戦略と行動戦略
(2, -2)
u
Low
.
P
2
展開形ゲームを戦略形ゲームとして表現する — カードゲーム (2)
(1, -1)
P
(200, 400)
Bの
利得行列
A
1
(v1 ) 2
B (u)
1
2
200 600
300 100
展開形ゲームにおける混合戦略と行動戦略
1
v1
1
u
展開形ゲームを戦略形ゲームとして表現する — カードゲーム (1)
(1/2)
34 / 57
展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 Part 2 (2)
(A, B)
B
v2
2012 年 11 月 9 日
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 Part 2 (1)
1
(2,2)
300
200
2012 年 11 月 9 日
39 / 57
.
岡本 吉央 (電通大)
▶
Pr[v1 で 1 が P を選択] = 1/2
▶
Pr[v1 で 1 が R を選択] = 1/2
▶
Pr[v2 で 1 が P を選択] = 3/4
▶
Pr[v2 で 1 が R を選択] = 1/4
▶
Pr[u で 2 が P を選択] = 1/3
▶
Pr[u で 2 が F を選択] = 2/3
離散最適化基礎論 (6)
2012 年 11 月 9 日
40 / 57
.
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームにおける混合戦略と行動戦略
混合戦略から行動戦略を作る
行動戦略から混合戦略を作る
▶
1/2
(1, -1)
P
1
(1/2)
(2, -2)
P
v1
1/3
2
High
R
1/2 v3
2/3
(1, -1)
F
0
u
v0
(-2, 2)
P
1/4 2
1/3
Low
R
v4
2/3
1
(1/2)
(1, -1)
F
v2
(-1, 1)
P
3/4
▶
▶
▶
Pr[1 が (P,P) を選択]
= Pr[v1 で 1 が P] · Pr[v2 で 1 が P]
= 12 · 34 = 83
岡本 吉央 (電通大)
High
Pr[1 が (P,R) を選択]
= Pr[v1 で 1 が P] · Pr[v2 で 1 が R]
= 12 · 14 = 81
+
3
8
+
1
8
離散最適化基礎論 (6)
Low
(1/2)
2012 年 11 月 9 日
41 / 57
.
1
U
v4
u2
1
D
v5
戦略形ゲームに変換したとき
U
▶
D
U
1
v2
2
R
v4
P
(-2, 2)
F
(1, -1)
▶
Pr[v1 で 1 が R] =
Pr[1 が (R,P)] + Pr[1 が (R,R)]
▶
Pr[v2 で 1 が P] =
Pr[1 が (P,P)] + Pr[1 が (R,P)]
▶
Pr[v2 で 1 が R] =
Pr[1 が (P,R)] + Pr[1 が (R,R)]
(-1, 1)
離散最適化基礎論 (6)
2012 年 11 月 9 日
42 / 57
1 U
U
v6 D
D 2
u3
v3
1 U
D
v7 D
▶
混合戦略:pXYZ = Pr[1 が v1 で X,u2 で Y,u3 で Z を選択] とする
プレイヤー 1 の戦略:
(v1 , u2 , u3 ) として 8 つ
▶
D
岡本 吉央 (電通大)
1 U
U
v4 D
2
u2
1 U
U v2
D
v5 D
1
u1
v1
1 U
U
v6 D
D 2
u3
v3
1 U
D
v7 D
(U, U, U), (U, U, D), (U, D, U),
(U, D, D), (D, U, U), (D, U, D),
(D, D, U), (D, D, D)
プレイヤー 2 の戦略:
u1 において 2 つ
▶
U, D
離散最適化基礎論 (6)
2012 年 11 月 9 日
43 / 57
.
1
U
v4
u2
1
D
v5
U
D
U
1 U
U
v6 D
D 2
u3
v3
1 U
D
v7 D
岡本 吉央 (電通大)
▶
pUUD = Pr[v1 で 1 が U] · Pr[u2 で 1 が U]
· Pr[u3 で 1 が D]
▶
...
▶
pDDD = Pr[v1 で 1 が D] · Pr[u2 で 1 が D]
· Pr[u3 で 1 が D]
離散最適化基礎論 (6)
▶
Pr[v1 で 1 が D]
= pDUU + pDUD + pDDU + pDDD
▶
離散最適化基礎論 (6)
2012 年 11 月 9 日
44 / 57
展開形ゲームにおける混合戦略と行動戦略
pUUU = Pr[v1 で 1 が U] · Pr[u2 で 1 が U]
· Pr[u3 で 1 が U]
D
Pr[v1 で 1 が U]
= pUUU + pUUD + pUDU + pUDD
混合戦略と行動戦略
▶
u1
▶
Pr[u2 で 1 が U]
pUUU + pUUD
=
pUUU + pUUD + pUDU + pUDD
▶ Pr[u2 で 1 が D]
pUDU + pUDD
=
pUUU + pUUD + pUDU + pUDD
pDUU + pDDU
Pr[u3 で 1 が U] =
pDUU + pDUD + pDDU + pDDD
pDUD + pDDD
Pr[u3 で 1 が D] =
pDUU + pDUD + pDDU + pDDD
岡本 吉央 (電通大)
展開形ゲームにおける混合戦略と行動戦略
別の例:行動戦略から混合戦略へ
.
(1, -1)
Pr[v1 で 1 が P] =
Pr[1 が (P,P)] + Pr[1 が (P,R)]
展開形ゲームにおける混合戦略と行動戦略
▶
1
v1
F
▶
別の例:混合戦略から行動戦略へ
u1
2
U v2
(2, -2)
岡本 吉央 (電通大)
▶
.
P
=1
展開形ゲームにおける混合戦略と行動戦略
1
v1
(1, -1)
2
R
v3
P
別の例
2
U v2
P
u
Pr[1 が (R,R) を選択]
= Pr[v1 で 1 が R] · Pr[v2 で 1 が R]
= 12 · 14 = 81
1
8
1
v1
0
v0
Pr[1 が (R,P) を選択]
= Pr[v1 で 1 が R] · Pr[v2 で 1 が P]
= 21 · 34 = 83
確認: 38 +
.
(1/2)
2012 年 11 月 9 日
45 / 57
完全記憶展開形ゲームにおいては
▶
任意の混合戦略に対して,ある行動戦略が存在して
それらの与える期待利得は等しい
▶
任意の行動戦略に対して,ある混合戦略が存在して
それらの与える期待利得は等しい
(Kuhn ’53)
.
展開形ゲームにおける混合戦略と行動戦略
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
46 / 57
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームにおける均衡
補足:戦略形ゲームから展開形ゲーム
2 つの均衡概念
▶
混合ナッシュ均衡:展開形ゲームの標準化に対する混合ナッシュ均衡
▶
行動戦略でのナッシュ均衡:行動戦略でナッシュ均衡となるもの
.
行動戦略でのナッシュ均衡とは?
.
任意のプレイヤー i の任意の情報集合 u における行動戦略を
.変化させても,プレイヤー i の得られる利得が大きくならない (∀ i ∈ N)
.
前のスライドの Kuhn ’53 の結果の帰結
.
完全記憶ゲーム展開形ゲームでは,
混合ナッシュ均衡と行動戦略でのナッシュ均衡が一致
.(特に行動戦略でのナッシュ均衡が存在)
男性の
利得行列
S
男性
C
女性
S C
2 0
0 1
女性の
利得行列
S
男性
C
女性
S C
1 0
0 2
(M, W)
S
W
v2
M
v1
C
W
v3
u
S
(2, 1)
C
(0, 0)
S
(0, 0)
C
(1, 2)
完全記憶ゲームでない場合は,成り立たないかもしれない
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
47 / 57
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
48 / 57
.
完全情報展開形ゲームと後ろ向き帰納法
完全情報展開形ゲームと後ろ向き帰納法
完全情報展開形ゲームのナッシュ均衡
目次
展開形ゲームとは?
.
目標
.
.完全情報展開形ゲームのナッシュ均衡を計算する
2.
展開形ゲームにおける混合戦略と行動戦略
.
手法
.
.後ろ向き帰納法 (backward induction)
3.
完全情報展開形ゲームと後ろ向き帰納法
1.
特徴
4.
▶
「ボトムアップ」な手法
▶
純粋ナッシュ均衡を発見
▶
計算量がゲーム木の大きさに対する線形時間
今日のまとめ
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
49 / 57
.
岡本 吉央 (電通大)
完全情報展開形ゲームと後ろ向き帰納法
離散最適化基礎論 (6)
例2
ナッシュ均衡は? (プレイヤーの数 = 1)
ナッシュ均衡は? (プレイヤーの数 = 2)
U
D
50 / 57
完全情報展開形ゲームと後ろ向き帰納法
例1
1
v1
2012 年 11 月 9 日
30
10
2 U
v2 D
(4,2)
2 U
D
v3 D
(1,4)
U
1
v1
v1 で 1 は U を選び,受け取る利得は 30
(3,3)
(2,3)
v1 で 1 は U を選び,v2 で 2 は D を選び,v3 で 2 は U を選ぶ
受け取る利得は,プレイヤー 1 が 3,プレイヤー 2 が 3
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
51 / 57
.
岡本 吉央 (電通大)
完全情報展開形ゲームと後ろ向き帰納法
離散最適化基礎論 (6)
後ろ向き帰納法 (backward induction)
ナッシュ均衡は? (プレイヤーの数 = 2),偶然手番あり
1
v1
(1/2) 2 U
U
v4 D
0
2 U
U v2
D
(1/2)v5 D
(4,2)
(1/2) 2 U
U
v6 D
D 0
v3
2 U
D
(1/2)v7 D
(6,3)
(3,3)
(1,4)
1
葉に近い部分ゲームから順に (純粋) 最適反応を計算
2
部分ゲームをその最適反応が与える利得に置き換え
3
順に根に近い部分ゲームの (純粋) 最適反応を計算
4
最終的にすべての内部頂点における戦略の選択が決定
(2,3)
岡本 吉央 (電通大)
離散最適化基礎論 (6)
(1,4)
(2,4)
1
v1
(3,3)
2012 年 11 月 9 日
53 / 57
.
(4,2)
2 U
D
(1/2)v5 D
(1,4)
(1/2) 2 U
U
v6 D
D 0
v3
2 U
D
(1/2)v7 D
(6,3)
岡本 吉央 (電通大)
今日のまとめ
(3,3)
(2,3)
(1,4)
(2,4)
(3,3)
離散最適化基礎論 (6)
2012 年 11 月 9 日
54 / 57
今日のまとめ
目次
今日のまとめ
.
今日やったこと
.
展開形ゲームが何であるのか,理解する
展開形ゲームとは?
2.
展開形ゲームにおける混合戦略と行動戦略
3.
完全情報展開形ゲームと後ろ向き帰納法
4.
今日のまとめ
.
岡本 吉央 (電通大)
離散最適化基礎論 (6)
▶
展開形ゲームの構成要素
▶
混合戦略と行動戦略
▶
完全情報展開形ゲームのナッシュ均衡計算法
.
次回と次々回
.
▶ 展開形ゲームにおける情報構造がナッシュ均衡に与える影響を見る
.
.
(1/2) 2 U
U
v4 D
0
U v2
v1 で 1 は U を選び,v4 で 2 は D を選び,v5 で 2 は U を選び,
v6 で 2 は D を選び,v7 で 2 は U を選ぶ
受け取る期待利得は,プレイヤー 1 が 2,プレイヤー 2 が 7/2
1.
52 / 57
完全情報展開形ゲームと後ろ向き帰納法
例3
.
2012 年 11 月 9 日
2012 年 11 月 9 日
55 / 57
.
▶
2 人完全記憶展開形ゲームにおけるナッシュ均衡の計算法を考える
岡本 吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
56 / 57