離散最適化基礎論第 6回展開形ゲーム：基礎概念

.
概要
ゲームの種類 (第 1 回講義から)
.
▶
離散最適化基礎論第 6 回
展開形ゲーム：基礎概念
.
非協力ゲーム (non-cooperative game)
▶
▶
▶
▶
岡本吉央
[email protected]
協力ゲーム (cooperative game)
▶
▶
▶
電気通信大学
戦略形ゲーム (strategic game)
展開形ゲーム (extensive game)
...
特性関数形ゲーム (characteristic function game)
...
...
2012 年 11 月 9 日
最終更新：2012 年 11 月 9 日
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
11:51
2012 年 11 月 9 日
1 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
概要
2012 年 11 月 9 日
4 / 57
目次
.
目標
.
展開形ゲームが何であるのか，理解する
▶
展開形ゲームの構成要素
▶
混合戦略と行動戦略
▶
完全情報展開形ゲームのナッシュ均衡計算法
.
2 / 57
展開形ゲームとは？
概要
.
2012 年 11 月 9 日
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
3 / 57
.
1.
展開形ゲームとは？
2.
展開形ゲームにおける混合戦略と行動戦略
3.
完全情報展開形ゲームと後ろ向き帰納法
4.
今日のまとめ
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
展開形ゲームとは？
展開形ゲームが対象とする状況
例 1：将棋
▶
プレイヤーが何人かいる
▶
各プレイヤーはルールに従って順番に戦略を選択する
▶
各プレイヤーには何度も戦略を選択する機会が与えられるかも
しれない
▶
各プレイヤーは他のプレイヤーの選んだ戦略を知っているかも
しれないし，知らないかもしれない
▶
各プレイヤーは自分が既に選んだ戦略を覚えていないかもしれない
http://en.wikipedia.org/wiki/File:Shogi Ban Koma.jpg
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
5 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
例 2：コンビニ出店 — ゲーム木による表現
2 つのコンビニチェーン A と B が駅 1 と駅 2 のどちらに出店するか決める
▶
A は計画が進んでおり，あとはどちらに出店するか決めるのみ
▶
B は計画が遅れている
▶
B は A の出店を見た後で，どちらに出店するか決められる
▶
B は A の 2 倍の客を獲得できる
▶
駅 1 でのコンビニ利用者数は 600
▶
駅 2 でのコンビニ利用者数は 300
岡本吉央 (電通大)
6 / 57
展開形ゲームとは？
例 2：コンビニ出店
.
2012 年 11 月 9 日
離散最適化基礎論 (6)
(A, B)
1
B
v2
A
v1
2
2012 年 11 月 9 日
7 / 57
.
岡本吉央 (電通大)
B
v3
1
(200, 400)
2
(600, 300)
1
(300, 600)
2
(100, 200)
離散最適化基礎論 (6)
2012 年 11 月 9 日
8 / 57
.
展開形ゲームとは？
展開形ゲームとは？
例 3：コンビニ出店 (Part 2) — ゲーム木による表現
例 3：コンビニ出店 (Part 2)
2 つのコンビニチェーン A と B が駅 1 と駅 2 のどちらに出店するか決める
▶
A は計画が進んでおり，あとはどちらに出店するか決めるのみ
▶
B は計画が遅れている
▶
B は A の出店を見た後で，どちらに出店するか決められない
▶
B は A の 2 倍の客を獲得できる
▶
駅 1 でのコンビニ利用者数は 600
▶
駅 2 でのコンビニ利用者数は 300
(A, B)
B
v2
1
A
v1
2
B
v3
1
(200, 400)
2
(600, 300)
1
(300, 600)
2
(100, 200)
u
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
9 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
例 4：カードゲーム
2 人のプレイヤーで次のようなカードゲームを行う
▶
カードは 3 種類：High > Middle > Low (「>」はカードの強さ)
▶
プレイヤー 1 は確率 1/2 で High を，確率 1/2 で Low のカードを得る
▶
プレイヤー 2 は Middle のカードを確実に得る
プレイヤーは自分のカードを得てから，以下の行動を選択する
▶
▶
▶
10 / 57
展開形ゲームとは？
例 4：カードゲーム
▶
2012 年 11 月 9 日
(1/2)
High
1
v1
R
0
v0
プレイヤー 1 は 1 ドル賭けるか，2 ドル賭けるか申告する
プレイヤー 1 が 1 ドル賭けた場合，プレイヤー 2 とすぐに勝負し，
負けた方が勝った方に 1 ドル払う
プレイヤー 1 が 2 ドル賭けた場合，プレイヤー 2 は 1 ドル払って
降りるか，2 ドルで勝負するかを申告する
勝負の場合は負けた方が勝った方に 2 ドル払う
(1, -1)
P
2
v3
P
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
u
Low
(1/2)
1
v2
R
2
v4
(-1, 1)
P
プレイヤー 0 は「自然」(nature) という仮想的プレイヤーで
プレイヤーが操作できない偶然手番 (chance move) を司る
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
11 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
展開形ゲームの記述：ゲーム木
プレイヤーの集合を N で表す
▶ 通常はプレイヤー 1，プレイヤー 2 とプレイヤーを名づける
▶ プレイヤー 0 は「自然」
ゲームの進行を根つき木で表現する
High
1
v1
2
v3
High
(1, -1)
Low
(1/2)
1
v2
(-2, 2)
(1/2)
1
v2
R
2
v4
P
P
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
(-1, 1)
(1, -1)
F
P
2
v3
u
Low
P
(1, -1)
P
R
0
v0
u
2
R
v4
1
v1
(2, -2)
P
F
0
v0
(1/2)
(1, -1)
P
R
12 / 57
展開形ゲームとは？
展開形ゲームの記述：プレイヤー
(1/2)
2012 年 11 月 9 日
木の頂点集合 V (T )，内部頂点の集合 = {v0 , v1 , v2 , v3 , v4 }
(-1, 1)
N = {1, 2}
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
13 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
2012 年 11 月 9 日
展開形ゲームとは？
展開形ゲームの記述：戦略
展開形ゲームの記述：プレイヤー分割
根つき木の各内部ノードにプレイヤーの選択できる (純粋) 戦略が
与えられている
根つき木の各内部頂点にプレイヤーが 1 人割り当てられる
(1/2)
High
1
v1
0
v0
(1, -1)
P
R
2
v3
(1/2)
P
(2, -2)
F
(1, -1)
u
Low
1
(1/2)
v2
R
2
v4
P
P
(-2, 2)
F
(1, -1)
14 / 57
High
▶
A(v0 ) = {High, Low}
▶
A(v1 ) = {P, R}
▶
A(v2 ) = {P, R}
▶
A(v3 ) = {P, F}
Low
▶
A(v4 ) = {P, F}
(1/2)
1
v1
R
0
v0
(1, -1)
P
2
v3
P
(2, -2)
F
(1, -1)
u
1
v2
R
2
v4
P
P
(-2, 2)
F
(1, -1)
▶
P0 = {v0 }
▶
P1 = {v1 , v2 }
▶
P2 = {v3 , v4 }
(-1, 1)
(-1, 1)
(純粋) 戦略の選択 1 つ 1 つが部分木に対応する
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
15 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
16 / 57
.
展開形ゲームとは？
展開形ゲームとは？
展開形ゲームの記述：情報分割
展開形ゲームの記述：偶然手番の確率分布
.
プレイヤー i の情報集合
.
プレイヤー i が割り当てられた内部頂点で，
プレイヤー
i が区別できないもの同士を集めたもの
.
自然が割り当てられた内部頂点において各戦略が選ばれる確率
(1/2)
High
1
v1
R
0
v0
(1, -1)
P
2
v3
P
(2, -2)
F
(1, -1)
▶
(1/2)
Pr[自然が High を選択] = 1/2
u
Low
(1/2)
1
v2
Pr[自然が Low を選択] = 1/2
(-1, 1)
(1, -1)
P
R
0
v0
(1, -1)
F
P
▶
(-2, 2)
P
2
R
v4
High
1
v1
2
v3
P
(2, -2)
F
(1, -1)
u
Low
(1/2)
1
v2
R
2
v4
P
P
(-2, 2)
F
(1, -1)
▶
U0 = {{v0 }}
▶
U1 = {{v1 }, {v2 }}
▶
U2 = {{v3 , v4 }}
(-1, 1)
プレイヤー i の情報分割とは，プレイヤー i の情報集合を全部集めたもの
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
17 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
展開形ゲームのルール
根つき木の葉にたどり着いたときに，各プレイヤーが受け取る利得
High
1
v1
1
2
3
(1, -1)
P
R
0
v0
2
v3
P
(2, -2)
F
(1, -1)
根つき木の根からゲームを開始する
今いる頂点が葉 ⇒ そこの利得を各プレイヤーが受け取る
今いる頂点が内部頂点 ⇒
その頂点に割り当てられているプレイヤーが戦略を選択する
選択に従って部分木へ移動する
3. その部分木において再帰的にゲームをプレイする
1.
2.
u
Low
(1/2)
1
v2
P
2
R
v4
F
(1/2)
(-2, 2)
High
(1, -1)
1
v1
(1, -1)
P
R
0
v0
(-1, 1)
P
2
v3
(1/2)
1
v2
R
2
v4
離散最適化基礎論 (6)
2012 年 11 月 9 日
19 / 57
.
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
(-1, 1)
P
岡本吉央 (電通大)
P
u
Low
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
2012 年 11 月 9 日
展開形ゲームの種類：完全情報ゲーム
.
情報完備ゲーム (game with complete information) とは？
.
すべてのプレイヤーがプレイヤー集合，ゲーム木，戦略，プレイヤー
分割，偶然手番の確率分布，情報分割，利得関数，ゲームのルールを
すべて知っている展開形ゲーム
.
.
完全情報ゲーム (game with perfect information) とは？
.
.すべての情報集合の要素数が 1 であるような展開形ゲーム
(A, B)
B
v2
そうでないゲームは情報不完備ゲームと呼ばれる
1
A
v1
2
▶
▶
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
21 / 57
.
B
v3
岡本吉央 (電通大)
2
(600, 300)
1
(300, 600)
2
(100, 200)
2012 年 11 月 9 日
22 / 57
2012 年 11 月 9 日
24 / 57
展開形ゲームとは？
1
2
B
v3
2
完全記憶ゲームではない例
U
2
U v2
(A, B)
1
(200, 400)
離散最適化基礎論 (6)
.
完全記憶ゲーム (game with perfect recall) とは？
.
各プレイヤーが，自分のいままで選択した戦略をすべて覚えているような
展開形ゲーム
.
A
v1
1
将棋は完全情報ゲーム
偶然手番があってもよい
展開形ゲームとは？
展開形ゲームの種類：完全記憶ゲーム
B
v2
20 / 57
展開形ゲームとは？
展開形ゲームの種類：情報完備ゲーム
.
18 / 57
展開形ゲームとは？
展開形ゲームの記述：利得関数
(1/2)
2012 年 11 月 9 日
1
v1
(200, 400)
(600, 300)
1
(300, 600)
2
(100, 200)
1 U
v4 D
1
D
v5
u1
u2
1
U
v6
D 2
v3
1
D
v7
U
D
U
D
U
D
u
▶
.
完全情報ゲームは完全記憶ゲーム
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
23 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
.
展開形ゲームとは？
展開形ゲームとは？
展開形ゲーム：形式的定義 — プレイヤー分割
展開形ゲーム：形式的定義 — ゲーム木
▶
プレイヤーの集合 N = {1, 2, . . . , n}
▶ プレイヤー分割 (player partition) とは V (T ) − L(T ) の分割
{P0 , P1 , P2 , . . . , Pn }
ゲーム木 (game tree) は根つき木 T
▶
▶
根つき木 (rooted tree) とは，根 (root) と呼ばれる特別な頂点を持つ
展開形ゲームでは根を初期頂点と呼ぶこともある
▶
T の頂点集合を V (T ) と書く
▶
▶
各頂点 v ∈ V (T ) から出る辺の集合を E (v ) と書く
▶
▶
E (v ) = ∅ となる頂点 v ∈ V (T ) を T の葉 (leaf) と呼ぶ
▶
T の葉をすべて集めた集合を L(T ) と書く
▶
L(T ) の要素ではない T の頂点は T の内部頂点と呼ばれる
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
25 / 57
V (T ) − L(T ) = P0 ∪ P1 ∪ P2 ∪ · · · ∪ Pn
∀ i ̸= j: Pi ∩ Pj = ∅
▶
Pi はプレイヤー i の手番をすべて集めた集合
▶
P0 は偶然手番をすべて集めた集合
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
2012 年 11 月 9 日
展開形ゲームとは？
展開形ゲーム：形式的定義 — 情報分割
展開形ゲーム：形式的定義 — 戦略
プレイヤーの集合 N = {1, 2, . . . , n}，プレイヤー分割 {P0 , P1 , . . . , Pn }
▶ プレイヤー i の情報分割 (information partition) とは Pi の分割 Ui
プレイヤー i の情報集合 u ∈ Ui における戦略の集合を A(u) と書く
▶
▶
∪
Pi = u∈Ui u
∀ u ̸= u ′ ∈ Ui : u ∩ u ′ = ∅
▶
ただし，∀ u ∈ Ui , ∀ v , v ′ ∈ u: |E (v )| = |E (v ′ )|
▶
各 u ∈ Ui をプレイヤー i の情報集合 (information set) と呼ぶ
▶
普通は，T の根から葉へ至る任意のパスと各情報集合は高々1 回し
か交わらないと仮定
▶
P0 に対するプレイヤー分割 U0 において，
「∀ u ∈ U0 : u0 の要素数は 1」であるとする
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
27 / 57
▶
各戦略 a ∈ A(u) と各頂点 v ∈ u に対して
ちょうど 1 つの辺 ea ∈ E (v ) が対応する
▶
u においてプレイヤー i が戦略 a を選んだとき，
ゲーム木において実際は v ∈ u にいるならば，
ゲームは v から ea をたどって到達する部分木に移行する
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
展開形ゲームとは？
展開形ゲーム：形式的定義 — 利得関数
偶然手番 v ∈ P0 ，戦略集合 A({v })
▶ 偶然手番 v における確率分布 pv : A({v }) → R
利得関数 f : L(T ) → RN
▶
2012 年 11 月 9 日
28 / 57
展開形ゲームとは？
展開形ゲーム：形式的定義 — 偶然手番における確率分布
▶
26 / 57
▶
∀∑
a ∈ A({v }): pv (a) ≥ 0
pv (a) = 1
任意の v ∈ L(T ) と i ∈ N に対して
f (v )i はゲームが v にたどりついたときプレイヤー i が受け取る利得
a∈A({v })
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
29 / 57
.
展開形ゲームにおける混合戦略と行動戦略
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
30 / 57
展開形ゲームにおける混合戦略と行動戦略
目次
展開形ゲームにおける戦略は，各情報集合における選択の集まり
展開形ゲームにおける戦略は，各情報集合における選択の集まり
1.
展開形ゲームとは？
(1/2)
High
2.
3.
展開形ゲームにおける混合戦略と行動戦略
完全情報展開形ゲームと後ろ向き帰納法
Low
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
31 / 57
.
岡本吉央 (電通大)
2
v3
P
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
u
1
v2
R
P
今日のまとめ
(1, -1)
P
R
0
v0
(1/2)
4.
1
v1
2
v4
(-1, 1)
離散最適化基礎論 (6)
2012 年 11 月 9 日
32 / 57
.
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 (2)
展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 (1)
(A, B)
B
v2
1
A
v1
2
B
v3
Aの
利得行列
A
1
(v1 ) 2
(1,1)
200
300
(A, B)
(200, 400)
1
2
(600, 300)
1
(300, 600)
2
(100, 200)
B (v2 , v3 )
(1,2) (2,1)
200
600
100
300
A
v1
2
岡本吉央 (電通大)
B
v3
Bの
利得行列
A
1
(v1 ) 2
(2,2)
600
100
これを展開形ゲームの標準化と呼ぶことがある
.
B
v2
1
1
(200, 400)
2
(600, 300)
1
(300, 600)
2
(100, 200)
B (v2 , v3 )
(1,2) (2,1)
400
300
200
600
(1,1)
400
600
これを展開形ゲームの標準化と呼ぶことがある
離散最適化基礎論 (6)
2012 年 11 月 9 日
33 / 57
.
岡本吉央 (電通大)
展開形ゲームにおける混合戦略と行動戦略
離散最適化基礎論 (6)
A
v1
2
B
v3
(A, B)
(200, 400)
1
2
(600, 300)
1
(300, 600)
2
(100, 200)
B
v2
1
A
v1
2
B
v3
u
Aの
利得行列
A
1
(v1 ) 2
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
35 / 57
.
岡本吉央 (電通大)
High
R
2
v3
F
0
v0
(1/2)
1
v2
R
2
v4
P
F
(1/2)
(1, -1)
(-2, 2)
1の
期待利得行列
(P, P)
1
(P, R)
(v1 , v2 ) (R, P)
(R, R)
2 (u)
P
0
−1/2
1/2
0
High
F
0
1
0
1
岡本吉央 (電通大)
1
(300, 600)
2
(100, 200)
(1/2)
(1, -1)
離散最適化基礎論 (6)
2012 年 11 月 9 日
R
2
v3
2012 年 11 月 9 日
37 / 57
.
P
(2, -2)
F
(1, -1)
P
(-2, 2)
F
(1, -1)
2の
期待利得行列
(P, P)
1
(P, R)
(v1 , v2 ) (R, P)
(R, R)
1
v2
R
2
v4
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
展開形ゲームにおける混合戦略は，この表現における混合戦略
各情報集合における純粋戦略上の確率分布を集めたもの
High
1
v1
R
0
v0
(1, -1)
2
v3
P
(2, -2)
F
(1, -1)
u
Low
(1/2)
1
v2
R
2
v4
P
F
P
岡本吉央 (電通大)
(-2, 2)
1の
期待利得行列
(P, P)
1
(P, R)
(v1 , v2 ) (R, P)
(R, R)
2 (u)
P
0
−1/2
1/2
0
1/2
(1, -1)
P
1
(1/2)
(2, -2)
P
v1
1/3
2
High
R
1/2 v3
2/3
(1, -1)
F
0
u
v0
(-2, 2)
P
1/4 2
1/3
Low
R
v4
2/3
1
(1/2)
(1, -1)
F
v2
(-1, 1)
P
3/4
F
0
1
0
1
(1, -1)
(-1, 1)
離散最適化基礎論 (6)
38 / 57
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームにおける行動戦略
(1/2)
2 (u)
P
F
0
0
1/2 −1
−1/2 0
0
−1
(-1, 1)
展開形ゲームにおける混合戦略
P
36 / 57
(1, -1)
P
P
離散最適化基礎論 (6)
B (u)
1
2
400 300
600 200
u
Low
展開形ゲームにおける混合戦略と行動戦略
.
1
v1
0
v0
(-1, 1)
P
(600, 300)
展開形ゲームにおける混合戦略と行動戦略
(2, -2)
u
Low
.
P
2
展開形ゲームを戦略形ゲームとして表現する — カードゲーム (2)
(1, -1)
P
(200, 400)
Bの
利得行列
A
1
(v1 ) 2
B (u)
1
2
200 600
300 100
展開形ゲームにおける混合戦略と行動戦略
1
v1
1
u
展開形ゲームを戦略形ゲームとして表現する — カードゲーム (1)
(1/2)
34 / 57
展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 Part 2 (2)
(A, B)
B
v2
2012 年 11 月 9 日
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 Part 2 (1)
1
(2,2)
300
200
2012 年 11 月 9 日
39 / 57
.
岡本吉央 (電通大)
▶
Pr[v1 で 1 が P を選択] = 1/2
▶
Pr[v1 で 1 が R を選択] = 1/2
▶
Pr[v2 で 1 が P を選択] = 3/4
▶
Pr[v2 で 1 が R を選択] = 1/4
▶
Pr[u で 2 が P を選択] = 1/3
▶
Pr[u で 2 が F を選択] = 2/3
離散最適化基礎論 (6)
2012 年 11 月 9 日
40 / 57
.
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームにおける混合戦略と行動戦略
混合戦略から行動戦略を作る
行動戦略から混合戦略を作る
▶
1/2
(1, -1)
P
1
(1/2)
(2, -2)
P
v1
1/3
2
High
R
1/2 v3
2/3
(1, -1)
F
0
u
v0
(-2, 2)
P
1/4 2
1/3
Low
R
v4
2/3
1
(1/2)
(1, -1)
F
v2
(-1, 1)
P
3/4
▶
▶
▶
Pr[1 が (P,P) を選択]
= Pr[v1 で 1 が P] · Pr[v2 で 1 が P]
= 12 · 34 = 83
岡本吉央 (電通大)
High
Pr[1 が (P,R) を選択]
= Pr[v1 で 1 が P] · Pr[v2 で 1 が R]
= 12 · 14 = 81
+
3
8
+
1
8
離散最適化基礎論 (6)
Low
(1/2)
2012 年 11 月 9 日
41 / 57
.
1
U
v4
u2
1
D
v5
戦略形ゲームに変換したとき
U
▶
D
U
1
v2
2
R
v4
P
(-2, 2)
F
(1, -1)
▶
Pr[v1 で 1 が R] =
Pr[1 が (R,P)] + Pr[1 が (R,R)]
▶
Pr[v2 で 1 が P] =
Pr[1 が (P,P)] + Pr[1 が (R,P)]
▶
Pr[v2 で 1 が R] =
Pr[1 が (P,R)] + Pr[1 が (R,R)]
(-1, 1)
離散最適化基礎論 (6)
2012 年 11 月 9 日
42 / 57
1 U
U
v6 D
D 2
u3
v3
1 U
D
v7 D
▶
混合戦略：pXYZ = Pr[1 が v1 で X，u2 で Y，u3 で Z を選択] とする
プレイヤー 1 の戦略：
(v1 , u2 , u3 ) として 8 つ
▶
D
岡本吉央 (電通大)
1 U
U
v4 D
2
u2
1 U
U v2
D
v5 D
1
u1
v1
1 U
U
v6 D
D 2
u3
v3
1 U
D
v7 D
(U, U, U), (U, U, D), (U, D, U),
(U, D, D), (D, U, U), (D, U, D),
(D, D, U), (D, D, D)
プレイヤー 2 の戦略：
u1 において 2 つ
▶
U, D
離散最適化基礎論 (6)
2012 年 11 月 9 日
43 / 57
.
1
U
v4
u2
1
D
v5
U
D
U
1 U
U
v6 D
D 2
u3
v3
1 U
D
v7 D
岡本吉央 (電通大)
▶
pUUD = Pr[v1 で 1 が U] · Pr[u2 で 1 が U]
· Pr[u3 で 1 が D]
▶
...
▶
pDDD = Pr[v1 で 1 が D] · Pr[u2 で 1 が D]
· Pr[u3 で 1 が D]
離散最適化基礎論 (6)
▶
Pr[v1 で 1 が D]
= pDUU + pDUD + pDDU + pDDD
▶
離散最適化基礎論 (6)
2012 年 11 月 9 日
44 / 57
展開形ゲームにおける混合戦略と行動戦略
pUUU = Pr[v1 で 1 が U] · Pr[u2 で 1 が U]
· Pr[u3 で 1 が U]
D
Pr[v1 で 1 が U]
= pUUU + pUUD + pUDU + pUDD
混合戦略と行動戦略
▶
u1
▶
Pr[u2 で 1 が U]
pUUU + pUUD
=
pUUU + pUUD + pUDU + pUDD
▶ Pr[u2 で 1 が D]
pUDU + pUDD
=
pUUU + pUUD + pUDU + pUDD
pDUU + pDDU
Pr[u3 で 1 が U] =
pDUU + pDUD + pDDU + pDDD
pDUD + pDDD
Pr[u3 で 1 が D] =
pDUU + pDUD + pDDU + pDDD
岡本吉央 (電通大)
展開形ゲームにおける混合戦略と行動戦略
別の例：行動戦略から混合戦略へ
.
(1, -1)
Pr[v1 で 1 が P] =
Pr[1 が (P,P)] + Pr[1 が (P,R)]
展開形ゲームにおける混合戦略と行動戦略
▶
1
v1
F
▶
別の例：混合戦略から行動戦略へ
u1
2
U v2
(2, -2)
岡本吉央 (電通大)
▶
.
P
=1
展開形ゲームにおける混合戦略と行動戦略
1
v1
(1, -1)
2
R
v3
P
別の例
2
U v2
P
u
Pr[1 が (R,R) を選択]
= Pr[v1 で 1 が R] · Pr[v2 で 1 が R]
= 12 · 14 = 81
1
8
1
v1
0
v0
Pr[1 が (R,P) を選択]
= Pr[v1 で 1 が R] · Pr[v2 で 1 が P]
= 21 · 34 = 83
確認： 38 +
.
(1/2)
2012 年 11 月 9 日
45 / 57
完全記憶展開形ゲームにおいては
▶
任意の混合戦略に対して，ある行動戦略が存在して
それらの与える期待利得は等しい
▶
任意の行動戦略に対して，ある混合戦略が存在して
それらの与える期待利得は等しい
(Kuhn ’53)
.
展開形ゲームにおける混合戦略と行動戦略
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
46 / 57
展開形ゲームにおける混合戦略と行動戦略
展開形ゲームにおける均衡
補足：戦略形ゲームから展開形ゲーム
2 つの均衡概念
▶
混合ナッシュ均衡：展開形ゲームの標準化に対する混合ナッシュ均衡
▶
行動戦略でのナッシュ均衡：行動戦略でナッシュ均衡となるもの
.
行動戦略でのナッシュ均衡とは？
.
任意のプレイヤー i の任意の情報集合 u における行動戦略を
.変化させても，プレイヤー i の得られる利得が大きくならない (∀ i ∈ N)
.
前のスライドの Kuhn ’53 の結果の帰結
.
完全記憶ゲーム展開形ゲームでは，
混合ナッシュ均衡と行動戦略でのナッシュ均衡が一致
.(特に行動戦略でのナッシュ均衡が存在)
男性の
利得行列
S
男性
C
女性
S C
2 0
0 1
女性の
利得行列
S
男性
C
女性
S C
1 0
0 2
(M, W)
S
W
v2
M
v1
C
W
v3
u
S
(2, 1)
C
(0, 0)
S
(0, 0)
C
(1, 2)
完全記憶ゲームでない場合は，成り立たないかもしれない
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
47 / 57
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
48 / 57
.
完全情報展開形ゲームと後ろ向き帰納法
完全情報展開形ゲームと後ろ向き帰納法
完全情報展開形ゲームのナッシュ均衡
目次
展開形ゲームとは？
.
目標
.
.完全情報展開形ゲームのナッシュ均衡を計算する
2.
展開形ゲームにおける混合戦略と行動戦略
.
手法
.
.後ろ向き帰納法 (backward induction)
3.
完全情報展開形ゲームと後ろ向き帰納法
1.
特徴
4.
▶
「ボトムアップ」な手法
▶
純粋ナッシュ均衡を発見
▶
計算量がゲーム木の大きさに対する線形時間
今日のまとめ
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
49 / 57
.
岡本吉央 (電通大)
完全情報展開形ゲームと後ろ向き帰納法
離散最適化基礎論 (6)
例2
ナッシュ均衡は？ (プレイヤーの数 = 1)
ナッシュ均衡は？ (プレイヤーの数 = 2)
U
D
50 / 57
完全情報展開形ゲームと後ろ向き帰納法
例1
1
v1
2012 年 11 月 9 日
30
10
2 U
v2 D
(4,2)
2 U
D
v3 D
(1,4)
U
1
v1
v1 で 1 は U を選び，受け取る利得は 30
(3,3)
(2,3)
v1 で 1 は U を選び，v2 で 2 は D を選び，v3 で 2 は U を選ぶ
受け取る利得は，プレイヤー 1 が 3，プレイヤー 2 が 3
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
51 / 57
.
岡本吉央 (電通大)
完全情報展開形ゲームと後ろ向き帰納法
離散最適化基礎論 (6)
後ろ向き帰納法 (backward induction)
ナッシュ均衡は？ (プレイヤーの数 = 2)，偶然手番あり
1
v1
(1/2) 2 U
U
v4 D
0
2 U
U v2
D
(1/2)v5 D
(4,2)
(1/2) 2 U
U
v6 D
D 0
v3
2 U
D
(1/2)v7 D
(6,3)
(3,3)
(1,4)
1
葉に近い部分ゲームから順に (純粋) 最適反応を計算
2
部分ゲームをその最適反応が与える利得に置き換え
3
順に根に近い部分ゲームの (純粋) 最適反応を計算
4
最終的にすべての内部頂点における戦略の選択が決定
(2,3)
岡本吉央 (電通大)
離散最適化基礎論 (6)
(1,4)
(2,4)
1
v1
(3,3)
2012 年 11 月 9 日
53 / 57
.
(4,2)
2 U
D
(1/2)v5 D
(1,4)
(1/2) 2 U
U
v6 D
D 0
v3
2 U
D
(1/2)v7 D
(6,3)
岡本吉央 (電通大)
今日のまとめ
(3,3)
(2,3)
(1,4)
(2,4)
(3,3)
離散最適化基礎論 (6)
2012 年 11 月 9 日
54 / 57
今日のまとめ
目次
今日のまとめ
.
今日やったこと
.
展開形ゲームが何であるのか，理解する
展開形ゲームとは？
2.
展開形ゲームにおける混合戦略と行動戦略
3.
完全情報展開形ゲームと後ろ向き帰納法
4.
今日のまとめ
.
岡本吉央 (電通大)
離散最適化基礎論 (6)
▶
展開形ゲームの構成要素
▶
混合戦略と行動戦略
▶
完全情報展開形ゲームのナッシュ均衡計算法
.
次回と次々回
.
▶ 展開形ゲームにおける情報構造がナッシュ均衡に与える影響を見る
.
.
(1/2) 2 U
U
v4 D
0
U v2
v1 で 1 は U を選び，v4 で 2 は D を選び，v5 で 2 は U を選び，
v6 で 2 は D を選び，v7 で 2 は U を選ぶ
受け取る期待利得は，プレイヤー 1 が 2，プレイヤー 2 が 7/2
1.
52 / 57
完全情報展開形ゲームと後ろ向き帰納法
例3
.
2012 年 11 月 9 日
2012 年 11 月 9 日
55 / 57
.
▶
2 人完全記憶展開形ゲームにおけるナッシュ均衡の計算法を考える
岡本吉央 (電通大)
離散最適化基礎論 (6)
2012 年 11 月 9 日
56 / 57

Download Report