. 概要 ゲームの種類 (第 1 回講義から) . ▶ 離散最適化基礎論 第 6 回 展開形ゲーム:基礎概念 . 非協力ゲーム (non-cooperative game) ▶ ▶ ▶ ▶ 岡本 吉央 [email protected] 協力ゲーム (cooperative game) ▶ ▶ ▶ 電気通信大学 戦略形ゲーム (strategic game) 展開形ゲーム (extensive game) ... 特性関数形ゲーム (characteristic function game) ... ... 2012 年 11 月 9 日 最終更新:2012 年 11 月 9 日 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 11:51 2012 年 11 月 9 日 1 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 概要 2012 年 11 月 9 日 4 / 57 目次 . 目標 . 展開形ゲームが何であるのか,理解する ▶ 展開形ゲームの構成要素 ▶ 混合戦略と行動戦略 ▶ 完全情報展開形ゲームのナッシュ均衡計算法 . 2 / 57 展開形ゲームとは? 概要 . 2012 年 11 月 9 日 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 3 / 57 . 1. 展開形ゲームとは? 2. 展開形ゲームにおける混合戦略と行動戦略 3. 完全情報展開形ゲームと後ろ向き帰納法 4. 今日のまとめ 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 展開形ゲームとは? 展開形ゲームが対象とする状況 例 1:将棋 ▶ プレイヤーが何人かいる ▶ 各プレイヤーはルールに従って順番に戦略を選択する ▶ 各プレイヤーには何度も戦略を選択する機会が与えられるかも しれない ▶ 各プレイヤーは他のプレイヤーの選んだ戦略を知っているかも しれないし,知らないかもしれない ▶ 各プレイヤーは自分が既に選んだ戦略を覚えていないかもしれない http://en.wikipedia.org/wiki/File:Shogi Ban Koma.jpg . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 5 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 例 2:コンビニ出店 — ゲーム木による表現 2 つのコンビニチェーン A と B が駅 1 と駅 2 のどちらに出店するか決める ▶ A は計画が進んでおり,あとはどちらに出店するか決めるのみ ▶ B は計画が遅れている ▶ B は A の出店を見た後で,どちらに出店するか決められる ▶ B は A の 2 倍の客を獲得できる ▶ 駅 1 でのコンビニ利用者数は 600 ▶ 駅 2 でのコンビニ利用者数は 300 岡本 吉央 (電通大) 6 / 57 展開形ゲームとは? 例 2:コンビニ出店 . 2012 年 11 月 9 日 離散最適化基礎論 (6) (A, B) 1 B v2 A v1 2 2012 年 11 月 9 日 7 / 57 . 岡本 吉央 (電通大) B v3 1 (200, 400) 2 (600, 300) 1 (300, 600) 2 (100, 200) 離散最適化基礎論 (6) 2012 年 11 月 9 日 8 / 57 . 展開形ゲームとは? 展開形ゲームとは? 例 3:コンビニ出店 (Part 2) — ゲーム木による表現 例 3:コンビニ出店 (Part 2) 2 つのコンビニチェーン A と B が駅 1 と駅 2 のどちらに出店するか決める ▶ A は計画が進んでおり,あとはどちらに出店するか決めるのみ ▶ B は計画が遅れている ▶ B は A の出店を見た後で,どちらに出店するか決められない ▶ B は A の 2 倍の客を獲得できる ▶ 駅 1 でのコンビニ利用者数は 600 ▶ 駅 2 でのコンビニ利用者数は 300 (A, B) B v2 1 A v1 2 B v3 1 (200, 400) 2 (600, 300) 1 (300, 600) 2 (100, 200) u . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 9 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 例 4:カードゲーム 2 人のプレイヤーで次のようなカードゲームを行う ▶ カードは 3 種類:High > Middle > Low (「>」はカードの強さ) ▶ プレイヤー 1 は確率 1/2 で High を,確率 1/2 で Low のカードを得る ▶ プレイヤー 2 は Middle のカードを確実に得る プレイヤーは自分のカードを得てから,以下の行動を選択する ▶ ▶ ▶ 10 / 57 展開形ゲームとは? 例 4:カードゲーム ▶ 2012 年 11 月 9 日 (1/2) High 1 v1 R 0 v0 プレイヤー 1 は 1 ドル賭けるか,2 ドル賭けるか申告する プレイヤー 1 が 1 ドル賭けた場合,プレイヤー 2 とすぐに勝負し, 負けた方が勝った方に 1 ドル払う プレイヤー 1 が 2 ドル賭けた場合,プレイヤー 2 は 1 ドル払って 降りるか,2 ドルで勝負するかを申告する 勝負の場合は負けた方が勝った方に 2 ドル払う (1, -1) P 2 v3 P (2, -2) F (1, -1) P (-2, 2) F (1, -1) u Low (1/2) 1 v2 R 2 v4 (-1, 1) P プレイヤー 0 は「自然」(nature) という仮想的プレイヤーで プレイヤーが操作できない偶然手番 (chance move) を司る . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 11 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 展開形ゲームの記述:ゲーム木 プレイヤーの集合を N で表す ▶ 通常はプレイヤー 1,プレイヤー 2 とプレイヤーを名づける ▶ プレイヤー 0 は「自然」 ゲームの進行を根つき木で表現する High 1 v1 2 v3 High (1, -1) Low (1/2) 1 v2 (-2, 2) (1/2) 1 v2 R 2 v4 P P (2, -2) F (1, -1) P (-2, 2) F (1, -1) (-1, 1) (1, -1) F P 2 v3 u Low P (1, -1) P R 0 v0 u 2 R v4 1 v1 (2, -2) P F 0 v0 (1/2) (1, -1) P R 12 / 57 展開形ゲームとは? 展開形ゲームの記述:プレイヤー (1/2) 2012 年 11 月 9 日 木の頂点集合 V (T ),内部頂点の集合 = {v0 , v1 , v2 , v3 , v4 } (-1, 1) N = {1, 2} . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 13 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 2012 年 11 月 9 日 展開形ゲームとは? 展開形ゲームの記述:戦略 展開形ゲームの記述:プレイヤー分割 根つき木の各内部ノードにプレイヤーの選択できる (純粋) 戦略が 与えられている 根つき木の各内部頂点にプレイヤーが 1 人割り当てられる (1/2) High 1 v1 0 v0 (1, -1) P R 2 v3 (1/2) P (2, -2) F (1, -1) u Low 1 (1/2) v2 R 2 v4 P P (-2, 2) F (1, -1) 14 / 57 High ▶ A(v0 ) = {High, Low} ▶ A(v1 ) = {P, R} ▶ A(v2 ) = {P, R} ▶ A(v3 ) = {P, F} Low ▶ A(v4 ) = {P, F} (1/2) 1 v1 R 0 v0 (1, -1) P 2 v3 P (2, -2) F (1, -1) u 1 v2 R 2 v4 P P (-2, 2) F (1, -1) ▶ P0 = {v0 } ▶ P1 = {v1 , v2 } ▶ P2 = {v3 , v4 } (-1, 1) (-1, 1) (純粋) 戦略の選択 1 つ 1 つが部分木に対応する . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 15 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 16 / 57 . 展開形ゲームとは? 展開形ゲームとは? 展開形ゲームの記述:情報分割 展開形ゲームの記述:偶然手番の確率分布 . プレイヤー i の情報集合 . プレイヤー i が割り当てられた内部頂点で, プレイヤー i が区別できないもの同士を集めたもの . 自然が割り当てられた内部頂点において各戦略が選ばれる確率 (1/2) High 1 v1 R 0 v0 (1, -1) P 2 v3 P (2, -2) F (1, -1) ▶ (1/2) Pr[自然が High を選択] = 1/2 u Low (1/2) 1 v2 Pr[自然が Low を選択] = 1/2 (-1, 1) (1, -1) P R 0 v0 (1, -1) F P ▶ (-2, 2) P 2 R v4 High 1 v1 2 v3 P (2, -2) F (1, -1) u Low (1/2) 1 v2 R 2 v4 P P (-2, 2) F (1, -1) ▶ U0 = {{v0 }} ▶ U1 = {{v1 }, {v2 }} ▶ U2 = {{v3 , v4 }} (-1, 1) プレイヤー i の情報分割とは,プレイヤー i の情報集合を全部集めたもの . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 17 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 展開形ゲームのルール 根つき木の葉にたどり着いたときに,各プレイヤーが受け取る利得 High 1 v1 1 2 3 (1, -1) P R 0 v0 2 v3 P (2, -2) F (1, -1) 根つき木の根からゲームを開始する 今いる頂点が葉 ⇒ そこの利得を各プレイヤーが受け取る 今いる頂点が内部頂点 ⇒ その頂点に割り当てられているプレイヤーが戦略を選択する 選択に従って部分木へ移動する 3. その部分木において再帰的にゲームをプレイする 1. 2. u Low (1/2) 1 v2 P 2 R v4 F (1/2) (-2, 2) High (1, -1) 1 v1 (1, -1) P R 0 v0 (-1, 1) P 2 v3 (1/2) 1 v2 R 2 v4 離散最適化基礎論 (6) 2012 年 11 月 9 日 19 / 57 . (2, -2) F (1, -1) P (-2, 2) F (1, -1) (-1, 1) P 岡本 吉央 (電通大) P u Low . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 2012 年 11 月 9 日 展開形ゲームの種類:完全情報ゲーム . 情報完備ゲーム (game with complete information) とは? . すべてのプレイヤーがプレイヤー集合,ゲーム木,戦略,プレイヤー 分割,偶然手番の確率分布,情報分割,利得関数,ゲームのルールを すべて知っている展開形ゲーム . . 完全情報ゲーム (game with perfect information) とは? . .すべての情報集合の要素数が 1 であるような展開形ゲーム (A, B) B v2 そうでないゲームは情報不完備ゲームと呼ばれる 1 A v1 2 ▶ ▶ 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 21 / 57 . B v3 岡本 吉央 (電通大) 2 (600, 300) 1 (300, 600) 2 (100, 200) 2012 年 11 月 9 日 22 / 57 2012 年 11 月 9 日 24 / 57 展開形ゲームとは? 1 2 B v3 2 完全記憶ゲームではない例 U 2 U v2 (A, B) 1 (200, 400) 離散最適化基礎論 (6) . 完全記憶ゲーム (game with perfect recall) とは? . 各プレイヤーが,自分のいままで選択した戦略をすべて覚えているような 展開形ゲーム . A v1 1 将棋は完全情報ゲーム 偶然手番があってもよい 展開形ゲームとは? 展開形ゲームの種類:完全記憶ゲーム B v2 20 / 57 展開形ゲームとは? 展開形ゲームの種類:情報完備ゲーム . 18 / 57 展開形ゲームとは? 展開形ゲームの記述:利得関数 (1/2) 2012 年 11 月 9 日 1 v1 (200, 400) (600, 300) 1 (300, 600) 2 (100, 200) 1 U v4 D 1 D v5 u1 u2 1 U v6 D 2 v3 1 D v7 U D U D U D u ▶ . 完全情報ゲームは完全記憶ゲーム 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 23 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) . 展開形ゲームとは? 展開形ゲームとは? 展開形ゲーム:形式的定義 — プレイヤー分割 展開形ゲーム:形式的定義 — ゲーム木 ▶ プレイヤーの集合 N = {1, 2, . . . , n} ▶ プレイヤー分割 (player partition) とは V (T ) − L(T ) の分割 {P0 , P1 , P2 , . . . , Pn } ゲーム木 (game tree) は根つき木 T ▶ ▶ 根つき木 (rooted tree) とは,根 (root) と呼ばれる特別な頂点を持つ 展開形ゲームでは根を初期頂点と呼ぶこともある ▶ T の頂点集合を V (T ) と書く ▶ ▶ 各頂点 v ∈ V (T ) から出る辺の集合を E (v ) と書く ▶ ▶ E (v ) = ∅ となる頂点 v ∈ V (T ) を T の葉 (leaf) と呼ぶ ▶ T の葉をすべて集めた集合を L(T ) と書く ▶ L(T ) の要素ではない T の頂点は T の内部頂点と呼ばれる . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 25 / 57 V (T ) − L(T ) = P0 ∪ P1 ∪ P2 ∪ · · · ∪ Pn ∀ i ̸= j: Pi ∩ Pj = ∅ ▶ Pi はプレイヤー i の手番をすべて集めた集合 ▶ P0 は偶然手番をすべて集めた集合 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 2012 年 11 月 9 日 展開形ゲームとは? 展開形ゲーム:形式的定義 — 情報分割 展開形ゲーム:形式的定義 — 戦略 プレイヤーの集合 N = {1, 2, . . . , n},プレイヤー分割 {P0 , P1 , . . . , Pn } ▶ プレイヤー i の情報分割 (information partition) とは Pi の分割 Ui プレイヤー i の情報集合 u ∈ Ui における戦略の集合を A(u) と書く ▶ ▶ ∪ Pi = u∈Ui u ∀ u ̸= u ′ ∈ Ui : u ∩ u ′ = ∅ ▶ ただし,∀ u ∈ Ui , ∀ v , v ′ ∈ u: |E (v )| = |E (v ′ )| ▶ 各 u ∈ Ui をプレイヤー i の情報集合 (information set) と呼ぶ ▶ 普通は,T の根から葉へ至る任意のパスと各情報集合は高々1 回し か交わらないと仮定 ▶ P0 に対するプレイヤー分割 U0 において, 「∀ u ∈ U0 : u0 の要素数は 1」であるとする . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 27 / 57 ▶ 各戦略 a ∈ A(u) と各頂点 v ∈ u に対して ちょうど 1 つの辺 ea ∈ E (v ) が対応する ▶ u においてプレイヤー i が戦略 a を選んだとき, ゲーム木において実際は v ∈ u にいるならば, ゲームは v から ea をたどって到達する部分木に移行する . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 展開形ゲームとは? 展開形ゲーム:形式的定義 — 利得関数 偶然手番 v ∈ P0 ,戦略集合 A({v }) ▶ 偶然手番 v における確率分布 pv : A({v }) → R 利得関数 f : L(T ) → RN ▶ 2012 年 11 月 9 日 28 / 57 展開形ゲームとは? 展開形ゲーム:形式的定義 — 偶然手番における確率分布 ▶ 26 / 57 ▶ ∀∑ a ∈ A({v }): pv (a) ≥ 0 pv (a) = 1 任意の v ∈ L(T ) と i ∈ N に対して f (v )i はゲームが v にたどりついたときプレイヤー i が受け取る利得 a∈A({v }) . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 29 / 57 . 展開形ゲームにおける混合戦略と行動戦略 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 30 / 57 展開形ゲームにおける混合戦略と行動戦略 目次 展開形ゲームにおける戦略は,各情報集合における選択の集まり 展開形ゲームにおける戦略は,各情報集合における選択の集まり 1. 展開形ゲームとは? (1/2) High 2. 3. 展開形ゲームにおける混合戦略と行動戦略 完全情報展開形ゲームと後ろ向き帰納法 Low . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 31 / 57 . 岡本 吉央 (電通大) 2 v3 P (2, -2) F (1, -1) P (-2, 2) F (1, -1) u 1 v2 R P 今日のまとめ (1, -1) P R 0 v0 (1/2) 4. 1 v1 2 v4 (-1, 1) 離散最適化基礎論 (6) 2012 年 11 月 9 日 32 / 57 . 展開形ゲームにおける混合戦略と行動戦略 展開形ゲームにおける混合戦略と行動戦略 展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 (2) 展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 (1) (A, B) B v2 1 A v1 2 B v3 Aの 利得行列 A 1 (v1 ) 2 (1,1) 200 300 (A, B) (200, 400) 1 2 (600, 300) 1 (300, 600) 2 (100, 200) B (v2 , v3 ) (1,2) (2,1) 200 600 100 300 A v1 2 岡本 吉央 (電通大) B v3 Bの 利得行列 A 1 (v1 ) 2 (2,2) 600 100 これを展開形ゲームの標準化と呼ぶことがある . B v2 1 1 (200, 400) 2 (600, 300) 1 (300, 600) 2 (100, 200) B (v2 , v3 ) (1,2) (2,1) 400 300 200 600 (1,1) 400 600 これを展開形ゲームの標準化と呼ぶことがある 離散最適化基礎論 (6) 2012 年 11 月 9 日 33 / 57 . 岡本 吉央 (電通大) 展開形ゲームにおける混合戦略と行動戦略 離散最適化基礎論 (6) A v1 2 B v3 (A, B) (200, 400) 1 2 (600, 300) 1 (300, 600) 2 (100, 200) B v2 1 A v1 2 B v3 u Aの 利得行列 A 1 (v1 ) 2 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 35 / 57 . 岡本 吉央 (電通大) High R 2 v3 F 0 v0 (1/2) 1 v2 R 2 v4 P F (1/2) (1, -1) (-2, 2) 1の 期待利得行列 (P, P) 1 (P, R) (v1 , v2 ) (R, P) (R, R) 2 (u) P 0 −1/2 1/2 0 High F 0 1 0 1 岡本 吉央 (電通大) 1 (300, 600) 2 (100, 200) (1/2) (1, -1) 離散最適化基礎論 (6) 2012 年 11 月 9 日 R 2 v3 2012 年 11 月 9 日 37 / 57 . P (2, -2) F (1, -1) P (-2, 2) F (1, -1) 2の 期待利得行列 (P, P) 1 (P, R) (v1 , v2 ) (R, P) (R, R) 1 v2 R 2 v4 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 展開形ゲームにおける混合戦略は,この表現における混合戦略 各情報集合における純粋戦略上の確率分布を集めたもの High 1 v1 R 0 v0 (1, -1) 2 v3 P (2, -2) F (1, -1) u Low (1/2) 1 v2 R 2 v4 P F P 岡本 吉央 (電通大) (-2, 2) 1の 期待利得行列 (P, P) 1 (P, R) (v1 , v2 ) (R, P) (R, R) 2 (u) P 0 −1/2 1/2 0 1/2 (1, -1) P 1 (1/2) (2, -2) P v1 1/3 2 High R 1/2 v3 2/3 (1, -1) F 0 u v0 (-2, 2) P 1/4 2 1/3 Low R v4 2/3 1 (1/2) (1, -1) F v2 (-1, 1) P 3/4 F 0 1 0 1 (1, -1) (-1, 1) 離散最適化基礎論 (6) 38 / 57 展開形ゲームにおける混合戦略と行動戦略 展開形ゲームにおける行動戦略 (1/2) 2 (u) P F 0 0 1/2 −1 −1/2 0 0 −1 (-1, 1) 展開形ゲームにおける混合戦略 P 36 / 57 (1, -1) P P 離散最適化基礎論 (6) B (u) 1 2 400 300 600 200 u Low 展開形ゲームにおける混合戦略と行動戦略 . 1 v1 0 v0 (-1, 1) P (600, 300) 展開形ゲームにおける混合戦略と行動戦略 (2, -2) u Low . P 2 展開形ゲームを戦略形ゲームとして表現する — カードゲーム (2) (1, -1) P (200, 400) Bの 利得行列 A 1 (v1 ) 2 B (u) 1 2 200 600 300 100 展開形ゲームにおける混合戦略と行動戦略 1 v1 1 u 展開形ゲームを戦略形ゲームとして表現する — カードゲーム (1) (1/2) 34 / 57 展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 Part 2 (2) (A, B) B v2 2012 年 11 月 9 日 展開形ゲームにおける混合戦略と行動戦略 展開形ゲームを戦略形ゲームとして表現する — コンビニ出店 Part 2 (1) 1 (2,2) 300 200 2012 年 11 月 9 日 39 / 57 . 岡本 吉央 (電通大) ▶ Pr[v1 で 1 が P を選択] = 1/2 ▶ Pr[v1 で 1 が R を選択] = 1/2 ▶ Pr[v2 で 1 が P を選択] = 3/4 ▶ Pr[v2 で 1 が R を選択] = 1/4 ▶ Pr[u で 2 が P を選択] = 1/3 ▶ Pr[u で 2 が F を選択] = 2/3 離散最適化基礎論 (6) 2012 年 11 月 9 日 40 / 57 . 展開形ゲームにおける混合戦略と行動戦略 展開形ゲームにおける混合戦略と行動戦略 混合戦略から行動戦略を作る 行動戦略から混合戦略を作る ▶ 1/2 (1, -1) P 1 (1/2) (2, -2) P v1 1/3 2 High R 1/2 v3 2/3 (1, -1) F 0 u v0 (-2, 2) P 1/4 2 1/3 Low R v4 2/3 1 (1/2) (1, -1) F v2 (-1, 1) P 3/4 ▶ ▶ ▶ Pr[1 が (P,P) を選択] = Pr[v1 で 1 が P] · Pr[v2 で 1 が P] = 12 · 34 = 83 岡本 吉央 (電通大) High Pr[1 が (P,R) を選択] = Pr[v1 で 1 が P] · Pr[v2 で 1 が R] = 12 · 14 = 81 + 3 8 + 1 8 離散最適化基礎論 (6) Low (1/2) 2012 年 11 月 9 日 41 / 57 . 1 U v4 u2 1 D v5 戦略形ゲームに変換したとき U ▶ D U 1 v2 2 R v4 P (-2, 2) F (1, -1) ▶ Pr[v1 で 1 が R] = Pr[1 が (R,P)] + Pr[1 が (R,R)] ▶ Pr[v2 で 1 が P] = Pr[1 が (P,P)] + Pr[1 が (R,P)] ▶ Pr[v2 で 1 が R] = Pr[1 が (P,R)] + Pr[1 が (R,R)] (-1, 1) 離散最適化基礎論 (6) 2012 年 11 月 9 日 42 / 57 1 U U v6 D D 2 u3 v3 1 U D v7 D ▶ 混合戦略:pXYZ = Pr[1 が v1 で X,u2 で Y,u3 で Z を選択] とする プレイヤー 1 の戦略: (v1 , u2 , u3 ) として 8 つ ▶ D 岡本 吉央 (電通大) 1 U U v4 D 2 u2 1 U U v2 D v5 D 1 u1 v1 1 U U v6 D D 2 u3 v3 1 U D v7 D (U, U, U), (U, U, D), (U, D, U), (U, D, D), (D, U, U), (D, U, D), (D, D, U), (D, D, D) プレイヤー 2 の戦略: u1 において 2 つ ▶ U, D 離散最適化基礎論 (6) 2012 年 11 月 9 日 43 / 57 . 1 U v4 u2 1 D v5 U D U 1 U U v6 D D 2 u3 v3 1 U D v7 D 岡本 吉央 (電通大) ▶ pUUD = Pr[v1 で 1 が U] · Pr[u2 で 1 が U] · Pr[u3 で 1 が D] ▶ ... ▶ pDDD = Pr[v1 で 1 が D] · Pr[u2 で 1 が D] · Pr[u3 で 1 が D] 離散最適化基礎論 (6) ▶ Pr[v1 で 1 が D] = pDUU + pDUD + pDDU + pDDD ▶ 離散最適化基礎論 (6) 2012 年 11 月 9 日 44 / 57 展開形ゲームにおける混合戦略と行動戦略 pUUU = Pr[v1 で 1 が U] · Pr[u2 で 1 が U] · Pr[u3 で 1 が U] D Pr[v1 で 1 が U] = pUUU + pUUD + pUDU + pUDD 混合戦略と行動戦略 ▶ u1 ▶ Pr[u2 で 1 が U] pUUU + pUUD = pUUU + pUUD + pUDU + pUDD ▶ Pr[u2 で 1 が D] pUDU + pUDD = pUUU + pUUD + pUDU + pUDD pDUU + pDDU Pr[u3 で 1 が U] = pDUU + pDUD + pDDU + pDDD pDUD + pDDD Pr[u3 で 1 が D] = pDUU + pDUD + pDDU + pDDD 岡本 吉央 (電通大) 展開形ゲームにおける混合戦略と行動戦略 別の例:行動戦略から混合戦略へ . (1, -1) Pr[v1 で 1 が P] = Pr[1 が (P,P)] + Pr[1 が (P,R)] 展開形ゲームにおける混合戦略と行動戦略 ▶ 1 v1 F ▶ 別の例:混合戦略から行動戦略へ u1 2 U v2 (2, -2) 岡本 吉央 (電通大) ▶ . P =1 展開形ゲームにおける混合戦略と行動戦略 1 v1 (1, -1) 2 R v3 P 別の例 2 U v2 P u Pr[1 が (R,R) を選択] = Pr[v1 で 1 が R] · Pr[v2 で 1 が R] = 12 · 14 = 81 1 8 1 v1 0 v0 Pr[1 が (R,P) を選択] = Pr[v1 で 1 が R] · Pr[v2 で 1 が P] = 21 · 34 = 83 確認: 38 + . (1/2) 2012 年 11 月 9 日 45 / 57 完全記憶展開形ゲームにおいては ▶ 任意の混合戦略に対して,ある行動戦略が存在して それらの与える期待利得は等しい ▶ 任意の行動戦略に対して,ある混合戦略が存在して それらの与える期待利得は等しい (Kuhn ’53) . 展開形ゲームにおける混合戦略と行動戦略 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 46 / 57 展開形ゲームにおける混合戦略と行動戦略 展開形ゲームにおける均衡 補足:戦略形ゲームから展開形ゲーム 2 つの均衡概念 ▶ 混合ナッシュ均衡:展開形ゲームの標準化に対する混合ナッシュ均衡 ▶ 行動戦略でのナッシュ均衡:行動戦略でナッシュ均衡となるもの . 行動戦略でのナッシュ均衡とは? . 任意のプレイヤー i の任意の情報集合 u における行動戦略を .変化させても,プレイヤー i の得られる利得が大きくならない (∀ i ∈ N) . 前のスライドの Kuhn ’53 の結果の帰結 . 完全記憶ゲーム展開形ゲームでは, 混合ナッシュ均衡と行動戦略でのナッシュ均衡が一致 .(特に行動戦略でのナッシュ均衡が存在) 男性の 利得行列 S 男性 C 女性 S C 2 0 0 1 女性の 利得行列 S 男性 C 女性 S C 1 0 0 2 (M, W) S W v2 M v1 C W v3 u S (2, 1) C (0, 0) S (0, 0) C (1, 2) 完全記憶ゲームでない場合は,成り立たないかもしれない . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 47 / 57 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 48 / 57 . 完全情報展開形ゲームと後ろ向き帰納法 完全情報展開形ゲームと後ろ向き帰納法 完全情報展開形ゲームのナッシュ均衡 目次 展開形ゲームとは? . 目標 . .完全情報展開形ゲームのナッシュ均衡を計算する 2. 展開形ゲームにおける混合戦略と行動戦略 . 手法 . .後ろ向き帰納法 (backward induction) 3. 完全情報展開形ゲームと後ろ向き帰納法 1. 特徴 4. ▶ 「ボトムアップ」な手法 ▶ 純粋ナッシュ均衡を発見 ▶ 計算量がゲーム木の大きさに対する線形時間 今日のまとめ . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 49 / 57 . 岡本 吉央 (電通大) 完全情報展開形ゲームと後ろ向き帰納法 離散最適化基礎論 (6) 例2 ナッシュ均衡は? (プレイヤーの数 = 1) ナッシュ均衡は? (プレイヤーの数 = 2) U D 50 / 57 完全情報展開形ゲームと後ろ向き帰納法 例1 1 v1 2012 年 11 月 9 日 30 10 2 U v2 D (4,2) 2 U D v3 D (1,4) U 1 v1 v1 で 1 は U を選び,受け取る利得は 30 (3,3) (2,3) v1 で 1 は U を選び,v2 で 2 は D を選び,v3 で 2 は U を選ぶ 受け取る利得は,プレイヤー 1 が 3,プレイヤー 2 が 3 . 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 51 / 57 . 岡本 吉央 (電通大) 完全情報展開形ゲームと後ろ向き帰納法 離散最適化基礎論 (6) 後ろ向き帰納法 (backward induction) ナッシュ均衡は? (プレイヤーの数 = 2),偶然手番あり 1 v1 (1/2) 2 U U v4 D 0 2 U U v2 D (1/2)v5 D (4,2) (1/2) 2 U U v6 D D 0 v3 2 U D (1/2)v7 D (6,3) (3,3) (1,4) 1 葉に近い部分ゲームから順に (純粋) 最適反応を計算 2 部分ゲームをその最適反応が与える利得に置き換え 3 順に根に近い部分ゲームの (純粋) 最適反応を計算 4 最終的にすべての内部頂点における戦略の選択が決定 (2,3) 岡本 吉央 (電通大) 離散最適化基礎論 (6) (1,4) (2,4) 1 v1 (3,3) 2012 年 11 月 9 日 53 / 57 . (4,2) 2 U D (1/2)v5 D (1,4) (1/2) 2 U U v6 D D 0 v3 2 U D (1/2)v7 D (6,3) 岡本 吉央 (電通大) 今日のまとめ (3,3) (2,3) (1,4) (2,4) (3,3) 離散最適化基礎論 (6) 2012 年 11 月 9 日 54 / 57 今日のまとめ 目次 今日のまとめ . 今日やったこと . 展開形ゲームが何であるのか,理解する 展開形ゲームとは? 2. 展開形ゲームにおける混合戦略と行動戦略 3. 完全情報展開形ゲームと後ろ向き帰納法 4. 今日のまとめ . 岡本 吉央 (電通大) 離散最適化基礎論 (6) ▶ 展開形ゲームの構成要素 ▶ 混合戦略と行動戦略 ▶ 完全情報展開形ゲームのナッシュ均衡計算法 . 次回と次々回 . ▶ 展開形ゲームにおける情報構造がナッシュ均衡に与える影響を見る . . (1/2) 2 U U v4 D 0 U v2 v1 で 1 は U を選び,v4 で 2 は D を選び,v5 で 2 は U を選び, v6 で 2 は D を選び,v7 で 2 は U を選ぶ 受け取る期待利得は,プレイヤー 1 が 2,プレイヤー 2 が 7/2 1. 52 / 57 完全情報展開形ゲームと後ろ向き帰納法 例3 . 2012 年 11 月 9 日 2012 年 11 月 9 日 55 / 57 . ▶ 2 人完全記憶展開形ゲームにおけるナッシュ均衡の計算法を考える 岡本 吉央 (電通大) 離散最適化基礎論 (6) 2012 年 11 月 9 日 56 / 57
© Copyright 2025 Paperzz