5.ゲーム理論

ミクロマクロ経済学Ⅰ
5.ゲーム理論
この章では,各経済主体の戦略均衡について考えてみましょう.4 章までとは違う言葉
が出てきますので,しっかりおさえておきましょう.ゲーム理論は,何人かの天才によっ
て生み出されました.本章では扱いませんが,ゲーム理論といえば「ミニマックス均衡」
の事を指していた時代がありました.ミニマックス均衡は,フォン・ノイマンとモルゲン
シュテルンの『ゲームの理論と経済行動』で詳解されました.ノイマンは,ゲーム理論だ
けでなく,コンピュータや天気予報の理論も創りました.その後,ナッシュによってゲー
ム理論は発展しました.本章では,ナッシュ均衡についてみていきましょう.
ナッシュは数学を使って解説しましたが,その後「囚人のジレンマ」というストーリー
がつけられて,多くの人に知られるようになりました.
5−1.ナッシュ均衡
あなたと相棒は,銀行強盗の容疑をかけられています.2 人は,まったく
犯行を自供しないので,看守は一計を案じることにしました.
まず,2 人を別々の部屋に入れて相談ができないようにします.そうして,
2 人に同じ条件を提示します.そうして,
「相棒も同じ事をしている」と告げ
るのです.
さて,あなたはどうしますか?
あなたの戦略
看守が 2 人にみせたのは下表です.
相棒の戦略
黙秘
自白
黙秘
(3 年,3 年)
(10 年,1 年)
自白
(1 年,10 年)
(5 年,5 年)
ゲームに登場する「あなた」と「相棒」のことをプレーヤー,ゲームの得点を「利得」
といいます.プレーヤーと利得の組み合わせを表した表を「利得表」といいます.
表の横方向はあなたの戦略,縦方向は相棒の戦略です.表の数字は各プレーヤーの利得
(あなたの利得,相棒の利得)を表しています.あなたが黙秘,相棒が黙秘を選択すると,
組み合わせは左上になり,2 人とも懲役 3 年になります.同様に,あなたが黙秘,相棒が
自白を選択すると,組み合わせは右上になり,あなたは懲役 10 年,相棒は懲役 1 年になり
ます.
33
ミクロマクロ経済学Ⅰ
ゲームを進める上で,ゲームのルールが必要になります.
「 囚人のジレンマ」のルールは,
「各プレーヤーは,自己の利得が最大になるような戦略を選択する」というものです.ゲ
ームを解きながら,ルールも確認してみましょう.
相棒は別の部屋にいて,どの戦略を採るのか分かりませんので,どちらの戦略を採って
もいいように考えておきましょう.まず,相棒が黙秘した場合です.あなたが黙秘すると
(黙秘,黙秘)の組になり,あなたは懲役 3 年になります.反対に,自白すると(自白,
黙秘)の組になり,あなたは懲役 1 年になります.ということは,相棒が黙秘した場合に
は,あなたは自白したほうが得になります.
(自白,黙秘)の組に目印をつけておきましょ
う.
同様にして,相棒が自白した場合には,黙秘の 10 年と自白の 5 年を比べて,あなたは自
白を選ぶことになります.結局,相棒の戦略にかかわらず,あなたは自白を選びます.こ
のように,相手の戦略にかかわらず,自分の戦略が 1 つに決まることを「支配戦略」とい
います.
相棒も他の部屋で同じゲームをしています.相棒は,あなたが黙秘した場合と自白した
場合でそれぞれ戦略を決めています.利得表をみながら,相棒の戦略をみていってくださ
い.相棒も自白の支配戦略を持つことが分かります.
あなたと相棒の戦略をみた後には,利得表に目印が何個かついていますね.あなたの戦
略の目印と,相棒の戦略の目印の 2 つがついている組(自白,自白)があります.ここが,
「ゲームの解」で,このゲームの結論です.このルールの下でのゲームの解を「ナッシュ
均衡」とも言います.
CHECK
POINT
ナッシュ均衡は 1 つとは限りません.ナッシュ均衡が 2 つあるゲームもあります
し,ナッシュ均衡がないゲームもあります.ナッシュ均衡の数は,利得表によって
変わってきます.
CHECK
POINT
A の利得しか表示していない利得表もよくあります.このときの B の利得は,A
の利得にマイナスをつけるか,A の利得+B の利得=100 となっているかのどちら
かです.問題文に表記してあるので,チェックが必要です.
34
ミクロマクロ経済学Ⅰ
さて,囚人のジレンマをよくみてみましょう.このゲームの特徴は,ナッシュ均衡が望
ましい解ではないということです.ナッシュ均衡は,
(自白,自白)ですが,これは 2 人と
も懲役 5 年です.
(黙秘,黙秘)では,2 人とも懲役 3 年ですから,こちらのほうが望まし
いのに,ここには目印が 1 つもありません.経済学では「望ましい」ということを表す言
葉がいくつかありますが,その中でもよく使われる言葉に「パレート最適」というものが
あります.囚人のジレンマでは,2 人のプレーヤーはパレート最適に達することができま
せん.
囚人のジレンマは,さまざまなストーリーに応用されています.例えば,プレーヤーを
イスラエルとパレスチナにします.そうして,黙秘→和平,自白→戦闘として,懲役 3 年
を死者 3 万人というようにゲームを変えると,今の状況を表していることになります.
5−1.繰り返しゲーム
囚人のジレンマをみて,自分の考えとは違う,と感じる人も多いと思います.たとえ,
「各プレーヤーは,自己の利得が最大になるような戦略を選択する」というルールの下で
も,黙秘を選ぶ人が多いのではないでしょうか.これは,相棒として友人や家族など関係
の深い人を想定しているためです.囚人のジレンマであっても,相手と長期的な関係が続
く場合には,ゲームの解が変わることが知られています.そこで,次のゲームをみてみま
しょう.
新しいゲーム
B の戦略
A
の
戦
略
協調
裏切
協調
(3,3)
(0,5)
裏切
(5,0)
(1,1)
このゲームは,(裏切,裏切)がナッシュ均衡になり,囚人のジレンマを表しています.
1 回限りのゲームだと,
(裏切,裏切)でゲームが決着しますが,ゲームが繰り返し行われ
る場合には,どちらかが裏切ると相手との信頼関係が損なわれて(裏切,裏切)が続く可
能性が高くなります.そうすると,
(協調,協調)を選び続けたときよりも,合計利得(得
点)が少なくなってしまいます.
アクセルロッドは,繰り返しゲームの研究を行い,世界中からプログラムを募集して,
コンピュータにゲームをさせました.サッカーのようにリーグ戦を行い,得点順で成績を
つけたところ,2 つの大会で同じプログラムが優勝しました.
それは,「オウム返し戦略(しっぺ返し戦略)」とよばれるものです.これは,1 手目は
協調を選びます.その後は,相手の戦略を真似していくだけです.とても単純なプログラ
ムですが,このプログラムが優勝しています.
オウム返し戦略は,相手が協調し続けている限りは,自分も協調し続けます.しかし,
相手が裏切った場合には,自分も次に裏切って相手に罰を与えます.オウム返しと似た戦
35
ミクロマクロ経済学Ⅰ
略に「トリガー戦略」というものがありますが,これは,相手が 1 度でも裏切ると,その
次からゲームが終わるまでずっと裏切り続けます.これに対して,オウム返しでは,相手
が協調に戻ると,自分も次に協調に戻ります.オウム返しは,相手の裏切りには罰を与え
るものの,協調に戻ればそれを許す柔軟性を持っています.これが長期的な得点を高くす
るのです.
ここから,1 回限りのゲームでは,裏切りベースの戦略を採りますが,繰り返しゲーム
では協調ベースの戦略が有効であることが分かります.
§.授業で扱っていないトピック
ミニマックス均衡
混合戦略
ゲームの樹
サブゲーム
36