ポイントを買うソフトウェア

囚人のジレンマ
解説
要約:「囚人のジレンマ」とは、二人のプレイヤが相手と協調するか、あるいは、協調しないかを選択し、
その結果ポイントを得ていくゲームである。プレイヤのポイントは二人の選択の結果で変わる。二人が協調
した場合は二人が協調しなかった場合よりも大きなポイントが得られる。しかし一方が非協調の手を選択し、
もう一方が協調の手を選択した場合、非協調の手を選択したプレイヤのポイントは、協調の手を選択したプ
レイヤよりも大きい。
このゲームは国家間の軍備拡張競争や賃金や労働条件に関する労使交渉、恋人と週末に観る映画を決めて
いる場面といった様々な社会的状況に共通する性質をとらえている。
囚人のジレンマ:数学者の A. W. Tucker はいろいろなゲームを数学的に分類し、あるグループに「囚人のジ
レンマ」という名前をつけた。Luce and Raiffa (1957) は、この名前の由来となった「囚人のジレンマ」と
はどういう状況なのかを次のように説明している。
二人の囚人が引き離されて拘置所に入れられている。検事は二人の有罪を確信しているのだが十分な証
拠がない。そこで囚人に二つの選択肢を示すことにした:(1) 容疑を認めて自白するか、それとも (2)
容疑を認めず自白しないか。さらに、以下のように伝えた。
「二人とも自白しない場合は微罪で起訴される。二人とも自白すれば最も厳しい刑よりは軽い刑で起訴
される。しかし一方が自白しもう一方が自白しない場合、自白した方は最も軽い刑で起訴となるが、自
白しなかった方は最も厳しい刑で起訴される」
囚人は自白せずにいるべきだろうか、それとも自白すべきだろうか。共犯者が自白しないと確信できるな
ら自白しないほうがよい。だが共犯者を信頼できないなら、あるいは自分の刑を最小にしたいと思うなら自
白すべきだ。
囚人のジレンマゲーム(Prisoner’s dilemma game; PDG)は、上の状況だけではなく、もっといろいろな状
況にあてはまる数学モデルである。社会科学(社会学、政治学、経済学、心理学)の研究者はもちろん、生
物学者も PDG を用いた研究を行っている。
ゲーム(利得行列):この演習では人間ではなくコンピュータプログラムと対戦する。プログラムはあらか
じめ用意されている 4 つの戦略(strategy;ストラテジー)のどれかに従ったプレイをする。
各ラウンドで「利得行列(payoff matrix;ペイオフマトリクス)」とよばれる図が示される。利得行列は、
選択された手の組み合わせに応じてプレイヤが得るポイントを示している。協調する場合は"X"を選択する。
相手を裏切る(defect)あるいは協調しない場合は"Y"を選択する。利得行列の各セルに示されている()内の
2 つの数字のうち、最初の数はあなたのポイント、2 番目の数は相手のポイントである。演習では、できるだ
けたくさんのポイントを得るようにしなければならない。
演習のゲームは拘置所の囚人のジレンマと基本的な状況は同じである。協調の手は「自白しないこと」、
裏切りの手は「自白すること」に対応する。刑期を短くする代わりに多くの「ポイント」を稼ぐ。
相手
あ
X
Y
な
X
(3\3) (0\5)
た
Y
(5\0) (1\1)
図1
演習に使用された利得行列
個人合理性と協調:上の利得行列には 2 つの選択肢がある:協調する手(X)と裏切りの手(Y)である。どちら
を選ぶべきだろうか。まず相手が協調している(X を選択している)と仮定しよう。この場合、自分にとって
最良の選択は、協調すること(3 ポイント)ではなく裏切ることである(Y 行 X 列の 5 ポイント)。相手が裏切っ
ていると仮定しても、協調する手(0 ポイント)より裏切りの手(1 ポイント)の方がよい。このように考えると
1 ラウンドだけのゲームなら、相手の手に関わらず自分は裏切りの手を選ぶべきだということになる。相手
も個人の合理性に従って選択するとしたら、両者ともが裏切りの手をとることになる。
1ラウンドでなく何ラウンドも繰り返されるゲームは、繰り返しのある PDG(iterated PDG)とよばれる。
繰り返しのある PDG では、相手が常に協調し、こちらが常に裏切る場合が最高の結果になる。だが、そんな
プレイをする相手はいない。では、どのような戦略がよいのだろう。
両者にとって最良の結果はお互いが協調することである。そうすれば両者のポイントの合計は最大になる。
だが個人の利得をみると、協調した場合に得られるポイントは相手を裏切った場合のポイントほど高くはな
い。このように協調とは、各個人が全体の利得を考慮し、もっと獲得できるかもしれない利得を我慢できる
かという問題に関係している。
3 人以上が関わるジレンマ状況は「共有地の悲劇」(Hardin, 1968)とよばれる。村民の誰でも自由に牛を
放牧できる共有地があるとしよう。だが村民が自分の利益のため限度を超えて牛の数を増やしすぎると共有
地の牧草は食べつくされてしまう。では実際、共有地はどうなるだろうか。村民は協調できるだろうか。
PDG の例:冷戦中にアメリカ合衆国とソビエト連邦との間で行われていた軍拡競争を考えよう。両陣営が軍
備拡充を行なうと、そのために負担しなければならないコスト(軍事費)は大変大きい。両陣営が軍備拡充
をしないと合意し協調できれば、両者ともに軍事費を削減して経済的な利益を得る。しかし一方が軍備を拡
充したのにもう一方が拡充しない場合に衝突がおきると、拡充しなかった陣営は壊滅的な状況となる。
夕食にレストランへ出かけようと話し合っている場合を考えよう。あなたは中華レストランを、友人はイ
タリアンレストランを望んでいるとしよう。そして、あなたはピザを、友人は中華料理を嫌いとしよう。も
し両者が自分の提案を主張しつづけると、あなたたちはレストランを決められず、結局外出できなくなって
しまう。一方が相手の提案に仕方なく賛成したとしよう。このとき一方は一番好きな料理を食べられるが、
他方は嫌いな食事をすることになる。二人は協調し二人ともが好きな食事のレストランにすればよい。各人
からすれば一番好きな食事ではないが、両者ともが好きな食事となる。
経営者と労働組合の間で行われる労使交渉は繰り返しのある PDG の例である。両陣営はお互いに妥協点を
見いだして協調するか、あるいは、どちらかの陣営が提示案を受け入れられないと主張する。両陣営が協調
できれば会社が発展し双方の利益となる。一方、自分たちの利益のみを主張するとリスクもある。たとえば
経営者側が妥協しなければ組合はストライキが起こすだろう。しかし組合が妥協せずにストライキを続ける
と、会社そのものが倒産してしまうかもしれない。
Axelrod (1984)は、第一次世界大戦中の英国軍とドイツ軍との間に自然発生した「友情なき協調」を紹介
している。両軍には強い戦闘命令を届いていた。だが、もし一方が積極的な軍事行動にでれば、相手から激
しく報復され、ついにはお互いが全滅してしまう。戦闘を繰り返しているうちに、やがてとてもうまい攻撃
作戦ができあがっていった。その「他者を生かして自分を生かせ(live and let live)」作戦を、兵士が次の
ように表現している。
「敵がいる塹壕の後ろの(敵のいない)道を砲撃するんだ。子供だましみたいなものだ。塹壕にはワゴ
ンや水補給の車両がひしめいている。砲撃は塹壕を血まみれにしているはずだった。しかし砲撃しても
特に何も起こらず静かなままだった。敵からの砲撃を少なくしたいなら方法は簡単:こちらの砲撃を少
なくしてやればいい」(Hay, 1916, pp.224-225, Axelrod, 1984 で引用)
コピー可能な商品を買うかどうかという問題も PDG の例である(たとえば、教科書、CD、コンピュータソ
フトウェアなど)。コンピュータソフトウェアの場合を考えよう。ユーザが協調してソフトウェアを購入し、
製造者も協調して価格を低く設定すれば、多くの人が自分では作ることのできない素晴らしいプログラムを
利用できる。しかしコピーを利用する人が多くなってしまうと、製品の価格があがってしまうかもしれない。
十分な利益があがらないと会社は販売をやめるかもしれない。こうなるとみんなが負けである。
実験の目的:繰り返しのある PDG ではどんな戦略が有効なのか。このゲームでは自分が同じ戦略をとってい
ても、相手がどんなプレイをするかによって獲得得点が変化する。そこで代表的な 4 戦略をとりあげ、実際
に様々なプレイヤと対戦し獲得した得点を比較し、戦略の有効性を比較する。Axelrod らをはじめとする
様々な研究から、この実験の仮説は「しっぺ返し戦略(TFT)が有効」である。
実験は、こんな構造になっている。
変化させる変数:戦略(グラフのX軸、表の項目)
観測される変数:獲得得点(グラフのY軸)、人間プレイヤに対する勝敗(表の値)
実験者が変化させている変数を独立変数、観測(測定)される変数を従属変数とよぶ。実験結果とは、独立
変数の値によって従属変数の値に差がみられるかどうかを判断し、仮説が支持されたかどうかを判定するま
でをいう。そのためには統計的な推論(検定)が必要になる。まずはグラフや表を作ってデータを見てみよ
う。
心理学実験にはいくつかの基本パターンがある。パターンに基づいて、自分の調べたいことや明らかにし
たいことを確かめるオリジナル実験を創りだすことを実験計画とよぶ。調べたいことを「仮説」へ、仮説を
判定するため「差をみる実験」(基本パターンの 1 つ)へと変えていくのに決まった方法はなく、創造的で
ある。
4つの戦略:どれも非常に有名な戦略です。
TIT-FOR-TAT(TFT);しっぺ返し戦略
 第1ラウンドは協調する手[X]をとります。
 第2ラウンド以降は、1つ前のラウンドで、あなたが協調したなら協調します。あなたが競争する
手[Y]をとったなら競争します。
 手だけを見ると、真似っこ戦略と同じですが、方針は違っています。
SUSPICIOUS TIT-FOR-TAT(STFT);疑い深いしっぺ返し戦略
 第1ラウンドは競争する手[Y]をとります。
 第2ラウンド以降は、1つ前のラウンドで、あなたが協調したなら協調します。あなたが競争する
手[Y]をとったなら競争します。
 要するに第1ラウンドを除けばTFTと同じです。
HARDBALL;強硬戦略
 ときどき協調する手[X]をとりますが、ほとんどすべてのラウンドで競争する手[Y]をとります。
CHANGE OF HEART;心がわり戦略
 第1ラウンドからしばらくの間は、競争する手[Y]をとりつづけます。
 そして、あるラウンドから協力する手[X]をとりつづけます。
グラフからはどの戦略が有効だろうか。勝敗表はどうだろう。また、なぜそのような結果になったのだろう
か。皆さんはプレイを通して 4 つの戦略を区別できただろうか。
参考文献
Axelrod, R. (1984). The evolution of cooperation. New York: Basic Books. 邦訳(松田裕之 訳): つき
あい方の科学-バクテリアから国際社会まで, HBJ 出版局, 1987.
(Axlerod は 70 年代に「(まとまった理論もなく)(実験のための実験であって)結局、何もわからなか
った」とまで総括されていた PDG 研究を新しい視点から復活させた。一般向け著作)
Davis,M.D.(1970). Game theory: A nontechnical introduction. New York: Basic Books. 邦訳(桐谷維 &
森克美 訳): ゲームの理論入門 チェスから核戦略まで, 講談社ブルーバックス, 1973.
(ゲーム理論の数学を平易に説明している入門書)
Hardin,G.(1968). The tragedy of the commons. Science, 162, 1243-1248.
(「共有地の悲劇」論文。この論文の前半部分は、将来(もう現代)に危惧される様々な地球規模の問題
を予見している。後半部分は Hardin が提案する解決策)
Hay,I.(1916). The first hundred thousand. London: Wm. Blackwood.
(第一次世界大戦の逸話は、Axelrod に取り上げられて、とても有名になった)
Luce, R. D. & Raiffa, H. (1957). Games and decisions. New York: Wiley.
(ゲーム理論の数学を扱った著作)
西本賢一 (1986) 勝つためのゲームの理論 適応戦略とは何か, 講談社ブルーバックス.
(Axelrod の一連の研究をわかりやすく説明している本。お薦め)
鈴木光男 (1970) 人間社会のゲーム理論, 講談社ブルーバックス.
(ゲーム理論を一般向けに紹介した日本で最初の本)
山岸俊男 (2000) 社会的ジレンマ, PHP 新書 117.
(1990 年代に北海道大学で行われた一連の研究を一般向けに紹介したもの。お薦め)
(出典:James S. J., Schneider, W. & Hinds, K. (1992). MEL LAB: Experiments in perception,
cognition, social psychology and human factors, 169-173, Psychology software tools. この授業向け
に翻訳、大幅に変更したもの)