社会的学習と不確実性:進化シミュレーションおよび心理学実験による検討

社会的学習と不確実性:進化シミュレーションおよび心理学実験による検討
亀田 達也
中西 大輔
(北海道大学大学院文学研究科)
人間の社会行動を適応(adaptation)の視点から考えるとき,「不確実性をいかに低減するか」こ
そ,多くの場面に共通する根本問題であることがよく理解できる (cf. 亀田・村田, 2000).交換にお
ける不確実性(
Axelrod, 1984; 山岸, 1998),資源獲得における不確実性(
Kameda, Takezawa, &
Hastie, 2001; 竹澤・亀田, 1999)など,人が解決・低減しなければならない不確実性の例は枚挙
に暇がない.こうした不確実性を低減するために,さまざまな行動戦略,あるいはそれを体現した
社会規範が人間社会で安定して“進化”し得ることを,上に挙げた諸研究は理論的・経験的に明ら
かにしている.
本稿では,同様の観点から,適応戦略としての学習行動に注目する.不確実環境下で生物が
生き残るために,学習,すなわち情報獲得行動が必須であることは言うまでもない.情報獲得行
動は,環境の不確実性に対処する上で,おそらくもっとも有効な適応戦略の 1 つである.
さて,社会的動物としての人は,こうした情報獲得に際して,2 つの代表的な学習モードをもつ.
試行錯誤を通じた個人的学習と,他者の経験から学ぶ社会的学習(文化的学習)の 2 つである
(Boyd & Richerson, 1985).それでは,これら2 つの学習モードには,どのような関係があるのだろ
うか.両者は互いに干渉しない独立の関係にあるのか,それとも択一的な代替関係にあるのか.
人々が不確実環境下で 2 つの学習モードをどのように使い分けているかを知ることは,人間の情
報獲得行動を体系的に理解する上で極めて重要である.
本稿では,人類学のモデルを出発点に,進化ゲームを用いたコンピュータ・シミュレーションと
心理学実験により,以下の 2 点を理論的に検討する: ①2 つの学習モードがどのような関係にあ
るのか,②社会的学習における顕著な反応傾向である「多数派同調」がどのような適応的意味を
もつのか.
1. 人類学の視点
学習の問題は,文化の成立基盤を理論的に探ろうとする人類学においても中心的なテーマの
1 つである (e.g., Boyd & Richerson, 1985).文化が持続するためには,子世代が親世代の行動を
学習しなければならない(垂直・斜行伝達).同様に,同世代の者同士でも互いの行動を学びあう
必要がある(水平伝達).
Henrich & Boyd (1998)は,こうした文化(社会)的学習における特徴的な反応傾向として,同調
バイアス(conformity bias)に注目した.同調バイアスとは,「サンプルされた“文化的親”の間で最
も高頻度の行動をそのまま模倣する社会的学習戦略」と定義される.
例えば,ある個人が 5 人の“文化的親”をもつとしよう.このとき3 人の“親”が行動 A を,2 人の
“親”が行動 B を取っていたとする.ここで,同調バイアスの高い個人は,行動 A を確率 1.00 で採
択する.一方,同調バイアスのない個人は,行動 A を比例的に(つまり確率.60 で)しか採択しない.
すぐに気づくように,ここでの同調バイアスの定義は,社会心理学における多数派同調の定義と
基本的に同一である.
それでは,こうした多数派同調傾向(「同調バイアス」)は,社会的学習戦略として本当に有効
だろうか.Henrich & Boyd (1998)は,不確実環境における同調バイアスの適応価を,進化シミュレ
ーションにより検討している.本研究は Henrich & Boyd (1998)の批判的吟味から出発するので,
まず彼らのシミュレーションの概要を説明しよう.
Henrich & Boyd (1998)の進化シミュレーションは以下の 3 つの主要な特徴をもつ.
i) 個人が生存する環境の特性が時間的に変動し得る.従って,時点 t で適応的だった行動が時
点 t+1 で適応的とは限らない.
ii) 個人は自分のとるべき行動の決定にあたって,2 つの学習モードを利用できる.1 つは個人的
学習であり,現在の環境特性について自ら情報を収集する.もう1 つは前世代の“文化的親”の行
動を観察する社会的学習である.
iii) 個人的学習を通じて獲得した情報は最新(updated)のものだが,社会的学習を通じた情報は
古い(outdated)可能性がある.つまり,社会的学習は多くの場合に有用なものの,環境特性が時
間的に変動し得るため,得られる情報が古いケースがある.一方,個人的学習は,単独観察であ
る分,得られた情報の統計的信頼性が低いものの,少なくとも最新の環境情報を提供する.
ここでの問いは,変動する不確実環境の下で,多数派同調傾向が社会的学習戦略として有効
か否か,進化シミュレーションの言葉を使えば,多数派同調という行動形質が,安定的に進化し得
るかどうかである.図 1 に Henrich & Boyd (1998) のシミュレーション・アルゴリズムの概略を示し
た.
Henrich & Boyd (1998)のシミュレーションでは,こうした変動する不確実環境の下でも,多数派
同調傾向が安定して進化し得ることが示されている.社会的学習を通じて得られる情報が時に古
い(outdated)可能性があっても,“文化的親”たちの間でもっとも高頻度に見られる行動をそのまま
模倣する同調バイアスが,適応的な行動形質として自然選択されるのである.
Henrich & Boyd (1998)の知見は,人間に幅広く見られる多数派同調の適応的な基盤を明らか
にするという意味で極めて重要である.しかし,彼らの結論は本当に妥当だろうか.本稿では,彼
らのシミュレーションの前提に重要な問題が含まれていたことをまず指摘し,その点を改善した進
化シミュレーションを報告する.
2. 社会的学習における「ただ乗り問題」:チキンゲームの構造
図 1 に示したように,Henrich & Boyd (1998)のシミュレーションでは,各個人が社会的学習,個
図 1 Henrich & Boyd (1998)のアルゴリズムの概略
社会的学習の機会
ランダムにサンプルされた,“文化的親たち”(時点t
-1)の行動を各個人にフィードバック.
個人的学習の機会
現在(時点t
)
の環境特性に関する個人的学習.環境情報に含まれる統計的エラーのため個人的学習は不完全.
取るべき行動の決定
個人的学習,社会的学習に関するさまざまな“遺伝子”(e.g., 同調バイアス)に応じて,各個人は 2 つの学習機会か
ら得られた情報を統合し,行動を決定する.
自然淘汰
選ばれた行動の適応価(現在の環境特性への適合度)に応じて,行動を生み出した“遺伝子”に淘汰がかかる.
人的学習の 2 つのモードを共に利用することを前提としている.言い換えると,2 つの学習モードと
も無料で利用でき,コストの面で一方の利用が他方の利用を妨げることはない.この意味で両者
のモードは干渉しあわない独立の関係にある.しかし,学習にコストが掛からないとする前提,よ
り本質的には 2 つのモード間で学習コストが同じだとする前提は妥当だろうか.すぐに分かるよう
に,多くの現実場面では,試行錯誤を通じた個人的学習は社会的学習に比べてはるかにコストを
要する.
こうした学習コストの格差(個人的学習>社会的学習)は,以下のただ乗り問題を引き起こす.
集団内で,多くの他者がコストの掛かる個人的学習を行っている限り,自分は個人的学習を行
わず,他者の行動を社会的に模倣する方が得である.しかし,一方,多くの他者が個人的学習を
行わず社会的学習だけに依拠している状況では,自分は個人的学習を行った方が得である.す
なわち,個人的学習,社会的学習という 2 つの学習モードの間には,チキンゲーム(タカハトゲー
ム的な構造が存在する.
Maynard Smith (1982)が論じたタカハトゲームの例を思い出して頂きたい.集団内にタカ型個体
(闘争的戦略)が多すぎる場合には,ハト型個体(非闘争的持久戦略)がより利益を上げる.一方,
ハト型個体が多すぎる場合には,タカ型個体がより利益を上げる.その結果,タカ−ハトの比率は
集団内で一定の均衡に落ち着く.
これと全く同じ論理によって,不確実環境下の学習場面においても,人間は,社会的学習を中
心に行う者と,個人的学習を中心に行う者の 2 つに分かれるはずである.すなわち,社会的学習,
個人的学習という2 つのモードは二者択一的な代替関係にあり,それぞれを中心に行う人の比率
は,集団内でチキンゲーム(タカハトゲーム)型の均衡を見せるはずである.とすれば,社会的学
習戦略としての多数派同調傾向も,Henrich & Boyd (1998)の示した一義的なパターンよりも,もっ
と複雑な様相を見せるかもしれない.
以上の推論を検証するために,本研究では,Henrich & Boyd (1998)のアルゴリズムに学習コス
トの格差(個人的学習>社会的学習)を投入した,新たな進化シミュレーションを行った.本研究で
用いたアルゴリズムは,「個人的学習には余分のコストが掛かり,そのコストを嫌う者は個人的学
習をスキップできる」という点を除いて,図 1 に示したアルゴリズムと同一である.
3. 代表的なシミュレーション結果
3.1 均衡の発生
図 2 に,集団における,社会的学習者,個人的学習者の比率の時間的推移を示した.(a)は個
人的学習に掛かる余分なコストが相対的に低い場合であり,(b)は相対的に高い場合である.ここ
での社会的学習者とは,個人的学習コストを負担せず(個人的学習機会を利用せず),自分の行
動の決定にあたって,社会的学習機会だけを利用する者(ただ乗り者)を指す.一方,個人的学習
者とは,社会的学習機会に加え,個人的学習機会を利用する者(そのための学習コストを負担す
る者)を指す.
図 2 から分かるように,2 つの学習モードの利用者間で,チキンゲーム型の均衡が確かに生じ,
均衡比の位置は,個人的学習に掛かるコストの大きさに依存する(理論命題 1).
図2
社会的学習者,個人的学習者の集団内比率
(a) 個人的学習のコストが低い場合
比率
1
0.8
0.6
0.4
社会的学習者
個人的学習者
0.2
0
1
20000 40000 60000 80000 100000
世代
(b) 個人的学習のコストが高い場合
比率
1
社会的学習者
0.8
0.6
個人的学習者
0.4
0.2
0
1
20000 40000 60000 80000 100000
世代
3.2. 多数派同調バイアスの適応価
それでは,個人的学習コストの高低は,多数派同調傾向にどのような影響を与えるだろうか.
「同調バイアス」の“進化”パターンを,図 3 に示した.再び,(a)個人的学習にかかる余分なコスト
が相対的に低い場合,(b)相対的に高い場合である.
図 3 から分かるように,個人的学習に掛かるコストが低い場合には,多数派同調傾向が安定
して“進化”する.しかし,コストの上昇と共に,多数派同調バイアスの適応的意義は急速に低減
する(理論命題 2).
図3
多数派同調傾向の“進化”
同調バイアスの程度
(a) 個人的学習のコストが低い場合
1
0.8
社会的学習者
個人的学習者
0.6
0.4
0.2
0
1
20000
40000
60000
世代
80000 100000
同調バイアスの程度
(b) 個人的学習のコストが高い場合
1
0.8
0.6
社会的学習者
0.4
個人的学習者
0.2
0
1
20000
40000
60000
80000
100000
世代
以上論じたように,不確実環境における個人的学習,社会的学習の関係はチキンゲーム的な
ジレンマ構造を成す.この結果,集団のメンバーは個人的学習を中心に行う者,社会的学習を中
心に行う者の2 つのタイプに分かれ,両者は集団内で一定の均衡状態を形成することが進化ゲー
ムモデルから予測される.また,個人的学習に要するコストが増大するにつれて,多数派同調傾
向の適応価が急速に低下することが予測される.これらの予測は,集団における社会的影響過
程の性質を統合的に理解する上でも重要である.以下では,進化シミュレーションから導かれたこ
れら2 つの理論命題について実証的な検討を加える.
4. 実験的検討
ここでは,2 つの異なる学習モード (個人的学習,社会的学習) が経験を通じてどのように獲得
されるか,心理学実験により検討する.上述のモデルでは進化による戦略の定着を仮定したが,
それと基本的に同じプロセスが,個人の経験 (学習) を通じても同じように見られるのかを問題に
する.すなわち「適応的な学習戦略は個人の経験を通じて学習されるか」
という問題設定である.
4.1 方法
被験者 北海道大学の学生 246 名 (男性 157 名・女性 89 名).被験者は 1 人ずつ個室のブース
に入り,コンピュータ上に提示された実験課題 (「ウサギ当てゲーム」
) に回答した.被験者は 6 人
グループで実験に参加した.
実験課題 被験者は,2 つある穴のうち,どちらの穴にウサギが隠れているかをいくつかの情報
に基づいて判断する「ウサギ当てゲーム」に回答する.課題は全 60 試行提示し,被験者にはウサ
ギのいる穴を当てた回数に応じて報酬 (1 正解あたり 30 円) を現金で支払うと教示した.ウサギ
は基本的には前回と同じ穴に居着く性質を持っているが,0.1 の確率で試行ごとに穴を移動する.
そのため,必ずしも前回と同じ穴にいるとは限らない.
利用可能な情報獲得機会 被験者がウサギのいる穴を当てるために用いることのできる情報は,
2 種類ある.まず,①社会的学習の機会が与えられる.これは,同時に参加している他の 5 人のう
ち,3 人の前試行における判断をランダムに抽出して提示するものであり,全被験者が無条件でこ
の手がかりを利用することができる.さらに,被験者には②個人的学習の機会が与えられる.ここ
では,ウサギがある穴にいる可能性を3 種類の数値で表す統計的な手がかり (「発見機」) を,一
定のコスト (後述) を支払うことにより利用することができる.このように,いずれの情報も不確実
性が伴うという点で共通しており,さらにウサギが試行ごとに穴を移動する可能性があるため,被
験者の経験する環境は,変動する不確実環境であると言える.
フィードバック 各被験者には,5 試行ごとに,これまでに稼いだ報酬金額の値と正解数がフィー
ドバックされる.ここでは,同時に参加している全ての実験参加者の値が表示されるため,各被験
者は,自分が属するグループでどの程度「うまくやっているか」を自己評価することができる.
実験デザイン 「発見機」を利用する際に必要なコスト (=個人的学習のコスト) の高低で2 条件
を設けた.被験者は「発見機」を利用する際に,1 回あたりの正解報酬 30 円の中から,高コスト条
件では 15 円,低コスト条件では 5 円のコストをそれぞれ支払う必要がある.
以上まとめると,実験状況はほぼシミュレーションとパラレルになっており,被験者は,変動する
不確実環境(上の例では“ウサギ”が環境に相当する)において,無条件で与えられる他者の判断
(社会的学習機会) と,コストのかかる統計的な手がかり (個人的学習機会) をいかに効率的に
使うかという適応課題に直面する.しかも,メンバーの学習戦略の適応価は,他メンバーの学習
戦略の内容に動的に(ゲーム論的に)相互依存する.本実験では,「人がこのような変動する不確
実環境下で適応的な学習戦略を経験によって学習し得るのか」について個人的学習に掛かるコ
ストに高低の 2 条件を設け検討する.
4.2 結果
4.2.1 個人的学習者と社会的学習者の均衡
図4に各試行における個人的学習者 (「発見機」を利用した者) の平均集団内比率の時間的推
移を示した.本実験状況では個人的学習にコストが伴うため,他者が個人的学習によるコストを
嫌って社会的学習に依存するなら,自分はコストを支払って個人的学習に従事し,他者がコストを
支払って個人的学習に従事しているのならば,自分は社会的学習に依存する行動方略が優越す
る.直感的には,このような相互依存構造の下では,個人的学習者と社会的学習者の比率は,あ
たかも食物連鎖における捕食者と被捕食者の比率のように互いに増減を繰り返し,大きく振動す
るように思われる.
しかしながら,ここでは個人的学習者と社会的学習者が一定の比率で均衡するという,一見直
感と反するパタンが実際に得られている.集団内の個人的学習者の比率を従属変数とした,2 (個
人的学習コストの高低:被験者間)×6 (試行ブロック[10 試行ごとの 6 ブロックに分割]:被験者内)
の多変量分散分析を行ったところ,個人的学習コスト条件と試行ブロックの交互作用 (F(5, 1220)
図4 個人的学習者の平均集団内比率の推移
1
0.9
0.8
0.7
0.6
高コスト
0.5
低コスト
0.4
0.3
0.2
0.1
0
6
11
16
21
26
31
試行
36
41
46
51
56
=7.02, p<.001) が有意であった.以上は進化シミュレーションから導かれたチキンゲーム型均衡の
予測 (命題 1) を支持するものである.
それでは,このような均衡パタンは,どのように生じたのだろうか.均衡の生起パタンとして大きく
分けて 2 つの可能性が考えられる.完全に社会的学習に依存する個人と,完全に個人的学習に
依存する個人が集団内に混在する多型が生じている可能性と,状況に応じて各個人が学習モー
ドを切り替える混合戦略を採った結果として均衡が生じたとする可能性の 2 つである.いずれの説
明が妥当かを検証するため,発見機利用の頻度分布を検討した.頻度分布表は省略するが,分
布は,全く発見機を利用しないで社会的学習に依存する者と,個人的学習機会を積極的に利用
する者の 2 峰型の分布になっており,学習モードに個人差が生じるという前者の多型の可能性が
示唆された.
4.2.2 コストの高低と多数派同調バイアスの適応的意義
図 5, 図 6 に低コスト条件,高コスト条件それぞれにおける集団内平均正解者数の時間的推移
を示した.
図 5 から分かるように,低コスト条件では,集団内の平均正解率がほぼ安定して 5 割(6 人中 3
人)を上回っている.既に見たように,この条件では,個人的学習コストが相対的に低いため,ほ
ぼ半数のメンバーが環境情報を自ら獲得していた(図 4 参照).このため,集団には常に最新の環
境情報が注入され,変動する不確実環境下においても正解者(ウサギの最新の所在を正しく認識
できているもの)が多数派を形成する.当然,こうした社会状況では多数派同調バイアスは高い適
応価をもつ.
これに対して,図 6 に示したように,高コスト条件では集団内の平均正解率がしばしば 5 割を下
回っている.例えば,環境変動が起こった時点(図の矢印箇所)では,不正解者が集団内の多数
派を形成している場合がほとんどである.図 4 で見たように,個人的学習に伴う高いコストを避け
るため多くのメンバーが社会的学習のみに従事し最新の情報をモニターしないことの帰結である.
こうした社会状況では,当然,多数派同調バイアスの適応価は著しく低減する.
以上のパターンは,個人的学習に伴うコストが高くなるに従って,多数派同調バイアスの適応
的意義が低減するという理論命題 2 を支持している.
図5
集団内平均正解者数の時間的推移(低コスト条件)
6
3
é
é
0
é é
1
7
é
é
é
13
19
é
25
31
試行
37
43
49
55
é
é
図6
集団内平均正解者数の時間的推移(高コスト条件)
6
3
0
1
7
13
19
25
31
37
43
49
55
試行
5. 結語
社会的学習は人の社会性の基盤を考える上で極めて重要な問題でありながら,これまで,いく
つかの分野でほぼ独立に研究されてきた.心理学,教育学,動物行動学,人類学をはじめとする
諸領域で行われてきた従来の研究は,共通する問題群を扱いながらも,分析レベルの差異,記述
言語・理論言語のちがいなどにより,十分な交流を持ち得なかった.しかしそうした事情は,メタ理
論としての適応論の普及に伴い,現在,急速に変わりつつある (cf. 亀田・村田, 2000).例えば,
動物の学習行動への人類学モデルの適用は,模倣や文化のプロトタイプが大型類人猿以外の動
物にどのような形で存在し得るのか,またそれは適応課題とどのように関連するのかという統合
的な問いを生み出している(e.g., Laland,Boyd & Richerson,1996).これらの研究は,学習行動と
は,適応エージェントによる能動的な情報探索・意思決定行動に他ならないことを理論的・経験的
に明らかにしつつある.本研究もそうしたメタ理論に立脚している.「進化」の意味を広義に捉える
とき,学習への進化的アプローチは豊かな問いを拓く可能性を秘めている.
6.引用文献
Axelrod, R. (1984). The evolution of cooperation. Basic Books.
Boyd, R., & Richerson, P. J. (1985). Culture and the evolutionary processes. Chicago University
Press.
長谷川寿一・長谷川眞理子 (2000). 『進化と人間行動』東京大学出版会.
Henrich, J. & Boyd, R. (1998). The evolution of conformist transmission and the emergence of
between-group differences. Evolution and Human Behavior, 19, 215-241.
亀田達也・村田光二 (2000). 『複雑さに挑む社会心理学−適応エージェントとしての人間』有斐
閣.
Kameda, T., Takezawa, M., & Hastie, R. (2001). The logic of social sharing: An evolutionary game
analysis of adaptive norm development. Manuscript submitted.
Laland, K. N., Richerson, P. J., & Boyd, R. (1996). Developing a theory of animal social learning.
In C. M. Heyes & B. G. Jr. Galef (Eds.), Social learning in animals: The roots of culture
(pp.129-154). San Diego: Academic Press.
竹澤正哲・亀田達也 (1999). 「所有と分配:共同分配規範の社会的発生基盤に関する進化ゲー
ム分析」, 認知科学, 6, 191-205.
Maynard Smith, J. (1982). Evolution and the theory of games. Cambridge University Press.
山岸俊男 (1998). 『信頼の構造−こころと社会の進化ゲーム』 東大出版会.