統計は嘘つき?

統計は嘘つき?
H.L (オーストラリア)
経済学部経済学科
要旨:学問からマスコミまで、統計は情報を伝達する手段として頻繁に使われる。それは統計において、
情報が客観的であると認められる数字という形で伝わるからである。しかし、実際に情報の収集、数値
の計算と結果の解釈という三つの過程で、統計者の主観が混入しかねないので、しばしば統計者の意図
を果たすために利用されてしまう。本論では嘘つきの実例をあげながら、統計に対するわれわれの取る
べき姿勢について考える。
キーワード:標本、RDD 方式、無作為抽出、平均、国勢調査
はじめに
われわれの回りを見ると、統計は非常に広範に使われていることがわかる。それは統計がなんらかの
説得力あるいは信憑性を持っているためである。一方、統計が嘘つきという批判もよく耳にする。“There
are three kinds of lies: lies, damned lies and statistics.” (「世の中には三つの種類の嘘があり、それ
はウソ、大ウソ、そして統計である」)これは 19 世紀イギリスの首相を務めたディスレーリの言で、今
日まで伝えられ、統計を勉強したことのある人には周知の名言である。しかし、なぜ「嘘つき」と昔か
ら悪名高い統計がいまだ重視され、頻繁に使われているのだろうか。この一見矛盾しているように見え
ることについて考えて見よう。
統計の信憑性と数字の客観性
統計の信憑性の根拠を探ってみると、数字の客観性に帰着する。「数字が客観的である」という認識
がわれわれの頭の中に根強く埋められているため、数字で表わされた情報あるいは数字で裏付けられた
主張をわれわれは真実そのままとして受け入れがちがある。そして、統計において、情報は収集と処理
の過程を経て、その特性が数字の形でわれわれに伝わるので、統計は説得力を持つものとなる。要する
に、数字が客観的と認められるということこそが統計の信憑性の根拠であると言ってよい。
しかし、はたして数字は常に客観的であろうか。
そうとは限らない。例えば、「9.07 はどういう意味?」と聞かれても、相手がもっと詳しい説明を付
け加えてくれないと、9.07 はまったく意味不明なものである。9.07 はどういうことに対して言ってい
るのか、どうやって得られたのかといった統計過程を聞かなければならない。実は、生の情報は数字に
変換される中で、収集、計算、解釈の三つの統計過程を経るが、その三つのいずれにおいても、統計者
が主役を演じるのである。なぜかというと、収集方法と計算方法はただ 1 つではなく、むしろ多種多様
である。解釈はなおさらそうである。そのため、統計者の選択は最終の結果を大きく左右できる。結局、
われわれの耳に届く数字はもはや客観的ではなくなり、しばしば統計者の主観が混入したものになりか
ねない。つまり、統計の信憑性は数字の客観性を土台にする一方、数字の客観性はまた統計過程と統計
者の信頼性に依存するものである。従って、与えられた数字の客観性を判断するために、まずその統計
過程を調べなければならないし、統計者の意図を考えなければならない。そして、いったん数字の客観
性が否定されると、統計者の信頼性も疑われるものになる。
嘘つきの統計
収集、計算、解釈の三つの統計過程を経て、数字に転換した情報にはしばしば歪みが生じ、その結果、
統計から得た数字が真実よりも統計者の意図を伝えることに利用されうると主張してきた。これから、
その具体例をいくつか取りあげる。
1. バイアスのある標本
統計者の経済力と精神力は有限なものなので、全国人口のような巨大な調査対象の場合、調査対象全
体を調べることが不可能となる。そのため、情報収集する際、その一部だけを抽出して、データを集め
るという作法が使用される。われわれに身近なアンケートはその典型的な例である。統計において、抽
出されたものは標本と呼ばれ、標本の抽出が無作為で、標本のサイズが十分大きいものである限り、標
本をそれが所属する集団のミニチュアーとして見なすことが出来るという。それを以って、標本のデー
タ処理から得られた結論を集団全体にも当てはめることができると主張される。
しかし、標本の抽出方法の仮定が成り立たないとどうなるか。そこで、「あなたはアンケートが好き
ですか」というアンケートの例を考えてみよう。この場合、アンケート嫌いな人はまず答えないだろう。
実際にアンケートに協力する人はおそらくアンケートが好きな人に限ると考えられる。つまり、この方
法で標本を取り出すなら、アンケート嫌いな人は自動的に排除され、回収する答えの圧倒的なシェアは
アンケート好きな人の答えに占められる。従って、例え回答の 9 割がアンケート好きという結果が出て
も、それは何の意味も持っていない。とはいえ、
「アンケート好きが 9 割に」という新聞記事を読めば、
読者は人々のアンケートに対する嗜好について、どういう印象を受けるだろうか。
以上の例は極端で、非現実的であるかもしれないが、実はわれわれの周りにはそれに似たものがたく
さんある。2004 年 10 月 27 日付けの朝日新聞には「米産牛肉輸入再開されても「食べたくない」が 6
割に」という記事が載せられていた。
(図 1)記事の主張を裏付けるのは朝日新聞の RDD(Random Digit
Dialing)方式によって得られた世論調査の結果である。RDD 方式とはコンピュータで数字を無作為に
組み合わせて調査対象の電話番号を作成するシステムで、朝日新聞の世論調査において、記者は RDD
で作成された電話番号をかけて、その番号の持ち主が有権者である場合、電話調査を行う。当の調査で、
有効回答は 1832 件で、回収率は 57%だった。
図1
この場合、確かに、電話番号の作成は無作為である。しかし、だから標本の抽出が無作為と言えるか。
ここで、まず回収率の低さに着目しよう。調査相手の 57%が答えたが、ほかの 43%はなぜ回答をしな
かっただろうか。理由として、いくつも考えられるが、牛肉問題自身に無関心であるという理由はあり
うる。そうならば、無関心な人の意見は自動的に標本から排除された。さらに、調査対象は有権者に限
られていたため、牛肉を食べる人は有権者以外の未成人や外国人にも多くいるにもかかわらず、彼らの
意見は調査で反映されなかった。また、当の調査に限らず、アンケート調査一般に対する疑問を呈した
い。アンケート調査は回答者が正直に答えるという暗黙の仮定に基づくが、回答者が常に正直に答える
という保証はどこにもない。例えば、収入などの調査の場合、回答者は節税をするために、収入を過小
評価する動機があると考えられる。従って、以上の疑問点を考えると、6 割という結果をそのまま受け
入れられない。あえて言うと、朝日新聞がニュースを作るため、「食べない」という意見の占める割合
を誇張したのではないかと思わざるを得ない。
2. 多種の平均
普通に平均というと、まず思いつくのは数字の和を数字の個数で割って得られるもの、いわゆる算術
平均のことであろう。「平均=算術平均」とわれわれは無意識的に前提にしている。実は、平均の定義
は多数ある。算術平均以外には、Median(中間値)と Mode(最頻値)がある。三つの平均値が一致し
ていること時もあるが、むしろ一致しないケースが多い。例えば、ある企業の社員の年収を考えてみよ
う。収入の分布は以下のようと想定すれば、
d
3000 万
d
2000 万
1000 万
ddd
800 万
ddddd
dddddddddd
600 万
算術平均、中間値、最頻値はそれぞれ、900 万、700 万、600 万になり、どれを平均として取るかは統
計者の選択によるものである。年収が高いことを訴えたい経営者なら、算術平均を選ぶだろう。それに
対して、春闘で賃金が低いことを訴えたい組合なら、最頻値を使うだろう。結局、平均値のサイズは統
計者の選択に大きく左右されるものとなる。
実は、以上の例から導き出せる結論は収入のような場合、平均だけで現況を説明きれないことである。
また、情報を正確に伝えるために、平均値のみならず、平均の定義も明示すべきである。しかし、新聞
では、それがよく省かれる。
例えば、2005 年 1 月 16 日付けの朝日新聞に、インテリジェンスという転職斡旋会社による職業の年
齢増別平均年収ランキングが掲示された。そのうち、25 歳、30 歳、35 歳、40 歳のどの年齢層におい
ても、投資銀行業務が上位を占めた。特に 25 歳から 40 歳まで、年収は 500 万台から 1500 万台まで三
倍に高騰する。(図 2)しかし、その平均年収までどのようにして至ったのかについて、説明はわずか
しか与えられなかった。
図2
だいいち、平均の計算方法は明示されなかったが、インテリジェンスは転職斡旋会社であるから、言
うまでもなく高収入を訴えたいと考えてよい。だから、計算に使ったのは平均値を吊り上げる算術平均
であると推測できる。また、収入のデータは該当の会社に登録された顧客の自己申告から収集されたも
のであった。しかし、年収というものはとてもプライベートな情報なので、顧客は正直に申告すると限
らない。さらに、転職で失敗した人の中、失敗を恥じて申告しない者もいると考えられる。また、投資
銀行は非常に競争が激しい職務で、トップに至る者はわずかであるので、25 歳で入社した人の全員が
40 歳で 3 倍の収入増を享けるわけにはいかないが、グラフだけを見れば、そのような印象を無意識の
うちに受けてしまう。
統計を否定すべきか
以上の例から、統計があたかも間違った印象を与えるためのツールであるように見えるが、統計の信
憑性を完全に否定すべきではない。なぜなら、統計にはその問題を避けるための仕組みとルールが数多
く設けられているからである。例えば、標本抽出の場合、無作為抽出法があり、標本から得られた結論
とともに抽出プロセスと誤差を明示することが求められる。同様に、平均などの数値計算において、数
値の定義と計算方法も明示されなければならない。統計が嘘つきになるのは統計者が意識的にそういっ
たルールを守らなかったからである。
むろん、有用かつ信頼できる統計もある。国勢調査はその代表的な例である。国勢調査は全数調査で
あり、バイアスを避けるために調査の時期と方法にたくさんの工夫を入れたものである。また、国勢調
査に正直に回答することが法律上の定めとなっている。従って、国勢調査はとても重要な情報を伝える
統計である。国勢調査などの「正直な」統計の存在があるから、統計が嘘つきと完全に否定するよりも、
その信憑性が条件付きなものであると考えた方がよいのではなかろうか。
その上、統計は情報を伝える手段だけではなく、他人の主張を分析し、その真偽を判断するための手
段としても使われる。例えば、平成 16 年に日本のマスコミは外国人犯罪の急増が日本の治安を危うく
するというニュースブームに巻き込まれた。しかし、平成 16 年 1 月~11 月の犯罪統計を見れば、外国
人犯罪の急増がいっさい見られない。確かに、平成 16 年の外国人の犯罪者数は計 285 人で、昨年から
3.6%増加したが、法務省の入管データによると、同時期において、来日外国人数も同じ程度で増加し
たので、外国人が犯罪する傾向が強まったとは言えない。さらに、10 年間にわたる全刑法犯罪検挙人
員に占める在日外国人の割合の推移(図 3)を見れば、外国人犯罪の占める割合は 10 年間で 2.5%前後
に留まっていることが明らかになる。以上の二つの点だけからマスコミに形成された急増する外国人犯
罪というイメージは根も葉もないことであると分かる。それなのに、平成 16 年の選挙で外国人犯罪は
政治家の手先になり、日本人と外国人の間の隔たりはいっそう広がた。
来日外国人犯罪の割合の推移
来日外国人犯罪の割合
2.5
2
1.5
1
0.5
0
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
割合 2.226 2.039 1.733 1.66 1.891 2.044 2.204 2.213 2.298 2.313 2.309
年次
図 3.
(平
成 16 年1~11 月、警察庁犯罪統計より作成)
結論
確かに、情報伝達手段として、統計の信憑性は条件付きのものである。あいにく、統計はしばしば嘘
つきの裏付けとして利用される。しかし、国勢調査のようなわれわれが信用できる重要な統計もあるし、
他人の主張の真偽を判断するのにも統計が役に立つので、統計を完全に否定すべきではない。そして、
学問だけでなく、日常的にマスコミなどからの情報は統計を経た数字の形でわれわれに届くので、われ
われは統計との付き合いを避けられない。従って、皮肉っぽく聞こえるかもしれないが、嘘つく統計に
対しわれわれが取れるもっともよい護身術は、統計の知識を身につけることだろう。
参考文献
1.Darrell Huff, “How to Lie with Statistics”, Penguin Books, 1988
2.朝日新聞、「米産牛肉輸入再開されても「食べたくない」が6割に」(2004 年 10 月 27 日)
http://www.asahi.com/special/bse/TKY200410260367.html
3.インテリジェンス転職支援、「平均年収 - 職種別ランキング」
http://tenshoku.inte.co.jp/saishin/heikin/hei_009_06/index.html(05 年 1 月 16 日アクセス)
4.「平成 16 年度 1~11 月の犯罪情勢」、平成 12 月、警察庁統計
http://www.npa.go.jp/toukei/index.htm からダウンロード