経済統計の標本調査 - 美添泰人のホームページ

経済統計の標本調査
経済分析で利用される家計に関する統計や,企業等でも月次統計など速報性
を要求される動態統計の大部分は,標本調査にもとづいて作成されている.標
本調査には確率的な誤差が発生するが,全数調査に比べて費用と時間の大幅な
節約ができる,調査対象が少ないため丁寧な調査ができる,などの利点がある.
標本抽出は 2 つの方法に分けられる.まず,有意抽出は,銀行が取引先の企
業を対象に調査するなど,調査者が主観的に標本を選ぶ方法である.経済統計
ではないが,街頭で行われるアンケート調査も有意抽出である.全体をうまく
表現できる標本を選び出せる場合もあるが,調査結果の信頼性を客観的に評価
できないため,本格的な経済調査ではこの手法はあまり用いられない.ただし,
小規模調査において業界情報などを利用することはある.
広く利用されている標本抽出法は,誤差の大きさを客観的に評価することが
できる無作為抽出 (random sampling) である.簡単な例として,介護を必要と
する高齢者が同居している世帯の比率を求めることを考えよう.この場合には
関心の対象(母集団)は世帯であり,当然,その数が有限であるため,統計学
の入門書で扱われる(無限母集団からの)標本とは,理論的に多少異なった取
扱いが必要となる.最も簡単な単純無作為抽出と呼ばれる手法では,母集団の
N 世帯からくじを引くように(無作為に)n 世帯が抽出され,調査される.こ
こで標本の大きさ n は,通常の調査では数千程度であり,世帯調査の場合には
抽出率 (f = n/N ) は極めて小さい.標本における高齢者同居世帯の数を x とす
ると,標本比率は p = x/n と定義される.このとき,統計として公表される標
本比率が,母集団における本当の比率とどの程度一致しているかは,確率的に
評価することができる.理論的には 2 項分布および正規分布による近似が用い
√
られるが,比率の場合には p ± 2 (1 − f )p(1 − p)/n が 95%の区間を与える.
例えば世帯数 N = 100 万の地域で n = 3000 世帯を調査して,x = 240 世
帯が高齢者同居であったとすると,p = 240/3000 = 0.08 すなわち標本比率は
8%となる.抽出率は f = 3, 000/1, 000, 000 = 0.003 とほとんど無視できるため,
√
. 1 として,95%区間は 0.080 ± 2 0.080 × 0.920/3000 =
. 0.080 ± 0.010,
1−f =
.
.
すなわち母集団における高齢者同居世帯の比率は 7.0%∼9.0%と判断すること
ができる.ここで 95%という水準は区間推定の場合の標準的な基準であり,標
本調査でも多く利用されているものである.
この簡単な例から,基本的な性質を理解することができる.まず,標本数 n
が調査の確率的な正確さを表す区間の幅を決める重要な要素であること,同時
に抽出率 f は母集団が大きい場合にはあまり正確さに影響を与えないと言う
ことである.このことを確かめるに今の例を修正して (i) N = 1000 万, (ii)
1
N = 10, 000 (iii) N = 4, 000 という場合を考える.(i) では f = 0.0003 であり,
7.0∼9.0 %という区間はほとんど変らないし,例外的に抽出率を高くした (ii)
√
でも f = 0.3 となって区間の幅が 0.7 倍,すなわち 7.2∼8.8% とわずかに短
くなる程度である.抽出率 f = 0.75 と極端な (iii) の場合になってようやく 7.5
∼8.5% と区間の長さが半分になる.結局,現実的な問題の場合,(1 − f ) を無
√
視した p ± 2 p(1 − p)/n という簡単な式を利用することができる.また,比率
の推定の場合,誤差が最大となるのは p = 0.5 の場合であるが,n = 3000 なら
95%区間は 50% ± 1.8%となる.この程度の正確さであれば,大抵の経済問題
に対して信頼できる数値と言えよう.
1 か月の支出額のような数量の場合には,標本から得られた平均 ȳ が公表さ
√
れる.その信頼性は,標本の分散を s2 とするとき ȳ ± 2s/ n という 95%区間で
評価できる.家計調査の標本数が約 8000 世帯と抽出率が極めて低いことから,
一部のエコノミストは「この調査は信頼できない」と指摘するが,それは誤り
で,問題にすべきは抽出率ではなく標本数および次の非標本誤差である.
非標本誤差
国が公表しているほとんどの統計調査では,以上のような理論に基いて標本
数を決定しており,確率的な誤差すなわち標本誤差は十分小さいと考えてよい.
実は経済統計で問題となる主要な誤差は,全数調査においても発生するもので
あり,非標本誤差と呼ばれる.その代表的な例である無回答については原因と
して母集団名簿の不備や回答拒否などがあげられる.いずれも,得られた標本
が母集団を正しく代表せず,偏りを生じさせる原因となる.一般に企業に関す
る調査では,大企業ほど回答率が高く,複雑な調査であれば中小企業の回答率は
非常に低いことがある.このような調査結果を用いれば偏った結論しか得られ
ない.全数調査でも,無回答の発生状況によっては,同種の問題が生ずる.ここ
で調査の回収率は,この種の偏りがあるかどうかを知る手がかりである.すな
わち,回答数 n が大きくても回答率の低い調査はあまり信用できないと言える.
非標本誤差を小さくするためには,回答が得られるように努力することが基
本であるが,回答に矛盾があれば回答者に確認する,無回答グループの一部分
について追跡調査を行って,回答したグループとの差の大きさを検討する,な
どの管理が不可欠である.このような管理を容易にする点に,標本調査の最大
の利点があるといってもいい.
[美添泰人]
¶
µ
³
参考資料
中村・新家・美添・豊田『経済統計入門(第 2 版)』東京大学出版会
2
´