10章(pdf形式)

統計学Ⅱ(2016) 10章
1 母集団と標本
10章 標本抽出と標本分布
1.母集団と標本
(1) 視聴率調査
(2) 有限母集団と無限母集団
(3) データと母集団
2.標本抽出法
(1) 全数調査と標本調査
(2) 無作為抽出と有意抽出
(3) 単純無作為抽出法
(4) 層別抽出法
(5) 多段抽出法
(6) 系統抽出法
(7) その他の抽出法
3.標本平均 X の標本分布
(1) 標本平均の標本分布の例
(2) 標本平均 X の標本分布の平均
(3) 標本平均の標本分布の分散
(4) 有限母集団からの標本平均 X の
標本分布
教科書 224-231ページ
4.統計量の標本分布と比率への応用
(1) 標本分布の考え方
(2) 統計量とパラメータ,推定量と推
定値
(3) 標本比率の標本分布
(4) 標本比率の標本分布の平均と分
散
5.中心極限定理
(1) 母集団分布が正規分布の場合
(2) 中心極限定理
(3) 中心極限定理の応用
(1) 視聴率調査
名古屋地区である番組をみた人がどのくらいの割合
かを表す

例:ある番組の視聴率が20%であった
名古屋地区の20%の人が,その番組を見ていた
⇒?

6. t 分布
(1) t 統計量とt 分布
(2) t 分布表
7.歪度統計量と尖度統計量の分布
◆
◆
自分は調査されていない
名古屋地区に住んでいる人すべてを調査してない
参考:視聴率調査は:ビデオリサーチによる
http://www.videor.co.jp/index.htm
視聴率調査の対象
視聴率調査のしくみ
人
名古屋地区全体(愛知,岐阜,三重の大部分)
....
.... ...
.... ... ..
.. .... .....
... .... ....
.. .... ...
.. .....
... ...
...
調査世帯
(600世帯)
標本抽出
....
.... ...
.... ..
. ..
名古屋市
岐阜県
2,263,894 1,021,227
2,080,773
737,151
三県合計
20%の視聴率

愛知県の30市6郡7町,岐阜県の14市4郡4町,三重県の5市1郡4町

対象は約375万2千世帯(約922万2千人)
600
 0.00016  0.016% しか調査していない
3752000
抽出率
母集団と標本



費用,時間,労力・・・
標本 (sample)





(2) 有限母集団と無限母集団
母集団 (population)
本当にしりたい対象(ex.視聴率の名古屋地区全体)
通常は,調査不可能
実際に知ることができる対象(ex.600世帯)
特定の調査対象を何らかの基準によって選ぶ
ほとんどの統計調査は,標本調査
標本から得られた結果=データ
母集団の大きさ:N
標本の大きさ(データの個数):n
視聴率調査・・・母集団の大きさNは有限
⇒有限母集団



母集団から,どのように標本を選ぶか


標本抽出法 (10章)
標本の結果から,母集団を情報をどのように予想するか
 統計的推論:推定 (11章),(仮説)検定 (12章)
全数調査をすれば,母集団の情報を知ることができる
無限母集団

母集団の大きさNが無限
◆
標本調査における課題

704,607
資料:総務省「平成22年国勢調査」
あくまでも調査した
本当に知りたいが視聴率(わからない) 世帯の20%

1,854,724
11,228,891 4,144,501
視聴率の調査対象エリアは,3県のすべてではない
?%

世帯数
7,410,719 2,933,802
三重県

推定
口
愛知県
◆

サイコロで1の目が出る確率を推定する
ある工場で生産される電球の寿命時間の平均を推定する
Nが有限であっても, Nが十分大きければ無限母集団と
みなす
第1章(14-15ページ)参照
1
統計学Ⅱ(2016) 10章
統計学の基本的な考え方
2 標本抽出法
教科書 231-238ページ
データ=母集団から抽出された標本とみなす


実際に標本抽出されたデータ

そうでないデータ
(1) 全数調査と標本調査
 全数調査(センサス)
視聴率,失業率…
◆

母集団全体を調査する
実施はむずかしい

例:総務省「国勢調査」・「経済センサス」

◆
GDP,株価,為替レート,試験の得点・・・
◆
※ このようなデータも母集団からの標本とみなす
(母集団を想定する)
cf. 例題10.1

標本調査


標本調査の例

関東・関西・名古屋地区:600世帯(名古屋地区は以前は250世帯)
九州,札幌,仙台地区など:200世帯

抽出される標本
母集団を代表するものでなければならない
⇒特定の集団に偏った標本はよくない
例
◆ 視聴率調査で,特定の年齢層だけを標本に選ぶ
◆ 街頭インタビュー
◆ 大統領選挙の例・・・

失業率:総務省「労働力調査」



(2) 無作為抽出と有意抽出
視聴率調査


母集団:全国の15歳以上人口(約1億1千万人)
標本:約10万人
家計の所得・貯蓄など:総務省「家計調査」
母集団:全国の約5018万世帯 (平成22年国勢調査による)
=二人以上の世帯(3506万世帯)+単身者世帯(1512万世帯)
 標本:約9000世帯

◆

母集団のすべてではなく,その一部を調査する
ほとんどが標本調査
理由:データ=標本とみなすことによって様々
な統計的手法を適用することができる


費用,時間・・・
⇒特定の人に偏らないように,標本をいかに抽
二人以上の世帯:8076世帯+単身者世帯:673世帯
出するかを考える
その他ほとんどの調査(内閣支持率,様々なアンケート調査,
「民間給与実態統計調査」・・・)
ランダムサンプリングと有意抽出


くじびきの原理で抽出
⇒ランダム・サンプリング(無作為抽出法)


無作為(確率的)に標本を抽出
有意抽出(ランダム・サンプリング以外の抽出)


確率的に標本抽出するのではない
恣意的に標本を抽出
◆
◆
◆

(3) 単純無作為抽出法
偏りのない標本をどのように抽出するか
街頭インタビュー,ヒアリング
インターネットによる調査
調査対象を募集する(モニター募集など)・・・
 偏った標本なので,母集団の推定が効率的に行えない
ランダム・サンプリングから得られた標本だと,標本から母
集団への推定がうまくいく


偏りのない標本を抽出する
⇒特定の人が選ばれやすくならないようにする
⇒どの標本も選ばれる確率が等しくなるように標本
を抽出する
=くじびきの原理
⇒ 単純無作為抽出法 (Simple Random Sampling)
 SRS,シンプル・ランダム・サンプリング
 単にランダム・サンプリングと呼ぶこともある
独立性を確保できる
2
統計学Ⅱ(2016) 10章
(単純)無作為抽出の抽出方法
乱数の利用
1.母集団に番号をつける
2.母集団の番号ぶんだけのくじをつくる
3.よくかきまぜて,調査する数(標本の大きさ)
だけくじをひく
4.選ばれた番号を標本として,調査対象とする


実際はくじのかわりに,乱数(表)が用いられる
乱数における数字 (ex. 234ページ 表10‐1)
 数字の並び方に特定の規則はない
◆
出やすい数字はない
–1ケタの数:0‐9までの10個の数字の出てくる
頻度はほぼ同じ
–2ケタの数:00‐99までの100個の数字が出て
くる頻度はほぼ同じ
以下同様に,3ケタ,4ケタ・・・
◆
並びやすい数字はない
– ex. 1のあとに2が出やすいなどはない
(1のあとの数字は,どの数字もほぼ同じ頻度で出現
する)
ランダム・サンプリングの例
乱数で同じ番号が出てきたら?
(例)母集団400人から5人の標本を選ぶ

1. 母集団に 1,2,・・・,400の番号を振る

2. 乱数表の適当な箇所をスタート地点に選ぶ(サイコロを
振る,目をつぶって指をあてる・・・)
 ex.サイコロを2回振ったら5と3が出た
⇒5行目,3個目の数字からスタート
3. スタート地点から3ケタずつ数字を拾う
 母集団の大きさが400で3ケタだから
 401よりも大きい数字だったら飛ばす
 400以下の数字が5個出てくるまで数字を拾っていく
 192,035,(424),120,309,(928),133
 Excelでの乱数発生:
 RAND関数,RANDBETWEEN関数
同じ番号が選ばれた場合の対処の仕方
1. 2回目(あるいはそれ以上)以降は飛ばす
 重複を許さない抽出(非復元抽出)
2. 同じ番号の人は2人分とみなす
 重複を許す抽出(復元抽出)

どちらの方法でもよい


※ 有限母集団と無限母集団の項を参照
有限母集団における抽出:
復元抽出と非復元抽出の例

母集団=5人(有限母集団)
 視聴率調査を考え,5人のうち3人が
ある番組を見ていたとする
⇒母集団の視聴率=0.6
p  0 .6
 2人の標本を抽出する


重複を許さない抽出(非復元抽出)
母集団
a
b
c
d
e
○
○
○
×
×
1人目を抽出するとき,母集団の視聴率は0.6
 もしbが選ばれたら,2人目を抽出するときの母集団視聴率は0.5
⇒同一の母集団視聴率から標本を選べない


復元抽出と非復元抽出
簡単な例

重複を許す抽出(復元抽出)・・・無限母集団と同じ


1人目を抽出しても,母集団に戻して2人目を抽出する
常に同一の視聴率から標本を抽出でき,独立性も確保される(iid)
実際には重複を許さない抽出がとられることが多い(同じ
人は選ばない
理論的には重複を許す抽出の方が正しい
有限母集団における標本の選び方
同じ対象を重複して選んでもよい
⇒重複を許す抽出(復元抽出)・・・無限母集団と同じ
 同じ対象を2度選ぶことはしない
⇒重複を許さない抽出(非復元抽出)

標本
・
・

非復元抽出だと iid にならない


同一の母集団からの抽出
独立性
iid
⇒復元抽出の方が理論的には望ましい

ただしNが十分大きければ,非復元抽出でも,iidと考える
ことができる
3
統計学Ⅱ(2016) 10章
ランダム・サンプリングの問題点


(4) 層化抽出法(層別抽出法)
ランダム・サンプリング・・・偏りのない標本抽出の基本
しかし,結果として,偏った標本となり得る

(くじなので,何が起こるのかはわからない.ex.女子だけが選
ばれる)
 母集団を代表する保障はない
 母集団の完全なリストも必要になる

⇒ ランダム・サンプリングを若干修正した標本抽出法
が考えられている
☆
☆
☆

層化(層別)抽出法
多段抽出法
系統抽出法・・・
事前に母集団をいくつかのグループ(層)
に分ける
各グループ(層)ごとにランダム・サンプリ
ングを行う
標本の大きさは,母集団の各層の大きさ
に比例させる
⇒母集団に関する事前の情報を利用する
※ 実際には,これらの方法がよく用いられている
....
.... ...
.... ... ..
.. .... .....
... .... ....
.. .... ...
.. .....
... ...
...
層化抽出法におけるグループ(層)
層化抽出法

ランダムサンプリング
ランダムサンプリング
母集団
ランダムサンプリング
....
.... ...
.... ..
. ..
ランダムサンプリング
標本
ex. 学生の通学時間調査
・ 全学の男女比が8:2であれば
・ 200人の標本をとるとすると
⇒ 男160人,女40人の標本
分析の結果に大きな影響を与えると思われる主な属性で,母
集団をグループ分けをする







都市階級
地域
事業所規模(従業員規模)
性別
 年齢・・・
大きな影響を与えない属性は用いない
層は細かくしすぎない
例
 総務省「家計調査」
◆
• 結果として,偏った標本になることはない
• しかし,純粋なシンプル・ランダム・サンプリングとは異なる

国税庁「民間給与実態統計調査」
◆
地域を先に抽出する(ランダム・サンプリングによる)



ex.市町村の抽出⇒調査区の抽出
選ばれた地域の中で,ランダムサンプリングによって,
世帯・個人を抽出する
多段抽出法の利点



母集団に割り振られた番号を,一定の間隔で選
んでいく
 例: 800人から20人を選ぶ
→800÷20=40人に1人ずつ抽出する



調査地域が散らばらない
◆
時間・費用などの面から効率的
母集団の完全なリストは必要ない







1~40, 41~80, 81~120, ・・・,761~800からそれぞれ
1人を抽出
最初の番号を,1から40の中から乱数で選択 ex.17
17,57,97,・・・,777を標本として抽出
より一般的に・・・

例.総務省統計局「家計調査」
市町村の抽出→国勢調査の調査区を抽出→世帯を抽出
 市町村の抽出は層化抽出
⇒ 層化3段抽出
従業員規模によって,事業所を抽出
(6)系統抽出法
(5) 多段抽出法

県庁所在地,政令指定都市,都市階級と地域によって,市町村を
層別して抽出(都道府県はなく,県庁所在地)
間隔=母集団の大きさ÷標本の大きさ m  N / n
最初の番号は乱数で選択(1~mより1つ選択=K)
選択された乱数に間隔を加えていく
系統抽出法=等間隔抽出法
系統抽出法の例

K , K  m, K  2m,  , K  ( n  1)m
視聴率調査(ウェブサイト参照)・・・
4
統計学Ⅱ(2016) 10章
教科書 238-244ページ
(7) その他の標本抽出法



3 標本平均 X の標本分布
確率比例抽出法
RDD
・・・



様々な標本調査法については,

島崎哲彦・大竹延幸編(2013) 『社会調査の実際』学文社

いずれの標本抽出法も,ランダム・サンプリングが基本に
なっている

N=100の母集団から大きさn=8
の標本を抽出
抽出される標本の組合せを考
える


重複を許す抽出
繰り返し標本を抽出すると,各
標本で標本平均を計算するこ
とができる
60,
14,
:
52 x  38.375
母集団
N=100
1,
2,
3,
:
:
99,
100
標本2
51,
5,
:
x  53.625
82
母集団
母集団分布
標本=データ
x1,
x2,
:
:
xn
X1,
X2,
:
:
Xn
....
.... ...
.... ... ..
... .... ....
.. .... ...
.. .....
... ...
...
X1の分布=母集団分布


X2
X2の分布=母集団分布
x
確率変数:X 1 , X 2 ,, X n
標本
...
. ..
. ..
標本
...
. ..
. ..
・
・
・
x  45
実現する前の確率
変数として,標
本平均を考える
x
X
x
1
X1  X 2    X n 
n
・
・
・
X の標本分布
標本平均 X の標本分布の例
例 教科書練習問題3(262ページ)
N=4の母集団(0,10,40,90)から n=2の標本を抽出(重複
を許す抽出)
n=2
・・・・・・
x1
実現値(データ): x1 , x2 , , xn
...
. ..
. ..
N=4
X1
x
標本
標本200
58,
38,
:
52
確率変数 X
標本
x1 , x2 .
.. .
xn
母集団
標本1
⇒その分布を標本平均 X の標
表10‐2,図10‐3
本分布という
....
.... ...
.... ... ..
... .... ....
.. .... ...
.. .....
... ...
...
標本抽出法=ランダム・サンプリングが基本
標本の結果から,母集団の情報をどのように
予想(推定)するか
 標本分布という考え方をもとに推定などを行う
標本分布の
イメージ
(1) 標本平均の標本分布の例
(238‐241ページ)

知りたいのは母集団の情報
母集団から,どのように標本を選ぶか

などを参考のこと

基本的な考え方:データ=母集団からの標本
x2
データx1, x2, ・・・,xnの背後に確率変数X1, X2, ・・・,Xnを考える(母集団)
X1, X2, ・・・,Xnに共通の母集団分布を想定する(iid)
0
10
40
90
0,0
n=2
0,10
x 0
x 5
・
・
・
・
・
・
5
統計学Ⅱ(2016) 10章
母集団分布と特性値(通常は未知)
i
x i -μ
xi
1
2
3
4
合計
平均
2
(x i -μ )
0
10
40
90
答.
母平均
μ=35
母分散
σ2=1225
母標準偏差
σ=35
分散 2
標準偏差
階級
0 - 20
20 - 40
40 - 60
60 - 80
80 - 100
合計
母集団分布
度数
2
0
1
0
1
4
母集団分布
3
2
1
0
20
40
標本平均の標本分布の平均と分散
X
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
合計
平均
0
5
20
45
5
10
25
50
20
25
40
65
45
50
65
90
X 
-35
-30
-15
10
-30
-25
-10
15
-15
-10
5
30
10
15
30
55
0
560
35 分散
標準偏差
標本平均の標本分布の平均は母平均に等しい
60
80
100
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
標本平均 X の標本分布の
=母平均μ
平均=35
n
2

1225
2
母平均μ=35
母分散σ2=1225
母標準偏差σ=35
標本平均
0
10
40
90
0
10
40
90
0
10
40
90
0
10
40
90
0
5
20
45
5
10
25
50
20
25
40
65
45
50
65
90
標本平 X
均の標
本分布
階級
0 以上 - 20 未満
20 - 40
40 - 60
60 - 80
80 - 100
合計
度数
4
4
5
2
1
16
相対度数
0.25
0.25
0.3125
0.125
0.0625
1.00
標本平均の標本分布
6
標本平均の標本分布
0.4
0.3
4
0.2
2
0.1
0
0
20
40
60
80 100
20
40
60
80 100
X
標本平均 X の標本分布の
平均=μ(母平均)
分散=612.5 母分散σ2

母集団:0,10,40,90
→16通りの x
標本平均 X の標本分布
分散=

2
有限母集団(重複を許
さない抽出)の場合は
244ページ参照
(Nが大きければ同じ
結論)
n
2
標準偏差=
n


n
標準偏差=24.75…

分散は母分散よりも小さい
平均すると,もとのデータよ
り真ん中に集まる
x1, x2,・・・, xn :iidデータ(ランダム・サンプリングによる
⇒ X1, X2,・・・, Xn :iid (互いに独立に同一の分布に従う)
標本平均の標本分布の平均
1

E ( X )  E  ( X 1  X 2    X n )
n

1
 E ( X 1 )  E ( X 2 )    E ( X n )
n
1
 n  
n
 E( X1)  E( X 2 )    E( X n )  
標本平均 X の標本分布の意味
x によって  を推定する根拠を与える

 1個1個の x は  を当てることはできない
(3) 標本平均の標本分布の分散

標本)

標本
0
0
0
0
10
10
10
10
40
40
40
40
90
90
90
90
母平均μ=35
母分散σ2=1225
母標準偏差σ=35
(2) 標本平均の標本分布の平均

標本番号
母集団:0,10,40,90
( X  )2
1225
900
225
100
900
625
100
225
225
100
25
900
100
225
900
3025
9800
612.5
24.75
標本平均の標本分布(無限母集団)
42=16通りの標本が考えられる

標本平均の標本分布の分散は,母集団分
布の分散より小さい
分散の大きさ
1
 1
 Var( X )  Var  ( X 1  X 2    X n )  2 Var( X 1  X 2    X n )
n
 n
1
 2 Var( X 1 )  Var( X 2 )    Var( X n )
n
1
1
2
 2  2   2     2  2 n 2 
n
n
n


Var ( X 1 )  Var ( X 2 )    Var ( X n )   2
6
統計学Ⅱ(2016) 10章
標本平均の標本分布の特徴 (1):平均

実現した個々の x はμと等しくない

しかし,X の標本分布の平均はμに等しい

一般的に
標本平均の標本分布の特徴 (2) :分散
x
個々の x は μ と等しくない

→正確には μ を当てることはできない
→全体としてみれば(平均すれば), X は μ をうまくあてている
X の標本分布の分散は

→ X をμの推定値として用いる根拠を与える
※但し,実際には1つの標本, x が実現する

2
n
→nを大きくすれば,分散は小さくなる
分散が小さくなると,実現する x は

μに近づいていく
Xの標本分布
X


教科書 245-250ページ
4 統計量の標本分布と比率への応用
標本平均の標本分布の特徴(3):分布の形



(1) 標本分布の考え方
 標本平均,標本分散・・・
y  h x1 , x2 ,, xn 
母集団分布は左右対称の分布
標本平均の標本分布は左右対称になる
母集団分布は左右対称のきれいな形の分布をし
ていなくても・・・


標本平均の標本分布はほぼ左右対称になる



母集団分布
標本平均 X の標本分布
(2) 統計量とパラメータ,推定量と推定値



標本からある特性値を計算するための公式
統計量は確率変数
統計量の実現値y=h(x1, x2,・・・, xn)



母集団の特性値(本当に知りたいこと;未知)


母(集団)平均,母(集団)比率,母(集団)分散
推定量(estimator):パラメータを推定する
ための統計量


確率変数ではない(既知)
パラメータ
確率変数
推定値(estimate):推定量の実現値

確率変数ではない
x1, x2,・・・, xn は X1, X2,・・・, Xn から一定の確率
で実現した
Y=h(X1, X2,・・・, Xn)も確率変数で,確率分布を
もつ=標本分布 (sampling distribution)
パラメータと統計量の例
統計量: Y=h(X1, X2,・・・, Xn)

実現値(データ)の関数
データを実現させる確率変数を考える

母集団の情報
(未知)




母比率 p
母平均μ
2
母分散 
母標準偏差 
:

推定
パラメータ
母集団における特性値
(本当に知りたい値だが,未知)
確率変数

標本比率 X
標本平均 X
標本分散 S 2
標本標準偏差 S
:
標本の情報
(既知):確率
変数の実現値
pˆ
x
s2
s
統計量
7
統計学Ⅱ(2016) 10章
比率と平均
1,0データの平均と分散
比率は,1 ‐ 0データの平均
例
 コインの5回投げたら2回表が出た
 表が出る比率(割合)=2/5=0.4
 Xi:表が出たら1,裏が出たら0をとる変数
 5回のうち2回表がでた⇒1,1,0,0,0
 1 – 0データの平均: 1  1  0  0  0
2



(母)比率がpのとき

平均:p

分散:p(1-p)=pq
,
5

5



,
n
⇒標本比率は標本平均 X で表せる X   X i
n i 1
 ただし,P ( X i  1)  p, P ( X i  0)  1  p  q



Xiの平均=p
Xiの分散=pq
標本比率の標本分布の平均と分散
~標本平均の場合とほとんど同じ


0.36
0.36
0.16
0.16
0.16
1.2
0.24
p
pq
ex. p=0.8の場合,
分散=pq=0.8×(1-0.8)=0.8×0.2=0.16
標本番号
標本比率=標本平均
1
Xi ・・・ 1か0をとる確率変数 X i  
0
1
( x i  p) 2
0.6
0.6
-0.4
-0.4
-0.4
0
分散
pがわかれば分散もわかる(パラメータは1つ)
(3) 標本比率の標本分布
標本比率の標本分布

xi  p
1
1
0
0
0
2
0.4
教科書 150ページ参照
したがって標本分布も比率と平均ではほとんど
同じ

xi
1
2
3
4
5
合計
平均
 0.4  比率
比率と平均は同じもの

(ただし,q=1-p)
i
平均=母平均=母比率 p
分散=母分散(pq)÷n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
a
a
a
a
a
b
b
b
b
b
c
c
c
c
c
d
d
d
d
d
e
e
e
e
e
標本
データ
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
合計
平均
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
標本比率
1
1
0
0
0
1
1
0
0
0
1
1
0
0
0
1
1
0
0
0
1
1
0
0
0
1.0
1.0
0.5
0.5
0.5
1.0
1.0
0.5
0.5
0.5
0.5
0.5
0.0
0.0
0.0
0.5
0.5
0.0
0.0
0.0
0.5
0.5
0.0
0.0
0.0
10.0
0.4
例:教科書練習問題4,263ページ
母集団 N=5 (1,1,0,0,0)
母比率 (平均) p=0.4
母分散 pq=0.4×0.6=0.24
ただし,q=1-p
標本
母集団
※標本平均の
場合と同様
a
b
c
p  0 .4 d
e
標本比率 X の標本分布
・
・
○
○
×
×
×
14
平均=0.4 =母比率p
12
10
8
分散=0.12 母分散pq
6
4
2
0
0
標準偏差=0.34…

0.5
1
pq 0.6  0.4


n
n
2
2
教科書 250-255ページ
5 中心極限定理
(4) 標本比率の標本分布の平均と分散
標本比率 X の標本分布の
平均=p(母比率)
分散=
pq
n
標準偏差=
(1) 母集団分布が正規分布の場合

データ: iid データであること
(q  1  p)
pq
n
母集団分布
X の標本分布
平均


分散
2
2
分布の形
正規分布
n
正規分布
8
統計学Ⅱ(2016) 10章
(2) 中心極限定理

標本平均
母集団分布が一般の場合



データ: iid データ
nが大きい

分散
分布の形
X の標本分布の平均=μ,分散
n
正規分布
?
n
n
Z
X 
~N (0,1)
 n
条件:
X1,X2,・・・,Xn:iid
n:大きい
標本平均 X の標本分布
標本n
...
. ..
. ..
母集団N
x
x
z
 n
x
x
z
 n
x
z
標本n
...
. ..
. ..
....
.... ...
.... ... ..
... .... ....
.. .... ...
.. .....
... ...
...
標本n
...
. ..
. ..
標本n
...
. ..
. ..
X
・
・
・
x
n

データが独立に同一の分布から抽出され(iidデータ)
標本の大きさnが十分大きいとき
母集団分布がどのような形の分布でも,
X 
Z
 n


は標準正規分布N(0,1)で近似できる
x
z
 n
x
・
・
・
の標本分布~ N (  ,
2
n
Z~N (0,1)
)
n が大きければ,X は
正規分布
• 標本比率 X の標本分布
の
平均=p(母比率)
N ( p,
pq
) で近似
n
できる
X を基準化
Z
Xp
~N (0,1)
pq n
教科書 253ページ
中心極限定理
標本平均 X の標本分布
N ( ,
母集団分布
2
n
Zの分布
)
N (0,1)

0
(3) 中心極限定理の応用
標本比率に関する中心極限定理
pq
分散=
n
pq
標準偏差=
n
 2 標準偏差 
→Zの平均は0,分散は1(標準偏差は1)
また,X は正規分布にしたがうので,Zも正規分
布にしたがう=中心極限定理
2
2
母集団分布
中心極限定理の
イメージ


平均
の基準化
X 
→基準化する Z 
 n
X の標本分布
母集団分布
X

p.254 例題10.2
母集団
....
.... ...
.... ... ..
.. .... .......
. .... ....
.. .... ...
.. .....
... ...
...
  0.5%
2 4
  2%
標本
n=25
....
.... ...
.... ..
. ..
P ( X  0)
 P(
X 

 P( Z 
n

0

0  0 .5
2
25
n
)
)
 P( Z  1.25)
 0.8944
9
統計学Ⅱ(2016) 10章
教科書 255-261ページ
6 t 分布
(1) t 統計量と t 分布

イメージ
母集団N
Xi~N(μ,σ2) のとき
iid
X 
~N (0,1)
Z
 n
⇒ ただし,μとσは一般に未知
t 統計量の
S2 
1 n
 ( X i  X )2
n i 1
....
.... ...
.... ... ..
... .... ....
.. .... ...
.. .....
... ...
...
⇒ σを計算可能な値で置き換える
S  S2
標本標準偏差S
⇒ 置き換えた値を T とする
μを推定するため
(nもn-1で置き換える)
(11章で利用)
X 
T
S n 1
標本n
...
. ..
. ..
X の標本分布
x
基準化
z 
標本n
...
. ..
. ..
z 
x
x
n

標本n
...
. ..
. ..
x
z 
標本n
...
. ..
. ..
・
・
・
T : t 統計量
σをsで置き換え
x

n
x
z 
・
・
・
N ( ,
2
n
)
x
n

t
x 
s n 1
t
x 
s n1
t
x 
s n1
x   t  x 
s n 1

n
・
・
・
・
・
・
Z~N (0,1)
T ~ 自由度
n-1のt分布
t 分布の形状
t 統計量と t 分布

X 
t 分布は,自由度(データ数)によって形が変わる
t 統計量 T  S n  1 は,標準正規分布(0,1)
ではなく,自由度m=n‐1の t 分布に従う


t 分布では,標準正規分布より,0から離れた値
をとる確率が高い(スソの厚い分布)

左右対称の分布で,平均は0
Tm 
X 
S n 1
と書くこともある
自由度=n-1
E Tm   0
m
m2
2
 1
m2
Var Tm  
自由度が大きくなると,t 分布は標準正規分布に近づく
• t 分布:データが少ないとき(小標本)に利用される
• データ数が多ければ,標準正規分布 N(0,1) を用いて
構わない( t 分布と標準正規分布で結果に大差ない)
(2) t 分布表 (435ページ)
各自由度に対して,
P(Tm< c)=0.95
などに対するcの値を与える

0.95
自由度によって分布の
形が変わるから
この数字が t 分布
表に入っている
例
自由度10の場合
P(T<1.812)=0.95
P(T<2.764)=0.99
P(T<2.228)=0.975
a
P(-2.228 <T<2.228)=0.95
10
統計学Ⅱ(2016) 10章
10 章 標本抽出と標本分布 練習問題
1.234 ページの表 10-1 の乱数表を用いて,シンプル・ランダムサンプリングにより 5000
人の中から 4 人の標本を抽出せよ.ただし,スタートする場所は,当日の月を列番号,
日の下一桁を行番号として用いよ.
また,Excel の乱数の関数を利用して,同様の抽出を行え.
2.教科書の練習問題1(262 ページ)
3.教科書の練習問題2(262 ページ)
.さらに「視聴率調査」
,「家計調査」についても同
様の問いに答えよ.
4.母集団が 15,23,47,87 という4つの数字からなるとき,次の問いに答えよ.
(1) 母集団の平均,分散,標準偏差を求めよ.
i
xi
1
2
3
4
合計
平均
x i -μ
2
(x i -μ )
1

N
15
23
47
87
2 
分散 
標準偏差
N
x
i
i 1
N
1
N
( x   )
i
2
i 1
(2) この母集団から重複を許す大きさ 2 (n=2) の標本を抽出することを考える.このとき,
すべての可能な標本を書き出し,それぞれの標本平均を求めよ.(2)の標本平均を度数分
布にまとめよ(階級は,0-20,20-40,40-60,60-80,80-100).
(3) (2)の標本平均を度数分布にまとめよ(階級は,0-20,20-40,40-60,60-80,80-100).
(4) (2)で求めた標本平均の標本分布の平均,分散,標準偏差を求めよ.
(2)
(3)
標本番号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
標本
標本平均
標本平均
0 以上 - 20 未満
20 - 40
40 - 60
60 - 80
80 - 100
合計
度数
11
統計学Ⅱ(2016) 10章
5.母集団が 8,12,24,44 という4つの数字からなるとき,次の問いに答えよ.
(1) 母集団の平均,分散,標準偏差を求めよ.
(2) この母集団から重複を許す大きさ 2 (n=2) の標本を抽出することを考える.このとき,
すべての可能な標本を書き出し,それぞれの標本平均を求めよ.
(3) (2)の標本平均を度数分布にまとめよ(階級は,0-10,10-20,20-30,30-40,40-50).
(4) (2)で求めた標本平均の標本分布の平均,分散,標準偏差を求めよ.
i
1
2
3
4
合計
平均
xi
x i -μ
2
(x i -μ )
8
12
24
44
分散 
標準偏差
(3)
標本平均
0 以上 - 10 未満
10 - 20
20 - 30
30 - 40
40 - 50
合計
度数
(2)
標本番号
標本
標本平均
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
6.母集団が 30,50,60,70,90 という 5 つの数字からなるとき,問5と同様の問いに答えよ
(階級は,0-20,20-40,40-60,60-80,80-100).
7.母集団の大きさを N=4,標本の大きさを n=2 とし,母比率を 0.25 とする(たとえば,
視聴率調査を考え,4 人を a~d とすると,a がある番組をみた,b,c,d がみていないとする).
みた場合に 1,みていない場合に 0 という数値を与えるものとする.
(1) 1,0 で表された母集団の平均と分散を求めよ.
(2) この母集団から重複を許す大きさ 2 (n=2) の標本を抽出することを考える.このとき,
すべての可能な標本を書き出し,それぞれの標本比率を求めよ(次ページ).
(3) 標本比率を度数分布にまとめよ.
(4) 求めた標本比率の標本分布の平均,分散,標準偏差を求めよ.
12
統計学Ⅱ(2016) 10章
標本番号
標本
標本比率
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
標本比率
0.0
0.5
1.0
合計
度数
8.母集団の大きさを N=5,標本の大きさを n=2 とし,母比率を 0.6 とする.この母集団
から重複を許す大きさ 2 (n=2) の標本を抽出するとき,問7と同様の問いに答えよ.
9.問4について,この母集団から重複を許さない大きさ 2 (n=2) の標本を抽出することを
考える.このとき,問4(2)~(4)と同様の問いに答えよ.
10. 問7で重複を許さない大きさ 2 (n=2) の標本を抽出するとき,問7の(1)~(4)と同様の
問に答えよ.
11. 教科書の練習問題6(263 ページ)
12. 教科書の練習問題7(263 ページ)
13. 教科書の練習問題8(264 ページ)
14. 教科書の練習問題9(264 ページ)
15. 次の値を満たす a を求めよ.ただし,T は自由度 8 の t 分布に従うとする.
(1) P (T  a )  0.95
(3) P (T  a )  0.99
( 2) P (  a  T  a )  0.95
(4) P ( a  T  a )  0.99
16. T が自由度 5 の t 分布に従う場合,16 と同じ問いに答えよ.
17. 教科書の練習問題 10(264 ページ)
18. 次の確率を求めよ.ただし,T は自由度 12 の t 分布に従うとする.
(1) P (T  1.782)
( 4) P ( 2.179  T  2.179)
(2) P (1.782  T  1.782)
(5) P (T  3.055)
(3) P (T  2.179)
(6) P (3.055  T  3.055)
13
統計学Ⅱ(2016) 10章
19.次の(
)に最もよくあてはまる記号(または数式),語句,数値を答えよ.ただし,
無限母集団から大きさ n の標本(データの個数が n ,ただし n  2 )を互いに独立に無作為
に抽出することを考え,母平均を  ,母分散を  2 ,母比率を
p ,q  1  p ,標本平均を X ,
2
標本分散を S とする.
(1)
ある番組の視聴率調査を5人に対して行い,その番組を見ていたら 1,見ていなか
ったら 0 という数値を与えるものとする.その結果,0,0,0,1,0 というデータが得ら
a )%である.また,5 個のデータの平均は(
れた.このとき視聴率は(
分散は(
(2)
b ),
c )である.
標本平均 X の標本分布の平均は(
d
),分散は(
e
),標準偏差は(
f
)
である.
(3)
標本平均 X を基準化した Z 
標準偏差は(
(4)
X 
の分布の平均は( g ),分散は( h ),
 n
i )である.
n が十分大きければ,
(3)の Z は(
j )分布で近似することができる.これは(
k )
定理と呼ばれる.
(5)
標本比率 X の標本分布の平均は(
l ),分散は(
m ),標準偏差は(
n )
である.
(6)
標本比率 X を基準化した Z 
準偏差は(
(7)
X  (l )
の分布の平均は(
(n)
),分散は(
p
),標
q )である.
母集団分布を正規分布とするとき,
従う.また(
o
X 
は自由度( r )の( s )分布に
S n 1
s )分布は,自由度が大きい場合,
(
t )分布で近似することが
できる.
(8)
(
u )とは,すべての標本が等しい確率で抽出されるような標本抽出法である.
(9)
(
v )とは,母集団を地域,都市階級,従業員規模,年齢などでグループ分けし,
それぞれのグループで(
(10) (
w
u )によって標本を抽出する方法である.
)とは,母集団に割り振られた番号を等間隔で選び,標本を抽出する方法
である.
14