テキスト - 中央大学 総合政策学部

統計学
河野 光雄
平成 年 月 日
目次
第
章 データは何を語る?
データのひとり歩き
偏差値
視聴率・社会調査
第 章 データと統計指標
データの度数分布
度数分布の階級数:スタージェスの公式
データの代表値
平均値
中央値
はずれ値(異常値)の処置
データのばらつき
分散
標準偏差
標準偏差 :分布の広がりの目安
ひずみ(歪度、
)
とがり(尖度、 )
データの変換
偏差値
散布図
ローレンツ曲線
ジニ係数
エントロピー
クロス表の独立性:オッズ
競馬のオッズ
実測データによる最適関数近似
最小自乗法
ラグランジュの補間公式
第 章 確率
ベイズの定理
第 章 離散確率分布
順列と組み合わせ
事象
条件付き確率
事象と確率のまとめ
条件付き確率
独立事象
確率
数学的確率
統計的確率
大数の法則
確率変数と確率分布
累積分布関数
確率変数の期待値と分散
モーメントと母関数
チェビシェフの不等式
確率変数の標準化
ベルヌーイ試行
二項分布
択一式試験の正答率
二項分布
二項分布の母関数
二項分布のポアソン近似
ポアソン分布
ロンドンにおける爆撃弾の命中率
ポアソン到着
ポアソン分布の導出
平均と分散
ポアソン分布の母関数
指数型サーヴィス
個の窓口問題
多項分布
2変数離散確率分布
独立な確率変数の場合
共分散
第 章 連続確率分布
連続分布
分布関数
平均と分散
モーメントと母関数
共分散と相関係数
共分散
相関係数
第 章 正規分布
正規密度関数と正規分布
正規分布の母関数
正規分布の性質
標準正規分布
標準正規分布表とその見方
中心極限定理
二項分布と正規分布
正規分布に従うとされている確率変数
観測と誤差
誤差分布
最確値
最確値の信頼性
分散
最確値の信頼度
秤量問題
第 章 正規分布から導かれる分布
分布
分布
第 章 母集団と標本
標本調査
社会調査の信頼性
母集団と標本
標本平均と標本分散
標本平均の分布
大数の法則
チェビシェフの不等式
大数の法則
中心極限定理
標本平均の中心極限定理
標本和の中心極限定理
標本比率 の分布の中心極限定理
有限母集団
有限母集団からの非復元抽出
第 章 統計的推定
母集団確率分布の特性値の推定
点推定
不偏推定量
最尤推定値
点推定の基準
不遍性
有効性
一致性
区間推定
第
章 検定
統計的仮説と仮説の棄却
確率値
帰無仮説と対立仮説
古典的検定
古典的検定の検討
両側検定と片側検定
両側検定
片側検定
平均に関する検定: 検定
分散に関する検定: 検定
第
章 統計学の歴史と構成
統計学のキーワード
2章
度数分布、ヒストグラム、
平均値、分散、標準偏差
データの標準化
散布図、相関係数
ローレンツ曲線、ジニ係数、エントロピー、
クロス表
3章
事象、確率、条件付き確率
4章
大数の法則
確率変数、確率分布
期待値(平均値)、分散、標準偏差
二項分布、ポアソン分布、
5章
連続分布、分布関数
6章
正規分布、標準正規分布、
中心極限定理
章
母集団、母平均、母分散
復元抽出、非復元抽出
標本、標本平均、標本分散
中心極限定理
9章
点推定、区間推定
不偏推定量、
不偏性、有効性、一致性
10章
仮説検定、棄却、危険率
図・データファイル ファイル名
図・データ
偏差値(図1 )
ヒストグラム、散布図 図 、二項分布 図 、ポアソン分布 図 !
分布 図 、 分布 図 相関図(図 )、大数の法則(図 )
ローレンツ曲線 図 、ジニ係数、エントロピー
第 章 データは何を語る?
データのひとり歩き
偏差値
今や偏差値はそれぞれのレベルでの入学試験を支配しているように見
える。有無をいわせぬ力でもって受験生の上に君臨しているといった方
がよいかもしれない。それほどまでに偏差値が力を持つ理由はなんであ
ろうか。偏差値が意味を持つための条件とは何であろうか?そしてその
条件は多くの場合無条件で満たされているのであろうか?このことを簡
単な例で調べてみることにしよう。
50人の学生が、英語、数学、社会の試験を受けたとする。はじめに
学生の得点を、サイコロをふって次のように決めよう。
英語
"
数学
"
社会
"
ここで は から
までの乱数を発生させることを意味していて、
は の整数部分をとることを意味している。また、 は、 が成立しているときには の値をとり、成立していなければ の値をとることを意味している。 は と の大きい方を表し
ている。これから、英語の得点分布は(サイコロが公正だとして)ほぼ一
様になる。数学では # の学生が 点以下で一様分布に、# が 点をとる。そして社会では最低点が 点以上の点を一様に取ることにな
る。明らかに 科目についての得点に相関はない。
さて、3科目の得点の合計から決まる順位と、各科目の偏差値の合計
から決まる順位を比べてみると図 のようになる。これから順位が大
幅に入れ替わってしまっていることがわかる。
図 $ 試験の成績順位:正規分布でない場合
第
章
データは何を語る?
図 $ 試験の成績の度数分布:正規分布でない場合
図 $ 試験の成績順位:正規分布の場合
つぎに、各科目とも得点分布が釣り鐘状になるように決めた場合を調
べよう。ただし、平均値を英語、数学、社会でそれぞれ
点、 点、
点とした。図 は、得点の合計から決めた順位と、偏差値の合計から決
めた順位がよく一致していることを示している。ここで使った釣り鐘状
の分布を正規分布といい、試験問題が特異でなく、受験生の数が十分多
ければ、試験の得点分布は正規分布に従うことが知られている。従って、
偏差値が意味を持つのは、各科目の得点分布が正規分布をしているとき
に限るのであって、正規分布からはずれた分布を示すような科目が含ま
れているようなときは、偏差値で決められた結果に信頼性はない。 6
章
正規分布
視聴率・社会調査
民間テレビ局はその番組をサポートする企業からの広告収入によって
運営されているから、番組視聴率は生命線であるといえる。今日通用し
ている視聴率調査は、モニター契約をした家庭のテレビ受像器にとりつ
けられた専用の番組自動記録器に、いつどの番組を見ていたかが記録さ
れ、電話回線を通して集計されるものである。これらの調査に使われて
いるサンプル数(モニターの数)は通常300程度であり、はたしてこ
れで精確な視聴率を決めることが出来るのであろうか?
また新聞の内
閣支持率の世論調査などで使われている 程度のサンプル数は妥当な
のだろうか?恣意的な結論を正当化するために調査を利用する場合は別
として、社会調査を基礎に何らかの結論や政策の策定を行うとするので
あれば、意見分布については精確さを期さなければならない。 9章
統計的推定
選挙が近づくと各種のメディアは競って結果の予測を行う。多くは世論
調査を基礎にして予測を割り出すのだが、問題は調査の仕方にある。多
くの失敗の中から標本調査の理論が整備されてきたことは教訓的である。
章 母集団と標本
年は % & ' が二期目の大統領をかけて選挙に臨んだ
図 $ 試験の成績の度数分布:正規分布の場合
データのひとり歩き
年である。当時アメリカはまだ大恐慌から完全には抜け出しきってはお
らず、 万の失業者が町にあふれ、収入も の ( に落ち込ん
でいたが、ようやく上向きの兆しが見え始めた頃であった。共和党の候
補者 )* + + は政府の経済政策を厳しく追及して、& ' は防
戦一方であった。ヨーロッパではナチズムがドイツの再軍備を決め、ス
ペイン市民戦争が終局に近づいている頃のことである。 年以降の大
統領選挙結果を正しく予測していた , - 誌は、電話帳やクラ
ブメンバーシップリストから 万人を選び質問票を送り、回答をよこ
した 万人のデータから、 +
#、& ' # と結果を予測
した。結果は & ' #、 + # で、& ' の地滑り的勝
利で終わり、 , - 社はすぐに倒産してしまった。一方調査会
社をおこしたばかりの . . / は、 万人の回答から、予測値は
& ' # と実際の値より小さかったが、正しく & ' の勝利を
予測していた。
, - 誌が選んだサンプルは、電話所有者であったり、クラ
ブのメンバーシップを持っているような社会の上層にいる人々で、失業
にあえぐ人たちは調査の対象にはなっていなかった。すなわち投票者す
べてから集められたサンプルではなく、特定の階層から集められたサン
プルであり、したがってそのデータには偏りがあったわけである。 年以前は経済問題が大統領選挙の争点になるようなことがなく、貧富の
差が大統領の選好に影響を持たなかったので、 , - 誌のバイ
アスされた調査もたまたま結果を予測できたにすぎない。
このように調査のサンプル数が多くても偏りがあれば正しい結果が得
られず、サンプルの抽出には十分な注意が必要である。
第 章 データと統計指標
データの度数分布
46人が受けた試験の結果が次の表のようになった.
点数区分
人数
ヒストグラム
この表では点数を小区間に分けて,各小区間に入るデータの個数をまと
めてある.この各小区間を階級といい,階級の中間値を階級値という.ま
た,各階級に入るデータの個数を度数という.表のように,各階級に度
数を対応させた表を度数分布表といい,これを棒グラフに表したものを
ヒストグラムという.ヒストグラムのもっとも高いところに対応する階
級の階級値を最頻値という.データの総数を総度数,各階級の度数を総
度数で割った値をその階級の相対度数という.度数分布の各階級の累計
である累計度数と階級を対応させたものを累計度数分布という。
度数分布の階級数:スタージェスの公式
それぞれの階級に対して階級幅を横幅とし柱の面積が度数と比例する
ように高さを決める。すべての階級幅が等しいときは、高さが度数に比
例することになる。
階級設定には厳密なルールは存在しないが、なめらかな分布形が想定
されるものがよい。次のスタージェスの公式は階級数についての目安を
第章
データと統計指標
与える。階級数 、データ数 に対して
0 階級幅についてもルールはないが、等しい階級幅のほうが、ヒストグラ
ムの持つ情報を理解しやすい。
データの代表値
データ全体を何らかの意味で代表する数値を代表値といい,平均値,中
央値,最頻値などがある.
平均値
1 個のデータ "
に対して,平均値は
0 0 0 "
で与えられる.
また,次のような度数分布表が与えられているときには
階級値
度数
相対度数
計
平均値は
"
"
で与えられる.
中央値
データの中のいくつかが飛び抜けて大きかったりすると,平均値がよ
い代表値にならなくなることがある.例えば,データ
データのばらつき
に対して,平均値は だが,これはデータの特徴を表しているとはい
いがたい.こんな時にはデータを大きさの順に並べて,その中央にくる
値を代表値として使う方がよい.これを中央値という.データの数が偶
数の時は,中央に並ぶ つの相加平均を中央値とする.
はずれ値(異常値)の処置
異常値の属する階級のデータ数が全体に比べて十分小さいときは、異
常値を除いて、データの平均値で代表値とする。
データのばらつき
分散
データ の平均値を とすると,データの各要素と平均
値との差の 乗
の平均値を分散といい, で表す.
"
標準偏差
分散の平方根を標準偏差という.
"
が小さいほど,データは平均値の近くに分布し,ばらつきが小さい.大
きな標準偏差を持つデータは平均値からのばらつきが大きい.
データが階級に分けられているとき
第章
階級値
データと統計指標
度数
計
標準偏差は
"
n
で与えられる.
標準偏差 :分布の広がりの目安
正規分布(後出)では、平均値からのずれが の範囲にあるような
データは全体の #、 の範囲にあるようなデータは全体の # で
ある。
ひずみ(歪度、 )
データの分布が平均値の周りで左右対称でないとき、そのずれの大き
さを示す指標を歪度といい、
"
)
ものと、平均値より右に中央値を持つ(
)ものとがある。所得分
布、体重、胸囲などは であることが知られている。
で定義する。ひずみのある分布には平均値より左に中央値を持つ(
データの変換
とがり(尖度、
)
データの分布の尖り具合は
"
で定義される尖度で調べることが出来る。正規分布(後述)で " と
なるので、尖り具合は で鋭く、
でなだらかになる。
データの変換
平均値や分散の計算の際に大きな値を扱わなければならなくなる場合
を避けるために,データの平均値からのズレに関する量を扱うことが多
い.いまデータ の平均値を ,標準偏差を とし, を正
の定数として,変換
"
を定義すると,
2"
"
"
2 "
"
"
となるので,
"
" とおくと,
即ち,平均値 ,標準偏差 のデータ "
は,変換
によって,平均値 ,標準偏差 のデータ に移される. を標準化されたデータという.
偏差値
平均値 ,標準偏差 のデータ 偏差 を持つデータ に移るには,
"
から,平均値 ,標準
第章
データと統計指標
図 $ 散布図
なる変換を考えればよい.これから,
"
0 が得られる.この を偏差値という.
いくつかの異なる分布で表せるデータの組におけるデータの相対的な
位置を比較するために偏差値を用いることが多い.ただし,比較が意味
を持つためには,それぞれのデータの組の分布が正規分布になっている
ことが必要である.
散布図
身長と体重のように、2つの量が対になっているとき、2つの量の関
係を全体として把握するため、2つの量をそれぞれ 成分と 成分とし
て、
平面にプロットすることがある。これを散布図という。
10人の学生の数学と英語の試験の成績が次の表に与えられているとき、
学生番号
数学
英語
2つの量の関係は、一方が増えると他方が増える、一方が増えると他
方が減る、一方の増減と他方のそれとには直線的な関係がない、のどれ
かである。このような関係を表す尺度として相関係数がある。対をなす
データ
に対して、平均値、自己相関、共相関をそれぞれ
2"
2"
ローレンツ曲線
図 $ 相関図 "
2
"
とするとき、
"
3 4
2
3 " "
2 2
のときは が増加すれば も増加し、 の
ときは が増加すれば は減少する。 のときは と との間に直
線的な関係はない。 のときを正の相関、
のときを負の相関、
のときを無相関という。相関係数 は
を相関係数という。
を満たす。これは次のように示せる
5 2 0 26
"
"
2 0 2 2 0
2
0 0 が任意の に対して成立するためには、判別式が正であればよく、
" すなわち
"
である。
ローレンツ曲線
所得や資産がどの程度平等に分配されているのか示すものにローレン
ツ曲線がある。これは、階級に対して2つの異なるデータの度数分布が
第章
データと統計指標
図 $ ローレンツ曲線
与えられている場合、この2つの累積度数密度を縦軸、横軸にとって描
いた折れ線である。
個のデータを小さい順に並べて
とし、総計を
"
第 階級までの累積比率を
" 0 0 0 とおく。 平面上の 0 個の点
を結んだ折れ線をローレンツ曲線と定義する。これは累積度数分布曲線
である。
所得の階級に対して、いま次のような世帯数と総収入の度数密度分布
が与えられたとしよう。これから累積度数密度を計算することができる。
ここで横軸に世帯数累積値を、縦軸に総収入累積値をプロットすれば、図
のようになる。これは世帯数の何 # が総収入の何 # に対応するかを
示すことになるので、対角線からのずれの大きさが大きければ、分配が
不平等と言うことになる。
ジニ係数
ジニ係数
不平等度を調べる指標にジニ係数がある。n個のデータ の散らばりの尺度として、データの各対ごとの隔たり
の平均
を、平均差という。この平均差と平均値
2"
の2倍との比
2
をジニ係数という。
データ )
データ 7
合計
平均値
平均差
ジニ係数
. 8 + ある。
は、ローレンツ曲線と対角線とで囲まれる面積 9 の2倍で
"
"
5 0 0 0 5 0 0 0 6
6
"
5 第章
ただし、 "
データと統計指標
を使った。一方、. 8 + の分母は
2
"
"
分子は
"
"
5
6
と表せる。分子の第一項を書き換えると、
0 0 0 0 "
"
0 0 0 0 0 0 0 0 0 "
5
6 " 5 6
を得る。したがって分子は
"
5 6 "
5 これから . 8 + は面積を使って
" " と表されることが示せる。
エントロピー
事象の度数を
"
"
で表すとき、相対頻度は
"
6
クロス表の独立性:オッズ
で表される。このとき
! " で定義される量をエントロピーといい、次の性質を持つ。
! どれかの "
! ならば、! ! " 等分配
エントロピーが大きいほど分布の一様性がたかく、小さいほど分布に集
中が見られる。
法学部
九州・沖縄
合計
出身地域
総合政策
北海道
東北
北陸
関東
中部
近畿
中国
四国
クロス表の独立性:オッズ
次の表は学生の試験の成績 点満点 を、自宅生 、下宿生 、
男子 、女子 の区別で示したものである。
第章
成績
自宅(下宿
性別
データと統計指標
このデータで「性別」と「自宅(下宿」の同時頻度を数えると次のように
なる。
下宿
自宅
女子
男子
合計
合計
この表は「性別」と「自宅(下宿」の相関を見るもので、クロス表と呼ば
れる。上の例では「自宅(下宿」と「性別」と無相関ならば、男女の自宅
通学者の比率はほぼ等しくなるはずである。クロス表を
)"
)"
合計
7"
7"
4
+
04
0+
合計
0
40+
0400+
とかけば、項目 ) で
0
をとる人 の割合と をとる人の割合の比は
0
"
0
0
"
となるが、これをオッズという。ところで項目 ) で1をとる人のうち、
項目 7 で1をとる人 の割合は (0 であり、項目 ) で0をとる人のう
ち、項目 7 で1をとる人の割合は 4(40+ である。2つの項目に関連がな
ければ、項目 ) で何をとろうが項目 7 で1をとる人の割合は同じである
ことが期待されるので、
0
0
である。書き換えると
あるいは
クロス表の独立性:オッズ
である。そこで両辺の比
"
"
"
をオッズ比という。このようにオッズ比が1に近いときは独立性が高い
ことを意味している。一般に項目 ) で1をとる人に、項目 7 でも1をと
る傾向があるときは、オッズ比は1より多くなり、逆に、) で1をとりな
がら、7 で0をとる人が多いときはオッズ比は1よりも小さくなる。オッ
ズ比は明らかにオッズの比率である。
外国語教育で
教室での授業と機器を使わない授業の効果を計るため
に200人の学生を半分にわけて別々に授業を受けさせて調査した。こ
のとき、教育プログラムも教師も同じで、学生は両方の授業を受けるこ
とはないとする。結果は
満足
不満
合計
非
合計
に不満のある人の比率は
## であり、非
"
"
に不満のある人は
$## "
である。一方、不満のある人の中で
を受けた人の比率は
"
##
であり、不満のない人で
"
" を受けた人の比率は
##
"
" である。
どちらの授業に不満が少ないかという問題に答えるためには、
に不満を持つ人の比率と、非
とが考えられる。
## $## これから、
授業の方が非
授業
授業に不満を持つ人の比率の比を取るこ
"
"
授業より 倍不満が少ないことになる。
ところで、不満のない人の比率の比をとると、
第章
## "
"
$## データと統計指標
となり、両者は一致しない。
授業で不満を持った人と満足だった人の比率(オッズ)は
"
" ## ## であり、非
授業で不満を持った人と満足だった人の比率は
$## "
$## "
である。この指標は不満をもった人と満足だった人の比を与えているの
で、授業の評価の指標として使える。
この例のように、オッズは、ある事象が発生する比率を / としたとき、
発生した比率が発生しなかった比率の何倍かを示す指標のことであり、
で表す。
オッズはどちらか一方の情報しか与えてくれない。なぜなら、
に対するオッズと非
ズの比は、
授業
授業のオッズは異なるからである。ところでオッ
授業が非
授業に比べて不満を持たせる危険性と解釈で
きる。
これは
授業対する不満は非
"
" 授業に対する不満の 倍であるこ
とを示している。この値は、不満がある人で
授業を受けた人のオッズと不満がない人で
授業を受けた人と非
授業を受けた人と非
授
業を受けた人のオッズの比率と同じ値である。
"
" 競馬のオッズ
馬券の売り上げの #は的中馬券の販売数で割って払い戻される。 枚
円で
億枚売れたとすると、 億の売り上げだから、 億が払い
実測データによる最適関数近似
戻される。的中馬券の販売数が 万枚であれば、 枚あたりの賞金は
億
" 万
である。 枚 円の馬券が 円になったので
5
6 " をオッズという。
実測データによる最適関数近似
様々な現象の背後にある法則を数式に表現することによって正確な予
測が可能になる.この法則を見い出すために,調査をしたり,実験をし
たりしてデータを集め,その分析に心を砕く.ところがこれまで見てき
た通り,関数形がわかれば,その関数の従う微分方程式がもとめられる.
微分方程式は法則の数学的表現であるから,現象を支えているシナリオ
がそれによって自ずから明らかになる.ここでは与えられたデータセット
から,変化の傾向を表す関数を求めたり,あるいはデータにベストフィッ
トする関数を求める方法について述べておこう.
最小自乗法
データは観測した時刻や場所で与えられる互いに関連しあった一連の
数値の組である.年次毎の商品の普及率のデータは 次元のデータセッ
トをあたえる.いま 次元のデータセットを :
"
で
表そう.このデータセットを近似する関数 " : を求めるとい
う問題を考える. は関数 を特徴づけるパラメーターでここで
決めなければならない量である.ある実測値 は : である.したがって誤差は
にたいする近似値
: である.各点でこの誤差を最小にすれば目的は達せられるのだが,この
ままでは正・負をとるので扱いにくい.そこで正定値である
: を考えて,各点からの寄与を加えたものが最小になるようにする.即ち
"
"
: 第章
データと統計指標
とすると " は の関数であるから " の極値問題を解くこと
になる.これを最小自乗法という.簡単のため " として直線を選
ぶことにしよう.商品の普及の
初期の段階のように指数関数で表されるものは,対数をとれば直線に
なっているので,例のためのつまらない問題というわけではない.この
とき
" である."
"
なのでどこかで最小値となる極小値がある.そこでは
%"
%
"
%"
"
%
となっているから,
%"
%
" %"
" %
" " である.ここで平均値を
の平均値 " 2 "
の平均値 " 2 "
で定義し,平均値からの差の自乗の和を
"
"
2 "
2 "
2
2
で, と のそれぞれの平均値からの差の積の和を
"
2 2 "
で表すと,次の連立1次方程式が得られる.
2 0 " 2
22
実測データによる最適関数近似
0 2 0 2 " 0 22
" のもとでこれを解いて
"
"
2 2
を得る.
上で述べた方法を一般化して 点
が与えられた時,それらに最も良く適合する & 次多項式
" "
を求めることを考えよう.前と同様にして,これは
"
"
: " " の極値問題となる.
%"
%
" "
これは に関する連立 次方程式であるから,行列を使えば簡単に書け
る.今
"
"
"
とすると,式 は
" 第章
の転置行列である.これから は
は行列
と書ける.ここで
"
と求められる.ただし,
データと統計指標
は可逆であるとする.行列になれていない
人は線形代数の教科書を参照されたい.
ラグランジュの補間公式
有限個の点 における関数
の値が与えられている
時,これらの点以外の点における の値を決定するのに,補間法があ
で とな
るような 次多項式 ' を求めよう.次の条件で決まる 次の多項式
る.いま与えられた点 (
"
を使えば
'
"
")
")
( とかける.この多項式はラグランジュの補間多項式
( "
によって与えられている.
この他にもニュートンの補間公式,ガウスの補間公式,スターリング
の補間公式などがある.
第 章 確率
順列と組み合わせ
個のものを1つずつとって順に並べる仕方の数を順列といい
; " で表される。
枚からなるトランプでポーカーをやる場合を考えよう。 枚から
枚とるとき、1枚ずつとって並べる仕方の数は
・ ・ ・・
である。この中には組み合わせとしては同一のものも含まれている。 枚
のカードが同じ組み合わせとなる場合の数は
;
であるから、結局、ポーカーの手持ち札 枚のカードの組み合わせの数は
・ ・ ・・
" ;
となる。この膨大な組み合わせの中から勝つ手を得るのは並大抵でない
ことがわかる。
一般に 個のものから 個とる順列の数は
* " 0 "
;
;
で表される。また 個のものから 個とる組み合わせの数は
+ " ; * "
;
; ;
で与えられる。 + は二項係数と呼ばれる。
第章
確率
ポーカーの手の組み合わせの数と確率
手
組み合わせの数
/
/
+
< * * +
< , < /
33
3 3 3
3 3
33 確率
事象
3枚のコインを同時に投げるときの表(= +)のでるコインと裏 >
のでるコインの組み合わせは
事象
,
,
,
,
,
,
,
,
事象
組み合わせ
! ! ! ! ! ! ! ! ! ! ! ! 事象の内容
-
少なくとも ! 2個
-
2番目が ! で3番目が -
すべて同じ
-
!
なし
-
!
が1
-
!
が2
確率
(
(
(
(
(
(
(
(
事象の表現
確率
, , , , , , , , , , , , , , , (
(
(
(
(
(
事象
標本空間
" -
-
- - - -
和事象
-
-
" ,
,
, , ,
-
-
" ,
,
, , ,
背反事象
-
と - 、- と - 、- と -
共通事象(積事象)
-
-
" , -
-
" , 空事象
-
-
".
-
-
".
標本空間の分割
-
- -
-
-
-
"
のように、その和集合が標本空間の全体で、かつ互いに背反である様な
事象の集まり。
第章
確率
余事象
標本空間内の任意の事象 / に対して、標本空間内にあって / に含まれな
2 と表す。/ と /
2 とは標本空間 9 の分割である。
い事象を余事象といい、/
標本空間の分割に仕方は一義ではない。
/
" -
-
/
" -
/
2 " -
/
2 " -
-
のように、分割の仕方は複数あるのが普通である。事象と余事象に対し
て以下のことが成り立つ。
2"
/
* /
*
/
2 " * / 0 * /2 "
/
* /2 " * / 少なくとも1つ ! " * ! なし " * - "
結合事象の確率
* -
* -
-
-
" * , "
" * - 0 * - * -
-
"
0 "
条件付き確率
標本空間が ,
,
, , , ,
事象
,
,
,
,
,
,
,
,
,
,
で与えれれている。ただし
組み合わせ
! ! ! ! ! ! ! ! ! ! ! ! 確率
(
(
(
(
(
(
(
(
事象と確率のまとめ
である。いま事象「- :少なくとも ! が2である。」が起こったことを
知り得たとしよう。この条件の下で、事象「- :2番目が ! で、3番目
が である。」の確率を求めよう。事象 - が起きたという条件によって、
標本空間は から - へ収縮する。
,
,
, , , ,
,
,
,
,
, ,
従って、標本空間 - の中で - が起こる確率は、4つの事象 ,
の中で , が起こるときだけであるから、 となることがわかる。この
ことは事象 - - の起こる確率と - が起こる確率の比をとればよいこ
とを示している。- が起こった条件の下で - が起こる確率を * - - と書けば
* -
- * - - "
"
"
* - ,
, ,
と表される。
事象と確率のまとめ
サイコロをふると1から6までの目のどれが出るかは確定していない
がどれかがでる事は確かである。確率的に起こったり起こらなかったり
する事柄を事象という。ある試行によっておこるすべての可能な結果の
総数を とし、どの場合も同じような確からしさで起こるならば、事象
/
が起こる場合の数を / とすると / の起こる確率は
"
* /
/
で定義される。
2つの事象 - と 0 に対して、少なくとも一方は起こるという事象を と 0 の和事象といい -
0
で表し、- と 0 が同時に起こるという事象を
と 0 の共通事象といい、-
0
で表す。必ず起こる事象を全事象、決
".
となるとき、- と 0 は互いに背反であるという。事象 - の起こりやすさ
の程度を、事象 - の起こる確率といい、* - で表す。
して起こらない事象を空事象 . という。事象 - と 0 に対して -
確率は次の性質を満たす。
事象 - に対して * - 空事象 . に対して * . " 全事象 ? に対して * ? "
0
第章
と 0 が互いに背反な事象であるとき * -
-
0
確率
" * - 0 * 0 (加法定理)
-
と 0 が背反な事象でないとき * -
0
サイコロを投げるとき、集合
" * -0* 0 * -
をそれぞれ
0
の
目が出る事象とすると、
*
*
*
"
" * 0 * 0 * 0 * 0 * 0 * "
" * " * " * " * " * "
条件付き確率
事象 - が起こったという条件の下で事象 0 が起こる確率を * 0
表し、
"
* 0 -
* -
0
-
で
で定義する。これは - が起こった条件の下では、- に含まれる要素事象
だけを考えればよいので - の場合の数と - 0 の場合の数の比として定
義される。
* 0 -
"
-
0
-
"
* -
-
0
-
"
* -
0
* -
書き直して
* -
0
" * 0
" * - 0 * 0 (確率の乗法定理)
- * -
独立事象
事象 - が起きたかどうかに関係なく、事象 0 が起きたり起きなかった
りするとき、- と 0 は独立という。- と 0 が独立ならば
" * 0 * 0 -
* - 0
" * -
である。このとき
* -
0
" * 0
" * -* 0 (独立事象の乗法定理)
- * -
である。
ある都市の高等学校の大学進学先は次の表になっている。
独立事象
私立高校
公立高校
計
地元の大学
他都市の大学
計
「地元大学進学」と「公立高校出身」とは統計的に独立か?
地元大学進学を )、公立高校出身を 7 とすると、
* -
0
"
"
* - * 0
-
0
0 "
"
"
"
両者が一致するので独立
「他都市の大学進学」と「私立高校出身」とは統計的に独立か?
他都市の大学進学を @、私立高校出身を - とすると、
* +
"
"
"
* + * "
だから独立。
サイコロを投げるとき、事象 - を奇数の目が出る、事象 0 を3以下の
目が出る、とすると共通事象 であるから、
* 0 -
"
0
は1または3の目が出るという事象
* -
0
* -
"
"
となる。すなわち、奇数の目がでたという条件の下で、3以下の目が出
るという条件付き確率は である。
くじ引きで1等、2等、3等、はずれの4種あり、当たる確率はそれ
ぞれ 3
3 3 である。このうち1等があたると別の
くじを引くことが出来て、その当たる確率は である。1等に当たる事
象を )、もう一つのくじに当たる事象を 7 とすれば
"
* -
"
* 0 -
と表される。1等にあたりさらにもう一つのくじに当たる確率は
* -
0
" * -* 0
-
" " 第章
確率
となる。
ある製品には10個のうち2個の不良品が混じっている。いま10個
の中から6個くじ引きで選び出すとき、そのなかに不良品が2個含まれ
る確率を求めよう。
10個から6個を選び出す選び方は + " " である。6個の
うち2個の不良品と4個の良品が同時に含まれる場合の数は
" だから、求める確率は
"
+
+
"
である。
10人が一列に並ぶとき、順番をくじ引きで決めるとすれば、特定の
2人が隣り合う確率は次のようにして求まる。
0
特定の2人を - と 0 としよう。- が列の端にくる確率は 、その隣に
がくる確率は であるから、この場合の確率は " である。
つぎに - が両端以外のところにくる確率は でそのとき 0 が - の隣に
来る確率は となって、この場合の確率は " である。この二
つは背反事象であるから求める確率は 0 " となる。
本のうち 本の当たりくじがあって一度しか引けないとき、何回目
に引くのが有利かを調べよう。
1人目が当たりくじを引く確率は
である。2人目が当たりくじを引
で、1人目がはずれたと
だから、結局 0 " となって1人目
きは
と同じ確率である。以下同様にして当たりくじを引き当てる確率は順番
にはよらないことを調べられる。
く確率は、1人目が当たったときには
ベイズの定理
- が互いに背反な事象で、標本空間 ? が - で分割され
ているとき、すなわち - - " ? であるとき、任意の事象
/ に対して
- -
/ "
* -
* / - * - * / - * -
"
が成り立つ。事象 / の起こる確率がわからなくても、条件付き確率がわ
かっていればよい。
定理は
* -
/
" * - * -
/
* -
" * - * /
-
ベイズの定理
"
* /
*
"
から
-
/ "
* -
* -
/
* -
/
/
* /
"
"
/
-
/
* / - * -
* / - * - * / - * -
と直ちに証明される。
ある体質をもつ母親が # いて、この母親から生まれた子供の # が
この体質をうけつぎ、この体質を持たない母親から生まれる子供の # が
この体質を持つとき、この体質を持った子供の母親がこの体質を持つ確
率を求めてみよう。
-
母親がこの体質を持つ
-
母親がこの体質を持たない
/
子供がこの体質を持つ
とすると、
* -
"
* -
"
* / -
"
* / -
" であるから、ベイズの定理により
* - /
"
"
* - * / - 0 * - * / - "
0 * - * / -
したがって、この体質を持った子供の母親の # がこの体質を持つ。
装置 ) と装置 7 を使ってある製品を作っている。装置の稼働率は ) が
#、Bが # で、装置 ) と 7 の不良品発生率はそれぞれ #、 # で
ある。いま1個の不良品を見つけたとき、)、7 の各装置から発生する確
率を求めよう。
生産比率の確率は
"
* -
"
* 0
不良品の発生する事象を @ とすると、
"
* + -
* + 0
"
第章
ベイズの定理より
"
0 "
0 * - +
* 0 +
全体で不良品が 出ているときは装置 ) が
* - + " の不良品を作り出している。
確率
第 章 離散確率分布
確率
数学的確率
コインには表と裏があるので,これをトスしたときに表が出る確率は
( である.同様にサイコロをふって の目の出る確率は ( である.起
こりうる事象が あって,それらが重複して起こることがなく,またど
の事象も同確率で起こることが期待されるときは,ある事象が起こる確
率は
である.これを数学的確率という.また,古典的確率,先験
的確率とも言う.
統計的確率
コインを 回トスして表が出る度数が であるとき, を相対度数
という.この相対度数は確定した値ではなく,試行の度に変化するが,
の値が大きくなると変化の幅が小さくなり,ある一定の値に近づく.こ
の一定の値を統計的確率という.
大数の法則
一回の試行で事象 ) の起こる確率を , 回の独立な試行で事象 ) が
起こる相対度数を とすると,
" が成立する.即ち,統計的確率は試行回数が多くなると数学的確率に近
づく.
第 章 離散確率分布
図 $ 大数の法則
確率変数と確率分布
サイコロを投げたときの目の出方は から までの 通りであるから、
の確率ででること
が期待される。サイコロ投げでは各々の目に対して確率 が付随して
いると考えることが出来る。試行の結果その値が確率的に決まるような
変数を確率変数という.サイコロ投げでは、確率変数のとる値は から までの整数で、確率は等しく である。このように確率変数 1 のとる
値が整数であるとき、1 を離散確率変数という。これに対し、身長や体
重のように、とる値が連続的な場合の確率変数を連続確率変数といって、
離散確率変数と区別し、次章で扱う。
サイコロが精確につくられていればどの目も同じ
離散確率変数 1 のとる値が であるとき,1 " という
事象が起こる確率を とすると, と とが対応づけられる.この対
応を 1 の確率分布という.ただし,
"
である.また,確率変数 1 が値 をとる事象の確率を
* 1
" または
* と書いて,1 が 1 であるような事象の確率を
1 * と表す.
3枚のコインを同時に投げるとき、表 = + のでるコインと裏 >
のでるコインの組み合わせは
! ! ! ! ! ! ! ! ! 確率
! ! ! の 通りである。これから表(裏)のコインの数を 1 として、1 の確率
分布 * 1 は
(
* 1
" (
(
(
と与えられる。
累積分布関数
累積分布関数 ' は確率変数 A がある値 以下をとる確率、すなわ
ち確率関数 の累積和として定義される:
" * 1 "
' この定義から、
'
" '
"
' * " ' ' となる。
3個のコインを同時に投げたときの累積分布関数 ' は
' (
(
(
確率変数の期待値と分散
確率変数 1 が次のような確率分布に従うとき、
確率変数 1
確率 *
"
第 章 離散確率分布
A の期待値(または平均値)/ 1 は
"
/ 1
" 0 で与えられ,分散 2 1 は
2
1 " / 1 "
で与えられる.標準偏差 は
"
0 0 " 2
" / 1
1 である.
体育の日である 月 日は天気の特異日であるため、運動会が集中
している。ある街の弁当屋はこれまでの経験から、前の日の夕方晴れな
らば、翌日も晴れる確率が (、雨なら翌日も雨の確率が ( であるこ
とを知っている。晴れならたくさんの運動会が行われ、多くの注文があっ
て、 万円の利益が見込まれるが、雨なら廃棄しなければならないので
万円の損失となる。前の日が晴れているときの弁当屋の利益の期待値
はいくらか?
晴れ 晴れ " 、* 雨 晴れ "
れ 雨 " 、であるので
*
期待値 " 0 、* 雨 雨 " 、* 晴
" 期待値は 万円である。
黄色い玉6個と赤い玉2個が入っている壺のなかから、任意に3個の
玉を取り出す。このとき、黄色い玉の数を確率変数 A として、A の期待
値と標準偏差を求めよ。
赤い玉は2個しかないから、3個の玉を取り出すとき、少なくとも1
個は黄色の玉が含まれる。8個の玉から3個取り出す組み合わせの数は
+
である。
1個が黄色の場合:
モーメントと母関数
黄色い玉を1個とる事象と、赤い玉を2個取り出す事象は独立だから、黄
色い珠を1個、赤い玉を2個とりだす組み合わせの数は
+
+
+
であるから、確率は
* 1
" "
* 1
" "
" "
+
"
+
である。
2個が黄色の場合:
+
+
"
+
3個が黄色の場合:
* 1
+
+
"
+
以上から A の確率分布は
* 1
" (
(
(
従って、求める A の期待値は
" 0
0
"
分散は
" 0 0 "
モーメントと母関数
確率変数 1 の平均は
"
/ 1
と表されるが、これを確率分布の1次のモーメント(期待値)ともいう。
一般に高次のモーメントを考えることが出来て、
/ 1
"
第 章 離散確率分布
と表わす。このとき平均と分散はそれぞれ
" / 1 " 2 1 " / 1 / 1 のように、1次と2次のモーメントを使って表される。
モーメントをある関数の級数展開の係数として求めることが出来れば、
そのつど計算をしなくてすむ。ここで指数関数の展開
"
,
;
" 00
;
0
0
;
を使う。ただし ; は階乗といい、
; " で定義される。確率変数 1 を引数にふくむ指数関数
,
" 0 31 0
;
31 0
;
31 0 の期待値をとれば
"
/ ,
0 3/ 1 0
3
;
/ 1
0
3
;
/ 1
0
とかける。これを 3 の関数 43 と考えると右辺は 43 の 3 " でのテ
イラー展開になっているから、
/ 1
"
4 3
3
のように、& 次のモーメントは関数 43 の & 階微分で表現できること
がわかる。これから関数
" / , 4 3
をモーメントを生み出す母関数という。
したがって平均、分散、 次の期待値はそれぞれ
2 1 " 4 4 " 4 / 1 "
/ 1
4
モーメントと母関数
と表される。ただし 4 は 4 を 階微分して " とおいたもの
を表す。また歪度と尖度はそれぞれ
"
/
"
/
1 1 となる。ただし3次、4次のモーメントは
/
/
1 " / 1 / 1 / 1 0 / 1 1 " / 1 / 1 / 1 0 / 1 / 1 / 1 と表される。
チェビシェフの不等式
標準偏差ととりうる確率について、どんな分布にも成り立つ不等式が
チェビシェフによって見いだされている( 年)。どんな確率変数 1
も、その期待値 "
の周辺に確率が集中していて、期待値から離
れるに従い確率は小さくなるが、その程度は分散 " 2 1 による。
/ 1
確率変数 1 の平均が 、分散が のとき、
を任意の正数として、
*
1 が成立する。
これによれば、 " に対して
*
1 となるから、平均の周りに標準偏差の2倍の区間をとれば、その外側の
値をとる確率は # 以下であることがわかる。
チェビシェフの不等式の証明は以下の通り。
"
第 章 離散確率分布
"
5
"
5
5 * 5
ここで 5 " とおけば証明される。
確率変数の標準化
確率変数 1 の期待値を ,標準偏差を とすると,確率変数
6
"
の期待値は / 6 " ,標準偏差は
1
1
2
6 " となる.これを確率変数
の標準化という.
ベルヌーイ試行
繰り返し行われる独立な試行で、おのおのの試行にたいしてただ2つ
の結果だけが可能で、それらの起こる確率が各試行で一定であるとき、ベ
ルヌーイ試行という。2つの結果の起こる確率を と 7 で表し、確率 を持つ結果を
成功
、7 を持つ結果を
失敗
と呼ぶことにすると、
07 "
である。
1枚のコインを何回も続けて投げることによって得られる事象
バランスがとれていれば " 7 " 、そうでなければ は任意の
値をとる。
壺からボールを繰り返し取り出す試行
個の赤いボールと 個の白いボールがあるとき、その都度もとに
戻すとすれば " 0 のベルヌーイ試行である。
さいころで目が1であるか、1でないかの区別をするときは "
のベルヌーイ試行であり、偶数か奇数かを区別するときは "
のベルヌーイ試行である。
二項分布
大量生産された製品の品質が基準以内であるかないかを区別すると
きもベルヌーイの試行が得られる。実際には機械の変化などにより、
製品が規格内か規格外かの確率が一定ではないので、ベルヌーイの
試行とは異なるが、品質管理の立場からは、ベルヌーイ試行である
ことが望ましく、ベルヌーイ試行は理想的な基準である。理想的な
基準からずれることを早期に発見する手段になっている。
二項分布
択一式試験の正答率
受験生の多い試験では採点の都合上,マーク式の試験が行われること
が多い.この試験で,でたらめに回答したときの正答率を求める。
二者択一
はじめに二者択一形式の場合を考える。でたらめに回答するには,コ
インをトスして表が出たら回答群から1を選び、裏が出たら2を選ぶと
して、 問に対して、正答率を調べる。
問に対する正答率は ( だから,次のような確率分布を得る.
1 問に対して,正解 の確率
1 問に対して,正解 の確率
1 問に対して,正解 の確率
1 問に対して,正解 の確率
1 問に対して,正解 1 の確率
"
"
"
+ + +
"
+
"
+
したがって,1 問に対して,正解が 題以上の確率は
* 0
"
+
0 0
+
+
と表される.ただし
+
"
0 第 章 離散確率分布
個の選択肢の場合
二者択一の場合に対する解析を,一般の場合に拡張してみる.選択肢
の数を とすると,一問につき正答する確率 は "
上の例で
を に,もう一つの
であるから,
を に変えればよい.
1 問に対して,正解 の確率
1 問に対して,正解 の確率
1 問に対して,正解 の確率
1 問に対して,正解 の確率
1 問に対して,正解 1 の確率
"
"
"
+ + +
"
+
"
+
したがって,1 問に対して,正解が 題以上の確率は
* "
+
0
+
0 0
+
と表される.
.
二項分布
上で見た確率分布は二項係数になっているベルヌーイ試行に対して,)
の起こる回数を 1 とすると,1 の確率分布は
A
B
+ 7 + 7 + 7 + 計
で与えられる.ただし 7 " である.これは二項展開の各項で与えら
れるので,二項分布と呼ばれていて,
0 で表す.二項分布は、成功の確率 、失敗の確率 7 "
であるよう
な試行を 回行った結果、 回成功し 回失敗する確率を与えて
いる。
二項分布
図 $ 二項分布
新薬の臨床試験
新薬の予防効果を検査する場合を考えよう。家畜がその病気に感染する
割合を # とする。いま、病気にかかっていない 頭に薬を注射した。
試験される 頭のうち、 頭が無感染である確率は
+
"
としてよい。 " " ならこの確率は 、 " " で
あれば である。この数値は現実には起こりにくいことを示してい
るので、もし、試験動物の数が や で1頭も感染しなければ、断定
的な証拠ではないが、新薬が有効であると考えて良い指標になる。
薬を使わなければ、 頭のうちせいぜい1頭が感染する確率は
+
0
+
であるから、現実には起こりにくい事象と考えて良い。従って、試験動
物 頭のときに全部が無感染であるより、試験動物 頭を使いそのう
ち1頭だけ感染する場合の方が、薬の効果を肯定するより強い証拠とな
る。 " のときたかだか 頭が感染する確率は であるから、
薬にとっては、 頭中2頭感染する方が 頭中1頭の感染または 頭
中全部無感染よりもさらによい証拠となる。
実際の新薬試験では / と / に分けて効果を
チェックする。このとき、実験に使われる動物の個体差は問題にならない
とされることが多い。
いま 人の人がある薬を飲んだ場合と飲まない場合とで血圧を測った。
と であったとする。 番目の試行が
なら成功、そうでなければ失敗とする。
(簡単のために2つの測
測定値は 定値が同じになることはないとする。)もし薬が効かなければ、観測は
第 章 離散確率分布
" をもつ 回のベルヌーイ試行に対応するはずである。成功例が
多いときは薬が効くことの証拠と考えて良い。
二項分布 0 の平均は で与えられる。
"
"
"
"
+ 7 ;
; ;
;
7
;;
"
"
+
0 7 7 7
" また、分散は 7 " で与えられる.
"
/ 1
"
/ 1
/ 1 0 "
/ 1 1
"
"
"
"
これから、 "
0 1 ;
7
;;
0 / 1 ; 7 0 ; ;
0 7 0 0 " で分散が最大になることがわかるが、これは予測がし
にくいことをあらわしている。天気予報で降雨確率が #のときは、傘
を持っていくかどうか大いに迷うものである。
二項分布の母関数
二項分布 0 に従う確率変数 1 の母関数は
" , 0 4 3
二項分布のポアソン近似
で与えられる。実際
"
4 3
/ ,
"
,
"
+ + , , 0
, "
"
0 と定義によって計算される。
二項分布のポアソン近似
二項分布に対して、 が大きく(大量の観察) が小さくて(まれにし
か起こらない稀少現象)、その積
8
" が適度の大きさであるときに有効な近似式がポアソンによって導かれ
ている。いま
" +
:
とおくと、
: " 8
である。両辺の対数をとり、テイラー展開を使えば
: " 8
8 8
だから、 が大きければ
0
" , なる関係式を使って
: ,
を得る。一方、
:
"
: 8
8
第 章 離散確率分布
これから、 "
に対して
: 8,
: 8
,
をうる。一般に帰納法により
:
8
;
,
となる。この右辺をポアソン分布といい、
: "
8
8
;
,
と表す。
人のうち 人の誕生日が元旦である確率を とする。このとき、
人が元旦に誕生日をもつ確率は " であるから、 人選び出す
作業は、確率 の試行を 回繰り返すことであり、二項分布で表現で
きる。これをポアソン分布で近似するとき、8 " " である。
:
8
ポアソン分布
二項分布のポアソン近似から明らかなように、一つ一つはあまり起こ
りそうにないが、試行の数が大きい様な場合に成り立つので、警察や消
防署への通報や,窓口や停留所への客の到着などはポアソン分布に従う
ことが知られている.これらの事象はいつも等間隔で起こるわけではな
く、固まって起こったり、全く起こらない期間があったりするが、いずれ
沢山起こることが確実なものである。
レポートのタイピングでは、どの文字もミスタイピングの確率が変わ
らなければ、文字と同数のベルヌーイ試行が得られる。ちょうど 個の
ミスプリントを含むページの度数は : 8 である。8 はタイピストの特
性でミスプリントを含むページの密度である。実際は、疲れてきたとき
にミスタイピングが増えると考えられるから、ミスプリントはあるとこ
ポアソン分布
ろに固まって現れることになる。従って、ポアソン分布は一様な状態や
統計的な状態からのずれを発見するのにも利用できる。
単位時間区間を非常に多くの個数、すなわち 個の区間に分割し、お
のおのの長さを
とする。1つの部分区間はランダムな点(事象)を
まったく含まないか、あるいは少なくとも1点を含むかのいずれかであ
るから、これを成功、失敗とする。部分区間の長さはみな同じにとって
あるから、すべての 個の部分区間に対して成功の確率 は等しい。互
いに重なり合わない時間区分の独立性を仮定したので、ベルヌーイ試行
となるから、 回の試行で 回成功する確率は
:
で与えられる。単位時間での観測数(観測密度)8 に対して
8
ならば のとき
:
8
: 8 " ,
8
;
となり、単位区間にランダムな点が合計 個含まれる確率を得ることに
なる。
単位区間のかわりに長さ の任意の時間区間をとって、再びこれを長
さ
の部分区間に細分してゆくと、同じ成功の確率 をもつベルヌー
イ試行となるが、試行の回数は ではなくて に最も近い整数であるか
ら、長さ の一定区間内に、ちょうど 個の点が見いだされる確率は
:
8
",
8
;
で与えられる。
とくに長さ なる区間に点のない確率は、総区関数 "
、観
測数 " " 8 となるから、
8
",
となり、1個またはそれ以上の点を得る確率は
,
である。8 は 軸上での点の密度を決定するパラメーターであり、8 が大
きくなれば、点のない確率は小さくなる。
第 章 離散確率分布
試行を多数回、 回繰り返し、各回毎に、一定の長さ の区間に生じ
た事象の数を数えるとする。事象が 回観測される階数を とすれば
0 0 0 " となる。 回の試行で観測された点の総数は
0 0 0 " であり、 は平均観測数である。 が大きければ
: 8
が成立するとして良い(大数の法則)。ここで : 8 は長さ 区間に 個点が見出される確率である。
: 8 0 : 8 0 : 8 0 8
" , 8 0 8 0
0 ;
" 8
となるから、
8
を得る。
ポアソン分布に従うことが知られている事象には、交通事故件数、大
量生産の不良品発生件数、企業の破産件数、火災件数、爆弾命中率、遺
伝子の突然変異件数、電話のコール数、高速道路の料金ゲートへの到着
数、などが知られている。
ロンドンにおける爆撃弾の命中率
ランダムな点の空間分布が一様になる例として、第2次世界大戦中の
ロンドン南部の爆撃弾の命中の統計を見てみよう。全区域をおのおの面
積 "
の " の区域に分割し、ちょうど 個命中した数 を記録したのが表である。命中総数は
&
"
" 平均は
8
"
" で、ポアソン分布が良くあっている。
ポアソン分布
図 $ ポアソン分布
以上
: & - @ : C 8 * ) 3 3 爆撃地点が群がる傾向があるとすれば、多く命中したか、少しも当たら
なかったかのどちらかである区画が、もっと高い度数で現れ、中程度の
命中の度数が少なくなるはずであるが、区域がほぼ完全にランダムで均
一であることを示している。
ポアソン到着
ある事象が単位時間に平均 8 回発生し,発生する可能性がいつでも均
等であるとき,この事象はポアソン分布に従うという.このとき,微小
時間 の間に 回発生する確率は 8 で,時間 の間に 回発生する確率
8
は
8
"
8 ,
;
で与えられる.
分間に平均 人の割合で客が来るとき 8 "
する場合の発生確率は
8
"
;, 分間に誰も来ない場合の発生確率は
"
8
, 分間に 人到着
,
;
第 章 離散確率分布
ポアソン分布の導出
ポアソン分布は次のようにして求められる.いま の時間間隔に事
象が何回起こったかに関わらず 0 9 の時間間隔に事象が起こる確率
は 89 0 $9 であると仮定する.ここで 9 は微小量であるとし,$9 は
で 9 よりはやく に近づくことを意味している.事象が起こる確
率は考えている時間間隔が小さい限りそれに比例する(比例係数 8)とす
る仮定はよい近似である.
9
いま時間間隔 0 9 に事象が 回起こったとしよう.このとき,そ
の起こり方には次の3つの場合が考えられる.
の間に 回, 0 9 の間に 回
の間に 回, 0 9 の間に 回
の間に & 回, 0 9 の間に & 回,ただし & これらの3つの場合は互いに独立であるから, 0 9 に事象が 回起
こる確率を * 0 9 と表すと
0 9
*
"
"
*
*
, 0 *
89 0 *
,
0
89 0
*
,
89
*
となる.ここで次のことを使った。 回も起こらない確率は
少なくとも
"
89
89
,
;
" , 89
回起こる確率は
" D,
89
D 89 " 89
これを書き換えると
0 9 * *
9
" 8* 0 8*
0
*
9
89
となるから,ここで 9 とすると
*
" 8* 0 8*
なる * の従う方程式を得る.この方程式の解が先に与えられた
*
" , 8
;
ポアソン分布
である.* を で微分すると
*
8
8 0, 8
;
;
" 8* 0 8* " 8,
によって * が上の方程式の解であることが直接確かめられる.
回の試行のうち、確率変数 1 が の値をとる確率関数が
* 1
" " "
8 ,
" ;
で表すことができるならば、確率変数はポアソン分布に従う。
平均と分散
ポアソン分布の平均と分散は
"8
"8
で与えられる。これらは次のようにして求められる。
平均:
"
" 0
分散:
"
8
"
8, ,
"
"
"
8
;
0
080
8
;
"8
8
;
8
0 ,
0 088 "8
8
;
;
,
0 ,
8
;
"
8
;
0
" 8 0 8 0 8 0
"
,
8
8
0 ,
8
第 章 離散確率分布
ポアソン分布の母関数
パラメータ 8 のポアソン分布に従う確率変数 1 の母関数は
" ,
4 3
である。定義により
"
4 3
/ ,
"
, 8
,
;
8, ,
;
,
,
,
"
"
"
を得る。
指数型サーヴィス
ある仕事を 時間以内に終える確率が
,
と表されるとき,そのサーヴィスは指数分布に従うという.このとき,所
要時間の平均は
,即ち,単位時間内に平均
件のサーヴィスが行
える.
つの窓口で
人平均 ( 分間の割合で指数型サーヴィスを受けると
すると,ある人へのサーヴィスが
分以内で終了する場合の発生確率は
, となる.
あるビルでトイレが偶数階にある. 階には 人勤務していてトイレ
が一つ, 階には 人勤務していてトイレが つある. 階で勤務して
いる人はどちらへ行けば待たされないかを評価してみよう.
いま
人の使用時間を
分間としよう.もちろん個人差はあるが平均
で置き換えることにする.比較的長い時間間隔でのトイレの使用確率を
考えるために 分間を考えよう. 分を
分間隔に区切って 区
ポアソン分布
間を作り,ランダムに1区間ずつ使用されるとすると, 階では 人が
勤務しているので
区間あたりの平均人数mは
&
"
"
となる.ある特定の区間が r 人によって使用される確率はポアソン分布
"
&
;
,
で与えられるとすると
空いている確率 " "
,
;
,
;
2人の使用確率 " "
,
;
となる.したがって 階で待たずに使用できる確率は #である.一方
階の場合は
& "
"
だから同様に
1人の使用確率 " "
空いている確率 " "
,
;
,
;
,
2人の使用確率 " "
;
3人の使用確率 " "
,
;
となって,待たずに使用できる確率は
1人の使用確率 " "
0 " から #である.これから, 人に つより, 人に つの方が待たさ
れることが少ない.
次のような条件で特徴づけられる待ち行列を考えよう.
客の到着の仕方:ポアソン到着(到着率 8)
到着率:単位時間あたりの客の平均到着数
サーヴィス時間:指数分布(サーヴィス率 第 章 離散確率分布
サーヴィス率:単位時間あたりの客への平均サーヴィス数
窓口の数"
待ち行列のルール:先着順
トラフィック密度を
:
"
8
とすると,行列が安定であるためには :
でなければならない.そう
でないと行列がどんどん長くなってしまう.単位時間を 等分したとき
の1区間の時間の幅を 9 とすると, が大きくなると 9 が小さくなって
9
の間に2人以上の客が到着する確率は無視できるようになる.このと
き,N 個の区間のうち 8 個の区間には客が1人到着し,18 の区間には
客は到着しないとして良い.また,N 個の区間のうち の区間では客へ
のサーヴィスが終了し,N 個の区間ではサーヴィスは終了していな
いと考える.また客の数が n 人である確率を * とする.
ある区間の最後の時点で客が1人もいないときには次の可能性が
ある.
前の区間で客がおらず,9 の間に客が到着しない.この確率は
* 89
* ,
前の区間では1人の客がいたが 9 の間にサーヴィスが終了し
た.この確率は * , * 9
これからある区間に客がいない確率は
*
" * 89 0 * 9
で与えられる.これを解いて
*
"
8
*
" :*
である.
ある区間に n 人の客がいるときには次の可能性がある.
前の区間で n 人にいて,9 の間に新しい客も来ないしサーヴィ
スも終了しない.この確率は * , , * 89 9 * 5 8 0 96
前の区間で 人いて,9 の間にサーヴィスが終了せず、しか
も1人きた.この確率は * , , * 89 9 * 89
ポアソン分布
前の区間に 0 人にいて,9 の間に1人のサーヴィスが終
わった.この確率は * 899 * 9
これからある区間に n 人の客がいる確率は
" * 5
*
8 0 96 0 *
89 0 * 9
で与えられる.これを整理すると
8*
8 0 * 0 * " とかける.
これから
"
"
"
*
*
*
: *
: *
: *
規格化条件から
*
" *
"
:
*
:
"
よって
" :
*
" : *
従って待たされない確率は
:
* " : である.
サーヴィスを受けている人を含めて待ち行列にいる客の数は
"
*
:
: "
:
:
"
8
8
で与えられる.
サーヴィスを受けている客を除いて待ち行列にいる客の平均数は
* "
: : "
:
:
となる.ここで * と * は待っている客がいないので除いた.
待ち時間は次のように計算される.サーヴィスを含めて行列にいる時
間を とすると,この間に平均して 8 の客が到着するので
8
"
:
:
第 章 離散確率分布
である.したがって,
"
:
8
:
"
このうちサーヴィスを受けている時間は
8
なのでサーヴィスを受ける
までに待たされる時間は
8
:
"
8
と表される.
レジが つで, 分に 人の割合で客が到着し, 人当たりのサーヴィ
ス時間が 秒のとき,
8
" 分
"
分
:
"
だから,
待たずにサーヴィスを受ける確率" :"
:
待ち行列の平均人数"
:
"
サーヴィスを受けるまで待っている人数"
待ち行列の平均時間"
" 分
8
サーヴィスを受けるまでの待ち時間"
&
:
8
:
:
"
" 分
個の窓口問題
個の窓口に対して、待ち行列が1本の場合を考えよう。 人の客が
いる状態は、
人の客がいて、他に客がこないで、サービスを終わらない場合
人の客がいて、サービスが終わらないのに 人の客がきた場合
0 人の客がいて、客がこないで 人に対するサービスが終った
場合
である。時間間隔 9 の間に客はポアソン分布に従ってくるから、 人く
る確率は
89 ,
;
で与えられる。時間間隔 9 が小さければ、この確率は 9 に比例するの
で、 " の時だけ考えればよい。サービスの終了に対しても同様であ
:
89
"
個の窓口問題
る。いま、客の平均到着数は一定(8)としてよいが、サービス率は明ら
かに客の数に依存する。客 に対するサービス率を とすれば、
"
$
&
&
$
&
とできる。 個の窓口がふさがっているときにそのどれかがあく確率は
,
*
"
9 に比例するからである。上の三つの場合を表現すると
, , 0 * , , 0 * , 5 8 0 96* 0 8 9* 0 9*
*
従って、
&
に対して
&
*
,
: 0 * " :*
" :*
0 0 *
に対して
: 0 &* " :*
0 &*
となる。ただし : " 8 である。この解は代入して確かめられるように
"
*
*
:
;
*
&;&
:
$
&
$
と表される。確率の定義から
*
" * :
;
0
&;&
:
"
が成り立つので、客がいない確率 * は
*
"
:
;
:
0
& ;& :
となる。ただし次の関係を使った。
&
:
"
期待値は
"
で計算される。
"
:
&
*
"
:&
:&
第 章 離散確率分布
"*
"
*
*
"
:
;
;
:
"
"
:
*
&;&
0
:
;
"
;
0
:
"
:
0
:
0
:
;
&
;
&
:
& ;
& 0 &;&
:
& 0 &
:&
0
:
;
&
0
:
&
:&
:&
&
:&
0
:&
:&
多項分布
各々の試行で可能な事象を /
とすると
/
/
とし、/ が実現する確率を
0 0 0 "
である。 回の試行で、/ が 回、/ が 回、 実現する確率は
: "
;
; ; ; ; で、
0 0 0 " : は 0 0 0 の多項
展開の一般項なので、多項分布と呼ぶ。
抜き取り検査では、検査されるかされないかの場合に加えて、検査さ
れる製品が良品か不良品かという区分けが存在する。これは多項分布の
例である。
である。
2変数離散確率分布
2つのサイコロ - と 0 を同時に投げるとき、- の目をあらわす確率変
数を 1 、0 の目を表す確率変数を < で表すと、1 が の目、< が の目
2変数離散確率分布
を出す確率は
* 1
"
" "
<
と書ける。一般に、2つの確率変数 1 、<
があって、1 が 、< が をとる確率は
* 1
" <
" " "
& "
と表される。このときの確率分布を2次元確率分布という。
独立な確率変数の場合
確率変数が独立ならば、複数の確率変数で決まる事象の起こる確率は
それぞれの変数に対応した事象の確率の積である。すなわち
" * 1
<
" " * 1 " * < " である。
共分散
確率変数 1 と < の分散(これを共分散という)を + $= 1
+ $= 1 <
<
で表し
" / 1 / 1 / < / < で定義する。確率関数を使えば
+ $= 1 <
"
/ 1 / < * 1 " " <
と表される。書き換えると
+ $= 1 <
"
/ 1 "
1
と
<
/ 1<
* 1
" * <
<
" / < * 1
" " 0 / 1 / < / 1 / < が独立なら、/ 1 < "
だから + $= 1
/ 1 / <
ある。
練習問題
<
" で
第 章 離散確率分布
消費動向をはかるデータとして使われるのが「対前年同月比」であ
る。直前の「前月比」を使わない理由をのべよ。
(+ E の問題)
さいころを4回投げて、 の目が少なくとも 回でる確率を求
めよ。なた1回もでない確率を求めよ。
さいころを2個同時に投げるとき、 回投げてともに6の目
が少なくとも1回でる確率を求めよ。また、1回もでない確
率を求めよ。
人のゼミ生を5人ずつのグループに分ける分け方は何通りあるか?
3つのさいころを投げて目の和が9になる場合と10になる場合と
はそれぞれ6通りである。それぞれの場合の起こる確率は等しいか?
ある病気の検査を受ける人が病気の罹っている事象を )、検査の
結果被験者が病気であることを示す事象を 7 とする。このとき、
* 0 - " 、* 0 - " である時、検査法は信頼できると
する。検査を受ける人の病気の確率が * - " である時、* - 0 を求めよ。
飛行機はオーバーブッキングなどのために常時2つの空き席を用意
している。ダブルブッキングした乗客数 A が 8 " のポアソン分
布に従うとき、空き席が不足する確率を求めよ。
第 章 連続確率分布
連続分布
前章では離散確率変数に対して確率関数を定義したが、連続確率変数
に対しては * 1 " は測度0であるから、実数値が無限に存在するこ
とに対応して確率密度関数を導入する。
確率変数 1 が の範囲にある確率が
"
* で表されるとき、関数 を 1 の確率密度関数という。この確率密度
関数 に対して
"
が成り立っている。
確率変数 1 の確率密度関数が である時、確率変数 < " 1 0 の確率密度関数は である。 は規格化定数である。
"
"
"
分布関数
確率変数 1 が より小さい値をとる確率は
" * 1 "
' を分布関数という。分布関数は単調増加関数で、
' である。したがって確率変数 1 が の範囲にある
確率は
* " ' ' で表され、関数
' 第
章 連続確率分布
である。
分布関数は次の性質を持つ。
は についての単調増加関数である。
' '
" '
"
平均と分散
確率変数 1 の確率密度関数が のとき、平均は
" / 1 "
で与えられ、分散は
"
2
1 "
"
/ 1
/ 1 で与えられる。
確率変数 1 、< 、実数 、 に対して次の関係が成立する。
/ 1
/ 1
0 " / 1 0
0 < " / 1 0 / < これは次のように求められる。
確率変数 1 の確率密度関数を とすると、
0 " / 0
/ 1 0 "
2つの確率変数 1 と < の確率密度関数を とすると
/ 1 0 < "
0 " / 1 0 / < 分散については次の関係が成り立つ。
2
1 " / 1 / 1 2
1 0 " 2
1 モーメントと母関数
モーメントと母関数
定義から平均と分散は、確率密度関数の1次と2次のモーメントであ
る。同様にして高次のモーメントを考えることが出来て、
/ 1
"
と表わす。確率密度関数が平均 を中心にして対称なら、奇数次のモー
メントは0である。このとき平均と分散はそれぞれ
" / 1 " 2 1 " / 1 / 1 のように、1次と2次のモーメントを使って表されるのは、離散的確率
分布のときと同様である。したがって、連続確率分布に対してもモーメ
ントを生み出す母関数を考えることが出来る。
確率変数 1 に対して
" / , 4 3
をモーメントを生み出す母関数という。
共分散と相関係数
共分散
2つの確率変数 1 、< について、/ 1 " 、/ < " とするとき、
期待値 / 1 < を 1 と < の共分散といい、+ $= 1
<
で
表す。
+ $= 1 <
"
/
1 < "
/ 1<
< "
/ 1<
/ < "
/ 1<
/ 1 / < 1
0 0 / 1
また
2
1 0 < " 2 1 0 + $= 1
<
0 2 < が成り立つ。従って、2つの確率変数 1 、< が独立のとき、次の関係が
成り立つ。
+ $= 1 <
2
"
1 0 < " 2 1 0 2 < 第
相関係数
2つの確率変数 1 、< に対して、
+ $= 1 <
2
1 2 < を 1 と < の相関係数といい、: " :1
<
で表す。
章 連続確率分布
第 章 正規分布
正規密度関数と正規分布
多くの受験生がうけるテストの得点の度数分布をヒストグラムに表す
と,テストの問題が適当であれば,即ち,易しすぎず難しすぎなければ,
おおよそ釣り鐘状になる.度数を総度数で割り算した度数密度も同じ釣
り鐘状になる.度数密度を加えあわせれば1になるが,これを規格化と
よぶ.度数分布はしばしば大きな数を扱わなければならないが,度数密
度分布は0から1までの数を扱えばよいので,母集団のサイズが大きい
ときに取り扱いが便利である.この釣り鐘状の度数密度分布は,正規密
度関数と呼ばれ、平均値を ,分散を として
" >
,
で与えられる(, " .この関数は1に規格化されていて,
が成り立っている.このとき,
" >
,
"
図 $ 正規密度関数
第章
正規分布
を,変数が 1 となる確率という.事象がこの確率に従うとき,変数
は正規分布をしているといい "
"
で表す.平均値と分散は
で与えられる.
正規分布の母関数
正規分布 に従う確率変数 1 の母関数は
"
4 3
"
/ ,
,
>
" , "
,
>
と求まる。すなわち
,
,
" , 4 3
である。ただし、ここで積分
,
"
>
?
を使った。
母関数のテイラー展開の係数
3 "
4 3 "
4
0 3 0 3 ,
,
0 から
" 2 1 " 4 4 " "
/ 1
4
正規分布の性質
正規分布の性質
平均値は中央、標準偏差は変曲点。
*
1
" *
1
" *
1
" 独立な確率変数 1 と < がそれぞれ平均 、 、分散 、 の正
規分布に従うなら、和 1 0 1 は平均 0 、分散 0 に
従う。
標準正規分布
正規密度関数は変換
"
に対して不変になっていて,
" >
,
に帰着する.いくつかの異なる試験の結果を比較するときに偏差値が有
効になるのは,正規密度関数のこの性質による.正規分布 を標準
正規分布と呼ぶ.標準正規分布は表に与えられている.
平均点が 点で標準偏差が 点(ほとんど全員が平均点前後)だった
試験の 点の偏差値は
0
" となるが,平均点が 点で標準偏差が 点(かなり大きいばらつき)
だった試験の 点の偏差値は
0
" となるから,両方の試験の結果が正規分布に従っていれば前者の方が良
い成績であるといえる.
正規分布に従うデータ A に対して, 1 となる確率は
1 "
* " 第章
正規分布
で与えられる.
人がうけた試験の結果が,平均点が 点,標準偏差が の正規
分布に従うとする.このとき,成績の上位 番に入るには何点以上で
あればよいかを考えてみよう.6 " 1 とおけば 6 は に従うから,
* 6
"
を満たす を求めればよい.
*
6 " * 6
" " 標準正規分布表から " と求められるから,もとの変数に戻して
1
を解いて
1
となる.したがって上位 番以内に入るためには 点以上あればよい
ことがわかる.
標準正規分布
標準正規分布表とその見方
標準正規分布表
" >
,
第章
正規分布
中心極限定理
特別の分布をのぞいてほとんどの分布が確率変数の数が増えるとその平均の確
率分布が正規分布で近似できる。その意味で正規分布は特別の位置を占めている。
確率変数
散がそれぞれ
であるとき、
が互いに独立に同じ確率分布に従い、その平均と分
の平均
の従う確率分布は、 が十分大きければ、 が従う確率分布がなんであれ正規分
となる。 が大きくなるに従って、 のばらつき(標準偏差)が
布
で小さくなってゆく。
とおくと、
である。 の母関数を
とすると、
である。
ところで の母関数は
が大きいとき近似的に は近似的に正規分布
してわかる。
だから
より、
に従う。従って
に従うことは以下のように
を得る。
に従う。分散が
は
となるから、
二項分布と正規分布
図 $
" " + 7 のグラフ( "
)
二項分布と正規分布
を
の関数として に対して
グラフを描くと図 のようになる.二項分布
に従う確率変数 は,
が大きくなると正規分布
(ただし )に近似的に従うことが
図 からわかる.
コインを 回投げるとき、表が出る回数を
とすると、表が出る確率は
は二項分布
に従う。平均と分散は
だから、
は正規分布 に従うとして良いから、
である。 が十分大きいので
とおくと は標準正規分布
である確率は
に従う。これから表が出るのが 回以下
である。また表が 回以上 回以下である確率は
である。
正規分布に従うとされている確率変数
成年男子の身長分布
男女の結婚年齢差を確率変数
に従う。
としたとき、 は の正規分布
所得分布(ただし、所得を確率変数 としたとき、 に対する正規分
布(対数正規分布)となる。)ジブラ法則と呼ばれている。
第章
正規分布
よく管理された生産工程で製造された製品の特性(たとえば時計の精度な
ど)の分布。
測定誤差
多人数の受験する試験の成績分布(ただし、最近の研究によると、センター
テストの結果は正規分布からずれているらしい。)
二項分布に従う確率変数
は、試行回数 が大きく、
いは のときは正規分布で近似できる。
ある
観測と誤差
ある事象
を観測して得た観測値
から
の真値をどのように
見積もるかを考える。観測値には必ず読みとり誤差や、計算誤差などを含むので、
通常は誤差を最小にするために同様の観測を多数回行うことになる。この多くの
観測値から目的の真値にもっとも近い、「もっとも確からしい値」はどんなとき
に求められるかを考えよう。
誤差分布
誤差(観測値―真値)がその正負大小に応じてどんな頻度で起こるのかを示す
分布を調べよう。誤差が と の間の値をとる確率が
で表されるとき、
を における誤差の確率密度という。
誤差はすべて一定の絶対値 を持つが、正負両側で同じ確率でおこるとする。
このとき、1観測に現れる 個の誤差データの中で 個が負、 個が正の場
合、誤差の値は
個から 個を選び出す仕方の数だから、
である。これが起こる頻度は
である。同様に
個のデータのうち、 個が負になる場合は、誤差が
で、現れる頻度は
である。従って頻度の比は
となるから、
最確値
を
の連続関数であるとすれば
と近似できる。これから上の比は
となる。従って
を得る。ここで
とおけば
となる。規格化条件
が求まって、確率密度は
から
あるいは
となる。これは正規分布である。ここで は誤差分布の分散(正確には
を表す。
この誤差分布はガウスによって求められたのでガウス分布ともいう。
倍)
最確値
もっとも確からしい値、最確値を求めよう。真値を
であるが、この誤差の確率密度
を最小にするような の値
で極値を持つことであるから
が同時に得られるときの確
に比例する。従って、この確率を最大にするような
い。言い換えれば
とすれば観測誤差は
が正規分布(ガウス分布)に従うとき
である。各観測値に対する誤差
率は
の値を最確値と考えてよ
が最確値である。このことは上の関数が
が成り立つ。すなわち最確値は
で与えられるから、観測値の算術平均である。
第章
正規分布
最確値の信頼性
分散
誤差の分散は
だから、誤差分布がガウス分布で与えられれば
真値を
最確値の信頼度
とする量の観測値
Æは
Æ の算術平均を とする。誤差を
とすれば最確値の誤差
である。
さて、このような1組の観測を多数回行い、 たときのおのおのの に対する標準偏差
は
Æ
である。ところで
Æ ! を得
Æ
で、 が大きくなると、第2項は正負が同じように混じってくるのに対して、第
1項はどんどん大きくなるから、第2項は無視できて
あるいは
これは最確値の分散は各観測値の分散に比べて だけ小さい。
秤量問題
、 の2つの物体の重さを天秤を用いて測定する場合(重さのわかっている
各種のおもりがついているもの)、次のどちらの測定法が測定誤差が少ないか?
測定は2回しかできないものとする。1) 1回目に左の天秤に をのせてその
秤量問題
重さ を求め、2回目に左に をのせてその重さ を求め、この 、 をもって
、 の重さと推定する。2) 1回目に左の天秤に と をのせてその和の重
さ をはかり、2回目に左に を、右に を乗せて重さの差 を測定して、、
の重さを
、 と推定する。
それぞれの測定法の誤差を考えよう。 と の真の重さをそれぞれ と と
すると1回目の測定法の場合
"
" #
#
" #
$ % 天秤の読みの誤差は一定でその分散を とおけば、
となる。2回目の測定法では
" $ % # $ % だから、誤差の分散は " # 、 " # に対して求めればよい。
" # $ " #
% となるから、2回目の測定法は誤差の分散が半分になっているので、2回目の測
定法の方が優れているといえる。1回目の測定法では 、 がそれぞれ1回しか
はかられていないが、2回目ではそれぞれ2回測定されているので、観測誤差の
分散が2回目が1回目の半分になっている。一般に1回観測したときの誤差を とすれば、2回独立に観測したときの誤差の分散は 、 回独立に観測したと
きは となる。
第 章 正規分布から導かれる
分布
分布
互いに独立な 個の正規分布
に従う確率変数を
るとき、それらの2乗の和がつくる確率変数 度 の 分布という。
&
自由度
の & 分布の確率密度関数は
ここで はガンマ関数で
"
とす
の分布を自由
' '
で定義される。
分布
正規分布
に従う確率変数
が独立であるとき、確率変数
'
&
と自由度 の 分布に従う確率変数
の分布を自由度 の 分布という。
'
図 $ 自由度 の 分布の確率密度関数
第章
正規分布から導かれる分布
図 $ 自由度 の 分布の確率密度関数
第 章 母集団と標本
標本調査
全数調査
国勢調査
標本調査
全数をとっても追加的な情報がないことがはじめからわかっている場
合:
地域の物価指数を作るとき、たくさんの商品の小売価格を調
査するが、商業集積地では商品の価格をすべての店舗で調べる必要
がない。競争が激しければ、同じ商品の値段には ¥%の差しかな
いのがふつうである(1物1価の法則)。従って2−3の店舗で値段
を調べれば十分である。物価指数については、1個の商品のウェイト
が大きくならないようにしている。
実行が不可能:
鯨の生息数を調べるのに、海の水をすべて汲み上げて鯨を一
頭ずつ数えることはできない。標本調査で推定するしかない。
全数をとることが本来の目的と合致しない場合:
スープの味見をするのに全部飲んでしまったら、もう一度作り
直さねばならない。製品の品質検査などは標本調査でなければなら
ない。
標本抽出法
郵送法
留め置き
面接
集団面接
電話
長所
経済的
広い地域で調査可能
調査項目を検討できる
郵送より回収率は高い
質問項目以外の情報も収集できる
限られた時間で調査数を多くできる
調査の手間が省ける
標本がすぐ手に入る
抽出法
有意抽出法
ß 調査主体が意図的に標本を抽出
ß 行政の公聴会や諮問機関の委員の選出
短所
回収率が低い
回収が遅れる
回収に手間がかかる
調査の協力度に左右される
調査に時間がかかる
他人の意見に左右される
正直に答えにくい
コストがたかい
第 章 母集団と標本
ß マスコミのコメンテーター
確率抽出法:確率的手続きで標本を抽出
ß 単純無作為抽出法
ß 層化抽出法
母集団を 個の等質な部分集団にわけ、その部分集団が母集団
にしめる構成比で標本を割り振る。標本個数が で、等質な部
分集団(層)の個数が 、各層に割り振られる標本の個数が なら、
(
(( ) 小売業の経営実態を調べるとき、従業員数でいくつかのランク
に分けてその構成比をだし、各層で標本を抽出する。
地域を分割して標本をうる地域抽出法も同様である。政党支持
率を調べるときなどは、地域の特徴を考慮した分割をする。
ß 系統抽出法
母集団がアルファベット順に並んでいるとき、抽出を開始する
ところを乱数表で決め、あとは、母集団の個数 、標本の個数
として、 を間隔で標本をえらぶ。母集団のばらつきと標
本の抽出間隔が一致する程度が高いと母集団を代表する標本を
得ることができない。
調査目的
調査目的をはっきりさせ、調査範囲を限定する。
調査対象を厳密にする。
調査項目は分析方法と対応させる。
調査項目
調査される人に拒絶されるような項目を排除する
調査項目は必要にして最小限にする
調査項目に興味を覚えるようにする。
曖昧な質問は回避する
回答しにくくても調査目的に合致する項目を入れる
回答を誘導する質問はさける
回答者の知的水準を疑うような質問を回避する。
「わからない」が大半にならないようにする
社会調査の信頼性
世論調査や意識調査では,調査対象のすべてに面接することができないので,
そのいくつかを抽出して,抽出された部分の特性から全体の特性を予測すること
になる.対象となるすべてを母集団といい,抽出された部分を標本という.標本
の特性が母集団の特性をよく反映するために,標本のサイズが適正でなければな
らないし,標本のデータは偏りのないように選ばれる工夫が必要である.
母集団と標本
母集団と標本
統計的な調査には対象を漏れなく調べる全数調査と,対象から一部を取り出し
て全体を推測する標本調査がある.全数調査の代表例は,国勢調査である.これ
は対象とする集団の要素が大きくなると事実上不可能なので,通常は標本調査が
行われる.政党支持率や製品の抜き取り検査などである.
標本調査で,調べたいもの全体を母集団といい,調査のために抜き取られた要
素を標本という.母集団から標本を抜き出すことを抽出といい,母集団,標本の
要素の個数をそれぞれ,母集団,標本の大きさという.
標本を抽出する場合に偏りのないよう,全体を正しく反映するようにしなけれ
ばならないが,その方法を無作為抽出法という.これには乱数が使われることが
多い.抽出には毎回元に戻す復元抽出と,元に戻さない非復元抽出がある.
母集団における変量の分布,平均値,標準偏差を,それぞれ母集団分布,母平
均,母標準偏差という.
標本平均と標本分散
確率変数
を平均
分散
の大きさ の無作為標本とするとき、標本平均を
の母集団から
で、標本分散を
( で定義する。ここで でなく で割るのは平均値が決まると自由なデータの数
が一つ減ることに依る(後出)。
標本平均の分布
母平均 ,母分散 をもつ母集団から復元無作為抽出された大きさ の標本
は,母集団の分布と同じ確率分布をもつ互いに独立な確率変数で
あれば,標本平均 の平均と分散は
となっている.すなわち,母平均 ,母分散 の母集団から大きさ
標本を復元抽出するとき,その標本平均 の平均と分散はそれぞれ
で与えられる.
の無作為
第 章 母集団と標本
大きさ
の母集団から非復元抽出によって,大きさ
は,標本平均 の平均と分散はそれぞれ
の標本を抽出する場合
で与えられる.母集団の大きな が標本の大きさ に比べて十分大きければ,
非復元抽出の結果は復元抽出の結果と一致する.多くの標本調査ではこれが成り
立っていると考えてよい.
母平均 ,母分散 をもつ母集団から抽出された大きさ の標本平均の分布
は, が大きければ,平均 ,分散 をもつ正規分布で近似できる(中央極
限定理).母集団が正規分布であれば,標本平均の分布も正規分布である.
母集団の中である特性を持つ要素の割合を母比率,標本の中でのそれを標本比
率という.いま,ある特性を持つ要素の母比率が である母集団から,大きさ
の無作為標本を抽出するとき,標本のなかでその特性を持つ要素の個数を とす
ると, は二項分布
に従うことがわかっている. が大きいとき,
は正規分布
で近似できるから,標本比率を とすると
*
*
+ *
+ * + * となる.従って,母比率 ,大きさ の無作為標本の標本比率を + とすると,
+ + とくに, が大きいときは,+ は近似的に正規分布 に従う.
大数の法則
チェビシェフの不等式
確率変数
,
の平均が 、分散が のとき、 を任意の正数として、
が成立する。
の確率密度関数を
,
,
とすると、この不等式は
のように成り立つことが示せる。
- - -
中心極限定理
大数の法則
確率変数
の列
が
互いに独立で
- に対して
とすると、
!
が成立する。ただし、 チェビシェフの不等式より
-
-
が成り立つから
!
! -
である。
中心極限定理
標本平均の分布は標本数が大きければ正規分布になる。
標本平均の中心極限定理
個の互いに独立な確率変数
が平均 、分散 をもつ同一の
分布に従うとき、 が大きければ、標本平均 は正規分布
で近似で
きる。 を標準化すれば
.
は
に従う。
第 章 母集団と標本
標本和の中心極限定理
個の互いに独立な確率変数 分布に従うとき、その標本和は
/
が平均 、分散 をもつ同一の
で表される。このとき、
.
/ だから、標本平均の和は正規分布
で近似されることになる。
標本比率 の分布の中心極限定理
二項分布
の正規分布
に従う確率変数
で近似できる。標本比率
は
は、 が大きいとき、平均
、分散 に対しては、標準化した確率変数
. に従う。
有限母集団
有限母集団からの非復元抽出
有限の要素( 個)からなる母集団(平均値 、分散 )の要素の特性値を
とする。この母集団から一度取り出したものは元に戻さずに 個
の要素を取り出し、その特性値を
とする。このとき、
としたとき、 の期待値と分散を求めよう。ただし、
有限母集団
, だから、 ! のとき、
, 0
, 0
である。従って、
これから、
すなわち、 は不偏統計量である。
!
のときは独立でないので、分散は共分散
は 非復元抽出なので、 と
を含む。
共分散は
"
" #
# これから分散は
"
# 以上から
第 章 母集団と標本
が成り立つ。
無限母集団にたいしては
であったが、非復元抽出された標本には独立性が無いので、係数
だけ小さくなっている。
なお、有限母集団で平均値を
と定義したので、分散を
と定義しても良い。このときは
となる。証明は同様にして出来る。 である時にはどちらでも良い。
第 章 統計的推定
母集団確率分布の特性値の推定
母集団は確率分布によって特徴づけられるが、確率分布はいくつかのパラメー
タを含む確率密度関数によって決まり、これらのパラメータを知ることによって
完全に指定される。このようなパラメータを母数という。母集団が正規分布に従
うときは、平均値 と分散 が母数である。
母集団が母数 を含む確率分布
に従うものとする。標
本から未知の母数 を推定するのが推定問題である。未知の母数 の推定値を1
つ与えるものを点推定、推定の精度をつけて1つの区間を与えるものを区間推定
という。
1
1
2 1
1
1
点推定
を用い、母数 1 の推定量 1$ は標本の関
1$ 1$ 一方、標本の実現値 に対する
1$ を母数 1 の推定値という。推定量は確率変数で、確率分布に従うが、推定値は実
1
母数 の推定には標本
数となる:
現値で1つの数値である。
不偏推定量
1
推定量 $ の平均が母数
1 に一致するとき、すなわち
1$ 1
1 1 の不偏推定量という。
平均 、分散 の母集団からの標本
は平均 の不偏推定量である。
がなりたつとき、 $ を
に対して
第章
は分散 の不偏推定量である。
統計的推定
上で、次の関係を使った。
% % 最尤推定値
分布の型がわかっているときの母数のもっともらしい推定量を求める方法を考
える。
1
が互いに独立で、未知の母数 をもつ同一の
離散確率変数
確率密度関数
を持つとき、その実現値
のおこりやすさは
1
1 / 1 1 1 1
と考えられる。この / 1 を母数 1 の尤度関数という。
が互いに独立で、未知の母数 1 をもつ
同様に、連続確率変数
同一の確率密度関数 1 を持つとき、その実現値 のおこりやす
さは
/ 1 1 1
1
と考えられる。このときも同様に / 1 を母数 1 の尤度関数という。
尤度関数を最大にする 1 の値を
1$ 1$ とするとき、
1$ 1 の最尤推定量という。
とすると
正規分布 に従う母集団からの無作為標本を
き、平均 と分散 の最尤推定値は次のように求められる。正規分布 を母数
の確率密度関数は
点推定の基準
だから、尤度関数の対数(対数尤度関数)は
0 となる。これを最大にする
30
3
30
3
とは
の解として求まる。この解を $ 、
$ と表すと、
$ $ の最尤推定値はそれぞれ
となる。これから、 と
である。
点推定の基準
母集団(母平均 、母分散 )から選ばれた大きさ の無作為標本から母平
均を推定する。
標本
から標本平均 が求まるとき、 は標本の抽出によって変化するので確率変数であり、従って、
標本平均と標本分散が求められる。
標本
不遍性
から標本平均 第章
統計的推定
の推定値 $ であるとみなす。
$ が求まるとき、 を
標本分散
は
で定義する。これは不偏分散であって
が成立する。一方
* とおくと
* となって、分散が小さく出てしまう。
とおくと である。また
であるから
* したがって
*
*
を示している。従って の点推定 $ は
$ このことは
となり、不偏分散である。
でなく でわり算する理由は次の通りである。標本は一般にどんな値も採
れるが、いったん平均 が決まってしまうと、その中の1個は、全体の平均が となるように決まってしまう。自由に値をとれる変数の個数は である。これ
を自由度 という。
有効性
不偏な統計量は一般にはいくつか有る。たとえば標本平均 の代わりに標本中
央値 & をとっても不偏量になっている。実際
&
& & 区間推定
である。ところがこのとき、分散は標本平均と標本中央値では異なって
& &
不偏量からの散らばりが小さい方が統計量としては好ましいので、この場合は標
本平均を取るべきである。このように、分散の小さい方を有効な統計量とする。
このことを有効性が高いという。
一致性
標本の大きさを無限に増やしたときに、真値に集中する推定量のこと。すなわ
ち任意の正の に対して
Æ
1$ 1 Æ
が成り立つことである。
区間推定
1
から評価され
1 1 によって行われる。標本
の実現値 に対して区間
"1 1 #
を母数 1 の信頼区間といい、確率
1 1 1 4
母数 の区間推定は母集団から抽出された標本
る2つの関数
をこの区間の信頼率と呼ぶ。通常は
11
1 1
4
となるように信頼区間を定める。
母平均 ,母標準偏差 をもつ母集団から,大きさ の標本を無作為抽出する
で近似できる.
とき, が大きければ,標本平均 の分布は正規分布
このとき,標準化
.
. は標準正規分布 に従うので,正の定数 5 に対して,
5 . 5
によって,
となる.信頼度 'とすると,
.
5
5 第章
だから,信頼区間は
統計的推定
'なら
で与えられる.信頼度
.
だから,信頼区間は
5
5 で与えられる.信頼度を大きくすると区間の幅も大きくなり、「いい加減なのが
当たりやすい」、「厳密にするとあたらなくなる」ことを示している。
さ
母比率に対しても同様のことがいえて,標本比率を
が大きいとき,母比率 に対する信頼区間は
+ + + +
信頼度 'で
'で
信頼度
+ とすると,標本の大き
と与えられる.
を
有権者の内閣支持率が 'で,無作為抽出した 人の有権者の内閣支持率
とする. が '以上,'以下である確率を求めてみる。
+
+
であるから
標準化するために
. +
とおくと,
+
.
の対応関係があるから,標準正規分布表より
+
.
となるから,求める確率は となる.即ち,標本のサイズは比較的小さくて
も母集団の特性を反映していることがわかる.
内閣支持率 を精度 ' 以内で推定するために必要な標本のサイズ
度 ' で考える。標本支持率を $ とすると
$
$ $ $
$ $
を信頼
区間推定
より、誤差は
%$ だから、従って
$ $
$ $
で、右辺は $ で最大なので、必要な標本サイズは
を満たしていればよい。
第
章 検定
統計的仮説と仮説の棄却
母集団分布に関する統計的仮説を,標本から得られる情報に基づいて,否定す
べきかどうかを判断する方法を仮説の検定という.仮説が正しくないと判断して,
これを否定することを仮説の棄却という.
検定においては,仮説を棄却する基準として,事象の起こる確率をあらかじめ
定めておく.この確率を検定の危険率という.危険率は,仮説が正しいのに,こ
れを棄却する誤りをおかす確率のことである.
危険率に対し,立てた仮説のもとでは実現しにくい標本値の範囲を,その範囲
でおこる事象の確率が危険率に等しくなるように定める.この範囲を危険率の棄
却域といい,抽出された標本が棄却域に入れば仮説を棄却する.標本が棄却域に
入らなければ,仮説を棄却するだけの根拠がないことになる.
あるコインを 回トスしたとき,表が 回出た.このコインの,表と裏
のでやすさに偏りがあると判断してよいかどうかを危険率 ' で検定してみる.
偏りのないコインであれば,
表の出る確率
であるから, 回のうち表の出る回数
てよい.このとき,
は二項分布
に従うとし
標準偏差 だから,これを正規分布 で近似すると,危険率 'としたので,
6 6 平均値
6 は整数値しかとらないから,
となる.従って,棄却域は
あるいは
となる. はこの領域に入らないから,コインに,表と裏のでやすさに偏
りがあるとは判断できない.過った判断を下す危険率は ' であるという。ある
いは、「偏りがある」という仮説は危険率(有意水準)' で棄却されるという。
あるサイコロを 回振ったところ、偶数の目が 回、奇数の目が 回で
た。このサイコロに偏りがあると判断して良いかどうかを ' の危険率で検定す
る。偏りのないサイコロであれば
偶数のでる確率
第 章
だるから、 回のうち偶数のでる回数
良い。平均値と分散はそれぞれ
は二項分布
に従うとして
6 である。 だから二項分布 は正規分布 るから、
6 6 である。かきかえて
検定
で近似でき
これから、標本値 は棄却域に入っていることがわかるから、「サイコロには偏
りがない」という仮説は危険率 ' で棄却される。
ここで危険率 ' にすると
6
6 すなわち
であるから、「サイコロには偏りがない」という仮説は危険率 ' で棄却されな
い。危険率が小さくなれば、仮説を棄却するのに慎重な検定となる。
確率値
標準化された検定統計量
. から、臨界信頼区間が求まる。この区間に含まれる確率が臨界信頼水準であり、
臨界危険率 =1−臨界信頼水準となる。このようにして求められた の臨界
値を確率値という。
4
4
ある製造行程で、平均寿命 時間、標準偏差 時間のテレビが
作られてきた。新しい製造工程が の標本で試され、平均 が得られ
た。新工程と旧行程に差があるかどうかを考える。
. . 臨界信頼水準 ' 臨界危険率 '
片側であれば
. 臨界危険率 '
非有意と有意とを分ける水準を、もっとも印象的な信頼水準、あるいは臨界信
頼水準、確率値という。
帰無仮説と対立仮説
帰無仮説と対立仮説
コインを 回トスして、 回表がでたとき、「偏りがある
」と
いう仮説は危険率 ' で棄却された。このように、仮説が棄却されたことで判
断を終えるフィッシャーの立場のほかに、もう一つ、もとの仮説を否定する仮説
を立てて、判断を吟味する立場がある。このとき、もとも仮説を帰無仮説 (
)*+,)-. . 、これと対立する仮説を対立仮説 ,-/, 0- )*+,)-. . という。
帰無仮説の採択
帰無仮説のもとで期待する結果が生じなかったことを根拠として、仮説を棄却す
ることは、結果が仮説と矛盾しないことを主張するのであって、仮説が真である
ことを主張するものではない。
古典的検定
7
7
7
帰無仮説 と対立仮説
は互いに否定の関係にあるので、 を棄却する
ことは
を採択する事を意味している。
7
7 採択
7 真
正しい判断、
その確率 信頼水準
第2種の誤り
その確率 7 偽
7 棄却
第1種の誤り
その確率 有意水準
正しい判断
その確率 検定力
4
4
8
8
ある製造行程で、平均寿命 時間、標準偏差 時間のテレビが
作られてきた。新しい製造工程が の標本で試され、平均 が得られ
た。新工程と旧行程に差があるかどうかを考える。
7 : 差がない
7 : 差がある
帰無仮説
対立仮説
危険率を ' とすると
.
より
従って、観測値
はこの範囲に入っているので、 は採択しうる。臨
7
界値は
臨界値 である。このとき
"
となるから
確率値
4 '
'
が成り立つ。
確率値
4なるとき、かつこのときのみ 7 は棄却される
第 章
仮説
検定
古典的検定の検討
7
8 は次のようにして求められる。
8 に含まれる値に対して
書き換えて
8 . '
7
7
殺人事件に対して、帰無仮説 無罪、 対立仮説
有罪としよう。無
実の人が有罪とされるときは第1種の誤り、罪を犯した人が放免されれば第2種
の誤りがおこる。「疑わしきは罰せず」は を小さくすることに対応し、この配
慮は、罪を犯したものが罪を逃れる確率 を増やしている。無実のものを有罪と
する過ちを完全にさけるには を0にしなければならず、このときは と
なって、あらゆる被告を放免して、裁判を無意味にすることになる。 と をと
もに小さくするには、犯罪捜査を改善すること、すなわち であるための証拠
をふやさなければならない。
4
8
4
7
9
4 8
両側検定と片側検定
母平均 、母分散 の母集団の母平均に対する検定を考える。
両側検定
両側検定では仮説は
7: 7 : と与えられる。 に関する検定は標本平均 が からどれくらい離れているか、
標本分散 * が からどれくらい離れているかを比較することで行う。
が既知である場合
の標準化変数は
. 平均に関する検定: 検定
において . は標準正規分布に従う。
. .:7 を棄却、 . .:7 を棄却しない
である。帰無仮説が正しければ
が未知の場合
実際の検定では が既知である場合はほとんどない。このときは母分散 を
標本分散 で置き換えたスチューデントの 統計量
*
'
' * を検定統計量とする。帰無仮説が正しければ、
の
分布
に従う。
' '
' ' 7
: を棄却、
のときに ' は自由度
' ' 7
: を棄却しない
片側検定
帰無仮説と対立仮説は
7: 7 : 対立仮説が異なっているので、
. .:7 を棄却、 .
.:7 を棄却しない
' ' :7 を棄却、 ' ' :7 を棄却しない
平均に関する検定: 検定
母集団の平均 の値を標本データから検定することを考える。このとき母集団
の分散 は未知とする。標本の平均と分散 を
(
( とすると、 は自由度 の ' 分布に従う 母平均 に対する仮説
検定として
とすれば、危険率 4 で母平均 は
' 4 4
* 書き換えて
' 4
' 4
第 章
の範囲にある。すなわち
* ' 検定
4
のとき、仮説は棄却される。
分散に関する検定:
検定
母集団の分散 の値を標本のデータから検定する方法を考える。このとき母
集団の平均 も未知であるとする。標本の平均と平方和 を
(
(
とすると、
は自由度
定仮説として
( & 分布に従う
$ の
母集団分散 に関する検
4 とすると、母分散の区間推定は
& 4 ( & 4
とする。危険率を
4で
& ( で定まる。書き換えて、母分散 は信頼度 & (
の範囲にあることがわかる。
4
第
章 統計学の歴史と構成