1.統計学の基本的な概念 1.統計学の基本的な概念 1.1 統計学とは何ぞや? 統計学は沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段 データ データ データ データ データ データ 要約値 ( 統計量 ) 実質科学的評価 <例>100 人の日本人について体重を測定した場合 100 個のデータを眺めただけでそこに含まれる情報を読み取るのは困難 100 個のデータのほぼ真ん中を表す要約値または代表値として平均値を求める 平均値が 60kg だった 「 100 人の日本人の体重はだいたい 60kg ぐらいである」という情報を読み取ることができる 「日本人の体重はだいたい 60kg ぐらいである」と推測する ※統計学では平均値のような要約値または代表値のことを統計量と呼ぶ。厳密に言うと、確率的に変動 する個々のデータを確率変数と呼び、確率変数 x の関数として定義される値 z=f(x)を統計量と呼ぶ。 1-1 1.統計学の基本的な概念 医学・薬学分野の研究で用いられるのは推測統計学 多数データの 数学的要約・記述 母集団 のデータ 記述統計学 ( 古典統計学 ) 無作為抽出 母集団 ( 準母集団 ) 標本集団 のデータ 少数データの 数学的要約・記述 推測統計学 ( 近代統計学 ) 逆規定 確率的推測・記述 ・記述統計学 調査対象集団=母集団のデータを要約し、母集団の情報を数学的に記述することが中心で、 古典統計学とも呼ばれる。 国勢調査で用いられる統計手法が代表例。 ・推測統計学または推計学 母集団から無作為抽出した標本集団の要約値から母集団の要約値を確率的に推測し、それ によって母集団の様子を数学的に記述することが中心で、近代統計学とも呼ばれる。 科学実験や世論調査で用いられる統計手法が代表例。 医学・薬学分野の研究(臨床試験、臨床研究等)では主として推測統計学が用いられるが、こ の分野独特の特徴がある。 1-2 1.統計学の基本的な概念 医学・薬学分野の研究は準母集団を対象にする点が特徴 母集団 非無作為抽出 準母集団 逆規定 標本集団 医学・薬学分野の研究では特定の疾患の患者を母集団にすることが多い 患者全体を正確に特定することは事実上不可能 母集団から標本集団を無作為抽出することも不可能 ある医療施設をたまたま受診した患者をとりあえず標本集団にする 標本集団の背景因子 ( 集団の特徴を表す項目、性別、年齢等 ) を調査 背景因子から母集団となるべき集団=準母集団を逆規定 準母集団と本当の母集団は微妙にずれる 同じような研究を行なっても準母集団がずれると結果もずれる 医学・薬学分野の研究の特徴≒限界 1-3 1.統計学の基本的な概念 1.2 データの要約方法 データの要約はグラフ化から 度 数 体重 図 1.1 度数分布図 データを要約する時は、まず初めにデータを見やすいようにグラフ化する。それには横軸にデー タの値を取り、縦軸にそのデータの数をプロットした度数分布図(frequency distribution)を用い る。 一般的な度数分布図では、データの値をいくつかの区間に区切り、その区間の中に入るデータ の数を柱状グラフとしてプロットする。 <度数分布図を描くメリット> ・データを感覚的に把握することができる→百聞は一見にしかず! ・データの内容についてある程度の情報を得ることができる ・データの解析方法について有益なヒントが得られる 1-4 1.統計学の基本的な概念 度数分布図を理想化したものが正規分布 σ=10 度 数 μ=60 体重 図 1.2 正規分布 度数分布においてデータの数→無限大、区切り幅→無限小とすると、理想的には正規分布 (normal distribution、ガウス分布)になる。 <正規分布の特徴> ・平均値を中心にして左右対称 ・平均値の度数が最も多く、平均値から離れるほど度数が減るベル型の分布 ・数学的な取り扱いが比較的簡単 ・現実のデータの度数分布を描くと、多くのものが近似的に正規分布になる ・厳密に言うと、現実には有り得ない理想分布→理想気体のようなもの 1-5 1.統計学の基本的な概念 最初の要約値は度数分布の中心を表す平均値 度数分布を眺めながら、データ内容を把握するのに適した要約値を検討する。最初の要約値と して、普通は度数分布の中心を表す値である平均値(mean)を求める。 x1 +⋯+ x i+⋯+ x n 平均値: m= x̄= n n 1 ∑x = ∑ x i= n i=1 n xi:i 番目のデータ <平均値の特徴> ・分布の重心を表す→全てのデータを均等に反映する ・正規分布では分布の中心を表す 次の要約値はデータのバラツキ具合を表す標準偏差 次の要約値として、普通は度数分布の幅つまりデータのバラツキ具合を表す値である標準偏 差(SD:Standard Deviation)を求める。 偏差(バラツキの定義): d i =x i−m n 2 2 平方和: SS =S x x = ∑ d i =∑ (x i−m) i=1 2 2 SS ∑ d i ∑ (xi−m) 分散: V = = = n n n √ SS 標準偏差: s=SD =√ V = = n √ √ ∑ d 2i n = ∑ ( x i−m)2 n 正規分布は例数、平均値、標準偏差によって分布の形が完全に決まる。そして現実のデータの 度数分布は近似的に正規分布になる。そのため普通は例数、平均値、標準偏差によってデータを 要約し、データに含まれる情報を把握する。 1-6 1.統計学の基本的な概念 <標準偏差の特徴> ・データ 1 個あたりのバラツキ具合を表す ・正規分布では平均値から分布の変曲点までの距離になる(図 1.2 参照) ・正規分布では平均値±標準偏差の間に全データの約 68%が含まれる ・正規分布では平均値±2×標準偏差の間に全データの約 95%が含まれる 推測統計学では標本集団の要約値から母集団の要約値を推測することが重要 多数データの 数学的要約・記述 母集団 のデータ 記述統計学 ( 古典統計学 ) 無作為抽出 母集団 ( 準母集団 ) 少数データの 数学的要約・記述 標本集団 のデータ 推測統計学 ( 近代統計学 ) 逆規定 確率的推測・記述 推測統計学の目的は標本集団の要約値を求めることではなく、標本集団の要約値から母集団 の要約値つまり母数(parameter)を推測すること。 常識的には、次のようにして近似的に推測できると考えられる。 母平均(母集団の平均値):μ ≒m:標本平均(標本集団の平均値) 母分散(母集団の分散):σ 2 ≒V :標本分散(標本集団の分散) 母標準偏差(母集団の標準偏差):σ ≒SD:標本標準偏差(標本集団の標準偏差) ※母数はギリシャ文字で表す習慣がある。 ※しかし母分散は V に相当するギリシャ文字がないため σ2 で表す。 ところが実際には、母分散と母標準偏差は次の式の方が近似が良い。 1-7 1.統計学の基本的な概念 母分散: σ2 ≒ SS =V * :不偏分散(偏らない分散) n−1 母標準偏差: σ ≒√ V * =SD * :不偏標準偏差(偏らない標準偏差) 平均値の定義式から、平均値と n 個のデータの間には 1 次従属関係がある。この関係から、平 均値を固定した時、n 個のデータの中で自由に変動できるデータの個数つまり独立変数の数は (n-1)個になり、これが自由度になる。 バラツキを生み出すのは独立変数だから、バラツキの合計つまり平方和 SS を自由度(n-1)で割 り、1 自由度あたりのバラツキにした方が近似が良い。 概念的には、次のように理解するとわかりやすい……かも。 母集団の分布は左右に広く広がっている 分布の左右の端の部分は度数が少ないため標本集団に抽出される可能性が低い そのため標本集団の分布は左右の端が少し切れている 母集団の標準偏差を推測する時は 標本集団の標準偏差よりも少し大きな値にした方が近似が良い 平方和 SS を n で割る代わりに (n-1) で割った値を不偏標準偏差にする 推測統計学では、特に指定しない限り V は不偏分散を表し、SD は不偏標準偏差を表す。そし てこれは標本集団のバラツキ具合の要約値ではなく、母集団のバラツキ具合の要約値の推測 値を意味する。 ※正確には、母数は要約値というよりも母集団の性質を左右する定数のことであり、母数によって確率変 数の挙動が決定される。 ※厳密に言うと、不偏分散の平方根は不偏標準偏差にならない。しかし不偏標準偏差を正確に計算する のは非常に面倒なので、普通は不偏分散の平方根で母標準偏差を近似的に推測する。 1-8 1.統計学の基本的な概念 標準誤差は母平均値の推測誤差を表す推測統計学独特の要約値 n 例を無作為抽出して 標本平均 m を 無限回求める 例数≒∞ 度 数 SD m = σ =SE √n σ≒SD x μ m2=55 m̄=μ m1=60 標本平均の分布 母集団のデータの分布 図 1.3 母集団の分布と標本平均の分布 標準偏差と標準誤差(SE:Standard Error)の混同は、統計学 3 大間違いの 1 つ。 <標準誤差の求め方> (1) 母集団から n 例の標本集団を無作為抽出する。 (2) 標本平均を求め、それを m1 として標本平均の度数分布図にプロットする。 (3) n 例の標本集団を母集団に戻す。 (4) 母集団からまた n 例の標本集団を無作為抽出する。 (5) 標本平均を求め、それを m2 として標本平均の度数分布図にプロットする。 (6) (1)から(3)を無限回繰り返す。 (7) すると図 1.3 のような標本平均の度数分布図ができあがる。 図 1.3 の標本平均の度数分布について次のことが成り立つ。 ・母集団のデータがどんな分布をしていても、この度数分布は漸近的に(n が多いほど) 正規分布に近似する。→中心極限定理 (推測統計学の基本定理 ) ・標本平均の平均値は母平均と一致する。 μ=m̄ 1-9 m 1.統計学の基本的な概念 μ:母平均 m:標本平均の平均値 ・標本平均の標準偏差は次のような値になる。→標準誤差 SD SDm = σ ≒ =SE √n √n SDm:標本平均の標準偏差 σ:母標準偏差 n:標本集団の例数 SD:不偏標準偏差 SE:標準誤差 標準偏差がデータのバラツキ具合を表す要約値であるのに対して、標準誤差は標本平均のバ ラツキ具合を表す要約値。これは、母平均を標本平均によって推測する時の推測誤差の大きさ を表す推測統計学独特の値である。 <標準誤差と標準偏差の使い分け> 80 mean±SE mean±SD 60 重 量 40 20 0 2 A錠 4 週 図 1.4 体重の推移 B錠 図 1.5 錠剤の重量 ・図 1.4 のように、母平均の変化とその推測誤差範囲を表したい時は標準誤差 μ=m±SE :「 μ を m で推測すると SE 程度の推測誤差がある」という意味 ・図 1.5 のように、データのバラツキ具合を表したい時は標準偏差 m±SD :「データには m を中心にして SD 程度のバラツキがある」という意味 ※一般には要約値つまり統計量の標準偏差を標準誤差と呼ぶ。しかし普通は平均値について議論するこ とが多いので、単に「SE」と書けば「平均値の標準誤差」つまり「SEM(Standard Error of Mean)」を指す。 1-10 1.統計学の基本的な概念 1.3 推定の考え方 推定は定量試験、検定は定性試験 推定 定量試験 検定 定性試験 統計学的推論 母数を推測 ↓ pH 計に相当 母数が基準値と等しいか どうかを○☓式で推測 ↓ リトマス試験紙に相当 推測統計学は推定(estimate)と検定(test)の 2 本柱で成り立っていて、定量試験である推定の 方が重要。しかし実際の研究現場では、推定よりも検定の方が頻繁に利用されている。 これは、推定は記述式の回答が得られるのに対して、検定は○☓式の回答が得られることに大 きな原因があると思われる。→記述式試験よりも○ ☓ 式試験の方が採点が楽! 点推定はピンポイントの推測、区間推定は幅を持たせた推測 (1) 点推定 母 平 均 :μ ≒m: 標 本 平 均 母標準 偏差: σ ≒SD=√ V = √ SS :不偏標準偏差 n−1 点推定(point estimation)は母平均を標本平均で、母標準偏差を不偏標準偏差で推測するピ ンポイント推測。 1-11 1.統計学の基本的な概念 (2) 区間推定 n≒∞ SE= σ ≒SD SD √n 1-α n 例を無作為抽出して 標本平均を無限回求める μ mL t(n-1,α) ・ SE 母集団の分布 mU m=μ ̄ μL m t(n-1,α) ・ SE μU 標本平均の分布と信頼区間 図 1.6 区間推定の模式図 区間推定(interval estimation)は、ある程度の幅を持たせて母数を推測する。 <母平均の区間推定法> 標本平均の分布は近似的に正規分布になり 標本平均の平均が母平均 μ に、標本平均の標準偏差が標準誤差 SE になる μ±2×SE の範囲に標本平均の約 95% が含まれる ある標本平均 m が μ±2×SE の範囲に含まれる確率は約 95% 逆に m±2×SE の範囲に μ が含まれる確率も約 95% μ=m±2×SE→μL=m-2×SE 、 μU=m+2×SE μL~μU:95%信頼区間または信頼限界(母平均が 95%の確率で含まれる区間) μL:95%信頼区間下限 μU:95%信頼区間上限 95%:信頼係数 ※厳密に言うと、SE に掛ける係数 2 は自由度(n-1)と信頼係数によって値が少し変わる。この係数を t 値と 1-12 1.統計学の基本的な概念 いい、自由度(n-1)、信頼係数 100(1-α)%の時の t 値を「t(n-1,α)」と書く。 μ=m±t (n−1, α)⋅SE → μ L =m−t (n−1, α)⋅SE ,μU =m+ t(n−1, α)⋅SE t (60,0.05)=2 , t (60,0.01)=2.66 , t(∞ ,0.05)=1.96 等 標準誤差 SE は不偏標準偏差 SD を√n で割った値だから、例数が多くなるほど小さくなる。し たがって信頼区間を狭くして母平均の値を精度良く推測するためには、データ数を多くするのが 一番効率的。→下手な鉄砲も数 射ちゃ 当たる! 推定は、漁師(Fisher!)が水面に映った魚(Poisson!)の影 m を見て、魚 μ を捕まえるようなもの。 点推定は銛で一突きの方法であり、区間推定は幅のある投網を打つことに相当する。銛は手軽 に扱えるが、魚に当たる確率は低い。投網を打つには技術を要するが、魚を捕まえる確率は高くな る。 そこで普通は点推定で母数を推定しておき、重要な時だけ区間推定を行うのが一般的。標準 偏差は点推定だけ行うのが普通。 1-13 1.統計学の基本的な概念 1.4 有意性検定の考え方 検定は定性試験だから、定量試験である推定結果から判定可能 SD=10 母集団の 推測分布 標本集団の 度数分布 μ0=50 μL m=60 μU 95% 信頼区間 図 1.7 信頼区間と有意性検定 検定は○☓式の定性試験だから、最初に問題を設定する。例えば体重の医学的な正常値を 50kg とすると、 問題:日本人の平均体重は 50kg か? この 50kg は検定の基準値 μ0 であり、この値は医学的に意義のある値を設定する。例えば医学 的な正常値、治療前の平均値等。 この問題を検討するために、日本人全体から無作為に 100 名の標本集団を抽出して体重を測 定したところ、平均値が 60kg、標準偏差(不偏標準偏差)が 10kg だったとすると、 95%信頼区間:μ=60±2× 10 =60±2→μ=58∼62 √ 100 この推定結果から、日本人の平均体重=母平均 μ は 95%の確率で 58~62kg の間にある、つま り μ は 95%以上の確率で 50kg ではないと言える。したがって、 1-14 1.統計学の基本的な概念 統計学的結論:日本人の平均体重は 50kg ではない→問題の答えは☓ という結論が 95%以上の確率で正しく、間違っている危険性は 5%以下である。 この状態のことを「有意水準(significance level)5%で有意」または「危険率(critical rate)5% で有意」と表現する。 例えば 95%信頼区間が 49~71kg だったとすると、μ はひょっとすると 50kg かもしれず、95%以 上の確率で 50kg ではないと言い切れない。したがって、 統計学的結論:日本人の平均体重は 50kg ではないと断定できない→問題の答えは保留 この状態のことを「有意水準 5%で有意ではない」と表現する。この結論は、 統計学的結論:日本人の平均体重は 50kg である→問題の答えは○ とは違うことに注意! 例えば 95%信頼区間が 49~51kg だったら、この結論を採用しても良い。 ※「保留」というと、何となく非科学的な感じがするかもしれないが、不確かなデータから得られた結果を 解釈する時は確定的なことを断言する方がかえって非科学的になる。得られたデータから結論できる限 界を明確にすることが「科学的」。 1-15 1.統計学の基本的な概念 推定を利用した検定を母集団側から見て手順化したものが有意性検定 σ ≒SD n≒∞ SE= SEt=1 SD √n 標本平均を t 値に変換する n 例を無作為抽出して 標本平均を無限回求める H0 : μ=μ0 t= m− μ 0 SE α/2 α/2 mL m=μ0 mU t(n-1,α) ・ SE μ=μ0 母集団の分布 μL α/2 p/2 α/2 -t(n-1,α) 0 t(n-1,α) t 分布 m μU to 標本平均の分布と信頼区間 図 1.8 有意性検定の模式図 母集団は永遠に不明のため、標本集団のデータから母数を推測し、それによって推定や検定 の原理を考える方が研究者にとってはわかりやすい。 しかし母集団は変動せず標本集団のデータが変動するため、母集団を基準にして推定や検定 の原理を考える方が数学者にとってはわかりやすい。 <有意性検定(test of significance)の手順> (1) 問題を設定する。 問題:日本人の平均体重は 50kg か?→ μ=μ0=50? (2) 帰無仮説(null hypothesis)と対立仮説(alternative hypothesis)を設定する。 帰無仮説 H0 :日本人の平均体重は 50kg である→ μ=μ0 または δ=μ-μ0=0 対立仮説 H1 :日本人の平均体重は 50kg ではない→ μ≠μ0 または δ=μ-μ0≠0 (3) 有意水準=危険率 α(α エラー)を決める。 1-16 1.統計学の基本的な概念 有意水準を 5% にする→ α=0.05 、信頼係数 (1-α)=0.95 (4) 母集団から n 例の標本集団を無作為抽出する。 日本人全体から 100 名の人を無作為抽出→標本集団 (5) 標本集団のデータを測定して要約値を求める。 100 名の体重を測定→標本平均 m=60 、不偏標準偏差 SD=10 (6) 帰無仮説が正しいと仮定した時の母集団を想定し、その母集団から n 例の標本集団を無作為 抽出して標本平均を求め、それを無限回繰り返した時の標本平均の分布を描く。 図 1.8 の母集団の分布と標本平均の分布→ μ=μ0=50 、 σ≒SD=10 、 SE=1 (7) その標本平均の分布で、母平均を中心にして標本平均の(1-α)が含まれる範囲を求める。 この時、範囲から外れる左右の端の α/2 の部分を棄却域という。 図 1.8 の標本平均の分布で標本平均の 95% が含まれる範囲 2×SE=2 より、下限 mL=48 、上限 mU=52 ∴ 下側棄却域: 48 以下、上側棄却域: 52 以上 ( 図 1.8 の標本平均の分布の薄い灰色部分 ) 95% が含まれる範囲の幅は 95% 信頼区間と同じ ( 推定の原理 ) 信頼区間は 60±2×SE より、下限 μL=58 、上限 μU=62 (8) 実際の標本平均 m が棄却域に入っているかどうかを調べる。 ○方法 1:m と棄却域の上限または下限を比較する。 図 1.8 より、この方法は母平均の 95%信頼区間 58~62 に基準値 50 が入るかどうかを調べるこ とと同じであることがわかる。 60 は上側棄却域の下限 52 よりも大きいから棄却域に入っている ○方法 2:(m-μ0)を SE 単位で測った値 to=(m-μ0)/SE が、(mU -μ0)を SE 単位で測った値(m-μ0)/SE 1-17 1.統計学の基本的な概念 よりも大きいかどうか調べる。 標本平均から μ0 を引き、それを SE で割った値を t とすると、t は図 1.8 の一番右側のような t 分 布になる。この t 分布で(mL -μ0)/SE=-t(n-1,α)、(mU -μ0)/SE=t(n-1,α)。これは信頼区間を求める時に SE に掛ける係数 t(n-1,α)≒2 である。 to=(m-μ0)/SE=(60-50)/1=10>2 で 2 よりも大きいから棄却域に入っている ※データから平均値を引いて標準偏差で割ると、データの分布の平均値が 0 に、標準偏差が 1 になる。こ れをデータの標準化という。 ※t 値は(m-μ0)というシグナルを SE というノイズで割った S/N 比と解釈することも可能。 ○方法 3:図 1.8 の t 分布において、to から右側の濃い灰色の部分の面積(確率)=p/2 を計算し(t 値の p 値変換)、それが α/2 よりも小さいかどうか調べる。 実際には、to から右側の分布の面積を 2 倍した値を有意確率 p 値といい、この値が α よりも小 さいかどうか調べる。 to=10 から右側の分布の面積 ×2=p=10-16<0.05 だから棄却域に入っている (9) m が棄却域に入っている時、帰無仮説が正しい確率は α 以下になり、対立仮説が正しい確率 は(1-α)以上になる。 そこで有意水準 α で有意として、対立仮説を統計学的結論として採用する。 有意水準 5% で有意→統計学的結論:日本人の平均体重は 50kg ではない (10) m が棄却域に入っていない時は帰無仮説が正しい確率が α よりも大きくなる。 そこで有意水準 α で有意ではないとして、統計学的結論を保留する。 有意水準 5% で有意ではない→統計学的結論:保留 (11) 統計学的結論を科学的に評価して、実質科学的結論を下す。 ○有意の時…母集団の平均体重の推測値 60kg は基準値 50kg に比べて 10kg 重い。 これは医学的に見ると意義のある差である。 1-18 1.統計学の基本的な概念 医学的結論:日本人の平均体重は 50kg ではなく、それよりも重い ○有意ではない時…母集団の平均体重の推測値 60kg は基準値 50kg に比べて 10kg 重い。 これは医学的に見ると意義のある差だが、推測値の信頼性が低いため確実なことは言えない。 医学的結論:日本人の平均体重は 50kg よりも重い可能性があるが データの信頼性が低いので結論は保留する 1-19 1.統計学の基本的な概念 「有意差あり」は「実質科学的に差がある」という意味ではない n=15 n=4000000 SD=10 ↓ SE=0.005 SD=20 ↓ SE=5.2 95% 信頼区間 50.001 ~ 50.019 95% 信頼区間 48.9 ~ 71.1 m=60 m=50.01 μ0=50 μ0=50 図 1.10 実質科学的に意味があっても 有意ではない差 図 1.9 有意でも実質科学的には 無意味な差 ・有意…「数学的に意味が有る」つまり「統計学的結論の信頼性が高い」 ・有意ではない…「数学的に意味が無い」つまり「統計学的結論の信頼性が低い」 はっきり言えば「統計学的結論を保留する」 ・有意水準=(1-信頼係数)=危険率…間違っている危険性がこの値以下の統計学的結論だけを 採用することを表す、統計学的結論の合格水準 「有意差あり=実質科学的に有意義な差がある」や「有意差なし=実質科学的に有意義な差 はない=等しい」という解釈は大いなる誤解。このような誤解症状は「有意症(significantosis)」と か「有意症症候群(significant syndrome)」と呼ばれる難治性疾患の一種であり、各種学会や厚 生労働省等で大流行している。 この疾患の予防策の第一歩は、「有意差あり」や「有意差なし」という誤解されやすい用語を 使わず、「差は有意である」や「差は有意ではない」という用語を使うことである。 1-20 1.統計学の基本的な概念 統計学の役目はデータの要約と要約値の数学的な信頼性を評価すること 標本集団の データ 要約値 ( 統計量 ) 検定 有意である 要約値の 実質科学的評価 有 意 で は な い 再実験 統計学的結論 保留 統計学の守備範囲 実質科学的 結論 実質科学の守備範囲 統計学の役目はデータを要約して、要約値が数学的にどの程度信頼できるかを確率的に評価 し、それらの情報を実質科学的に評価してもらうために研究者に提供することである。 その要約値が実質科学的に有意義かどうかを評価するのは、あくまでもその分野の研究者の 役目である。→統計学の守備範囲と実質科学の守備範囲を混同しないこと! 1-21 1.統計学の基本的な概念 1.5 統計的仮説検定の考え方 統計的仮説検定は検出差を設定して有意ではない時も結論を採用する δ*=5 μL μL μ0-δ*=45 μ0=50 95% 信頼区間に μ0 が含まれない ↓ 有意水準 5% で有意→ μ≠μ0=50 μU m m 95% 信頼区間に μ0 が含まれる ↓ μU 有意水準 5% で有意ではない→ μ<μ +δ*=55 0 μ0+δ*=55 図 1.11 信頼区間と統計的仮説検定 有意性検定は検定結果が有意の時だけ結論を採用し、有意ではない時は結論を保留する。こ の曖昧さを改善するために開発された手法が統計的仮説検定(statistical hypothesis testing)。 例えば第 3 節の有意性検定と同じ問題を設定し、日本人全体から 100 名の標本集団を抽出し て体重を測定したところ、平均値が 51kg、標準偏差(不偏標準偏差)が 10kg だったとすると、 問題:日本人の平均体重は 50kg か? 95%信頼区間:μ=51±2× 10 =51±2→μ=49∼53 √ 100 95%信頼区間に基準値 50kg が含まれているため有意水準 5%で有意ではない 統計学的結論:日本人の平均体重は 50kg ではないと断定できないため結論保留 ここで体重の医学的な許容範囲または誤差範囲を±5kg 以内とする、つまり±5kg よりも小さい 体重の変動は医学的に意義がなく、無視できるとすると、45~55kg 以内の体重は実質的に 50kg と変わらないことになる。 49~53kg という信頼区間はこの許容範囲にすっぽりと入っているから、次のような結論が 95% 以上の確率で正しいことになる。 1-22 1.統計学の基本的な概念 統計学的結論:日本人の平均体重は 45kg よりも重く 55kg よりも軽い =日本人の平均体重は実質的に 50kg と等しい→問題の答えは△ この結論は、 統計学的結論:日本人の平均体重は 50kg である→問題の答えは○ とは違うが、医学的には実質的に同じ意味になる。 ±5kg は医学的な許容範囲であり、(最小)検出差(scientific significant difference)と呼ばれる。 統計的仮説検定は検出差つまり実質科学的な許容範囲または誤差範囲と、信頼区間つまり数学 的な誤差範囲を利用して、検定結果が有意ではない時も結論を採用することができる。 1-23 1.統計学の基本的な概念 推定と検出差を利用した検定を母集団側から見て手順化したものが統計的仮説検定 δ* δ* SE H0 : μ=μ0 p/2 α/2 mL α/2 μL SE μ0 t(n-1,2β) ・ SE mU t(n-1,α) ・ SE μU m H1 : μ=μ0 - δ* SE H1 : μ=μ0+δ* β μ0 - δ* mL β mU μ0+δ* 図 1.12 統計的仮説検定の模式図 <統計的仮説検定の手順> (1) 問題を設定する。 問題:日本人の平均体重は 50kg か?→ μ=μ0=50? (2) 帰無仮説と対立仮説と検出差を設定する。 帰無仮説 H0 :日本人の平均体重は 50kg である→ μ=μ0 または δ=μ-μ0=0 対立仮説 H1 :日本人の平均体重は 45kg または 55kg である 1-24 δ=μ-μ0=±δ*=±5 →μ=μ0±δ*=μ0±5 または 1.統計学の基本的な概念 ※有意性検定の対立仮説「日本人の平均体重は 50kg ではない」は帰無仮説の否定であり、具体的な仮 説ではない。それに対して上記の対立仮説は具体的な仮説である点に注意。 (3) 有意水準 α(α エラー)と検出力=1-β(β エラー)を決める。 有意水準を 5% にする→ α=0.05 、信頼係数 (1-α)=0.95 検出力を 80% にする→ (1-β)=0.8 、 β=0.2 (4) 母集団から n 例の標本集団を無作為抽出する。 日本人全体から 100 名の人を無作為抽出→標本集団 (5) 標本集団のデータを測定して要約値を求める。 100 名の体重を測定→標本平均 m=51 、不偏標準偏差 SD=10 (6) 帰無仮説が正しいと仮定した時の母集団と、対立仮説が正しいと仮定した時の母集団を想定 し、その母集団から n 例の標本集団を無作為抽出して標本平均を求め、それを無限回繰り返した 時の標本平均の分布を描く。 図 1.12 の 3 種類の標本平均の分布→ μ0=50 、 μ0-δ*=45 、 μ0+δ*=55 、 SE=1 (7) 帰無仮説が正しいと仮定した時の標本平均の分布で、分布の左右の端にそれぞれ α/2 の面 積の棄却域を設定する。 図 1.12 の標本平均の分布で標本平均の 95% が含まれる範囲 2×SE=2 より、下限 mL=48 、上限 mU=52 ∴ 下側棄却域: 48 以下、上側棄却域: 52 以上 ( 図 1.12 の中央の標本平均の分布の薄い灰色部分 ) この時、図 1.12 の左側の標本平均の分布で、mL=48kg 以上の範囲の面積(確率)は β になり、 右側の標本平均の分布で、mU=52kg 以下の範囲の面積も β になる。これら 2 つの範囲は対立仮 1-25 1.統計学の基本的な概念 説の棄却域に相当する。 ※対立仮説の棄却域は左右の標本平均の分布の片側にしかなく、その面積は β/2 ではなく β になる。これ は μ=μ0-δ*と μ=μ0+δ*はどちらか一方しか起こらないため、β を 2 つに分ける必要がないからである。 95% 信頼区間は 51±2×SE より、下限 μL=49 、上限 μU=53 (8) 実際の標本平均値 m が棄却域に入っているかどうかを調べる。 ○方法 1:m と棄却域の上限または下限を比較する。 51 は上側棄却域の下限 52 よりも小さいから棄却域に入っていない ○方法 2:μ0 と m の距離(m-μ0)が(mU -μ0)よりも大きいかどうか調べる。 51-50=1 は 52-50=2 よりも小さいから棄却域に入っていない ○方法 3:t 分布において、to から右側の確率=p/2 を計算して 2 倍し、それが α よりも小さいかどう か調べる。 to=1 から右側の分布の面積 ×2=p=0.3198>0.05 だから棄却域に入っていない (9) m が棄却域に入っている時は有意水準 α で有意として、帰無仮説を否定した仮説を統計学的 結論として採用する。 有意水準 5% で有意→統計学的結論:日本人の平均体重は 50kg ではない これは対立仮説「日本人の平均体重は 45kg または 55kg である」の採用ではない点に注意! (10) m が棄却域に入っていない時は有意水準 α で有意ではないとして、対立仮説を否定した結 論を統計学的結論として採用する。 有意水準 5% で有意ではない → 統計学的結論:日本人の平均体重は 45kg よりも重く 55kg よりも軽い (11) 統計学的結論を科学的に評価して、実質科学的結論を下す。 ○有意の時…母集団の平均体重の推測値 51kg は基準値 50kg に比べて 1kg 重い。 1-26 1.統計学の基本的な概念 これは医学的に見ると意義のない差である。 医学的結論:日本人の平均体重は 50kg ではないが、実質的には 50kg と変わらない ○有意ではない時…母集団の平均体重は 45kg よりも大きく 55kg よりも小さい。 これは医学的に見ると実質的に 50kg と等しい。 医学的結論:日本人の平均体重は実質的に 50kg と等しい 統計的仮説検定には 2 種類のエラーがある 統計的結論 真実 有意:μ≠μ0 有意ではない:|μ-μ0|<δ* H0:μ=μ0 α 1-α H1:μ=μ0±δ* 1-β β ・α:α エラーまたは第 1 種のエラーまたはアワテの言い過ぎ 帰無仮説 μ=μ0 が正しい時に、アワテて μ≠μ0 と言い過ぎてしまう確率。偽陽性率。 ・β:β エラーまたは第 2 種のエラーまたはボンヤリの見逃し 対立仮説 μ=μ0±δ*が正しい時に、ボンヤリしていて|μ-μ0|<δ*と見逃してしまう確率。偽 陰性率。 ・1-β:検出力 対立仮説 μ=μ0±δ*が正しい時に、μ≠μ0 と違いを検出する確率。感度。 普通は α=0.05、β=0.2 つまり有意水準を 5%、検出力を 80%程度にする。しかし α エラーと β エ ラーは同等なので、本当は α=β にするのが合理的である。 1-27 1.統計学の基本的な概念 検定には片側検定と両側検定がある 次のような限定した問題の場合、対立仮説が単純になり、帰無仮説が正しいと仮定した時の 標本平均の分布と、対立仮説が正しいと仮定した時の標本平均の分布は図 1.13 のようになる。 問題:日本人の平均体重は 50kg よりも重いか?→ μ>μ0=50? 帰無仮説 H0 :日本人の平均体重は 50kg である→ μ=μ0 または δ=μ-μ0=0 対立仮説 H1 :日本人の平均体重は 55kg である →μ=μ0+δ*=μ0+5 または δ=μ-μ0=+δ*=+5 δ* SE H0 : μ=μ0 p α μL μ0 t(n-1,2β) ・ SE mU t(n-1,2α) ・ SE μU m SE H1 : μ=μ0+δ* β mU μ0+δ* 図 1.13 統計的仮説検定の模式図 ( 片側検定 ) 1-28 1.統計学の基本的な概念 図 1.13 のように帰無仮説が正しいと仮定した時の標本平均の分布の片側だけに棄却域を設 定する検定を片側検定(one-taild test)といい、図 1.12 のように分布の両側に棄却域を設定する 検定を両側検定(two-taild test)という。 <片側検定の特徴> ・有意水準 α を分布の片側だけに割り振るため、棄却域の下限値 mU が両側検定の mU よりも少し小さくなる。 ・統計学の教科書などに載っている t 分布表は普通は両側検定用なので、片側検定 の時は t(φ,2α)を用いる必要がある。 ・検定の基本は片側検定であり、問題に合わせて適切な検定統計量を選択すれば全 ての検定は片側検定として実施可能。 F 検定は t 検定の両側検定と同等の片側検定 σ ≒SD n≒∞ SE= SD √n n 例を無作為抽出して 標本平均を無限回求める 標本平均を F 値に変換する m− μ 0 2 F=( ) SE p p/2 m=μ0 m μ=μ0 0 標本平均の分布 母集団の分布 F F 分布 図 1.14 標本平均の分布と F 分布 問題:日本人の平均体重は 50kg か?→ μ=μ0=50? この問題を検定したい時、t 値を平方した F 値を検定統計量にすれば、t 検定の両側検定と同 等の検定を片側検定として行うことが可能。 このように F 値を利用した検定のことを F 検定という。F 検定は分散分析でも用いられる。 1-29 1.統計学の基本的な概念 両側検定は標本平均の分布の両側に棄却域を設定する検定であり、母平均が基準値と異 なっているかどうか、つまり母平均が基準値よりも小さいか、それとも基準値よりも大きいかと いう 2 種類の仮説を検定するものではないので注意! 検定の基本は片側検定なので、「母平均が基準値よりも大きいか?」という問題を検定したい 時は片側の t 検定を用い、「母平均が基準値と異なっているか?」という問題を検定したい時は片 側の F 検定を用いるのがお薦め。 1-30 1.統計学の基本的な概念 統計的仮説検定は事前に試験の必要例数を計算しなければらない 図 1.12 より、統計的仮説検定では δ*={t(n-1,α)+t(n-1,2β)}・SE という関係がある。この式と SE=σ/√n から、標本集団の例数を理論的に求めることが可能。 それを必要例数の計算式といい、この式を利用して試験計画の段階で必要例数を求める。 n= {t(∞ , α)+t (∞ , 2 β)}⋅ σ* δ [ ] 2 σ:母集団の標準偏差推測値。予備試験や先行研究の結果から推測。 σ は事前の推測値のため、実際に標本集団のデータから推測した母標準偏差推測値とは異な る時がある。 そこで試験終了後、実際の例数と母標準偏差推測値から実際の検出差 δ を計算し、それが事 前に設定した検出差 δ*以下であるかどうかを検討する。これを検出力分析(power analysis)とい う。 δ={t(n−1, α)+ t(n−1,2β)}⋅SE SE= SD √n 簡単に言えば、これは統計的仮説検定は信頼区間つまり数学的な誤差範囲を、検出差つま り実質科学的な誤差範囲以下にしなければならない、という意味である。 信頼区間の幅は SE に比例し、SE は√n に反比例して小さくなるため、信頼区間を検出差以下 にするのに必要な例数、つまり標本集団の例数を理論的に求めることが可能になる。 1-31 1.統計学の基本的な概念 検定結果だけから実質科学的な判断をするのは危険! δ* (1) (2) (3) (4) (5) (6) μL μ0-δ* μ0 m μU μ0+δ* 図 1.15 検定結果と信頼区間 検定結果 推定結果 実質科学的な判断 (1) 有意ではない μ≒μ0 (2) 有意ではない μ=μ0~μ0+δ* (3) 有意 μ0<μ<μ0+δ* (4) 有意 μ≒μ0+δ* 母平均は基準値と実質的に変わらない可能性が高い (5) 有意 μ≒μ0+δ* 母平均は基準値よりも大きい可能性が高い (6) 有意 μ0+δ*<μ 母平均は基準値よりも大きい 母平均は基準値とほぼ等しい この結果だけでは判断できない 検出力をもっと高くする必要がある(例数を増やす) 母平均は基準値と実質的に変わらない 図 1.15 と上表から、実質科学的な判断は定性試験である検定結果よりも、定量試験である推 定結果に基づいた方が良いことと、検定結果だけから実質科学的な判断をするのは危険であ ることがわかる。 1-32 1.統計学の基本的な概念 第 1 章 演習問題 章 演習問題 第 1 問 次の文章について正しいものには○を、間違っているものには ☓ を付けよ。 (1) 推測統計学は近代統計学と呼ばれることもある。( ) (2) 標準偏差はデータのバラツキ具合を表し、標準誤差と呼ばれることもある。( ) (3) 検定は厳密な結論が得られるため、検定を行えば推定を行う必要はない。( ) (4) 検定の有意水準は試験計画段階で決めておく必要がある。( ) (5) 「有意差あり」とは「医学的に有意義な差がある」という意味である。( ) 第 2 問 次の文章の括弧の中に、下記の罫線枠の中から適当な語句を選んで入れよ。 推測統計学は標本集団の要約値から( 1 )の要約値つまり母数を確率的に推測する が、その推測方法には( 2 )と( 3 )の 2 種類がある。( 2 ) は母数がどのくらいの値なのかを推測する手法であり、( 4 )に相当する。それに対し て( 3 )は母数が実質科学的に有意義な基準値と等しいかどうかを○☓式で推測す る手法であり、( 5 )に相当する。 母集団 標本集団 武装集団 推定 検定 不安定 定量試験 定性試験 共通 1 次試 験 第 3 問 次の文章の括弧の中に適当な語句を入れよ。 統計的仮説検定では「母平均と基準値が等しい」という( 1 )が正しいにもかか わらず、あわてて「母平均と基準値は異なる」と言い過ぎてしまう確率 α のことを α エラーまたは ( 2 )または( 3 )といい、これは診断学における( 4 )に相 当する。それに対して「母平均は基準値に( 5 )をプラスまたはマイナスした値と等し い」という( 6 )が正しいにもかからわず、ぼんやりして「母平均は基準値±( 5 1-33 1.統計学の基本的な概念 )の範囲内である」と差を見逃してしまう確率 β のことを β エラーまたは( 7 )といい、 これは診断学における( 8 )に相当する。そして(1-β)のことを( 9 )とい い、診断学における( 10 )に相当する。 第 4 問 次の条件で行う試験について必要例数を求めよ。またその試験の結果について 検出力分析を行い、試験の検出力が事前の条件を満足しているかどうかを検討せよ。 ○試験内容:ある疾患について評価項目の平均値を基準値と比較する試験(1 群試験) ○試験条件:有意水準 5%、検出力 80%、評価項目の検出差 2、母標準偏差推測値 5 ○試験結果:例数 61 例、評価項目の不偏標準偏差 6 ※t(∞,0.05)=1.96, t(∞,0.4)=0.842, t(60,0.05)=2, t(60,0.4)=0.848 第 5 問 有意性検定と統計的仮説検定の違いを説明し、両者の長所と短所について論ぜ よ。 1-34
© Copyright 2024 Paperzz