4.統計手法の各論 4.統計手法の各論 4.1 計量データ(計量尺度のデータ) 対応のある t 検定は変化量の平均値が 0 かどうかを検定する 1 標本 t 検定 (1) 1 標本の計量データ データが計量尺度で標本の数が 1 つの時に、平均値について色々と検討するには 1 標本 t 検 定(one sample t-test)とそれに伴う推定を適用する。→第 1 章第 3 節~第 5 節参照 ※一般に、検定統計量として t 分布を利用する検定のことを「t 検定」と呼ぶ。t 分布を利用する検定には平 均値以外の統計量の検定もあるため、平均値に関する検定のことを正式には「平均値の検定」と呼ぶ。 しかし実際の研究現場では平均値の検定のことを t 検定と呼ぶ習慣があるので、ここでは平均値の検 定のことを t 検定と呼ぶことにする。 (2) 対応のある 2 標本の計量データ データが計量尺度で対応のある 2 標本の時、普通は差や比を求めて 1 標本にして取り扱う。こ こではより一般的な差つまり変化量を求めることにする。一般に実測値の代わりに変化量をデータ にし、検定の基準値を 0 にした 1 標本 t 検定のことを対応のある t 検定と呼ぶ。 <問題> 薬剤 A に慢性肝炎の肝機能改善効果があるか? すなわち慢性肝炎患者に薬剤 A を投与すると AST が低下するか? <仮説設定> 変化量の平均値を薬効の評価指標にし、その基準値を 0、検出差を±10 つまり 10 未満の AST(GOT)の変化は医学的に誤差範囲とすると、 帰無仮説 H0 :薬剤投与前後の AST 変化量の平均値は 0 である 対立仮説 H1 :薬剤投与前後の AST 変化量の平均値は -10 または +10 である 4-1 4.統計手法の各論 <標本集団のデータ> 有意水準 5%、信頼係数 95%、検出力 80%として試験の必要例数を求めると 11 例になる。しか し説明のためにこの必要例数は無視して、慢性肝炎患者 10 例に薬剤 A を投与し、投与前後の AST を測定したところ次表のようになったとする。 No. 1 <表 4.1 慢性肝炎患者の薬剤投与前後の AST> 2 3 4 5 6 7 8 投与前 56 60 49 47 65 46 35 55 41 46 投与後 47 45 37 32 55 44 38 31 42 29 変化量 -9 -15 -12 -15 -10 -2 +3 -2 +1 -17 9 10 <推定結果と検定結果> === 2時期の平均値の比較 === [DANS V7.1] データ名:表4.1 項目 項目 1:AST 投与前 2:AST 投与後 ○対応のあるデータと対応のあるt検定(1標本t検定、one sample t-test) ------------------------------------------------------------------------------投与後:例数=10 平均値=40 標準偏差=8.15135 標準誤差=2.57768 投与前:例数=10 平均値=50 標準偏差=9.03081 標準誤差=2.85579 ------------------------------------------------------------------------------変化量:例数=10 平均値=-10 標準偏差=8.52447 標準誤差=2.69568 変化量平均値の95%信頼区間=-10±6.09804(-16.098--3.90196) t=-3.70965 自由度=9 有意確率p=0.00484764** ------------------------------------------------------------------------------AST 60 10 mean±SE 50 0 40 −10 AST mean±SE 投与前 投与後 −20 30 投与前 投与後 図 4.2 投与前後の変化量 図 4.1 投与前後の実測値の変化 4-2 4.統計手法の各論 ・図 4.1 のような実測値の変化を表すグラフでは変化量の標準誤差の情報が得られないため、推 定結果や検定結果を反映させることはできない。 ・推定結果と検定結果を反映させるには、変化量の平均値と標準誤差をプロットした図 4.2 のよう なグラフを併用する必要がある。 このグラフは第 2 章第 4 節の図 2.3 の 1 標本 t 検定の模式図において、実測値の代わりに変 化量を用い、基準値を 0 にしたものと本質的には同じものである。 ・図 4.2 で投与後の変化量平均値の 95%信頼区間、つまり mean±2×SE の範囲に 0 が含まれなけ れば有意水準 5%で有意である。 mean±SE ではなく変化量平均値と 95%信頼区間を描けば、検定結果をより正確に反映させる ことができる。しかし有意水準が 5%以外の時もあるため、普通は mean±SE を描く。 <統計学的結論> 薬剤 A 投与前後の AST 変化量平均値は 0 ではない その変化量平均値は -10 であり、幅を取れば -16 ~ -4 の間である <医学的結論> ・-10 という変化量は医学的に見て意義があるか? ・-10 という変化量は純粋に薬剤 A の効果だけによるものか? ・この結果をそのまま慢性肝炎患者全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 慢性肝炎患者に薬剤 A を投与すると AST は低下する すなわち薬剤 A には慢性肝炎患者の肝機能を改善する効果がある ※通常の臨床試験では、標本集団は母集団つまり慢性肝炎患者全体から無作為抽出されていない。した がってこの医学的結論があてはまるのは、標本集団と同じような背景因子を持つ準母集団だけである。 4-3 4.統計手法の各論 対応のない t 検定は 2 群の平均値の差が 0 かどうかを検定する (3) 対応のない 2 標本の計量データ データが計量尺度で対応のない 2 標本つまり 2 群の時は差や比を求めて 1 標本にすることが できないので、データをそのまま用いて 2 標本 t 検定(two sample t-test)または対応のない t 検定 と呼ばれる検定と、それに伴う推定を適用する。 対応のない t 検定は、変化量の平均値の代わりに 2 群の平均値の差を用い、変化量の標準誤 差の代わりに 2 群の標準偏差から推測した平均値の差の標準誤差を用いて、平均値の差が 0 か どうかを検定する。 これは一方の群の平均値を基準値として、他方の群の平均値がその基準値と等しいかどうかを 検定することに相当する。 <問題> 正常人と慢性肝炎患者の AST の値に違いがあるか? <仮説設定> 実測値の平均値を評価指標にし、正常人の平均値を基準値にして、検出差を±10 つまり 10 未 満の AST の差は医学的に誤差範囲とすると、 帰無仮説 H0 : 2 群の AST 平均値は等しい 対立仮説 H1 : 2 群の AST 平均値の差は 10 である <標本集団のデータ> 有意水準 5%、信頼係数 95%、検出力 80%として試験の必要例数を求めると各群 17 例、2 群 合計で 34 例になる。しかし説明のためにこの必要例数は無視して、正常人 10 例と慢性肝炎患者 10 例を選択し、AST を測定したところ次表のようになったとする。 4-4 4.統計手法の各論 No. 1 <表 4.2 正常群と慢性肝炎群の AST> 2 3 4 5 6 7 正常群 47 45 37 32 55 44 38 31 42 29 慢性肝炎群 56 60 49 47 65 46 35 55 41 46 8 9 10 <推定結果と検定結果> === 2群の平均値の比較 === [DANS V7.1] データ名:表4.2 群項目(要因A):群 (0:正常 1:慢性肝炎) 集計項目 :AST 群 :群別基礎統計量 ------------------------------------------------------------------------------0 :例数=10 平均値=40 標準偏差=8.15135 標準誤差=2.57768 1 :例数=10 平均値=50 標準偏差=9.03081 標準誤差=2.85579 ------------------------------------------------------------------------------全体 :例数=20 平均値=45 標準偏差=9.81942 標準誤差=2.19569 ・等分散性の両側F検定:F=1.22742 第1自由度=9 第2自由度=9 p=0.765154 ・対応のないt検定(2標本t検定、「→」の付いた方を採用して下さい) →等分散t検定(=分散分析) :t値=2.59938 自由度=18 p=0.0181231* →平均値の差の95%信頼区間=10±8.08241(1.91759-18.0824) 不等分散t検定(Welchの検定):t値=2.59938 自由度=17 p=0.0187042* 平均値の差の95%信頼区間=10±8.11662(1.88338-18.1166) 80 80 AST 60 60 40 40 AST 20 20 正常群 慢性肝炎群 正常群 図 4.3 正常群と慢性肝炎群の 平均値 ± 標準誤差 慢性肝炎群 図 4.4 正常群と慢性肝炎群の 箱ヒゲプロット ・等分散 t 検定…2 群の標準偏差がほぼ等しい時の t 検定。 ・不等分散 t 検定またはウェルチ(Welch)の検定…2 群の標準偏差が極端に異なっている時の t 4-5 4.統計手法の各論 検定。平均値の差の標準誤差を推測する計算式が等分散 t 検定とは少し異なる。 ・等分散性の両側 F 検定…2 群の分散(標準偏差の平方)の比が 1 かどうか、つまり 2 群の標準偏 差が等しいかどうかの検定。 この検定結果が有意でなければ等分散 t 検定を用い、有意ならば不等分散 t 検定を用いること が多い。しかし F 検定を行わずに、どんな場合でも等分散性 t 検定を用いて良いと主張する人も いれば、どんな場合でも不等分散 t 検定を用いるべきだと主張する人もいる。 実際問題として等分散 t 検定と不等分散 t 検定の結果が大きく異なることはないので、どちらの 手法を用いてもかまわない。より一般性があるのは等分散 t 検定。 ・箱ヒゲプロット…図 4.4 のようなプロット。データの分布状態を表す時によく用いられる。 中央の箱の下限が 25%点、箱の中の横線が中央値(50%点)、「*」印が平均値、箱の上限が 75%点、上下のヒゲが箱の長さの 1.5 倍以内の点までの距離を表す。記述統計学的プロット。 箱ヒゲプロットを描き、データが正規分布から大きくずれている時はノンパラメトリックなウィルコ クソンの 2 標本検定を適用することがある。 しかし第 3 章第 1 節で説明したように、データの分布状態だけで検定手法を選択するのは間 違い。しかもウィルコクソンの 2 標本検定は 2 群の順位平均を比較する手法なので、実測値のグラ フではなく、第 2 章第 4 節の図 2.2 のような順位のグラフを描き、2 群の順位平均をプロットするの が本来である。 <統計学的結論> 2 群の AST 平均値は異なる その平均値の差は 10 であり、幅を取れば 2 ~ 18 の間である <医学的結論> ・10 という平均値の差は医学的に見て意義があるか? ・10 という平均値の差は慢性肝炎によるものか? ・この結果をそのまま慢性肝炎患者全体と正常人全体に当てはめて良いか? 4-6 4.統計手法の各論 これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 慢性肝炎患者の AST は正常人に比べて高い 4-7 4.統計手法の各論 一元配置分散分析は多群の平均値が全て等しいかどうかを検定する (4) 対応のない多標本の計量データ 1) 一元配置分散分析 データが計量尺度で対応のない多標本つまり多群の時に、多群の平均値が全て等しいかどう かを検討するには一元配置分散分析(one-way layout ANOVA:analysis of variance、アノーバ) を適用する。 平均値のバラツキは全体の平均値に対する各群の平均値の標準偏差、またはそれを平方した 値である分散によって表すことができ、一元配置分散分析はそれが 0 かどうかを検定する。 平均値の標準偏差は全体の平均値と 1 つの群の平均値の平均的な距離だから、群が 2 つの 時は 2 つの群の平均値の差の半分になる。このため群数が 2 つの一元配置分散分析は、2 標本 t 検定(対応のない t 検定)に相当する。 <問題> 薬剤 A 、 B 、 C の降圧効果に違いがあるか? <仮説設定> 収縮期血圧の平均値を評価指標にし、薬剤 A をプラセボ(薬理作用を持たない形だけの偽薬 )、薬剤 B と C を血圧降下剤とする。 一元配置分散分析は検定統計量として分散を用いるため、具体的な検出差を設定するのが難 しい。そこで普通は具体的な対立仮説を設定しない有意性検定を行う。 帰無仮説 H0 : 3 群の平均値は全て等しい 対立仮説 H1 : 3 群の平均値はばらついている ( どれか 1 つ以上は他と異なる ) <標本集団のデータ> 有意性検定のために試験の必要例数は求められない。高血圧患者 15 人を無作為に 3 群に分 4-8 4.統計手法の各論 け、それぞれの群に薬剤 A、B、C を投与して収縮期血圧を測定したところ次表のようになった。 群内 No. <表 4.3 3 群の薬剤投与後の収縮期血圧> A 剤投与群 B 剤投与群 C 剤投与群 1 116 106 108 2 128 102 100 3 129 108 108 4 137 118 114 5 140 116 110 <検定結果> === 多群の平均値の比較 === [DANS V7.1] データ名:表4.3 群項目(要因A):群 (1:A剤投与群 2:B剤投与群 3:C剤投与群) 集計項目 :収縮期血圧 (mmHg) 群 :群別基礎統計量 ------------------------------------------------------------------------------1 :例数=5 平均値=130 標準偏差=9.35414 標準誤差=4.1833 2 :例数=5 平均値=110 標準偏差=6.78233 標準誤差=3.03315 3 :例数=5 平均値=108 標準偏差=5.09902 標準誤差=2.28035 ------------------------------------------------------------------------------全体 :例数=15 平均値=116 標準偏差=12.2998 標準誤差=3.1758 ・一元配置分散分析(one-way layout analysis of variance) 分散分析表(ANOVA table) 要因 平方和 自由度 平均平方和 F値 有意確率p値 -----------------------------------------------------------------------------群(要因A) 1480 2 740 13.9185 0.000747082*** 残差 638 12 53.1667 -----------------------------------------------------------------------------全体 2118 14 ・分散分析表…データのバラツキを要因ごとに分けて整理した表。 ・平方和…偏差を平方して合計した値。偏差とは平均値とデータの差、または全体の平均値と各 群の平均値の差のこと。 ・自由度…バラツキの原因になる独立変数の数。 ・平均平方和…平方和を自由度で割った値=分散。 ・F 値…群の分散(群間分散)と残差の分散(群内分散)の比。 4-9 4.統計手法の各論 ・群(要因 A)…群によるデータのバラツキ。一元配置分散分析では群を要因 A と呼ぶ。 全体の平均値に対する各群の平均値の差が偏差であり、例えば図 4.5 の全体の平均値 mT=116 と A 群の平均値 m1=130 の差 14 がこれに相当する。 この偏差を平方して合計した値が平方和 1480 で、それを自由度 2 で割った値が平均平方和 (群間分散)740、これを全体の例数で割って平方根にした値√(740/15)=7.0 が平均値の標準偏差 に相当する。 自由度が 2 になるのは、3 群の平均値を平均すると全体の平均値になるため、平均値の値を 自由に変化させられる群の数は 2 つになるから。標準偏差の自由度(n-1)と同じ原理。 ・残差…個々のデータによる群内バラツキ。 群ごとの平均値に対する個々のデータの差が偏差であり、例えば図 4.5 の m1=130 と A 群の 5 番目のデータ y15=140 の差 10 がこれに相当する。 この偏差を平方して合計した値が平方和 638 で、それを自由度 12 で割った値が平均平方和 (群内分散)53.1667、この平方根√53.1667=7.3 が群ごとの個々のデータの標準偏差に相当する。 一元配置分散分析では全体のバラツキから群のバラツキを差し引いた残りが誤差になるため、 残差と呼ばれる。これが検定の誤差になる。 y A群 収縮期血圧 140 10 ● ● ● ● ● y15=140 ● ● ● ● B群 ● ● m1=130 14 120 mT=116 ● ● ● C群 ● 100 ● 0 1 x1 80 A群 B群 C群 図 4.5 一元配置分散分析の グラフ的解釈 1 x2 回帰平面: y=130-20x1-22x2 図 4.6 一元配置分散分析の概念図 4-10 4.統計手法の各論 ・一元配置分散分析の回帰平面による表現…図 2.2 で 2 群の平均値を 2 次元の回帰直線で表現 したように、3 群の平均値は図 4.6 のように 3 次元の回帰平面で表現することができる。 この場合、2 つのダミー変数 x1 と x2 を用いて 3 群を次のように表す。 ダミー変数 A群 B群 C群 x1 0 1 0 x2 0 0 1 回帰平面:y=130-20x1-22x2 A 群:y=130-20×0-22×0=130 B 群:y=130-20×1-22×0=110 C 群:y=130-20×0-22×1=108 <寄与率> 全体のバラツキのうち要因 A によって説明のつくバラツキの割合を「寄与率(関与率)」または 「決定係数(coefficient of determination)」といい、補助的な指標として利用する。寄与率は最小 値が 0(0%)で最大値が 1(100%)のため解釈が簡単。 寄与率:R 2A =η 2A = 要因Aの平方和 1480 = =0.699(69.9 %) 全体の平方和 2118 寄与率の平方根を「η」で表し、「相関比(correlation ratio)」と呼ぶ。名義尺度のデータと計量 尺度のデータの相関係数に相当する指標。 <統計学的結論> 3 群の平均値はばらついている <医学的結論> ・約 70%という寄与率は医学的に見て意義があるか? ・130、110、108 という 3 群の平均値のばらつきは医学的に見て意義があるか? ・これらの平均値のばらつきは薬剤の違いによるものか? ・この結果をそのまま高血圧患者全体に当てはめて良いか? 4-11 4.統計手法の各論 これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 薬剤 A 、 B 、 C の降圧効果は同一ではない すなわち薬剤 B 、 C には降圧効果がある 4-12 4.統計手法の各論 多重比較は複数の比較をしてどこかが有意になればそれを採用する”いいとこ取り”の方法 2) 多重比較 一元配置分散分析は、どの群の平均値とどの群の平均値が異なっているかを検定する手法で はない。そのような具体的な比較を行いたい時は多重比較(multiple comparison)を用いる。この 手法は 2 群の平均値の比較を複数回行ない、どこか 1 つでも有意になった比較があればそれを 統計学的結論として採用する”いいとこ取り”の方法である。 「有意水準 5%で有意」とは「結論が間違っている危険性が 5%ある」という意味→比較の回数が 増えるほどいいとこ取りの結論が間違っている危険性が増える→結論が間違っている危険性を 5%に抑えるために 1 回 1 回の比較の有意水準にハンディキャップを持たせる→多重比較。 <問題> 薬剤 A 、 B 、 C の降圧効果に違いがあるか? もしあるとすればそれはどの薬剤とどの薬剤の間か? <仮説設定> 収縮期血圧の検出差を±10 つまり 10 未満の収縮期血圧の差は医学的に誤差範囲とすると、 帰無仮説 H0 : 3 群の平均値は全て等しい 対立仮説 H1 : A 剤投与群と B 剤投与群の平均値の差は 10 である または 対立仮説 H1 : A 剤投与群と C 剤投与群の平均値の差は 10 である または 対立仮説 H1 : B 剤投与群と C 剤投与群の平均値の差は 10 である 4-13 4.統計手法の各論 <標本集団のデータ> 有意水準 5%、信頼係数 95%、検出力 80%として試験の必要例数を求めると各群 15 例、3 群 合計で 45 例になる。しかし説明のためにこの必要例数は無視して、一元配置分散分析と同じ表 4.3 のデータを用いる。 <推定結果と検定結果> === 多群の平均値の比較 === [DANS V7.1] データ名:表4.3 群項目(要因A):群 (1:A剤投与群 2:B剤投与群 3:C剤投与群) 集計項目 :収縮期血圧 (mmHg) 群 :群別基礎統計量 ------------------------------------------------------------------------------1 :例数=5 平均値=130 標準偏差=9.35414 標準誤差=4.1833 2 :例数=5 平均値=110 標準偏差=6.78233 標準誤差=3.03315 3 :例数=5 平均値=108 標準偏差=5.09902 標準誤差=2.28035 ------------------------------------------------------------------------------全体 :例数=15 平均値=116 標準偏差=12.2998 標準誤差=3.1758 ・群(要因A)のTukey型多重比較(Tukey type multiple comparison) 群 - 群 q値 群数 自由度 有意確率p値 -----------------------------------------------------------------------1 - 2 6.13332 3 12 0.00256936** 1 - 3 6.74665 3 12 0.00122382** 2 - 3 0.613332 3 12 0.902338 -----------------------------------------------------------------------・Tukey型95%同時信頼区間(simultaneous confidence interval) 群 - 群 平均値の差 区間幅 下限 上限 -----------------------------------------------------------------1 - 2 20 12.3031 7.69693 32.3031 1 - 3 22 12.3031 9.69693 34.3031 2 - 3 2 12.3031 -10.3031 14.3031 -----------------------------------------------------------------・2 群の平均値の比較方法は原理的には 2 標本 t 検定と同じ。 ・2 群の平均値の比較を 3 回行うため、そのままでは最終的な危険率が 5%×3=15%になる。 そこで 1 回 1 回の有意水準を 5/3%にする→実際には 1 回 1 回の有意確率 p 値を 3 倍する。そ れが上の結果中の有意確率 p 値。 ・多重比較の種類 ダネット型…特定の群を対照群として、他のすべての群をこの対照群と比較する手法 4-14 4.統計手法の各論 テューキー型…リーグ戦方式の比較、つまりあらゆる 2 群の比較をする手法 ボンフェローニー型…ダネット型またはテューキー型の近似手法 シェッフェ型…あらゆる 2 群の比較だけでなく、複数の群を合わせた時の平均値と、他 の複数の群を合わせた時の平均値を比較することもできる手法 ・同時信頼区間…多重比較手法に対応する信頼区間。 3 種類の信頼区間が同時に成り立ち、全ての信頼区間に母平均が同時に入る確率が 95%ある。 <統計学的結論> A 剤投与群と B 剤投与群の平均値は異なっていて A 剤投与群と C 剤投与群の平均値も異なっているが B 剤投与群と C 剤投与群の平均値は異なっているとは言えない A 剤投与群と B 剤投与群の差は 20 であり、幅を取れば 8 ~ 32 の間である A 剤投与群と C 剤投与群の差は 22 であり、幅を取れば 10 ~ 34 の間である B 剤投与群と C 剤投与群の差は 2 であり、幅を取れば -10 ~ 14 の間である <医学的結論> ・A 剤投与群と B 剤投与群の平均値の差 20 と、A 剤投与群と C 剤投与群の平均値の 差 22 は医学的に見て意義があるか? ・これらの平均値の差は薬剤の違いによるものか? ・この結果をそのまま高血圧患者全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 薬剤 B と薬剤 C には降圧効果があり、その降圧効果はほぼ同じである 4-15 4.統計手法の各論 ※多重比較の例え話…ワインとソムリエ あるレストランのワイン貯蔵庫は管理が悪く、全体の 5% のものが悪くなっていた。 そのためソムリエが 1 本のワインをお客に出した時、それが悪くなっている危険性が 5% あるため、ソムリエは 20 回に 1 回はお客に謝ることになる ( 危険率 5%) 。 ところがお客がワインを 3 本注文した時、 3 本のうちの 1 本でも悪くなっていれば ソムリエはお客に謝らなければならないため ( 悪いとこ取り ) 、 危険率が 15% に増え、 6 ~ 7 回に 1 回は謝ることになる。 そのような場合にソムリエが謝る危険率を 5% に抑えるためには、 貯蔵庫の管理状態を向上させて悪いワインの割合を 5/3% にする必要がある。 ”いいとこ取り”または”悪いとこ取り”をして、どこか 1 個でも有意の結果があればそれを統計学 的結論として採用する時、多重比較が必要になる→キーワードは”いいとこ取りの結論” ※多重比較を適用してはいけない場合の例え話…名医とヤブ医者 あるところに誤診率 5% の医者がいた。この医者が 1 日に 1 人の患者を診断すると、 20 日に 1 回しか誤診をしないため、周囲から「名医」と評価される。 ところが同じ医者が 1 日に 20 人の患者を診断すると、 1 日に 1 回は誤診をすることになり、 周囲から「ヤブ医者」と評価される。 つまり患者が多くて繁盛するほど、ヤブ医者と評価されることになる。 医者の腕前を評価するには 1 回の診断に対する誤診率を指標にすべきであり、1 日の診断に 対する誤診率、つまり 1 日に 1 人でも誤診をすればその日は「誤診をした日」と数える”悪いとこ取 り”をした誤診率を指標にしてはいけない。 例えばある疾患のリスクファクターとして多数の遺伝子を検討する時、「遺伝子の数が多いほど 危険率が増加するため、個々の遺伝子の検定に多重比較を用いる必要がある」と誤解されること がある。 個々の遺伝子のリスクファクターとしての”腕前”を独立に評価したいのなら、多重比較を行うべ きではない。そうではなく「ある疾患に遺伝子が関与しているか?」という問題を検討したいのなら、 多重比較が必要。 4-16 4.統計手法の各論 試験に複数の目的を持たせ、それらを総合して最終的な結論を検討する時は原則として多重 比較が必要になる。 多重比較はややこしい手法なので、試験の目的を 1 つに絞り、多重比較を必要としない試験 にするのが賢明。 4-17 4.統計手法の各論 二元配置分散分析は多時期の平均値が全て等しいかどうかを検定する (5) 対応のある多標本の計量データ データが計量尺度で対応のある多標本つまり多時期の時に、多時期の平均値が全て等しいか どうかを検討するには二元配置分散分析(two-way layout analysis of variance)にを適用する。 この手法も分散を評価指標にし、それが 0 かどうかを検定する。そして「二元」だからデータを 変動させる要因が 2 種類ある。多時期のデータではひとつが「時期」つまり時間的な変動で、もう ひとつが「個人差」つまり被験者の違いによる変動である。 一元配置分散分析は個人差を誤差扱いしたが、二元配置分散分析は個人差を誤差から分離 して時期変動を効率良く分析できる。そして時期が 2 つの時、対応のある t 検定に相当する。 <問題> 高血圧患者に血圧降下剤を投与すると血圧が低下するか? もし低下するとすればそれはどの時期か? <仮説設定> 多時期の場合、上記の問題を検討するには多重比較が適している。しかし説明のために二元 配置分散分析と多重比較の両方を適用する。 一元配置分散分析と同様に二元配置分散分析は平均値の分散を評価指標にし、具体的な対 立仮説を設定しない有意性検定を行う。多重比較は投与前からの変化量平均値を評価指標にし、 基準値を 0、検出差を±10 とする。 二元配置分散分析の場合 帰無仮説 H0 :時期によって平均値は変動しない (3 時期の平均値は全て等しい ) 対立仮説 H1 :時期によって平均値は変動する (3 時期の平均値はばらついている ) 4-18 4.統計手法の各論 多重比較の場合 帰無仮説 H0 :投与後の変化量平均値は全て 0 である (3 時期の平均値は全て等しい ) 対立仮説 H1 :投与 1 週後の変化量平均値は -10 または +10 である または 対立仮説 H1 :投与 2 週後の変化量平均値は -10 または +10 である <標本集団のデータ> 有意水準 5%、信頼係数 95%、検出力 80%として試験の必要例数を求めると各群 6 例、3 群合 計で 18 例になる。しかし説明のためにこの必要例数は無視して、5 例の高血圧患者に血圧降下 剤を投与し、投与前、投与 1 週後、投与 2 週後に収縮期血圧を測定したところ次表のようになっ たとする。 被験者 No. <表 4.4 薬剤投与前後の収縮期血圧> 投与 1 週後 投与前 投与 2 週後 1 116 106 108 2 128 102 100 3 129 108 108 4 137 118 114 5 140 116 110 <検定結果> === 多群・多時期の平均値の比較 === [DANS V7.1] データ名:表 4.4 要因 A :No. 要因 B 1:収縮期血圧-投与前 (mmHg) 要因 B 2:収縮期血圧-投与 1 週後 (mmHg) 要因 B 3:収縮期血圧-投与 2 週後 (mmHg) 時期 :時期(要因 B)別・全個体(要因 A)合計基礎統計量 ------------------------------------------------------------------------------1 :例数=5 平均値=130 標準偏差=9.35414 標準誤差=4.1833 2 :例数=5 平均値=110 標準偏差=6.78233 標準誤差=3.03315 3 :例数=5 平均値=108 標準偏差=5.09902 標準誤差=2.28035 ------------------------------------------------------------------------------全体 :例数=15 平均値=116 標準偏差=12.2998 標準誤差=3.1758 4-19 4.統計手法の各論 ・二元配置分散分析(two-way layout analysis of variance) 分散分析表(ANOVA table) 要因 平方和 自由度 平均平方和 F値 有意確率 p 値 -----------------------------------------------------------------------------個体 474 4 118.5 5.78049 0.0173412* 時期 1480 2 740 36.0976 9.90303e-05*** 残差 164 8 20.5 -----------------------------------------------------------------------------全体 2118 14 ・時期の Dunnett 型多重比較(Dunnett type multiple comparison) 時期 - 時期 d値 群数 自由度 有意確率 p 値 -----------------------------------------------------------------------2 1 6.9843 3 8 0.000213022*** 3 1 7.68273 3 8 0.000108861*** -----------------------------------------------------------------------・時期の Dunnett 型 95%同時信頼区間(simultaneous confidence interval) 時期 - 時期 平均値の差 区間幅 下限 上限 -----------------------------------------------------------------2 1 -20 7.65377 -27.6538 -12.3462 3 1 -22 7.65377 -29.6538 -14.3462 ------------------------------------------------------------------ mmHg 150 収縮期血圧 mean±SE 140 150 4 y51=140 m51=136 140 130 130 収縮期血圧 mmHg 6 14 14 120 120 m.1=130 ←No.5 の被験者の変動 m5.=122 6 m =116 110 110 100 100 ↑ 総平均の変動 ←No.5 Tの被験 者が総平均 と同じパタ ーンで変動 した時の変動 90 90 投与前 1 週後 2 週後 投与前 1 週後 2 週後 図 4.7 投与前後の収縮期血圧の変化 図 4.8 二元配置分散分析の模式図 ・個体(要因 A)…個人差によるバラツキ。個人差を誤差から分離して効率の良い分析をすること が目的の時は「ブロック因子」と呼ぶ。 個体の偏差は全被験者の全時期平均値に対する各被験者の全時期平均値の差。例えば図 4.8 において、全被験者の全時期平均値 mT=116 と、5 番目の被験者の全時期平均値 m5.=122 の 差 6 がこれに相当する。この偏差の平方を全被験者について求めて合計した値が平方和 474 で、 4-20 4.統計手法の各論 それを自由度 4(=被験者数-1)で割った値が平均平方和 118.5。 ・時期(要因 B)…時期によるデータのバラツキ。ここではこれが主目的。図 4.7 の時期ごとの平均 値が変化しているかどうかを検定した結果になる(図 4.7 の時期ごとの平均値の変動を図 4.8 では 「総平均の変動」として表している)。 時期の偏差は全被験者の全時期平均値に対する各時期の平均値の差。例えば図 4.8 におい て、全被験者の全時期平均値 mT=116 と、投与前の平均値 m.1=130 の差 14 がこれに相当する。 この偏差の平方を全時期について求めて合計した値が平方和 1480 で、それを自由度 2(=時期数 -1)で割った値が平均平方和 740。 ・残差…「個体と時期の交互作用」によるバラツキで「要因 A×B」と表現することもある。検定に用 いる誤差。 交互作用の偏差は各被験者が総平均の時期変動パターンと同じパターンで変動し、しかも被 験者の全時期平均値は総平均と同じだった時の理論値と、実際の各時期の値との差。 例えば図 4.8 において、5 番目の被験者の投与前の値は y51=140。しかしこの被験者が総平均 と同じ時期変動パターンで変動し、しかも全時期平均値が m5.=122 だとすると、投与前の理論値 は m51=122+14(全被験者の全時期平均値 mT=116 と投与前の平均値 m.1=130 の差)=136 になる。 この理論値 136 と実測値 140 の差 4 が交互作用による偏差に相当する。 この偏差の平方を全被験者と全時期について求めて合計した値が平方和 164 で、それを自由 度 8(=個体の自由度 4×時期の自由度 2)で割った値が平均平方和 20.5。 ・残時期の寄与率…時期の寄与率は、時期の平方和を全体の平方和から個体の平方和を引い た(時期の平方和+残差の平方和)で割る。 時期の寄与率:R 2B = 時期の平方和 1480 = =0.900(90.0 %) 時期の平方和 + 残差の平方和 1480+164 ○多重比較 多重比較は投与前を対照時期とし、投与 1 週後と 2 週後を投与前と比較するためダネット型に なる。 4-21 4.統計手法の各論 <統計学的結論> 二元配置分散分析の場合 時期によって平均値は変動する (3 時期の平均値はばらついている ) 多重比較の場合 投与 1 週後と 2 週後の変化量平均値は 0 ではない 1 週後は -20 であり、幅を取れば -28 ~ -12 の間である 2 週後は -22 であり、幅を取れば -30 ~ -14 の間である <医学的結論> ・90%という時期の寄与率は医学的に見て意義があるか? ・投与前の収縮期血圧平均値 130 に対して、投与 1 週後の平均値 110――20 の低下 ――と、投与 2 週後の平均値 108―22 の低下―は医学的に見て低下したといえる か? ・これらの平均値の変動は純粋に血圧降下剤の効果によるものか? ・この結果をそのまま高血圧患者全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 二元配置分散分析の場合 高血圧患者に血圧降下剤を投与すると血圧が低下する 多重比較の場合 高血圧患者に血圧降下剤を投与すると 1 週後から 2 週後まで血圧が低下する ○繰り返し測定データ 表 4.4 は同一被験者について繰り返し測定された「繰り返し測定データ(repeated measures data)」または「反復測定データ」であり、「時系列データ(time series data)」の一種。 4-22 4.統計手法の各論 <繰り返し測定データの評価方法> A パターン A パターン B パターン B パターン C パターン C パターン 0W 1W 0W 2W (1) 全時点 1W 2W (2) 最終時点 A パターン A パターン B パターン B パターン C パターン C パターン 0W 1W 2W 0W (3) 投与後の全時点平均値 1W 2W (4) 直線近似 図 4.9 繰り返し測定データの評価方法 (1) 投与後の全時点を評価時点にし、評価時点ごとの変化量を評価指標にする→A、B、C はそ れぞれ別々の評価 ・長所:時期変動について詳細な検討が可能 ・短所:データ欠損があると結果に被験者の違いが混入・推定と検定に多重性の調整が必要→複 雑な統計手法が必要 ・統計手法:二元配置分散分析+多重比較・多重検定等 4-23 4.統計手法の各論 (2) 最終時点だけを評価時点にし、最終時点の変化量を評価指標にする→A、B、C は全て同じ 評価 ・長所:観測が容易で評価が簡単→単純な統計手法を適用可能 ・短所:時期変動について詳細な検討は不可能 ・統計手法:対応のある t 検定・対応のない t 検定等 (3) 投与後の全時点の平均値を求め、その変化量を評価指標にする→A、B、C はそれぞれ別々 の評価 ・長所:評価が比較的簡単→単純な統計手法を適用可能 ・短所:時期変動について詳細な検討は不可能 ・統計手法:対応のある t 検定・対応のない t 検定等 (4) 実測値の時間的変化を適当な関数(普通は直線)で近似し、その関数のパラメーター(普通は 傾き)を評価指標にする→A、B、C はほぼ同じ評価 ・長所:時期変動の傾向について検討が可能 ・短所:データ欠損があると結果に被験者の違いが混入・評価が難しい→複雑な統計手法を適用 ・統計手法:時系列回帰分析(time seires regression analysis)・繰り返し測定混合効果モデル (MMRM:Mixed effect Model Repeated Measurement)等 <薬効評価の場合> 薬効が安定して発現するまでにはある程度の時間がかかるのが普通。薬効が安定するまでを 過渡期、安定してからを安定期とすると、次のような評価方法が合理的。 ・最適な評価指標:最終時点の変化量 ・過渡期と安定期を全て評価したい時:全時点の変化量←探索型研究向き ・安定期を全て評価したい時:安定期の全時点の変化量←検証型研究向き ・過渡期だけを評価したい時:近似関数のパラメーター←医学的意義は少ない 研究目的を整理して 1 つの試験は目的を 1 つにしぼり、評価指標も 1 つにして、できるだけ単 純な試験デザインと評価方法にするのが賢明。 4-24 4.統計手法の各論 4.2 順序データ(順序尺度のデータ) ウィルコクソンの符号付き順位検定は順序データの変化が 0 かどうかを検定する (1) 1 標本の順序データ データが順序尺度で標本の数が 1 つの時に、順位平均について色々と検討するにはウィルコ クソンの 1 標本検定(ウィルコクソンの符号付き順位検定、Wilcoxon's signed rank test)を適用す る。しかし 1 標本の順序データを検定することは実際の研究現場ではほとんどなく、次の対応のあ る 2 標本の順序データにウィルコクソンの符号付き順位検定を適用することが多い。 (2) 対応のある 2 標本の順序データ データが順序尺度で対応のある 2 標本の時、順位の差を求めて 1 標本にして取り扱う。順序尺 度のデータは四則演算ができないため、本来は順位の差を求めることはできない。しかし実際の 研究現場では、近似的に順位の差を求めることができると考えてウィルコクソンの符号付き順位検 定を適用することが多い。 <問題> 例として、第 1 節の対応のある 2 標本の計量データで用いた AST のデータを 10 刻みでグレー ド付けして、重症度に相当する順序データにして考える。 慢性肝炎患者に薬剤 A を投与すると AST のグレードが低下するか? <仮説設定> グレード変化量の符号付き順位分布の中心つまり符号付き順位平均を薬効の評価指標にし、 その基準値を 0 とする。検出差としては、符号付き順位平均が全例数に対して何%ずれているか を設定する。 帰無仮説 H0 : AST グレード変化量の符号付き順位平均は 0 である 対立仮説 H1 : AST グレード変化量の符号付き順位平均は -10% または +10% ずれている 4-25 4.統計手法の各論 <標本集団のデータ> 有意水準 5%、信頼係数 95%、検出力 80%として試験の必要例数を求めると 262 例になる。し かし説明のためにこの必要例数は無視し、表 4.1 を 10 刻みでグレード化したデータを用いる。 <表 4.5 慢性肝炎患者の薬剤投与前後の AST グレード> 2 3 4 5 6 7 8 No. 1 9 10 投与前 5 6 4 4 6 4 3 5 4 4 投与後 4 4 3 3 5 4 3 3 4 2 変化量 -1 -2 -1 -1 -1 0 0 -2 0 -2 <検定結果> === 順序データの群内比較 === [DANS V7.1] データ名:表4.5 集計項目 :ASTグレード 投与後 -比較項目:ASTグレード 投与前 差の絶対値 1( % ) 2( % ) 合計( % ) ------------------------------------------------------差:正の群 0( 0.0) 0( 0.0) 0(100.0) 差:負の群 4( 57.1) 3( 42.9) 7(100.0) ------------------------------------------------------合計 4( 57.1) 3( 42.9) 7(100.0) ・Wilcoxonの符号付き順位検定(Wilcoxonの1標本検定) 正規分布z=-2.42791 有意確率p=0.0151862* ・符号付き順位和の 95%信頼区間(confidence interval) 0-28=-28±22.6034(-50.6034--5.39659) 符号付き順位平均=-4±3.22906(-7.22906--0.770942) 合計に対する割合(%)=-57.1429±46.1294(-103.272--11.0135) 6 6 5 5 4 4 3 3 2 2 1 1 0 1 2 3 4 5 6 7 8 0 1 投与前 2 3 4 5 投与後 図 4.10 AST グレードの度数分布 4-26 6 7 8 4.統計手法の各論 ・ウィルコクソンの符号付き順位検定の手順 順序データの差を正群と負群に分ける(差が 0 のものは除く)→差の絶対値に順位を付ける→ 正群と負群別に順位を合計して順位和を求め、正群の順位和から負群の順位和を引いて符号付 き順位和を求める→符号付き順位和を例数で割って符号付き順位平均にし、その標準誤差を求 める→1 標本 t 検定と同じ原理で符号付き順位平均が 0 かどうかを検定する→検定結果が有意な ら符号付き順位分布が正または負の方向にずれている→順序データは前後で変化している。 符号付き順位平均は、符号付き順位分布が原点から何例分ずれているかを表す値になる。そ れをさらに例数で割って 100 をかけると、符号付き順位分布が原点から何%ずれているかを表す 値になる。 5 符号付き順位平均 -4 4 3 2 度 数 1 −7 −6 −5 −4 −3 −2 −1 0 1 符号付き順位 図 4.11 AST グレード変化量の符号付き順位分布 近似正規分布 n 例を無作為抽出して 符号付き順位平均を 無限回求める 0 0 母集団の符号付き順序分布 標本集団の符号付き順位平均の分布 図 4.12 符号付き順位分布と符号付き順位平均の分布 4-27 4.統計手法の各論 ・符号付き順位和または順位平均の分布は離散分布になるが、中心極限定理により漸近的に正 規分布に近似する。そしてその標準誤差は例数だけで決まる。 ※図 4.12 では母集団の符号付き順序分布を一様分布(全てのデータが同じ数だけ存在する)で描いてあ る。実際のデータがこのような分布になることは稀だが、データが同位(同じ順位のデータ)のない理想 的な順序データの場合はこのような分布になる。このような一様分布でも、符号付き順位平均は正規分 布に近似するところが中心極限定理のミソ。 <統計学的結論> 薬剤投与前後の AST グレード変化量の符号付き順位平均は 0 ではない それは負の方向に 4 例分 (57%) ずれていて 幅を取れば 4 例分 (57%) ~ 0.8 例分 (11%) の間である <医学的結論> ・薬剤投与前後の AST グレード変化量の符号付き順位平均が負の方向に 57%(4 例 分)ずれていることは医学的に見て意義があるか? ・その変化は純粋に薬剤 A の効果だけによるものか? ・この結果をそのまま慢性肝炎患者全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 慢性肝炎患者に薬剤 A を投与すると AST グレードは低下する すなわち薬剤 A には慢性肝炎患者の肝機能を改善する効果がある 4-28 4.統計手法の各論 ウィルコクソンの順位和検定は 2 群の順位平均の差が 0 かどうかを検定する (3) 対応のない 2 標本の順序データ データが順序尺度で対応のない 2 標本つまり 2 群の時は、ウィルコクソンの順位和検定(ウィル コクソンの 2 標本検定、Wilcoxon's rank sum test)またはマン・ホイットニィの U 検定(MannWhitney's U-test)と呼ばれる検定と、それに伴う推定を適用する。この検定は 2 標本 t 検定と同じ 原理で、2 群の順位平均の差が 0 かどうかを検定する。 <問題> 例として、第 1 節の対応のない 2 標本の計量データで用いた AST のデータを 10 刻みでグ レード付けして、重症度に相当する順序データにして考える。 正常人と慢性肝炎患者の AST グレードに違いがあるか? <仮説設定> グレードの順位平均を評価指標にし、正常人の順位平均を基準値にする。検出差としては 2 群のグレード分布が何%ずれているか、つまり 2 群の順位平均の差の割合を設定する。その値に 50%を足すと、2 群のデータの大小を総当りで比べた時の一方の群の勝率になる。勝率の方が感 覚的にわかりやすいので、ここでは勝率を用いる。 帰無仮説 H0 : 2 群の AST グレードの勝率は等しい ( 順位平均は等しい ) 対立仮説 H1 :慢性肝炎群の AST グレードの勝率は 40% または 60% である <標本集団のデータ> 有意水準 5%、信頼係数 95%、検出力 80%として試験の必要例数を求めると 262 例になる。し かし説明のためにこの必要例数は無視し、表 4.2 を 10 刻みでグレード化したデータを用いる。 4-29 4.統計手法の各論 <表 4.6 正常群と慢性肝炎群の AST グレード> 2 3 4 5 6 7 No. 1 正常群 4 4 3 3 5 4 慢性肝炎群 5 6 4 4 6 4 8 9 10 3 3 4 2 3 5 4 4 <検定結果> === 順序データの群間比較 === [DANS V7.1] データ名:表4.6 群項目(縦) :群 (0:正常 1:慢性肝炎) 順序項目(横):ASTグレード 縦\横 2( % ) 3( % ) 4( % ) 5( % ) 6( % ) 合計( % ) 順位平均 -----------------------------------------------------------------------------0 1( 10.0) 4( 40.0) 4( 40.0) 1( 10.0) 0( 0.0) 10(100.0) 7.8 1 0( 0.0) 1( 10.0) 5( 50.0) 2( 20.0) 2( 20.0) 10(100.0) 13.2 -----------------------------------------------------------------------------合計 1( 5.0) 5( 25.0) 9( 45.0) 3( 15.0) 2( 10.0) 20(100.0) 10.5 ・Wilcoxonの順位和検定(2標本検定、Mann-WhitneyのU検定) 正規分布z=-2.16228 有意確率p=0.0305968* ・順位平均の差の95%信頼区間(confidence interval) 1:13.2-0:7.8=5.4±4.89475(0.505251-10.2947) ・1のU値の95%信頼区間(confidence interval) U(%)=77(77%)±24.4737(52.5263(52.5263%)-101.474(101.474%)) 0 慢性肝炎群 順位平均 =13.2 6 50 100(%) 4 2 度 0 2 4 6 8 10 12 14 16 18 20 慢性肝炎群 (77%) AST 数 −2 正常群 (23%) −4 −6 図 4.13-2 勝率 (U 値の割合 ) 正常群 順位平均 =7.8 図 4.13-1 グレードの順位分布 ・ウィルコクソンの順位和検定の手順 2 群を一緒にして順序データに順位を付ける→群ごとに順位を合計して順位和を求め、それを 4-30 4.統計手法の各論 例数で割って順位平均を求める→2 群の順位平均の差とその標準誤差を求める→2 標本 t 検定と 同じ原理で 2 群の順位平均の差を検定する→検定結果が有意なら 2 群の順位平均が異なる。 この時、2 群の順位平均の差を合計例数で割って 100 をかけると、2 群の順位分布が何%ずれ ているかを表す値になる。それに 50%を足した値は 2 群のデータの大小を総当りで比較した時の 一方の群の勝率になり、それが U 値の%の値になる。U 値は勝ち数に相当する。 ・順位平均の分布は離散分布になるが、中心極限定理により漸近的に正規分布に近似する。そし てその標準誤差は例数だけで決まる。 近似正規分布 n 例を 2 群無作為抽出して 群 1 の順位平均を 無限回求める 0 母集団の順序データの分布 群 1 の順位平均の分布 図 4.14 順序データの分布と順位平均の分布 <統計学的結論> 2 群の AST グレードの勝率は異なる ( 順位平均は異なる ) 慢性肝炎群の勝率は 77% であり、幅を取れば 53~100% の間である <医学的結論> ・2 群のグレードデータの大小を比較した時、慢性肝炎群の勝率が 77%であるというこ とは医学的に見て意義があるか? ・勝率 50%からの増加分 27%は慢性肝炎によるものか? ・この結果をそのまま慢性肝炎患者全体と正常人全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 4-31 4.統計手法の各論 慢性肝炎患者の AST グレードは正常人に比べて高い 4-32 4.統計手法の各論 クリスカル・ウォーリスの H 検定は多群の順位平均が全て等しいかどうかを検定する (4) 対応のない多標本の順序データ データが順序尺度で対応のない多標本つまり多群の時に、多群の順位平均が全て等しいかど うか検討するにはクリスカル・ウォーリス(Kruskal-Wallis)の H 検定を適用する。この手法は順位 平均を用いた一元配置分散分析に相当し、多重比較を行うことも可能。 <問題> 例として、第 1 節の対応のない多標本の計量データで用いた収縮期血圧のデータを 10 刻み でグレード付けして、重症度に相当する順序データにして考える。 薬剤 A 、 B 、 C の降圧効果に違いがあるか? もしあるとすればそれはどの薬剤か? <仮説設定> 上記の問題を検討するには多重比較が適している。しかし説明のためにクリスカル・ウォーリス の H 検定と多重比較の両方を適用する。 帰無仮説 H0 : 3 群の順位平均は全て等しい 対立仮説 H1 : 3 群の順位平均はばらついている 多重比較の場合の対立仮説 対立仮説 H1 : A 剤投与群と B 剤投与群の順位平均は 10% ずれている または 対立仮説 H1 : A 剤投与群と C 剤投与群の順位平均は 10% ずれている または 対立仮説 H1 : B 剤投与群と C 剤投与群の順位平均は 10% ずれている 4-33 4.統計手法の各論 <標本集団のデータ> <表 4.9 3 群の薬剤投与後の収縮期血圧のグレード> 群内 No. A 剤投与群 B 剤投与群 C 剤投与群 1 11 10 10 2 12 10 10 3 12 10 10 4 13 11 11 5 14 11 11 <検定結果> === 順序データの群間比較 === [DANS V7.1] データ名:表4.9 群項目(縦) :群 順序項目(横):収縮期血圧グレード 縦\横 10( % ) 11( % ) 12( % ) 13( % ) 14( % ) 合計( % ) -------------------------------------------------------------------------A剤投与群 0( 0.0) 1( 20.0) 2( 40.0) 1( 20.0) 1( 20.0) 5(100.0) B剤投与群 3( 60.0) 2( 40.0) 0( 0.0) 0( 0.0) 0( 0.0) 5(100.0) C剤投与群 3( 60.0) 2( 40.0) 0( 0.0) 0( 0.0) 0( 0.0) 5(100.0) -------------------------------------------------------------------------合計 6( 40.0) 5( 33.3) 2( 13.3) 1( 6.7) 1( 6.7) 15(100.0) ・Kruskal-WallisのH検定 χ^2=8.81667 自由度=2 有意確率p=0.0121755* ・群のTukey型多重比較(Tukey type multiple comparison) 群 :順位平均 - 群 :順位平均 q値 群数 自由度 有意確率p値 ----------------------------------------------------------------------------A剤投与群: 12.6 - B剤投与群: 5.7 3.63662 3 ∞ 0.0273497* A剤投与群: 12.6 - C剤投与群: 5.7 3.63662 3 ∞ 0.0273497* B剤投与群: 5.7 - C剤投与群: 5.7 0 3 ∞ 1 ----------------------------------------------------------------------------・Tukey 型 95%同時信頼区間(simultaneous confidence interval) 群 - 群 順位平均の差 区間幅 下限 上限 -------------------------------------------------------------------A 剤投与群- B 剤投与群 6.9 6.28881 0.611191 13.1888 A 剤投与群- C 剤投与群 6.9 6.28881 0.611191 13.1888 B 剤投与群- C 剤投与群 0 6.28881 -6.28881 6.28881 -------------------------------------------------------------------・検定の自由度が 2 になるのは、一元配置分散分析と同様に、3 群の順位平均を平均すると全体 4-34 4.統計手法の各論 の順位平均になるため、順位平均の値を自由に変化させられる群の数は 2 つになるから。 ・この場合の多重比較はウィルコクソンの順位和検定と原理的に同じで、一元配置分散分析と同 様にテューキー型になる。 ・2 群の順位平均の差の合計例数に対する割合は、各群の例数が等しければ最大で{(群数-1)/ 群数}×100%。例数が等しくないとそれ以上になる時がある。 A 剤投与群 3 順位平均 =12.6 2 1 B 剤投与群 3 順位平均 =5.7 度 2 数 1 C 剤投与群 3 順位平均 =5.7 2 1 0 4 8 12 16 図 4.15 グレードの順位分布 <統計学的結論> クリスカル・ウォーリスの H 検定の場合 群によって順位平均は変動する (3 群の順位平均はばらついている ) 4-35 4.統計手法の各論 多重比較の場合 A 剤投与群と B 剤投与群の順位平均は異なっている その差は 6.9 例分 (46%) であり、幅を取れば 1 例分 (7%) ~ 13 例分 (87%) である A 剤投与群と C 剤投与群の順位平均も異なっている その差は 6.9 例分 (46%) であり、幅を取れば 1 例分 (7%) ~ 13 例分 (87%) である B 剤投与群と C 剤投与群の順位平均は同じである その差は 0 例分 (0%) であり、幅を取れば -6.3(-42%) ~ 6.3 例分 (42%) である <医学的結論> ・12.6、5.7、5.7 という 3 群の順位平均のバラツキまたは順位平均の差 6.9(46%)は医学 的に見て意義があるか? ・これらの順位平均のバラツキまたは順位平均の差は薬剤の違いによるものか? ・この結果をそのまま高血圧患者全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 クリスカル・ウォーリスの H 検定の場合 薬剤 A 、 B 、 C の降圧効果は同一ではない すなわち薬剤 B 、 C には降圧効果がある 多重比較の場合 薬剤 B と薬剤 C には降圧効果があり、その降圧効果は同じである 4-36 4.統計手法の各論 フリードマンの検定は多時期の順位平均が全て等しいかどうかを検定する (5) 対応のある多標本の順序データ データが順序尺度で対応のある多標本つまり多時期の時に、多時期の順位平均が全て等しい かどうかを検討するには「フリードマン(Friedman)の検定」を適用する。この手法は順位平均を用 いた二元配置分散分析に相当し、多重比較を行うことも可能。 <問題> 例として表 4.4 の収縮期血圧のデータを 10 刻みでグレード付けし、重症度に相当する順序 データにして考える。 高血圧患者に血圧降下剤を投与すると血圧グレードが低下するか? もし低下するとすればそれはどの時期か? <仮説設定> 上記の問題を検討するには多重比較が適している。しかし説明のためにフリードマンの検定と 多重比較の両方を適用する。 両方の手法の帰無仮説 帰無仮説 H0 :時期によって順位平均は変動しない (3 時期の順位平均は全て等しい ) フリードマンの検定の対立仮説 対立仮説 H1 :時期によって順位平均は変動する (3 時期の順位平均はばらついている ) 多重比較の対立仮説 対立仮説 H1 :投与前と投与 1 週後の順位平均は 10% ずれている または 対立仮説 H1 :投与前と投与 2 週後の順位平均は 10% ずれている 4-37 4.統計手法の各論 <標本集団のデータ> 被験者 No. <表 4.10 薬剤投与前後の収縮期血圧のグレード> 投与 1 週後 投与 2 週後 投与前 1 11 10 10 2 12 10 10 3 12 10 10 4 13 11 11 5 14 11 11 被験者 No. <表 4.11 収縮期血圧グレードの被験者別順位> 投与 1 週後 投与 2 週後 投与前 順位和 順位平均 1 3 1.5 1.5 6 2 2 3 1.5 1.5 6 2 3 3 1.5 1.5 6 2 4 3 1.5 1.5 6 2 5 3 1.5 1.5 6 2 順位和 15 7.5 7.5 30 - 順位平均 3 1.5 1.5 - 2 <検定結果> === 対応のある順序データの比較 === [DANS V7.1] データ名:表 4.10 項目 項目 項目 1:収縮期血圧グレード-投与前 2:収縮期血圧グレード-投与 1 週後 3:収縮期血圧グレード-投与 2 週後 データ 10( % ) 11( % ) 12( % ) 13( % ) 14( % ) 合計( % )順位平均 ---------------------------------------------------------------------------項目 1 0( 0.0) 1( 20.0) 2( 40.0) 1( 20.0) 1( 20.0) 5(100.0) 3 項目 2 3( 60.0) 2( 40.0) 0( 0.0) 0( 0.0) 0( 0.0) 5(100.0) 1.5 項目 3 3( 60.0) 2( 40.0) 0( 0.0) 0( 0.0) 0( 0.0) 5(100.0) 1.5 ---------------------------------------------------------------------------合 計 6( 40.0) 5( 33.3) 2( 13.3) 1( 6.7) 1( 6.7) 15(100.0) 2 ・Friedman の検定 χ^2=10 自由度=2 有意確率 p=0.00673795** 4-38 4.統計手法の各論 ・最初の項目との Dunnett 型多重比較(Dunnett type multiple comparison) 項目:順位平均 - 項目:順位平均 d 値 項目数 自由度 有意確率 p 値 --------------------------------------------------------------------------1: 3 2: 1.5 2.73861 3 ∞ 0.0118297* 1: 3 3: 1.5 2.73861 3 ∞ 0.0118297* --------------------------------------------------------------------------・Dunnett 型 95%同時信頼区間(simultaneous confidence interval) 項目 - 項目 順位平均の差 区間幅 下限 上限 -----------------------------------------------------------------1 - 2 1.5 1.21163 0.288368 2.71163 1 - 3 1.5 1.21163 0.288368 2.71163 -----------------------------------------------------------------投与前 6 順位平均 =3 4 2 投与 1 週後 6 順位平均 =1.5 度 4 数 2 投与 2 週後 6 順位平均 =1.5 4 2 0 1 2 3 図 4.16 グレードの時期別順位分布 ・フリードマンの検定では被験者ごとに 3 時期のデータに順位を付け、表 4.11 のようにまとめる。 ・被験者ごとの順位和は全て 6 で、平均順位は全て 2。 ・時期ごとの順位和と平均順位は被験者の違いつまり個人差を取り除いたものになる。 4-39 4.統計手法の各論 ・フリードマンの検定は二元配置分散分析の時期の検定に相当する。 ・多重比較は二元配置分散分析と同様にダネット型になる。 ・2 時期の順位平均の差の割合は例数ではなく時期数で割り、最大で{(時期数-1)/時期 数}×100%になる。 <統計学的結論> フリードマンの検定の場合 時期によって順位平均は変動する (3 時期の順位平均はばらついている ) 多重比較の場合 投与前と投与 1 週後、投与 2 週後の順位平均は異なっている 1 週後の順位平均の差は 1.5(50%) であり、幅を取れば 0(0%) ~ 3(100%) である 2 週後の順位平均の差も 1.5(50%) であり、幅を取れば 0(0%) ~ 3(100%) である <医学的結論> ・投与前の順位平均と投与 1 週後および 2 週後の順位平均の差 1.5(50%)は医学的 に見て意義があるか? ・これらの順位平均の差は薬剤の違いによるものか? ・この結果をそのまま高血圧患者全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 フリードマンの検定の場合 高血圧患者に血圧降下剤を投与すると血圧グレードが低下する 多重比較の場合 高血圧患者に血圧効果剤を投与すると 1 週後から 2 週後まで血圧グレードが低下する 4-40 4.統計手法の各論 4.3 分類データ(名義尺度のデータ) 二項検定は分類データの出現率(割合)が基準値と等しいかどうかを検定する (1) 1 標本の分類データ データが分類尺度で標本の数が 1 つの時に、出現率つまり割合について色々と検討するには 二項検定(binomial test)を適用する。 しかし 1 標本の分類データを検定することは実際の研究現場ではほとんどなく、次の対応のあ る 2 標本の分類データに二項検定を適用することが多い。 (2) 対応のある 2 標本の分類データ データが分類尺度で対応のある 2 標本というのは、例えば薬剤投与前後で尿蛋白の定性試験 を実施し、結果を正常・異常で観測したデータが相当する。その結果は次のような 2×2 分割表に まとめることができる。 <表 4.12 薬剤投与前後の尿蛋白定性試験の変化> 投与前\投与後 正常 異常 計 正常 9 2 11 異常 8 1 9 計 17 3 20 上表で、正常→異常に変化した 2 例を「悪化」、異常→正常に変化した 8 例を「改善」と評価す ることが可能。もし薬剤に効果または副作用がなければ、悪化と改善の出現率は同じになると考え られる。 また第 1 節の対応のある 2 標本の計量データで用いた AST のデータで、投与前後で値が低 下したものと上昇したものに分類すると次のようになる。 <表 4.13 慢性肝炎患者の薬剤投与前後の AST の変化> 投与前後の変化 低下 上昇 計 例数 8 2 4-41 10 4.統計手法の各論 もし薬剤に効果がなければ、低下例と上昇例の出現率はどちらも 50%になると考えられる。 二項検定は、ある分類の出現率が基準値と等しいかどうかを 1 標本 t 検定と同じ原理で検定す る。前述の 2 つの例のように、実際の研究現場では基準値として 50%が多用されるため、このよう な二項検定を特に符号検定と呼ぶ。 <問題> 前述の慢性肝炎患者の AST の変化を例にする。 慢性肝炎患者に薬剤 A を投与すると AST が低下するか? <仮説設定> 低下例の出現率を評価指標にし、その基準値を 50%にする。検出差を±10%つまり 10%未満 の出現率の違いは医学的に誤差範囲とすると、 帰無仮説 H0 : AST 低下例の出現率は 50% である 対立仮説 H1 : AST 低下例の出現率は 40% または 60% である <標本集団のデータ> 有意水準 5%、信頼係数 95%、検出力 80%として試験の必要例数を求めると 194 例になる。し かし説明のためにこの必要例数は無視し、表 4.1 の変化量を低下と上昇に分類したデータを用い る。 No. 1 <表 4.14 慢性肝炎患者の薬剤投与前後の AST> 2 3 4 5 6 7 8 投与前 56 60 49 47 65 46 35 55 41 46 投与後 47 45 37 32 55 44 38 31 42 29 変化 低下 低下 低下 低下 低下 低下 上昇 低下 上昇 低下 9 10 <推定結果と検定結果> === 分類データの出現率比較 === [DANS V7.1] 4-42 4.統計手法の各論 データ名:表4.14 項目 1:ASTの変化 ASTの変化 例数 (出現率 95%信頼区間 %) ------------------------------------------低下 8 ( 80.000 44.390 -- 97.479) 上昇 2 ( 20.000 2.521 -- 55.610) ------------------------------------------合計 10 (100.000) ・二項検定 有意確率p=0.109375 理論確率:低下=0.5 上昇=0.5 0 20 低下 上昇 80% 20% 40 60 80 10 例 100 図 4.17 AST 変化のバーチャート ・出現率の分布は二項分布という離散分布になる。この分布は中心極限定理により漸近的に正規 分布に近似し、その標準誤差は理論確率(基準の出現率)と例数だけで決まる。 近似正規分布 n 例を無作為抽出して 分類 1 の出現率を 無限回求める 母集団の 2 分類データの分布 0 出現率の分布 ( 二項分布 ) 図 4.18 2 分類データの分布と出現率の分布 ・二項分布は単純なので、比較的簡単に計算できる。そこで二項検定は近似正規分布を利用せ 4-43 4.統計手法の各論 ず、二項分布をそのまま利用して検定を行う。 そのため上記の検定結果のように、t 値のような検定統計量を用いず、有意確率を直接計算す ることができる。 ・出現率の信頼区間は F 分布または正規分布を利用して近似的に計算する。 そのため 95%信頼区間に基準値 50%が含まれていないにもかかわらず、検定結果は有意水 準 5%で有意にならないという矛盾が生じることがある。これは信頼区間を近似計算していることが 原因で、検定結果の方が正確。 ・分類数が 3 つ以上の時は、多項分布を利用すれば原理的には検定を行うことができる。 しかし実際の研究現場でそのようなデータを取り扱うことはほとんどないので、多項検定が実際 に使われることはない。 <統計学的結論> この場合は検定結果は有意水準 5%で有意ではなく、しかも 95%信頼区間が許容範囲 50±10%よりも大きい。そして検出力分析を行うと検出差が 89%になる。そのため統計学的結論は 保留する。 薬剤 A 投与前後の AST 低下例の出現率は 50% ではない可能性が高い それは 80% であり、幅を取れば 44% ~ 97% の間である しかし信頼性が低いので結論は保留する <医学的結論> 慢性肝炎患者に薬剤 A を投与すると AST は低下する可能性が高い しかし信頼性が低いので明確な結論は保留する 4-44 4.統計手法の各論 フィッシャーの正確検定 は 2 群の出現率の差が 0 かどうかを検定する (3) 対応のない 2 標本の分類データ データが名義尺度で対応のない 2 標本つまり 2 群の時、フィッシャー(Fisher)の正確検定 (フィッシャーの直接確率計算法による検定)または χ2 検定と呼ばれる検定を適用する。 この検定は、2 標本 t 検定と同じ原理で 2 群の出現率の差が 0 かどうかを検定する。 <問題> 例として、第 1 節の対応のない 2 標本の計量データで用いた AST のデータを、40 未満を「正 常」、40 以上を「異常」と分類し、2 分類データにして考える。 正常人と慢性肝炎患者の AST 異常の出現率に差があるか? <仮説設定> AST 異常の出現率を評価指標にし、正常人の出現率を基準値にする。検出差を±10%つまり 10%未満の出現率の違いは医学的に誤差範囲とすると、 帰無仮説 H0 : 2 群の AST 異常の出現率は等しい 対立仮説 H1 : 2 群の AST 異常の出現率の差は 10% である <標本集団のデータ> 有意水準 5%、信頼係数 95%、検出力 80%として試験の必要例数を求めると 1 群 408 例、2 群 合計 816 例になる。しかし説明のためにこの必要例数は無視し、表 4.2 の AST 実測値を 40 未満 を「正常」、40 以上を「異常」と分類したデータを用いる。 No. 1 正常群 慢性肝炎群 異常 異常 <表 4.15 正常群と慢性肝炎群の AST 判定> 2 3 4 5 6 7 異常 異常 正常 異常 正常 異常 異常 異常 4-45 異常 異常 正常 正常 8 9 10 正常 異常 異常 異常 正常 異常 4.統計手法の各論 <検定結果> === 分類データの独立性検定 === [DANS V7.1] データ名:表4.15 群項目(縦) :群 分類項目(横):AST判定 縦\横 正常( % ) 異常( % ) 合計( % ) -------------------------------------------------正常群 5( 50.0) 5( 50.0) 10(100.0) 慢性肝炎群 1( 10.0) 9( 90.0) 10(100.0) -------------------------------------------------合計 6( 30.0) 14( 70.0) 20(100.0) ・χ^2検定(修正有,2×2) χ^2=2.14286 自由度=1 有意確率p=0.143235 ・Fisherの正確検定 有意確率p=0.140867 出現率の差の95%信頼区間=0.4±0.461399(-0.0613995-0.861399) 正常 異常 慢性肝炎群 10% 90% 正常群 50% 50% 0 20 10 例 40 60 80 10 例 100 図 4.19 AST 判定のバーチャート 近似正規分布 n 例を 2 群無作為抽出して 群 1 の分類 1 の出現率を 無限回求める 0 母集団の 2 分類データの分布 出現率の分布 ( 超幾何分布 ) 図 4.20 2 分類データの分布と出現率の分布 4-46 4.統計手法の各論 ・慢性肝炎群の異常の出現率の分布は超幾何分布という離散分布になる。この分布は中心極限 定理により漸近的に正規分布に近似し、その標準誤差は例数だけで決まる。 ・超幾何分布は単純なので、比較的簡単に計算できる。そこで近似正規分布を利用せずに、超幾 何分布をそのまま利用して検定を行うことができる。その手法をフィッシャーの正確検定または フィッシャーの直接確率計算法による検定という。 この手法では二項検定のように、t 値のような検定統計量を用いず、有意確率を直接計算する ことができる。 ・近似正規分布を利用した検定法を χ2 検定という。 この手法は正規分布に対する近似を良くするために、イェーツの修正と呼ばれる修正を行うこ とがある。ただし、修正を行なってもフィッシャーの正確検定の方が正確。 ・出現率の推定は近似正規分布を利用して計算する。 そのため二項検定と同様に、95%信頼区間の結果とフィッシャーの正確検定の結果との間に矛 盾が生じることがある。 ※正規分布を平方すると χ2 分布という分布になる。この手法では出現率の差を平方し、それが近似的に χ2 分布することを利用して検定しているため χ2 検定と呼ばれる。 <統計学的結論> この場合は検定結果は有意水準 5%で有意ではなく、しかも 95%信頼区間が許容範囲 0±10% よりも大きい。そして検出力分析を行うと検出差が 57%になる。そのため統計学的結論は保留する。 2 群の AST 異常の出現率は異なっている可能性が高い その差は 40% であり、幅を取れば -6% ~ 86% の間である しかし信頼性が低いので結論は保留する <医学的結論> 慢性肝炎患者の AST は正常人に比べて高い確率で異常値になる可能性が高い しかし信頼性が低いので明確な結論は保留する 4-47 4.統計手法の各論 χ2 検定は多群の出現率が全て等しいかどうかを検定する (4) 対応のない多標本の分類データ データが名義尺度で対応のない多標本つまり多群の時は、χ2 検定によって多群の出現率が全 て等しいか、それともばらついているかを検定する。 この手法は出現率を用いた一元配置分散分析に相当し、多重比較を行うことも可能である。 <問題> 例として、第 1 節の対応のない多標本の計量データで用いた投与後収縮期血圧のデータを、 120 未満を「正常」、120 以上を「異常」と分類し、2 分類データにして考える。 薬剤 A 、 B 、 C の投与後収縮期血圧異常の出現率に違いがあるか? <仮説設定> 投与後収縮期血圧異常の出現率の分散を評価指標にし、普通は有意性検定を行う。ただし多 重比較は、検出差を±10%として統計的仮説検定を行う。 帰無仮説 H0 : 3 群の投与後収縮期血圧異常の出現率は全て等しい 対立仮説 H1 : 3 群の投与後収縮期血圧異常の出現率はばらついている 多重比較の場合の対立仮説 対立仮説 H1 : A 剤投与群と B 剤投与群の投与後異常の出現率の差は 10% である または 対立仮説 H1 : A 剤投与群と C 剤投与群の投与後異常の出現率の差は 10% である または 対立仮説 H1 : B 剤投与群と C 剤投与群の投与後異常の出現率の差は 10% である 4-48 4.統計手法の各論 <標本集団のデータ> 群内 No. <表 4.16 3 群の薬剤投与後の収縮期血圧の判定> A 剤投与群 B 剤投与群 C 剤投与群 1 正常 正常 正常 2 異常 正常 正常 3 異常 正常 正常 4 異常 正常 正常 5 異常 正常 正常 <検定結果> === 分類データの独立性検定 === [DANS V7.1] データ名:表4.16 群項目(縦) :群 分類項目(横):収縮期血圧判定 収縮期血圧判定 正常( % ) 異常( % ) 合計( % ) ------------------------------------------------------A剤投与群 1( 20.0) 4( 80.0) 5(100.0) B剤投与群 5(100.0) 0( 0.0) 5(100.0) C剤投与群 5(100.0) 0( 0.0) 5(100.0) ------------------------------------------------------合計 11( 73.3) 4( 26.7) 15(100.0) ・χ^2検定(3×2) χ^2=10.9091 自由度=2 有意確率p=0.00427682** ・群のBonferroni型多重比較(Bonferroni type multiple comparison) 群 - 群 χ^2値 自由度 有意確率p値 ------------------------------------------------------------A剤投与群 - B剤投与群 8.18182 1 0.0126937* A剤投与群 - C剤投与群 8.18182 1 0.0126937* B剤投与群 - C剤投与群 0 1 1 ------------------------------------------------------------・Bonferroni型95%同時信頼区間(simultaneous confidence interval) 群 - 群 出現率の差 区間幅 下限 上限 ----------------------------------------------------------------------A剤投与群 - B剤投与群 -0.8 0.628248 -1.42825 -0.171752 A剤投与群 - C剤投与群 -0.8 0.628248 -1.42825 -0.171752 B剤投与群 - C剤投与群 0 0.2 -0.2 0.2 ----------------------------------------------------------------------・検定の自由度が 2 になるのは、一元配置分散分析と同様に、3 群の出現率を平均すると全体の 出現率になるため、出現率の値を自由に変化させられる群の数は 2 つになるから。 4-49 4.統計手法の各論 正常 異常 A 群 20% 80% 5例 B群 100% 5例 C群 100% 5例 0 20 40 60 80 100 図 4.21 収縮期血圧判定のバーチャート <統計学的結論> χ2 検定の場合 3 群の投与後収縮期血圧異常の出現率はばらついている 多重比較の場合 A 剤投与群と B 剤投与群の収縮期血圧異常の出現率は異なっている その差は -80% であり、幅を取れば -100 ~ -17% の間である A 剤投与群と C 剤投与群の収縮期血圧異常の出現率も異なっている その差は 80% であり、幅を取れば -100 ~ -17% の間である B 剤投与群と C 剤投与群の収縮期血圧異常の出現率は同じである その差は 0% であり、幅を取れば -20 ~ -20% の間である <医学的結論> ・80%、0%、0%という 3 群の収縮期血圧異常の出現率のバラツキは医学的に見て意 義があるか? ・これらの出現率のバラツキは薬剤の違いによるものか? ・この結果をそのまま高血圧患者全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 4-50 4.統計手法の各論 χ2 検定の場合 薬剤 A 、 B 、 C の降圧効果は同一ではない すなわち薬剤 B 、 C には降圧効果がある 多重比較の場合 薬剤 B と薬剤 C には降圧効果があり、その降圧効果は同じである 4-51 4.統計手法の各論 χ2 検定は多分類の割合が全ての群で等しいかどうかを検定する (5) 対応のない多分類データ χ2 検定は分類数が 3 つ以上の時でも適用可能。この場合は多群における 1 つの分類の出現 率ではなく、多数の分類の出現率パターンつまり割合が全て等しいか、それともばらついているか を検定する。 この手法は、複数の群の背景因子が均等かどうかをチェックする時などに利用される。 <問題> 薬剤 A、B、C を投与した 3 群の背景因子のうち、3 種類の合併症―高血圧症、心臓病、糖尿 病の割合が 3 群とも均等かどうかをチェックする。 3 群の合併症の割合は均等か? <仮説設定> 3 種類の合併症の割合つまり出現率パターンを評価指標にし、普通は有意性検定を行う。この 場合は 2 群ごとの比較を行う必要はないため、多重比較は行わない。 帰無仮説 H0 : 3 群の合併症の割合は全て等しい 対立仮説 H1 : 3 群の合併症の割合はばらついている <標本集団のデータ> 4-52 4.統計手法の各論 群内 No. <表 4.17 3 群の合併症> A 剤投与群 B 剤投与群 C 剤投与群 1 高血圧症 高血圧症 高血圧症 2 高血圧症 高血圧症 高血圧症 3 高血圧症 高血圧症 高血圧症 4 高血圧症 高血圧症 高血圧症 5 心臓病 高血圧症 高血圧症 6 心臓病 心臓病 心臓病 7 心臓病 心臓病 心臓病 8 糖尿病 心臓病 糖尿病 9 糖尿病 糖尿病 糖尿病 10 糖尿病 糖尿病 糖尿病 <検定結果> === 分類データの独立性検定 === [DANS V7.1] データ名:表4.17 群項目(縦) :群 分類項目(横):疾患 疾患 高血圧( % ) 心臓病( % ) 糖尿病( % ) 合計( % ) ---------------------------------------------------------------------A剤投与群 4( 40.0) 3( 30.0) 3( 30.0) 10(100.0) B剤投与群 5( 50.0) 3( 30.0) 2( 20.0) 10(100.0) C剤投与群 5( 50.0) 2( 20.0) 3( 30.0) 10(100.0) ---------------------------------------------------------------------合計 14( 46.7) 8( 26.7) 8( 26.7) 30(100.0) ・χ^2検定(3×3) χ^2=0.642857 A群 自由度=4 高血圧症 心臓病 糖尿病 40% 30% 30% B群 50% C群 50% 0 有意確率p=0.958184 20 20% 30% 20% 40 60 10 例 30% 80 10 例 10 例 100 図 4.22 合併症のバーチャート 4-53 4.統計手法の各論 ・検定の自由度が 4 になるのは、群の自由度が 3-1=2、分類の自由度が 3-1=2 で、割合を自由に 変化させられる群別分類数は 2×2=4 になるから。 <統計学的結論> 3 群の合併症の割合はばらついているとは言えない <医学的結論> ・3 群の合併症の割合の違いが最大で 10%あることは医学的に見て許容範囲内か? この疑問点について十分に検討し、肯定的ならば、 3 群の合併症の割合はほぼ均等である 4-54 4.統計手法の各論 コクランの Q 検定は多時期の出現率が全て等しいかどうかを検定する (6) 対応のある多標本の分類データ データが名義尺度で対応のある多標本つまり多時期の時に、多時期の出現率が全て等しいか どうかを検討するには「コクラン(Cochran)の Q 検定」を適用する。この手法は出現率を用いた二 元配置分散分析に相当し、多重比較を行うこともできる。フリードマンの検定において順位が 2 つ だけの時に相当する。 <問題> 例として表 4.4 の収縮期血圧データを 120 未満を「正常」、120 以上を「異常」と判定して分類 データにし、次のような問題について検討する。 高血圧患者に血圧降下剤を投与すると血圧の異常率が低下するか? もし低下するとすればそれはどの時期か? <仮説設定> 上記の問題を検討するには多重比較が適している。しかし説明のためにコクランの Q 検定と多 重比較の両方を適用する。 両方の手法の帰無仮説 帰無仮説 H0 :時期によって異常率は変動しない (3 時期の異常率は全て等しい ) コクランの Q 検定の対立仮説 対立仮説 H1 :時期によって異常率は変動する (3 時期の異常率はばらついている ) 多重比較の対立仮説 対立仮説 H1 :投与前と投与 1 週後の異常率は 10% 異なる または 対立仮説 H1 :投与前と投与 2 週後の異常率は 10% 異なる 4-55 4.統計手法の各論 <標本集団のデータ> 被験者 No. <表 4.18 薬剤投与前後の収縮期血圧の判定> 投与 1 週後 投与 2 週後 投与前 1 正常 正常 正常 2 異常 正常 正常 3 異常 正常 正常 4 異常 正常 正常 5 異常 正常 正常 <検定結果> === 対応のある順序データの比較 === [DANS V7.1] データ名:表 4.18 項目 項目 項目 1:収縮期血圧判定 投与前 2:収縮期血圧判定 投与1週後 3:収縮期血圧判定 投与2週後 データ 0( % ) 1( % ) 合計( % ) ---------------------------------------項目 1 1( 20.0) 4( 80.0) 5(100.0) 項目 2 5(100.0) 0( 0.0) 5(100.0) 項目 3 5(100.0) 0( 0.0) 5(100.0) ---------------------------------------合 計 11( 73.3) 4( 26.7) 15(100.0) ・Cochran の Q 検定 χ^2=8 自由度=2 有意確率 p=0.0183156* ・最初の項目との Dunnett 型多重比較(Dunnett type multiple comparison) 項目: 出現率 - 項目: 出現率 d 値 項目数 自由度 有意確率 p 値 --------------------------------------------------------------------------1: 0.8 2: 0 2.44949 3 ∞ 0.026984* 1: 0.8 3: 0 2.44949 3 ∞ 0.026984* --------------------------------------------------------------------------・Dunnett 型 95%同時信頼区間(simultaneous confidence interval) 項目 - 項目 出現率の差 区間幅 下限 上限 -----------------------------------------------------------------1 - 2 0.8 0.722478 0.0775221 1.52248 1 - 3 0.8 0.722478 0.0775221 1.52248 ------------------------------------------------------------------ 4-56 4.統計手法の各論 100 80 異 60 常 40 率 20 0 投与前 1 週後 2 週後 図 4.23 時点別収縮期血圧異常率 ・コクランの Q 検定は二元配置分散分析の時期の検定結果に相当する。 ・多重比較は 2 標本の χ2 検定と原理的に同じで、二元配置分散分析と同様にダネット型になる。 <統計学的結論> コクランの Q 検定の場合 時期によって異常率は変動する (3 時期の異常率はばらついている ) 多重比較の場合 投与前と投与 1 週後。投与 2 週後の異常率は異なっている 投与前と 1 週後の異常率の差は 80% であり、幅を取れば 0 ~ 100% の間である 投与前と 2 週後の異常率の差は 80% であり、幅を取れば 0 ~ 100% の間である <医学的結論> ・投与前の異常率 80%と投与 1 週後および 2 週後の異常率 0%の差 80%は医学的に 4-57 4.統計手法の各論 見て意義があるか? ・これらの異常率の差は薬剤の違いによるものか? ・この結果をそのまま高血圧患者全体に当てはめて良いか? これらの疑問点について十分に検討し、全ての疑問に対して肯定的ならば、 コクランの Q 検定の場合 高血圧患者に血圧降下剤を投与すると血圧の異常率が低下する 多重比較の場合 高血圧患者に血圧効果剤を投与すると 1 週後から 2 週後まで血圧の異常率が低下する 4-58 4.統計手法の各論 第 4 章 演習問題 第 1 問 次の文章について正しいものには○を、間違っているものには☓を付けよ。 (1) 対応のある t 検定は「2 標本 t 検定」という別名で呼ばれることがある。( ) (2) 対応のない t 検定は「1 標本 t 検定」という別名で呼ばれることがある。( ) (3) ウィルコクソンの符号付き順位検定は 2 群の中央値を比較する検定手法である。( ) (4) マクネマーの検定はフィッシャーの正確検定の近似法である。( ) (5) χ2 検定は多群の最頻値が一致しているかどうかを検定する手法である。( ) 第 2 問 次の文章の括弧の中に、下記の罫線枠の中から適当な語句を選んで入れよ。 ( 1 )は( 2 )とも呼ばれ、2 群の( 3 )が一致しているかどうかを検定 する手法である。この手法は( 4 )と本質的に同じ手法で、検定結果も同じになる。この手 法を多群に拡張した手法が( 5 )で、ノンパラメトリックな一元配置分散分析に相当する。 ウィルコクソンの 2 標本検定 ウィルコクソンの順位和検定 ウィルキンソンのタンサン検定 順位平均 日経平均 マン・ホイットニィの U 検定 ホイットニィ・ヒューストンのボディガード検定 クリスカル・ウォーリスの H 検定 クリスタル・ボーイのコブラ検定 第 3 問 次の文章の括弧の中に適当な語句を入れよ。 多群の平均値について、平均値を 2 群ごとに比較し、それらの検定結果をいいとこ取りして結 論する時は( 1 )を用いる。この手法には特定の群を対照群として、他の全ての群をこの 対照群と比較する時に用いる( 2 )、あらゆる 2 群の比較を行う時に用いる( 3 )、 それらの手法の近似手法である( 4 )、あらゆる 2 群の比較だけでなく、複数の群を合わ せた平均値と、他の複数の群を合わせた平均値を比較する( 5 )などがある。 4-59 4.統計手法の各論 第 4 問 降圧剤 A の効果を検討するために、プラセボ P を対照薬にし、収縮期血圧を評価項 目にした群間比較試験を行った。その試験で 20 名の高血圧患者を無作為に 10 例ずつ 2 群 に分け、P 剤と A 剤を投与して投与前後で収縮期血圧を測定したところ下表のような結果に なった。このデータに関して次のような問題について適切な解析を行い、解析結果について 考察を加えよ。 群 収縮期血圧(mmHg) 投与前 投与後 変化量 P 130 115 -15 P 125 138 +13 P 130 110 -20 P 121 129 +8 P 138 130 -8 P 109 117 +8 P 133 132 -1 P 123 124 +1 P 126 126 0 P 130 132 +2 A 116 106 -10 A 128 102 -26 A 129 118 -11 A 108 110 +2 A 137 118 -19 A 140 136 -4 A 120 116 -4 A 132 120 -12 A 126 106 -20 A 127 118 -9 1.収縮期血圧に関して、P 剤投与群と A 剤投与群の投与前値が一致しているか? 評価指標:実測値の平均値 医学的許容範囲:±10mHg 未満 4-60 4.統計手法の各論 2.P 剤投与群と A 剤投与群の収縮期血圧がそれぞれ投与前後で変化しているか? 評価指標:投与前後の変化量平均値 医学的許容範囲:±10mHg 未満 3.A 剤は収縮期血圧に対して降圧効果があるか? 評価指標:投与前後の変化量平均値 医学的許容範囲:±10mHg 未満 ※どの解析についても有意水準を 5%、信頼係数を 95%とする。 ※解析は適当な統計ソフトを用いても良いし、手計算で行なっても良い。 手計算の場合は、講師の個人的ウェブサイト「我楽多頓陳館」の次のコンテンツの中から適切な ページを探し、(注)に記載された計算式を参考にして行うと良い。もちろん、計算式が書かれた既 存の統計学の解説書を参考にしてもかまわない。 ○我楽多頓陳館→雑学の部屋→雑学コーナー→統計学入門→目次 http://www.snap-tck.com/room04/c01/stat/stat0001.html 4-61
© Copyright 2024 Paperzz