2007. 9. 29 本日のテーマ 医薬開発におけるモデルのあてはめ Excel-ソルバー による非線形最小2乗法・ 最尤法・ロバスト回帰 芳賀敏郎 (元 東京理科大学) • 非線形回帰分析 は今後広い分野で活用が期待される統計 手法である. • 本日の主題は「非線形回帰分析 」であるが,応用統計家 に どのように 説明したら良いかを考え,通常の解説とはかなり 変わったアプローチで説明する. • 極めて身近な平均値とその標準誤差,信頼区間から入り, 単回帰分析に拡張する. • 次いで,直線回帰における逆推定問題を取り上げて,非線 形パラメータの意味と,解析結果 が前と異なること示す. • このような準備の後に,非線形回帰分析を取り上げる. 1 2 平均値とは • n 個の観測値 xi が得られたとき,代表値 a を決め たい. • 代表値は観測値に全体として近くしたい. • xi とa の距離の総合値と して,差の2乗の和Sを考 P S = (x i Ä a)2 える. • a によってSがどのように 変化するかをグラフ化する. • グラフは次シートに示すように,放物線となり,平均 値で最小となる. • このような推定を最小2乗法 という. 平均 6.0 S 92 n 8 自由度 7 平均平方 13.14 標準偏差 3.63 標準誤差 1.28 t(0.05) 2.36 下限 2.97 上限 9.03 S+V 105.1 S+FV 165.5 x 1 3 4 7 4 9 8 12 S = 8a 2 Ä 96a + 380 = 8(a Ä 6) 2 + 92 = n(a Ä x)2 + S; s e = p V =n 3 • 元のデータから,平方和S,平均平方V,平均 値の標準誤差se,区間推定値などを計算する. • 平均値±se,区間推定値に縦線を引き,曲線と の交点を通る水平線を引く. • 交点の縦軸の値はS+V,S+FVである. F = F(1; n Ä 1; 0:05) = t(n Ä 1; 0:05)2 • 2次式の,2次の係数5は,パラメータの推定値 の標準誤差を求めるときの分母である. • この関係は,線形最小2乗推定値に拡張できる. • 非線形最小2乗推定値では,少し修正される. 5 4 回帰式 • 次の散布図に回帰直線を当てはめる. • 平均値と同様,最小2乗法が用いられる. • 次シートの散布図で,y=a+bxの a, b を試行 錯誤で変化させて, S= n n X X (y i Ä b yi )2 = (yi Ä (a + bxi))2 i=1 i=1 を最小とする解を求める. 6 1 • ソルバー とは x -2 -1 0 1 2 3 4 5 y y-hat 1 0.00 3 1.50 4 3.00 7 4.50 4 6.00 9 7.50 8 9.00 12 10.50 • 試行錯誤を自動的に実行してくれるのが ソル バー である. 14 12 10 • 下の結果が得られる. 8 x -2 -1 0 1 2 3 4 5 6 4 2 a 3.000 b 1.500 S 20.000 0 -2 0 2 4 y y-hat 1 1.25 3 2.61 4 3.96 7 5.32 4 6.68 9 8.04 8 9.39 12 10.75 14 12 10 8 6 4 2 a 3.964 b 1.357 S 14.643 0 -2 0 2 4 7 • ソルバーを選択すると,「パラメータ設定」画面が 表示される. • 目的セルに S のセルを,目標値を最小値 に,変 化させるセルに a, b のセルを指定して実行する. 8 ソルバーの利用 • ソルバーは,目的とするセルの値を最小とする だけでなく,最大,または,ある値に等しくすること ができる. • 変化させるセルは,一塊りのセルに限らず, “,” を使って自由に組合わせることができる. • 変化させるセルの値に制約を加えることができる. • これらを上手に使うとその適用範囲は無限であ る.後にいくつかの例を紹介する. 9 • ソルバーを使わなくても,ExcelのLINEST関数で, a,b だけでなく,それらの標準誤差も簡単に求めら れる. • LINEST関数の出力 ソルバーの解 x a,b 1.357 se 0.241 R^2 0.841 F 31.698 SR 77.357 const 3.964 0.660 1.562 sd 6 fe 14.643 Se • b の標準誤差 0.241 の求め方を調べる. • b の最小2乗推定値の前後でδbだけ変化させ て残差平方和の変化を見る. 60 50 40 Se 通常の方法 10 30 20 10 a 3.964 b 1.357 S 14.643 2 y = 60x - 4E-06x + 14.643 0 -1.0 -0.5 0.0 δb 0.5 1.0 • 2次式が完全に当てはまる.2次の係数は60で ある. 11 12 2 • これから,b の標準誤差を計算する. q q se(b y ) = V60e = 14:643=6 = 0:201 60 • この方法ではLINESTの結果 0.241 は得られな い. • 単純にbを変化させたときの,あてはまりが 悪さ を見るのは誤りである. • 上の計算は,下の図の赤線のように,a =4 を固 定してbを変化させて,残差平方和を求めている. • b を変えたあと,青の点線のように,残差が最小 となるように a も変化させる必要がある. 16 14 12 10 8 6 4 2 0 -2 -4 -2 0 2 4 13 Se • 次シートに示すような計算表を準備し,ΣSを最 小とするbを求める.前シートの点線に相当する. • 横軸にδ,縦軸にS をとってグラフを描き,2次曲 線を当てはめる 50 . 40 30 20 10 y = 42x 2 - 2E-11x + 14.643 0 -1.0 q q -0.5 0.0 δb 0.5 1.0 • 2次の係数 42 から,bの標準誤差を計算する. se( y) b = Ve 42 = 14:643=6 42 = 0:241 14 x -2 -1 0 1 2 3 4 5 y 1 0.55 3 2.11 4 3.66 7 5.22 4 6.78 9 8.34 8 9.89 12 11.45 4.05 4.61 5.16 5.72 6.28 6.84 7.39 7.95 3.35 4.11 4.86 5.62 6.38 7.14 7.89 8.65 y-hat 2.65 1.95 1.25 0.55 -0.15 -0.85 -1.55 3.61 3.11 2.61 2.11 1.61 1.11 0.61 4.56 4.26 3.96 3.66 3.36 3.06 2.76 5.52 5.42 5.32 5.22 5.12 5.02 4.92 6.48 6.58 6.68 6.78 6.88 6.98 7.08 7.44 7.74 8.04 8.34 8.64 8.94 9.24 8.39 8.89 9.39 9.89 10.39 10.89 11.39 9.35 10.05 10.75 11.45 12.15 12.85 13.55 δb 0.2 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 a 3.664 5.164 4.864 4.564 4.264 3.964 3.664 3.364 3.064 2.764 b 1.557 0.557 0.757 0.957 1.157 1.357 1.557 1.757 1.957 2.157 S 16.32 41.52 29.76 21.36 16.32 14.64 16.32 21.36 29.76 41.52 ΣS 248.91 となり,LINEST関数の結果が求められた. 15 • bの標準誤差は,前々シートのグラフに Se+ Ve=14.643+2.440=17.083 の横線を引き,曲 線との交点から求めることができる. • 信頼区間は,Se+F Ve= 14.643+5.987*2.441 =29.25 の横線を引き,曲線との交点から求める ことができる. 16 • a,bの両方を変化させてSを計算し,Sの等高線 を描くと次のグラフが得られる. • 等高線は楕円になる. • 前のグラフは鉛直線,後のグラフは斜線での切 り口の断面に対応する. 1.6 1.2 50 0.8 Se 40 0.4 30 0 20 -0.4 10 -0.8 0 -1.0 b 60.0 -70.0 50.0 -60.0 40.0 -50.0 30.0 -40.0 20.0 -30.0 10.0 -20.0 0.0 -10.0 -1.2 -0.5 0.0 δb 0.5 1.0 -0.8 -0.6 -0.4 -0.2 17 0 a 0.2 0.4 0.6 -1.6 0.8 18 3 逆推定 回帰式の変形とその解 • y=8 となるx(x8 で表す)はいくらだろうか? • 散布図に回帰直線とその信頼区間の幅をつけ たグラフを左下に示す. • y=8 の水平線と回帰直線との交点が解である. • 式で計算するとx8=(8-a)/b=(8-3.96)/1.36=2.974 x -2 -1 0 1 2 3 4 5 14 12 10 8 6 4 2 0 -2 -2 -1 0 1 2 3 4 y 1 3 4 7 4 9 8 12 y = a + bx (1) であった.これを次のように 変形する. y = 8 + b(x Ä x8) (2) この式では,未知パラメータは bとx8 である. • Excelの計算表で,yの予測値を計算する式に (2)式を用い,ソルバーで解いた結果が前シート の右下に示されている. y-hat 1.25 2.61 3.96 5.32 6.68 8.04 9.39 10.75 y0 8 x 8 2.974 b 1.357 S 14.643 5 • これまで取り扱っていたデータのモデルは 19 20 • x8 の信頼区間 50 45 40 35 • 前と同じ考えで,x8 の信頼区間を求めてみよう. • 次シートに示すように,曲線は左右非対称で, 放物線とはならない. • bの区間推定の場合と同様に,Se=29.25 の水 平線を引き,曲線との交点を求める. • 信頼区間は 1.96∼4.68 となる.これは次シート で y=8 の水平線とy-hat の信頼区間の曲線との 交点である. 30 25 20 15 10 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 • x8の標準誤差はS+Vに横線を引いて,曲線との 交点を求めるという方法では求められない. • 推定値近傍を2次式で近似して,その係数から計 算する.近似の方法で区々の結果が得られる. 21 • 逆推定のモデルで,残差の等高線を描く と,非対称で,楕円とはならない. 22 非線形回帰分析とは • 最初に示した2つのモデル式を比較する. y = a + bx (1) S9 S8 S7 S6 S5 S4 S3 23.00 22.00 21.00 20.00 19.00 18.00 17.00 16.00 15.00 14.00 y = 8 + b(x Ä x8 ) = 8 + bx Ä bx8 (2) -24.00 -23.00 -22.00 -21.00 -20.00 -19.00 -18.00 -17.00 -16.00 -15.00 (1)式はパラメータa, b に関して線形(1次式)であ るが,(2)式は,展開すると,パラメータb,x8 の積 が含まれ,線形ではない. • このように,パラメータに関して線形でないとき, 上に述べたように線形とは異なる現象が現れる. • このようなモデルを当てはめるのが 非線形回帰分析である, S2 1 2 3 4 5 6 7 8 9 S1 23 24 4 べき関数 • x とy の間に下記の左の関係があるとき,両辺の対 数を取ると,パラメータに関して線形となり,通常の直 線回帰分析が適用できる. y = abx; log(y) = log(a) + log(b)x 非線形回帰分析 = axb ; log(y) = log(a) + alog(x) • 従来は,このように線形化を工夫して解析した. 25 • しかし,これらの式の右辺に +c が追加されると, この方法では線形化できない. • abxで b<1 のとき,下のような曲線を当てはめ たい場合が多い. • x=0,x=∞のときの yをy0,y∞ で表わす. y = y1 + (y0 Ä y1 )bx • 上は abx,下は axb の曲線を表わす. • 左は,xとyの関係,右は xとlog(y) または log(x) とlog(y) の関係を表わす.凡例は a,b 100 70 60 10,1.2 10,0.8 10,1.2 10,0.8 50 40 10 30 26 20 = 10 0 1 0 2 4 6 8 10 120 0 2 4 6 8 10 1000 10,1.5 10,0.5 100 80 40 20 0 0 1 2 3 8 2,10,0.5 10 6 10,2,0.7 1 4 100 60 4 5 y1 + (y0 Ä y1 ) exp(Bx) 10 0 0.1 10,1.5 10,0.5 2 1 10 0 27 2 4 6 28 10 • 「理科年表」,岩波書店 からデータを取り 出し,散布図を描く.右は水蒸気圧 y の対 数を取ったもの. 800 8 6 600 ln(y) 4 400 2 0 200 -2 0 -50 0 50 x 29 8 温度と水蒸気圧の関係 y • ここで,誤差の等分散性について考慮が必要で ある. • 対数を取ることにより,等分散性が成立する場 合が多いが,逆に等分散性が成立しなくなる場合 もありえる. • ソルバーを用いると,パラメータに関して非線形 で,対数や指数関数などの超越関数が含まれて いても,そのままでモデルを当てはめることがで きる. • 線形化と等分散性の両方を考慮して解析方法 を決める.重みつき最小2乗法を使えば適用範囲 はさらに拡大するが,今回は触れない. 0 100 -4 -50 0 50 100 x 30 5 yÉ = 12 10 8 6 4 2 0 -2 -4 -50 y pÄ 1 p 2 R = 0.9999 0 50 100 x • 物理・化学現象で広く適 用されるモデルにアレニゥ スの式がある(中 上・森川訳 , 「医薬統計学 」サイエンティスト社) . • 温度を絶対温度Tに変換 し,横軸に絶対温度のー逆 数を取ると,右のように 直 線関係が得られる. • このモデルでの傾斜は蒸 発エネルギーと結び付く. • 良く見ると,途中で折れて いるようである. y = A exp 3 ÄÄE Å RT 2 1 ln(y) y^0.135 • 対数変換では直線化が行 き過ぎるときは,Box-Cox変 換が用いられる. • pの初期値を設定してy* を計算する.xとy* の相関 係数 rを計算する. • ソルバーで,rを最大にす るp をで求める.p=0.135 となる.右のグラフで 寄与 率は 0.9999 となり,モデル の当てはまりは 極めて良い. • しかし,こうして得られた 0.135 には物理的な意味は 考えられない. 0 2 R = 0.9982 -1 -2 -4.5 -4.0 -3.5 31 ロジスティック曲線 6 4 2 0 -2 -4 -4.5 -4.0 x0 y0 bL bR S -3.5 -1000/K -3.0 -2.5 • 投与量(または投与量の対数)を横軸に,効果を縦 軸にとってグラフを描くとき,下のような曲線となるこ とがある. • このようなS字型の曲線を一般に 生長曲線 という. 生長曲線の代表的なものには(左)ロジスティック曲 線や(右)ゴンペルツ曲線がある. -3.6045 1.8793 6.1317 5.1756 0.0025 10 10 8 8 6 6 4 4 2 2 0 • ロジスティック曲線は一般に次の式で表わされる. ymax Ä ymin 1 + exp(Ä(a + bx)) • 説明を簡単にするため,yの変化範囲を 0∼ymax とする(y min =0). y = = ymax 1 + exp(Ä(a + bx)) ymax 1 + exp(Äb(x Ä x50)) 0 0 33 y = ymin + -2.5 32 8 ln(p) • 折点の値(x0,y0), 左側と右側の傾斜 (bL,bR)の4つの非 線形パラメータモデ ルを当てはめると, 下の結果が得られる. • x0 を絶対温度に戻 すと,1000/3.6045 =277°Kとなる. -3.0 1000/T 5 10 0 y= y = = 10 10 8 8 6 6 4 4 2 2 0 35 34 ç xç + EC50 上の式を変形すると次のように ロジスティックモデ ルの式に帰着する. Em ax • (2)式で x=x50 のとき,分母=2,y=y max /2 となる. • 一般には(1)式が用いられるが,a には物理的意 味が無いので,(2)式の方が利用しやすい. 10 • 薬物動態の分野で良く用いられるモデルに Emaxモデルがある. Emax Åx ç (1) (2) 5 1+ ç EC50 xç E max 1 + exp(ç(ln(EC50 ) Ä ln(x))) 0 0 20 40 60 0.1 1 10 100 36 6 • 薬物動態の分野で,用量反応関係式としては, Emaxモデルの他に,酵素反応速度論, Michaelis-Menten,受容体結合実験などがある. これらは,記号が区々で別のものと思っている人 も多いが,変換するとすべてロジスティックモデ ルである.Michaelis-Menten は b=1 としたもの である. • これらは,すべて,ソルバーを使って簡単にモ デルを当てはめることができる. • ただし,x ではなく,ln(x) に対してロジスティック 曲線が当てはまる.誤って log(x)で計算すると 係数γの値が変わるので,注意を要する. ロジスティック曲線の当てはめ • 投与量 x を0.125 から公比2の等比級数で変化 して,次シートの効果yが観測された. • 横軸を対数変換したグラフが示されている. • 下の式を当てはめる. y= y max 1 + exp(ÄB(ln(x) Ä ln(x 50 ))) 37 x 0.125 0.25 0.5 1 2 4 8 16 32 64 y 1 3 5 23 66 113 158 171 171 165 y-hat 0.46 1.75 6.54 22.63 63.18 118.55 153.66 166.52 170.23 171.23 38 効力比 180 160 140 120 100 80 60 40 20 0 0.1 • 「薬剤Bが薬剤Aのc倍の効力を持っている」と は,「薬剤Bを x 投与した効果は,薬剤Aをcx投 与した効果に等しい」ことを表わす.この関係は次 の式で表わされる. 1.0 10.0 yA = f (x) = g(ln(x)) 100.0 yB = f (c Ç x) = g(ln(c) + ln(x)) ymax 171.581 x50 2.642 B 1.939 S 121.394 • この関係が x の値によらず成立するとき,効力 比 x が一意に定義できる. • 効力比が定義できるときには,横軸に投与量の 対数を取るとき,グラフは水平移動で重なる. y-hat=ymax /(1+EXP(-B*(LN(x)-LN(x50)))) 39 • Emaxモデルのグラフに,効力比 c=2 の薬剤の 曲線(左側 ■)を加えたグラフを下に示す. 10 10 8 8 6 6 4 4 2 2 0 0 20 40 60 0 0.1 1 10 40 効力比の例題 • 薬剤Aの投与量xを0.192, 0.48, 1.2, 3 と等比級 数的に変化させ,4匹の動物に投与して薬効 y を 調べる. • 薬剤Bの薬効は薬剤Aの半分程度と想像される ので,薬剤Aの2倍,すなわち,0.384, 0.98, 2.4, 6 と変化させて投与した. • 4匹の薬効の平均値を次シートのyに示す. • ymin,ymax,b,D50 と効力比 c をパラメータと してモデルを当てはめると,次シートの右の曲線 のようにモデルがあてはまる. 100 41 42 7 薬剤 A x 0.192 0.480 1.200 3.000 0.384 0.960 2.400 6.000 B y 1.08 1.48 1.71 1.72 0.90 1.27 1.67 1.71 y-hat 1.06 1.51 1.70 1.73 0.91 1.28 1.63 1.72 薬剤の相乗・拮抗効果 2.00 A B A B 1.50 1.00 c ymin ymax b D50 S yA b yB b = = 0.3093 0.7994 1.7319 2.2934 0.2911 0.0028 0.50 0.10 1.00 10.00 ymax Ä ymin 1 + exp(Äb(ln(x) Ä ln(x50)) ym ax Ä ymin ymin + 1 + exp(Äb(ln(cx) Ä ln(x50 )) ymin + A=0 A=2 • 投与量を増やして実験して,下の結果が得られた. • A=4 または B=2単独投与と,両剤を半量ずつの 併用投与を比較する. • 単独投与の平均効果(18+20)/2=19に比べて併用 投与の効果は 22 と大きい.すなわち,相乗効果 が 認められる. • A=6, B=3 の併用でも,(19+22)/2=20.5 に比べて 併用投与は 25, 25 と大きく,相乗効果がある. • 前の結果と逆になった.どのように考えるか? B=0 10 15 18 19 B=1 17 22 25 B=2 20 25 B=0 10 15 B=1 17 21 A0,B0 との差 A=0 0 7 A=2 5 11 43 A=0 A=2 A=4 A=6 • 薬剤AとBを単独および併用投与して次の結果 が得られた. • A,Bの単独の効果は5,7であるのに対して,併 用した効果は11で 5+7=12よりも小さい. • 実験計画法の考えによれば,わずかではある が交互作用があり,拮抗効果が認められる. B=3 22 45 22 20 18 16 14 12 10 A= 0 A= 2 B=0 B=1 44 • 以下に述べる方法は,薬剤A,Bに 効力比 のモ デルが成立することが前提とされる. • 相乗・拮抗効果がない(相加性が成立する)場 合は y=f ( x A+cx B) という一般式で表わされる.ここで,cは効力比, fは任意の関数である. • この式では表わされないときは,d xA xB の項 を追加することにより相乗・拮抗効果を評価する ことができる.この項は dxAxB には限らない. • 薬剤の相乗・拮抗効果は,実験計画法の交互 作用とは別のものであるという認識が必要である. 46 複数の曲線の当てはめ • 蜂に刺されると腫れる.腫れを抑制する薬剤を 開発したので,その抑制効果を評価したい. • 無投与,低用量,中用量,高用量で,浮腫量の 時間変化がどのように変るかを調べる実験を実 施した. • 各投与量毎に,複数匹の動物に対して,刺激 を与えた直後に,薬剤を投与し,0, 1, 2, 3, 4, 5 時 間後の浮腫量を測定した. • 複数の動物の浮腫量の平均値の値と,時間的 変化を表わすグラフを示す. 47 48 8 Excelソルバーによる解析 • 4つの群毎に次の式を当てはめる. y = y inf Ä (y inf Ä y0 ) exp(Bx) • 4群*3=12個のパラメータの初期値を下の青 色のセルに入力する. • 初期値を使って,予測値と残差,残差の2乗和 を求める. • さらに,2乗和の合計を黄色のセルに求める. • 2乗和の合計が最小になるパラメータをソルバー で求める. • グラフを見ると,3つの曲線は x=0 で重なってお り,上の式の y 0 の値はほぼ等しい. • そこで,y0 の値は,薬剤の投与量によらず一定 のモデル式を当てはめる. • パラメータ入力領域を下に示す. • y 0 の2番目以降のセルには「=左のセル」が入 力されている. • 着色部分のみを変化させるセルに指定して,ソ ルバーを実行すると下の結果が得られる. 49 • モデルのパラメータを3個少なくしたが,残差平 方和 はわずかに 0.01872−0.01835=0.00037 し か増加しない. • 得られた 4組の y inf とB の散布図を描いたの が,下のグラフの■マークである. • 近似直線を引き,相関係数を求めると, R2=0.9191 で 両者には深い関連がある. 50 • y inf とB の何れか一方が4群で共通という モデルを当てはめることを試みる. • その方法は前と同じである. • 何れの場合も残差平方和がかなり大きく なり,グラフを描いても不適切なモデルであ る. • そこで,前のグラフの直線上に2つのパラ メータが乗るモデルを当てはめると,かなり 良くあてはまる. • これらの試行錯誤の末に到達したのが次 に述べるモデルである. 51 • 次のように考える. • 刺激を与えると浮腫が進むが,薬剤の効果の 表れるには時間を要する. • 最初の間は薬剤の影響は現れず,同じ傾斜で 浮腫が進む. • 前に示した曲線を表わす式で,t=0 における傾 斜は,この式をx について微分し,x に 0 を代入 して得られる. dy = (y0 Ä y1 )BeBx ) (y0 Ä y1 )B (x = 0) dx • 初期の傾斜をc とすると,B は次の式で求めら れる. c B= y0 Ä y1 53 52 • パラメータにcを追加 し,B は,c,y0 とyinf か ら計算する. • 右のグラフに示すよう に,実測点と曲線とは 良く合っているように見 える. • Se は 0.02047 で,y 0 のみを共通とした残差 平方和 0.01872 に比べ ると,パラメータを3個 減らしたにもかかわら ず,わずか 0.0175 しか 増加しない. F= 0:00175=3 ô 0:6 0:01872=(24 Ä 9) 54 9 平均値と中央値 ロバスト推定 • 右のデータはア ンスコムが提供し た外れ値を含むデー タである. • 最小2乗法による 回帰直線は点線 のように,外れ値 に引っ張られる. x 4 5 6 7 8 9 10 11 12 13 14 y 5.39 5.73 6.08 6.42 6.77 7.11 7.46 7.81 8.15 12.74 8.84 y-hat 14 5.39 5.73 12 6.08 10 6.42 6.77 8 7.11 7.46 6 7.81 8.15 4 8.50 4 8.84 e 0.000 -0.005y 0.000 線形 (y) -0.005 0.000 -0.005 0.000 0.005 0.000 4.245 6 8 10 0.000 12 55 x 4 5 6 7 8 9 10 11 12 13 14 y 5.39 5.73 6.08 6.42 6.77 7.11 7.46 7.81 8.15 12.74 8.84 a b S y-hat 5.39 5.73 6.08 6.42 6.77 7.11 7.46 7.81 8.15 8.50 8.84 4.01 0.35 4.265 e 0.000 -0.005 0.000 -0.005 0.000 -0.005 0.000 0.005 0.000 4.245 0.000 y 5.39 5.73 6.08 6.42 6.77 7.11 7.46 7.81 8.15 12.74 8.84 a b S y-hat 5.29 5.67 6.06 6.45 6.84 7.23 7.62 8.00 8.39 8.78 9.17 3.73 0.39 8.446 56 • 得られた回帰直線は,外れ値の影響を 全く受けないロバストな回帰式が得られる. • 残差の絶対値の代わりに絶対値のp乗 (1<p<2) を用いることも考えられる. • p=1.5とすると,次シートのように,外れ 値も幾分考慮した回帰直線が得られる. 14 12 10 8 6 4 2 0 4 9 14 =SUM(ABS(D18:D28)) 57 x 4 5 6 7 8 9 10 11 12 13 14 14 • きたないデータ(外れ値を含むデータ)では平均値 よりも中央値の方が代表値として安定した値が得ら れることが知られている. • 平均値は残差の2乗の和を最少にする最小2乗推 定値であ,中央値は残差の絶対値の和を最小とす る推定値である. • 外れ値の影響を受け難い推定が ロバスト推定 • アンソコムのデータに,残差の絶対値の和を最小 とする回帰式をソルバーで当てはめた結果が次の シートである. e 0.104 0.056 0.018 -0.031 -0.069 -0.117 -0.156 -0.194 -0.242 3.960 -0.329 • 最小p乗法(1<p<2)を,外れ値の含まれるデー タに適用することにより,ロバストな推定値を求め ることができる. • pが2以外のとき,平方和の微分が不連続にな るので,理論的に展開することができず,数理統 計学者は興味を持たないようである. • 最適化にGauss-Newton法(数式微分法)を用い る統計解析プログラムではこの方法は用いられ ない.数値微分が必要. • しかし,現実のデータ解析の分野では役に立つ 方法であると思われる. 14 12 10 8 6 4 2 0 4 9 58 14 =SUM(ABS(D18:D28)^1.5) 59 60 10 最尤法 • 誤差が正規分布に従うときは,最小2乗法が用 いられ,パラメータに関して非線形であっても,ソ ルバーで解くことができた. • 誤差が2項分布に従うときは,最小2乗法では なく,最尤法が用いられる. • この場合にも,ソルバーで解析が可能である. • まず,尤度とは何かから説明を始める. • 真の有効率πが 0.2 のとき,n=10 のサンプル中 の有効数 f=3 となる確率は,2項分布で計算され る. • fを0 ∼ 10 に変えたときの確率が次シートの π=0.2 の列に求められている. • それをグラフ化したのが,左下のグラフである. • fは整数値しか取らないので,グラフは棒グラフ となる. 61 62 • 逆に, f = 3が得られたとき,この結果はπ=0.2 のとき どの位起こり易いかを考える. • f=3の行を横に見ると0.20 である. • π=0.5のとき,この値は 0.12 となる. • πの値を変化させたときこの値の変化を見た のが右下のグラフである.πは連続的に変化す るので,滑らかな曲線で表わされる. • このとき,縦軸の値を尤度 と呼ぶ. • 尤度が最大となるπは 0.3 となる. • これが,最尤法 の考え方で,得られた結果は 最尤推定値 と呼ばれる. 63 64 ロジスティック回帰分析 • 薬剤の投与量 xを等比級数で変化して,それ ぞれの投与量で n=10 匹に投与し,効果の見ら れた匹数 fを求めた. • その結果を次シートの左に示す. • グラフの横軸は投与量xの対数表示,縦軸は 有効率 p=f/n である. • 両者の関係はロジスティック曲線で表わされる と思われる. • ソルバーで解いた結果が次シートに示されてい る. 65 x 101 136 183 247 333 450 f 0 2 5 8 9 10 n 10 10 10 10 10 10 p 0.0 0.2 0.5 0.8 0.9 1.0 p-hat -2ln(L) p-hat -2ln(L) 0.042 0.868 0.042 0.868 0.164 2.483 0.164 2.483 0.465 2.854 0.465 2.854 0.796 2.396 0.796 2.396 0.946 2.223 0.946 2.224 0.987 0.254 0.987 0.254 1.0 0.8 0.6 0.4 0.2 a -26.211 b 5.004 L 11.078 x50 188.247 0.0 b 5.004 100 L 11.078 1000 p-hat=1/(1+EXP(-(a+b*LN(x)))) -2ln(L)=-2*LN(BINOMDIST(f, n ,p-hat,FALSE)) p-hat=1/(1+EXP(-b*(LN(x)-LN(x50)))) 66 11 ソルバーによる解析手順 ロジスティック回帰分析の拡張 • 最少2乗法の場合と同様に,p-hat を計算する. 次の2つのモデルについて解析する. p = b p = b 1 1 + exp(Ä(a + b ln(x))) 1 1 + exp(Äb(ln(x) Ä ln(x5 0)) • −2対数尤度(-2ln(L)) を計算する. • 2項分布の尤度を求めるExcel関数は, =BINOMDIST(f, n, π, FALSE) である.この式のπに p-hat を用いる. • -2ln(L) の合計を一番下の L に求める. • Lを最少にするパラメータをソルバーで求める. 67 • 自然治癒があり,無投与でも,たとえば,20%が 治癒する.すなわち,治癒率pの変化範囲は 0.2 ~ 1.0 である. • 治癒率が100%に接近すると,接近速度が低下 するような場合には,ゴンペルツ曲線が適切かも しれない. • このような場合でも,Excelソルバーでは,わずか の工夫を加えることにより,対応することができる. • 2項分布を多項分布に拡張することにより, 「無効,有効,著効」などのデータの解析で,従来 分割表の累積カイ2乗検定が使われていた分野に も,新しい解析方法が生まれるであろう. 69 終りに • ここに示したのはソルバーの適用例のほんの 一部に過ぎない. • 従来は,データに合うモデルを,利用可能なプ ログラムから探し出した. • 現在では,データのモデルとして何が最も妥当 かを徹底的に比較検討することが大切で,どの ようなモデルでも解析可能と言える時代になった. • 固有技術の重要性が増大した.統計の専門家 も固有技術の中に入り込まなければ存在価値が ないであろう. 71 • p=f/n の対数オッズ z=ln(p/(1-p)) を用いると,ロ ジスティック曲線は z=a+bx と表わすことができる. • 多くの統計解析プログラムは,zがパラメータに関 して線形である場合に対応している. • xの2次式を当てはめたり,複数の薬剤の投与量 を取り扱ったり,性別のダミー変数を含めたりする ことが可能である. • しかし,z=b(x-x50 ) のように,パラメータに関して 非線形になると,対応できないプログラムもある. 68 • 最尤法では,−2対数尤度 がχ2乗分布で近 似できるという性質が使われる. • ソルバーの目的セルを−2対数尤度 にしてお くと,パラメータが 0 (または既定値)であるという 帰無仮説の検定や,パラメータの近似信頼限界 の計算が可能となる. • ただし,一つ一つ関数を埋めていくのは面倒で あり,間違いの入る危険がある.VBAでマクロを 作って置くと便利であろう. 70 • ここに示した例題を,市販の統計解析プロ グラムやR, S で解析することを試みて欲しい. • 「Excelで できて,汎用統計解析システムで できないのはなぜだ」というユーザーの圧力 により,解析システムが改善されることが期 待される. 72 12
© Copyright 2025 Paperzz