本日のテーマ 平均値とは 回帰式

2007. 9. 29
本日のテーマ
医薬開発におけるモデルのあてはめ
Excel-ソルバー による非線形最小2乗法・
最尤法・ロバスト回帰
芳賀敏郎
(元 東京理科大学)
• 非線形回帰分析 は今後広い分野で活用が期待される統計
手法である.
• 本日の主題は「非線形回帰分析 」であるが,応用統計家 に
どのように 説明したら良いかを考え,通常の解説とはかなり
変わったアプローチで説明する.
• 極めて身近な平均値とその標準誤差,信頼区間から入り,
単回帰分析に拡張する.
• 次いで,直線回帰における逆推定問題を取り上げて,非線
形パラメータの意味と,解析結果 が前と異なること示す.
• このような準備の後に,非線形回帰分析を取り上げる.
1
2
平均値とは
• n 個の観測値 xi が得られたとき,代表値 a を決め
たい.
• 代表値は観測値に全体として近くしたい.
• xi とa の距離の総合値と
して,差の2乗の和Sを考
P
S = (x i Ä a)2
える.
• a によってSがどのように 変化するかをグラフ化する.
• グラフは次シートに示すように,放物線となり,平均
値で最小となる.
• このような推定を最小2乗法 という.
平均
6.0
S
92
n
8
自由度
7
平均平方 13.14
標準偏差 3.63
標準誤差 1.28
t(0.05) 2.36
下限
2.97
上限
9.03
S+V
105.1
S+FV
165.5
x
1
3
4
7
4
9
8
12
S = 8a 2 Ä 96a + 380 = 8(a Ä 6) 2 + 92 = n(a Ä x)2 + S; s e =
p
V =n
3
• 元のデータから,平方和S,平均平方V,平均
値の標準誤差se,区間推定値などを計算する.
• 平均値±se,区間推定値に縦線を引き,曲線と
の交点を通る水平線を引く.
• 交点の縦軸の値はS+V,S+FVである.
F = F(1; n Ä 1; 0:05) = t(n Ä 1; 0:05)2
• 2次式の,2次の係数5は,パラメータの推定値
の標準誤差を求めるときの分母である.
• この関係は,線形最小2乗推定値に拡張できる.
• 非線形最小2乗推定値では,少し修正される.
5
4
回帰式
• 次の散布図に回帰直線を当てはめる.
• 平均値と同様,最小2乗法が用いられる.
• 次シートの散布図で,y=a+bxの a, b を試行
錯誤で変化させて,
S=
n
n
X
X
(y i Ä b
yi )2 =
(yi Ä (a + bxi))2
i=1
i=1
を最小とする解を求める.
6
1
•
ソルバー とは
x
-2
-1
0
1
2
3
4
5
y
y-hat
1
0.00
3
1.50
4
3.00
7
4.50
4
6.00
9
7.50
8
9.00
12 10.50
• 試行錯誤を自動的に実行してくれるのが ソル
バー である.
14
12
10
• 下の結果が得られる.
8
x
-2
-1
0
1
2
3
4
5
6
4
2
a 3.000
b 1.500
S 20.000
0
-2
0
2
4
y y-hat
1 1.25
3 2.61
4 3.96
7 5.32
4 6.68
9 8.04
8 9.39
12 10.75
14
12
10
8
6
4
2
a 3.964
b 1.357
S 14.643
0
-2
0
2
4
7
• ソルバーを選択すると,「パラメータ設定」画面が
表示される.
• 目的セルに S のセルを,目標値を最小値 に,変
化させるセルに a, b のセルを指定して実行する.
8
ソルバーの利用
• ソルバーは,目的とするセルの値を最小とする
だけでなく,最大,または,ある値に等しくすること
ができる.
• 変化させるセルは,一塊りのセルに限らず,
“,” を使って自由に組合わせることができる.
• 変化させるセルの値に制約を加えることができる.
• これらを上手に使うとその適用範囲は無限であ
る.後にいくつかの例を紹介する.
9
• ソルバーを使わなくても,ExcelのLINEST関数で,
a,b だけでなく,それらの標準誤差も簡単に求めら
れる.
• LINEST関数の出力 ソルバーの解
x
a,b 1.357
se 0.241
R^2 0.841
F 31.698
SR 77.357
const
3.964
0.660
1.562 sd
6 fe
14.643 Se
• b の標準誤差 0.241 の求め方を調べる.
• b の最小2乗推定値の前後でδbだけ変化させ
て残差平方和の変化を見る.
60
50
40
Se
通常の方法
10
30
20
10
a 3.964
b 1.357
S 14.643
2
y = 60x - 4E-06x + 14.643
0
-1.0
-0.5
0.0 δb
0.5
1.0
• 2次式が完全に当てはまる.2次の係数は60で
ある.
11
12
2
• これから,b の標準誤差を計算する.
q
q
se(b
y ) = V60e = 14:643=6
= 0:201
60
• この方法ではLINESTの結果 0.241 は得られな
い.
• 単純にbを変化させたときの,あてはまりが 悪さ
を見るのは誤りである.
• 上の計算は,下の図の赤線のように,a =4 を固
定してbを変化させて,残差平方和を求めている.
• b を変えたあと,青の点線のように,残差が最小
となるように a も変化させる必要がある.
16
14
12
10
8
6
4
2
0
-2
-4
-2
0
2
4
13
Se
• 次シートに示すような計算表を準備し,ΣSを最
小とするbを求める.前シートの点線に相当する.
• 横軸にδ,縦軸にS をとってグラフを描き,2次曲
線を当てはめる
50
.
40
30
20
10
y = 42x 2 - 2E-11x + 14.643
0
-1.0
q
q
-0.5
0.0 δb
0.5
1.0
• 2次の係数 42 から,bの標準誤差を計算する.
se( y)
b =
Ve
42
=
14:643=6
42
= 0:241
14
x
-2
-1
0
1
2
3
4
5
y
1 0.55
3 2.11
4 3.66
7 5.22
4 6.78
9 8.34
8 9.89
12 11.45
4.05
4.61
5.16
5.72
6.28
6.84
7.39
7.95
3.35
4.11
4.86
5.62
6.38
7.14
7.89
8.65
y-hat
2.65 1.95 1.25 0.55 -0.15 -0.85 -1.55
3.61 3.11 2.61 2.11 1.61 1.11 0.61
4.56 4.26 3.96 3.66 3.36 3.06 2.76
5.52 5.42 5.32 5.22 5.12 5.02 4.92
6.48 6.58 6.68 6.78 6.88 6.98 7.08
7.44 7.74 8.04 8.34 8.64 8.94 9.24
8.39 8.89 9.39 9.89 10.39 10.89 11.39
9.35 10.05 10.75 11.45 12.15 12.85 13.55
δb
0.2 -0.8 -0.6 -0.4 -0.2
0
0.2
0.4
0.6
0.8
a 3.664 5.164 4.864 4.564 4.264 3.964 3.664 3.364 3.064 2.764
b 1.557 0.557 0.757 0.957 1.157 1.357 1.557 1.757 1.957 2.157
S 16.32 41.52 29.76 21.36 16.32 14.64 16.32 21.36 29.76 41.52
ΣS
248.91
となり,LINEST関数の結果が求められた.
15
• bの標準誤差は,前々シートのグラフに
Se+ Ve=14.643+2.440=17.083 の横線を引き,曲
線との交点から求めることができる.
• 信頼区間は,Se+F Ve= 14.643+5.987*2.441
=29.25 の横線を引き,曲線との交点から求める
ことができる.
16
• a,bの両方を変化させてSを計算し,Sの等高線
を描くと次のグラフが得られる.
• 等高線は楕円になる.
• 前のグラフは鉛直線,後のグラフは斜線での切
り口の断面に対応する. 1.6
1.2
50
0.8
Se
40
0.4
30
0
20
-0.4
10
-0.8
0
-1.0
b
60.0 -70.0
50.0 -60.0
40.0 -50.0
30.0 -40.0
20.0 -30.0
10.0 -20.0
0.0 -10.0
-1.2
-0.5
0.0 δb
0.5
1.0
-0.8 -0.6 -0.4 -0.2
17
0
a
0.2
0.4 0.6
-1.6
0.8
18
3
逆推定
回帰式の変形とその解
• y=8 となるx(x8 で表す)はいくらだろうか?
• 散布図に回帰直線とその信頼区間の幅をつけ
たグラフを左下に示す.
• y=8 の水平線と回帰直線との交点が解である.
• 式で計算するとx8=(8-a)/b=(8-3.96)/1.36=2.974
x
-2
-1
0
1
2
3
4
5
14
12
10
8
6
4
2
0
-2
-2
-1
0
1
2
3
4
y
1
3
4
7
4
9
8
12
y = a + bx (1)
であった.これを次のように 変形する.
y = 8 + b(x Ä x8) (2)
この式では,未知パラメータは bとx8 である.
• Excelの計算表で,yの予測値を計算する式に
(2)式を用い,ソルバーで解いた結果が前シート
の右下に示されている.
y-hat
1.25
2.61
3.96
5.32
6.68
8.04
9.39
10.75
y0
8
x 8 2.974
b 1.357
S 14.643
5
• これまで取り扱っていたデータのモデルは
19
20
•
x8 の信頼区間
50
45
40
35
• 前と同じ考えで,x8 の信頼区間を求めてみよう.
• 次シートに示すように,曲線は左右非対称で,
放物線とはならない.
• bの区間推定の場合と同様に,Se=29.25 の水
平線を引き,曲線との交点を求める.
• 信頼区間は 1.96∼4.68 となる.これは次シート
で y=8 の水平線とy-hat の信頼区間の曲線との
交点である.
30
25
20
15
10
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
• x8の標準誤差はS+Vに横線を引いて,曲線との
交点を求めるという方法では求められない.
• 推定値近傍を2次式で近似して,その係数から計
算する.近似の方法で区々の結果が得られる.
21
• 逆推定のモデルで,残差の等高線を描く
と,非対称で,楕円とはならない.
22
非線形回帰分析とは
• 最初に示した2つのモデル式を比較する.
y = a + bx (1)
S9
S8
S7
S6
S5
S4
S3
23.00
22.00
21.00
20.00
19.00
18.00
17.00
16.00
15.00
14.00
y = 8 + b(x Ä x8 ) = 8 + bx Ä bx8 (2)
-24.00
-23.00
-22.00
-21.00
-20.00
-19.00
-18.00
-17.00
-16.00
-15.00
(1)式はパラメータa, b に関して線形(1次式)であ
るが,(2)式は,展開すると,パラメータb,x8 の積
が含まれ,線形ではない.
• このように,パラメータに関して線形でないとき,
上に述べたように線形とは異なる現象が現れる.
• このようなモデルを当てはめるのが
非線形回帰分析である,
S2
1
2
3
4
5
6
7
8
9
S1
23
24
4
べき関数
• x とy の間に下記の左の関係があるとき,両辺の対
数を取ると,パラメータに関して線形となり,通常の直
線回帰分析が適用できる.
y = abx;
log(y) = log(a) + log(b)x
非線形回帰分析
= axb ;
log(y) = log(a) + alog(x)
• 従来は,このように線形化を工夫して解析した.
25
• しかし,これらの式の右辺に +c が追加されると,
この方法では線形化できない.
• abxで b<1 のとき,下のような曲線を当てはめ
たい場合が多い.
• x=0,x=∞のときの yをy0,y∞ で表わす.
y = y1 + (y0 Ä y1 )bx
• 上は abx,下は axb の曲線を表わす.
• 左は,xとyの関係,右は xとlog(y) または
log(x) とlog(y) の関係を表わす.凡例は a,b
100
70
60
10,1.2
10,0.8
10,1.2
10,0.8
50
40
10
30
26
20
=
10
0
1
0
2
4
6
8
10
120
0
2
4
6
8
10
1000
10,1.5
10,0.5
100
80
40
20
0
0
1
2
3
8
2,10,0.5
10
6
10,2,0.7
1
4
100
60
4
5
y1 + (y0 Ä y1 ) exp(Bx)
10
0
0.1
10,1.5
10,0.5
2
1
10
0
27
2
4
6
28
10
• 「理科年表」,岩波書店 からデータを取り
出し,散布図を描く.右は水蒸気圧 y の対
数を取ったもの.
800
8
6
600
ln(y)
4
400
2
0
200
-2
0
-50
0
50
x
29
8
温度と水蒸気圧の関係
y
• ここで,誤差の等分散性について考慮が必要で
ある.
• 対数を取ることにより,等分散性が成立する場
合が多いが,逆に等分散性が成立しなくなる場合
もありえる.
• ソルバーを用いると,パラメータに関して非線形
で,対数や指数関数などの超越関数が含まれて
いても,そのままでモデルを当てはめることがで
きる.
• 線形化と等分散性の両方を考慮して解析方法
を決める.重みつき最小2乗法を使えば適用範囲
はさらに拡大するが,今回は触れない.
0
100
-4
-50
0
50
100
x
30
5
yÉ =
12
10
8
6
4
2
0
-2
-4
-50
y pÄ 1
p
2
R = 0.9999
0
50
100
x
• 物理・化学現象で広く適
用されるモデルにアレニゥ
スの式がある(中 上・森川訳 ,
「医薬統計学 」サイエンティスト社)
.
• 温度を絶対温度Tに変換
し,横軸に絶対温度のー逆
数を取ると,右のように 直
線関係が得られる.
• このモデルでの傾斜は蒸
発エネルギーと結び付く.
• 良く見ると,途中で折れて
いるようである.
y = A exp
3
ÄÄE Å
RT
2
1
ln(y)
y^0.135
• 対数変換では直線化が行
き過ぎるときは,Box-Cox変
換が用いられる.
• pの初期値を設定してy*
を計算する.xとy* の相関
係数 rを計算する.
• ソルバーで,rを最大にす
るp をで求める.p=0.135
となる.右のグラフで 寄与
率は 0.9999 となり,モデル
の当てはまりは 極めて良い.
• しかし,こうして得られた
0.135 には物理的な意味は
考えられない.
0
2
R = 0.9982
-1
-2
-4.5
-4.0
-3.5
31
ロジスティック曲線
6
4
2
0
-2
-4
-4.5
-4.0
x0
y0
bL
bR
S
-3.5
-1000/K
-3.0
-2.5
• 投与量(または投与量の対数)を横軸に,効果を縦
軸にとってグラフを描くとき,下のような曲線となるこ
とがある.
• このようなS字型の曲線を一般に 生長曲線 という.
生長曲線の代表的なものには(左)ロジスティック曲
線や(右)ゴンペルツ曲線がある.
-3.6045
1.8793
6.1317
5.1756
0.0025
10
10
8
8
6
6
4
4
2
2
0
• ロジスティック曲線は一般に次の式で表わされる.
ymax Ä ymin
1 + exp(Ä(a + bx))
• 説明を簡単にするため,yの変化範囲を 0∼ymax
とする(y min =0).
y =
=
ymax
1 + exp(Ä(a + bx))
ymax
1 + exp(Äb(x Ä x50))
0
0
33
y = ymin +
-2.5
32
8
ln(p)
• 折点の値(x0,y0),
左側と右側の傾斜
(bL,bR)の4つの非
線形パラメータモデ
ルを当てはめると,
下の結果が得られる.
• x0 を絶対温度に戻
すと,1000/3.6045
=277°Kとなる.
-3.0
1000/T
5
10
0
y=
y =
=
10
10
8
8
6
6
4
4
2
2
0
35
34
ç
xç + EC50
上の式を変形すると次のように ロジスティックモデ
ルの式に帰着する.
Em ax
• (2)式で x=x50 のとき,分母=2,y=y max /2 となる.
• 一般には(1)式が用いられるが,a には物理的意
味が無いので,(2)式の方が利用しやすい.
10
• 薬物動態の分野で良く用いられるモデルに
Emaxモデルがある.
Emax Åx ç
(1)
(2)
5
1+
ç
EC50
xç
E max
1 + exp(ç(ln(EC50 ) Ä ln(x)))
0
0
20
40
60
0.1
1
10
100
36
6
• 薬物動態の分野で,用量反応関係式としては,
Emaxモデルの他に,酵素反応速度論,
Michaelis-Menten,受容体結合実験などがある.
これらは,記号が区々で別のものと思っている人
も多いが,変換するとすべてロジスティックモデ
ルである.Michaelis-Menten は b=1 としたもの
である.
• これらは,すべて,ソルバーを使って簡単にモ
デルを当てはめることができる.
• ただし,x ではなく,ln(x) に対してロジスティック
曲線が当てはまる.誤って log(x)で計算すると
係数γの値が変わるので,注意を要する.
ロジスティック曲線の当てはめ
• 投与量 x を0.125 から公比2の等比級数で変化
して,次シートの効果yが観測された.
• 横軸を対数変換したグラフが示されている.
• 下の式を当てはめる.
y=
y max
1 + exp(ÄB(ln(x) Ä ln(x 50 )))
37
x
0.125
0.25
0.5
1
2
4
8
16
32
64
y
1
3
5
23
66
113
158
171
171
165
y-hat
0.46
1.75
6.54
22.63
63.18
118.55
153.66
166.52
170.23
171.23
38
効力比
180
160
140
120
100
80
60
40
20
0
0.1
• 「薬剤Bが薬剤Aのc倍の効力を持っている」と
は,「薬剤Bを x 投与した効果は,薬剤Aをcx投
与した効果に等しい」ことを表わす.この関係は次
の式で表わされる.
1.0
10.0
yA = f (x) = g(ln(x))
100.0
yB = f (c Ç x) = g(ln(c) + ln(x))
ymax 171.581
x50
2.642
B
1.939
S 121.394
• この関係が x の値によらず成立するとき,効力
比 x が一意に定義できる.
• 効力比が定義できるときには,横軸に投与量の
対数を取るとき,グラフは水平移動で重なる.
y-hat=ymax /(1+EXP(-B*(LN(x)-LN(x50))))
39
• Emaxモデルのグラフに,効力比 c=2 の薬剤の
曲線(左側 ■)を加えたグラフを下に示す.
10
10
8
8
6
6
4
4
2
2
0
0
20
40
60
0
0.1
1
10
40
効力比の例題
• 薬剤Aの投与量xを0.192, 0.48, 1.2, 3 と等比級
数的に変化させ,4匹の動物に投与して薬効 y を
調べる.
• 薬剤Bの薬効は薬剤Aの半分程度と想像される
ので,薬剤Aの2倍,すなわち,0.384, 0.98, 2.4, 6
と変化させて投与した.
• 4匹の薬効の平均値を次シートのyに示す.
• ymin,ymax,b,D50 と効力比 c をパラメータと
してモデルを当てはめると,次シートの右の曲線
のようにモデルがあてはまる.
100
41
42
7
薬剤
A
x
0.192
0.480
1.200
3.000
0.384
0.960
2.400
6.000
B
y
1.08
1.48
1.71
1.72
0.90
1.27
1.67
1.71
y-hat
1.06
1.51
1.70
1.73
0.91
1.28
1.63
1.72
薬剤の相乗・拮抗効果
2.00
A
B
A
B
1.50
1.00
c
ymin
ymax
b
D50
S
yA
b
yB
b
=
=
0.3093
0.7994
1.7319
2.2934
0.2911
0.0028
0.50
0.10
1.00
10.00
ymax Ä ymin
1 + exp(Äb(ln(x) Ä ln(x50))
ym ax Ä ymin
ymin +
1 + exp(Äb(ln(cx) Ä ln(x50 ))
ymin +
A=0
A=2
• 投与量を増やして実験して,下の結果が得られた.
• A=4 または B=2単独投与と,両剤を半量ずつの
併用投与を比較する.
• 単独投与の平均効果(18+20)/2=19に比べて併用
投与の効果は 22 と大きい.すなわち,相乗効果 が
認められる.
• A=6, B=3 の併用でも,(19+22)/2=20.5 に比べて
併用投与は 25, 25 と大きく,相乗効果がある.
• 前の結果と逆になった.どのように考えるか?
B=0
10
15
18
19
B=1
17
22
25
B=2
20
25
B=0
10
15
B=1
17
21
A0,B0 との差
A=0
0
7
A=2
5
11
43
A=0
A=2
A=4
A=6
• 薬剤AとBを単独および併用投与して次の結果
が得られた.
• A,Bの単独の効果は5,7であるのに対して,併
用した効果は11で 5+7=12よりも小さい.
• 実験計画法の考えによれば,わずかではある
が交互作用があり,拮抗効果が認められる.
B=3
22
45
22
20
18
16
14
12
10
A=
0
A=
2
B=0
B=1
44
• 以下に述べる方法は,薬剤A,Bに 効力比 のモ
デルが成立することが前提とされる.
• 相乗・拮抗効果がない(相加性が成立する)場
合は
y=f
(
x
A+cx
B)
という一般式で表わされる.ここで,cは効力比,
fは任意の関数である.
• この式では表わされないときは,d xA xB の項
を追加することにより相乗・拮抗効果を評価する
ことができる.この項は dxAxB には限らない.
• 薬剤の相乗・拮抗効果は,実験計画法の交互
作用とは別のものであるという認識が必要である.
46
複数の曲線の当てはめ
• 蜂に刺されると腫れる.腫れを抑制する薬剤を
開発したので,その抑制効果を評価したい.
• 無投与,低用量,中用量,高用量で,浮腫量の
時間変化がどのように変るかを調べる実験を実
施した.
• 各投与量毎に,複数匹の動物に対して,刺激
を与えた直後に,薬剤を投与し,0, 1, 2, 3, 4, 5 時
間後の浮腫量を測定した.
• 複数の動物の浮腫量の平均値の値と,時間的
変化を表わすグラフを示す.
47
48
8
Excelソルバーによる解析
• 4つの群毎に次の式を当てはめる.
y = y inf Ä (y inf Ä y0 ) exp(Bx)
• 4群*3=12個のパラメータの初期値を下の青
色のセルに入力する.
• 初期値を使って,予測値と残差,残差の2乗和
を求める.
• さらに,2乗和の合計を黄色のセルに求める.
• 2乗和の合計が最小になるパラメータをソルバー
で求める. • グラフを見ると,3つの曲線は x=0 で重なってお
り,上の式の y 0 の値はほぼ等しい.
• そこで,y0 の値は,薬剤の投与量によらず一定
のモデル式を当てはめる.
• パラメータ入力領域を下に示す.
• y 0 の2番目以降のセルには「=左のセル」が入
力されている.
• 着色部分のみを変化させるセルに指定して,ソ
ルバーを実行すると下の結果が得られる.
49
• モデルのパラメータを3個少なくしたが,残差平
方和 はわずかに 0.01872−0.01835=0.00037 し
か増加しない.
• 得られた 4組の y inf とB の散布図を描いたの
が,下のグラフの■マークである.
• 近似直線を引き,相関係数を求めると,
R2=0.9191 で 両者には深い関連がある.
50
• y inf とB の何れか一方が4群で共通という
モデルを当てはめることを試みる.
• その方法は前と同じである.
• 何れの場合も残差平方和がかなり大きく
なり,グラフを描いても不適切なモデルであ
る.
• そこで,前のグラフの直線上に2つのパラ
メータが乗るモデルを当てはめると,かなり
良くあてはまる.
• これらの試行錯誤の末に到達したのが次
に述べるモデルである.
51
• 次のように考える.
• 刺激を与えると浮腫が進むが,薬剤の効果の
表れるには時間を要する.
• 最初の間は薬剤の影響は現れず,同じ傾斜で
浮腫が進む.
• 前に示した曲線を表わす式で,t=0 における傾
斜は,この式をx について微分し,x に 0 を代入
して得られる.
dy
= (y0 Ä y1 )BeBx ) (y0 Ä y1 )B (x = 0)
dx
• 初期の傾斜をc とすると,B は次の式で求めら
れる.
c
B=
y0 Ä y1
53
52
• パラメータにcを追加
し,B は,c,y0 とyinf か
ら計算する.
• 右のグラフに示すよう
に,実測点と曲線とは
良く合っているように見
える.
• Se は 0.02047 で,y 0
のみを共通とした残差
平方和 0.01872 に比べ
ると,パラメータを3個
減らしたにもかかわら
ず,わずか 0.0175 しか
増加しない.
F=
0:00175=3
ô 0:6
0:01872=(24 Ä 9)
54
9
平均値と中央値
ロバスト推定
• 右のデータはア
ンスコムが提供し
た外れ値を含むデー
タである.
• 最小2乗法による
回帰直線は点線
のように,外れ値
に引っ張られる.
x
4
5
6
7
8
9
10
11
12
13
14
y
5.39
5.73
6.08
6.42
6.77
7.11
7.46
7.81
8.15
12.74
8.84
y-hat
14
5.39
5.73
12
6.08
10
6.42
6.77
8
7.11
7.46
6
7.81
8.15
4
8.50
4
8.84
e
0.000
-0.005y
0.000
線形 (y)
-0.005
0.000
-0.005
0.000
0.005
0.000
4.245
6
8
10
0.000
12
55
x
4
5
6
7
8
9
10
11
12
13
14
y
5.39
5.73
6.08
6.42
6.77
7.11
7.46
7.81
8.15
12.74
8.84
a
b
S
y-hat
5.39
5.73
6.08
6.42
6.77
7.11
7.46
7.81
8.15
8.50
8.84
4.01
0.35
4.265
e
0.000
-0.005
0.000
-0.005
0.000
-0.005
0.000
0.005
0.000
4.245
0.000
y
5.39
5.73
6.08
6.42
6.77
7.11
7.46
7.81
8.15
12.74
8.84
a
b
S
y-hat
5.29
5.67
6.06
6.45
6.84
7.23
7.62
8.00
8.39
8.78
9.17
3.73
0.39
8.446
56
• 得られた回帰直線は,外れ値の影響を
全く受けないロバストな回帰式が得られる.
• 残差の絶対値の代わりに絶対値のp乗
(1<p<2) を用いることも考えられる.
• p=1.5とすると,次シートのように,外れ
値も幾分考慮した回帰直線が得られる.
14
12
10
8
6
4
2
0
4
9
14
=SUM(ABS(D18:D28))
57
x
4
5
6
7
8
9
10
11
12
13
14
14
• きたないデータ(外れ値を含むデータ)では平均値
よりも中央値の方が代表値として安定した値が得ら
れることが知られている.
• 平均値は残差の2乗の和を最少にする最小2乗推
定値であ,中央値は残差の絶対値の和を最小とす
る推定値である.
• 外れ値の影響を受け難い推定が ロバスト推定
• アンソコムのデータに,残差の絶対値の和を最小
とする回帰式をソルバーで当てはめた結果が次の
シートである.
e
0.104
0.056
0.018
-0.031
-0.069
-0.117
-0.156
-0.194
-0.242
3.960
-0.329
• 最小p乗法(1<p<2)を,外れ値の含まれるデー
タに適用することにより,ロバストな推定値を求め
ることができる.
• pが2以外のとき,平方和の微分が不連続にな
るので,理論的に展開することができず,数理統
計学者は興味を持たないようである.
• 最適化にGauss-Newton法(数式微分法)を用い
る統計解析プログラムではこの方法は用いられ
ない.数値微分が必要.
• しかし,現実のデータ解析の分野では役に立つ
方法であると思われる.
14
12
10
8
6
4
2
0
4
9
58
14
=SUM(ABS(D18:D28)^1.5)
59
60
10
最尤法
• 誤差が正規分布に従うときは,最小2乗法が用
いられ,パラメータに関して非線形であっても,ソ
ルバーで解くことができた.
• 誤差が2項分布に従うときは,最小2乗法では
なく,最尤法が用いられる.
• この場合にも,ソルバーで解析が可能である.
• まず,尤度とは何かから説明を始める.
• 真の有効率πが 0.2 のとき,n=10 のサンプル中
の有効数 f=3 となる確率は,2項分布で計算され
る.
• fを0 ∼ 10 に変えたときの確率が次シートの
π=0.2 の列に求められている.
• それをグラフ化したのが,左下のグラフである.
• fは整数値しか取らないので,グラフは棒グラフ
となる.
61
62
• 逆に,
f
= 3が得られたとき,この結果はπ=0.2
のとき どの位起こり易いかを考える.
• f=3の行を横に見ると0.20 である.
• π=0.5のとき,この値は 0.12 となる.
• πの値を変化させたときこの値の変化を見た
のが右下のグラフである.πは連続的に変化す
るので,滑らかな曲線で表わされる.
• このとき,縦軸の値を尤度 と呼ぶ.
• 尤度が最大となるπは 0.3 となる.
• これが,最尤法 の考え方で,得られた結果は
最尤推定値 と呼ばれる.
63
64
ロジスティック回帰分析
• 薬剤の投与量 xを等比級数で変化して,それ
ぞれの投与量で n=10 匹に投与し,効果の見ら
れた匹数 fを求めた.
• その結果を次シートの左に示す.
• グラフの横軸は投与量xの対数表示,縦軸は
有効率 p=f/n である.
• 両者の関係はロジスティック曲線で表わされる
と思われる.
• ソルバーで解いた結果が次シートに示されてい
る.
65
x
101
136
183
247
333
450
f
0
2
5
8
9
10
n
10
10
10
10
10
10
p
0.0
0.2
0.5
0.8
0.9
1.0
p-hat -2ln(L) p-hat -2ln(L)
0.042 0.868 0.042 0.868
0.164 2.483 0.164 2.483
0.465 2.854 0.465 2.854
0.796 2.396 0.796 2.396
0.946 2.223 0.946 2.224
0.987 0.254 0.987 0.254
1.0
0.8
0.6
0.4
0.2
a -26.211
b 5.004
L 11.078
x50 188.247
0.0
b 5.004
100
L 11.078
1000
p-hat=1/(1+EXP(-(a+b*LN(x))))
-2ln(L)=-2*LN(BINOMDIST(f, n ,p-hat,FALSE))
p-hat=1/(1+EXP(-b*(LN(x)-LN(x50))))
66
11
ソルバーによる解析手順
ロジスティック回帰分析の拡張
• 最少2乗法の場合と同様に,p-hat を計算する.
次の2つのモデルについて解析する.
p =
b
p =
b
1
1 + exp(Ä(a + b ln(x)))
1
1 + exp(Äb(ln(x) Ä ln(x5 0))
• −2対数尤度(-2ln(L)) を計算する.
• 2項分布の尤度を求めるExcel関数は,
=BINOMDIST(f, n, π, FALSE)
である.この式のπに p-hat を用いる.
• -2ln(L) の合計を一番下の L に求める.
• Lを最少にするパラメータをソルバーで求める.
67
• 自然治癒があり,無投与でも,たとえば,20%が
治癒する.すなわち,治癒率pの変化範囲は 0.2 ~
1.0 である.
• 治癒率が100%に接近すると,接近速度が低下
するような場合には,ゴンペルツ曲線が適切かも
しれない.
• このような場合でも,Excelソルバーでは,わずか
の工夫を加えることにより,対応することができる.
• 2項分布を多項分布に拡張することにより,
「無効,有効,著効」などのデータの解析で,従来
分割表の累積カイ2乗検定が使われていた分野に
も,新しい解析方法が生まれるであろう.
69
終りに
• ここに示したのはソルバーの適用例のほんの
一部に過ぎない.
• 従来は,データに合うモデルを,利用可能なプ
ログラムから探し出した.
• 現在では,データのモデルとして何が最も妥当
かを徹底的に比較検討することが大切で,どの
ようなモデルでも解析可能と言える時代になった.
• 固有技術の重要性が増大した.統計の専門家
も固有技術の中に入り込まなければ存在価値が
ないであろう.
71
• p=f/n の対数オッズ z=ln(p/(1-p)) を用いると,ロ
ジスティック曲線は z=a+bx と表わすことができる.
• 多くの統計解析プログラムは,zがパラメータに関
して線形である場合に対応している.
• xの2次式を当てはめたり,複数の薬剤の投与量
を取り扱ったり,性別のダミー変数を含めたりする
ことが可能である.
• しかし,z=b(x-x50 ) のように,パラメータに関して
非線形になると,対応できないプログラムもある.
68
• 最尤法では,−2対数尤度 がχ2乗分布で近
似できるという性質が使われる.
• ソルバーの目的セルを−2対数尤度 にしてお
くと,パラメータが 0 (または既定値)であるという
帰無仮説の検定や,パラメータの近似信頼限界
の計算が可能となる.
• ただし,一つ一つ関数を埋めていくのは面倒で
あり,間違いの入る危険がある.VBAでマクロを
作って置くと便利であろう.
70
• ここに示した例題を,市販の統計解析プロ
グラムやR, S で解析することを試みて欲しい.
• 「Excelで できて,汎用統計解析システムで
できないのはなぜだ」というユーザーの圧力
により,解析システムが改善されることが期
待される.
72
12