本日のテーマ平均値とは回帰式

2007. 9. 29
本日のテーマ
医薬開発におけるモデルのあてはめ
Excel-ソルバーによる非線形最小2乗法・
最尤法・ロバスト回帰
芳賀敏郎
（元東京理科大学）
• 非線形回帰分析は今後広い分野で活用が期待される統計
手法である．
• 本日の主題は「非線形回帰分析」であるが，応用統計家に
どのように説明したら良いかを考え，通常の解説とはかなり
変わったアプローチで説明する．
• 極めて身近な平均値とその標準誤差，信頼区間から入り，
単回帰分析に拡張する．
• 次いで，直線回帰における逆推定問題を取り上げて，非線
形パラメータの意味と，解析結果が前と異なること示す．
• このような準備の後に，非線形回帰分析を取り上げる．
1
2
平均値とは
• n 個の観測値ｘi が得られたとき，代表値 a を決め
たい．
• 代表値は観測値に全体として近くしたい．
• ｘi とa の距離の総合値と
して，差の2乗の和Sを考
P
S = (x i Ä a)2
える．
• a によってSがどのように変化するかをグラフ化する．
• グラフは次シートに示すように，放物線となり，平均
値で最小となる．
• このような推定を最小2乗法という．
平均
6.0
S
92
n
8
自由度
7
平均平方 13.14
標準偏差 3.63
標準誤差 1.28
t(0.05) 2.36
下限
2.97
上限
9.03
S+V
105.1
S+FV
165.5
x
1
3
4
7
4
9
8
12
S = 8a 2 Ä 96a + 380 = 8(a Ä 6) 2 + 92 = n(a Ä x)2 + S; s e =
p
V =n
3
• 元のデータから，平方和S，平均平方V，平均
値の標準誤差se，区間推定値などを計算する．
• 平均値±se，区間推定値に縦線を引き，曲線と
の交点を通る水平線を引く．
• 交点の縦軸の値はS+V，S+FVである．
F = F(1; n Ä 1; 0:05) = t(n Ä 1; 0:05)2
• 2次式の，2次の係数５は，パラメータの推定値
の標準誤差を求めるときの分母である．
• この関係は，線形最小2乗推定値に拡張できる．
• 非線形最小2乗推定値では，少し修正される．
5
4
回帰式
• 次の散布図に回帰直線を当てはめる．
• 平均値と同様，最小2乗法が用いられる．
• 次シートの散布図で，ｙ＝a＋ｂｘの a, b を試行
錯誤で変化させて，
S=
n
n
X
X
(y i Ä b
yi )2 =
(yi Ä (a + bxi))2
i=1
i=1
を最小とする解を求める．
6
1
•
ソルバーとは
x
-2
-1
0
1
2
3
4
5
y
y-hat
1
0.00
3
1.50
4
3.00
7
4.50
4
6.00
9
7.50
8
9.00
12 10.50
• 試行錯誤を自動的に実行してくれるのがソル
バーである．
14
12
10
• 下の結果が得られる．
8
x
-2
-1
0
1
2
3
4
5
6
4
2
a 3.000
b 1.500
S 20.000
0
-2
0
2
4
y y-hat
1 1.25
3 2.61
4 3.96
7 5.32
4 6.68
9 8.04
8 9.39
12 10.75
14
12
10
8
6
4
2
a 3.964
b 1.357
S 14.643
0
-2
0
2
4
7
• ソルバーを選択すると，「パラメータ設定」画面が
表示される．
• 目的セルに S のセルを，目標値を最小値に，変
化させるセルに a, b のセルを指定して実行する．
8
ソルバーの利用
• ソルバーは，目的とするセルの値を最小とする
だけでなく，最大，または，ある値に等しくすること
ができる．
• 変化させるセルは，一塊りのセルに限らず，
“,” を使って自由に組合わせることができる．
• 変化させるセルの値に制約を加えることができる．
• これらを上手に使うとその適用範囲は無限であ
る．後にいくつかの例を紹介する．
9
• ソルバーを使わなくても，ExcelのLINEST関数で，
a,b だけでなく，それらの標準誤差も簡単に求めら
れる．
• LINEST関数の出力ソルバーの解
x
a,b 1.357
se 0.241
R^2 0.841
F 31.698
SR 77.357
const
3.964
0.660
1.562 sd
6 fe
14.643 Se
• b の標準誤差 0.241 の求め方を調べる．
• b の最小2乗推定値の前後でδｂだけ変化させ
て残差平方和の変化を見る．
60
50
40
Se
通常の方法
10
30
20
10
a 3.964
b 1.357
S 14.643
2
y = 60x - 4E-06x + 14.643
0
-1.0
-0.5
0.0 δｂ
0.5
1.0
• 2次式が完全に当てはまる．2次の係数は60で
ある．
11
12
2
• これから，b の標準誤差を計算する．
q
q
se(b
y ) = V60e = 14:643=6
= 0:201
60
• この方法ではLINESTの結果 0.241 は得られな
い．
• 単純にbを変化させたときの，あてはまりが悪さ
を見るのは誤りである．
• 上の計算は，下の図の赤線のように，a =4 を固
定してbを変化させて，残差平方和を求めている．
• b を変えたあと，青の点線のように，残差が最小
となるように a も変化させる必要がある．
16
14
12
10
8
6
4
2
0
-2
-4
-2
0
2
4
13
Se
• 次シートに示すような計算表を準備し，ΣSを最
小とするｂを求める．前シートの点線に相当する．
• 横軸にδ，縦軸にS をとってグラフを描き，2次曲
線を当てはめる
50
．
40
30
20
10
y = 42x 2 - 2E-11x + 14.643
0
-1.0
q
q
-0.5
0.0 δb
0.5
1.0
• 2次の係数 42 から，ｂの標準誤差を計算する．
se( y)
b =
Ve
42
=
14:643=6
42
= 0:241
14
x
-2
-1
0
1
2
3
4
5
y
1 0.55
3 2.11
4 3.66
7 5.22
4 6.78
9 8.34
8 9.89
12 11.45
4.05
4.61
5.16
5.72
6.28
6.84
7.39
7.95
3.35
4.11
4.86
5.62
6.38
7.14
7.89
8.65
y-hat
2.65 1.95 1.25 0.55 -0.15 -0.85 -1.55
3.61 3.11 2.61 2.11 1.61 1.11 0.61
4.56 4.26 3.96 3.66 3.36 3.06 2.76
5.52 5.42 5.32 5.22 5.12 5.02 4.92
6.48 6.58 6.68 6.78 6.88 6.98 7.08
7.44 7.74 8.04 8.34 8.64 8.94 9.24
8.39 8.89 9.39 9.89 10.39 10.89 11.39
9.35 10.05 10.75 11.45 12.15 12.85 13.55
δb
0.2 -0.8 -0.6 -0.4 -0.2
0
0.2
0.4
0.6
0.8
a 3.664 5.164 4.864 4.564 4.264 3.964 3.664 3.364 3.064 2.764
b 1.557 0.557 0.757 0.957 1.157 1.357 1.557 1.757 1.957 2.157
S 16.32 41.52 29.76 21.36 16.32 14.64 16.32 21.36 29.76 41.52
ΣS
248.91
となり，LINEST関数の結果が求められた．
15
• bの標準誤差は，前々シートのグラフに
Se+ Ve=14.643+2.440=17.083 の横線を引き，曲
線との交点から求めることができる．
• 信頼区間は，Se+F Ve= 14.643+5.987*2.441
=29.25 の横線を引き，曲線との交点から求める
ことができる．
16
• a,bの両方を変化させてSを計算し，Sの等高線
を描くと次のグラフが得られる．
• 等高線は楕円になる．
• 前のグラフは鉛直線，後のグラフは斜線での切
り口の断面に対応する． 1.6
1.2
50
0.8
Se
40
0.4
30
0
20
-0.4
10
-0.8
0
-1.0
b
60.0 -70.0
50.0 -60.0
40.0 -50.0
30.0 -40.0
20.0 -30.0
10.0 -20.0
0.0 -10.0
-1.2
-0.5
0.0 δb
0.5
1.0
-0.8 -0.6 -0.4 -0.2
17
0
a
0.2
0.4 0.6
-1.6
0.8
18
3
逆推定
回帰式の変形とその解
• y=8 となるｘ（x8 で表す）はいくらだろうか？
• 散布図に回帰直線とその信頼区間の幅をつけ
たグラフを左下に示す．
• y=8 の水平線と回帰直線との交点が解である．
• 式で計算するとx8=(8-a)/b=(8-3.96)/1.36=2.974
x
-2
-1
0
1
2
3
4
5
14
12
10
8
6
4
2
0
-2
-2
-1
0
1
2
3
4
y
1
3
4
7
4
9
8
12
y = a + bx (1)
であった．これを次のように変形する．
y = 8 + b(x Ä x8) (2)
この式では，未知パラメータはｂとx8 である．
• Excelの計算表で，ｙの予測値を計算する式に
（２）式を用い，ソルバーで解いた結果が前シート
の右下に示されている．
y-hat
1.25
2.61
3.96
5.32
6.68
8.04
9.39
10.75
y0
8
x 8 2.974
b 1.357
S 14.643
5
• これまで取り扱っていたデータのモデルは
19
20
•
x8 の信頼区間
50
45
40
35
• 前と同じ考えで，x8 の信頼区間を求めてみよう．
• 次シートに示すように，曲線は左右非対称で，
放物線とはならない．
• ｂの区間推定の場合と同様に，Se=29.25 の水
平線を引き，曲線との交点を求める．
• 信頼区間は 1.96∼4.68 となる．これは次シート
で y=8 の水平線とy-hat の信頼区間の曲線との
交点である．
30
25
20
15
10
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
• x8の標準誤差はS+Vに横線を引いて，曲線との
交点を求めるという方法では求められない．
• 推定値近傍を2次式で近似して，その係数から計
算する．近似の方法で区々の結果が得られる．
21
• 逆推定のモデルで，残差の等高線を描く
と，非対称で，楕円とはならない．
22
非線形回帰分析とは
• 最初に示した２つのモデル式を比較する．
y = a + bx (1)
S9
S8
S7
S6
S5
S4
S3
23.00
22.00
21.00
20.00
19.00
18.00
17.00
16.00
15.00
14.00
y = 8 + b(x Ä x8 ) = 8 + bx Ä bx8 (2)
-24.00
-23.00
-22.00
-21.00
-20.00
-19.00
-18.00
-17.00
-16.00
-15.00
（１）式はパラメータa, b に関して線形（1次式）であ
るが，（２）式は，展開すると，パラメータb，x8 の積
が含まれ，線形ではない．
• このように，パラメータに関して線形でないとき，
上に述べたように線形とは異なる現象が現れる．
• このようなモデルを当てはめるのが
非線形回帰分析である，
S2
1
2
3
4
5
6
7
8
9
S1
23
24
4
べき関数
• x とy の間に下記の左の関係があるとき，両辺の対
数を取ると，パラメータに関して線形となり，通常の直
線回帰分析が適用できる．
y = abx;
log(y) = log(a) + log(b)x
非線形回帰分析
= axb ;
log(y) = log(a) + alog(x)
• 従来は，このように線形化を工夫して解析した．
25
• しかし，これらの式の右辺に +c が追加されると，
この方法では線形化できない．
• abxで b<1 のとき，下のような曲線を当てはめ
たい場合が多い．
• ｘ＝０，ｘ＝∞のときのｙをｙ０，ｙ∞ で表わす．
y = y1 + (y0 Ä y1 )bx
• 上は abx，下は axb の曲線を表わす．
• 左は，ｘとｙの関係，右はｘとlog(y) または
log(x) とlog(y) の関係を表わす．凡例は a,b
100
70
60
10,1.2
10,0.8
10,1.2
10,0.8
50
40
10
30
26
20
=
10
0
1
0
2
4
6
8
10
120
0
2
4
6
8
10
1000
10,1.5
10,0.5
100
80
40
20
0
0
1
2
3
8
2,10,0.5
10
6
10,2,0.7
1
4
100
60
4
5
y1 + (y0 Ä y1 ) exp(Bx)
10
0
0.1
10,1.5
10,0.5
2
1
10
0
27
2
4
6
28
10
• 「理科年表」，岩波書店からデータを取り
出し，散布図を描く．右は水蒸気圧 y の対
数を取ったもの．
800
8
6
600
ln(y)
4
400
2
0
200
-2
0
-50
0
50
x
29
8
温度と水蒸気圧の関係
y
• ここで，誤差の等分散性について考慮が必要で
ある．
• 対数を取ることにより，等分散性が成立する場
合が多いが，逆に等分散性が成立しなくなる場合
もありえる．
• ソルバーを用いると，パラメータに関して非線形
で，対数や指数関数などの超越関数が含まれて
いても，そのままでモデルを当てはめることがで
きる．
• 線形化と等分散性の両方を考慮して解析方法
を決める．重みつき最小2乗法を使えば適用範囲
はさらに拡大するが，今回は触れない．
0
100
-4
-50
0
50
100
x
30
5
yÉ =
12
10
8
6
4
2
0
-2
-4
-50
y pÄ 1
p
2
R = 0.9999
0
50
100
x
• 物理・化学現象で広く適
用されるモデルにアレニゥ
スの式がある(中上・森川訳，
「医薬統計学」サイエンティスト社）
．
• 温度を絶対温度Tに変換
し，横軸に絶対温度のー逆
数を取ると，右のように直
線関係が得られる．
• このモデルでの傾斜は蒸
発エネルギーと結び付く．
• 良く見ると，途中で折れて
いるようである．
y = A exp
3
ÄÄE Å
RT
2
1
ln(y)
y^0.135
• 対数変換では直線化が行
き過ぎるときは，Box-Cox変
換が用いられる．
• pの初期値を設定してy*
を計算する．ｘとy* の相関
係数ｒを計算する．
• ソルバーで，ｒを最大にす
るp をで求める．p=0.135
となる．右のグラフで寄与
率は 0.9999 となり，モデル
の当てはまりは極めて良い．
• しかし，こうして得られた
0.135 には物理的な意味は
考えられない．
0
2
R = 0.9982
-1
-2
-4.5
-4.0
-3.5
31
ロジスティック曲線
6
4
2
0
-2
-4
-4.5
-4.0
x0
y0
bL
bR
S
-3.5
-1000/K
-3.0
-2.5
• 投与量（または投与量の対数）を横軸に，効果を縦
軸にとってグラフを描くとき，下のような曲線となるこ
とがある．
• このようなS字型の曲線を一般に生長曲線という．
生長曲線の代表的なものには(左）ロジスティック曲
線や(右）ゴンペルツ曲線がある．
-3.6045
1.8793
6.1317
5.1756
0.0025
10
10
8
8
6
6
4
4
2
2
0
• ロジスティック曲線は一般に次の式で表わされる．
ymax Ä ymin
1 + exp(Ä(a + bx))
• 説明を簡単にするため，ｙの変化範囲を０∼ｙmax
とする（y min ＝０）．
y =
=
ymax
1 + exp(Ä(a + bx))
ymax
1 + exp(Äb(x Ä x50))
0
0
33
y = ymin +
-2.5
32
8
ln(p)
• 折点の値（x0，y0），
左側と右側の傾斜
（bL，bR）の４つの非
線形パラメータモデ
ルを当てはめると，
下の結果が得られる．
• x0 を絶対温度に戻
すと，1000/3.6045
=277°Kとなる．
-3.0
1000/T
5
10
0
y=
y =
=
10
10
8
8
6
6
4
4
2
2
0
35
34
ç
xç + EC50
上の式を変形すると次のようにロジスティックモデ
ルの式に帰着する．
Em ax
• （２）式で x=ｘ50 のとき，分母=2，y=y max /2 となる．
• 一般には（１）式が用いられるが，a には物理的意
味が無いので，（２）式の方が利用しやすい．
10
• 薬物動態の分野で良く用いられるモデルに
Emaxモデルがある．
Emax Åx ç
(1)
(2)
5
1+
ç
EC50
xç
E max
1 + exp(ç(ln(EC50 ) Ä ln(x)))
0
0
20
40
60
0.1
1
10
100
36
6
• 薬物動態の分野で，用量反応関係式としては，
Emaxモデルの他に，酵素反応速度論，
Michaelis-Menten，受容体結合実験などがある．
これらは，記号が区々で別のものと思っている人
も多いが，変換するとすべてロジスティックモデ
ルである．Michaelis-Menten は b=1 としたもの
である．
• これらは，すべて，ソルバーを使って簡単にモ
デルを当てはめることができる．
• ただし，x ではなく，ln(x) に対してロジスティック
曲線が当てはまる．誤って log(x)で計算すると
係数γの値が変わるので，注意を要する．
ロジスティック曲線の当てはめ
• 投与量 x を0.125 から公比2の等比級数で変化
して，次シートの効果ｙが観測された．
• 横軸を対数変換したグラフが示されている．
• 下の式を当てはめる．
y=
y max
1 + exp(ÄB(ln(x) Ä ln(x 50 )))
37
x
0.125
0.25
0.5
1
2
4
8
16
32
64
y
1
3
5
23
66
113
158
171
171
165
y-hat
0.46
1.75
6.54
22.63
63.18
118.55
153.66
166.52
170.23
171.23
38
効力比
180
160
140
120
100
80
60
40
20
0
0.1
• 「薬剤Bが薬剤Aのｃ倍の効力を持っている」と
は，「薬剤Bを x 投与した効果は，薬剤Aをｃｘ投
与した効果に等しい」ことを表わす．この関係は次
の式で表わされる．
1.0
10.0
yA = f (x) = g(ln(x))
100.0
yB = f (c Ç x) = g(ln(c) + ln(x))
ymax 171.581
x50
2.642
B
1.939
S 121.394
• この関係が x の値によらず成立するとき，効力
比 x が一意に定義できる．
• 効力比が定義できるときには，横軸に投与量の
対数を取るとき，グラフは水平移動で重なる．
y-hat=ymax /(1+EXP(-B*(LN(x)-LN(x50))))
39
• Emaxモデルのグラフに，効力比 c=2 の薬剤の
曲線（左側 ■）を加えたグラフを下に示す．
10
10
8
8
6
6
4
4
2
2
0
0
20
40
60
0
0.1
1
10
40
効力比の例題
• 薬剤Aの投与量ｘを0.192, 0.48, 1.2, 3 と等比級
数的に変化させ，4匹の動物に投与して薬効 y を
調べる．
• 薬剤Bの薬効は薬剤Aの半分程度と想像される
ので，薬剤Aの2倍，すなわち，0.384, 0.98, 2.4, 6
と変化させて投与した．
• 4匹の薬効の平均値を次シートのｙに示す．
• ymin，ymax，b，D50 と効力比 c をパラメータと
してモデルを当てはめると，次シートの右の曲線
のようにモデルがあてはまる．
100
41
42
7
薬剤
A
x
0.192
0.480
1.200
3.000
0.384
0.960
2.400
6.000
B
y
1.08
1.48
1.71
1.72
0.90
1.27
1.67
1.71
y-hat
1.06
1.51
1.70
1.73
0.91
1.28
1.63
1.72
薬剤の相乗・拮抗効果
2.00
A
B
A
B
1.50
1.00
c
ymin
ymax
b
D50
S
yA
b
yB
b
=
=
0.3093
0.7994
1.7319
2.2934
0.2911
0.0028
0.50
0.10
1.00
10.00
ymax Ä ymin
1 + exp(Äb(ln(x) Ä ln(x50))
ym ax Ä ymin
ymin +
1 + exp(Äb(ln(cx) Ä ln(x50 ))
ymin +
A=0
A=2
• 投与量を増やして実験して，下の結果が得られた．
• A=4 または B=2単独投与と，両剤を半量ずつの
併用投与を比較する．
• 単独投与の平均効果(18+20)/2=19に比べて併用
投与の効果は 22 と大きい．すなわち，相乗効果が
認められる．
• A=6, B=3 の併用でも，(19+22)/2=20.5 に比べて
併用投与は 25, 25 と大きく，相乗効果がある．
• 前の結果と逆になった．どのように考えるか？
B=0
10
15
18
19
B=1
17
22
25
B=2
20
25
B=0
10
15
B=1
17
21
A0,B0 との差
A=0
0
7
A=2
5
11
43
A=0
A=2
A=4
A=6
• 薬剤AとBを単独および併用投与して次の結果
が得られた．
• A,Bの単独の効果は5,7であるのに対して，併
用した効果は11で 5+7=12よりも小さい．
• 実験計画法の考えによれば，わずかではある
が交互作用があり，拮抗効果が認められる．
B=3
22
45
22
20
18
16
14
12
10
A=
0
A=
2
B=0
B=1
44
• 以下に述べる方法は，薬剤A,Bに効力比のモ
デルが成立することが前提とされる．
• 相乗・拮抗効果がない（相加性が成立する）場
合は
ｙ＝ｆ
（
ｘ
A＋ｃｘ
B）
という一般式で表わされる．ここで，ｃは効力比，
ｆは任意の関数である．
• この式では表わされないときは，d xA ｘB の項
を追加することにより相乗・拮抗効果を評価する
ことができる．この項は dxAｘB には限らない．
• 薬剤の相乗・拮抗効果は，実験計画法の交互
作用とは別のものであるという認識が必要である．
46
複数の曲線の当てはめ
• 蜂に刺されると腫れる．腫れを抑制する薬剤を
開発したので，その抑制効果を評価したい．
• 無投与，低用量，中用量，高用量で，浮腫量の
時間変化がどのように変るかを調べる実験を実
施した．
• 各投与量毎に，複数匹の動物に対して，刺激
を与えた直後に，薬剤を投与し，0, 1, 2, 3, 4, 5 時
間後の浮腫量を測定した．
• 複数の動物の浮腫量の平均値の値と，時間的
変化を表わすグラフを示す．
47
48
8
Excelソルバーによる解析
• ４つの群毎に次の式を当てはめる．
y = y inf Ä (y inf Ä y0 ) exp(Bx)
• 4群＊3＝12個のパラメータの初期値を下の青
色のセルに入力する．
• 初期値を使って，予測値と残差，残差の2乗和
を求める．
• さらに，2乗和の合計を黄色のセルに求める．
• 2乗和の合計が最小になるパラメータをソルバー
で求める． • グラフを見ると，３つの曲線は x=0 で重なってお
り，上の式の y 0 の値はほぼ等しい．
• そこで，y0 の値は，薬剤の投与量によらず一定
のモデル式を当てはめる．
• パラメータ入力領域を下に示す．
• y 0 の2番目以降のセルには「＝左のセル」が入
力されている．
• 着色部分のみを変化させるセルに指定して，ソ
ルバーを実行すると下の結果が得られる．
49
• モデルのパラメータを3個少なくしたが，残差平
方和はわずかに 0.01872−0.01835=0.00037 し
か増加しない．
• 得られた 4組の y inf とB の散布図を描いたの
が，下のグラフの■マークである．
• 近似直線を引き，相関係数を求めると，
R2=0.9191 で両者には深い関連がある．
50
• y inf とB の何れか一方が4群で共通という
モデルを当てはめることを試みる．
• その方法は前と同じである．
• 何れの場合も残差平方和がかなり大きく
なり，グラフを描いても不適切なモデルであ
る．
• そこで，前のグラフの直線上に２つのパラ
メータが乗るモデルを当てはめると，かなり
良くあてはまる．
• これらの試行錯誤の末に到達したのが次
に述べるモデルである．
51
• 次のように考える．
• 刺激を与えると浮腫が進むが，薬剤の効果の
表れるには時間を要する．
• 最初の間は薬剤の影響は現れず，同じ傾斜で
浮腫が進む．
• 前に示した曲線を表わす式で，t=0 における傾
斜は，この式をx について微分し，x に 0 を代入
して得られる．
dy
= (y0 Ä y1 )BeBx ) (y0 Ä y1 )B (x = 0)
dx
• 初期の傾斜をc とすると，B は次の式で求めら
れる．
c
B=
y0 Ä y1
53
52
• パラメータにｃを追加
し，B は，ｃ，y0 とyinf か
ら計算する．
• 右のグラフに示すよう
に，実測点と曲線とは
良く合っているように見
える．
• Se は 0.02047 で，y 0
のみを共通とした残差
平方和 0.01872 に比べ
ると，パラメータを3個
減らしたにもかかわら
ず，わずか 0.0175 しか
増加しない．
F=
0:00175=3
ô 0:6
0:01872=(24 Ä 9)
54
9
平均値と中央値
ロバスト推定
• 右のデータはア
ンスコムが提供し
た外れ値を含むデー
タである．
• 最小2乗法による
回帰直線は点線
のように，外れ値
に引っ張られる．
x
4
5
6
7
8
9
10
11
12
13
14
y
5.39
5.73
6.08
6.42
6.77
7.11
7.46
7.81
8.15
12.74
8.84
y-hat
14
5.39
5.73
12
6.08
10
6.42
6.77
8
7.11
7.46
6
7.81
8.15
4
8.50
4
8.84
e
0.000
-0.005y
0.000
線形 (y)
-0.005
0.000
-0.005
0.000
0.005
0.000
4.245
6
8
10
0.000
12
55
x
4
5
6
7
8
9
10
11
12
13
14
y
5.39
5.73
6.08
6.42
6.77
7.11
7.46
7.81
8.15
12.74
8.84
a
b
S
y-hat
5.39
5.73
6.08
6.42
6.77
7.11
7.46
7.81
8.15
8.50
8.84
4.01
0.35
4.265
e
0.000
-0.005
0.000
-0.005
0.000
-0.005
0.000
0.005
0.000
4.245
0.000
y
5.39
5.73
6.08
6.42
6.77
7.11
7.46
7.81
8.15
12.74
8.84
a
b
S
y-hat
5.29
5.67
6.06
6.45
6.84
7.23
7.62
8.00
8.39
8.78
9.17
3.73
0.39
8.446
56
• 得られた回帰直線は，外れ値の影響を
全く受けないロバストな回帰式が得られる．
• 残差の絶対値の代わりに絶対値のｐ乗
（1<p<2) を用いることも考えられる．
• p＝１.５とすると，次シートのように，外れ
値も幾分考慮した回帰直線が得られる．
14
12
10
8
6
4
2
0
4
9
14
=SUM(ABS(D18:D28))
57
x
4
5
6
7
8
9
10
11
12
13
14
14
• きたないデータ（外れ値を含むデータ）では平均値
よりも中央値の方が代表値として安定した値が得ら
れることが知られている．
• 平均値は残差の2乗の和を最少にする最小２乗推
定値であ，中央値は残差の絶対値の和を最小とす
る推定値である．
• 外れ値の影響を受け難い推定がロバスト推定
• アンソコムのデータに，残差の絶対値の和を最小
とする回帰式をソルバーで当てはめた結果が次の
シートである．
e
0.104
0.056
0.018
-0.031
-0.069
-0.117
-0.156
-0.194
-0.242
3.960
-0.329
• 最小ｐ乗法（１＜ｐ＜２）を，外れ値の含まれるデー
タに適用することにより，ロバストな推定値を求め
ることができる．
• ｐが2以外のとき，平方和の微分が不連続にな
るので，理論的に展開することができず，数理統
計学者は興味を持たないようである．
• 最適化にGauss-Newton法（数式微分法）を用い
る統計解析プログラムではこの方法は用いられ
ない．数値微分が必要．
• しかし，現実のデータ解析の分野では役に立つ
方法であると思われる．
14
12
10
8
6
4
2
0
4
9
58
14
=SUM(ABS(D18:D28)^1.5)
59
60
10
最尤法
• 誤差が正規分布に従うときは，最小2乗法が用
いられ，パラメータに関して非線形であっても，ソ
ルバーで解くことができた．
• 誤差が2項分布に従うときは，最小2乗法では
なく，最尤法が用いられる．
• この場合にも，ソルバーで解析が可能である．
• まず，尤度とは何かから説明を始める．
• 真の有効率πが 0.2 のとき，n=10 のサンプル中
の有効数 f=3 となる確率は，2項分布で計算され
る．
• ｆを0 ∼ 10 に変えたときの確率が次シートの
π=0.2 の列に求められている．
• それをグラフ化したのが，左下のグラフである．
• ｆは整数値しか取らないので，グラフは棒グラフ
となる．
61
62
• 逆に，
ｆ
＝３が得られたとき，この結果はπ=0.2
のときどの位起こり易いかを考える．
• f=3の行を横に見ると0.20 である．
• π=0.5のとき，この値は 0.12 となる．
• πの値を変化させたときこの値の変化を見た
のが右下のグラフである．πは連続的に変化す
るので，滑らかな曲線で表わされる．
• このとき，縦軸の値を尤度と呼ぶ．
• 尤度が最大となるπは 0.3 となる．
• これが，最尤法の考え方で，得られた結果は
最尤推定値と呼ばれる．
63
64
ロジスティック回帰分析
• 薬剤の投与量ｘを等比級数で変化して，それ
ぞれの投与量で n=10 匹に投与し，効果の見ら
れた匹数ｆを求めた．
• その結果を次シートの左に示す．
• グラフの横軸は投与量ｘの対数表示，縦軸は
有効率 p=f/n である．
• 両者の関係はロジスティック曲線で表わされる
と思われる．
• ソルバーで解いた結果が次シートに示されてい
る．
65
x
101
136
183
247
333
450
f
0
2
5
8
9
10
n
10
10
10
10
10
10
p
0.0
0.2
0.5
0.8
0.9
1.0
p-hat -2ln(L) p-hat -2ln(L)
0.042 0.868 0.042 0.868
0.164 2.483 0.164 2.483
0.465 2.854 0.465 2.854
0.796 2.396 0.796 2.396
0.946 2.223 0.946 2.224
0.987 0.254 0.987 0.254
1.0
0.8
0.6
0.4
0.2
a -26.211
b 5.004
L 11.078
x50 188.247
0.0
b 5.004
100
L 11.078
1000
p-hat=1/(1+EXP(-(a+b*LN(x))))
-2ln(L)=-2*LN(BINOMDIST(f, n ,p-hat,FALSE))
p-hat=1/(1+EXP(-b*(LN(x)-LN(x50))))
66
11
ソルバーによる解析手順
ロジスティック回帰分析の拡張
• 最少2乗法の場合と同様に，p-hat を計算する．
次の２つのモデルについて解析する．
p =
b
p =
b
1
1 + exp(Ä(a + b ln(x)))
1
1 + exp(Äb(ln(x) Ä ln(x5 0))
• −2対数尤度（-2ln(L)) を計算する．
• 2項分布の尤度を求めるExcel関数は，
=BINOMDIST(f, n, π, FALSE)
である．この式のπに p-hat を用いる．
• -2ln(L) の合計を一番下の L に求める．
• Lを最少にするパラメータをソルバーで求める．
67
• 自然治癒があり，無投与でも，たとえば，20%が
治癒する．すなわち，治癒率ｐの変化範囲は 0.2 ~
1.0 である．
• 治癒率が100%に接近すると，接近速度が低下
するような場合には，ゴンペルツ曲線が適切かも
しれない．
• このような場合でも，Excelソルバーでは，わずか
の工夫を加えることにより，対応することができる．
• 2項分布を多項分布に拡張することにより，
「無効，有効，著効」などのデータの解析で，従来
分割表の累積カイ2乗検定が使われていた分野に
も，新しい解析方法が生まれるであろう．
69
終りに
• ここに示したのはソルバーの適用例のほんの
一部に過ぎない．
• 従来は，データに合うモデルを，利用可能なプ
ログラムから探し出した．
• 現在では，データのモデルとして何が最も妥当
かを徹底的に比較検討することが大切で，どの
ようなモデルでも解析可能と言える時代になった．
• 固有技術の重要性が増大した．統計の専門家
も固有技術の中に入り込まなければ存在価値が
ないであろう．
71
• p=f/n の対数オッズ z=ln(p/(1-p)) を用いると，ロ
ジスティック曲線はｚ＝a+bx と表わすことができる．
• 多くの統計解析プログラムは，ｚがパラメータに関
して線形である場合に対応している．
• ｘの2次式を当てはめたり，複数の薬剤の投与量
を取り扱ったり，性別のダミー変数を含めたりする
ことが可能である．
• しかし，z=b(x-x50 ) のように，パラメータに関して
非線形になると，対応できないプログラムもある．
68
• 最尤法では，−２対数尤度がχ2乗分布で近
似できるという性質が使われる．
• ソルバーの目的セルを−２対数尤度にしてお
くと，パラメータが 0 （または既定値）であるという
帰無仮説の検定や，パラメータの近似信頼限界
の計算が可能となる．
• ただし，一つ一つ関数を埋めていくのは面倒で
あり，間違いの入る危険がある．VBAでマクロを
作って置くと便利であろう．
70
• ここに示した例題を，市販の統計解析プロ
グラムやR, S で解析することを試みて欲しい．
• 「Excelでできて，汎用統計解析システムで
できないのはなぜだ」というユーザーの圧力
により，解析システムが改善されることが期
待される．
72
12

Download Report