http://mcobaya.web.fc2.com/karato.htm 2016 年 12 月 16 日 ゼロ制約

http://mcobaya.web.fc2.com/karato.htm
2016 年 12 月 16 日
ゼロ制約以外のt検定
p.153 コブ-ダグラス型生産関数 α+β=1 の一次同
次の検定
t=α+β-1 を代入すると t=0 の検定に帰着する。
log Y= log A+αlogL+βlogK
= log A+(t-β+1)logL+βlogK
= log A+t×logL+βlog(K/L)
変形し、log(Y/L)=。
。。の形に直す。
[(残差平方和変数未追加-残差平方和変数追加)÷追加変数数
分母の説明:分母は変数追加後の推定での誤差分散の推定値
(注参照)で、検定には本質的でなく、単位や計測の精度の違い
を調整するため。
残差平方和変数追加÷(n-係数総数)
のかわりに「残差」の「分散」を用いてもよい。それが
F=[(残差平方和変数未追加-残差平方和変数追加)÷追加変数数]
÷残差分散変数追加
Q:なぜ、変数追加後の誤差分散の推定量をつかうのか。仮説(制
約)が正しければ、変数追加前の説明変数だけで説明するのは
この式を最小二乗法で推定して、logL の係数=0 の仮説を検
間違いであり、誤差分散にも偏りがある。。変数追加後の説明変
定すればよい。データは表 3-27
数だけで説明するのは、制約が正しくなくても係数が0である
検証する係数が複数の検定(一つの場合も特殊例で含む)
t-検定は単一の係数対象、F 検定は複数の係数対象
例1
賃金= a+b*年齢+c*年齢^2
だけで間違いではない。
例 mbl1.xlsx をダウンロード
N=353
MLB major league baseball の選手報酬の決定要因
のモデルにおいて、「年齢は賃金には無関係」は b=c=0
分散分析表
例 2:賃金=a+b*大企業+c*中企業
変数追加前
自由度
変動
分散
「賃金には規模格差はない」は b=c=0
回帰
3
294.745
98.248
注意:yt = a + a0xt + a1Dt + a2wt を当てはめたときの残
残差
349
197.430
0.5657
差平方和は yt = a + a0xt を当てはめたときの残差平方和
合計
352
492.175
(SSR)より必ず小さくなる。それは a1=0,a2=0 という制約を
つけて最小化しているので。
係数
標準誤差
t
MIN(a,a0,a1,a2)Σ[y(t) - a - a0*X(t) - a1*D(t) - a2*w(t)]2
切片
10.9101
0.273602
39.8760
≦MIN(a,a0,a1=0,a2=0)Σ[y(t ) - a - a0*X(t ) - a1*D(t)
年数
0.07096
0.012498
5.67785
- a2*w(t)]2
出場数
0.01972
0.001388
14.2104
= MIN(a,a0)Σ[y(t) - a - a0*X(t )]2
生涯打率
0.00137
0.001101
1.24818
F 統計量の定義
変数追加後
F=[(残差平方和変数未追加-残差平方和変数追加)÷追加変数の数]
÷[残差平方和変数追加÷(n-係数総数)]
もしくは(エクセルではこっちが使いやすい)
F=[(残差平方和変数未追加 -残差平方和変数追加 )÷追加変数の数]
÷残差分散変数追加後
これを第一自由度=(追加した変数の数)、第二自由度=n-係
数の総数(定数項を含む)
に対応する F 分布表の上側5%点と比較する。
自由度
追加前の自由度 353-4=349
追加前の変数は定数、年数、出場数、打率。上のテストでは
「追加した変数の数」は打点と HR の二つ
例 4.10(p.194 変数の係数がすべて 0 の検定:特殊例)表
3.25
この場合は F の値が回帰分析の出力に記されている。
分散
回帰
3
11.38805
3.7960
残差
43
12.81663
0.2981
合計
46
24.20468
分散
回帰
5
308.989
61.7978
残差
347
183.186
0.52791
合計
352
492.175
係数
標準誤差
t
切片
11.192
0.289
38.752
年数
0.069
0.012
5.684
出場数
0.013
0.003
4.742
生涯打率
0.001
0.001
0.887
年平均打点
0.011
0.007
1.500
年平均 HR
0.014
0.016
0.899
常に正の値をとり、中央は1の分布.追加変数の係数が0の
よって F 分布の自由度は 2、347.
変動
変動
F 統計量=(197.43-183.186)/2/0.52791
追加後の自由度 353-6=347
自由度
自由度
分散比
12.7357
有意 F
4E-06
時、自由度 p,n-k の F 分布に従います。
(pは追加変数の数、
kは係数の総数でこの場合は2と4)この F の値を F 分布表
の上側5%(1%)点と比較して、値が十分大きければ追加
変数は有意であると判断される。数表は教科書 p.191
問:t 検定で b=0 が棄却されれば、cの値に関係なく b=c=0 は
棄却されるのではないか。また b=0 がt検定で棄却されず、c=0
でも棄却されなければ、b=c=0 も棄却されないのではないか。
答:多重共線性の問題があり、t検定とは結果が異なる。t検
定で b=0 が棄却されず、c=0 も棄却されなくても、F 検定(同時
分子の直感的な考え方:変数の数が増加すればするほど、たと
検定)で b=c=0 が棄却されることがある。
え構造変化がなくてもデータの誤差から
出場数、ホームラン数と打点は相関が高く、多重共線性が発生
残差平方和変数未追加-残差平方和変数追加
は大きくなるので、追加変数1個あたりの「残差平方和の差」
を求める。それが
し、精度が低くなる。標準誤差が大きくなり、t値が低くなる。
=>係数=0 は棄却できない。
F 検定の簡便法
大小で構造変化の有無を判断できそうである。
(ア) 簡単な方法:仮説「係数がすべて0」の場合、
さて「あてはまりのよさ」を「残差平方和」で定義
F>0 の分布の中心は1なので二桁もしくは一
しよう。すると構造変化(=係数の変化)をモデルに組
桁の後半になったら、仮説は棄却。
み込むことにより残差平方和の差が十分小さくなれば
(イ) すこし簡単な方法
サンプルサイズが大きい
構造変化ありと認められ、十分大きくなければ構造変
とき、第二自由度は∞とする。
化は認められないという結論になる
(ウ) 厳密な方法:これを第1自由度=(追加した変数
の数)、第2自由度=n-追加後係数(含定数)の
総数に対応する F 分布表の上側5%点と比較す
る。(数表は教科書p.
)
。
以上はグラフ上での考え方なので、式で考えると次
のようになる。
係数の差 c,d と後期を示すダミー変数 Dt を次のよう
に表す。
a’-a=c, b’-b=d,
Dt=0 if t<=1996 Dt=1 if
t>=1997
(1),(2)は次のひとつの方程式であらわされる
Yt=a+b*Xt+c*Dt+ d*Xt*Dt t=1990,1991,…,2004
(1996 年以前は消費増の影響が第 2 項をとおして現
れるが,1997 年以降はそれに加えて,第 4 項 d*Xt =
d*Xt*Dt からも現れ,その影響の和は b+d=b’。また切
片は 1996 年以前は a,1997 年以降は a+c=a’となる。)
手順
(Step 1) Yt=a+b*Xt t=1990,1991,…,2004
を使って回帰分析する。1996 年の前後で変化のないモ
デルを使って説明する
(Step 2) Dt と Xt*Dt という説明変数を追加した
Yt=a+b*Xt+c*Dt+ d*Xt*Dt t=1990,1991,…,2004 (3)
を使って回帰分析をする、1996 年の前後で係数が変化
するモデル(1),(2)を使って説明すること。
(Step 3)説明変数を追加することにより、十分に残差
F 検定の応用(Chow test、構造変化の検定)。
平方和が減少すれば、構造変化があったと判断できる。
(構造変化のデータ kozo.xls を利用
構造変化の定式化
例:通信費のデータ kozo.xls を使って 1996 年以前のと
もしも構造変化がおきていれば、まず、1 本の直線
Yt=a+bXt,
t=1990,1991,…,2004
(0)
1997 年以降で構造変化があるか F テストせよ。
1.
ですべての観測値(Y,X)を説明すると当てはまりが悪
く
Yt=a+b*Xt t<=1996
(1)
Yt=a’+b’*Xt t>=1997 (2)
のように途中で切片と傾きを変化させて観測値を説明
2.
すると当てはまりがよく、
「当てはまり」の差は大きい。
もしも構造変化がなければ、1 本の直線でも 2 本の
直線のどちらで説明しても「当てはまり」の差は小さ
3.
い。下図でもサンプル全体を用いてあてはめた直線は
当てはまりが悪い。
したがって、二つのモデルでの「あてはまり」差の
4.
ツール/分析ツール/回帰分析と選択し、入力 Y 範囲
(説明される変数)のデータ部分(ラベルも含む)
B5:B20 をキー入力し、入力 X 範囲すなわち C5:C20
を入力。出力を一枚のシートにまとめるために、
「一
としておこ
覧の出力先」に印をつけ、出力先を A25
う。OK をクリックして実行。これは構造変化を考え
に入れていない単回帰。
ダミー変数の作成:D5 に D と書き入れ、D6:D12(1990
年から 1996 年まで)に 0 を入力し、D13:D20(1997
年から 2004 年)に1を入力。これがダミー変数 Dt
に対応。
E5 に X*D, E6 に=C6*D6 と入力。すなわち「ダミー変
。これを E7:E20 にコピー
数×支出」
ツール/分析ツール/回帰分析、入力 Y 範囲 A1:A15
をキー入力し、入力 X 範囲(説明する変数 B1:D15 を
キー入力。出力を一枚のシートにまとめるために、
5.
「一覧の出力先」に印をつけ、出力先を A50 として
おこう。ラベルにチェックし、「実行」、
重回帰ではいずれの係数も有意(絶対値 2 以上)で、
危険率5%で係数(切片、傾きのどちらか)の変化
は認められる。残差平方和(Excel では「残差の変
動」)も単回帰の場合の 210092 から 41245 と小さく
なったことに注意。210092-41245 この変化が十分大
きいかどうかが重要。
分散分析表
変動
分散
回帰
1
1444517
1444517
残差
13
210092.4
16160.95
合計
14
1654609
分散比
有意 F
89.38313
3.4E-7
変動
分散
3
1613363
537787.8
残差
11
41245.63
3749.603
合計
14
1654609
6.
7.
8.
制約をつけて最小化しているので。
MIN(a,a0,a1,a2)Σ[y(t) - a - a0*X(t) - a1*D(t) a2*w(t)]2
- a2*w(t)]2
= MIN(a,a0)Σ[y(t) - a - a0*X(t )]2
扱います。)
回帰
F=
方和(SSR)より必ず小さくなる。それは a1=0,a2=0 という
一般的 F 検定(教科書 p.156 のものより一般的なものを
分散分析表
自由度
残差平方和は yt = a + a0xt を当てはめたときの残差平
≦MIN(a,a0,a1=0,a2=0)Σ[y(t ) - a - a0*X(t ) - a1*D(t)
N=15
自由度
注意:yt = a + a0xt + a1Dt + a2wt を当てはめたときの
分散比
有意 F
143.4253
4.2E-9
=(C37-C62)/2/D62
F 検定をおこなおう。 C37 は制約(「ダミーと係
数ダミーの係数は0」)のついた最小自乗法の残差
平方和、C62 は制約のない最小二乗法の残差平方和
で前者がおおきくなる。係数の数の差は2つなの
で、これが分子の自由度。D62 は誤差分散の推定
量.
どこかあいたところ A75 に F=と入力。B75 に
=(C37-C62)/2/D62 と入力。例 5.5 では F=(21009241245)/2/3749=22.5 これが F 統計量。F の分子を
2でわったのは追加変数一つあたりの残差平方和
の変化をもとめたもの。残差の分散 6.23 でわった
のは分母子の単位を相殺するため。
第一自由度は「追加した変数の数」で2、第二自
由度は「サンプルサイズ-全係数の数」で 11=154(=B62)。F 分布の5%は数表をみなくとも EXCEL
で計算できる:C62 に=FINV (0.05, 2,11)。 この
上側 5%点を実際の F 統計量は超えるので、構造変
化が認められる。
練習2:表 6-6 p.175
15年間のエネルギー需要と実質 GDP の関係について散
布図を前期と後期別に描き、構造変化のテストを行え。
F 統計量の定義 p.24
F=[(残差平方和 変数未追加 -残差平方和 変数追加 )÷追加変
数数]
÷[残差平方和変数追加÷(n-係数総数)]
もしくは(エクセルではこっちが使いやすい)
F=[(残差平方和 変数未追加 -残差平方和 変数追加 )÷追加変
数数] ÷残差分散変数追加後
これを第1自由度=(追加した変数の数)、第2自由度
=n-追加後係数(含定数)の総数
に対応する F 分布表の上側5%点と比較する。
(数表
p.132)。
上の単回帰モデルの構造変化のテストでは「追加変
数数」はダミーとダミー×X の2つ、
「係数総数」は
定数、X,ダミーとダミー×X の4
分子の直感的な考え方:変数の数が増加すればするほ
ど、たとえ構造変化がなくてもデータの誤差から
残差平方和変数未追加-残差平方和変数追加
は大きくなるので、追加変数1個あたりの「残差平方和
の差」を求める。それが
[(残差平方和変数未追加-残差平方和変数追加)÷追加変数数
分母は変数追加後の推定での誤差分散の推定値(注参照)
で、検定には本質的でなく、単位がや計測の精度の違い
を調整するため。
残差平方和変数追加÷(n-係数総数)
のかわりに「残差」の「分散」を用いてもよい。それが
F=[(残差平方和変数未追加-残差平方和変数追加)÷追加変数数]
÷残差分散変数追加
F 統計量は常に正の値をとり、追加変数の係数が0の
時、自由度 p,n-k の F 分布に従います。
(pは追加変数の
数、kは係数の総数でこの場合は2と4)この F の値を
F 分布表の上側5%(1%)点と比較して、値が十分大き
ければ追加変数は有意であると判断される。
Chow test の第 2 のタイプ(5-24)
一方の期間が説明変数の数と同じか、より短い場合。
(例:観測期間を 10 年と最後の 1 年に分け、最後の時が
今までと同じモデルで説明できるか。これは 10 年間(推
定期間)のデータをつかって、11 年目(予測期間)を予測
し、その予測の誤差からモデルの正しさをチェックする
テストと考えてもよい。最後 2 年の変化検出なら一次ダ
ミーを二つ用いる。
最後の年について、一時的ダミー(教科書)を用いる。一
時的ダミーp.163 を用いると
y11=a+b*x+d11 であり、最後の時点の誤差=0なので、一
時的ダミーを用いると
残差平方和(1 から 11 まで)=残差平方和(1 から 10 ま
で)となる。
F 検定統計量=(全期間の残差平方和-推定期間の残差
平方和)/予測期間の長さ/推定期間の残差分散
練習:表 5-4 p.143 USA の GDP と実質輸入の関係で
2005 年は異常か?Chow テスト第二タイプを行う。
まず、2005 年一時的ダミーをつかった回帰分析と
2004 年までの回帰分析(ダミーなし)とで、残差平方和
74.1 で同じことに注意。(n2=1) 2005 年までの回帰分析
(ダミーなし)の残差平方和=75.9 ゆえ、その差 1.8 によ
って 2005 年度の誤差が十分大きいかどうかを確認。一時
的ダミーの数1、2004 年までの回帰の残差分散=6.2 か
ら、F統計量=1.8/1/6.2=0.3、これは有意ではない(F
分布は 0 以上で、仮説がただしく、係数=0 ならば中心が
1なので)
3rd:両者の残差平方和の差を追加説明変数の数(=k)でわ
り、それをさらに変数を追加後の残差の分散(=回帰式
の標準偏差の2乗)でわり、F統計量を求める。
4th:これをF分布表(サンプルが十分大きいときは自由
度は(k,無限大)、サンプルが十分大きくないときは、m
を追加前の変数の数として、自由度は(k,n-k-m))の
上側1%もしくは5%点と比べ、F統計量のほうが大き
ければ追加変数の影響が認められ、統計量のほうが小さ
ければ追加変数の影響が認めらない。
とくに構造変化のテストでは追加前の変数の数もkなの
で、自由度は(k,n-2k))
問:F統計量の話は分かりにくいのですが、どこまでわ
かればいいのですか。
答:ほんとうは、サンプルが大きいときは追加した説明
変数の係数が0のとき、こうやって作ったF統計量の分
問:第二自由度まで必要になるのですか。F 分布表は読
むのは面倒ですね。もっと楽な検定方式はないのですか。
答:F 分布は追加変数の係数がすべて0の時、分布の
中央が1になるように作ってあります。したがって、F の
値は1より小さいときは数値表を見るまでもなく「追加
変数の係数がすべて0の可能性あり」と判断されます。
またサンプルサイズがある程度大きく、第二自由度 n-k
が30を超えたら第二自由度∞無限大の場合と上側5%
(1%)点はほとんど同一です。したがって、第二自由
度まで確認して数表を引く必要は実際上あまりありませ
ん。
「第一自由度=追加変数の数」、
「第二自由度=無限大」
と考えて F 分布表を見れば、そんなに面倒な作業ではな
いので、ご安心ください。
問:第二自由度=∞のとき F 分布の上側5%(1%)点
をエクセルではどうやって求めるのですか。
答:第一自由度=2、第 2 自由度=∞の F 分布の上側 5%
点は第 2 自由度にある程度大きな数、たとえば1000
を指定して、=Finv(0.05,2,1000) とするのがよいでしょ
う。
布が「説明変数の値には関係なく、誤差の分散にも関係
なく、追加した変数の数に依存する」ことを数学的に証
明できる(する)のですが、実用上は手順と考え方だけ
をしっかり理解すればいいとおもいます。数学的な証明
が知りたければ、数理統計学の教科書にでていますが、
少々手強いですよ。
問:F統計量を求めるときになぜ残差平方和を「回帰式
の分散」でわるのですか
答:完全な答えは難しいのですが、もしも被説明変数の
単位をmから cm にかえて、値を 100 倍すると残差も 100
倍になり、残差平方和は 10000 倍になります。実体はな
にも変化がないので、10000 倍になるのでは判断尺度と
して役に立ちません。このとき残差の分散(=回帰係数
の分散)は 10000 になるので、残差の分散でわることに
より統計量(の分布)が単位から独立になり、判断尺度
問:残差平方和を使った面倒な計算をしなくても、エク
としてはより好ましいものになります。
セルの回帰分析の出力に F 値というのがあるので、それ
を使ってはいけませんか。
問:
「回帰式の分散でわる」という作業はわかったのです
答:この F 値は定数項以外の変数がすべて影響をもたな
が、なぜ「説明変数を加えたとき」の「回帰式の分散」
いという仮説を検定しているものです。
を使って、
「説明変数が加える前」の「回帰式の分散」を
F検定のまとめ
使わないのですか。
1st:説明変数の少ない回帰分析を行う。残差平方和を記
答:
「回帰式の分散でわる」でわるのは、実は「雑音」の
録
分散で割ることにより、F統計量の分布が単位から独立
2nd:説明変数を追加した回帰分析を行う。残差平方和を
なものにするためです。ところが、
「説明変数が少ない」
記録
ときの「回帰式の分散」を使うと、モデルが誤っている