stataでの回帰分析

2. 最小二乗法
最
(OLS)
(1)regression の方法
の
・reggress
Staata を使って
て最小二乗法
法の分析を行うのはとても
も簡単です。例えば、W
Wooldridge のテキ
の
ストの 81 頁 Example3.2
E
に
にあるように
に分析を行うには、
regress lwage educc exper tenurre
[enter]
とす
するだけで、
、次のような
なアウトプッ
ットが得られ
れます。
SS
‐S
sum of squares
s
2 乗和
乗
‐ddf degree of freedom 自由度
‐M
MS Model の MS を Reesidual の MS
S で割ると F 統計量にな
なる
‐N
Number of obbs = 526 観察値の数、
観
サンプル数
‐F
F( 3, 522 ) = 80.39
F 統計量(帰無仮
仮説は、educ の係数=exxper の係数=tenure の係
係数=
0
0)
‐P
Prob > F = 0..0000
F 検定
定の P 値
‐R
R-squared = 0.3160
0
決定
定係数
‐A
Adj R-squareed = 0.3121 自由度修正
正済み決定係数
‐R
Root MSE = .44086 平均
均 2 乗誤差の
の平方根
‐C
Coef. Coeffficient
‐S
Std. Err Staandard Error
‐tt t 統計量(帰無仮説は
は、係数=0)
)
‐P
P>|t|
t 検定
定の P 値
‐995% Conf. Innterval
Coeffficient の 955%信頼区間
・定数
数項を含めな
ない regression を行うに
には nocons オプションを
オ
を使用します
す。
regress lwage educc exper tenurre, nocons [enter]
・通常の 95%でなく、他の数字での信頼区間を出したいときは以下のようにします。
regress lwage educ exper tenure, level(99)
[enter]
・predict 回帰式の推定を行った直後に被説明変数の予測値や残差を計算するコマンド。
regress lwage educ exper tenure
[enter]
predict yhat [enter]
predict e, resid
[enter]
とすると、サンプルごとの予測値は yhat、残差は e として計算されます。
・_b[variable] 回帰式の推定を行った直後には、この形によって係数を表します。
たとえば、
regress lwage educ exper tenure
[enter]
disp _b[_cons]+_b[educ]*educ[10]+_b[exper]*exper[10]+_b[tenure]*tenure[10]
[enter]
とすると、10 番目のサンプルの予測値を計算することができます。
または、
regress lwage educ exper tenure
[enter]
gen yhat1 = _b[_cons]+_b[educ]*7+_b[exper]*exper+_b[tenure]*tenure
label variable yhat1 “lwage = f(exper, tenure | educ = 7)”
[enter]
[enter]
とすると、教育年数が 7 年である場合の lwage の予測値を yhat1 という変数として作成す
ることができます。
同様に、_se[variable]は推定された係数の標準誤差を表します。
・regression を行ったあとに ereturn list と入力すると、一時的に保存されている regression の
結果のリストが表示されます。
(2)多重共線性
multiple regression を行う場合、説明変数の一部または全てが相互に強い相関関係があると
多重共線性が問題となります。回避するための指標としては以下の 2 つなどがあります。
・説明変数間の相関を確認
correlate educ exper tenure
[enter]
・VIF(Variance Inflation Factor) 各説明変数を他の説明変数で回帰した決定係数を用いて、
VIF
として求められます。一般的には VIF が 10 以上で多重共線性があると判断され
ることが多いようです。Stata では、regression を行ったあとに vif コマンドを使用すると VIF
を計算することができます。
(3)検定
帰無仮説が係数=0 の t 検定と、帰無仮説がすべての説明変数の係数=0 の F 検定は、regress
コマンドで出力された統計量を用いて行うことができます。その他の検定を行うには
regression を行ったあとに test コマンドを用いるなどして行います。その例をいくつか紹介
します。
・係数=0 以外の t 検定
係数=c(定数)が帰無仮説の場合は、
また、F 1, n
t n
によって t 値を計算して行います。
(t が自由度 n の t 分布に従うならば,t
F とおくとき,F は自
由度(1,n)の F 分布に従う)という関係であることを利用することもできます。
quietly reg lwage educ exper tenure [enter]1
test educ = 1
[enter]
disp sqrt(15344.23)
[enter]
とすると、educ の係数=1 を帰無仮説とする t 検定を行うことができます。
同様に、上記の 2 行目が
test educ = exper
[enter]
であれば、educ の係数=exper の係数を帰無仮説とする t 検定となります。また、たとえば
test educ = ( exper + tenure )/100 [enter]
というような形でも t 検定を行うことができます。
・F 検定
reg lwage educ exper tenure
test educ exper
[enter]
[enter]
とすると、educ の係数=0 および exper の係数=0 が帰無仮説である F 検定を行うことがで
きます。
1
先頭に quietly を付けるとコマンドの結果は Result 画面には表示されません。当該コマンドによる作業
よりもその次の作業(今回のように係数の検定を行う場合など)の結果に主に関心があり、いちいち結果
が表示されると面倒だという場合には、使うと便利かもしれません。
(4)不均一分散
・rvfplot 回帰分析のあとで残差と予測値をプロットするためのコマンド。均一分散になっ
ているかどうかを視覚的に確認する時に用います。
・White の修正を行って robust standard errors を伴う regression を行うには robust オプション
を使用します。Wooldridge の 276 ページ Example8.2 のような推定を行うには以下のように
します。
reg cumgpa sat hsperc tothrs female black white if term == 2
[enter]
reg cumgpa sat hsperc tothrs female black white if term == 2, robust
[enter]
・不均一分散であるかどうかの検定は、Wooldridge の 278 ページ以降に書かれているプロセ
スにて行うことができます。あるいは hettest コマンドを用います。たとえば、281 ページ
Example8.4 の式で hettest コマンドを用いると以下のようになります。
quietly reg price lotsize sqrft bdrms
hettest
[enter]
[enter]
・WLS(Weighted Least Squares) Wooldridge の 287 ページ Example8.6 にある WLS 推定を行
うには以下のようにします。
reg sav inc [aweight = 1/inc ]
[enter]
reg sav inc size educ age black [aweight = 1/inc ]
[enter]
(5)その他
・正規性の検定(Kolmogorov-Smirnov test)
通常 OLS で検定を行う際には残差に正規性(Normality)を仮定しています2。OLS の残差
が正規分布といえるかどうかの適合度検定を行う検定として Kolmogorov-Smirnov test が
あり、sktest というコマンドで実行できます。
2
・
・
・
・
・
・
・
・
・
・
標本が十分大きいときには、誤差項が正規分布に従わない場合であっても、係数の信頼区間や仮説検定
について近似的に正規性の仮定をした場合と同様の結果が得られます。これは OLS 推定量の漸近正規性
(asymptotic normality)から、標本が十分に大きければ漸近的に t 統計量は標準正規分布に、F 統計量は
制約の数を自由度とするχ2 分布に従うためです。
predict e, resid
sktest e
[enter]
[enter]
この例では、分布が正規分布であるという帰無仮説は棄却され、残差に正規性を仮定す
ることは適切とは言えなくなります。