独立したsalarie

回帰分析
単回帰
麻生良文
単回帰モデル
simple regression model
𝑦 = 𝛼 + 𝛽𝑥 + 𝑢
• y
– 従属変数 (dependent variable)
– 被説明変数(explained variable)
• x
– 独立変数 (independent variable)
– 説明変数 (explanatory variable)
• u
– 誤差項 (error term)
– 撹乱項 (disturbance term)
– 他の要因,観察されない変数の影響,yの測定誤差
y
𝑦 = 𝛼 + 𝛽𝑥 + 𝑢
左のようなモデルを仮定し,
現実に観察されたデータから,
パラメータa,bを推計する
直線を当てはめる
推計されたa,b当てはめ
られた直線の切片と傾き
傾きxが1単位増加したと
きyは何単位増加するか
x
重回帰モデル
multiple regression model
• 説明変数が2個以上
y  a  b1 x1  b 2 x2    b k xk  u
y
bi 
xi
他の説明変数を一定に保っておいて,
xi だけを1単位増加させたときに y が何
単位増えるか
他の要因をコントロールした xi 固有の
影響
単回帰モデルにおける仮定
yi  a  b xi  ui
1.
2.
3.
4.
5.
線型モデル(パラメータに関し)
誤差項の期待値は0
誤差項は互いに独立
誤差項の分散は一定(分散均一性)
誤差項は正規分布に従う
– BLUEの成立のためにはこの条件は不要
最小二乗法
• 残差平方和を最小にするようにパラメータを決定
– a,b: 未知パラメータ a,b の推定値
– e: 残差
n
n
S (a, b)   ei    yi  a  bxi 
i 1
2
i 1
1階の条件
S
S
 0,
0
a
b
2
最小二乗推定量
BLUE (Best Linear Unbiased Estimator)という性質
b
S xy
S xx
1

S xx
n
 (x  x) y
i 1
i
i
a  y  bx
誤差項の分散の推定量
n
1
1
2
2
s 
RSS 
ei

n2
n  2 i 1
n-2の2は説明変数の個数(定数項とx)
SER (standard error of the regression)
Eviewsでの回帰分析
メニューからQuick Estimate Equation
で下の画面
被説明変数,説
明変数をスペー
スで区切って並
べる。
c は定数項
(constant term)
最小二乗法の指定
(他にも推定方法の
optionあり)
分析に用いるサンプル
を指定することもできる
仮説の検定
H0: b=b0
bb
 2 S xx
~ N 0,1
b  b0
b  b0

~ t n  2
2
s.e.(b)
s S xx
n−2 : 2は説明変数の個数(定数項とx)
当てはまりの良さ
• TSS=ESS+RSS
• 決定係数
– 0から1の間の値
– 1に近いほど当てはまりが良いことを表す
ESS
RSS
R 
 1
TSS
TSS
2
Eviewsの出力
回帰係数
wage と educ の散布図
30
25
WAGE
20
15
10
5
0
0
4
8
12
EDUC
16
20
残差のプロット
20
Eviewsではresidという変
数に直前の回帰分析の残差
が保存される
16
残差を検討することで回帰
分析の前提(分散均一性)
が満たされているかどうか
チェックする
RESID
12
8
4
グラフをみる限り,分散の
均一性の前提が満たされて
いないようである
0
-4
教育年数の増加とも分散
が大きくなっている
-8
0
4
8
12
EDUC
16
20
残差を後の分析でも使いた
い場合は新しい変数に
residを代入して保存する
残差と被説明変数wageの推定値(wagehat)の関係
• 重回帰の場合には,被説明変数の
推定値と残差の関係を調べる(単
回帰の場合は前のページと同じ結
果)
20
16
RESID
12
• wagehatの求め方
8
menugenr新しい変数を次のよ
うに作成
4
0
wagehat= @coefs(1)+@coefs(2)*
educ
-4
-8
-2
0
2
4
6
8
10
または
WAGEHAT
weaghat = wage - resid
非線形効果のとらえ方
•
•
•
•
•
•
y = a + b ln(x)
ln(y) = a + b x
ln (y) = a + b ln(x)
y = a + b 1* x + b 2 * x 2
y=a+b/x
y = a + b1/ x + b2 * x
対数
y  ln x  x  exp( y )
ln xy  ln x  ln y
対数での変化
ln x a  a ln x
=もとの変数での比率での変化
ln x(1  h)  ln x  ln(1  h)  h
対数の性質から次の
式が成り立つ
ln は自然対数
レジュメでは,lnと書いたり,
logと書いたりしますが,全て
自然対数だと思ってください
y  a  b ln x  b 
y
y

 ln x x x
 ln y y y
ln y  a  bx  b 

x
x
 ln y y y
ln y  a  b ln x  b 

 ln x x x
ln(wage)とeducの散布図
4
LNWAGE
3
2
1
0
-1
0
こちらのほうが当てはまりが良
いようにみえる
4
8
12
EDUC
16
20
ln(wage)=a+b*educでの回帰
Genrというボタンをクリック
すると新しい変数を作成す
る画面が表れる。
そこで
新変数名=計算式
で新しい変数を作成。ここ
では次のようにする。
lnwage =log(wage)
or lnwage =@log(wage)
回帰分析の結果
残差
1.6
1.2
分散不均一性は解消された
ようにみえる
0.8
0.4
RESID
0.0
-0.4
-0.8
-1.2
-1.6
-2.0
-2.4
0
4
8
12
EDUC
16
20
回帰分析の解釈
• 係数の意味
– 教育年数(educ)が1年増加すると賃金(wage)はどのくらい増加するか
– 教育年数(educ)の係数が0であるという仮説は棄却できるか
• 対数(賃金)が被説明変数の場合の係数
– educが1単位増加したとき,賃金の対数値が何単位増加するか 賃金が
何%増加するか
• 賃金に影響を与える変数にはどのような他の要因があるだろうか
– 他の変数と賃金の単相関をみる
• educを連続変数とすることの意味
– 学歴別
• 当てはまりの良さ
• 因果関係(代替的なモデルが考えられる)
– 教育年数  賃金 人的資本の蓄積
– 教育年数  その人の能力の証
• 高学歴者は学業に耐えられるだけの能力をもともと備えていた
• スクリーニングの機能だけ(人的資本の蓄積ではない)
みせかけの関係
• Wooldridge の chapter2 example 2.12
– meap93.raw
• 生徒の成績と高校のlunch programの関係
– lnchprg :perc. of studs. in sch. lunch prog
– math10 :perc studs passing MEAP math(数学の学力テスト)
– ミシガン州の高校 : 408校, 1992-1993年
– 他の条件が一定なら,昼食への補助が生徒の成績にプラスの
影響?
• 推計結果
math10 = 32.14 - 0.319lnchprg
n=408, R2=0.171
誤差項(他の条件)とlnchprgの相関あり
lnchprgと相関があり,math10とも高い相関貧困家庭の比
率?
練習問題1
•
CEOSAL2.RAW
salary: CEOの年棒(1000$)
ceoten: その会社でのCEO在職期間(年)
1. salary, ceotenの平均値を求めよ
2. salary, ceoten, log(salary)のヒストグラムを描け
3. 在職期間が1年未満の人が何人いるか,最長の在職
期間は何年か
4. salaryとceotenの散布図,log(salary)とceotenの散布
図を描け
5. 次の回帰を行い,結果を報告せよ
• log(salary) = a + b* ceoten + u
練習問題2
•
WAGE2.RAW
wage: 月給
IQ: IQ のスコア
1. wageとIQの平均値,分散,最大,最小を求めよ
2. wageとIQのヒストグラムを描け
3. wageとIQ,log(wage)とIQの散布図を描け
4. wage = a + b * IQ + u の回帰を行い,結果を解釈せ
よ。
5. log(wage) = a + b * IQ +u の回帰を行い,結果を解釈せ
よ。