回帰分析 単回帰 麻生良文 単回帰モデル simple regression model 𝑦 = 𝛼 + 𝛽𝑥 + 𝑢 • y – 従属変数 (dependent variable) – 被説明変数(explained variable) • x – 独立変数 (independent variable) – 説明変数 (explanatory variable) • u – 誤差項 (error term) – 撹乱項 (disturbance term) – 他の要因,観察されない変数の影響,yの測定誤差 y 𝑦 = 𝛼 + 𝛽𝑥 + 𝑢 左のようなモデルを仮定し, 現実に観察されたデータから, パラメータa,bを推計する 直線を当てはめる 推計されたa,b当てはめ られた直線の切片と傾き 傾きxが1単位増加したと きyは何単位増加するか x 重回帰モデル multiple regression model • 説明変数が2個以上 y a b1 x1 b 2 x2 b k xk u y bi xi 他の説明変数を一定に保っておいて, xi だけを1単位増加させたときに y が何 単位増えるか 他の要因をコントロールした xi 固有の 影響 単回帰モデルにおける仮定 yi a b xi ui 1. 2. 3. 4. 5. 線型モデル(パラメータに関し) 誤差項の期待値は0 誤差項は互いに独立 誤差項の分散は一定(分散均一性) 誤差項は正規分布に従う – BLUEの成立のためにはこの条件は不要 最小二乗法 • 残差平方和を最小にするようにパラメータを決定 – a,b: 未知パラメータ a,b の推定値 – e: 残差 n n S (a, b) ei yi a bxi i 1 2 i 1 1階の条件 S S 0, 0 a b 2 最小二乗推定量 BLUE (Best Linear Unbiased Estimator)という性質 b S xy S xx 1 S xx n (x x) y i 1 i i a y bx 誤差項の分散の推定量 n 1 1 2 2 s RSS ei n2 n 2 i 1 n-2の2は説明変数の個数(定数項とx) SER (standard error of the regression) Eviewsでの回帰分析 メニューからQuick Estimate Equation で下の画面 被説明変数,説 明変数をスペー スで区切って並 べる。 c は定数項 (constant term) 最小二乗法の指定 (他にも推定方法の optionあり) 分析に用いるサンプル を指定することもできる 仮説の検定 H0: b=b0 bb 2 S xx ~ N 0,1 b b0 b b0 ~ t n 2 2 s.e.(b) s S xx n−2 : 2は説明変数の個数(定数項とx) 当てはまりの良さ • TSS=ESS+RSS • 決定係数 – 0から1の間の値 – 1に近いほど当てはまりが良いことを表す ESS RSS R 1 TSS TSS 2 Eviewsの出力 回帰係数 wage と educ の散布図 30 25 WAGE 20 15 10 5 0 0 4 8 12 EDUC 16 20 残差のプロット 20 Eviewsではresidという変 数に直前の回帰分析の残差 が保存される 16 残差を検討することで回帰 分析の前提(分散均一性) が満たされているかどうか チェックする RESID 12 8 4 グラフをみる限り,分散の 均一性の前提が満たされて いないようである 0 -4 教育年数の増加とも分散 が大きくなっている -8 0 4 8 12 EDUC 16 20 残差を後の分析でも使いた い場合は新しい変数に residを代入して保存する 残差と被説明変数wageの推定値(wagehat)の関係 • 重回帰の場合には,被説明変数の 推定値と残差の関係を調べる(単 回帰の場合は前のページと同じ結 果) 20 16 RESID 12 • wagehatの求め方 8 menugenr新しい変数を次のよ うに作成 4 0 wagehat= @coefs(1)+@coefs(2)* educ -4 -8 -2 0 2 4 6 8 10 または WAGEHAT weaghat = wage - resid 非線形効果のとらえ方 • • • • • • y = a + b ln(x) ln(y) = a + b x ln (y) = a + b ln(x) y = a + b 1* x + b 2 * x 2 y=a+b/x y = a + b1/ x + b2 * x 対数 y ln x x exp( y ) ln xy ln x ln y 対数での変化 ln x a a ln x =もとの変数での比率での変化 ln x(1 h) ln x ln(1 h) h 対数の性質から次の 式が成り立つ ln は自然対数 レジュメでは,lnと書いたり, logと書いたりしますが,全て 自然対数だと思ってください y a b ln x b y y ln x x x ln y y y ln y a bx b x x ln y y y ln y a b ln x b ln x x x ln(wage)とeducの散布図 4 LNWAGE 3 2 1 0 -1 0 こちらのほうが当てはまりが良 いようにみえる 4 8 12 EDUC 16 20 ln(wage)=a+b*educでの回帰 Genrというボタンをクリック すると新しい変数を作成す る画面が表れる。 そこで 新変数名=計算式 で新しい変数を作成。ここ では次のようにする。 lnwage =log(wage) or lnwage =@log(wage) 回帰分析の結果 残差 1.6 1.2 分散不均一性は解消された ようにみえる 0.8 0.4 RESID 0.0 -0.4 -0.8 -1.2 -1.6 -2.0 -2.4 0 4 8 12 EDUC 16 20 回帰分析の解釈 • 係数の意味 – 教育年数(educ)が1年増加すると賃金(wage)はどのくらい増加するか – 教育年数(educ)の係数が0であるという仮説は棄却できるか • 対数(賃金)が被説明変数の場合の係数 – educが1単位増加したとき,賃金の対数値が何単位増加するか 賃金が 何%増加するか • 賃金に影響を与える変数にはどのような他の要因があるだろうか – 他の変数と賃金の単相関をみる • educを連続変数とすることの意味 – 学歴別 • 当てはまりの良さ • 因果関係(代替的なモデルが考えられる) – 教育年数 賃金 人的資本の蓄積 – 教育年数 その人の能力の証 • 高学歴者は学業に耐えられるだけの能力をもともと備えていた • スクリーニングの機能だけ(人的資本の蓄積ではない) みせかけの関係 • Wooldridge の chapter2 example 2.12 – meap93.raw • 生徒の成績と高校のlunch programの関係 – lnchprg :perc. of studs. in sch. lunch prog – math10 :perc studs passing MEAP math(数学の学力テスト) – ミシガン州の高校 : 408校, 1992-1993年 – 他の条件が一定なら,昼食への補助が生徒の成績にプラスの 影響? • 推計結果 math10 = 32.14 - 0.319lnchprg n=408, R2=0.171 誤差項(他の条件)とlnchprgの相関あり lnchprgと相関があり,math10とも高い相関貧困家庭の比 率? 練習問題1 • CEOSAL2.RAW salary: CEOの年棒(1000$) ceoten: その会社でのCEO在職期間(年) 1. salary, ceotenの平均値を求めよ 2. salary, ceoten, log(salary)のヒストグラムを描け 3. 在職期間が1年未満の人が何人いるか,最長の在職 期間は何年か 4. salaryとceotenの散布図,log(salary)とceotenの散布 図を描け 5. 次の回帰を行い,結果を報告せよ • log(salary) = a + b* ceoten + u 練習問題2 • WAGE2.RAW wage: 月給 IQ: IQ のスコア 1. wageとIQの平均値,分散,最大,最小を求めよ 2. wageとIQのヒストグラムを描け 3. wageとIQ,log(wage)とIQの散布図を描け 4. wage = a + b * IQ + u の回帰を行い,結果を解釈せ よ。 5. log(wage) = a + b * IQ +u の回帰を行い,結果を解釈せ よ。
© Copyright 2024 Paperzz