回帰分析説明用

+
回帰分析とは
ある変数の変動をいくつかの変数の変動によって説 明・
予測するための手法。

目的
 予測
使用できる情報(説明変数の値)を基に、目的変数の
値を予測する→予測式(回帰式)を作成

要因分析(因果の探索)
目的変数の変動の原因を探る
複数の説明変数を用意し、目的変数に各説明変
数がどのような影響を与えているかを探索する
+
目的変数と説明変数
 目的変数
 「予測」をしたい変数
「従属変数」ともいう
 「結果」としてとらえる変数
・・・要因から影響されている変数
 説明変数
 目的変数に影響を与える変数
 説明変数が1つ
→単回帰分析
 説明変数が複数→重回帰分析
独立変数ともいう
+
回帰分析のためのデータ形式
Y
X1
...
Xp
1
y1
x11
xp1
2
y2
x21
xp2
yN
x2N
xpN
...
N
目的変数
説明変数
+
事例−高校の3年間の成績
課題:
表のデータは、40名の高校生の3年間の数
学の試験の結果である。
次の2つのモデルで回帰分析を行い、回帰
係数の解釈をおこなうこと。
モデル1:目的変数「3年」
説明変数「1年」、「2年」
モデル2:目的変数「3年」
説明変数「1年」
2つのモデルでの回帰係数の値を比較しな
がら、考察すること。
とくに、3年生での成績が良いことは、1年生
や2年生の成績とどう関連しているのかに
ついて、分析結果から考えよ。
・
・
・
+
回帰分析の出力
単回帰分析
概要
回帰統計
重相関 R
0.63545132
重決定 R2
0.40379838
補正 R2
0.388108863
標準誤差
11.90540626
観測数
40
分散分析表
自由度
回帰
残差
合計
切片
1年
変動
1 3647.904466
38 5386.070534
39
9033.975
係数
14.14354162
0.922801734
標準誤差
7.414318948
0.181899244
分散
観測された分散比
3647.904466
25.73682778
141.7386983
t
1.907598219
5.073147719
P-値
0.064021868
1.05622E-05
有意 F
1.05622E-05
下限 95%
-0.865962261
0.55456597
上限 95%
29.1530455
1.291037499
下限 95.0%
-0.865962261
0.55456597
上限 95.0%
29.1530455
1.291037499
+
回帰分析の分散分析表
分散分析表
自由度
変動
分散
観測された分散比
有意 F
回帰
1 3647.904 3647.904 25.73683 1.06E-05
残差
38 5386.071 141.7387
合計
39 9033.975
n
 (Y
n
2
ˆ
(
Y

Y
)
 i
i 1
n
 (Y
i 1
i
 Y )2
i 1
i
 Yˆi ) 2
+
回帰統計
決定係数(寄与率)
値が大きいほど、回帰モデルがあてはま
りがよく、小さければあてはまりがよく
ないことになる

値は0~1の範囲

数値が最大化するように算出され、説明変
数を追加すれば必ず値が大きくなる
*しかし、全く関係ない説明変数を使っても
1になることがあるため、自由度の残差も
みて判断する必要がある
+
自由度調整済み決定係数

有効な変数だけをモデルに含む
ように決定係数を算出したもの

この値で回帰分析の精度、回帰
式の当てはまり具合を判断すれ
ばよい
⇒値が大きいほど、よいモデル
+
分散分析表
モデル全体が意味のあるものであるかを検定した結果
すべての説明変数の
係数が0である確率
0に近ければ
変数間の関連性が
大きいと考えられる
高ければ、問題ない分析になっていると考えられる
(常に20〜30は欲しい)
低ければ、変数間の関連性が高いと考えられる
違うデータで同じ分析をしたときの
係数の変化の具合
変数が変化したら、もう一つの変数がどの程度変化するかを示したもの。
+か−どちらになっているかが重要!
変数がどのくらい効いているか(絶対値の大きいものが効いてくる)
(係数)÷(係数の標準誤差)で算出される。
係数が0である確率。係数が0ということは関連性がないということ。
つまりP値が0に近ければ関連性が高いと考えられる。
+
モデル2
分析結果から読み取れること

補正R2が0.39より、1年生の成績で3年生の成績を39%説明できる
(自由度の残差も高いため信用してよい)

有意Fが限りなく0に近いため、変数間の関連性は高い

係数は+0.92より、3年生の成績が10点上がると1年生の成績は9.2
点上がる
→1年生のときの成績がよければ、3年生の時の成績もよい

P値は0に近いので、1年生の成績が3年生の成績に効いていると考
えられる