回帰分析 解説

■回帰分析
説明変数 x のいくつかの値で観測された目的変数 y について、この x と y の母平均との間に成り立つ
関数関係を分析するのが回帰分析である。特に、直線で表わされる関係を考えるのが、単回帰分析であ
る。
回帰分析ツールは、線形回帰分析を行う。回帰分析では、R-2 乗値を使って、観測値のデータが最適
な直線に当てはめられる。このツールを使って、複数の独立変数が 1 つの従属変数に与える影響を分
析することができる。
たとえば、スポーツ選手の年齢、身長、体重などの要素が成績に与える影響を分析できる。成績デ
ータに基づいて、これらの要素それぞれが成績に影響した比率を割り当てたり、回帰分析の結果を使っ
て、他のスポーツ選手の成績を予測することもできる。
●回帰直線の推定
散布図を書くことによって,二つの特性間の相互関係がどのようなものかという概略を把握できる.
また,両特性が正規分布をしており,直線的関係がある場合には,その関係の強さを相関係数の形で数
値的にとらえることができる.特性間に相関関係のあることが明確となった場合には,その関係を表す
関数(回帰式)が役に立つことが多い.
たとえば,合成樹脂パイプの押出し工程において,肉厚に影響を与える要因を把握するために,原料
加熱ヒータの電流と肉厚との相関を調べたところ,有意となったとする.関係があることがわかっただ
けではあまり有効な情報は得られない.電流値がある値を示すときには,その結果として肉厚がどれく
らいの値になるかを検討する必要がある.このためには,電流の変化に対応して肉厚がどのように変化
するかを,両者の関係式として求めておく必要がある.このような式を回帰式といい,ここでは直線で
関係が表される場合について述べる.
相関分析では,特性だけでなく要因の値も正規分布をしていることが前提であったが,回帰式のあて
はめについては,原因と考えられる特性が正規分布している必要はない.
*直線回帰式の計算
特性yとその要因xとの間に
y=a+bx
という回帰直線をあてはめるものとする.aは切片といい,x=0のときのyの値であり,bは回帰係
数と呼ばれ,xが1だけ増加したときのyの増加量であり,直線の傾きである.
実測データヘのあてはまり度合いが最も良い回帰直線を求めるためには,次のように考える.xのあ
る水準に対して( xi , y i )の対になった実測データに式y=a+bxの形の直線をあてはめると, xi
に対しては( a  bxi )がyの推定値として得られる.これと実測値 y i との差があてはめの誤差である.
この誤差を2乗したものをすべてのデータについて合計して,
残差平方和
Se 
n
 y
 (a  bxi )
2
i
i 1
を最小とするようにaとbを決めれば,xからyを推定するのに最も誤差が小さい回帰直線が得られる
ことになる.この方法を最小二乗法というが,残差平方和 Se を最小とするaとbは次のように求まる.
*回帰直線 y  a  bx のあてはめ
(1)
x , y を求める.
(2) S ( x, y), S ( x, x) より回帰係数bを求める.
b
(3) 切片 a を求める.
S ( x, y )
S ( x, x )
a  y  bx
-1-
●相関・回帰に関する Excel 関数
*回帰直線式 y=ax+b
a=SLOPE ( y, x )
y:従属変数 y の配列データのセル範囲
x:独立変数 x の配列データのセル範囲
既知の y と既知の x のデータから回帰直線の傾きを計算する。
直線の傾きとは、直線上の 2 点の垂直方向の距離を水平方向の距離で除算した値で、
回帰直線の変化率に対応する。
b=INTERCEPT ( y, x )
y:従属変数 y の配列データのセル範囲
x:独立変数 x の配列データのセル範囲
既知の x と既知の y を通過する線形回帰直線の切片を計算する。
切片とは既知の x と既知の y の値を通過する回帰直線が y 軸と交わる座標のことである。
●重回帰分析
回帰分析は、従属変数(目的変数)と連続尺度の独立変数(説明変数)の間に式を当てはめ、従属変
数が説明変数によってどれくらい説明できるのかを定量的に分析することである。
説明変数が 1 つの場合は単回帰分析、2 つ以上ある場合は重回帰分析と呼ぶ。
重回帰分析は、多変量解析の一つであり、回帰分析の独立変数が複数になったものであり、適切な変
数を複数選択することで、計算しやすく誤差の少ない予測式を作ることができる。
データの構造式 yi  1 x1i   2 x2i       p x pi   i
p:説明変数の数
i=1,2,・・・,n
n:測定値の数
★重回帰分析における注意点 「多重共線性」の回避
重回帰分析においては要因系データの種類を増やすと予測精度が向上する傾向にあるが、要因系デー
タの中に「要因系データ同士で相関関係が強いもの」が含まれていると「多重共線性」という現象が起
き、予測精度が低下する。
独立変数(説明変数)を選択する際、マーケティングやアンケートでよく使う一般的な重回帰の場合、
複数の説明変数同士は無相関という仮定が入っている。そのため、説明変数同士が関連性の高い場合、
多重共線性と呼ばれる状態になるため、係数が直感に反する値になることがある。
例えば、小学校での定期テスト得点から重回帰で分析する場合、理科の点数を従属変数に、数学と国
語とを説明変数にした場合、数学が増えると理科の点数が増え、国語の点数が高ければ理科の点数が減
るといった意味の係数が出ることがある。これは数学と国語との点数の間に強い相関がある(一般に、
どちらの成績も学習習慣や知能の影響を強く受ける)ことで起こりうる。この場合のように説明変数間
の相関が高いと係数が不安定になりやすい。
実務的対応としては、一方を除いて分析するのが最も手軽である。
-2-
●Excel の回帰分析ツールの解析結果の見方
-分散分析と t 検定-
Excel の分析ツールを使って重回帰分析を行うと、2 種類の検定結果が出力される。
1 つは分散分析表で、
「母重相関係数は 0(ゼロ)である」という帰無仮説を検定している。
もう 1 つは回帰係数に続いて出力される t 検定の結果で、「回帰係数は 0 である」という帰無仮説
を検定している。
★回帰関係の有意性
Excel の回帰分析ツールにより、次の分散分析表が出力される。
この分散表で、
「有意 F」は回帰関係の有意性を表わし、有意 F による有意性の判断基準は、
次の通りである。
*有意 F≦0.01
→回帰は高度に有意である。
*有意 F≦0.05
→回帰は有意である。
*有意 F>0.05
→回帰有意とは言えない。
分散分析表のチェックポイントは「有意 F」の値である。この値は、
「回帰」と「残差」の 2 つの「自
由度」に基づく F 分布における「観測された分散比(=F 値)
」の上側確率である。一般的な統計ソフ
トでは、有意確率である「p値」として示されている(Excel 分散分析ツールの出力では「P 値」を使
っている)
。
有意水準を p<0.05(5%)に設定している場合には、この分散分析表の「有意 F」が 0.05 以下であ
れば、検定結果は有意であり、「母重相関係数は 0 である」という帰無仮説が棄却され、「母重相関係
数が 0 ではない」という対立仮説が支持されたことになる。これは、回帰関係が有意であり、重回帰
式により説明できる目的変数の変動が統計的検定によっても確認できたことを意味する。
重相関係数がどの程度あればよいかは分析の目的によって異なり、目的が予測モデルを作ることにあ
る場合には、重相関係数が 0.8 とか 0.9 といった高いレベルを目指すことになる。
分散分析結果の有意 F で回帰関係の有意を確認した後に、次に、各説明変数の回帰係数の t 検定の結
果を確認する。
★回帰係数の有意性
Excel の回帰分析ツールにより、次のように、回帰係数の t 検定結果が出力される。
この t 検定表で、
「P-値」は「各回帰係数」が 0 かどうかを検定したときに有意となる確率であり、
その有意性の判断基準は、次の通りである。
*「P-値」≦0.01
→高度に有意 →危険率 1%で、回帰係数は 0 ではないと言える。
*「P-値」≦0.05
→有意
→危険率 5%で、回帰係数は 0 ではないと言える。
*「P-値」>0.05
→有意とは言えない。 →回帰係数は 0 ではないとは言えない。
回帰係数の t 検定で、これが有意になった場合、
「回帰係数は 0 ではない」ということになる。検定
統計量 t は「回帰係数/標準誤差」で求まり、この t の値は、分散分析表の誤差の自由度による t 分布
に従う。この t 値と t 分布から両側確率が求められ「P-値」のところに出力されている。
この検定は「回帰係数が 0 ではない」を対立仮説とする両側検定の結果である。
-3-
「P-値」の右側には「下限 95%」
、
「上限 95%」の出力がある。これは、回帰係数の信頼区間である。
「P-値」が 0.05 以上なら信頼区間の限界値は 0 を挟んだ値になる。説明変数の影響がプラス、マイ
ナスのどちらもありうるということです。今回の事例では、どの説明変数の回帰係数も 0.05 以上なの
で、すべての信頼区間が 0 を含んでいる。
回帰係数が有意ということは、その説明変数の目的変数に対する影響力が統計的にも確認できたとい
うことである。ただし、この影響力を絶対的なものと考えるのは誤りです。説明変数の組み合わせを変
えれば、回帰係数は変化する。目的変数との関係が第 3 の変数を介した間接的なものであったり、交絡
因子が存在したりという場合である。新たな変数を加えて重回帰分析をし直したら、影響力が消えてし
まったり、回帰係数の符号が逆転したということは珍しくない。
★用語の解説
分析ツールで使われている用語は、一般の解説図書で使われている統計用語と違いがあるので、
下記に対比表して示す。
分
類
回帰分析ツール
解
説
重相関 R
重相関係数 R
重決定 R2
寄与率(決定係数)R2
自由度調整済み寄与率
①回帰統計量 補正 R2
標準誤差
残差の標準偏差 Ve
観測数
観測数:データ数 N
自由度
自由度
変動
平方和
②分散分析表
分散
分散
観測された分散比 検定統計量 Fo
有意 F
有意確率 →F0 の値が有意になる確率
母切片の推定値β0
係数
母回帰係数の推定値βi
標準誤差
切片と回帰係数の標準偏差
t
検定統計量 t0=係数/標準準偏差で求めた値
③回帰母数の
有意確率 →t0 の値が有意になる確率
検定と推定 P-値
下限 95%
母切片と母回帰係数の信頼率 95%の信頼下限の値
上限 95%
母切片と母回帰係数の信頼率 95%の信頼上限の値
下限 99%
母切片と母回帰係数の信頼率 99%の信頼下限の値
上限 99%
母切片と母回帰係数の信頼率 99%の信頼上限の値
●回帰分析ツールの例題
回帰分析ツールは、線形回帰分析を行う。
→ Excel 回帰分析ツール 例題 参照
●参考資料
*技術計算製作所 → Excel → 回帰分析
http://gijyutsu-keisan.com/excel/addin/regression/regression.php
*重回帰分析の例題解説 動画
https://www.youtube.com/watch?v=O94rBe7EzC0
Excel 分析ツールによる重回帰分析の例題が、Excel の画面を用いて、ユーチューブの動画によ
り分かり易く解説されている。
*重回帰分析に関する講義資料 京都大学 大学院教育学研究科 教育認知心理学講座 楠見 孝 教授
http://www.educ.kyoto-u.ac.jp/cogpsy/personal/Kusumi/datasem09/MR.pdf
*Excel における回帰分析
http://keijisaito.info/econ/jp/excel_ols/
やや専門的な内容であるが、回帰分析を理解する上で役に立つ。
-4-