散布図と近似式、相関係数

本日の内容
情報科学 第10回
2つのデータの関係性

散布図と近似式

相関関数

講義のページ、第10回のその他の欄に、本日使用す
る教材があります。

141119.xls というファイルがありますので、ダウンロー
ドして、デスクトップに保存してください。
1
統計処理の例1:相関関係
前回の復習
統計


集計したり、代表値を求めたり、傾向を分析すること
で、そのデータの特徴を知る技術。
2つ以上の回答項目があるアンケートをとりました。
項目Aと項目Bには関連性があるでしょうか?
回答者1
回答者2
回答者3
回答者4
回答者5
回答者6
数値などの客観的な形で表現することで、勘などに
頼らない判断が可能に。
項目A
120
100
80
75
65
65
項目B
500
490
300
320
290
285
同じ傾向が
あるかなぁ?
散布図と近似式


前回までは、1種類のデータを取り扱いました。
今度は、2種類のデータの関連性について考えます。
散布図と近似式
身長と体重の関係は......
今回は、散布図と近似式を行います
散布図を書く(Excel)
散布図とは


2種類のデータを、それぞれ縦軸と横軸に割り当ててプ
ロットしたグラフです。
2種類のデータの関係を、視覚的に捕らえることができ
ます。
身長と体重の
関係は......
データAとデータBの散布図を書きます。
1. データAとデータBを選択します。
2. グラフリボンから散布図を挿入します。

データB
90
80
700
70
600
体重
60
500
50
400
40
データB
300
30
200
20
100
10
0
0
0
0
50
100
150
50
100
150
200
200
身長
近似式をグラフに書く(Excel)
近似式とは

2種類のデータの関係を、数式で近似したものです。
90
80
y = 0.55x - 27.625
70
体重
60
50
先に書いたグラフに、近似式を書き入れましょう。
1. グラフをクリックして選択します。
2. [レイアウト] タブの [分析] グループにある [近似曲
線] をクリックします。
3. [線形近似]をクリックします。

40
タイトル
700
30
600
20
500
400
10
データB
線形 (データB)
300
0
200
0
50
100
150
200
100
身長
0
0
近似式の数式を書く(Excel)
具体的な近似式を書き入れましょう。
1. グラフをクリックして選択します。
2. [レイアウト] タブの [分析] グループにある [近似曲
線] をクリックします。
3. [その他の近似曲線オプション] をクリックし、さらに[グ
ラフに数式を表示する] を選択します。

タイトル
700
600
y = 3.0117x - 18.071
500
400
データB
線形 (データB)
300
200
100
0
0
50
100
150
200
50
100
150
200
近似式の傾きを求める(Excel)


傾きを求める関数として slope があります。
slope(y軸データ, x軸データ) として使います。
近似式の切片を求める(Excel)


散布図と近似式のまとめ
切片を求める関数として INTERCEPT があります。
INTERCEPT(y軸データ, x軸データ) として使います。



「データAとCについて」と「データAとDについて」の散布
式を書き、近似式を書きましょう。
また、近似式の傾きと切片を求めましょう。
次は、この2つのデータの間に関連性があるか否かを
扱います。
相関係数


前回は散布図により、データの関係を視覚化しました。
今回は、2種類のデータの関連度について考えます。
相関係数
身長と体重の関係は......
今回は相関関数のお話です。
相関とは
2種類のデータについて、
片方が大きくなると、もう片方も大きくなるとき
"正の相関がある"、
片方が大きくなると、もう片方は小さくなるとき
"負の相関がある"、
どちらでも無い場合は"相関がない"、
という風に言います。
体重

相関関数
90
900
80
800
70
700
60
600
50
500
40

相関を計る指標が相関係数です。
係数は、相関関数によって求まります。
相関関数は、以下の式となります。

相関関数は-1から1の間を取ります。

x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
-1
-0.5
0
0.5
1
400
30
300
20
200
10
100
0
0
50
100
身長
150
200
0
0
50
100
150
200
強い負の
相関がある
相関がない
強い正の
相関がある
相関係数の計算(ステップ毎)1
 データAとデータBの相関係数を求めましょう。
1. データAの平均値を
セルA20に計算しましょう。
2. データBの平均値を
セルB20に計算しましょう。
相関係数の計算(ステップ毎)2
3. セルI2からI19の各セルに、
データAの各値 - データAの平均値
を計算しましょう。
4. 同様に、セルJ2からJ19の各セルに、
データBの各値 - データBの平均値
を計算しましょう。
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
相関係数の計算(ステップ毎)3
相関係数の計算(ステップ毎)4
5. セルK2からK19の各セルに、
IのセルとJのセルの
掛け算を計算しましょう。
6. セルK20に、K2からK19の
和を計算しましょう。
7. セルL2からL19の
各セルに、
Iのセルの2乗を
計算しましょう。
8. セルM2からM19の
各セルに、
Jのセルの2乗を
計算しましょう。
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
相関係数の計算(ステップ毎)5
相関係数の計算(ステップ毎)6
7. セルL20にセルL2からL19の
和を計算しましょう。
8. セルL21にL20の平方根を
計算しましょう。
9. セルM20にセルM2からM19の
和を計算しましょう。
10. セルM21にM20の平方根を
計算しましょう。
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
11. セルK20に分子が、セルL21とM21には分母が
計算できました。
最終的な相関係数をセルN22に求めましょう。
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
相関係数の計算(Excel)


相関係数を求める関数として correl があります。
correl(y軸データ, x軸データ) として使います。
相関係数の演習


おわりに



今回は、2つのデータを扱う方法を行いました。
散布図:2つのデータを視覚的に見る
近似式:2つのデータの関係を式で近似する
相関係数:2つのデータの関係性の指標
物事の原因や因果関係を分析する際、これらのことは
重要になってきます。
Excelで式や値は簡単に出ますが、これらが「何を言っ
ているものなのか」を、きちんと理解しておきましょう。
correl 関数を使って、「データAとCについて」と「データA
とDについて」の相関係数を求めましょう。
それぞれのデータの関連性は、どうなるでしょうか?