情報科学第09回 2つのデータの関係性 本日の内容 前回の復習 統計

本日の内容
情報科学 第09回
2つのデータの関係性

散布図と近似式

相関関数
1
統計処理の例1:相関関係
前回の復習
統計


集計したり、代表値を求めたり、傾向を分析すること
で、そのデータの特徴を知る技術。
2つ以上の回答項目があるアンケートをとりました。
項目Aと項目Bには関連性があるでしょうか?
回答者1
回答者2
回答者3
回答者4
回答者5
回答者6
数値などの客観的な形で表現することで、勘などに
頼らない判断が可能に。
項目A
120
100
80
75
65
65
項目B
500
490
300
320
290
285
同じ傾向が
あるかなぁ?
散布図と近似式


前回までは、1種類のデータを取り扱いました。
今度は、2種類のデータの関連性について考えます。
散布図と近似式
身長と体重の関係は......
今回は、散布図と近似式を行います
関連が高い・低い
以下の項目は関係があるでしょうか?
実際にはどのような関係でしょうか?
テレビ好きな人は視力が低い?
コーラ好きな人は体重が多い?
体重が大きいと血糖値が高い?
睡眠時間が短いとテストの成績が悪い?


2種類のデータを、それぞれ縦軸と横軸に割り当ててプ
ロットしたグラフです。
2種類のデータの関係を、視覚的に捕らえることができ
ます。
身長と体重の
関係は......
90
80
70
60
体重

散布図とは
こういう関係を、見て分かるように評価したい。
関係を数式で評価したい。
どのぐらい関係が強いのか、値で評価したい。
50
40
30
20
10
0
0
50
100
150
200
身長
散布図を書く(Excel)
近似式とは
データAとデータBの散布図を書きます。
1. データAとデータBを選択します。
2. グラフリボンから散布図を挿入します。


2種類のデータの関係を、数式で近似したものです。
90
80
y = 0.55x - 27.625
70
60
体重
データB
700
600
500
50
40
30
400
20
データB
300
10
200
100
0
0
0
0
50
100
150
50
100
200
近似式をグラフに書く(Excel)
先に書いたグラフに、近似式を書き入れましょう。
1. グラフをクリックして選択します。
2. [レイアウト] タブの [分析] グループにある [近似曲
線] をクリックします。
3. [線形近似]をクリックします。

タイトル
150
200
身長
近似式の数式を書く(Excel)
具体的な近似式を書き入れましょう。
1. グラフをクリックして選択します。
2. [レイアウト] タブの [分析] グループにある [近似曲
線] をクリックします。
3. [その他の近似曲線オプション] をクリックし、さらに[グ
ラフに数式を表示する] を選択します。

700
タイトル
600
500
700
400
600
データB
線形 (データB)
300
y = 3.0117x - 18.071
500
400
200
データB
線形 (データB)
300
100
200
0
0
50
100
150
200
100
0
0
50
100
150
200
近似式の傾きを求める(Excel)


傾きを求める関数として slope があります。
slope(y軸データ, x軸データ) として使います。
近似式の切片を求める(Excel)


近似式が書けると


関連性の高い関係について近似式が書ける
データに無い値Aに対して、どのぐらいの値Bになる
か、予想できる。
値Aが120のとき、値Bはどのぐらいの値になりそうか、
予想してみましょう。
切片を求める関数として INTERCEPT があります。
INTERCEPT(y軸データ, x軸データ) として使います。
散布図と近似式のまとめ



「データAとCについて」と「データAとDについて」の散布
式を書き、近似式を書きましょう。
また、近似式の傾きと切片を求めましょう。
次は、この2つのデータの間に関連性があるか否かを
扱います。
相関係数


前回は散布図により、データの関係を視覚化しました。
今回は、2種類のデータの関連度について考えます。
相関係数
身長と体重の関係は......
今回は相関関数のお話です。
相関とは
2種類のデータについて、
片方が大きくなると、もう片方も大きくなるとき
"正の相関がある"、
片方が大きくなると、もう片方は小さくなるとき
"負の相関がある"、
どちらでも無い場合は"相関がない"、
という風に言います。
体重

相関関数
90
900
80
800
70
700
60
600
50
500
40

相関を計る指標が相関係数です。
係数は、相関関数によって求まります。
相関関数は、以下の式となります。

相関関数は-1から1の間を取ります。

x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
-1
-0.5
0
1
0.5
400
30
300
20
200
10
100
0
0
50
100
身長
150
200
0
0
50
100
150
相関係数の計算(ステップ毎)1
 データAとデータBの相関係数を求めましょう。
1. データAの平均値を
セルA20に計算しましょう。
2. データBの平均値を
セルB20に計算しましょう。
200
強い負の
相関がある
相関がない
強い正の
相関がある
相関係数の計算(ステップ毎)2
3. セルI2からI19の各セルに、
データAの各値 - データAの平均値
を計算しましょう。
4. 同様に、セルJ2からJ19の各セルに、
データBの各値 - データBの平均値
を計算しましょう。
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
相関係数の計算(ステップ毎)3
相関係数の計算(ステップ毎)4
5. セルK2からK19の各セルに、
IのセルとJのセルの
掛け算を計算しましょう。
6. セルK20に、K2からK19の
和を計算しましょう。
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
7. セルL2からL19の
各セルに、
Iのセルの2乗を
計算しましょう。
8. セルM2からM19の
各セルに、
Jのセルの2乗を
計算しましょう。
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
相関係数の計算(ステップ毎)5
7. セルL20にセルL2からL19の
和を計算しましょう。
8. セルL21にL20の平方根を
計算しましょう。
9. セルM20にセルM2からM19の
和を計算しましょう。
10. セルM21にM20の平方根を
計算しましょう。


相関係数の計算(ステップ毎)6
11. セルK20に分子が、セルL21とM21には分母が
計算できました。
最終的な相関係数をセルN22に求めましょう。
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
x1  x  y1  y     xN  x  y N  y 
x1  x 2    xN  x 2  y1  y 2     y N  y 2
相関係数の計算(Excel)
相関係数の演習
相関係数を求める関数として correl があります。
correl(y軸データ, x軸データ) として使います。


おわりに



今回は、2つのデータを扱う方法を行いました。
散布図:2つのデータを視覚的に見る
近似式:2つのデータの関係を式で近似する
相関係数:2つのデータの関係性の指標
物事の原因や因果関係を分析する際、これらのことは
重要になってきます。
Excelで式や値は簡単に出ますが、これらが「何を言っ
ているものなのか」を、きちんと理解しておきましょう。
correl 関数を使って、「データAとCについて」と「データA
とDについて」の相関係数を求めましょう。
それぞれのデータの関連性は、どうなるでしょうか?