第3章(7-12ページ)

第 3 章 データの特性値
の特性値
以下,データ を x1 , x2 ,× × ×, xn とす る . 1 中心の特
中心の特性値
1 n
å xi は 重心で あ る . n i =1
(1) 平均 : x =
〔問題〕 0, 0.5, 1, 1.5, ・・・, 99.5, 100 の平均を求めよ.
平均の性質
均の性質
(a) 各データの平均からの偏差の和は 0 である.逆に各データとの偏差の和を 0 と
する値は平均に限る.すなわち,
n
å ( x - a) = 0 Û a = x
i
i =1
(b) 各データとの偏差の 2 乗和を最小にする値は平均である.すなわち,
n
n
i =1
i =1
min å ( xi - a ) 2 = å ( xi - x ) 2
a
a + bx = a + bx
(c) 平均のウソ
均のウソ :異常値や異質なグループを含んだデータから計算される平均は,中心の指
標としては不適切な場合が多い.
〔例題 3.2〕 1973 年のカリフォルニア大学バークレー校大学院の入試では,6つの主要
専攻の男女別合格率は,それぞれ 44% と 30% であった.男女の能力に差がないとし
て,大学側は入学に関して性的差別をしているといえるだろうか.
(解)大学院への入学の合否は専攻ごとに行われる.そこで,6 つの専攻ごとに志願者数
と男女別合格率を調べたところ,次の通りであった.
全体
男
女
専攻
志願者数
志願者数 合格率(%)
志願者数 合格率(%)
A
933
825
62
108
82
B
585
560
63
25
68
C
918
325
37
593
34
D
792
417
33
375
35
E
584
191
28
393
24
F
714
373
6
341
7
計
4,526
2,691
44
1,835
30
上の 6 つの専攻のうち,A,B,D,F の 4 専攻では女性の合格率の方が高い.特に,専
攻 A では 82% にも達しており,男性の 62% をはるかに上回っている.逆に,男性の合
格率の方が高い専攻 C と E でも,その差は 4% 程度である.専攻ごとでは,女性に対す
る差別は見られない.にもかかわらず,これら 6 つの専攻全体から得られる女性の合格
7
率は 30%(合格者数は 557 名)となり,男性の合格率 44%(合格者数は 1,197 名) を
かなり下回ってしまう.
その理由は次のように説明される.A,B は他と比べで入りやすい専攻であるが,女性
の志願者は 6 大専攻全体の 7% しか志願していない.残りの 93% は,合格率が低い専攻
を志願している.それに対して,男性は入りやすい専攻 A,B に 5 割以上の学生が志願
している.下の図のように,数直線上に専攻ごとの合格率の値を目盛り,その上に志願者
数の分だけの重りがあるような図を考えれば,下から支えてバランスする点が合格率であ
り,男性の方が上回る理由もきわめて納得することができる.
1000
800
600
男 子学生
400
200
0
0
20
40
60
平均=44%
80
100
700
600
500
400
女 子学生
300
200
100
0
0
20
40
60
80
100
平均=30%
n
n
i =1
i =1
(2) 加重平均 = å wi xi , wi ³ 0, å wi = 1 (問題)例題 3.2 において,男女別合格率を,男女合わせた志願者数をウェイトに使っ
た加重平均として求めよ.
8
(解)
933 ´ 62 + 585 ´ 63 + × × × + 714 ´ 6
男:
= 39(%)
4526
933 ´ 82 + 585 ´ 68 + × × × + 714 ´ 7
女:
= 43(%)
4526
加重平均の考え方は物価や生産量などの指
指数や移
移動平均を計算する場合にも使われる.
ラス パイ レス 物価指数 =å w0i
i
2m + 1 項移動平均=
p1i
, w0i = p0i q0i
p0i
åp
q
0i 0i
i
m
1
å xt + i
2m + 1 i = - m
2m 項移動平均=
中心化 m -1
1
(xt - m + xt + m ) + 1 å xt + i
4m
2 m i = - m +1
移動平均の例:テキスト図 3-3 (48 ページ)
(3) 幾何平均=( x1 ´ x2 ´ × × × ´ xn )
1/ n
経済成長率や貯蓄の増加率など,比率に関する時系列データに対して使われる.
〔例題 3.4〕 元本 500 万円を 3 年間にわたって預金したところ,各 1 年後の預金残
高がそれぞれ 515 万円,555 万円,590 万円であった.このとき,利子率の 1 年
あたりの幾何平均(=平均複利)を求めよ.
(解)まず,預金残高の前年比として,515/500, 555/515, 590/555 が得られる.したが
って,前年比の幾何平均は
1/ 3
æ 515 555 590 ö
´
´
ç
÷
è 500 515 555 ø
1/ 3
æ 590 ö
=ç
÷
è 500 ø
= 1.05672
となるから,平均複利として 5.672% が得られる.
1 n 1
(4) 調和平均 = 1 å は 逆数の 平均の 逆数で あ る
n i =1 xi
(例)2地点間を往復したときの平均速度
9
パーシ ェ 物価指数=
1
p1i
p0i
å w1i
i
, w1i = p1i q1i
åp q
1i 1i
i
は,加重調和平均である.
算術平
算術平均 ≧ 幾何平均 ≧ 調和平均
和平均
例えば,3 つのデータ 100, 200, 300 に対しては,
算術平均
幾何平均
調和平均
200
181.7
163.6
となる.
(5)
(5) メデ
メディアン(中央
(中央値)
量的データを小さい方から順に並べたとき,中央に位置するデータの値(標本サイズが
偶数の場合には中央にある 2 つのデータの平均)
(例)データ 90,7,4,6,5,8 のメディアンは,データを並びかえて 4, 5, 6, 7, 8, 90 と
することにより,6 と 7 の中点の 6.5 となる.平均は 20 である.
順序データ
序データ :量的データを大小順に並びかえたもの.
100α
00α% 分位点 :その点以下に 100α% の順序データが存在する点(単に 100α% 点とい
いうこともある)
100α% 分位点の正確な定義 −> テキスト 51 ページ
メディアン
ディアンの性質
(a) データ数が奇数のとき,各データとの絶対偏差の和を最小にする値である.
2 m -1
2 m -1
i =1
i =1
min å xi - a =
a
åx -x
i
(m)
, x( m ) = メディアン
(b) データ数が偶数のとき,各データとの絶対偏差の和を最小にする値は,メディア
ンを含む隣り合った 2 つの順序データ間の任意の値である.
2m
2m
i =1
i =1
min å xi - a = å xi - am , ( x( m ) £ am £ x( m +1) )
a
(
c)
ax1 + b, ax2 + b, × ××, axn + b の メディアン
x1 , x2 ,× × ×, xn の メディアン)+ b
= a ´(
順序データは,分位点を求めるだけでなく度数分布表を作成する場合に有用である.さ
らに,ある種の投票に非常に効率的な方式をもたらすことができる(練習問題 6)
.
10
2 ばらつき
ばらつきの特性値
(1)
(1)範囲(
範囲(レンジ)
データの最大値と最小値の差.異常値の影響を受けやすい.データの追加に対しては単
調に増加し,除去に対しては単調に減少する.
(
2)
平均偏差=
(
3)
標準偏差=
1 n
å xi - x は ,平均か らの 絶対偏差の 平均
n i =1
1 n
(xi - x )2
å
n - 1 i =1
(問題)標準偏差は,平均偏差よりも常に大きな値となることを示せ.例えば,9
個のデータ
1, 2, 3, 4, 5, 6, 7, 8, 9
の標準偏差は 2.74,平均偏差は 20/9=2.22 となる.
データに関
ータに関するチェビ
チェビシェフの不
フの不等式
nk:
平均か らの 絶対偏差が 標準偏差の
n 個の データ の 中で ,
k 倍以上とな る データ 数とす る とき ,常に
n
1
k £ 2
n k
が 成立す る .
チェビシェフの不等式から,標準偏差の大きさは範囲のほぼ1/6程度となる.
100 点満点の試験の標準偏差 −> ほぼ 10 点から 20 点の間
大学生男子の体重の標準偏差 −> ほぼ 5 ㎏ から 10 ㎏ の間
標準偏差の
準偏差の性質
(i) 各データを一斉に a 倍して b を加えたときの標準偏差は,もとのデータの標
準偏差の │a│ 倍となる.すなわち,
sax + b = a sx
(ii) 各データから平均を差し引き,標準偏差で割ることにより得られるデータ
zi =
xi - x
(i = 1,2,× × ×, n)
sx
の平均は 0,標準偏差は 1 となる.このような変換をデータの標
標準化という.
標準化されたデータは測定単位に依存しない無名数である.チェビシェフの不等式から,
標準化されたデータは -3 と 3 の間に少なくとも 8/9 のデータが入り,範囲は 6 程度
であることがわかる.
11
標準化されたデータから,任意の平均と標準偏差をもつデータを作り出すことができる.
例えば,
偏差値=50 + 10 ´
xi - x
sx
標準化や偏差値のように,特定の平均や標準偏差をもつようにデータを変換することの
利点は,個々のデータの全体に占める位置を知ることや,異なるデータ間の比較を容易に
することにある.
〔例題 3.8〕 A 君の数学と英語の 100 点満点の成績,および,それぞれの科目の平均
と標準偏差は次の通りであった.A 君はどちらの成績の方が相対的によいか.
A 君
平均
標準偏差
数学
65
50
15
英語
72
65
10
(解)100 点満点の成績は英語の方がよいが,標準化すると,数学は (65-50)/15=1,英
語は (72-65)/10=0.7 となり,相対的には数学の成績の方がよい.なお,偏差値は,数学
が 50+10×1=60,英語が 50+10×0.7=57 となる.
統計的推測では,平均と標準偏差がわかれば,個々のデータの値がわからなくとも,特
定の値以上になる割合,例えば,偏差値については,任意の点数以上の人の割合などを求
めることが可能になる.
(4) 4) 分
散=標準偏差の 2 乗
4) 分散=標
測定単位の観点からは標準偏差の方が適切である.ただし,分散は平方根を含まない単
純な表現であるという理由から,標準偏差の代わりに使われることも多い.
(5)
(5) 変動
変動係数
標準偏差は測定単位の変換だけでなく,平均のレベルが上昇すれば一般に大きくなる傾
向がある(例えば,小学生のグループと大学生のグループの体重)
.そこで,平均のレベ
ルを考慮した無名数のばらつきとして,
変動係数=
sx
x
を定義する.
変動係数は異なるグループ間のデータのばらつきの大小を比較する場合に有用である.
例えば,1990 年 1 月から 1996 年 12 月までの TOPIX の月次データと,同じ時期の為
替レートの月次データについて,範囲,平均,標準偏差を計算して次の結果を得た.
TOPIX
為替レート
範囲
平均
標準偏差 変動係数
1551.2
1642.3
311.6
0.19
76.2
117.3
18.1
0.15
12