統計分析/統計基礎理論 第3回講義資料

今回のポイント

統計分析/
統計基礎理論
記述統計⇒「データを要約する」
 データが多い場面に利用する統計学
 得られた全体のデータの特徴を数量化すること
⇒要約することで知見を得る
第3回 記述統計(3):代表値

全体を一言(=1つの数値)で表す! ⇒代表値
 分布(データ)の中心を表す代表値
 分布(データ)の広がり(バラツキ)を表す代表値
京都大学 経営管理大学院
松井啓之
 2つの分布のバラツキ具合を比較すると
 分布の形を表す代表値


代表値とは

⇒データが集中している部分?
 分布の中心 ⇒分布の真ん中?
⇒分布の重心?
 分布(データ)の中心を表す代表値
平均値(ミーン:mean、アベレージ:average)

中央値(メジアン:median)
最頻値(モード:mode)


2
分布(distribution)の中心とは
代表値:ある集団を1つの値で特徴づける値⇒要約

代表値から何が言えるのか?
代表値を組み合わせると何が言えるか?
算術平均、幾何平均、調和平均、加重平均など
 分布(データ)の広がり(バラツキ)を表す代表値


分散と標準偏差
範囲と四分位点
 分布の形を表す代表値


歪み、尖り
2つの分布のバラツキから分かる指標
 共分散(covariance)、相関係数(correlation
coefficient)
算術平均(1)

分布の中心
3
4
(算術)平均値の長所と短所
算術平均(arithmetic mean):相和平均

長所
 すべての分布に常に存在する(必ず存在!)
 いま全体でn個のデータ:x1, x2, x3,…, xnがあるとする。
 唯一無二の平均値が得られる
この場合データの(算術)平均とは
 計算が簡単である
 全てのデータを用いる→全ての情報が詰まっている!
 意味が明確
 データの総和をデータ数で割った値。

 物理的に考えれば分布の重心=やじろべいの支点。
 例外値(外れ値、極端値)の影響を非常に受ける
 全てのデータを利用して値を求めるが、極端な外れ値や

歪んだ分布のときに代表性が弱くなる。
100人の人口、1人が100億の所得、残り0→平均1億の所得
 適切な代表値でない場合がある
 原則として、間隔尺度または比例尺度でないと計算する
意味がない。
短所

5
異なるグループが混在した場合の平均値
例えば、親と子供が混じった場合の平均年齢は全く無意味
6
1
算術平均の性質(1)

算術平均の性質(2)
算術平均はデータの1次変換を保持する

もとのデータ xi に対して、a, b を定数として1次式
i=1, 2, …, n
yi = axi+b
により xi を yi に変換(1次変換)する。このとき変換され
たデータ yi の算術平均 y は
y = ax+b
となる。すなわち、個々のデータ xi と yi の間の1次関係
が両者の算術平均 x と y の間にもそのまま成立する。

※ xi - x を偏差(deviation)と呼ぶ
(≡は「常に等しい」を表す)

⇒算術平均は偏差の平方和を最小にする値である
7
中央値(median:メジアン)/中位数
8
最頻値(mode:モード)
データを小さい方から大きい方に並べた場合の中央
(ちょうど真中)の値

⇒複数存在することも許可する。
 名義尺度でも得られる
 「流行」のことを「モード」というのと同じ語源
 順序尺度、間隔尺度、比尺度で計算できる
 長所
 例外値(外れ値、極端値)の影響を受けない
 煩雑な計算が不要
 外れ値や歪んだ分布に強い
 長所
 例外値(外れ値、極端値)の影響を受けない
 唯一無二の中央値が得られる
 煩雑な計算不要
 短所
 大量のデータの順序付けが簡単ではない
 全てのデータを用いる訳ではない
最も頻繁に現れた値
 度数分布表において最も頻度の高い値(度数が大きい)
 データ:x1, x2, x3,…, xn
 nが奇数の場合:(n+1)/2番目の値
 nが偶数の場合:n/2番目の値とn/2+1番目の値の算術平均
 短所
 最頻値が存在しない場合がある(一様分布)
 最頻値が唯一無二でない(複数)場合がある
 連続量データを扱う場合、最頻値は階級の決め方に依存する。
→データ分析主体の恣意が入る可能性
9
平均値・中央値・最頻値の例

算術平均からの偏差の平方和は、他のいかなる
一定値からの偏差の平方和より小さい
1次変換で定数項の影響を受けないことから、仮の
平均値を設定することで計算を簡単できる。
例えば、102、105、97、101、98の平均を計算する時に、仮
の平均として100を設定すれば、
仮の平均100との差は2、5、-3、1、2となる。
従って、平均:=(2+5-3+1-2)/5+100=100.6

算術平均からの偏差の和は常に0である
10
度数分布に基づく算術平均
例:平成元年3月9日から4月2日の東京の最低気温

3.2, 3.1, 5.1, 4.8, 8.3, 9.8, 8.3, 6.6, 5.1, 3.8, 5.2, 5.6, 6.5, 5.7,
5.7, 7.4, 6.2, 7.0, 6.7, 5.7, 6.2, 6.0, 8.8, 10.7, 8.5
順番に並べると、全部で25個のデータがある。
3.1, 3.2, 3.8, 4.8, 5.1, 5.1, 5.2, 5.6, 5.7, 5.7, 5.7, 6.0, 6.2, 6.2,
6.5, 6.6, 6.7, 7.0, 7.4, 8.3, 8.3, 8.5, 8.8, 9.8, 10.7
 平均値:6.4
中央値(13番目):6.2 最頻値(3個):5.7

各階級(クラス)の代表値(階級値)から平均を近似
的に求めることが出来る。
加重平均の応用
xi(i=1,…, n)のデータに対して、kクラス(k=1,…, m)の階
級値をx’k、度数をfkとすれば
データの集中しているところ
(分布の中心) 平均値
中央値
最頻値
11
12
2
特殊な平均:加重平均

特殊な平均:相乗平均/幾何平均
加重平均(weighted mean)

幾何平均(geometric mean)/相乗平均
 いま全体でn個のデータ:x1, x2, x3,…, xnがあるとする。
 観測値ごとに重みを変化させた算術平均
この場合データの幾何平均とは
 いま全体でn個のデータ:x1, x2, x3,…, xnがあるとする。
n個の重み:w1, w2, w3,…, wn とすると、加重平均とは

加重平均も、重心(=やじろべいの支点)
右表のように3種類株式を買ったとして、全投資の
現在価格
平均利回りを計算する。
普通株A
150円
投資額は、A:150円×20=3000円、同様にB:3000円、 普通株B 50円
C:4000円で合計で10000円となる。
普通株C
100円
したがって、平均利回りは投資金額の加重平均なので
10×3000/10000+20×3000/100000+18×4000/10000=16.2(%)となる
購買株数
利率
20
10%
60
20%
40
18%
13
特殊な平均:調和平均

1995年から2002年までの各年度の実質経済成長率(GDP)は、1.6, 3.5,
1.8, -1.1, 0.7, 2.4, -0.6, 1.2(%)である。8年間の平均成長率を求める。
 ヒント:初年度のGNPの値をY0とすれば、一定の成長率rの場合、n
年後は、Yn=Y0(1+r)n、またYn = Y0(1+r1)(1+r2)…(1+rn)なので、この
関係は幾何平均となっている
{(1+0.016)×(1+0.035)×(1+0.018)×(1-0.011)×(1+0.007)
×(1+0.024)×(1-0.006)×(1+0.012)}1/8
=(1.016・1.035・1.018・0.989・1.007・1.024・0.994・1.012)1/8
14
≒1.012なので 平均成長率は1.2%
データの広がりとは?
調和平均(harmonic mean)

 いま全体でn個のデータ:x1, x2, x3,…, xnがあるとする。こ
範囲
四分位範囲
分散
標準偏差
の場合データの調和平均とは

逆数の平均値の逆数、0を含むデータには使えないが、外れ値に
は強い。
ヒント:距離を L kmと考えて、所用時間を考えてみると、所要時間
=(L/a)+(L/b)時間、平均時速は、往復2L kmをその所用時間で
割ってあげれば良い。

16
四分位範囲と四分位偏差

四分位範囲
 順番に並べたデータを4つに分割して、上から
1/ 4の点と下から1/4の点の差をとったもの
四分位範囲=第3四分位-第1四分位
 外れ値や分布の歪みの影響を受けにくい

四分位偏差(quartile deviation)
 四分位範囲の半分
四分位偏差:QD=(Q3-Q1)/2
※四分位範囲=四分位偏差と定義している場合もある。
※四分位点を拡張した十分位点やパーセント点なども存在
Q1:第1四分位数(25%点)
Q2:第2四分位数=中央値(50%点)
Q3:第3四分位数(75%点)
四分位範囲
範囲
中央値(Q2)
Q3
バラツキ大
15
範囲(レンジ:range)
 最大値(xmax)と最小値(xmin)の差をとったもの
R = xmax - xmin
 外れ値の影響を受けやすい。
四分位数(quartile)/四分位点
 全体のデータを小さい順から並べた場合に、4等
分する位置の値
Q1
バラツキが小さい
バラツキが
大きい
範囲と四分位数

バラツキ小
バラツキ中
ある区間を往復するのに、行きは時速a km、帰りは時速b kmとした場
合の平均時速は?(算術平均(a + b)/2ではありません!)

データの広がり=データのバラツキの大きさ
17
Q1
中央値(Q2)
Q3
18
3
平均偏差(絶対偏差)

分散(variance)
平均値と各データの差の絶対値の総和をデータ数で
割った値
 各データxiの平均


からの隔たり(偏差)
 分布の拡がりを、中心の値から各値までの距離(隔たり)の
平均で測る
(全標本=母集団の)分散
なので、
(算術)平均と各データの差(=偏差)の二乗和を
データ数で割った値(=二乗和の平均)
データが平均からどの程度ちらばっているかを示す尺度
 平均値や範囲の異なる分布のちらばりを同じ指標で比較
可能
 全データを使う、1つの外れ値の影響は受けにくい
平均から離れた標本が多ければ分散は大きくなり(=ちら
 絶対値を使うために、統計量として、他の統計量と数学的
ばりが大きい)、平均に近い標本が多ければ分散は小さい
な関連を持たない
→標本統計量から母集団統計量を推定するのに使えない

二乗和しているため、平均との距離の影響がより強く現れる。
19
20
不偏分散(unbiased variance)
分散(2)

不偏分散(標本の分散)
 「データ数」でなく、「データ数」から1を引いた「自由度」で
割ったもの。標本データから母集団の分散を推定するとき
はこちらを用いる。

度数分布表の各階級の代表値(階級値)から分散を
近似的に求めることが出来る。
 標本統計量から母集団統計量を推定するのに使う
xi(i=1,…, n)のデータに対して、k クラス(k=1,…, m)の階級
値を x’k、度数を fk とすれば
 教科書によっては、(全標本の)分散を表す記号でsで利用
する場合もあるので、注意するように
 自由度がn-1になるのかを理解するための例

21
標準偏差(standard deviation):Std.

変数が3つx1、x2、x3があり、平均値 x が決まっているとする。x1、x2の数値
は自由に決定出来るが、x3に関してはx3=x-x1-x2で確定してしまう。つまり
自由に決定できる変数の数(=自由度)が3-1=2となる
不偏標準偏差
標準偏差:分散の平方根

不偏標準偏差は、不偏分散の平方根:s
 標準偏差はもっとも普通に使われるばらつきの指標
 通常、論文や本や新聞などで標準偏差が発表されてい
 要は、「各データの中心(=平均値)からの距離の平均」
る場合は、標本調査で得たデータ(=標本)から母集団
統計量を推定しているのが普通なので、わざわざ不偏と
書かれていなくても不偏標準偏差(s)が使われている場
合が多い。
 基本的にs>であるが、nが大きくなるにつれて、2つの
値は近づいていく
=平均的乖離幅

その対象がどの程度平均から離れているかという指標
 分散は次元が異なるので、元の次元に戻す→標準偏差

次元:要は単位の一致のこと、例えば長さであれば、単位はm
(メートル)であるが、分散の場合、単位がm2 (平方メートル)と元
の単位と異なることになる。平均の場合は、計算の結果で単位が
変わることはなく、単位はm (メートル)のままである。
22
23
24
4
変動係数(Coefficient of Variation)

標準偏差(分散)の性質(1)
相対的な分散度の指標として、標準偏差を平均で割
ることによって、実質的なデータのバラツキの大きさ
を評価する尺度

標準偏差は、データの特殊性の度合いの評価基準
 例えば、海面の水位が平均値とすると波の高さが標準偏
差であり、どのぐらい波が上下動しているかを示す。




標本標準偏差(不偏標準偏差)の場合

平均株価1000円で標準偏差10の株券Aと平均株価100円で標準偏差
10の株券Bのどちらの方がちらばり(変動)が大きかったと言えるか?
株券AのCV=0.01、株券BのCV=0.1であるので、株券Bの方が変動
が大きかったことが分かる。変動係数を用いることで、実質的なばらつ
きの大きさを比較可能になる。
※データの単位や大きさが異なっている場合も比較可能
⇒標準偏差は「リスク」の大きさの指標とみなせる
データ xi(i=1, 2,…, n)を、1次変換 axi+b (a, bは定
数)によって yi に変換するとき
y = |a| x
y2 = a2x2
となる(当然sでも成立する)
 1次変換における定数項(b)が無関係⇒全てのデータから
一定値を引いたもので計算しても結果は同じ
25
標準偏差(分散)の性質(2)

標準偏差(変動係数)によって、あるデータの特殊性を評価可能
標準偏差は、ばらつきの大きさを示すので、ばらつきの小さい方が
予測し易い、つまり、外れる危険性(=リスク)が少ない
26
平均・分散の効率的な計算方法(1)
標準化(基準化)
 平均値から標準偏差の何倍離れているか
⇒あるデータの全体のデータ内での位置
 相対的な位置の比較が可能
※標準化とは平均を0、分散を1にする一次変換

偏差値:標準変化量の1つの応用
平均を、1シグマを10に設定した標準化

x2
x12
x22
xn
xn2
合計
Σxi
Σxi2
平均
x=Σxi/n
Σxi2/n
一般的な成績分布(正規分布)の場合

偏差値~(シグマ)で約、偏差値~(シグマ)で約
27
平均・分散の効率的な計算方法(2)

x
x1
x2
1
2
:
n
28
参考:平均・分散の応用(1)
平均、分散との1次変換で定数項の影響を受けな
いことから、仮の平均値を設定することで計算を
簡単にすることができる。

チェビシェフの不等式
 平均値()と標準偏差()が分れば、どのような範囲にど
れぐらいの割合のデータが含まれているか概略が分る
標本平均を含む区間{(- k)から(+ k)}に入らない
観測値の数は、全体の1/k2 以下である。 ただし k > 1。
例えば、102、105、97、101、98の平均、分散を計算する
時に、仮の平均として100を設定すれば、
仮の平均の100との差は2、5、-3、1、2となる。
平均:=(2+5-3+1-2)/5+100=100.6
分散:2=(22+52+(-3)2+12+(-2)2)/5-(3/5)2 =206/25=8.2
標準偏差:=2.87
と効率的に計算をすることが出来る
 不等式で利用される区間を「kシグマ区間」と呼ぶ

SQRT(2)シグマ区間外れるのは、含まれるのは(50%)

2シグマ区間外れるのは、含まれるのは(75%)
3シグマ区間外れるのは、含まれるのは()

29

SQRTは平方根(√)の意味
30
5
参考:平均・分散の応用(2)
参考:平均・分散の応用(3)
※チェビシェフの不等式は、かなり安全な方向で範囲を指定
している。実際には、平均付近にデータが集中している
(≒正規分布)と考えられるので、以下のような大まかな
関係を利用しても構わない

 株の配当や利息による利益⇒インカムゲイン
 株の売買による利益⇒キャピタルゲイン(譲渡益)

x ± 2/3(中央4/3)→約1/2(50%)、x ± (中央2)→約2/3(67%)
x ± 2(中央4)→約95%、x ± 3(中央6)→約99~100%
⇒ (月次)平均収益率

チェビシェフの不等式から、
 少なくとも50%の文章が720から1280文字の長さである(k = SQRT(2)
の場合)
 少なくとも75%の文章が600から1400文字の長さである(k = 2 の場合)
 少なくとも88%の文章が400から1600文字の長さである(k = 3 の場合)
ことが導かれる。
参考:平均・分散の応用(4)
平均収益率はあくまでも「平均」の値であり、予測に
しか過ぎない。予測から外れる場合もある。
⇒予測がどの程度ばらつくのか?
 ばらつき指標=標準偏差⇒リスクの指標とみなせる
ボラティリティ(=Variability:変動性)

 リスクが同じであれば⇒収益率が高いほうを選択
ボラティリティが大きい=価格変動が大きい

「ボラティリティ」 として「標準偏差」 (リスク指標)
1981
1982
1983
1984
 ローリスク・ローリターンとハイリスク・ハイリターンは、そ
平均
月次収益率
2.05
2.46
-1.33
2.04
-0.54
0.94
SD
5.35
9.11
5.91
5.98
5.71
6.74
れぞれセットになったもので、優越はないと考えられる。
1981年の場合、平均して約2.5%の収益をもたらすが、ボラティリティとして
SDが9.11%、±1シグマ範囲(2.5-9.1%~2.5+9.1%⇒-6.6%~11.6%)に入
る確率が約67%である。つまり、-6.6%以上の損失を被る確率は約16%もあ
る(逆に、+11.6%以上の利益を得る確率も約16%ある)。これはかなり高い
33
確率で、6.5%の損失を被ることもかなりあり得ることを示している。
参考:平均・分散の応用(6)


総合的に金融商品を評価するための指標として、収
益とリスクを組み合わせた指標で表現
⇒シャープレシオ(SPM:Sharpe ratio)
34
参考:積率(モーメント:moment)
シャープレシオ
分散 偏差の二乗和平均
歪度 偏差の三乗和平均
 尖度 偏差の四乗和平均
⇒積率(モーメント)



ローリスク・ローリターンの商品とハイリスク・ハイリ
ターンの商品を比較することは可能か?
 一般に、収益率が高い製品はリスクも大きい
例:1980~84年の新日鉄株の月次収益率(%)とStd(%)
1980
株(金融商品)の総合評価はどうすれば良いのか
 収益率が同じなら⇒リスクの小さいほうを選択
いての価格変動率
年
32
参考:平均・分散の応用(5)
 資産価格の変動の激しさを表すパラメータ⇒ある銘柄につ

ある銘柄が1ヶ月の間に何パーセント値上がりしたかを年12ヶ月
にわたってデータを収集し、その平均をとったもの

31

キャピタルゲインで利益を得るためには?
 株価の売買で得られる利益が重要
例題:大量の文書があるとする。その文章の長さは平均1000
文字、 標準偏差は200文字であることがわかっている。

株で儲けるとは?
無リスク資産(例えば、国債の利回り)分を引くことで、その金融
商品の収益率を明確にする
分散の拡張概念と
して一般化可能
 x軸としてリスク(Std)(=分母がリスクの評価)、y軸として
収益(=分子がリターンの評価)の傾き(角度)
⇒角度が大きい(= SPMが大きい)程、優良な金融商品

異なるリスクやリターンの商品を統一的に比較可能
 ローリスク・ローリターンの商品とハイリスク・ハイリターン
の商品のSPMが同じ(xy平面上に点を取ると、同一直線
上に存在する)であれば、商品としての優越性はないが
性質が違うと見なすことができる

35
積率を使うと、分散、歪度、尖度が同一概念で表現可
能となる。さらに、一般的な分布の平均や分散を計算
36
する際にも必要(特にファイナンス系の人)
6