第5回 5月7日の授業内容 §2.3 データの分布 度数分布表(頻度分布表)

2002年度 統計 スライド資料
5/7/02
第5回 5月7日の授業内容
Q
§2.3 データの分布
– 度数分布表
– ヒストグラム
– 幹葉表示
Q
§2.4 分布の量的記述
– §2.4.1 分布の中心を示す代表値
5/7/02
1
§2.3 データの分布
Q
データのまとまりを理解しやすくする方法
– 度数分布表(頻度分布表)
– ヒストグラム
– 幹葉表示(stem and leaf display)
5/7/02
2
度数分布表(頻度分布表)
frequency distribution
データ(数字・記号)の羅列を表の形で整理したも
の。変数のタイプによって作成方法は異なる。
Q
質的データの場合
– 質的データはとる値(ラベル・順序など)によっ
て分類することができる。そして分類した各値
に属する個体数を数えればよい。
5/7/02
copyright (c) Y. Takeuchi
3
1
2002年度 統計 スライド資料
5/7/02
度数分布(頻度分布)(2)
Q
量的・離散データの場合
– 質的データと同様に度数分布を作成。但し、
注意すべき点は、とる値の順番に意味がある
(昇順に並べる)。また、ある値以下の数値を
とる度数もデータの記述に意味を持つ。
⇒ 累積度数、累積相対度数
4
5/7/02
度数分布(頻度分布)(3)
Q
量的・連続データの度数分布
– 連続データは実数値をとるので、離散データと
は異なり、同じ値が複数観測されることは稀。
⇒観測値を等間隔に幾つかのグループ(区間・
階級)に区切り、その区間に入る個体の数を
カウントする。
5
5/7/02
度数分布(頻度分布)(4)
Q
連続データの度数分布について
– グループ化されていることに注意。グループ化
の方法によって、見え方が変わる。
Q
区間の取り方
– 区間の個数
多すぎても少なすぎてもダメ。
Note.スタージェス(Starjes)の公式
区間数=1+3.3×log (標本数)
– 区間の始点と終点
5/7/02
copyright (c) Y. Takeuchi
6
2
2002年度 統計 スライド資料
5/7/02
ヒストグラム histogram
Q
度数分布表、相対度数分布表を棒グラフ
(bar chart)で表したもの
5/7/02
7
幹葉表示(stem and leaf display)
Q
ヒストグラムでは、区間内のデータの情報
が失われてしまう。そこで、区間内のデー
タの情報も表示できるように工夫したヒスト
グラム。
5/7/02
8
§2.4 分布の量的記述
Q
§2.4.1 分布の中心を示す代表値
– モード
– メディアン
– 算術平均
– その他
Q
§2.4.2 分布の散らばりを示す代表値
5/7/02
copyright (c) Y. Takeuchi
9
3
2002年度 統計 スライド資料
5/7/02
§2.4.1 分布の中心を示す代表値(1)
Q
モード(最頻値) mode
– 標本データの「最頻値」を示す代表値
– 連続データの場合、モードは最も頻度が高い
区間(階級)“most popular class”の区間代表
値(階級値)とする。
5/7/02
10
§2.4.1 分布の中心を示す代表値(2)
Q
メディアン(中央値) median
– 累積相対頻度が50%に達したときの値。
– 標本データを昇順に並べたときの真中の個体
値。
– 標本数が奇数のとき (n+1)/2 番目の個体
標本数が偶数のとき n/2番目とn/2+1番目
の個体の算術平均
5/7/02
11
§2.4.1 分布の中心を示す代表値(3)
Q
Note: 分位点 percentile
– 標本データを昇順に並べて、ある観測値を含め
て、それよりも小さい標本の数が全体のα%
(0≦α≦1)であるとき、その観測値をデータ分
布のα%分位点という。
– αとして、25、50、75が用いられ、それぞれ「第
1四分位点」、「メディアン」、「第3四分位点」と呼
ばれる。
5/7/02
copyright (c) Y. Takeuchi
12
4
2002年度 統計 スライド資料
5/7/02
§2.4.1 分布の中心を示す代表値(4)
Q
算術平均(または単に、平均)
(arithmetic) mean
– データの分布の重心を示す統計量
n
平均 =
∑x
i
i =1
n
xi は標本データ、nは標本数を示す。
5/7/02
copyright (c) Y. Takeuchi
13
5