2002年度 統計 スライド資料 5/7/02 第5回 5月7日の授業内容 Q §2.3 データの分布 – 度数分布表 – ヒストグラム – 幹葉表示 Q §2.4 分布の量的記述 – §2.4.1 分布の中心を示す代表値 5/7/02 1 §2.3 データの分布 Q データのまとまりを理解しやすくする方法 – 度数分布表(頻度分布表) – ヒストグラム – 幹葉表示(stem and leaf display) 5/7/02 2 度数分布表(頻度分布表) frequency distribution データ(数字・記号)の羅列を表の形で整理したも の。変数のタイプによって作成方法は異なる。 Q 質的データの場合 – 質的データはとる値(ラベル・順序など)によっ て分類することができる。そして分類した各値 に属する個体数を数えればよい。 5/7/02 copyright (c) Y. Takeuchi 3 1 2002年度 統計 スライド資料 5/7/02 度数分布(頻度分布)(2) Q 量的・離散データの場合 – 質的データと同様に度数分布を作成。但し、 注意すべき点は、とる値の順番に意味がある (昇順に並べる)。また、ある値以下の数値を とる度数もデータの記述に意味を持つ。 ⇒ 累積度数、累積相対度数 4 5/7/02 度数分布(頻度分布)(3) Q 量的・連続データの度数分布 – 連続データは実数値をとるので、離散データと は異なり、同じ値が複数観測されることは稀。 ⇒観測値を等間隔に幾つかのグループ(区間・ 階級)に区切り、その区間に入る個体の数を カウントする。 5 5/7/02 度数分布(頻度分布)(4) Q 連続データの度数分布について – グループ化されていることに注意。グループ化 の方法によって、見え方が変わる。 Q 区間の取り方 – 区間の個数 多すぎても少なすぎてもダメ。 Note.スタージェス(Starjes)の公式 区間数=1+3.3×log (標本数) – 区間の始点と終点 5/7/02 copyright (c) Y. Takeuchi 6 2 2002年度 統計 スライド資料 5/7/02 ヒストグラム histogram Q 度数分布表、相対度数分布表を棒グラフ (bar chart)で表したもの 5/7/02 7 幹葉表示(stem and leaf display) Q ヒストグラムでは、区間内のデータの情報 が失われてしまう。そこで、区間内のデー タの情報も表示できるように工夫したヒスト グラム。 5/7/02 8 §2.4 分布の量的記述 Q §2.4.1 分布の中心を示す代表値 – モード – メディアン – 算術平均 – その他 Q §2.4.2 分布の散らばりを示す代表値 5/7/02 copyright (c) Y. Takeuchi 9 3 2002年度 統計 スライド資料 5/7/02 §2.4.1 分布の中心を示す代表値(1) Q モード(最頻値) mode – 標本データの「最頻値」を示す代表値 – 連続データの場合、モードは最も頻度が高い 区間(階級)“most popular class”の区間代表 値(階級値)とする。 5/7/02 10 §2.4.1 分布の中心を示す代表値(2) Q メディアン(中央値) median – 累積相対頻度が50%に達したときの値。 – 標本データを昇順に並べたときの真中の個体 値。 – 標本数が奇数のとき (n+1)/2 番目の個体 標本数が偶数のとき n/2番目とn/2+1番目 の個体の算術平均 5/7/02 11 §2.4.1 分布の中心を示す代表値(3) Q Note: 分位点 percentile – 標本データを昇順に並べて、ある観測値を含め て、それよりも小さい標本の数が全体のα% (0≦α≦1)であるとき、その観測値をデータ分 布のα%分位点という。 – αとして、25、50、75が用いられ、それぞれ「第 1四分位点」、「メディアン」、「第3四分位点」と呼 ばれる。 5/7/02 copyright (c) Y. Takeuchi 12 4 2002年度 統計 スライド資料 5/7/02 §2.4.1 分布の中心を示す代表値(4) Q 算術平均(または単に、平均) (arithmetic) mean – データの分布の重心を示す統計量 n 平均 = ∑x i i =1 n xi は標本データ、nは標本数を示す。 5/7/02 copyright (c) Y. Takeuchi 13 5
© Copyright 2024 Paperzz