SAS Enterprise Guide 保健・看護統計編

著者のことば
著者の
ことば
INTRODUCTION
エビデンスに基づいた保健・看護活動ということがいわれるようになって、大分時
間が経ちました。データの分析は、重要な役割を果たすようになりましたが、保健師、
看護師の免許が取得できる大学や専門学校において、データ解析の授業が十分に行わ
れているところは限られています。学生たちは実習や国家試験対策で忙しく、先生方
も実習指導や実習調整などに忙殺され、とてもじゃないけどデータ解析や研究指導に
時間なぞ取れないというのが実際のところだと思います。その結果、臨床や研究でデー
タ解析が必要となったときに、全くもってやり方がわからずに途方に暮れる人が多い
というのも現実ではないでしょうか。
本書は保健・看護分野の方に向けて、SAS Enterprise Guide(EG)というツールを
使い必要な分析を行うことができるようになることを目的に書きました。また、自分
がやりたい分析がどれなのか、判断できるようになるための説明も取り入れるように
しました。できるだけわかりやすく、シンプルな説明を心がけたつもりです。専門家
の目から見ると足りない部分もあるとは思いますが、分析の選択理由を聞かれたら答
えられるレベルを目指しました。
今回もオーム社、および拙稿の編集を行っていただいたトップスタジオのスタッフ
の皆様には、大変お世話になりました。いつもながら本書が形になるまでの皆様のお
仕事に、厚く御礼申し上げます。また、今回もSAS Institute Japan に協力、監修をし
ていただいております。同社の宇野林之氏をはじめ、SAS 社の皆様には大変お世話に
なりました。毎回のことではありますが、重ねて御礼申し上げます。
最後に、原稿の進まない父親に代わって、学生の提出物チェックをしてくれた長男と、
提出物を名簿順に並べてくれた次男、そして家のことをすっかり任せきりにしてしまっ
た妻に感謝の意を述べたいと思います。
2016 年 9 月
高 柳 良 太 iii
目次
目次
CONTENTS
著者のことば........................................................................................................................................... iii
第 1 章 データ解析の基本
1
1.1●データの種類..................................................................................... 1
1.1.1 質的データ 名義尺度.................................................................................................1
COLUMN 全国地方公共団体コード..................................................................................... 2
1.1.2 質的データ 順序尺度............................................................................................... 3
1.1.3 量的データ.................................................................................................................... 5
COLUMN 4 つの尺度......................................................................................................... 6
1.1.4 連続量・離散量........................................................................................................... 6
1.1.5 EG でのデータの設定.................................................................................................. 7
1.2●解析手法の種類................................................................................. 8
1.2.1 データの特徴を説明する 度数分析・基本統計量・グラフなど.......................... 8
1.2.2 データ間の差を表す 検定........................................................................................ 9
1.2.3 たくさんあるデータをまとめて説明する 因子分析・主成分分析など............... 9
1.2.4 データの関係を表す・あるデータを別のデータで説明する 相関・回帰........... 9
1.3●度数分析.......................................................................................... 10
1.3.1 度数分布表..................................................................................................................11
1.3.2 一元度数表の棒グラフ..............................................................................................16
1.4●基本統計量...................................................................................... 18
1.4.1 基本統計量.................................................................................................................18
COLUMN そのほかの統計値............................................................................................ 22
1.4.2 ヒストグラムと箱ひげ図...........................................................................................25
1.5●ヒストグラムとデータの分布.............................................................29
1.5.1 データの分布について..............................................................................................29
1.5.2 EG によるヒストグラムとデータの分布の実際......................................................30
1.6●グラフ..............................................................................................36
1.6.1 棒グラフ......................................................................................................................36
iv
目次
1.6.2 散布図.........................................................................................................................40
第 2 章 クロス集計と検定
45
2.1●クロス集計表...................................................................................45
2.1.1 クロス集計表(分割表)の考え方...........................................................................46
2.1.2 基本的なクロス集計表の出力内容...........................................................................47
COLUMN 列と行 表頭と表側......................................................................................... 49
2.1.3 EG で作成するクロス集計表....................................................................................50
2.2●χ 2 乗検定......................................................................................53
2.2.1 検定とは......................................................................................................................54
2.2.2 EG で行う分割表分析とχ 2 乗検定.......................................................................55
COLUMN 行列の方向とχ 2 乗検定の解釈について............................................................ 60
2.3●対応のある検定................................................................................60
2.3.1 McNemar の検定(対応のあるχ 2 乗検定)の考え方....................................... 61
2.3.2 EG で行う McNemar の検定と出力.......................................................................62
2.4●順序尺度の検定............................................................................... 67
2.4.1 順序尺度の検定の考え方.........................................................................................68
2.4.2 順序尺度の検定と出力..............................................................................................69
第 3 章 量的データの検定
73
3.1●2 群の平均値の差の検定..................................................................73
3.1.1 t 検定とは...................................................................................................................74
COLUMN 群別の基本統計量............................................................................................ 75
3.1.2 EG で行う t 検定.......................................................................................................77
COLUMN 標本抽出と母集団と推定値............................................................................... 83
3.2●対応のあるデータの差の検定...........................................................84
3.2.1 対応のある t 検定とは...............................................................................................85
COLUMN 影響を及ぼす原因と研究計画............................................................................ 86
3.2.2 EG で行う対応のある t 検定....................................................................................87
3.3●分散分析と多重比較.........................................................................92
3.3.1 分散分析とは..............................................................................................................92
COLUMN 第 1 種の過誤と第 2 種の過誤 その考え方と問題点........................................... 94
v
目次
3.3.2 分散分析と多重比較について..................................................................................94
3.3.3 EG で行う分散分析と多重比較................................................................................95
COLUMN 分散分析と多重比較の関係..............................................................................101
3.4●ノンパラメトリック検定..................................................................103
3.4.1 ノンパラメトリック検定とは...................................................................................103
3.4.2 正規性の検定...........................................................................................................104
3.4.3 EG で行うノンパラメトリック検定.........................................................................111
第 4 章 相関分析と回帰分析
117
4.1●相関分析........................................................................................ 117
4.1.1 相関係数とは............................................................................................................118
4.1.2 EG で行う相関分析.................................................................................................121
COLUMN 相関係数の検定と相関係数............................................................................. 124
4.2●偏相関係数....................................................................................129
4.2.1 偏相関係数とは........................................................................................................129
4.2.2 EG で求める偏相関係数.........................................................................................130
4.3●順位相関係数.................................................................................133
4.3.1 順位相関係数とは....................................................................................................134
4.3.2 EG で求める順位相関係数.....................................................................................135
4.4●線形回帰分析.................................................................................137
4.4.1 線形回帰分析とは....................................................................................................138
4.4.2 説明変数の選択と変数選択モデル........................................................................139
4.4.3 EG で行う線形回帰分析.........................................................................................141
COLUMN 多重共線性.................................................................................................... 143
第 5 章 主成分分析と因子分析
155
5.1●主成分分析....................................................................................155
5.1.1 主成分分析とは........................................................................................................156
5.1.2 EG で行う主成分分析.............................................................................................157
5.2●因子分析........................................................................................166
5.2.1 主成分分析と因子分析の違い................................................................................167
5.2.2 探索的因子分析について........................................................................................168
vi
目次
5.2.3 因子抽出法...............................................................................................................169
COLUMN 因子分析の方法について................................................................................. 170
5.2.4 因子軸の回転............................................................................................................171
COLUMN 直行回転と斜交回転....................................................................................... 172
5.2.5 EG で行う因子分析.................................................................................................172
第 6 章 判別分析とロジスティック回帰分析
187
6.1●判別分析........................................................................................187
6.1.1 判別分析とは............................................................................................................188
6.1.2 EG で行う判別分析の実際.....................................................................................189
COLUMN 判別分析と数量化 II 類.................................................................................... 195
6.2●ロジスティック回帰分析.................................................................196
6.2.1 ロジスティック回帰分析とは..................................................................................197
6.2.2 判別分析とロジスティック回帰分析の違い..........................................................197
6.2.3 EG で行うロジスティック回帰分析.......................................................................198
COLUMN 名義尺度の場合............................................................................................. 200
第 7 章 生存時間分析
209
7.1●生存時間分析とは......................................................................... 209
7.2●Kaplan-Meier 法とログランク検定..............................................210
7.2.1 累積生存率と Kaplan-Meier 法.............................................................................210
COLUMN 毎年 1 割減ると 6 年後の在籍率はどれくらい?................................................. 213
7.2.2 生存率の比較方法...................................................................................................215
7.2.3 EG で行う Kaplan-Meier 法とログランク検定....................................................215
7.3●比例ハザードモデル....................................................................... 222
7.3.1 ハザード比とは....................................................................................................... 222
7.3.2 EG で行う Cox の比例ハザードモデル............................................................... 223
COLUMN アルコールの量.............................................................................................. 225
vii
目次
第 8 章 リスク比とオッズ比
231
8.1●リスク比.........................................................................................231
8.1.1 リスクとリスク比......................................................................................................231
8.1.2 EG で行うリスクの算出.......................................................................................... 233
8.2●オッズ比........................................................................................ 239
8.2.1 オッズ比とは........................................................................................................... 239
8.2.2 EG で行うオッズ比の算出.....................................................................................240
COLUMN コホート研究と症例対照研究........................................................................... 245
参考文献.............................................................................................................................................247
索引......................................................................................................................................................249
サンプルファイルについて
サンプルファイルの著作権は、監修者であるSAS Institute Japan および著者に帰属します。
オーム社ホームページ:http://www.ohmsha.co.jp/
『SAS Enterprise Guide 保健・看護統計編』ページからダウンロードしてください。
※ダウンロードサービスは、止むを得ない事情により、予告なく中断・中止する場合があります。
免責事項
本書および本書のサンプルファイルの内容を適用した結果、および適用できなかった結果から生じた、あらゆ
る直接的および間接的被害に対し、監修者、著者、出版社とも一切の責任を負いませんので、ご了承ください。
また、ソフトウェアの動作・実行環境・操作についての質問には、一切お答えできません。
本書の内容は原則として、執筆時点(2016 年 9 月)のものです。その後の状況によって変更されている情報も
あり得ますのでご注意ください。
viii
1
第
1.1 データの種類
1
章
2
3
データ解析の基本
4
5
1.1
6
データの種類
7
この章では、分析で使用するデータの種類と、保健・看護の分野でよく使われる統
計解析手法の種類について説明します。
8
統計解析は、いくつもの手法があります。たくさんあってどれを使うのかがわから
ないという声をよく聞きますが、どういうデータがあって、何をしたいかという2 つの
ことがわかっていれば、解析手法は決定されます。
データは大きく分けると、質的データと量的データに分かれます。それぞれどのよ
うなデータなのか説明をします。
1.1.1 ● 質的データ 名義尺度— ————————————
質的データは、一言でいえば計算できないデータです。計算できないといっても、
全くできないのではなく、合計を出したりするぐらいしかできないデータです。
質的データをさらに分けると、名義尺度と順序尺度に分かれます。名義尺度は性別
や住んでいる都道府県、好きなアイスクリームの味など、各内容(カテゴリ)の該当数
を数えることしかできないデータです。例えば、アンケートで住んでいる都道府県を
聞いたとして、この都道府県を例に説明します。
ところで、データをコンピュータで解析するために入力する場合、文字のデータは
数字に置き換えて入力することが一般的です。なぜなら、その方が圧倒的に入力の手
間が省けるからです。例えば都道府県などのデータを入力する場合は、北海道が 1、
青森が 2という具合にカテゴリ(この場合は都道府県名)に対応した数字を決めておき
1
第 1 章 データ解析の基本
ます。ちなみに都道府県の場合は、総務省が作成している「全国地方公共団体コード」
を利用すると便利です。
「全国地方公共団体コード」は都道府県と市区町村に規則的に
番号が振られています。コードは 6 桁で、最初の 2 桁が都道府県を指します。よって、
都道府県のデータを利用したい場合はこの 2 桁を利用すると便利です。
C O LU M N
全国地方公共団体コード
全国地方公共団体コードは、6 桁の数字で成り立っています。最後の 6 桁目はデー
タの入力ミス等を防ぐための検査数字(チェックディジット)なので、実際は 5 桁の
コードです。最初の 2 桁が都道府県、3 桁目以降が市区町村の番号で、3 桁目が 1 だ
と政令指定都市、2 が政令指定都市以外の市、3 以降が町村で郡(北海道や東京の島
嶼は支庁)ごとにグループ分けされています。著者の職場がある、神奈川県川崎市を
例に説明しましょう。
140007 神奈川県
141305 神奈川県川崎市
141313 神奈川県川崎市川崎区
141321 神奈川県川崎市幸区
141330 神奈川県川崎市中原区
141348 神奈川県川崎市高津区
141356 神奈川県川崎市多摩区
141364 神奈川県川崎市宮前区
141372 神奈川県川崎市麻生区
著者の職場は、神奈川県川崎市幸区というところにあります。幸区の地方公共団体
コードは 141321 です。最初の 14 が神奈川県、次の 13 が川崎市、その次の 2 が幸区
を指しています。最後の 1 は検査数字です。6 桁目の検査数字を抜いた 5 桁で見てみ
ると、川崎区が 14131、幸区が 14132、中原区が 14133 と連番になっていることが
わかります。ちなみに 3 から 5 桁目を 000 にすると都道府県、政令市の場合 5 桁目
を 0 にすると政令市全体を指すことになるので、14000 は神奈川県、14130 は川崎市
ということになります(神奈川県は本書執筆時で政令指定市が 3 つあり、141003 が
2
1.1 データの種類
1
横浜市、141500 が相模原市です)。
全国地方公共団体コードは、総務省の Web サイトにあり、
仕様等も説明があります。
2
Web の検索エンジンで「総務省 全国地方公共団体コード」と検索すればヒットし
ます。便利なのでアンケート調査などの際に利用するとよいでしょう。
3
4
全国地方公共団体コードでは、埼玉県が 11、千葉県が 12、東京都が 13、神奈川県
が 14となっています。アンケートで住んでいる都道府県を聞いて、それをコードで入
5
力したとします。例えば、上記の 4 都県の人が 1 人ずついたとすると、以下のようなデー
タになります。
6
7
都道府県
11
12
8
13
14
この都道府県のコードデータは、文字を数字に置き換えただけなので、数字そのも
のに意味がありません。したがって、
数字同士の計算をしても無意味です。先ほどのデー
タを合計すると50 になりますが、その値に意味はありません。
このように名義尺度は、見た目が数字でも計算をする意味がないデータです。その
代わり、その数字がいくつあるかという度数を数えて集計を行います。アンケートの
ような調査データでは、このような名義尺度はよく使用されます。
1.1.2 ●質的データ 順序尺度— ————————————
質的データには、順序尺度というものもあります。順序尺度は、名義尺度よりは計
算ができますが、後述する量的データほど計算ができるわけではありません。ただ、
性質的には量的データに似ています。と書くと難しく感じますが、それほど難しくは
ありません。
順序尺度は、その名の通り順番を表しているデータです。名義尺度は順番は表して
いません。表記上大小がありますが、そこに意味はありません。先ほどの例では、都
道府県名に地方公共団体コードを利用したので埼玉が 11、千葉が 12といった数字が
割り当てられていますが、独自のコードを設定して、神奈川を1、東京を 2、埼玉を 3、
3
第 1 章 データ解析の基本
千葉を 4 などとしても、使用する人がわかっていて間違えなければ全く問題はありま
せん。コードを振る順に何か意味があるわけではないからです。
順序尺度はそういうわけにはいきません。順序尺度は順位尺度とも呼ばれますが、
大きい順か小さい順になっています。そうでなければ順序尺度ではありません。
アンケートなどの調査では、この順序尺度はよく使われます。以下のような調査を、
どこかで見たことがあるでしょう。
あなたの昨晩の睡眠状況をどのように感じていますか。
1 とてもよく眠れた
2 よく眠れた
3 どちらともいえない
4 あまり眠れなかった
5 眠れなかった
この場合、数字が大きくなるほど眠れていないことになります。このようなデータ
が順序尺度です。後述する量的データとの違いは、数字の間隔が等間隔であるかどう
かの保証がないことです。つまり「1.とてもよく眠れた」と「2.よく眠れた」の間と「2.よ
く眠れた」と「3.どちらともいえない」の間が同じであるという保証がないからです。
このような調査項目は感覚的なものなので、一応だいたい同じくらいの間隔だろうな
ということで決めても、厳密に等間隔である保証がありません。順序尺度と量的デー
タの違いはそこです。
数値のデータでも、順序化すると同じことになります。例えば試験の成績で得点の
順位を出した場合で説明しましょう。
1 位 98 点
2 位 86 点
3 位 85 点
4 位 84 点
このようなテスト得点だった場合、1 位はダントツですが、2 位以下は1 点しか違い
ません。しかし、順位だけでいえば全部 1 つの違いです。順序尺度はその順番に意味
があっても、等間隔の保証がないので計算の扱いが難しいデータということになりま
す。
4
1.1 データの種類
1.1.3 ●量的データ— —————————————————
1
量的データは、簡単にいえば数値のデータです。データで平均値などを計算するこ
2
とに意味があります。量的データは、厳密に分けると間隔尺度と比例尺度の 2 種類が
あります。間隔尺度はデータに順序性があり、さらに間隔が等しいものです。等間隔
3
であることで、データ間の差に意味があります。先ほどの順序尺度にさらにデータが
等間隔であることが加わったものです。比例尺度は、
データが等間隔であることに加え、
4
原点があることで比率が求められます。
このように説明するとよくわからないといわれますが、時刻と時間で考えてみてく
5
ださい。時刻は何時何分という時(とき)を表すもの、時間は時の経過を表すものです。
例えば、午後 1 時と午後 2 時の間は1 時間です。午後 2 時と午後 3 時の間も1 時間です。
6
その差である1 時間はどちらも同じです。これは時刻が間隔尺度だからです。もし、1
7
時と2 時の間と、2 時と3 時の間が等間隔であることが保証されていなかったら、世の
中が訳のわからないことになってしまいます。
しかし、
2 時は1 時の 2 倍ではありません。
8
3 時も1 時の 3 倍だったり2 時の1.5 倍ではありません。しかし、1 時から 3 時までの 2
時間は、1 時から 2 時までの1 時間の 2 倍です。3 時から 6 時までの 3 時間も、1 時から
2 時までの1 時間の 3 倍です。時刻は原点がありませんが、時間は開始時点から過ぎた
時の長さなので、ある部分が他の部分の何倍になっているか比率を計算することがで
きます。これが間隔尺度と比例尺度の違いです。
比例尺度の方が統計解析でできることが多いことになっているのですが、区別して
考えることはほとんどありません。また、順序尺度を間隔尺度と見なして量的データ
扱いとすることも、特にアンケート調査などではよく行われます。時としてこれらの区
別が曖昧になることがありますが、名義尺度、順序尺度と量的データの区別は、統計
解析の手法選択に関わる部分なので、よく知っておいてください。
5
第 1 章 データ解析の基本
C O LU M N
4つの尺度
ここで説明した、名義、順序、間隔、比例の 4 つの尺度は、アメリカのスタン
レー・スティーヴンズという心理学者が 1946 年に雑誌『サイエンス』に投稿した
論文「測定の尺度の理論について」に登場したのが最初といわれています(On the
Theory of Scales of Measurement Stanley Smith Stevens Science, New Series,
Vol.103,No.2684 1946, pp. 677-680)。スティーヴンズはこの論文の中で、データの測
定とは「一定の規則によって対象や事象に数を割り当てること」と定義し、先ほど
の 4 つの尺度を定義しました。そして、
「異なる規則のもとで数が割り当てられれば、
異なる種類の尺度と測定が導かれる」という考えを示しました。この考え方は心理学
をはじめ、測定、調査を行う分野で広く浸透していますが、論文が公表されてから
70 年ほどしか経っていません。科学の歴史からすると、以外と「最近」のこととい
えるかもしれません。
1.1.4 ●連続量・離散量— ———————————————
スティーヴンズの 4 つの尺度とは別に、連続量と離散量というデータの考え方があ
ります。簡単にいえば、連続量は値が切れ目なく連続しているもの、離散量は値が飛
び飛びになっているものです。例えば身長は、179.7 のようにセンチメートルの場合
は通常小数点第 1 位までの表記であることが多いですが、高性能の測定装置を使えば
179.712458……のようにもっと細かく測定することができます。実際にはそこまで細
かくしても意味がないので、実用上差し支えない範囲で止めています。一方の離散量
は例えばきょうだいの数のように、基本的に小数点の値を取らないものです。
連続量は量的データですが、離散量は順位のように順序尺度であることも、人数の
ように比例尺度であることもあるので、連続量は量的データ、離散量は質的データと
いう単純な分類にはなりません。スティーヴンズの 4 尺度とは別種の分け方と思ってく
ださい。なお、品質管理の分野などでは連続量を計量データ(測定データ)
、離散量を
計数データなどと呼ぶこともあります。
統計解析では、基本的には質的データか量的データかで区別しますが、量的でも離
散量の場合は質的データ向けの手法を使うこともあるので、若干分類が曖昧になるこ
とがあります。
6
1.1 データの種類
1.1.5 ●EG でのデータの設定——————————————
1
ここまで、データの種類について説明をしてきました。では、実際に EG で解析を行
2
いたい場合、データの指定をどのようにするかですが、実際はあまり細かな指定はあ
りません。EG では変数の指定は、
「文字」と「数値」の 2 種類しかありません。
3
4
5
6
図 1.1 変数のプロパティ 種類が「文字」
7
8
図 1.2 変数のプロパティ 種類が「数値」
グループのプルダウンメニューを出している状態
種類が「文字」の場合は、
グループも「文字」しかありません。種類が「数値」の場合、
グループは「数値」
「日付」
「時間」
「通貨」の 4 種類になります。グループは表示型の違
いでもあります。しかし、実際には種類を「数値」にしてグループも「数値」であるこ
とがほとんどだと思います。
種類を「文字」にすると、文字データの入力ができます。ただ、文字データを直接
入力することは稀です。識別番号等でアルファベットが混じっている場合などが該当
すると思いますが、よほどの理由がない限り、数値でデータを入力した方が楽なので、
種類は「数値」にするのが一般的といえます。
では、名義尺度の場合どうするのかというと、単純に数字で入力します。前述のよ
うに都道府県名のデータなら、都道府県名を直接文字で入力するのでなく、自治体コー
ドなどを利用して数字で入力します。何しろその方が入力速度が速いことは間違いあ
りません。ただし、01のように 0 で始まる数字を入力したい場合は、データの種類を
7
第 1 章 データ解析の基本
文字にしないと入力ができません。
EG に限らず、ほとんどの統計解析ソフトにいえることですが、データは基本的に数
値で入力します。名義尺度であっても数値です。そして、分析者がどのようなデータ
なのかを把握していることにより、その変数を名義尺度として使用するか、量的デー
タとして使用するかが決定されます。
さんざん説明したあげくこれなのか、と思われる方もいらっしゃるかと思いますが、
コンピュータでデータを扱う場合は、名義尺度でも数値のデータとして入力し、1 が何
で、2 が何を意味するということを分析者側が把握しておく方が、データの管理が現実
的です。
なお、Excel 等の他のアプリケーションからデータを EG にインポートした場合、セ
ルに文字があれば EG でも種類は文字になります。特に指定がなく、数値データしか入
力されていなければ数値ですが、Excel 側で時刻型、日付型、通貨型の指定をしてい
ると、種類は数値で対応するグループになります。
1.2
解析手法の種類
統計解析は目的に応じて手法が分かれるのですが、大きく分けると以下の種類があ
ります。
■■
■■
■■
■■
デ
ータの特徴を説明する
デ
ータ間の差(違い)を表す
た
くさんあるデータをまとめて説明する
デ
ータの関係を表す・あるデータを別のデータで説明する
この分類は著者の独自の考え方なので、スティーヴンズの 4 尺度のように権威があ
る分類ではありませんが、ほとんどの統計解析はこの分類で説明ができます。以下で
順番に説明をしていきます。
1.2.1 ●データの特徴を説明する 度数分析・基本統計量・
グラフなど— —————————————————
統計解析の大きな役割に、たくさんあるデータの特徴を説明するというものがあり
ます。もちろん個々のデータも大切ですが、たくさんデータがあるときには個々のデー
8
1.2 解析手法の種類
タを1 つ1 つ見ていくのは大変です。例えば糖尿病の患者が入院する病棟で、入院時
1
と退院時の血糖値について調べたというときに、一人一人の患者についてデータを見
2
ていくのではなく、入院時の平均はどれくらい、退院時はどれくらいというように、平
均値という1 つの値で説明をした方が話がわかりやすくなります。
3
このようなたくさんあるデータの特徴を説明するという役割の解析手法は、度数分
析、
基本統計量と呼ばれる手法やグラフです。
この章の後の節で、
度数分析、
基本統計量、
4
グラフと順番に説明します。
5
1.2.2 ●データ間の差を表す 検定— ——————————
6
2 つのグループ(群)
、またはそれ以上の群でデータに違い(差)があるかどうかを知
りたい場合、検定という手法を使います。検定は正確には統計的仮説検定といいます。
7
検定にはデータの種類や群の数などに応じていろいろな種類があります。本書では第
2 章で質的なデータの検定、第 3 章で量的なデータの検定について説明します。
8
1.2.3 ●たくさんあるデータをまとめて説明する 因子分析・
主成分分析など— ———————————————
たくさんあるデータをまとめて説明する解析は、
多変量解析と呼ばれます。変量とは、
性別や拡張期血圧、収縮期血圧、心拍数など分析に使うデータの種類のことです。通
常は変数と呼びますが、多変量解析だけは変量という名前を使っています。たくさん
の種類のデータを使って、そのデータをまとめたり、新たな変数を作ったりする分析
です。
多変量解析にはいろいろな種類の分析がありますが、本書では第 5 章で保健・看護
系でよく使われる因子分析と主成分分析について説明します。
1.2.4 ●データの関係を表す・あるデータを別のデータで説
明する 相関・回帰— —————————————
変数間に関連性があるかどうかを調べるには、相関分析と呼ばれる手法を使います。
また、関連があるならある変数を別の複数の変数で説明できるかどうかを調べるのが
回帰分析という手法です。相関と回帰分析については、本書では第 4 章で説明します。
また、回帰分析にはいくつか手法があります。本書では保健・看護でよく使われる回
9
第 1 章 データ解析の基本
帰系の分析について、
「第 6 章 判別分析とロジスティック回帰分析」と「第 7 章 生存
時間分析」で説明します。
1.3
度数分析
これ以降の節では、
「1.2.1 データの特徴を説明する」で触れた各分析について、順
番に説明します。なお、説明用に以下のデータを使用します。とある病院で入院患者
に対して調査を行ったという設定です。
表 1.1 サンプルデータ(最初の 10 個のみ抜粋)
No
Sex
Age
Ward
times
Stay
Stress
Identity
1
81
4
5
1
10
20
2
2
16
3
1
5
17
80
57
3
1
55
6
2
4
17
44
68
4
2
74
5
1
5
22
29
70
5
2
66
5
1
4
12
84
71
6
2
20
2
1
4
46
61
47
7
2
90
3
6
1
21
70
84
8
2
70
5
6
2
40
18
61
9
2
29
2
3
5
43
53
59
10
1
77
2
3
3
22
38
72
各変数は以下のように設定してあります。
表 1.2 サンプルデータの変数設定
変数名
10
Reason
1
意味
No
番号
Sex
性別
Age
年齢
Ward
病棟
times
入院回数
Reason
入院理由
Stay
調査時の入院日数
Stress
ストレス尺度の得点
Identity
アイデンティティ尺度の得点
69
1.3 度数分析
この節では、度数分析について説明します。変数の各カテゴリがいくつあるかを数
えたものを度数といいます。質的データの場合は、データの特徴を把握するために度
数分析を行うことが基本となります。量的データでも、離散量の場合は度数分析でデー
タの分布状況を把握してから、次の節で説明する基本統計量を算出します。
度数分析に明確な定義はないのですが、度数分布表や棒グラフを作成することが一
般的です。
1
2
3
4
5
6
7
8
図 1.3 度数分析の例 度数分布表と棒グラフ
図の上が度数分布表、下が棒グラフです。
1.3.1 ●度数分布表— —————————————————
前述のように、質的データや離散量の変数で、各回答(カテゴリ)がどれくらいある
かを数えたものを度数といいます。度数は、以下のような度数分布表を使って表示す
ることが一般的です。
11
第 1 章 データ解析の基本
図 1.4 度数分布表 変数 times(入院回数)
これは、
EG で作成した変数
「times
(入院回数)
」
の度数分布表です。一番左の times は、
変数「times」のカテゴリを示しています。つまり、上から「入院回数が 1回」
「入院回
数が 2 回」となっていて、最後の 7 は「入院回数は 7 回」ということになります。その
隣からが、度数分布表の集計内容です。各集計内容は、以下のような意味があります。
■■
度数
変数の各カテゴリについて、それぞれいくつあるか集計したものです。
■■
パーセント
度数の合計を100とした場合のパーセンテージです。
■■
累積度数
度数表の上から順に、それぞれの度数を足していったものです。一番下の値は、全
度数の合計になります。
■■
累積パーセント
累積度数のパーセンテージです。一番下が 100%になります。
EG で度数分布表を作成するには、
「タスク」メニューの「記述統計」にある「一元度
数表」から行います。
図 1.5 「タスク」メニューの「記述統計」にある「一元度数表」
12
1.3 度数分析
「記述統計」にある「一元度数表」をクリックすると、分析する変数を選択する画面
(
「データ」ペイン)になります。
1
2
3
4
5
6
図 1.6 「一元度数表」ダイアログの「データ」ペイン
「データ」ペインで統計量を出力する変数を、
「タスクの役割」の「分析変数」に指定
7
8
します。図 1.7 は「分析変数」に「times」を指定したものです。左側の「変数リスト」
から「タスクの役割」の「分析変数」に「times」をドラッグすることで、
「分析変数」の
指定を行うことができます。
図 1.7 「一元度数表」ダイアログの「データ」ペイン 「タスクの役割」の「分析変数」に「times」が指定
されている
13
第 1 章 データ解析の基本
次に「統計量」ペインで、統計量の指定を確認します。
「統計量」ペインの「度数分布
表のオプション」で、度数分布表の出力指定を行います。
図 1.8 「一元度数表」ダイアログの「統計量」ペイン
デフォルトでは、図 1.8 のように「表示する項目」が「累積度数と累積パーセント」
になっています。この「表示する項目」は以下のようになっています。
■■
累積度数と累積パーセント:
「度数」
「パーセント」
「累積度数」
「累積パーセント」の
4 つを表示(デフォルト)
■■
■■
■■
度数と累積度数:
「度数」
「累積度数」を表示
度数とパーセント:
「度数」
「パーセント」を表示
度数のみ:
「度数」のみ表示
どの設定でも、
「度数」
は必ず表示されます。
「累積度数」
だけの表示指定はありません。
times は「入院回数」のため、量的データですが離散量なので、カテゴリごとの度数
を算出することに意味があります。少し極端な考え方をすると、1 が「入院回数 1 回」
、
2 が「入院回数 2 回」という入院回数を表す順序尺度(質的データ)といってもよいでしょ
う。いずれにしろデータに順序性があるので、累積度数と累積パーセントに意味があ
ります。そのため、ここはデフォルトのままで下にある「実行」をクリックすれば以下
の度数分布表が出力されます。
14
1.3 度数分析
1
2
3
図 1.9 度数分布表 変数 times(入院回数)
※図 1.4 再掲
累積パーセントを見ると、入院 2 回までの人が 55%、入院 3 回までの人が 74%となっ
ています。過半数の人は入院 1、2 回で、3 回までの人が 7 割越えということがわかり
ます。
ところで、今回のデータ例には「Ward」
(病棟)という変数があります。これは入院
している病棟のデータです。この病院の病棟は建物の 5 ~ 7 階となっていて、東病棟
と西病棟があります。変数「Ward」の各カテゴリは、以下のような意味となります。
4
5
6
7
8
1 5F 東
2 5F 西
3 6F 東
4 6F 西
5 7F 東
6 7F 西
このように、変数「Ward」は名義尺度です。名義尺度で累積度数や累積パーセント
を出力すると、どのようになるでしょうか。
図 1.10 度数分布表 変数 Ward(病棟)
図 1.10 は、図 1.9 の「times」のときと同じように、累積度数と累積パーセントを出
力した場合です。しかし、データに順序性がないので、累積することに意味がありま
せん。5F 東と西の人が 31%とわかったところで、何か意味があるわけでもなさそうで
15
第 1 章 データ解析の基本
す。このような名義尺度の場合は、累積度数と累積パーセントを出しても意味がない
ので、出力の指定を以下のように変更します。
図 1.11 「一元度数表」ダイアログの「統計量」ペイン 「表示する項目」が「度数とパーセント」になって
いる
名義尺度のようにカテゴリの累積に意味がない場合は、
「統計量」ペインの「度数分
布表のオプション」の「表示する項目」を「度数とパーセント」に変更します。変更し
た場合の出力は、以下のようになります。
図 1.12 度数分布表 変数 Ward(病棟)
度数とパーセントのみ
基本的に名義尺度にカテゴリの累積は意味がないので、図 1.12 のように度数とパー
セントのみの出力にします。なお、
今回は度数とパーセントが同じ値になっていますが、
それは今回がたまたま100 件のデータだからです。
1.3.2 ●一元度数表の棒グラフ— ————————————
EG の「タスク」メニューの「記述統計」から表示した「一元度数表」ダイアログでは、
度数分布表の出力と同時に棒グラフの出力を選択することができます。棒グラフ自体
16
1.3 度数分析
はこの後の「1.6 グラフ」の中でグラフメニューからの棒グラフ作成について説明し
ますが、度数分析メニューでもやや簡易な見栄えですが同時に出力ができます。
「一元度数表」ダイアログでは、棒グラフの出力は「グラフ」ペインで行います。
1
2
3
4
5
6
7
図 1.13 「一元度数表」ダイアログの「グラフ」ペイン 「縦方向」にチェックの付いた状態
8
「一元度数表」ダイアログで、度数分布表と同時に出力される棒グラフには、横棒グ
ラフと縦棒グラフの 2 種類があります。どちらのグラフでも、軸方向が変わるだけなの
で、グラフ自体の意味は変わりません。ここでは「縦方向」をチェックしています。
図 1.14 「times」の縦棒グラフ
17
第 1 章 データ解析の基本
出力される棒グラフは、図 1.14 のようになります。棒グラフは、度数を算出できる
質的データや離散量の量的データに対して、度数を把握するために使用されます。EG
の一元度数表で作成される棒グラフは、グラフの色を変更するといった指定はできま
せんが、度数を把握するという棒グラフ本来の目的においては全く問題がありません。
なお、EG のグラフメニューで作成するグラフについてはこの後の1.6 節で詳細を説明
しますが、そちらでは色の変更など細かな見栄えの調整ができます。
1.4
基本統計量
質的データ、特に名義尺度においては、データの状況を把握するための分析は、基
本的に度数集計と棒グラフです。しかし量的データの場合は、基本統計量と呼ばれる
各種の統計値を出力することで、データの傾向を把握することができます。基本統計
量は、EG のメニューでは「要約統計量」という名前になっています。基本統計量や要
約統計量には特に定義があるわけではなく、データの分布状態や傾向などをつかむた
めに算出するいくつかの統計値がまとめてこう呼ばれています。
図 1.15 基本統計量(EG の要約統計量)の出力例
なお、基本統計量の算出を行うのは、原則的には量的データですが、順序尺度の場
合は間隔尺度や離散量と見なして基本統計量を算出することもあります。この節でも、
「1.3 度数分析」と同じデータで説明を行います。
1.4.1 ●基本統計量— —————————————————
EG で基本統計量を算出するには、
「タスク」メニューの「記述統計」にある「要約統
計量」をクリックして実施します。
18
1.4 基本統計量
1
2
図 1.16 「タスク」メニューの「記述統計」にある「要約統計量」
「記述統計」にある「要約統計量」をクリックすると、分析する変数を選択する画面
(
「データ」ペイン)になります。
3
4
5
6
7
8
図 1.17 「要約統計量」ダイアログの「データ」ペイン
「データ」ペインで統計量を出力する変数を、
「タスクの役割」の「分析変数」に指定
します。ここでは、年齢の変数「Age」を指定してみます。
図 1.18 「要約統計量」ダイアログの「データ」ペイン 「タスクの役割」の「分析変数」に■
「Age」が指定されている
19
第 1 章 データ解析の基本
このまま「実行」をクリックすると、以下のような出力になります。
図 1.19 「要約統計量」の出力 変数指定以外はデフォルトの状態
図 1.19 がデフォルトで出力される EG の要約統計量です。出力される統計値は、左
から順に以下の通りです。
■■
■■
平均:変数内の値をすべて足した合計をデータ数
(観測数)で割ったものです。
標準偏差:各値から平均値を引いた値を
2 乗し合計したもの(偏差平方和)をデータ
数−1で割り(分散)
、その平方根(ルート)を求めたものです。仮に 2 つのグループ
(群)で測定したデータで、平均値が同じであっても標準偏差が違った場合は、標準
偏差の小さい群の方が各データが平均値に近いものが多く、標準偏差が大きい群は
平均値から離れているデータが多いと考えることができます。
■■
■■
■■
最小値:一番小さいデータです。
最大値:一番大きいデータです。
N(オブザベーションの数)
:データの件数のことで、観測数ともいいます。EG では
「オブザベーションの数」と表記されます。
デフォルトで出力される統計値は以上ですが、これだけでは少し足りない場合があ
ります。そのような場合は、少し指定を変更します。
図 1.20 「要約統計量」の出力 指定変更後
図 1.20 は「要約統計量」ダイアログの「統計量 > 基本」ペインと「統計量 > パーセ
ント点」ペインの 2 カ所で指定を変更したものです。
20
1.4 基本統計量
1
2
3
4
5
図 1.21 「要約統計量」ダイアログの「統計量 > 基本」ペイン 「小数点以下の桁数」を 2 に変更
「要約統計量」ダイアログの「統計量 > 基本」ペインでは、統計値の指定のほかに出
力の指定もできます。図 1.20 の場合、ここで統計値は追加していません。その代わり、
「小数点以下の桁数」がデフォルトで「最適な幅」となっているのを「2」にしています。
今回の分析変数は年齢(
「Age」
)で、整数のデータです。そのため、小数点以下の桁数
6
7
8
は1 でもよいのですが、余裕をみて 2 にしてあります。年齢なのであまり細かい値が出
ても意味がありません。
図 1.22 「要約統計量」ダイアログの「統計量 > パーセント点」ペイン 「パーセント点の統計量」の■
「中央値(50%点)
」をチェック
統計量は、
「統計量 > パーセント点」ペインの「パーセント点の統計量」で「中央値
(50%点)
」が出力されるようにチェックをしています。中央値は、文字通り真ん中の
21
第 1 章 データ解析の基本
値です。データを昇順(大きい順)にした場合の真ん中の値です。データ数が偶数の場
合は、真ん中 2 つのデータを足して 2 で割ったものとなります。
基本統計量を求める場合、著者は中央値も算出すべきと考えています。なぜなら、
平均値はデータの中央である保証がないからです。平均値はデータの合計をデータ数
で割っています。つまり重心です。シーソーやヤジロベエなら釣り合う点です。した
がって、平均値は極端に大きい、または小さいデータがある場合はその影響を受けます。
平均値より小さい、または大きいデータが、データ全体の半分である保証はありません。
場合によっては平均値以下や平均値以上のデータ数が多数である可能性があります。
一方で中央値はデータを順番に並べた場合の真ん中です。中央値より小さいデータ
も、大きいデータも半々になるはずです。平均値と中央値を比べたときに、あまり違い
がなければ平均値はほぼ真ん中にあると考えられます。そのような場合は平均値と中
央値はほぼ同じと考えてよいでしょう。しかし、平均値と中央値にかなり差がある場合
は、データに偏りがある、つまり大小どちらかに極端なデータがあると考えられます。
そのような場合は、データの特性を表現するのに平均値が向いていないことになるの
で、後述するヒストグラムなどでデータの分布状況を確認した方がよいでしょう。
C O LU M N
そのほかの統計値
出力される統計値を追加する場合は、前述の「統計量 > 基本」ペインと「統計量 >
パーセント点」のほかに「統計量 > その他」の各ペインで指定を行います。
図 1.23 「要約統計量」ダイアログの「統計量 > 基本」ペイン
22