判別(カテゴリー予測)の為の分析

予測:判別分析とロジスティック回帰
データマイニング特論
第5回
5月 16日
第5回目
データマイニング特講
1
判別(カテゴリー予測)の為の分析
目的
„
„
複数の変数によって興味のあるカテゴリ変数の値を予測する
ある変数の、各カテゴリの判別における重要度を知る
データの特徴
„
„
„
ロジスティック回帰:基準変数(2値)←説明変数(量的/ダミー)
判別分析:基準変数(カテゴリ)←説明変数(量的/ダミー)
ニューラル、決定木:基準変数(カテゴリ)←説明変数(量的、
質的)
利点
„
予測と同時に各変数の相対的な影響力が分かる
第5回目
データマイニング特講
2
演習課題データ
(有料ニュースチャンネル契約者・非契約者の属性分析)
教育年数 性別
20
12
14
9
15
14
14
14
14
16
0
1
1
0
0
0
0
1
1
1
0: 男性
1: 女性
第5回目
年齢
テレビ
所属 子供の
チャンネル
収入
視聴時間 団体数 数
契約
35
25
64
72
33
23
60
52
37
58
1
5
2
2
2
4
1
2
5
3
0: 0人
1-7: 人
8: 8人以上
0
0
1
2
0
0
0
1
2
1
1:
2:
3:
4:
5:
6:
1
0
2
0
0
1
1
2
1
3
1万ドル未満
1-2万ドル
2-3万ドル
3-4万ドル
4-5万ドル
5万ドル以上
4
1
5
3
6
3
5
4
3
3
1
0
1
1
1
0
0
1
0
0
0:しない
1:受入
データマイニング特講
3
線形判別関数
zi = β1 x1i + β 2 x2i + " + β p x pi
係数は観測されている2群のデータを
最もよく判別するように決める
相関比を最大
Z
第5回目
データマイニング特講
4
線形判別
Z
第5回目
データマイニング特講
5
境界の設定
2群の平均値の中間点
誤判別の個数を最小にする点
事前確率の導入(各群の大きさを考慮)
第5回目
データマイニング特講
6
INSIGHTで解析
第5回目
データマイニング特講
7
誤判別率の解釈
あくまで現データにおける誤判別の割合
実際の判別における誤判別率ではない
もっと悪いであろう
実際の誤判別率を評価するためには、
別の標本を用意する
第5回目
データマイニング特講
8
線形判別における前提
2群の共分散行列が同じである
„
散らばりの大きさや相関が2群でおなじ
正規分布する
第5回目
データマイニング特講
9
共分散行列が異質の場合
線形判別関数は適切でない
2次判別関数を利用
„
„
共分散を考慮した中心(平均)からの距離が近い群
に判別する
マハラノビス距離
第5回目
データマイニング特講
10
線形判別の意味
線形判別
第5回目
2次判別
データマイニング特講
11
正準判別分析
重判別分析
正準分析
群の違いを明確にする正準変量を作る
相関比最大
第5回目
データマイニング特講
12
正準変量
群の数マイナス1個の正準変量を求めることが
できる
z ( j ) i = β ( j )1 x1i + β ( j ) 2 x2i + " + β ( j ) p x pi
係数は相関比が最大になるように決める
2番目以降の正準変量は、それまでの
正準変量と無相関で相関比が最大
第5回目
データマイニング特講
13
ロジスティック回帰分析
目的は判別分析とほぼ同じ
正応答確率などを積極的に推定したい場合な
どに便利(確率の算出において、説明変数の
分布の仮定が不必要)
正応答確率に対する(線形)モデル
第5回目
データマイニング特講
14
ロジスティック回帰分析
p(Y = 1) =
exp(β0 + β1x1 +"+ β p xp )
1+ exp(β0 + β1x1 +"+ β p xp )
p(Y = 1)
= β0 + β1x1 +"+ β p xp
log
1− p(Y = 1)
回帰係数の推定には、最尤推定法が用いられる
第5回目
データマイニング特講
15
ロジスティック回帰分析
モデルの適合度の比較
„
尤度比検定
回帰係数の検定やチェック
„
Wald 検定 ( t 検定と同じようなもの)
Š 漸近的な性質を利用
„
オッズ比により解釈が可能(exp(β))
第5回目
データマイニング特講
16
解析
目的変数 NEWSCHAN を target に設定
第5回目
17
データマイニング特講
出力の解釈
説明変数の重要度
回帰係数
オッズ比
第5回目
データマイニング特講
18
予測のよさ
予測値
実測値
誤判別
第5回目
データマイニング特講
19
変数の型の設定
ordered の変数に対しては、ダミー変数変換されている。
ordinal を interval に変更する
第5回目
データマイニング特講
20
結果の解釈 (フルモデル)
説明変数の重要度
オッズ比
回帰係数
第5回目
21
データマイニング特講
重要な変数の解釈と誤判別率
オッズ比:
1単位あたりの変化率
第5回目
データマイニング特講
22
例題2:信用度判定 (acredit)
ローンに関する信用度
„
„
„
„
„
信用度(1:良い、0: 悪い)
年代(1:若年(<25)、2:中年(25-35)、3:中高年
(>35))
アメックスカード( 0:ない、1:もっている)
支払い区分(1:週ごと・2:月毎)
社会的地位(1:管理職、2:専門職、3:事務職、4:熟
練労働者、5:非熟練労働者)
信用度を説明変数で説明する
第5回目
データマイニング特講
23
参考文献
<多変量統計解析>
山口・高橋・竹内(2004) 『よくわかる多変量解
析の基本と仕組み』秀和システム
丹後 他 『ロジスティック回帰分析―SASを利
用した統計解析の実際 』1996 朝倉書店
水田 他 『S-PLUSによるデータマイニング入
門, 』2005 森北出版
SASインスティチュートジャパン共訳『データマ
イニング手法』 1999海文堂
第5回目
データマイニング特講
24