予測:判別分析とロジスティック回帰 データマイニング特論 第5回 5月 16日 第5回目 データマイニング特講 1 判別(カテゴリー予測)の為の分析 目的 複数の変数によって興味のあるカテゴリ変数の値を予測する ある変数の、各カテゴリの判別における重要度を知る データの特徴 ロジスティック回帰:基準変数(2値)←説明変数(量的/ダミー) 判別分析:基準変数(カテゴリ)←説明変数(量的/ダミー) ニューラル、決定木:基準変数(カテゴリ)←説明変数(量的、 質的) 利点 予測と同時に各変数の相対的な影響力が分かる 第5回目 データマイニング特講 2 演習課題データ (有料ニュースチャンネル契約者・非契約者の属性分析) 教育年数 性別 20 12 14 9 15 14 14 14 14 16 0 1 1 0 0 0 0 1 1 1 0: 男性 1: 女性 第5回目 年齢 テレビ 所属 子供の チャンネル 収入 視聴時間 団体数 数 契約 35 25 64 72 33 23 60 52 37 58 1 5 2 2 2 4 1 2 5 3 0: 0人 1-7: 人 8: 8人以上 0 0 1 2 0 0 0 1 2 1 1: 2: 3: 4: 5: 6: 1 0 2 0 0 1 1 2 1 3 1万ドル未満 1-2万ドル 2-3万ドル 3-4万ドル 4-5万ドル 5万ドル以上 4 1 5 3 6 3 5 4 3 3 1 0 1 1 1 0 0 1 0 0 0:しない 1:受入 データマイニング特講 3 線形判別関数 zi = β1 x1i + β 2 x2i + " + β p x pi 係数は観測されている2群のデータを 最もよく判別するように決める 相関比を最大 Z 第5回目 データマイニング特講 4 線形判別 Z 第5回目 データマイニング特講 5 境界の設定 2群の平均値の中間点 誤判別の個数を最小にする点 事前確率の導入(各群の大きさを考慮) 第5回目 データマイニング特講 6 INSIGHTで解析 第5回目 データマイニング特講 7 誤判別率の解釈 あくまで現データにおける誤判別の割合 実際の判別における誤判別率ではない もっと悪いであろう 実際の誤判別率を評価するためには、 別の標本を用意する 第5回目 データマイニング特講 8 線形判別における前提 2群の共分散行列が同じである 散らばりの大きさや相関が2群でおなじ 正規分布する 第5回目 データマイニング特講 9 共分散行列が異質の場合 線形判別関数は適切でない 2次判別関数を利用 共分散を考慮した中心(平均)からの距離が近い群 に判別する マハラノビス距離 第5回目 データマイニング特講 10 線形判別の意味 線形判別 第5回目 2次判別 データマイニング特講 11 正準判別分析 重判別分析 正準分析 群の違いを明確にする正準変量を作る 相関比最大 第5回目 データマイニング特講 12 正準変量 群の数マイナス1個の正準変量を求めることが できる z ( j ) i = β ( j )1 x1i + β ( j ) 2 x2i + " + β ( j ) p x pi 係数は相関比が最大になるように決める 2番目以降の正準変量は、それまでの 正準変量と無相関で相関比が最大 第5回目 データマイニング特講 13 ロジスティック回帰分析 目的は判別分析とほぼ同じ 正応答確率などを積極的に推定したい場合な どに便利(確率の算出において、説明変数の 分布の仮定が不必要) 正応答確率に対する(線形)モデル 第5回目 データマイニング特講 14 ロジスティック回帰分析 p(Y = 1) = exp(β0 + β1x1 +"+ β p xp ) 1+ exp(β0 + β1x1 +"+ β p xp ) p(Y = 1) = β0 + β1x1 +"+ β p xp log 1− p(Y = 1) 回帰係数の推定には、最尤推定法が用いられる 第5回目 データマイニング特講 15 ロジスティック回帰分析 モデルの適合度の比較 尤度比検定 回帰係数の検定やチェック Wald 検定 ( t 検定と同じようなもの) 漸近的な性質を利用 オッズ比により解釈が可能(exp(β)) 第5回目 データマイニング特講 16 解析 目的変数 NEWSCHAN を target に設定 第5回目 17 データマイニング特講 出力の解釈 説明変数の重要度 回帰係数 オッズ比 第5回目 データマイニング特講 18 予測のよさ 予測値 実測値 誤判別 第5回目 データマイニング特講 19 変数の型の設定 ordered の変数に対しては、ダミー変数変換されている。 ordinal を interval に変更する 第5回目 データマイニング特講 20 結果の解釈 (フルモデル) 説明変数の重要度 オッズ比 回帰係数 第5回目 21 データマイニング特講 重要な変数の解釈と誤判別率 オッズ比: 1単位あたりの変化率 第5回目 データマイニング特講 22 例題2:信用度判定 (acredit) ローンに関する信用度 信用度(1:良い、0: 悪い) 年代(1:若年(<25)、2:中年(25-35)、3:中高年 (>35)) アメックスカード( 0:ない、1:もっている) 支払い区分(1:週ごと・2:月毎) 社会的地位(1:管理職、2:専門職、3:事務職、4:熟 練労働者、5:非熟練労働者) 信用度を説明変数で説明する 第5回目 データマイニング特講 23 参考文献 <多変量統計解析> 山口・高橋・竹内(2004) 『よくわかる多変量解 析の基本と仕組み』秀和システム 丹後 他 『ロジスティック回帰分析―SASを利 用した統計解析の実際 』1996 朝倉書店 水田 他 『S-PLUSによるデータマイニング入 門, 』2005 森北出版 SASインスティチュートジャパン共訳『データマ イニング手法』 1999海文堂 第5回目 データマイニング特講 24
© Copyright 2024 Paperzz