超入門 データマイニングでビッグデータ活用

超入門
データマイニングでビッグデータ活用
NECラーニング テクノロジー研修事業部
佐藤 礼
アジェンダ
▌ビッグデータ活用の概要
▌データマイニングとは
▌データマイニング分析手法概要
 アソシエーション分析
 クラスター分析
 クラス分類
Page 2
© NEC Corporation 2011
ビッグデータ活用の概要
▌ビッグデータといわれるものは・・・
大量・大規模のデータ
構造化データ、非構造化データ
情報化社会の発展に伴い大量のデータが常に生成されるようになり
IT機器の高性能化、低価格化などに伴いこれらのデータの
蓄積が可能になった
→未整理・未活用の大量データが目の前に
▌データ量が多いのでデータ分析の精度向上が期待できる
▌様々なデータを利用することにより分析の切り口が広がる
Page 3
© NEC Corporation 2011
従来の情報系システムの問題点
▌データウェアハウス+ビジネスインテリジェンス(BI)ツール
▌売上データや在庫データのようなトランザクションデータを蓄積
文書データや画像データ、音声データなどは苦手
▌BIツールは多次元分析のためのツール
過去のデータを様々な切り口で見るためのもの
高度な分析(将来の予測、ルールの抽出)には丌向き
隠れた規則性の発見や予測など高度なデータ分析が望まれている
データマイニング
Page 4
© NEC Corporation 2011
データマイニングとは
▌大量のデータの中から有用な情報を掘り当てるもの
▌統計学や人工知能などの高度な技術を用いてデータ分析をおこなう
▌隠れた規則性の発見や予測などBIツールでは実現できなかった高度な分
析ができる
アソシエーション分析
クラスター分析
クラス分類
回帰分析
予測
テキストマイニング 他
Page 5
© NEC Corporation 2011
分析シナリオ
▌研修会社の顧客データ、受講データを用いて次の分析をおこなう
1. 一緒に申し込まれやすいコースを調べパックコースを作りたい
2. 研修のご案内冊子を送りたいが、効果が期待できる顧客層だ
けに絞り込みたい
3. 新規コースのご案内状を受講しそうな人だけに送りたい
Page 6
© NEC Corporation 2011
アソシエーション分析 1/3
▌データ間の相関関係の強さを計算し意味のあるルールを抽出する分析手
法
▌購買履歴データを分析して一緒に購入される商品を分析する「バスケット
分析」が有名
ビールと紙おむつの例
米国の大手スーパーマーケットで販売データを分析したところ、
ビールと紙おむつが一緒に購入される傾向が高いことが分かった
一緒に申し込まれやすいコースを調べパックコースを作りたい
Page 7
© NEC Corporation 2011
アソシエーション分析 2/3
▌アソシエーション分析では、「X→Y」のようなルールを抽出
X:前提部
Y:帰結部
例:ビールの購入→紙おむつの購入
▌以下の値を計算してルールを評価
Xを満たすデータがYを満たす割合(信頼度)
全データ中にルールの登場する割合(支持度)
▌Aprioriアルゴリズムなど
Page 8
© NEC Corporation 2011
アソシエーション分析 3/3
受講履歴データ
DB入門、Linux基礎、NW基礎
DB入門、Linux基礎、PJマネジメント入門
DB入門、Linux基礎、TCP/IP入門
Java入門、Linux基礎
ルールの抽出
DB入門→Linux基礎
パックコースとし
て設定!
→信頼度:1、支持度:0.75
Linux基礎→NW基礎
→信頼度:0.25、支持度:0.25
Page 9
© NEC Corporation 2011
相関性は高
くない
クラスタ分析 1/3
▌データを互いに類似するもの同士に分類する分析手法
▌顧客データを用いた顧客セグメント化などに利用できる
▌大きく2つに分類できる
階層的クラスター
非階層的クラスター
研修のご案内冊子を送りたいが、効果が期待できる顧客層だけに絞り込みたい
Page 10
© NEC Corporation 2011
クラスタ分析 2/3 ~階層的クラスター ~
▌類似しているデータから順番にグループ化(クラスター化)していく
▌樹形図(デンドログラム)として表される
▌最短距離法、最長距離法など
▌分析対象が多くなるほど計算量が莫大になる
ここで切ると2つの
クラスターになる
2番目に類似
最も類似
受講者1
Page 11
受講者2
© NEC Corporation 2011
受講者3
受講者4
受講者5
クラスタ分析 3/3 ~非階層的クラスター ~
▌データとクラスター間の類似度を基にしてデータをクラスター化する
▌事前にクラスター数を指定する必要がある
▌k-means法など
クラスターの中心との
距離(類似度)を求め
所属クラスターを決定
顧客1
中心
顧客3
顧客2
クラスター1
ご案内冊子経由で申し込み
が多い顧客
Page 12
© NEC Corporation 2011
顧客4
顧客5
クラスター2
ご案内冊子以外から申し込み
が多い顧客
クラス分類 1/2
▌入力されたデータの所属するカテゴリを予測
クラス分類では「購入してくれる顧客はどのような顧客か」が抽出できる
これを利用して「この顧客は購入する顧客か?」を予測
▌教師データを用いて学習(教師付き学習)をおこなう
教師データ:入力データに対応する出力データ(所属カテゴリ)
クラスター分析などは「教師なし学習」
▌決定木、サポートベクターマシン、ベイズ分類器など
新規コースのご案内状を受講しそうな人だけに送りたい
Page 13
© NEC Corporation 2011
クラス分類 2/2 ~決定木~
▌入力に対応する出力を木構造で決定
▌IF~THENルールに変換できる
▌CART、CHAID、ID3など
IF 入社年数<5年 THEN 受講する
入社年数<5年
ELSE IF 所属部門=IT THEN 受講する
ELSE 受講しない
受講する
所属部門=IT
受講する
Page 14
© NEC Corporation 2011
受講しない
研修のご案内
▌ビッグデータの分析と活用~データマイニング基礎編~
▌コース概要:データマイニングを用いたデータ分析の概要を学習します
R言語(オープンソース製品)を用いた
データマイニング実習も含まれていますので、
すぐにデータマイニングが実践できます
▌開催期間:1日
▌受講料金:45,000円(税抜き)
▌開催日:2012年7月10日(火)
▌その他詳細は下記URLよりご参照ください
URL:http://www.neclearning.jp/courseoutline/courseId/DB095
Page 15
© NEC Corporation 2011
Page 16
© NEC Corporation 2011