超入門 データマイニングでビッグデータ活用 NECラーニング テクノロジー研修事業部 佐藤 礼 アジェンダ ▌ビッグデータ活用の概要 ▌データマイニングとは ▌データマイニング分析手法概要 アソシエーション分析 クラスター分析 クラス分類 Page 2 © NEC Corporation 2011 ビッグデータ活用の概要 ▌ビッグデータといわれるものは・・・ 大量・大規模のデータ 構造化データ、非構造化データ 情報化社会の発展に伴い大量のデータが常に生成されるようになり IT機器の高性能化、低価格化などに伴いこれらのデータの 蓄積が可能になった →未整理・未活用の大量データが目の前に ▌データ量が多いのでデータ分析の精度向上が期待できる ▌様々なデータを利用することにより分析の切り口が広がる Page 3 © NEC Corporation 2011 従来の情報系システムの問題点 ▌データウェアハウス+ビジネスインテリジェンス(BI)ツール ▌売上データや在庫データのようなトランザクションデータを蓄積 文書データや画像データ、音声データなどは苦手 ▌BIツールは多次元分析のためのツール 過去のデータを様々な切り口で見るためのもの 高度な分析(将来の予測、ルールの抽出)には丌向き 隠れた規則性の発見や予測など高度なデータ分析が望まれている データマイニング Page 4 © NEC Corporation 2011 データマイニングとは ▌大量のデータの中から有用な情報を掘り当てるもの ▌統計学や人工知能などの高度な技術を用いてデータ分析をおこなう ▌隠れた規則性の発見や予測などBIツールでは実現できなかった高度な分 析ができる アソシエーション分析 クラスター分析 クラス分類 回帰分析 予測 テキストマイニング 他 Page 5 © NEC Corporation 2011 分析シナリオ ▌研修会社の顧客データ、受講データを用いて次の分析をおこなう 1. 一緒に申し込まれやすいコースを調べパックコースを作りたい 2. 研修のご案内冊子を送りたいが、効果が期待できる顧客層だ けに絞り込みたい 3. 新規コースのご案内状を受講しそうな人だけに送りたい Page 6 © NEC Corporation 2011 アソシエーション分析 1/3 ▌データ間の相関関係の強さを計算し意味のあるルールを抽出する分析手 法 ▌購買履歴データを分析して一緒に購入される商品を分析する「バスケット 分析」が有名 ビールと紙おむつの例 米国の大手スーパーマーケットで販売データを分析したところ、 ビールと紙おむつが一緒に購入される傾向が高いことが分かった 一緒に申し込まれやすいコースを調べパックコースを作りたい Page 7 © NEC Corporation 2011 アソシエーション分析 2/3 ▌アソシエーション分析では、「X→Y」のようなルールを抽出 X:前提部 Y:帰結部 例:ビールの購入→紙おむつの購入 ▌以下の値を計算してルールを評価 Xを満たすデータがYを満たす割合(信頼度) 全データ中にルールの登場する割合(支持度) ▌Aprioriアルゴリズムなど Page 8 © NEC Corporation 2011 アソシエーション分析 3/3 受講履歴データ DB入門、Linux基礎、NW基礎 DB入門、Linux基礎、PJマネジメント入門 DB入門、Linux基礎、TCP/IP入門 Java入門、Linux基礎 ルールの抽出 DB入門→Linux基礎 パックコースとし て設定! →信頼度:1、支持度:0.75 Linux基礎→NW基礎 →信頼度:0.25、支持度:0.25 Page 9 © NEC Corporation 2011 相関性は高 くない クラスタ分析 1/3 ▌データを互いに類似するもの同士に分類する分析手法 ▌顧客データを用いた顧客セグメント化などに利用できる ▌大きく2つに分類できる 階層的クラスター 非階層的クラスター 研修のご案内冊子を送りたいが、効果が期待できる顧客層だけに絞り込みたい Page 10 © NEC Corporation 2011 クラスタ分析 2/3 ~階層的クラスター ~ ▌類似しているデータから順番にグループ化(クラスター化)していく ▌樹形図(デンドログラム)として表される ▌最短距離法、最長距離法など ▌分析対象が多くなるほど計算量が莫大になる ここで切ると2つの クラスターになる 2番目に類似 最も類似 受講者1 Page 11 受講者2 © NEC Corporation 2011 受講者3 受講者4 受講者5 クラスタ分析 3/3 ~非階層的クラスター ~ ▌データとクラスター間の類似度を基にしてデータをクラスター化する ▌事前にクラスター数を指定する必要がある ▌k-means法など クラスターの中心との 距離(類似度)を求め 所属クラスターを決定 顧客1 中心 顧客3 顧客2 クラスター1 ご案内冊子経由で申し込み が多い顧客 Page 12 © NEC Corporation 2011 顧客4 顧客5 クラスター2 ご案内冊子以外から申し込み が多い顧客 クラス分類 1/2 ▌入力されたデータの所属するカテゴリを予測 クラス分類では「購入してくれる顧客はどのような顧客か」が抽出できる これを利用して「この顧客は購入する顧客か?」を予測 ▌教師データを用いて学習(教師付き学習)をおこなう 教師データ:入力データに対応する出力データ(所属カテゴリ) クラスター分析などは「教師なし学習」 ▌決定木、サポートベクターマシン、ベイズ分類器など 新規コースのご案内状を受講しそうな人だけに送りたい Page 13 © NEC Corporation 2011 クラス分類 2/2 ~決定木~ ▌入力に対応する出力を木構造で決定 ▌IF~THENルールに変換できる ▌CART、CHAID、ID3など IF 入社年数<5年 THEN 受講する 入社年数<5年 ELSE IF 所属部門=IT THEN 受講する ELSE 受講しない 受講する 所属部門=IT 受講する Page 14 © NEC Corporation 2011 受講しない 研修のご案内 ▌ビッグデータの分析と活用~データマイニング基礎編~ ▌コース概要:データマイニングを用いたデータ分析の概要を学習します R言語(オープンソース製品)を用いた データマイニング実習も含まれていますので、 すぐにデータマイニングが実践できます ▌開催期間:1日 ▌受講料金:45,000円(税抜き) ▌開催日:2012年7月10日(火) ▌その他詳細は下記URLよりご参照ください URL:http://www.neclearning.jp/courseoutline/courseId/DB095 Page 15 © NEC Corporation 2011 Page 16 © NEC Corporation 2011
© Copyright 2024 Paperzz