SAS Enterprise Miner

SAS® Enterprise Miner™
Fact Sheet
主な機能
データマイニング・プロセスを効率化して、膨大なデータから高精度な予測/記述分析モデル
を作成することができます。SAS のユーザーはこのソフトウェアを使用して、不正の発見、
リス
クの最小化、
リソース需要の予測、設備資産のダウンタイムの削減、
マーケティング・キャンペー
ン反応率の向上、顧客離反防止などに役立てています。
ビジネスメリット
最先端の予測分析およびデータマイニング、機械学習の機能を活用して、複雑なデータを分析
して有益な洞察を導き出し、確信を持って行動することで、事実にもとづく意思決定を行えるよ
うになります。
対象ユーザー
増え続ける大量のデータを分析することで、ビジネスや研究における重要課題を特定および
解決し、他の関係者が十分な情報にもとづいて意思決定を行えるように支援する業務に携わ
る人々を対象として開発されています。具体的には、
データマイニング担当者、統計専門スタッ
フ、マーケティング分析担当者、データベース・マーケティング担当者、
リスク分析担当者、不正
調査担当者、エンジニア、科学者、
ビジネス分析担当者などが含まれます。
SAS® Enterprise Miner™
高精度の分析モデルを作成し、確信に満ちた予測を実現
ほとんどの組織にとって、増え続ける大量のデー
タから有益な情報を導き出すことは大きな課題
です。重要なチャンスの発見につながる関係性
や知見は、膨大なデータの中に埋もれているこ
とが多いからです。
• どの顧客が、いつ、どのような製品を購入す
るか ?
• どの顧客が離れていこうとしているか ? また、
その顧客を引き止めるために何をしたらよ
いか ?
• 収益を確保するためには、どのような価格設
定を行うべきか ?
利点
• 直感的な方法で重要な関係性を理解し、短期間でモデルを構築
グラフィカル・ユーザー・インターフェイス(GUI)を備えているため、統計分析の担当者は、モデリ
ング・サイクルのどの時点においても情報を簡単に扱うことができます。統計分析の専門担当者と
ビジネス分析担当者の両方が、理解しやすい視覚的な方法でデータマイニング・プロセスを共有で
きるため、非常に難しい課題でも協力して解決することができます。
• 多彩なデータマイニング機能で、優れたモデルを効率的に量産
自己文書化機能を備えた対話操作型のプロセスフロー・ダイアグラム(PFD)を利用すると、モデル
作成に要する時間を短縮することができます。プロセスフロー・ダイアグラムは、最良の結果が出る
ように、データマイニング・プロセスを効率よくマッピングします。
• セルフサービス型の自動化により、容易に洞察を導き出すことが可能
SAS Rapid Predictive Modeler を併用することで、ビジネス分析担当者や各分野の専門家は、
• 故障を予知し、不要な保守作業を減らし、稼
統計の専門知識が限られていても、モデルを自動的に作成し、その結果を踏まえて素早く行動する
働時間を増やして、設備資産のパフォーマン
ことができます。分析結果は理解しやすいチャートで表示されるため、意思決定の質も向上します。
スを最適化するには、
どうすればよいか ?
激しい競争が繰り広げられる今日の市場で競争
優位を保つためには、膨大なデータから重要な
情報を引き出すことができるパワフルで高度な
分析ソリューションが不可欠です。それによって、
これまで気づかなかったパターンを発見するこ
とができ、意思決定者は具体的な行動に結びつ
く戦略を立案できるようになります。ビジネスプ
ロセスに SAS® のデータマイニング機能を取り
入れた企業は、
こうした変化の激しい市場におい
ても競争力を維持していくことができるでしょう。
• 予測精度の向上により、適切な意思決定にもとづいてベストな行動がとれるように支援
高速なモデル開発で予測の頑健性と精度を高め、その効果はモデル評価グラフや評価指標で簡単
に証明できます。また、モデルのプロファイリング機能もサポートしています。この機能では、モデ
ル化された結果に予測変数がどのように関与しているかを理解できます。
• モデル展開の容易化と、スコアリング・プロセスの高速化
SAS® Enterprise Miner™ では、新しいデータをスコアリングする際の単調なプロセスが自動化さ
れます。モデル開発のあらゆる段階で完全なスコアリング・コードを自動的に出力してくれます。こ
のスコアリング・コードは、リアルタイムまたはバッチ方式のさまざまな環境に展開できます。これ
により、時間を節約しながら正確な結果を導き出し、大きな価値につながる意思決定を下せるように
なります。
製品概要
使いやすい GUI
定番および最新のモデリング手法の
安全かつ拡張可能な方法で分析(アナリティク
使い勝手のよいドラッグ &ドロップ方式のイン
両方を活用
ス)を取り入れることができれば、あらゆる人々
の業務に役立つでしょう。しかし、確かな成果を
上げるためには組織全体の協力体制が必要であ
り、それには、多種多様なニーズに対応できる強
力な多目的のデータマイニング・ソリューション
が不可欠です。
また、ひとつの分析手法がひとつのデータ・コレ
クションに対してうまく機能するとしても、市場
や競争環境の変化に応じて新たなデータソース
を加えた場合や、新しいビジネス課題に対応しよ
うとした場合には、うまく機能しない可能性もあ
ります。そのため、幅広いモデリング手法を用意
して異なるモデルを作成し、それらのモデルを
横並びで比較することによって、どのデータマイ
ニングのアプローチが「最適」であるかを判断す
ることが重要です。限定的な機能しか備えてい
ない(例えば回帰法だけ、あるいは決定木分析だ
ターフェイスを採用しているため、分析担当者の
SAS Enterprise Miner は、統計、データマイニ
作業効率が高まります。また、データマイニング
ング、機械学習のための幅広いアルゴリズムを
を成功させるために欠かすことのできない高度
実装し、非常に高度で奥深い分析機能を提供し
な分析アルゴリズムが組まれています。SAS の
ています。決定木分析、バギングおよびブース
データマイニング・プロセスは、SEMMA と呼ば
ティング、時系列データマイニング、ニューラル・
れる 5 つのステップ(サンプリング、探索、加工、
ネットワーク、記憶ベース推論(MBR)
、階層的ク
モデリング、評価)から成り立っています。各ス
ラスタリング、線形およびロジスティック回帰分
テップでは、データマイニングのプロジェクトを
析、アソシエーション分 析、シーケンス分 析、
進める上で重 要な一 連 の 作 業を実 行します。
Web パス分析など、定番のアルゴリズムはすべ
SEMMA のメニューシステムに沿ってノード開
て含まれています。また、クレジット・スコアリン
発の作業を進めるだけで、高度な統計手法を適
グなど業種に特化したアルゴリズムも含まれて
用し、最も顕著な変数を特定し、式ビルダーを用
いるほか、勾配ブースティングや部分最小二乗法
いて変数変換、予測モデルを作成し、結果の精度
(PLS)
といった最新の分析手法も利用できます。
を評価し、最終的には予測値とともにスコア化さ
れたデータセットを生成して、業務アプリケーショ
ンに展開できるようになっています。
ビジネスユーザーが自力で、
洗練された手法による
データの準備、要約、探索
対象データの準備は、データマイニングのプロ
セスの中で最も時間のかかるところですが、欠
けしか使用できない)作業環境では、限られた結
素早く簡単にモデルを作成
果や予測的価値しかもたらさないモデルになっ
SAS Rapid Predictive Modeler では、データ
グメント化ルールの作成など各種の強力な機能
マイニング作業のワークフローに沿って、データ
を備えた、対話操作型のデータ準備ツールを利
の変換、変数の選択、さまざまな予測アルゴリズ
用できます。また、データファイルのインポート
ムの適用、モデルの評価などの各ステップが自
と追加、変数のマージと切り捨てなどを行う、基
てしまうでしょう。
SAS Enterprise Miner は分散型かつクライア
ント/サーバー型のシステムです。最適化され
たアーキテクチャが構築されるため、データマイ
ニング担当者やビジネス分析担当者は、高精度
の予測モデルや記述モデルを短時間で作成し、
分析結果を共有したり業務プロセスに適用した
りすることができます。データマイニングのプロ
セスを容易に拡張・強化できるようにするため、
SAS が提供するデータ統合、分析・予測、レポー
ティングといったテクノロジーともスムーズに連
携するように設計されています。
すべてのデータを統合し、
損値の最適な処理、異常値のフィルタリング、セ
動的に案内されるため、分析手法に詳しくない
本的なデータ準備ツールも完備しています。さ
ユーザーでも、幅広いビジネス課題について予
らに、記述統計のための広範な機能や、対話操作
測モデルを素早く作成できます。SAS Rapid
型のデータ探索ツールにより、統計分析に詳しく
Predictive Modeler は、SAS® Enterprise
Guide® または SAS Add-In for Microsoft
Office(Microsoft Excel のみに対応)のタスク
として実行され、SAS Enterprise Miner 内の
ないビジネスユーザーでも、動的にリンクした大
定義済みモデリング・ステップを使用します。ビ
量データを調査し、多次元プロットを検証できま
す。これにより、特定のビジネス課題に適した質
の高いデータマイニングを、幅広いユーザー層
が活用できるようになります。
ジネスユー ザ ーが SAS Rapid Predictive
Modeler で作成したモデルを、分析担当者が
SAS Enterprise Miner を使用してカスタマイ
ズするという形で、共同作業することも可能です。
完全なビューを提供
データマイニングが最も効果を発揮するのは、
企業内の極めて多様な情報ソースからデータを
最初の 2 つの主成分
400-300-100-2-100-300-400 Stacked Denoising
Autoencoder からの中間隠れレイヤーの出力
集めて活用することを目指す情報統合戦略の
一部として利用した場合です。SAS Enterprise
Miner を導入すると、コールセンターのログ、ア
ンケート調査の結果、フォームを通じた顧客から
のフィードバック、Web 利用状況データ、時系列
データ、取引データ、POS データなどを、業界で
最も高度なデータマイニング・パッケージを用
いて組み合わせ、分析することができます。また、
この環境に SAS Text Miner を追加すれば、構
造化データと非構造化データを組み合わせて分
析し、より正確かつ包括的な結果を得ることも可
図 1:データマイニング・プロセスの中間ステップとしてよく使われる次元削減のために実行された
能になります。
主成分分析
業務を基礎としたモデル比較、
インデータベース方式または
大規模な利用にも適した
レポーティング、管理
イン Hadoop 方式のスコアリングにより、
分散型データマイニング・システム
評価(アセスメント)機能でモデルを比較し、曲線
結果を迅速に提供
のリフトや総合的な ROI(投資対効果)に関して
新しいデータを業務環境に導入する際は、その
SAS Enterprise Miner は、シンクライアントの
Web ポータルだけで展開できるため、クライア
最も効果的なモデルを特定できます。さまざま
データにモデルを適用するためのスコアリング
ント側のメンテナンスを最小限に抑えながら、多
なアルゴリズムを活用して作ったモデルは、必要
が常に必要となります。このプロセスには手間
数のユーザーで使用することができます。ある
に応じていつでも、高度に視覚化された評価用
がかかり、特にコードの書き直しや変換を手作業
いは、スタンドアローンの PC 上に構成して使用
のインターフェイスを使って評価することがで
で行う場合は非常に面倒で、モデルの導入が遅
することも可能です。SAS Enterprise Miner
きます。データマイニングの担当者と各業務の
れたり、多額の損失を生むエラーにつながったり
は Windows サーバーと UNIX プラットフォー
エキスパートが分析結果について話し合うこと
するリスクもあります。SAS Enterprise Miner
ムに対応しており、大規模なデータマイニングの
で、コラボレーションの効果が高まり、さらに優
では、SAS プログラミング言語、C、Java、PMML
プロジェクトを実行する企業にとっても、最適な
れた結果へとつながります。また革新的なカット
でスコアリング用のコードが自動的に生成され
選択肢となります。また、モデルを組み合わせた
オフ・ノードによって事後確率を評価し、目の前
ます。完成したコードは、SAS 内のさまざまな環
パッケージを作り、SAS Metadata Server に登
のビジネス課題を解決する最善の行動が何かを
境にリアルタイムもしくはバッチで展開できるだ
録して集中管理することが可能で、SAS Model
明確化することも可能です。
けでなく、Web 上への展開や、リレーショナル・
Manager、SAS Data Integration Studio
(SAS Data Integration のコンポーネント)
、
SAS Enterprise Guide から利用できます。
オープンで拡張性の高い設計が
もたらす柔軟性
SAS Enterprise Miner はカスタマイズに対
応しており、ツールの追加や、パーソナライズ
した SAS コードの取り込みが可能です。SAS
Enterprise Miner の環境外で作られた既存の
SAS モデルも、構文の記述を完全に維持した状
態で、プロセスフロー環境に簡単に統合できま
す。拡張ノードには、学習コードやスコアリング・
コードの作成に役立つ対話型のエディタ機能が
備わっています。ユーザーは、ログや出力リスト
を見ながら、その場でコードを編集し、サブミッ
トできます。デフォルトの選択リストを、SAS の
コードや XML ロジックで書かれたカスタム開発
のツールで拡張することも可能です。これを活
データベースや Hadoop 内での直接展開も可
能です。
SAS Scoring Accelerator(Hadoop、Pivotal
Greenplum、DB2、IBM Netezza、Oracle、
Teradata、SAS Scalable Performance Data
Server で利用可能)と組み合わせれば、SAS
Enterprise Miner のモデルをデータベース固
有のスコアリング機能として発行し、データベー
ス内で直接実行することもできます。また、SAS
Enterprise Miner から得られた結果を他の
SAS ソリューションに渡すことで、データマイニ
ングの結果をリアルタイムの業務環境で活用す
ることも可能です。
グリッド対応の並列処理ワークベンチ
ハイパフォーマンス・データマイニング
SAS Enterprise Miner は、厳選されたハイ
パフォーマンス対応のデータマイニング・ノード
を完備しています。分析のデータと複雑さにも
よりますが、シングルマシン SMP モードでも
パフォーマンスの向上を実現できる可能性が
向上しています。将来的にビッグデータの高速
処 理 が 必 要になった 場 合には、SAS High -
Performance Data Mining(別途ライセンス
をご購入いただく必要がある製品です)を活用
することで、正確な予測モデルをタイムリーに開
発できます。コーディング環境がお好みのユー
ザーの方々は、ハイパフォーマンス・データマイ
用すれば、データマイニングの担当者は SAS の
Java クライアントと SAS サーバーを採用した
ニング用のプロシジャをご利用いただけます。
あらゆる機能を利用できるようになります。
アーキテクチャにより、単一ユーザー向けのシス
データマイニング・プログラムを自在にカスタマ
テムから超大規模エンタープライズ・ソリューショ
イズしていただけるように、多彩なオプションを
ンまで、
さまざまなシステムを効率的に構成でき
ご用意しています。詳細については、sas.com/
ます。堅牢なサーバーが安定したパフォーマン
jp/go/hpdatamining をご覧ください。
Open Source Integration
(オープンソース統合)ノード
R 言語で書かれたコードを SAS Enterprise
Miner のプロセスフロー・ダイアグラム(PFD)
に簡単に統合できるようになりました。これによ
り、データの変換と探索や、教師付き/教師なし
モデルの学習とスコアリングを R 言語で行うこ
とができます。その後は、結果をシームレスに統
合することや、独自の R モデルを評価して SAS
Enterprise Miner で作成したモデルと比較す
ることが可能です。
スを提供し続けるため、エンドユーザーがオフィ
スから自宅、あるいはリモートサイトに移動した
場合でも、データマイニングのプロジェクトや
サービスへのアクセスを失うことはありません。
データの並べ替えや要約、変数選択や回帰モデ
ルなど、処理負荷の高いタスクの多くはマルチ
スレッド処理に対応しており、
グリッド・コンピュー
ティングによる並行処理や負荷分散、あるいは
バッチプロセスのスケジューリングが可能です。
主な機能
直感的なインターフェイス
• プロセスフロー・ダイアグラム(PFD)を
作成するための使いやすい GUI:
• より多くの高度なモデルを、より短時
間で作成
• Web ブラウザ・インターフェイスの
提供
• SAS プログラミング環境へのアクセス
• XML ダイアグラム変換機能
• ダイアグラムをテンプレートとして別
のプロジェクトやユーザーが再利用
• データマイニングの特定のプロジェク
トやダイアグラムを直接ロード、ある
い は、最 近 使 用したプロジェクトや
ダ イアグ ラム が 含 ま れる Project
Navigator ツリーから選択
図 2:SAS Enterprise Miner の GUI では、プロセスフロー・ダイアグラム(PFD)が自己文書化型の
テンプレートとして機能。テンプレートの更新、新しい問題への適用、モデル作成者や他のアナリスト
との共有も容易
• バッチ処理
(プログラム開発インターフェイス)
:
• GUI の全機能をカプセル化
• SAS マクロがベース
• カスタマイズしたアプリケーションへ
モデル作成およびスコアリングのプロ
セスを組み込む
• 特殊な文字を含む変数名のサポート
サンプリング
• SAS Library Explorer およびライブラ
• 単純無作為
リ定義ウィザード
• テーブルのリストの高速な検索・表示や、
対話型のグラフ・コンポーネントを用い
たプロット作成など、機能が拡張された
Explorer ウィンドウ
拡張性の高い処理性能
• 変数を削除する削除ノード
• サーバーベースの処理
• データをマージするマージノード
• グリッド・コンピューティング、インデータ
• データを1つにまとめる追加ノード
ベース、インメモリの各処理オプション
をサポート
• 非同期のモデル学習
• 異常値のフィルタリング:
• さまざまな分布の閾値を適用して極
端な値を除外
• 層化抽出
• 加重
• クラスター
• 系統抽出
• 最初の N 個
• 希少事象サンプリング
• Teradata 13 での層化および事象レベ
ル・サンプリング
データのパーティション化
• 処理をクリーンに中断可能
• 発生回数が n 回未満の階級値を結合
• 学習、検証、テスト用データセットの作成
• 並列処理 – 複数のツールやダイアグラ
• 階級値と数値を対話操作でフィルタ
• 入力データを使用してモデルの良好な
ムを同時に実行
• マルチスレッド処理に対応した予測アル
ゴリズム
• 処理データはクライアントではなくすべ
てサーバーに配置
データのアクセスと管理
• 構造化/非構造化データソースへのア
クセスと統合(予測変数候補として、時系
列データ、マーケット・バスケット、Web
パス、調査データを含む)
• Microsoft Excel、カンマ区切りファイ
ル、SAS、その他の一般的なファイル形
式に簡単にアクセスできるファイルのイ
ンポートノード
リング
• 役割、水準、順序などの列メタデータを
変更できるメタデータノード
• SAS Metadata Server を通じて SAS
Data Integration Studio 、SAS
Enterprise Guide 、SAS Model
Manager、SAS Add-In for Microsoft
Office と統合:
• データマイニング用の学習テーブル
を構築
• スコアリング・コードを展開
普遍性を確保
• 分類尺度のターゲット変数の場合、デフォ
ルトではその分類尺度で層化
• 任意のクラス変数によるバランスのとれ
たパーティション化
• SAS テーブルまたはビューの出力
変換
• 単純:自然対数、常用対数、平方根、逆数、
平方、指数、標準化
• ビニング:ターゲットとの関係を明らか
にするためのバケット化、分位数、最適化
によるビニング
• 最適なべき乗:正規性の最大化、ターゲッ
トとの相関の最大化、ターゲット・レベル
とのスプレッドの同等化
• 交互作用エディタ:多項および n 次元の
交互作用を定義
• 対話操作による変換の定義:
• 式ビルダーまたは SAS コードエディ
タを用いて、独自の変換を定義
• 新しい変数の分布を元の変数と比較
• グローバル変換コードを事前定義して再
利用
記述統計
• 単変量による統計とプロット:
• 間隔変数:n、平均、中央値、最小、
最大、標準偏差、拡縮偏差
• 分位数またはバケット
• ジニ係数の選択
• 欠損値を個別のグループとして処理
• クラス分類の詳細化と統合
• ビンをターゲット別にプロファイル化
変数にまたがるクラス変数分布
• 拡縮平均偏差プロット(Scaled mean
deviation plots)
(scaled deviation)
、
欠損率(percent missing)
• クラス変数:カテゴリー数、件数、モー
ド、
モード率
(percent mode)
、
欠損率
(percent missing)
• 分布プロット
• クラス・ターゲットの各レベルへの統
計ブレイクダウン
対話操作による変数ビニング
• ターゲットおよび/またはセグメント
• 二変量による統計とプロット:
• ピアソンおよびスピアマンの順位相関
プロット
• 連続入力を n ビンにビニングするオプ
ションを伴う、順位付きのカイ二乗プ
ロット
• 変動係数プロット
グラフ/可視化
• バッチプロットと対話操作型プロット:散
布、行列、ボックス、星座、等高線、ニード
ル、格子、密度、多次元(以上プロット)
、
3-D、円、面、棒(以上グラフ)、ヒストグ
ラム
• セグメント・プロファイル・プロット:
• クラスタリングやモデリングのツー
ルで作成されたデータのセグメントを
対話操作でプロファイル化
• プロファイルとグループ間の相違を
決定付ける変数を簡単に特定
• 使いやすい Graphics Explorer ウィ
ザードと Graph Explorer ノード:
• 対話操作によるグループ変更
• 対数価値(log worth)による変数選択
• ビニング定義の保存
• タイトルと脚注の作成
• その他の対話操作型プロット:
• WHERE 句の適用
• ターゲットにとっての重要度にもとづ
ルールビルダーノード
• アドホック・データにもとづくルールお
いて入力をランク付けする変数価値
プロット
• 複数のカラースキームを選択可能
• 軸の拡大・縮小が容易
よびポリシーを作成
• 結果変数の値と結果に至るパスを対話
操作で定義
データの置換
• 中心性の計測
(Measures of centrality)
• 分布ベース
• 代理ルールを伴うツリー分析による置き
換え
• 中間ミディアム・スペーシング
(Mid-medium spacing)
• 堅牢な M 推定量
(Robust M-estimators)
• ユーザー定義の定数
• 置換エディタ:
• クラス変数に対して新しい値を指定
• 未知の値に対して置換値を割当
• 極端な区間値を対話操作で置換しき
い値に制限
図 3:変数の変換ノードで、対話型の式ビルダーを使用してカスタム変換を作成
• SAS Enterprise Miner の標準の結
果の元になっているデータを表示し、
カスタマイズされたグラフィックスを
作成
• プロットとテーブルを対話操作でリンク
させ、ブラッシングやバンディングなどの
タスクをサポート
• 簡単な操作でデータとプロットをコピー
し、別のアプリケーションに貼り付け、ま
たは BMP ファイルとして保存
• 対話操作型のグラフをノードの結果ウィ
ンドウ内に自動保存
クラスタリングと自己組織化マップ
• クラスタリング:
• 最適なクラスターをユーザー定義ま
図 4:リンク分析でノード間の関係を評価し、新たなパターンを視覚的に発見
たは自動選択
• コード化されたクラス変数ごとに戦略
を立案
• 欠損値も変換なしに取り扱い可能
• 変数セグメント・プロファイル・プロッ
トにより、各クラスター内での入力や
他の要因の分布状況を表示
• 決定木プロファイルにより、入力を使
用してクラスターのメンバーシップを
予測
• PMML によるスコアリング・コード
:
• 自己組織化マップ(SOM)
• Nadaraya-Watson またはローカル
線 形 スム ー ジング を 用 い た バッチ
• リフト、信頼度、支持度、チェーン長など
「ネクストベス
• 信頼度の加重統計により、
の指標にもとづき、対話操作でルールを
トオファー 」
(次に提 示 すべき最 良オ
サブセット化
ファー)に関する情報を提供
• ルールを他の入力とシームレスに統合す
ることで、予測モデリングを高度化
• 他の変数の分布をマップ上にオーバー
レイ
• 欠損値も変換なしに取り扱い可能
• 複数のレベルでルールを導出
• 次元入力テーブル向けに親子関係の
マッピングを指定
• アソシエーションとシーケンスの発見:
パス分析
• クリックストリーム・データから最も頻繁
• 予想信頼度と実際の信頼度を比較す
る散布プロット
• リフト、信頼度、予想信頼度、ルール支
持度にもとづく統計ラインプロット
• 与えられた対象範囲と信頼度に関す
る頻度値の統計ヒストグラム
• ルール記述テーブル
• ルールのネットワーク・プロット
• 変数選択:
• カイ二乗または R2 の選択基準にも
除去
• 変数の階層構造を除去
にナビゲートされたパスを特定する、拡
• 欠損値が多い変数を除去
張性と効率性に優れたマイニング
• レベル数が多いクラス変数を削減
連続する頻度が高いサブシーケンスを
発掘
• 連続入力をビニングして非線形の関
係を特定
• 交互作用を検出
• 最小角度回帰(LARS)の変数選択:
• 信頼度によって順序付けされるルー
ルのグリッドプロット
次元削減
とづき、ターゲットに無関係な変数を
• 任意のタイプのシーケンス・データから、
マーケット・バスケット分析
ラスタースコアを生成
• 階層的アソシエーション:
SOM
• Kohonen ネットワーク
• データの削減とセグメント化に関するク
リンク分析
• データを、リンクで相互接続されたオブ
ジェクトのセットへと変換し、影響のネッ
トワークとして視覚化することが可能
• リレーショナル・データ内における 2 つの
変数のレベル、またはトランザクション・
データにおける 2 つのアイテムの発生頻
度の関係を示す視覚モデル
• 関係性のグラフを理解するための中心
性指標とコミュニティ情報
• AIC、SBC、Mallows C(p)、クロス・
バリデーション、その他の選択基準
• プロットの種類:パラメータ予測、係数
パス、反復プロット、
スコア・ランキング、
その他
• 一般化による LASSO(Least Absolute Shrinkage and Selection
Operator)のサポート
• クラス入力とターゲット、連続変数の
サポート
• スコアリング・コードの生成
• 主成分:
• 相関と共分散行列から固有値と固有
ベクトルを計算
• プロットの種類:主成分係数、主成分
• データソースや変数などを参照するマ
クロ変数
• 対話操作型のコードエディタとサブ
ミット
• 学習、スコアリング、レポーティング用
のコードを個別に管理
行列、固有値、対数固有値、累積比例
固有値(Cumulative Proportional
Eigenvalue)
• SAS Output および SAS LOG
• グラフィックスの作成
• 保持する成分の数を対話操作で選択
• 選択した主成分を予測モデリングの入
力に使用
• 変数のクラスタリング:
• 変数を分解クラスターまたは階層的
クラスターに分割
• 固有値または主成分の学習
• クラス変数をサポート
• クラスターのデンドログラム(樹形図)
• 選択した変数テーブルでクラスターと
相関統計を使用
• クラスター・ネットワークと R 二乗プ
ロット
• 選択した変数をユーザーが対話操作
で無効化
• 時系列マイニング:
• 複数の累積手法と変換を使用し、トラ
ンザクション・データを時系列化して
削減
• 季節、傾向、時間領域、季節分解などの分
予測モデリングの入力に使用
作用、効果階層をサポート
• クロス・バリデーション
• 効果階層ルール
• 最適化手法の種類:共役勾配、ダブル・
ドッグレッグ、ニュートン・ラフソン(直線
探索またはリッジング)
、準ニュートン、信
頼領域
• Dmine Regression ノード:
一貫したモデリング機能
• 学習と検証(デフォルト)、さらにテストの
データにもとづき、損益、AlC、SBC、平
均二乗誤差、誤判別率、ROC、ジニ、KS
(Kolmogorov-Smirnov)など各種の
基準を用いてモデルを選択
• モデル開発プロセスに事前確率を組み
入れ
• 高速前進ステップワイズ最小二乗回帰
• 非線形関係を検出する変数ビニング
(オプション)
• クラス変数削減(オプション)
• 交互作用項の使用
• Teradata 13 用の In-Database モデリ
ング
• PMML によるスコアリング・コード
• 2 値(バイナリ)、名義(ノミナル)、順序
(オーディナル)
、間隔(インターバル)の
入力とターゲットをサポート
• スコアリング・コードとすべてのパーティ
ション化したデータソースに簡単にアク
セス
• 複数の結果を 1 つのウィンドウに表示す
ることで、モデル・パフォーマンス評価の
効率を向上
• ターゲット事象を設定し、優先行列と損
益行列を定義する Decisions ノード
析手法
• 削減された時系列を、クラスタリングと
• 方程式条件ビルダー:多項式、一般交互
回帰
• 線形およびロジスティック
• 段階的選択、前進選択、後退選択
決定木
• 方法論:
• CHAID、分類・回帰木(CART)、バギ
ングおよびブースティング、勾配ブー
スティング、
ブートストラップ森
• 利 益またはリフト目 標にもとづくツ
リーの選択と刈り込み
• K 分割クロス・バリデーション
• 分割基準:確率カイ二乗検定、確率 F 検
定、
ジニ、エントロピー、変数削減
• 多目的セグメンテーション戦略を設計す
るためのターゲット交換
• モデリングおよびグループ処理の入力と
してリーフ ID を自動出力
SAS Code ノード
• 複雑なデータ準備および変換のタスク
でも、SAS コードで簡単に記述
• 他の SAS 製品からプロシジャを取り込み
• カスタムモデルの開発
• SAS Enterprise Miner 拡張ノードの
作成
• スコアリング・コードのロジック強化
• SAS プロシジャのサポート
• 名前や場所が異なる入力テーブルをバッ
チコードで使用
• プロジェクト開始コードをバッチコード
に統合できるようになり、ライブラリや
オプションの定義に利用可能
• 使いやすいプログラム開発インターフェ
イス:
図 5:カスタマイズした SAS コードを統合することで、変数変換の作成、SAS プロシジャの組み込み、
新モデルの開発、スコアリング・ロジックの強化、
レポートの仕様変更などが可能
• 分割ルール文の表示
• 予備的な変数選択とモデル解釈のため
に、変数の重要性を計算
• 分岐した枝とノードに変数正確度を表示
• 樹形図の一意の統合ツリーマップ表現
• ツリーに関する対話操作機能:
• 対話操作によるツリーの成長/刈り込
み、
ツリーノードの展開/折りたたみ
• ツリーの安定性を評価する検証デー
タの取り込み
• 2 分岐や多分岐を含む分岐点のカス
タム定義
• 任意の候補変数上での分岐
• 分岐のコピー
• テーブルとプロットを動的にリンクさ
せ、
ツリー・パフォーマンス評価の効率
図 6:ニューラルネットノードを使用して、非常に複雑な非線形関係を当てはめ
を向上
• 樹形図を単一ページまたは複数ペー
ジに簡単に印刷
• 対話操作によるサブツリー選択
• ユーザー指定のテキストや統計情報をツ
リーノードに表示
• 対話操作型のツリー内で、ユーザーがサ
ンプルサイズをコントロール可能
• ARBORETUM プロシジャに準拠
• PMML によるスコアリング・コード
Partial Least Squares
(部分最小二乗)ノード
• 相関する可能性のある大量の変数から
要因を抽出する場合に特に有効
• 主成分回帰と縮小ランク回帰も実行
ニューラル・ネットワーク
• ニューラルネットノード:
• 組み合わせと活性化の関数を備えた
柔軟なネットワーク・アーキテクチャ
• 10 種類の学習手法
• 要因の個数のユーザー選択または自動
• 有向接続(direction connection)
のサポート
• 自動ニューラルノード:
• 多層パーセプトロン構築時のノード検
• 5 種類のクロス・バリデーション戦略から
選択
• 変数選択をサポート
ルール・インダクション
• まれな事象のモデル化に特に有効
• クラスと間隔ターゲットの両方に関する
• DM ニューラルノード:
• 次元削減と関数選択によるモデル構築
• 高速学習、線形および非線形推定
(特許取得)
モデルのアンサンブル
• モデルによる予測結果を組み合わせて、
より強力なものになる可能性があるソ
• 手法の種類:平均化、投票、最大
Open Source Integration
(オープンソース統合)ノード
レーションを最適化
• PMML によるスコアリング・コード
• 次元削減ツリーおよびスキャン
• 再帰予測モデル手法
2 段階モデリング
択されるタイプおよび活性化関数
予測
リューションを作成
索を自動化することで、コンフィギュ
• 4 種類の異なるアーキテクチャから選
• k 近傍法による観測結果の分類または
選択
• 予備的な最適化
• 入力の自動標準化
記憶ベース推論
(MBR: Memory-based reasoning)
逐次および同時モデリング
• 各段階について決定木、回帰、または
ニューラル・ネットワークのモデルを選択
• クラス予測を間隔予測に適用する方法を
コントロール
• 顧客価値を正確に推定
• SAS Enterprise Miner 内で R 言語の
コードを記述
• 独 自 の R コ ードで SAS Enterprise
Miner のデータとメタデータを利用し、
R の結果を SAS Enterprise Miner に
返すことが可能
• 教師付き/教師なし R モデルの学習と
スコアリング
• ノードでデータの変換と探索が可能
• サポートするモデルについてモデル比較
と SAS スコアコードを生成
増分応答モデル/正味リフトモデル
• 正味処理モデルと制御モデル
• 2 値ターゲットと間隔ターゲット
• ステップワイズ方式の選択
• 固定/変動収益計算
• 実行された自動相関分析または相互
相関分析にもとづいて、Time Series
Correlation ノードが時間領域の統計
• 日時の左端切断と打ち切りをユーザー
が指定可能
情報を出力
• 季節分解
開始グループおよび終了グループノー
ドによるグループ・プロセッシング
• 正味情報値(net information value)
変数の選択
• 処理変数の処理レベルをユーザーが指定
• 固定費に追加するコスト変数をユーザー
が指定
• 罰則適用正味情報値(PNIV: Penalized
Net Information Value)を変数選択に
利用することが可能
• 増分販売モデルに対して別個のモデル
選択オプションを利用することが可能
• プロセスフロー・ダイアグラム(PFD)の
• 離散的な time to event 型回帰と加法
• 時系列データの準備:
• トランザクション・データやシーケンス・
データの集約、変換、要約
• 時系列の自動転置により、類似度分析、
クラスタリング、予測モデリングをサ
ポート
• TimeID 変数付き/なしデータの処理
• 類似度分析:
• 新製品予測、パターン認識、短期ライ
フサイクル予測に有効
• ターゲットと入力系列の間、または入
力時系列の間の類似度を計算
• 使用例:層化モデリング、バギングおよ
型ロジスティック回帰
びブースティング、複数ターゲット、クロ
ス・バリデーション
• ある期間に事象が発生する確率を 3 次ス
プラインでモデル化
• ステップワイズ方式の変数選択プロシ
ジャの一部として、主効果に加えて 3 次ス
プライン基底関数の入力が可能(新機能)
• データ分析と打ち切り処理の方法を指
定するためのユーザー定義の時間間隔
時系列データマイニング
セグメントにおける処理の反復
• 生存時間分析
SAS® Enterprise Guide® または
SAS® Add-In for Microsoft Office
(Excel のみに対応)における、
SAS® Rapid Predictive Modeler
• オプションのサンプリングでデータを自
動拡張
• 非時変性の共変量をサポート
• 提示された検証で生存時間関数を計算
• 計算リスクまたはサブハザードを生成
• 平均残存寿命(Mean Residual Lifetime)
を計算してスコアコードを生成
• ステップワイズ方式の変数選択プロシ
ジャの一部として、主効果に加えて 3 次
スプライン基底関数の入力が可能
• ユーザー指定のデータ形式(標準、時間
変更、完全展開など)により、時変性の共
変量を分析に反映
• 系列のすべての組み合わせを表現す
る類似度行列
• 類似度行列にデンドログラムの結果を
組み合わせる階層的クラスタリング
• クラスター評価に役立つ星座プロット
• 指数平滑法:
• 1 つ以上の平滑パラメータを用いて
荷重減衰をコントロール
• 最適な平滑化手法(単純、二重、線形、
減衰傾向、季節、ウィンターズ法)を自
動選択
• 次元削減
• 5 種類の時系列次元削減手法をサポー
ト:離散ウェーブレット変換、離散フー
リエ変換、特異値分解、平均による線
分近似、合計による線分近似
• 相互相関:
• タイムスタンプ付きデータの自動相
関分析と相互相関分析
図 7:従来型の季節分解を使用して時系列データを分析
タスクのカスタマイズ
• さまざまなビジネス問題の予測モデル
を自動生成
• 作成したモデルは SAS Enterprise Miner
で開き、チューニングや修正が可能
• 精度評価が簡単に行える、変数重要性リ
フトチャート、ROC チャート、モデル・ス
コアカードを含む簡潔なレポートを作成
• 学習データをスコアリングでき、スコア
リングされたデータセットを保存するオ
プションも利用可能
ハイパフォーマンス・データマイニング
用のプロシジャ
• マルチスレッドに対応したプロシジャは、
同時並行で実行でき、既存の対称型マル
チプロセッシング(SMP)サーバーで利
用できるコアをすべて活用して処理を高
速化:
• HPBIN(ハイパフォーマンス・ビニン
グ処理)
• HPBNET(ハイパフォーマンス・ベイ
ジアン・ネットワーク)
• HPCLUS(ハイパフォーマンス・クラ
スタリング)
• HPCORR(ハイパフォーマンス相関
分析)
図 8:ROI(投資対効果)を最大化するためにマーケティング処理の増分効果をモデル化
• HPDECIDE(ハイパフォーマンス判
定)
• HPDMDB(ハイパフォーマンス・デー
タマイニング・データベース)
• HPDS2(ハイパフォーマンス DS2)
• HPFOREST(ハイパフォーマンス・ラ
ンダムフォレスト)
• HPIMPUTE(ハイパフォーマンス・
• HP ツリー
• 最大 KS 統計値
• HP 変換
• 最小誤判別コスト
• HP 変数選択
• 最大累積プロファイル
• 最大真陽性(Max True Positive)率
データ補完)
• HPNEURAL(ハイパフォーマンス・
ニューラル・ネットワーク)
• HPREDUCE(ハイパフォーマンス変
数削減)
• HPSAMPLE(ハイパフォーマンス・サ
ンプリング)
• HPSUMMARY(ハイパフォーマンス・
データ要約)
• HPSVM(ハイパフォーマンス・サポー
ト・ベクター・マシン)
• HP4SCORE(ハイパフォーマンス
4Score)
• ハイパフォーマンス対応の
SAS Enterprise Miner ノード:
モデルのインポートノード
• SAS Enterprise Miner モデルを登録
することで、別のダイアグラムやプロジェ
クトで再利用可能
レポーターノード
モデルの比較
• モデルの比較ノードは、提示された全
データについて単一のフレームワークで
複数のモデルを比較
• ユーザー定義のモデル選択基準にもと
づき、最良のモデルを自動選択
• ユーザーによる手動選択にも対応
• 当てはめと診断に関する豊富な統計情報
• HP クラスター
• リフトチャート、ROC 曲線
• HP データ・パーティション化
• 間隔ターゲット・スコアのランキングと
• HP フォレスト
• HP GLM(一般化線形モデル)
• HP データ補完
• HP ニューラル・ネットワーク
• HP 主成分
• HP 回帰
• HP SVM(サポート・ベクター・マシン)
• 事象精度の同等再現率(Event Precision
Equal Recall)
• 外部モデルのインポートと評価
• HP ベイジアン・ネットワーク
• HP 探索
• 事前学習からの最大事象精度(Max Event
Precision from Training Prior)
分布
• 決定を選択できる損益チャート、混同(分
類)行列
• クラス確率スコア分布プロット、スコア・
ランキング行列プロット
• 2 値ターゲットの確率のカットオフ・ポイ
ントを特定するカットオフノード
• デフォルトの選択基準をユーザーが手動
変更可能
• SAS Output Delivery System を用い
てプロセスフローの PDF または RTF を
作成可能
• 分析プロセスの文書化を支援し、結果の
共有を促進
• ドキュメントは SAS Enterprise Miner
の分析結果パッケージ内に保存およびイ
ンクルード可能
• プロセスフロー・ダイアグラム(PFD)の
イメージをインクルード可能
• ユーザー定義のノートエントリ
データの保存ノード
• 学習、検証、テスト、トランザクションの
データを、ノードから、事前に定義した
SAS ライブラリまたは指定のファイルパ
スに保存
• JMP®、Excel 2010、CSV、タブ区切り
のファイルをエクスポート。ユーザーの
入力がなくても SAS Enterprise Miner
のバッチ・プログラムに展開できるように、
デフォルトのオプションを用意
図 9:SAS Enterprise Guide または SAS Add-In for Microsoft Office(Microsoft Excel のみに
対応)で SAS Rapid Predictive Modeler タスクを使用し、さまざまなビジネス課題について予測
モデルを自動生成
• SAS Enterprise Miner のプロセスフ
ロー・ダイアグラム(PFD)内にある任意
のノードに接続して、学習、検証、テスト、
検定、スコア、
トランザクションのデータ
をエクスポート可能
スコアリング
• スコアノードでは、SAS Enterprise
Miner の GUI を用いて対話操作でスコ
アリングを実行可能
• 最適化されたスコアリング・コードがデ
フォルトで作成され、使用されない変数
は除外
• SAS、C、Java、PMML(バージョン 4.2)
でスコアリング・コードを自動生成
• SAS、C、Java のスコアリング・コードは、
モデリング、クラスタリング、変換、欠損
値補完用のコードをキャプチャ
• SAS Scoring Accelerator を併用する
こと に より、A s t e r D a t a 、D B 2 、
Greenplum、Hadoop、IBM Netezza、
Oracle、SAP HANA、SAS Scalable
Performance Data Server、Teradata
のデータベース内で SAS Enterprise
Miner のモデルを直接スコアリング可能
図 10:複数の決定木のアンサンブルで構成されるランダムフォレスト・モデルを構築。反復実行を通じて
分岐用の変数をランダムに選び、サンプル選択への依存度を低減。すぐに使えるサンプルを利用して
予測を作成
モデルの登録と管理
• セグメンテーション、分類、予測のモデル
を SAS Metadata Server に登録可能。
入力変数、出力変数、ターゲット変数、マ
イニング関数、学習データ、SAS スコア
コードをメタデータに登録
• モデルの登録ノードが登録ステップ
を統合し、SAS Enterprise Miner
のバッチコードで実行できる登録メカ
ニズムを提供
• SAS Metadata Server にモデルを登
録することで以下を実現:
• SAS Model Manager との統合に
より、モデルの完全なライフサイクル
管理が可能
• スコアリング用モデルに関して、SAS
Enterprise Guide および SAS Data
Integration Studio との統合を提供
図 11:モデルの比較ノードを使用して、理解しやすい単一のフレームワークで複数のモデルを同時に
評価
SAS Enterprise Miner の詳細なシス
テム要件、ホワイトペーパーのダウン
ロード、スクリーンショットの確認、関連
資料の閲覧については、sas.com/jp/
go/enterpriseminer をご覧ください。
図 12:対話操作またはバッチモードで決定木を開発。決定木全体の安定性の計測に役立つ多数の評
価プロットを標準装備
SAS Institute Japan 株式会社 www.sas.com/jp
[email protected]
本社
大阪支店
Tel: 03 6434 3000 Fax: 03 6434 3001
Tel: 06 6345 5700 Fax: 06 6345 5655
〒106-6111 東京都港区六本木 6-10-1 六本木ヒルズ森タワー 11F
〒530-0004 大阪市北区堂島浜 1-4-16 アクア堂島西館 12F
このカタログに記載された内容は、改良のため予告なく仕様・性能を変更する場合があります。あらかじめご了承ください。
SAS、SAS ロゴ、その他の SAS Institute Inc. の製品名・サービス名は、米国およびその他の国における SAS Institute Inc. の登録商標または商標です。
その他記載のブランド名および製品名は、それぞれの会社の商標です。Copyright©2015, SAS Institute Inc. All rights reserved.
JP2015FS_EM_SE