Oracle Advanced Analytics データベース内オプションによる ビッグ

Oracle Advanced Analytics
データベース内オプションによる
ビッグ・データの分析
Sr. Director Product Management、Data Mining
and Advanced Analytics、Charlie Berger
[email protected]
www.twitter.com/CharlieDataMine
1
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
下記事項は、弊社の一般的な製品の方向性に関する概要を説明
するものです。また、情報提供を唯一の目的とするものであり、い
かなる契約にも組み込むことはできません。マテリアルやコード、
機能の提供をコミットメント(確約)するものではなく、購買を決定
する際の判断材料になさらないで下さい。
オラクルの製品に関して記載されている機能の開発、リリース、
および時期については、弊社の裁量により決定されます。
2
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
"ビッグ・データ"  "ビッグ・データの分析"
10,000
「文明の誕生から2003年までの間に
作成された情報量は5エクサバイトですが、
現在はこれだけの情報が2日ごとに作成
されており、そのペースは増す一方です」
- Google CEO Eric Schmidt
 90%以上が非構造化
データ
(単位:10億GB)
作成されたデータ量
2011年に作り出された
データ量は1.8兆GB・・・
5,000
 ファイル数はほぼ
50京
以下の迅速な実行能力が求められている
 データ量は2年ごとに
倍増
 データとその関係を理解する
 データを収集・統合する
 反応し、措置を講じる
0
2005
3
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
2010
コンテンツ提供:Cloudera
2015
出典:IDC 2011
構造化データ
非構造化データ
オラクルのビッグ・データ・プラットフォーム
Hadoop、
R、NoSQL処理向けに最適化
Oracle
Big Data
Connectors
Hadoop
オープン・ソースR
Oracle NoSQL
Database
Oracle Big Data
Connectors
4
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
DW/OLTP向けに最適化された
"システム・オブ・レコード"
Oracle
Advanced
Analytics
データ
ウェアハウス
Oracle Data
Integrator
アプリケーション
ストリーム 取得
Oracle
Oracle Exadata
体系化
Oracle
Database
データベース内分析
Oracle Big Data
Appliance
検出と分析
Oracle
Exalytics
分析およびインメモリ・ワークロード
向けに最適化
Oracle Enterprise Performance
Management
Oracle Business Intelligence
アプリケーション
Oracle Business Intelligence
ツール
Oracle Endeca Information
Discovery
「正しく分析しない限り、データは単なるデータにすぎず、競合
他社にはまだ発見されていないが、自社ではすぐに活用でき
るような実用的で有効な情報は得られません」
5
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
データ・マイニングとは?
大量のデータを自動的にふるいにかけ、以前は見えなかっ
たパターンを見つけ、価値のある新たなインサイトを見出し、
予測を立てること
• もっとも重要な要素の特定(属性の重要性)
• 顧客行動の予測(分類)
• 価値の予測または見積り(回帰)
• ターゲットとなる人物または項目のプロファイルを検出
(ディシジョン・ツリー)
• 母集団のセグメント化(クラスタリング)
• 不正または"まれな事象"の検出(異常検出)
• "バスケット"内に同時に出現する項目の特定(関連性)
6
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
A1 A2 A3 A4 A5 A6 A7
データ・マイニングがもたらすもの
R
質の高い情報、価値あるインサイトと予測
携帯電話を頻繁に乗り換えるユーザー 対 忠実な顧客
セグメント#3
IF CUST_MO > 7 AND INCOME <
$175K, THEN
Prediction = Cell Phone Churner,
Confidence = 83%
Support = 6/39
インサイトと予測
セグメント#1
IF CUST_MO > 14 AND INCOME <
$90K, THEN Prediction = Cell
Phone Churner
Confidence = 100%
Support = 8/39
契約月数
出典:Inspired from Data Mining Techniques:For Marketing, Sales, and Customer Relationship Management、Michael J. A. BerryおよびGordon S. Linoff著
7
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
データ・マイニングがもたらすもの
質の高い情報、価値あるインサイトと予測
携帯電話詐欺 対 忠実な顧客
?
契約月数
出典:Inspired from Data Mining Techniques:For Marketing, Sales, and Customer Relationship Management、Michael J. A. BerryおよびGordon S. Linoff著
8
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
干し草の山から針を見つける
 通常、干し草
の山は
大きい
 一般に針は
小さく、めった
にない
9
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
課題:異常の検出
• "異なる"ものを探す
• 単独で観測された1
つの測定値は"正常
"に見えるかもしれ
ない
X1
• 複数の属性を同時
に考慮する
X2
• レコードを全体から
みると、異常である
可能性がある
X3
X4
10
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
X1
X2
X3
X4
データ・マイニングと予測分析
Advanced Analytics向けのユースケース例
 適切な顧客を適切なオファーの対象に設定
 隠れた顧客セグメントの発見
 もっとも収益性の高い販売機会の発見
 顧客離れの予測と防止
 あらゆる角度から顧客機会を調査
 セキュリティと疑わしい活動の検出
 顧客との対話での感情の理解
 医療ミスの削減と保健の質の向上
 ソーシャル・ネットワークにおける影響者の把握
11
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
スケーラブルな全社的予測分析を最短期間で提供
おもな機能
 データベース内のデータ・マイニング・アルゴ
リズムとオープン・ソースのRアルゴリズム
 SQL、PL/SQL、R言語
 スケーラブルなデータベース内のパラレル
実行
 ワークフローGUIとIDE
 統合データベース・コンポーネント
 エンタープライズ分析アプリケーションの
実現
12
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analyticsを選ぶ理由
差別化要因となる特徴
 エンタープライズ予測分析アプリケーションを
提供する最速の方法
 OBIEEおよびSQL問合せを使用する
アプリケーションとの統合
パフォーマンスとスケーラビリティ
 Oracle Databaseのパワーとスケーラビリティを
活用
総所有コストの大幅削減
 個別の分析サーバーは不要
13
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Insert Information Protection Policy Classification from Slide 13
Oracle Advanced Analyticsを選ぶ理由
低い総所有コストでスケーラブルなアーキテクチャを実現
従来の分析
Oracle Advanced Analytics
データのインポート
データ・マイニング・
モデルの"スコアリング"
節約
データの準備
と
変換
• 生産性の非常に高い予測アプリケーション向け
開発環境
• データベース・スコアリング・エンジンからExadata
ストレージ層へのSQLマイニング関数の送信
データの準備と
変換
数時間/数日/数週間
14
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
• SQLカーネル内でのデータ・マイニング・アルゴリ
ズムをスケーラブルで、ネイティブにパラレル
実行
• データ準備の自動化
• データからインサイトまでの最短パス
データ・マイニング・
モデルの構築
データの抽出
• データはデータベース内のまま
• 最小のTCO
モデルの"スコアリング"
組込みデータの準備
モデルの構築
データの準備
数秒/数分/数時間
• データの重複排除
• 単独分析サーバーの不要化
• スケーラブルで、管理しやすく、安全性が高い
Turkcell
通信詐欺対策
 「TurkcellはOracle Exadata上で100テラバイトの圧縮データ(非圧縮状
目的
 プリペイド・カードによる不正 - 数百万ドル/年
 膨大なデータを極めて高速に取捨選択、不正に
対応、時は金なり
態では1ペタバイトの生データ)を管理しています。Oracle Advanced
AnalyticsオプションのコンポーネントであるOracle Data Miningを使用
することで、他のどんなツールよりも迅速かつ容易に大量の顧客デー
タと通話記録データを分析し、不正な電話使用を検出し、根絶に努め
ることができます」
Turkcell İletişim Hizmetleri A.Ş.、Manager、Hasan Tonguç Yılmaz
ソリューション
 毎日100億件の通話記録データを監視
 1PBに対する準備にSQLを利用
 データ移動のプロセスは速度が遅いため、Turkcellの
ITはモデルをデータベース内に構築してデプロイ
 Exadata上のOracle Advanced Analyticsは極めて
高速。アナリストは不正パターンをほぼ即座に検出
可能
Oracle Advanced Analytics
のデータベース内不正モデル
Oracle Exadata
15
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Insert Information Protection Policy Classification from Slide 12
Oracle Data Miner 11g Release 2のGUI
異常検出 - シンプルな概念的ワークフロー
"正常な"レコードを基準に
モデルを適用して"異なる"
可能性でソート
16
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
不正予測のデモ
drop table CLAIMS_SET;
exec dbms_data_mining.drop_model('CLAIMSMODEL');
create table CLAIMS_SET (setting_name varchar2(30), setting_value varchar2(4000));
insert into CLAIMS_SET values ('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');
insert into CLAIMS_SET values ('PREP_AUTO','ON');
commit;
POLICYNUMBER
-----------6532
2749
3440
654
12650
begin
dbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION',
'CLAIMS', 'POLICYNUMBER', null, 'CLAIMS_SET');
end;
/
自動化された月次"アプリケーション"!次を追
-- Top 5 most suspicious fraud policy holder claims
select * from
(select POLICYNUMBER, round(prob_fraud*100,2) percent_fraud,
rank() over (order by prob_fraud desc) rnk from
(select POLICYNUMBER, prediction_probability(CLAIMSMODEL, '0' using *) prob_fraud
from CLAIMS
where PASTNUMBEROFCLAIMS in ('2to4', 'morethan4')))
where rnk <= 5
order by percent_fraud desc;
17
R
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Insert Information Protection Policy Classification from Slide 13
PERCENT_FRAUD RNK
---------------------64.78
1
64.17
2
63.22
3
63.1
4
62.36
5
加するだけ:
Create
View CLAIMS2_30
As
Select * from CLAIMS2
Where mydate > SYSDATE – 30
例
OBI EEレポートおよびダッシュボードの質の高い情報
ODMの予測と可能性
OAAの予測と可能性が
がデータベース内で
データベース内で使用
できるため、Oracle BI
使用できるため、
Oracle
BI EEなどのツ
EEなどのツールを使用
ールで使用可能
したレポート作成が
可能
18
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
金融部門/会計/経費
異常検出
シンプルな不正検出手法 - 1クラスSVM
より高度な不正検出手法 - クラスタリング+1クラスSVM
19
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
R
詳細
 シングル・レコードにその場で新しいデータ
(コール・センターから取得したデータなど)を適用
Select prediction_probability(CLAS_DT_1_1, 'Yes'
USING 7800 as bank_funds, 125 as checking_amount, 20 as
credit_balance, 55 as age, 'Married' as marital_status,
250 as MONEY_MONTLY_OVERDRAWN, 1 as house_ownership)
from dual;
ソーシャル・メディア
コール・センター
反応する可能性:
支店
アドバイスの取得
R
モバイル
Web
電子メール
20
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
予測アプリケーションの実現
Oracle Advanced Analyticsを使用したアプリケーションの例
• Human Capital Management
– 労働力の予測 - 従業員の離職とパフォーマンスの予測、"What if" 分析
• CRM
– 販売予測エンジン - 販売機会、販売製品、販売数、タイミングなどの予測
• サプライ・チェーン・マネジメント
– 支出の分類 - 経費申請における違反や異常のリアルタイム・フラグ付け
• ID管理
– Oracle Adaptive Access Manager—リアルタイム・セキュリティと不正分析
• 小売分析
– Oracle Retail Customer Analytics — "ショッピング・カート分析"と次善の提案
• カスタマ・サポート
– Predictive Incident Monitoring(PIM) - Oracle Database顧客に対するカスタマ・サービス
• 製造
– チップ設計における応答曲面モデリング
• オラクルの業種別データ・モデルの予測機能
– 通信データ・モデル - 顧客の解約予測、セグメント化、プロファイリングなどを実行
– 小売データ・モデル - ロイヤルティとマーケットバスケット分析の実行
– 航空会社データ・モデル - 高頻度利用者の分析とロイヤルティの分析の実行
21
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
オラクルの通信業界データ・モデル
スケーラブルな全社的予測分析を最短期間で提供
OAAのクラスタリングと予測をデー
タベース内でOBIEE用に利用可能
22
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Business Intelligenceの統合
幅広いデータベース内SQL、R予測分析、グラフィックの統合
 顧客行動を予
想する予測モ
デルをデータ
ベース内に
構築
 OBIEEに統合さ
れた空間マッピ
ングで位置を
表示
将来的に価値が高いまたは非常
に高い顧客となる"可能性がもっと
も高い"顧客
23
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle BI EEとの統合
Oracle Data Miningの結果をOracle BI EE
管理者が利用可能
エンドユーザーに表示する結果
をOracle BI EEに定義
24
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
通信業界の例
セグメント、クラスタ、ルール、詳細へのドリルスルー
• 顧客をプロファイルや
クラスタにセグメント化
し、"得意客"になりそう
な顧客や、頻繁な乗り
換えや不正行為をしそ
うな顧客を事前予防的
に管理
• 個別のレコード、
予測、プロファイルの
詳細に対するドリル
スルー
25
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
医療業界の例
リスクの高い要因、詳細へのガイド付きドリルスルー
•
数年間の患者
の入院履歴と請
求額から死亡の
恐れがもっとも
高い患者を予測
•
OBI EEを使用し
て、OAAモデル
のインサイトと予
測を選択し、オ
プションの詳細ド
リルスルー機能
を備えた対話型
のダッシュボー
ドを定義
26
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Fusion HCMの予測分析
予測分析の組込み
Oracle Advanced Analyticsに事前インストール
された予測分析により、離職しそうな従業員、
おもな理由、期待される実績、リアルタイムの
"What-If"分析を表示
27
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
従業員の離職予想に関連
する要因
28
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle Data MinerのGUI
SQL Developer 3.2の拡張機能 - OTNから無料でダウンロード可能
 使いやすさ
– データ分析用のOracle Data Miner GUI
– データの調査 - 新しいインサイトの獲得
– 分析手法に対する"ワークフロー"パラダイム
 高性能
– さまざまなアルゴリズムとデータ変換
– 100%データベース内で実行
– データ・マイニング・モデルの構築、評価、適用
 自動化とデプロイ
– 自動化用SQLスクリプトの生成とデプロイ
– 分析ワークフローの共有
29
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle Data MinerのGUI
Oracle Data Minerノード - 抜粋
表とビュー
変換
データ調査
モデリング
テキスト
30
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
保険
"保険を購入しそうな顧客"とそのプロファイルの特定
OAAワークフローが分析プロセスを
捕捉してデプロイ用のSQLコードを
生成
31
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
Oracle Advanced Analytics
非構造化データのデータ・マイニング
 非構造化("テキスト")
データのマイニング
 モデルにはテキストと
コメントを含む
 ドキュメントのクラスタ
リングと分類
 Oracle Textを使用した
非構造化テキストの
前処理
32
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Exadata+Data Mining 11g Release 2
データ・マイニング・モデルの"スコアリング"をストレージに送信
高速
 SQL条件とOAAモデルをストレージ・レベルに送信して実行
例:乗り換えそうな米国顧客の検出
select cust_id
from customers
where region = ‘US’
and prediction_probability(churnmod,‘Y’ using *) > 0.8;
33
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
Oracle Advanced Analytics
幅広いデータベース内のデータ・マイニングと統計関数
データの理解と視覚化
– サマリー統計と記述統計
– ヒストグラム、散布図、箱ひげ図、棒グラフ
– Rグラフィックス:3Dプロット、リンク・プロット、特殊なRグラフ・タイプ
– クロス集計
– 相関テスト(t検定、ピアソン、ANOVA)
– 選択されたBase SASと同等機能
 データの選択、準備、変換
– 結合、表、ビュー、データ選択、データ・フィルタ、SQL時間枠、複数
スキーマ
– サンプリング手法
– コード変更、値の欠落
– 集計
– 空間データ
– RからSQLへの透過性とプッシュ・ダウン
 分類モデル
– ロジスティック回帰(GLM)
– Naive Bayes
– ディシジョン・ツリー
– サポート・ベクター・マシン
– ニューラル・ネットワーク(NN)
 回帰モデル
– 重回帰(GLM)
– サポート・ベクター・マシン

34
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.







クラスタリング
– 階層型k-means
– 直交パーティショニング
– 期待値の最大化
異常検出
– 特殊なケースのサポート・ベクター・マシン(1クラスSVM)
対応付け/マーケットバスケット分析
– アプリオリ・アルゴリズム
特徴選択と特徴削減
– 属性評価(最小記述長)
– 主成分分析(PCA)
– 非負行列因子分解
– 特異値の分解
テキスト・マイニング
– ほとんどのOAAアルゴリズムが非構造化データ(顧客のコメン
ト、電子メール、要約など)をサポート
トランザクション・データ
– ほとんどのOAAアルゴリズムでトランザクション・データ(購買
トランザクション、長期的な繰り返し測定)をサポート
Rパッケージ - オープン・ソースの実行機能
– RからSQLへの透過性や組込みRモードを使用して、データ
ベース・プロセスの一部として、幅広いR CRANパッケージを
実行可能
Oracle Advanced Analytics
R
SQLデータ・マイニング・アルゴリズム
問題
アルゴリズム
適用範囲
分類
ロジスティック回帰(GLM)
ディシジョン・ツリー
Naive Bayes
サポート・ベクター・マシン
従来からの統計手法
人気/規則/透明性
組込みアプリケーション
範囲が広い/狭いデータ/テキスト
回帰
重回帰(GLM)
サポート・ベクター・マシン
従来からの統計手法
範囲が広い/狭いデータ/テキスト
1クラスSVM
ターゲット・フィールド例の不足
異常検出
属性評価
最小記述長(MDL)
A1 A2 A3 A4 A5 A6 A7
相関ルール
アプリオリ
階層型k-means
階層型O-Cluster
クラスタリング
特徴抽出
非負行列因子分解
F1 F2 F3 F4
35
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
属性削減
有効なデータの識別
データ・ノイズの低減
マーケットバスケット分析
リンク分析
製品のグループ化
テキスト・マイニング
遺伝子およびタンパク質分析
テキスト分析
特徴削減
Oracle Advanced Analytics
データベース内のSQL統計
SQL統計とSQL分析(無料)
• ランキング関数
– rank、dense_rank、cume_dist、percent_rank、ntile
• ウィンドウ集計関数
(移動と累積)
– Avg、sum、min、max、count、variance、stddev、
first_value、last_value
• LAG/LEAD関数
– オフセットを使用した、行から行への直接参照
• レポート集計関数
– Sum、avg、min、max、variance、stddev、count、
ratio_to_report
• 統計的集計
– 相関、線形回帰ファミリ、共分散
• 線形回帰
– 一連の数字のペアに対する最小二乗法回帰直線の
フィッティング
– COVAR_POP、COVAR_SAMP、CORR関数との組合せが
多い
• 記述統計
– DBMS_STAT_FUNCS:表の数値列を集計し、総数、最小値、最大値
、範囲、平均値、中央値、最頻値、分散、標準偏差、変位置、+/- n
シグマ値、上位/下位の5つの値を返す
• 相関
– ピアソンの相関係数、スピアマンとケンドール(いずれもノンパラメト
リック)
• クロス集計
– 比率統計による改善:カイ二乗、ファイ係数、クラメールのV、
コンティンジェンシー係数、コーエンのカッパ
• 仮説検定
– スチューデントt検定、F検定、二項検定、ウィルコクソンの符号順位
検定、カイ二乗、マン・ホイットニー検定、コルモゴロフ-スミルノフ検
定、一元配置ANOVA
• 分散フィッティング
– コルモゴロフ-スミルノフ検定、アンダーソン-ダーリング検定、
カイ二乗検定、正規分布、一様分布、ワイブル分布、指数分布
注:統計分析とSQL分析が含まれるのは、Oracle Database Standard EditionとEnterprise Editionです。
36
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
独立したサンプルのt検定
(合併分散)
 CUST_INCOME_LEVEL範囲内に収まるMENとWOMENに対して、AMOUNT_SOLDの
平均値を比較する問合せ
取得したt値と関連する両側有意性を返す
SELECT substr(cust_income_level,1,22) income_level,
avg(decode(cust_gender,'M',amount_sold,null)) sold_to_men,
avg(decode(cust_gender,'F',amount_sold,null)) sold_to_women,
stats_t_test_indep(cust_gender, amount_sold, 'STATISTIC','F') t_observed,
stats_t_test_indep(cust_gender, amount_sold) two_sided_p_value
FROM sh.customers c, sh.sales s
WHERE c.cust_id=s.cust_id
GROUP BY rollup(cust_income_level)
ORDER BY 1;
SQL Plus
37
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
オラクルの戦略的R製品
R環境に基づくエンタープライズ・レベルの高度な分析を提供
 Oracle R Distribution
– 無料でダウンロード可能、Oracle Big Data Appliance(BDA)に事前インストール済み、Oracle Linuxにバンドル
– 線形代数パフォーマンスの向上:インテルのマス・カーネル・ライブラリ、AMDのCore Math Library、SUN Solaris、
IBM AIX
– Oracle R Enterprise、Big Data Appliance、Oracle Linuxの顧客に対するエンタープライズ・サポート
– オープン・ソースRのバグ修正と拡張に貢献
 Oracle R Enterprise
– Rからデータベース内データへの透過的アクセス
– データベースに管理されたRエンジンを介した組込みRスクリプトの実行
– 統計エンジン
 Oracle R Connector for Hadoop(Oracle Big Data Connectorsに含まれる)
– BDA上のOracle Hadoop ClusterとOracle以外のHadoopクラスタに対するRインタフェース
– HDFS、データベース、ファイル・システム内のデータに対するアクセスと操作
– Rを使用したMapReduce関数の作成と通常のRインタフェースを介した実行
 ROracle
– OCIベースのRに対するオープン・ソースのOracle Databaseインタフェース・ドライバ
– オラクルによる保守 - ゼロから再構築、多数のバグ修正と最適化
38
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle R Enterpriseの仕組み
ORE計算エンジン
R
 Oracle R EnterpriseはRとデータベースを緊密に統合し、Rコードによるデータ操作
を完全に管理
– Rコードへのデータ提供には常にデータベースが関与
– Oracle R EnterpriseはOracle Database内で稼働
 Oracle R Enterpriseはデータの移動と重複を解消し、セキュリティを維持し、
生データから新しい情報までの待機時間を最小化する
 3つのORE計算エンジン
– Oracle R Enterpriseはオープン・ソースRエンジンとOracleデータベース間に3種類のインタフェースを
提供
39
1.
Oracle R Enterprise(ORE)透過層
2.
Oracle統計エンジン
3.
組込みR
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
Rグラフィックスからデータベース・データへの直接アクセス
R> boxplot(split(CARSTATS$mpg, CARSTATS$model.year), col = "green")
時間とともにMPGが
増加
40
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
Oracle Advanced Analytics
Rエンタープライズ計算エンジン
1
Rエンジン
3
2
SQL
その他の
Rパッケージ
Oracle Databases
ユーザー表
R
Oracle R Enterpriseパッケージ
結果
デスクトップ上のユーザーRエンジン
R
?x
オープン・ソース
データベース計算エンジン
• スケーラブルなデータベース内実行のため、R-SQL • 大規模データセットに対するスケーラビリティ
透過フレームワークがR関数をインターセプト
• データ変換、統計関数、高度な分析用の関数を
インターセプト
• グラフィカルな結果とフロー制御を標準Rと同様に
インタラクティブに表示
• Rスクリプト全体をデータベース実行用に送信
41
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
• 表、ビュー、外部表とDBリンク経由のデータに
対するアクセス
• データベースのパラレルSQL処理を利用
• 新規/既存のデータベース内の統計機能および
データ・マイニング機能を利用
Rエンジン
結果
R
その他の
Rパッケージ
Oracle R Enterpriseパッケージ
Oracle DBから起動されたRエンジン
• データベースは複数のRエンジンを起動して、
データベース管理の並列処理を実現
• 起動したRエンジンに対する効率的なデータ転送
• MapReduce方式のアルゴリズムとアプリケーショ
ンをエミュレート
• Rスクリプトの"完全自動"実行
Oracle Advanced Analyticsの例
1つのRスクリプト内で3種類すべてのOREエンジンを使用
42
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
新機能
- Oracle Data Miner 4.0
- Oracle Advanced Analytics 12c
- Oracle R Enterprise 1.3
R
43
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
新機能サマリー
 Oracle Advanced Analytics 12c
– 新しいSQLデータ・マイニング・アルゴリズム(期待値の最大化、PCA、特異値の分解、
テキスト・マイニング、その他のアルゴリズムの改善)
– 予測的SQL問合せ - SQL問合せ内で自動的に構築、チューニング、適用
 Oracle Data Miner/SQL Developer 4.0
– 新しいグラフ・ノード(箱ひげ図、散布図、棒グラフ、ヒストグラム)
– SQL問合せノード+Rスクリプトの統合
– デプロイ用SQLスクリプトの自動生成
 Oracle Advanced Analytics/ORE 1.3
– ニューラル・ネットワーク
– OBIEEとの統合の改善
44
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
SQL Developer/Oracle Data Miner 4.0
プレビュー
 Oracle Data MinerのGUI
– 新しいGraphノード
 散布図、折れ線グラフ、
 棒グラフ、箱ひげ図、ヒストグラム
 Group_byのサポート
45
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
SQL Developer/Oracle Data Miner 4.0
プレビュー
 Oracle Data Miner GUIの
新しいノード
– 新しいSQL Queryノード
 任意の形式の問合せ/変換/統計
を使用可能
 フロー内のどこでも挿入可能
 Rスクリプトを統合可能
– 新しいPredictive Query
ノード
46
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
SQL QueryノードによるRスクリプトの統合
47
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
SQL QueryノードによるRスクリプトの統合
48
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
SQL Developer/Oracle Data Miner 4.0
プレビュー
 メソドロジー全体を1つのSQL
スクリプトとしてデプロイ
– より迅速なデプロイ
49
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
12c 新機能
サーバーの新機能
R
 新しいアルゴリズム
– 期待値の最大化(EM)クラスタリング
 データの密度モデルを構築する確率論的クラスタリング・アルゴリズム
 各種ドメイン(例:販売取引と顧客層、構造化データとテキスト/その他の非構造化データ)で発生したデータに対
するアプローチの改善
 期待値の最大化アルゴリズムが、データ・モデリングに必要なクラスタ数の最適値を
自動的に決定
主成分分析(PCA)
 強力な特徴抽出手法がSVDに基づいて直交線形投影を使用し、データの根底にあ
る分散を捕捉
– 特異値の分解(SVD)
 非常に大きい数値データセット(RFIDなどのセンサーから取得したデータなど)で、非
常に大きいデータ・サイズ(行と属性の両方)を実現するスケーラビリティ
50
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
12c 新機能
サーバーの新機能
 テキスト・マイニング・サポートの拡張
– 入力にテキスト・データが含まれる場合のデータ・マイニング・プロセス
(モデルの構築、デプロイ、スコアリング)を大幅に簡便化




51
テキスト・データに対する手動の前処理は不要
テキスト索引の作成は不要
データ型サポートの追加:CLOB、BLOB、BFILE
文字データはカテゴリ値またはテキストとして指定可能
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
12c 新機能
サーバーの新機能
R
 アルゴリズムの拡張
– 一般化線形モデル(GLM)による自動特徴選択/生成の追加
 特徴生成では一般化線形モデルが非線型項(3乗項まで)を使用することで、
より強力なモデルと高い透過性を実現
–
–
–
–
52
 高いスケーラビリティとパフォーマンス(数千から数十万までの入力属性に対応)
ディシジョン・ツリー・アルゴリズムによるネストされたデータとテキスト・マイニングの
サポート
すべての分類モデルと回帰モデルに対する予測細目
文字データはカテゴリ値またはテキストとして指定可能
クラスタの細目関数
 CLUSTER_DISTANCEは各行からクラスタ重心までの距離を返す
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
12c 新機能
サーバーの新機能
 予測的問合せ
– SQL問合せ内でODMモデルを即座に
構築/適用
 分類と回帰
– 対象が複数ある
問題
(ネストした)
 クラスタリングの問合せ
 異常の問合せ
 特徴抽出の問合せ
OAAは強力なSQL問合せを介したパーティション
によって、自動的に複数の異常検出モデル
"Grouped_By"と"scores"を作成
53
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
Select
cust_income_level, cust_id,
round(probanom,2) probanom, round(pctrank,3)*100 pctrank from (
select
cust_id, cust_income_level, probanom,
percent_rank()
over (partition by cust_income_level order by probanom desc) pctrank
from (
select
cust_id, cust_income_level,
prediction_probability(of anomaly, 0 using *)
over (partition by cust_income_level) probanom
from customers
)
)
where pctrank <= .05
order by cust_income_level, probanom desc;
Oracle R Enterprise 1.3
新機能
R
 拡張機能と新機能
– 新しいOREパッケージによる高パフォーマンスのデータベース内予測アルゴリズム(ORE)
 Oracle Data Mining SQL APIアルゴリズム/データの自動準備/スコアリングなどに対する
統合の強化
– Rモデルに対するExadataストレージ層でのスコアリング(ORE)
 glm、glm.nb、hclust、kmeans、lm、multinom、nnet、randomForest、rpart
– 包括的なサンプリング手法(ORE)
 簡易、系統、層化、クラスタ、割当て、偶然
54
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Oracle R Enterprise 1.3
新機能
 拡張機能と新機能
– Rオブジェクトおよびモデルのデータベースへの
–
–
–
–
55
永続化
インタフェースによる、アプリケーション(ORE)の
バックエンドとWeb UIインフラストラクチャへの
OREの組込み
データベースでのRオブジェクトの永続化
Rアルゴリズムのデータベース内スコアリング
OBIEEとの統合の改善
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
Oracle R Enterprise 1.3
新機能
 時系列のサポート
– 大量の時系列データに対する集計と移動窓分析
 Oracleデータ型のDATE、TIMESTAMP、TIMESTAMP
WITH TIME ZONE、TIMESTAMP WITH LOCAL TIME ZONEに
対するサポート
 日付計算、集計とパーセンタイル、移動窓の計算
– 一般的なRの時系列予測パッケージに対する統合の
標準提供
 fts、tseries、xts、zooパッケージ、forecastおよびa
rimaパッケージ
56
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
R
OAAは以下のように考えることができます・・・
Oracle Advanced Analytics(SQLとR)
従来のSQL
– "ユーザー駆動"の問合せ
– 自動化されたナレッジ検査、モデルの構築とデプロイ
– 専門知識
– マイニング/分析するデータを"正しく"収集するための
専門知識
– すべての"ルール"の定義と管理が必要
• 分析的な"動詞"
 SQLによる問合せ
– SELECT
– DISTINCT
– AGGREGATE
– WHERE
– AND OR
– GROUP BY
– ORDER BY
– RANK
57
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
+
– PREDICT
– DETECT
– CLUSTER
– CLASSIFY
– REGRESS
– PROFILE
– IDENTIFY FACTORS
– ASSOCIATE
R
詳細情報
[email protected]まで電子メー
ルを送ってください。"お気に入り"リンク
を送ります。
OAA概要:
OAAデモ
プレゼンテーションのリンク - Oracle Advanced Analyticsデータベース内オプションによるビッグ・データの
分析
ODM Blog entry with YouTube-like recorded of OAA/ODM presentation and several "live" demos
YouTube OAA Oracle Data Miner Market Basket Analysis preso & demo
YouTube OAA presentation & demo on Predictive Analytics (Classification)(保険ユースケース)
入門編
Getting Started w/ ODM blog entry
New OAA/Oracle Data Mining 2-Day Instructor Led Oracle University course
OAA/Oracle Data Mining Oracle by Examples (free) Tutorials(OTN)
Free Test Drive of Oracle Advanced Analytics (Oracle Data Miner GUI) on the Amazon Cloud
SQL Developer Days Virtual Event w/ downloadable Virtual Machine (VM) images of Oracle Database +
ODM/ODMr and e-training for Hands on Labs
OAA/Oracle R Enterprise (free) Tutorial Series(OTN)
その他のリソース
OTNのOracle Advanced Analytics Optionページ
OTNのOAA/Oracle Data Miningページ、ODM Documentation、ODM Blog
OAA/Oracle R Enterprise page on OTN、ORE Documentation、ORE Blog
Oracle SQL based Basic Statistical functions(OTN)
58
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Insert Information Protection Policy Classification from Slide 13
59
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
60
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.