講演資料ダウンロード NEC - Cloudera World Tokyo 2016

HadoopとTalendで実現する
ビッグデータ基盤の構築
2016年 11月 8日
NEC クラウドプラットフォーム事業部
田村 稔
目次
1. NECのビッグデータ活用基盤に対する
ソリューションと事例
2. Hadoop導入検討ユーザの課題とTalendによる解決
3. NECが提供するHadoopサポートサービス
4. Talendの機能紹介
NECのビッグデータ活用基盤に
対するソリューションと事例
各業種へのビッグデータの活用の拡大
様々な業種でビッグデータの活用検討が始まる
製造
金融
通信
官公庁
医療
品質分析
リスク対策
営業販売
利便性
営業販売
リスク対策
営業販売
• SCM横断分析
• 不正検知
• 取引監視
• セキュリティ
分析
• 収益最適化
• 顧客離れ回避
• キャンペーン
マネジメント
• リコメンドエンジン
• 不正検知
• サイバー
セキュリティ
• 販売計画最適化
• ブランド
マネジメント
• SCM
顧客サービス
顧客サービス
• CRM
• 優良顧客優待
• 優良顧客優待
• 商品化計画
• マーケット
バスケット分析
• キャンペーン
マネジメント
• SCM
• 市場と顧客の
セグメント化
検査・検品
• 不良品検知
• センサデータ活用
品質管理
• 通話情報分析
• ネットワーク
パフォーマンス
最適化
5
流通
© NEC Corporation 2016
マーケティング
• クロスチャンネル
分析
• イベント分析
顧客サービス
• 優良顧客優待
政策検討
• CO2ライフ
サイクル
アセスメント
医療
• 治療品質分析
• 新薬開発
NECのビッグデータ活用基盤に対するソリューション
データの収集・蓄積から分析まで、データ活用フローをサポート
データ連携
データ連携
業務システム
業務システム
ERP/CRM
ERP/CRM
SCM...
SCM...
音声
音声
ETL
ETL
Email
Email
Web ソーシャル
Web Social
M2M
M2M
データ処理
データ処理
ステージング
ステージング
バックアップ
バックアップ
データ分析 (AA)
データ分析 (AA)
DWH
DWH
非構造化
非構造化
データ
データ
蓄積/加工
蓄積/加工
テキスト カメラ
テキスト カメラ
センサ
センサ
あa
あa
ログ
ログ
情報管理の強化、
情報管理の強化、
犯罪・不正の感知
犯罪・不正の感知
データ分析 (BI)
データ分析 (BI)
製品/サービス
製品/サービス
価値向上・改善
価値向上・改善
(OLAP/統合基盤)
ストリーム処理
ストリーム処理
Self Service BI
Self Service BI
(Visualization)
(Visualization)
4921 6674 6568 7270
天候 モビリティ
天候 モビリティ
4921
7368
7368
7641
7641
1176
1176
etc
etc
© NEC Corporation 2016
オペレーション
オペレーション
高度化/最適化
高度化/最適化
Business Analytics
Business Analytics
Enterprise BI
Enterprise
BI
(OLAP/統合基盤)
ウェアラブル ビーコン
ウェアラブル ビーコン
6
AI/分析エンジン
AI/分析エンジン
ソリューション
ソリューション
6674
7365
7365
5788
5788
1624
1624
6568
1937
1937
5423
5423
7381
7381
7270
3493
3493
8592
8592
8960
8960
顧客獲得・維持、
顧客獲得・維持、
販売促進
販売促進
適材適所の
人材マッチング
NECのビッグデータ活用基盤に対するソリューション
データの収集・蓄積から分析まで、データ活用フローをサポート
データ連携
業務システム
ERP/CRM
SCM...
音声
Email
Web
Social
ステージング
バックアップ
ETL
データ分析 (AA)
データ処理
DWH
AI/分析エンジン
オペレーション
高度化/最適化
あa
Talend
非構造化
データ
蓄積/加工
M2M
ソリューション
Business Analytics
情報管理の強化、
犯罪・不正の感知
データ分析 (BI)
製品/サービス
価値向上・改善
テキスト カメラ
Enterprise BI
センサ
ログ
顧客獲得・維持、
販売促進
Self Service BI
適材適所の
人材マッチング
ストリーム処理
ウェアラブル ビーコン
(Visualization)
天候 モビリティ
4921
7368
7641
1176
etc
分析の前に必要なフロー
7
(OLAP/統合基盤)
© NEC Corporation 2016
6674
7365
5788
1624
6568
1937
5423
7381
7270
3493
8592
8960
分析の先に臨むもの
NECのHadoop案件の現状の適用領域
Hadoop(Spark)は4つの領域での利用が中心
適用領域
代表的な事例
既存技術
Hadoopを採用する理由
基幹系バッチ処理
・口座値洗い処理
・小売業会計バッチ処理
・MFやオープン基幹システム ・バッチ処理高速化
のバッチ処理
(スケールアップの限界への対策)
・高信頼RDBMS
・MFオープン化によるコスト削減
データストレージ
・スマートグリッド
・センサーデータ
・通信機器ログ
・カード不正利用検出
・Index生成、レコメンド
・ライフログ
・なし
・RDBMSには不向きな大規模データ
(新たに生まれたビッグデー を、安価・高速に処理することで価値
タ、もしくは活用されないま あるデータとして活用
ま捨てられていたビッグデー
タ)
データクレンジング
・ログ分析
・データマイニング
・データを入れる前のデータクレ
ンジング(加工)
・データ発生ストリーム処理
・DWH
・ETLツール
・インメモリDB
・ストリーム処理
・大量データを扱うDWHにはアプライア
ンスが適している
・大量データを安価にデータクレンジング
し、Hadoop等で分析しやすくする
高度分析
・リアルタイム集計
・ログ分析
・独自に構築したエンジン
・手組
・インメモリDB
・Hadoop APに独自エンジンを組み
込むことが可能
専用APの作成であるため柔軟な対
応が可能
(手組や独自エンジン)
8
© NEC Corporation 2016
導入事例は投影のみの公開とさせて頂きます
9
© NEC Corporation 2016
Hadoopを使ったシステムの構築事例
DWHやBA/BIツールの大量データ向けの拡張手段
▌データの巨大化についてはHadoopクラスタで対応
▌Hadoopによる前処理によりデータ量の圧縮と非構造化データの構造化を実施
▌大量データ処理について構築コストと機能のバランスをとることが可能
スケールアウトにより膨大なデータに
関する処理能力を確保
故障監視
顧客動向
マーケッティング
HDFS直接参照
高速なデータローディング
ネットワーク機器や
Webサイトで
発生する大量ログ
Hadoopクラスタ
バッチ処理
セキュリティ監査 企業で発生する
INDEX作成
大量の文書
連携
機能
充実した分析機能と
アプリケーション
DWHアプライアンス
アプリ
アプリ
アプリ
:
DataSources
HBase
Hive
Flume
Point
Pig
Oozie
Sqoop
DWH/BA
Zookeeper
大量データと非構造化データを整理/前処理/集計
高度な分析
分析効果を検証するフェーズが必須。このフェーズが成功するかどうかが極めて重要
検証におけるTry&Errorのサイクルを短くすることで、ユーザにとっての最適解を見つけることができ、
新たなビジネスチャンスを得ることができる
10
© NEC Corporation 2016
Hadoop導入検討ユーザの課題と
Talendによる解決
異種データソースからデータを集めて分析
Hadoopはまだ敷居が高く、アプリケーションを開発できる人が少ない
データソース
②Hadoopの
アプリケーション開発
データベース
ファイル類
BIツール
③クレンジング
①点在する
データソース
からデータ収集
ダッシュボード
:
Cloud/SaaS
:
Hadoop
DWH
分析チーム
出てきた課題
① 多くのシステムにデータが分散されているので、データを集めるのが大変
② Hadoopのアプリケーションを作ることができない、ノウハウがない
③ 分析するためにはデータのクレンジングが必要
12
© NEC Corporation 2016
Hadoopジョブ開発における課題をTalendで解決
スキルがなくてもHadoopアプリケーションの開発が可能
Hadoopジョブを開発できる
エンジニア不足
ドラッグ&ドロップ
Hadoopスキル修得のための
コスト
期間
処理部品
Hadoopのメリットを
活かしたジョブを、GUI上で
作成することができます。
13
© NEC Corporation 2016
Talendの導入で課題解決
3つの課題が解決される有用なソリューション
データソース
Talend
Talendの機能で
②Hadoopの
作成可能
アプリケーション開発
データベース
Talend
ファイル類
Talend
データ収集の際に
③クレンジング
行うことも可能
アプリケーション
①点在する
を作成すること
データソース
からデータ収集
なく収集
BIツール
ダッシュボード
:
Cloud/SaaS
:
Talend
Hadoop
DWH
差分配信もできるのでリアルタイム分析が可能
分析チーム
Talendで解決した課題
① Talendが対応しているデータソースなら、ノンプログラミングで連携可能
② HadoopのアプリケーションをスキルがなくてもTalendで可能
③ データのクレンジングは、データの収集の際に行うことも可能となる
14
© NEC Corporation 2016
TalendをNECから購入する強み
▌全社施策のデータ移行効率化施策でTalendを利用
 NECでは全社施策として推進している「データ移行効率化施策」で Talend を利用してい
るため、ノウハウ、実績およびサポート体制が充実。
▌Talend社とのパートナーシップ
 Talend社とは単なる再販契約ではなく、OEM 契約を行っているため、より密な連携を
行って、案件に対応可能。
▌NECのHadoop/Spark サポートチームとの連携
 NECは Hadoop/Spark サポートサービスを行っており、Hadoopサポートチームと一体と
なったシステム構築の支援が可能。
▌ ETLツールに対する安心のサポート力
 10年以上にわたる様々なETLツールのサポート経験に裏打された技術力。
 金融業、製造業、通信業、流通業、公共など、幅広い業種で100PJ以上に導入した実績。
▌システム全体を包括できるNEC製品ラインナップ
 充実したNEC製品のラインナップがあるため、ETL処理周りも合わせたソリューションを
提供可能
 NECの社製品 高速データ処理エンジン 「InfoFrame DataBooster」と連携したTalendの
独自コンポーネントを提供
15
© NEC Corporation 2016
NECが提供するHadoopサポートサービス
Hadoop構築支援サービス
構築経験豊かな技術者によるHadoop中心の支援サービスを展開中
多数の導入実績から得たノウハウを提供
サプ
ーロ
ビ フ
スェ
ッ
シ
ョ
ナ
ル
事前検証
提案
設計
開発
構築
健康診断サービス
コンサルティングサービス
バックエンドサービス
▌プロフェッショナルサービス
 健康診断サービス
「Hadoopの応答が遅い」等の問題を抱えているシステムを診断し、適切な状態で
Hadoopクラスタが設計・運用されているかヘルスチェックを実施
 コンサルティングサービス
専門スキルを有する技術者が、お客様のプロジェクトを初期段階から支援
 バックエンドサービス
Hadoopの構築に関する技術情報の提供などお客様のプロジェクトを後方支援を実施
17
評価
© NEC Corporation 2016
運用
Hadoop構築支援サービス
様々な知見に基づき専門の技術者が検証フェーズから運用フェーズまで支援
サ構
ー築
ビ 支
ス援
事前検証
提案
設計
事前検証
チューニング
支援サービス
適用支援
サービス
開発
ササ
ーポ
ビ ー
スト
構築
評価
SIサービス
ヘルプデスクサービス
障害対応サービス
▌構築支援サービス
▌サポートサービス
 適用支援サービス
 ヘルプデスクサービス
システム設計支援サービスとして、関連コンポーネントの
選定を支援
 事前検証チューニング支援サービス
提供された試験環境にHadoopを構築しHadoopシステム
の動作チューニングについての検証を実施
 SIサービス
Hadoopクラスタの構築支援を実施
18
運用
© NEC Corporation 2016
Hadoopに対するマニュアルレベルの
技術的な問い合わせ(パッチ情報を含む)対応を実施
 障害対応サービス
Hadoopの障害や各種問題について、技術的な支援を実施
Talendの機能紹介
Talendとは
開発・運用・維持管理をサポートするデータ統合連携基盤
コストを抑え、高い生産性でAP開発およびデータ移行・統合・連携を実現
GUIの設定で、ソースデータから抽出 → 加工 → ターゲットシステムへ格納
ソースデータ
ターゲット
システム
データベース
データベース
DB
AP開発
ファイル類
Javaコード
として
出力・実行
DB
JAR
ファイル類
開発
GUIで処理定義
Cloud/SaaS
Hadoop/Spark
Cloud/SaaS
連携・移行 Hadoop/Spark
データ統合
運用
データクオリティ
20
© NEC Corporation 2016
実行・監視
Talendの開発支援機能
▌高い開発生産性を発揮する開発作業環境「Talend Studio」
 成果物のリポジトリでの共有、ジョブの部品化など、チームで共同開発する機能を搭載
 処理フローをGUIで作成するため、仕様の特定が容易。さらに、ドキュメント自動生成
機能により仕様書の作成が可能
デザイン
ワークスペース
読み取り
書き込み
変換処理
共有リポジトリ
自動ドキュメント
(HTML, PDF)生成
※ デザインワークスペース上でも
ドキュメント内容を確認できます。
21
© NEC Corporation 2016
コンポーネント
追加処理を
ドラッグ&ドロップ
・ジョブのプレビュー
・使用コンポーネント
・コンポーネントの説明
などが出力
Talendの特長(1/3)
▌コードジェネレーション方式
GUIで定義したデータ変換ルールをJavaのコードで出力
ブラックボックスとならない透明性の高い実装モデル
実行ジョブは3通りの方法で実行可能
① 開発環境GUIのTalend Studioでジョブ実行(開発時のジョブ動作確認)
② 運用管理ツールTalend Administration Center(TAC)でジョブ実行(実際の運用で使用)
③ エクスポートしたジョブ(JARファイルとライブラリ一式)をTAC以外の運用管理ツール
( WebSAM JobCenter 等)から実行(Talend以外の製品で運用する場合)
【 Talend Administration Center(TAC) 】
【 Talend Studio】
②実行プランを登録
①ジョブ実行
③エクスポート
22
© NEC Corporation 2016
実行ジョブ
JAR
※Javaコードの改変は可能ですが、それに起因する
不具合については、サポートできない可能性があります。
Talendの特長(2/3)
▌Hadoop MapReduce/Sparkジョブ開発機能
 GUI上で部品の組み合わせによりMapReduce/Spark処理を開発
 Talend Administration Centerから、Oozieベースのジョブフロー運用を実現
① Talend Studio上で
MapReduce/Sparkジョブを設定
② 共有リポジトリに自動格納
③ TACより実行スケジュールとともに
Hadoopマスタノードへ実行モジュー
ルをデプロイ
④ MapReduce/Sparkジョブとして稼働
⑤ TACよりOozieと連動して日々の稼働
を監視
▌豊富なコネクタ
 様々なRDB、アプリケーションなどとのコネクタが追加費用なしで使用可能
Hadoop, Hortonworks, Pivotal HD, MapR, Cloudera, mongoDB, Couchbase, Cassandra, basho, Neo4j, Actian,
Netezza, Vertica, Greenplum, Teradata, SAP HANA, Amazon Elastic MapReduce, AWS Redshift, Google
bigquery
※Informatica PowerCenterでは、無償範囲に個数や種類の制限あり
23
© NEC Corporation 2016
(参考)Talendの接続先
データベース
ビッグデータ
NoSQL
ファイル
Access
AS400
DB2
eXist
EXSAsolution
Firebird
Greenplum
HSQLDb
Informix
Ingres
Interbase
JavaDB
LDAP
MaxDB
MS SQL Server
MySQL
Netezza
OleDb
Oracle
ParAccel
PostgresPlus
PostgreSQL
Redshift
VectorWise
Sas
SQLite
Sybase
Teradata
Vertica
汎用JDBC
汎用ODBC
Cassandra
Couchbase
CouchDB
Google
BigQuery
SAP Hana
HBase
HCatalog
HDFS
Hive
Impala
MarkLogic
MemSQL
MongoDB
Neo4j
Pig
Riak
Sqoop
ARFF
Excel
LDIF
XML
区切りファイル
マルチレイアウト
ファイル
Avro
Alfresco
Bonita
CentricCRM
Marketo
Microsoft AX
Microsoft CRM
NetSuite
Open Bravo
SageX3
SAP
SugarCRM
VtigerCRM
Amazon RDS (Aurora, MySQL, Oracle)
Amazon S3
Azure Storage
Box
Amazon EMR
Amazon Redshift
Google Drive
Google Strage
Marketo
Salesforce
ServiceNow
Parquet
アプリケーション
クラウド
Dropbox
ドットネット
DotNET
標準規約
EDIFACT
HL7
JBoss
Petals
FTP
Kafka
MOM and JMS
SCP
HTTP Request
POP
REST
RSS
Kerberos
Proxy
Socket
SVN
WebService
XML RPC
SMTP
SOAP
JSON
Pivotal HD
Microsoft
HDInsight
インターネット
ビジネスインテリ
Jasper
ジェンス
Hadoop
distribution
24
OLAPキューブ(Mondrian, Palo)
Hortonworks Data
Apache
Platform
© NEC Corporation 2016
Cloudera
SPSS
MapR
Amazon EMR
Talendの特長(3/3)
▌サブスクリプションライセンス
 1年を単位とするソフトウェア使用料金で、保守サポート料を含む
 ユーザ数により購入数が決まり、指名ユーザ数と同時利用ユーザ数がある
 必要なときに必要な分だけライセンスの購入が可能で、開発や運用といったフェーズに応
じてソフトウェア購入量を変えることができるため、低コストでの導入・運用を実現する
初期開発
運用
5ユーザ
1ユーザ
システム強化
運用
5ユーザ
1ユーザ
 一般的なソフトウェア製品はサーバ単位、コア単位のライセンスであり、大規模システム
ではかなり高額になるが、Talendではユーザ数に依存するため、低コストになる
監視
開発
開発環境
25
Talendならユーザ数分の
ライセンスでOK
© NEC Corporation 2016
本番環境
一般的なSW製品ではサーバ台数
/コア数分のライセンスが必要
OSS版 Talend と商用版の違いについて
▌OSS版 Talend は
 無償のオープンソース版で、サポートは提供されない
 個人レベルでのジョブ開発は可能
 開発したジョブのエクスポート/インポートは可能だが、同時開発は不可
 一人の開発者が、スタンドアロンで小規模なプログラムを開発・実行する使い方を前提と
し、チームでのシステム開発から本番運用までを含めてライフサイクル全般に渡る維持管
理機能は提供されない
▌OSS版にない商用版の主な機能
 開発にかかわる機能
バージョン管理と共有リポジトリ、データビューワー、影響分析、ジョブレット、チェンジデータキャ
プチャ (CDC)、パラレル処理、Data Quality 機能、Big Data機能、Data Mapper 機能
 運用管理にかかわる機能
ユーザーのロール管理、ジョブ生成とデプロイ機能、イベントスケジューラ―機能、実行プラン機能、
ジョブ実行サーバー監視機能、高可用性機能、運用履歴分析機能、リアルタイムモニタリング機能、
エラーリカバリ機能、コマンドオペレーション機能、リポジトリマネージャ機能、
26
© NEC Corporation 2016
お問い合わせ先
▌お問い合わせ先
NEC
パートナーズプラットフォーム事業部
ソフトウェアお問い合わせ
電話番号:03(3798)7177
受付曜日:月曜日~金曜日(祝日・NEC所定の休日を除く)
受付時間:9:00~12:00 13:00~17:00
▌Talend Webサイト
http://jpn.nec.com/soft/talend/
▌Hadoop / Spark サポートサービスWebサイト
http://jpn.nec.com/oss/middle_support/hadoop/
27
© NEC Corporation 2016
まとめ
NECでは
ビッグデータ処理基盤の
「はやい」導入と
「はやい」処理を
HadoopとTalend
で実現します!
28
© NEC Corporation 2016