HadoopとTalendで実現する ビッグデータ基盤の構築 2016年 11月 8日 NEC クラウドプラットフォーム事業部 田村 稔 目次 1. NECのビッグデータ活用基盤に対する ソリューションと事例 2. Hadoop導入検討ユーザの課題とTalendによる解決 3. NECが提供するHadoopサポートサービス 4. Talendの機能紹介 NECのビッグデータ活用基盤に 対するソリューションと事例 各業種へのビッグデータの活用の拡大 様々な業種でビッグデータの活用検討が始まる 製造 金融 通信 官公庁 医療 品質分析 リスク対策 営業販売 利便性 営業販売 リスク対策 営業販売 • SCM横断分析 • 不正検知 • 取引監視 • セキュリティ 分析 • 収益最適化 • 顧客離れ回避 • キャンペーン マネジメント • リコメンドエンジン • 不正検知 • サイバー セキュリティ • 販売計画最適化 • ブランド マネジメント • SCM 顧客サービス 顧客サービス • CRM • 優良顧客優待 • 優良顧客優待 • 商品化計画 • マーケット バスケット分析 • キャンペーン マネジメント • SCM • 市場と顧客の セグメント化 検査・検品 • 不良品検知 • センサデータ活用 品質管理 • 通話情報分析 • ネットワーク パフォーマンス 最適化 5 流通 © NEC Corporation 2016 マーケティング • クロスチャンネル 分析 • イベント分析 顧客サービス • 優良顧客優待 政策検討 • CO2ライフ サイクル アセスメント 医療 • 治療品質分析 • 新薬開発 NECのビッグデータ活用基盤に対するソリューション データの収集・蓄積から分析まで、データ活用フローをサポート データ連携 データ連携 業務システム 業務システム ERP/CRM ERP/CRM SCM... SCM... 音声 音声 ETL ETL Email Email Web ソーシャル Web Social M2M M2M データ処理 データ処理 ステージング ステージング バックアップ バックアップ データ分析 (AA) データ分析 (AA) DWH DWH 非構造化 非構造化 データ データ 蓄積/加工 蓄積/加工 テキスト カメラ テキスト カメラ センサ センサ あa あa ログ ログ 情報管理の強化、 情報管理の強化、 犯罪・不正の感知 犯罪・不正の感知 データ分析 (BI) データ分析 (BI) 製品/サービス 製品/サービス 価値向上・改善 価値向上・改善 (OLAP/統合基盤) ストリーム処理 ストリーム処理 Self Service BI Self Service BI (Visualization) (Visualization) 4921 6674 6568 7270 天候 モビリティ 天候 モビリティ 4921 7368 7368 7641 7641 1176 1176 etc etc © NEC Corporation 2016 オペレーション オペレーション 高度化/最適化 高度化/最適化 Business Analytics Business Analytics Enterprise BI Enterprise BI (OLAP/統合基盤) ウェアラブル ビーコン ウェアラブル ビーコン 6 AI/分析エンジン AI/分析エンジン ソリューション ソリューション 6674 7365 7365 5788 5788 1624 1624 6568 1937 1937 5423 5423 7381 7381 7270 3493 3493 8592 8592 8960 8960 顧客獲得・維持、 顧客獲得・維持、 販売促進 販売促進 適材適所の 人材マッチング NECのビッグデータ活用基盤に対するソリューション データの収集・蓄積から分析まで、データ活用フローをサポート データ連携 業務システム ERP/CRM SCM... 音声 Email Web Social ステージング バックアップ ETL データ分析 (AA) データ処理 DWH AI/分析エンジン オペレーション 高度化/最適化 あa Talend 非構造化 データ 蓄積/加工 M2M ソリューション Business Analytics 情報管理の強化、 犯罪・不正の感知 データ分析 (BI) 製品/サービス 価値向上・改善 テキスト カメラ Enterprise BI センサ ログ 顧客獲得・維持、 販売促進 Self Service BI 適材適所の 人材マッチング ストリーム処理 ウェアラブル ビーコン (Visualization) 天候 モビリティ 4921 7368 7641 1176 etc 分析の前に必要なフロー 7 (OLAP/統合基盤) © NEC Corporation 2016 6674 7365 5788 1624 6568 1937 5423 7381 7270 3493 8592 8960 分析の先に臨むもの NECのHadoop案件の現状の適用領域 Hadoop(Spark)は4つの領域での利用が中心 適用領域 代表的な事例 既存技術 Hadoopを採用する理由 基幹系バッチ処理 ・口座値洗い処理 ・小売業会計バッチ処理 ・MFやオープン基幹システム ・バッチ処理高速化 のバッチ処理 (スケールアップの限界への対策) ・高信頼RDBMS ・MFオープン化によるコスト削減 データストレージ ・スマートグリッド ・センサーデータ ・通信機器ログ ・カード不正利用検出 ・Index生成、レコメンド ・ライフログ ・なし ・RDBMSには不向きな大規模データ (新たに生まれたビッグデー を、安価・高速に処理することで価値 タ、もしくは活用されないま あるデータとして活用 ま捨てられていたビッグデー タ) データクレンジング ・ログ分析 ・データマイニング ・データを入れる前のデータクレ ンジング(加工) ・データ発生ストリーム処理 ・DWH ・ETLツール ・インメモリDB ・ストリーム処理 ・大量データを扱うDWHにはアプライア ンスが適している ・大量データを安価にデータクレンジング し、Hadoop等で分析しやすくする 高度分析 ・リアルタイム集計 ・ログ分析 ・独自に構築したエンジン ・手組 ・インメモリDB ・Hadoop APに独自エンジンを組み 込むことが可能 専用APの作成であるため柔軟な対 応が可能 (手組や独自エンジン) 8 © NEC Corporation 2016 導入事例は投影のみの公開とさせて頂きます 9 © NEC Corporation 2016 Hadoopを使ったシステムの構築事例 DWHやBA/BIツールの大量データ向けの拡張手段 ▌データの巨大化についてはHadoopクラスタで対応 ▌Hadoopによる前処理によりデータ量の圧縮と非構造化データの構造化を実施 ▌大量データ処理について構築コストと機能のバランスをとることが可能 スケールアウトにより膨大なデータに 関する処理能力を確保 故障監視 顧客動向 マーケッティング HDFS直接参照 高速なデータローディング ネットワーク機器や Webサイトで 発生する大量ログ Hadoopクラスタ バッチ処理 セキュリティ監査 企業で発生する INDEX作成 大量の文書 連携 機能 充実した分析機能と アプリケーション DWHアプライアンス アプリ アプリ アプリ : DataSources HBase Hive Flume Point Pig Oozie Sqoop DWH/BA Zookeeper 大量データと非構造化データを整理/前処理/集計 高度な分析 分析効果を検証するフェーズが必須。このフェーズが成功するかどうかが極めて重要 検証におけるTry&Errorのサイクルを短くすることで、ユーザにとっての最適解を見つけることができ、 新たなビジネスチャンスを得ることができる 10 © NEC Corporation 2016 Hadoop導入検討ユーザの課題と Talendによる解決 異種データソースからデータを集めて分析 Hadoopはまだ敷居が高く、アプリケーションを開発できる人が少ない データソース ②Hadoopの アプリケーション開発 データベース ファイル類 BIツール ③クレンジング ①点在する データソース からデータ収集 ダッシュボード : Cloud/SaaS : Hadoop DWH 分析チーム 出てきた課題 ① 多くのシステムにデータが分散されているので、データを集めるのが大変 ② Hadoopのアプリケーションを作ることができない、ノウハウがない ③ 分析するためにはデータのクレンジングが必要 12 © NEC Corporation 2016 Hadoopジョブ開発における課題をTalendで解決 スキルがなくてもHadoopアプリケーションの開発が可能 Hadoopジョブを開発できる エンジニア不足 ドラッグ&ドロップ Hadoopスキル修得のための コスト 期間 処理部品 Hadoopのメリットを 活かしたジョブを、GUI上で 作成することができます。 13 © NEC Corporation 2016 Talendの導入で課題解決 3つの課題が解決される有用なソリューション データソース Talend Talendの機能で ②Hadoopの 作成可能 アプリケーション開発 データベース Talend ファイル類 Talend データ収集の際に ③クレンジング 行うことも可能 アプリケーション ①点在する を作成すること データソース からデータ収集 なく収集 BIツール ダッシュボード : Cloud/SaaS : Talend Hadoop DWH 差分配信もできるのでリアルタイム分析が可能 分析チーム Talendで解決した課題 ① Talendが対応しているデータソースなら、ノンプログラミングで連携可能 ② HadoopのアプリケーションをスキルがなくてもTalendで可能 ③ データのクレンジングは、データの収集の際に行うことも可能となる 14 © NEC Corporation 2016 TalendをNECから購入する強み ▌全社施策のデータ移行効率化施策でTalendを利用 NECでは全社施策として推進している「データ移行効率化施策」で Talend を利用してい るため、ノウハウ、実績およびサポート体制が充実。 ▌Talend社とのパートナーシップ Talend社とは単なる再販契約ではなく、OEM 契約を行っているため、より密な連携を 行って、案件に対応可能。 ▌NECのHadoop/Spark サポートチームとの連携 NECは Hadoop/Spark サポートサービスを行っており、Hadoopサポートチームと一体と なったシステム構築の支援が可能。 ▌ ETLツールに対する安心のサポート力 10年以上にわたる様々なETLツールのサポート経験に裏打された技術力。 金融業、製造業、通信業、流通業、公共など、幅広い業種で100PJ以上に導入した実績。 ▌システム全体を包括できるNEC製品ラインナップ 充実したNEC製品のラインナップがあるため、ETL処理周りも合わせたソリューションを 提供可能 NECの社製品 高速データ処理エンジン 「InfoFrame DataBooster」と連携したTalendの 独自コンポーネントを提供 15 © NEC Corporation 2016 NECが提供するHadoopサポートサービス Hadoop構築支援サービス 構築経験豊かな技術者によるHadoop中心の支援サービスを展開中 多数の導入実績から得たノウハウを提供 サプ ーロ ビ フ スェ ッ シ ョ ナ ル 事前検証 提案 設計 開発 構築 健康診断サービス コンサルティングサービス バックエンドサービス ▌プロフェッショナルサービス 健康診断サービス 「Hadoopの応答が遅い」等の問題を抱えているシステムを診断し、適切な状態で Hadoopクラスタが設計・運用されているかヘルスチェックを実施 コンサルティングサービス 専門スキルを有する技術者が、お客様のプロジェクトを初期段階から支援 バックエンドサービス Hadoopの構築に関する技術情報の提供などお客様のプロジェクトを後方支援を実施 17 評価 © NEC Corporation 2016 運用 Hadoop構築支援サービス 様々な知見に基づき専門の技術者が検証フェーズから運用フェーズまで支援 サ構 ー築 ビ 支 ス援 事前検証 提案 設計 事前検証 チューニング 支援サービス 適用支援 サービス 開発 ササ ーポ ビ ー スト 構築 評価 SIサービス ヘルプデスクサービス 障害対応サービス ▌構築支援サービス ▌サポートサービス 適用支援サービス ヘルプデスクサービス システム設計支援サービスとして、関連コンポーネントの 選定を支援 事前検証チューニング支援サービス 提供された試験環境にHadoopを構築しHadoopシステム の動作チューニングについての検証を実施 SIサービス Hadoopクラスタの構築支援を実施 18 運用 © NEC Corporation 2016 Hadoopに対するマニュアルレベルの 技術的な問い合わせ(パッチ情報を含む)対応を実施 障害対応サービス Hadoopの障害や各種問題について、技術的な支援を実施 Talendの機能紹介 Talendとは 開発・運用・維持管理をサポートするデータ統合連携基盤 コストを抑え、高い生産性でAP開発およびデータ移行・統合・連携を実現 GUIの設定で、ソースデータから抽出 → 加工 → ターゲットシステムへ格納 ソースデータ ターゲット システム データベース データベース DB AP開発 ファイル類 Javaコード として 出力・実行 DB JAR ファイル類 開発 GUIで処理定義 Cloud/SaaS Hadoop/Spark Cloud/SaaS 連携・移行 Hadoop/Spark データ統合 運用 データクオリティ 20 © NEC Corporation 2016 実行・監視 Talendの開発支援機能 ▌高い開発生産性を発揮する開発作業環境「Talend Studio」 成果物のリポジトリでの共有、ジョブの部品化など、チームで共同開発する機能を搭載 処理フローをGUIで作成するため、仕様の特定が容易。さらに、ドキュメント自動生成 機能により仕様書の作成が可能 デザイン ワークスペース 読み取り 書き込み 変換処理 共有リポジトリ 自動ドキュメント (HTML, PDF)生成 ※ デザインワークスペース上でも ドキュメント内容を確認できます。 21 © NEC Corporation 2016 コンポーネント 追加処理を ドラッグ&ドロップ ・ジョブのプレビュー ・使用コンポーネント ・コンポーネントの説明 などが出力 Talendの特長(1/3) ▌コードジェネレーション方式 GUIで定義したデータ変換ルールをJavaのコードで出力 ブラックボックスとならない透明性の高い実装モデル 実行ジョブは3通りの方法で実行可能 ① 開発環境GUIのTalend Studioでジョブ実行(開発時のジョブ動作確認) ② 運用管理ツールTalend Administration Center(TAC)でジョブ実行(実際の運用で使用) ③ エクスポートしたジョブ(JARファイルとライブラリ一式)をTAC以外の運用管理ツール ( WebSAM JobCenter 等)から実行(Talend以外の製品で運用する場合) 【 Talend Administration Center(TAC) 】 【 Talend Studio】 ②実行プランを登録 ①ジョブ実行 ③エクスポート 22 © NEC Corporation 2016 実行ジョブ JAR ※Javaコードの改変は可能ですが、それに起因する 不具合については、サポートできない可能性があります。 Talendの特長(2/3) ▌Hadoop MapReduce/Sparkジョブ開発機能 GUI上で部品の組み合わせによりMapReduce/Spark処理を開発 Talend Administration Centerから、Oozieベースのジョブフロー運用を実現 ① Talend Studio上で MapReduce/Sparkジョブを設定 ② 共有リポジトリに自動格納 ③ TACより実行スケジュールとともに Hadoopマスタノードへ実行モジュー ルをデプロイ ④ MapReduce/Sparkジョブとして稼働 ⑤ TACよりOozieと連動して日々の稼働 を監視 ▌豊富なコネクタ 様々なRDB、アプリケーションなどとのコネクタが追加費用なしで使用可能 Hadoop, Hortonworks, Pivotal HD, MapR, Cloudera, mongoDB, Couchbase, Cassandra, basho, Neo4j, Actian, Netezza, Vertica, Greenplum, Teradata, SAP HANA, Amazon Elastic MapReduce, AWS Redshift, Google bigquery ※Informatica PowerCenterでは、無償範囲に個数や種類の制限あり 23 © NEC Corporation 2016 (参考)Talendの接続先 データベース ビッグデータ NoSQL ファイル Access AS400 DB2 eXist EXSAsolution Firebird Greenplum HSQLDb Informix Ingres Interbase JavaDB LDAP MaxDB MS SQL Server MySQL Netezza OleDb Oracle ParAccel PostgresPlus PostgreSQL Redshift VectorWise Sas SQLite Sybase Teradata Vertica 汎用JDBC 汎用ODBC Cassandra Couchbase CouchDB Google BigQuery SAP Hana HBase HCatalog HDFS Hive Impala MarkLogic MemSQL MongoDB Neo4j Pig Riak Sqoop ARFF Excel LDIF XML 区切りファイル マルチレイアウト ファイル Avro Alfresco Bonita CentricCRM Marketo Microsoft AX Microsoft CRM NetSuite Open Bravo SageX3 SAP SugarCRM VtigerCRM Amazon RDS (Aurora, MySQL, Oracle) Amazon S3 Azure Storage Box Amazon EMR Amazon Redshift Google Drive Google Strage Marketo Salesforce ServiceNow Parquet アプリケーション クラウド Dropbox ドットネット DotNET 標準規約 EDIFACT HL7 JBoss Petals FTP Kafka MOM and JMS SCP HTTP Request POP REST RSS Kerberos Proxy Socket SVN WebService XML RPC SMTP SOAP JSON Pivotal HD Microsoft HDInsight インターネット ビジネスインテリ Jasper ジェンス Hadoop distribution 24 OLAPキューブ(Mondrian, Palo) Hortonworks Data Apache Platform © NEC Corporation 2016 Cloudera SPSS MapR Amazon EMR Talendの特長(3/3) ▌サブスクリプションライセンス 1年を単位とするソフトウェア使用料金で、保守サポート料を含む ユーザ数により購入数が決まり、指名ユーザ数と同時利用ユーザ数がある 必要なときに必要な分だけライセンスの購入が可能で、開発や運用といったフェーズに応 じてソフトウェア購入量を変えることができるため、低コストでの導入・運用を実現する 初期開発 運用 5ユーザ 1ユーザ システム強化 運用 5ユーザ 1ユーザ 一般的なソフトウェア製品はサーバ単位、コア単位のライセンスであり、大規模システム ではかなり高額になるが、Talendではユーザ数に依存するため、低コストになる 監視 開発 開発環境 25 Talendならユーザ数分の ライセンスでOK © NEC Corporation 2016 本番環境 一般的なSW製品ではサーバ台数 /コア数分のライセンスが必要 OSS版 Talend と商用版の違いについて ▌OSS版 Talend は 無償のオープンソース版で、サポートは提供されない 個人レベルでのジョブ開発は可能 開発したジョブのエクスポート/インポートは可能だが、同時開発は不可 一人の開発者が、スタンドアロンで小規模なプログラムを開発・実行する使い方を前提と し、チームでのシステム開発から本番運用までを含めてライフサイクル全般に渡る維持管 理機能は提供されない ▌OSS版にない商用版の主な機能 開発にかかわる機能 バージョン管理と共有リポジトリ、データビューワー、影響分析、ジョブレット、チェンジデータキャ プチャ (CDC)、パラレル処理、Data Quality 機能、Big Data機能、Data Mapper 機能 運用管理にかかわる機能 ユーザーのロール管理、ジョブ生成とデプロイ機能、イベントスケジューラ―機能、実行プラン機能、 ジョブ実行サーバー監視機能、高可用性機能、運用履歴分析機能、リアルタイムモニタリング機能、 エラーリカバリ機能、コマンドオペレーション機能、リポジトリマネージャ機能、 26 © NEC Corporation 2016 お問い合わせ先 ▌お問い合わせ先 NEC パートナーズプラットフォーム事業部 ソフトウェアお問い合わせ 電話番号:03(3798)7177 受付曜日:月曜日~金曜日(祝日・NEC所定の休日を除く) 受付時間:9:00~12:00 13:00~17:00 ▌Talend Webサイト http://jpn.nec.com/soft/talend/ ▌Hadoop / Spark サポートサービスWebサイト http://jpn.nec.com/oss/middle_support/hadoop/ 27 © NEC Corporation 2016 まとめ NECでは ビッグデータ処理基盤の 「はやい」導入と 「はやい」処理を HadoopとTalend で実現します! 28 © NEC Corporation 2016
© Copyright 2024 Paperzz