Talend Big Data Sandbox Cookbook

Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
セットアップ
と構成設定
前提条件
Hadoop
ディストリ
ビューション
ダウンロード
デモ
(シナリオ)
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoop
ディストリ
ビューション
デモ(シナリオ)
クックブックについて
Talendクックブックとは何か?
クックブックは、Talendのリアルタ
イム・ビッグデータプラットフォー
ムを使用する上でのエンドツーエン
ドの統合シナリオを作成して、これ
を稼働するためのステップごとのイ
ンストールガイドを提供するための
ものです。
実環境での利用ケースを想定した各
種のデモが用意されています。
Talend、Spark、NoSQLおよびリア
ルタイム・メッセージングをいかに
皆さんの日々のビジネス環境に容易
に統合出来るかを実際に示してくれ
ます。
クックブックは、バッチ、ストリー
ミング、リアルタイム統合を問わず
、皆さんが直面しているビッグデー
タの課題に対応するためにTalendを
いかに活用することが出来るかを理
解する切っ掛けを提供します。そし
て、皆さんのビジネス環境をいかに
データドリブンの時代へ移行するこ
とが出来るかを提示します。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
Hadoop
ディストリ
ビューション
セットアップと
構成設定
前提条件
デモ(シナリオ)
ビッグデータサンドボックスと何か?
Hadoopデ
ィストリビ
ューション
(Dockerコン
テナによってホ
スティング)
Talendリア
ルタイム・
ビッグデー
タプラット
フォーム
直ぐに使え
るシナリオ
Talendリアルタイム・ビッグデー
タサンドボックスは、Talendリア
ルタイム・ビッグデータプラット
フォームと事前設定された直ぐに
使用可能なサンプルシナリオを組
み合わせた仮想環境です。
データ
サンドボックスの
例
仮想環境
リアルタイ
ム意思決定
Apache Kafka、Spark、Spark
Streaming、HadoopおよびNoSQLを
統合するサンドボックスのシナリオに
よってTalendがデータをリアルタイ
ムの意思決定に変えることが出来るか
を示します。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoop
ディストリ
ビューション
デモ(シナリオ)
サンドボックスを稼働するための前提条件
ビッグデータ向けのTalendプラットフォーム製品には、グラフィカルIDE(Talend Studio)、チーム開発管理、データ品質、
各種のアドバンスド・ビッグデータ機能が含まれています。
セットアップを完了させるにはインターネット接続が必須です!
VMWareやVirtualboxなどの仮想マシンのサポートが必
完全な機能一覧については、以下のTalend Webサイトを参照
して下さい。
http://www.talend.com/products/real-time-big-data
要な場合は、各社のサイトからダウンロードすることが出
来ます。
• VMware Playerサイト
• Virtualboxサイト
VM Playerインストール手順については、各プロバイダーの指示に従って下さい
推奨ホストマシンの仕様は、次の通りです。
メモリ
8-10GB
ディスク
20GB
(5GBはイメージ
ダウンロード用)
サンドボックス仮想マシンファイルをダウンロードします。
https://info.talend.com/prodevaltpbdrealtimesandbox.html
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
セットアップと
構成設定
前提条件
Hadoop
ディストリ
ビューション
デモ(シナリオ)
サンドボックスのセットアップおよび構成設定の仕方
ビッグデータ・サンドボックスのインストールと構成設定については、以下に示す手順に従って下さい。
• ダウンロードした仮想マシンファイルを各自のPC上のアクセスしやすい場所(例えば、C:¥TalendSandbox)に保存
• 仮想マシンプレイヤーおよび使用中のマッチングするサンドボックスファイルに従って次の手順を実行
VMware Player
Virtualbox
1.
Virtualboxを開く
2
2.
メニューバーから、[File] を
選択し、[Import Appliance]
を選択する
3.
ダウンロードした.ovaファイ
ルを参照して、これを選択し
て、[Next]をクリックする
4.
3a
1.
VMware Playerを開く
2.
[Open a Virtual Machine]
をクリックする
3.
ダウンロードした.ovaファ
イルを参照して、これを選
択して、
[Open]をクリックする
4.
新規の仮想マシンのための
ストレージパス(例えば、
C:¥TalendSandbox¥vmwar
e)を選択し、[Import.]を
クリックする
3b
[Import]をクリックしてデフ
ォルトのアプライアンス設定
を受け入れる
2
4a
4b
4
注:Talend Big Dataサンドボックス仮想マシンは、8GB RAMおよび2 x CPUで稼働するように設定されています。各自のPCの能力
に応じてこれらのセッティングを調整する必要があります。なお、事前には設定されていませんが、仮想環境でチュートリアルビデ
オを利用するためには、VMを起動する前にSound Card/Devise を有効化することを推奨します。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoop
ディストリ
ビューション
デモ(シナリオ)
初めてVMを起動する
• Talend Big Dataサンドボックスを初めて起動するのならば、仮想環境を構築するための10ステップのプロセスで仮想マシ
ンを開始して下さい。
• このプロセスは、インターネット接続速度とネットワークトラフィックによりますが、10分から20分で完了します。ポッ
プアップメッセージがスクリーン上に表示され、進捗状態が逐次報告されます。
• サンドボックスがこのビルドプロセスを完了すると、サンドボックスは
自動的にリブートされます。
ログイン情報
ユーザー :
パスワード:
Sudoパスワード:
talend
talend
talend
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoop
ディストリ
ビューション
デモ(シナリオ)
初めてVMを起動する(続き)
• 仮想マシンがリブートされると、ビルドプロセス中にインストールされた Dockerコンポーネントは初期化する必要が
あります。
• さらにポップアップメッセージが表示され、進捗が知らされます。
• 全てが完了すると、[System is Ready]が表示されます。
ログイン情報
ユーザー :
パスワード:
Sudoパスワード:
talend
talend
talend
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
Hadoop
ディストリ
ビューション
セットアップと
構成設定
デモ(シナリオ)
初めてTalend Studioを起動する
1. デスクトップアイコンをダブルクリックするかUnity Barアイ
コンをクリックして、Talend Studioを起動します。
2. エンドユーザーライセンス合意を確認して
1
[I Accept]をクリックします。
3. 次に、[Manage Connections]をクリックして
、各自のメールアドレスを記入して、[OK]をク
リックします。
4. [Base_Project ](javaプロジェクト)を選択し
て、[Finish]をクリックします。
5. Studioをロードして、[Welcome]画面を閉じま
す。
6. 追加のTalendパッケージをインストールしま
す。Required third-party librariesおよび
Optional third-party libraries を選択して、
[Finish]をクリックします。
7. ポップアップメッセージが、承認する必要が
ある全てのサードパーティライセンスを表示し
ます。[I accept the terms of the selected
license agreement]ラジオボタンを選択して、
[Accept all]をクリックします。
8. 継続前にダウンロードを完了させて下さい。
2つ目のポップアップメッセージが表示され、
7
ステップ7を繰り返すことを要求してきます。
2
3
6a
6b
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
日本語環境を設定する
1. Ubuntu Linuxに日本語パッケージを導入します。右上のメニ
ューボタンで「System Settings…」を選択します。
2. 「Language Support」を開きます。
3. パッケージの追加インストールが必要な旨、表示される場合
、「Install」をクリックします。
4. Rootのパスワード「talend」を入力します。
5. インストール完了後は、「日本語」をマウスで掴んで
一番上に配置します。
6. 「Apply System-wide」を選択します。
7. Rootのパスワード「talend」を入力します。
8. キーボード配列の調整が必要な場合、シェルから
「sudo dpkg-reconfigure keyboard-configuration」
を打ちます。sudoパスワードは「talend」です。
9. 再起動します。
Hadoop
ディストリ
ビューション
デモ(シナリオ)
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ディストリビューションを選択する
注:サンドボックスを評価するにはディストリビュ
ーションをダウンロードする必要はありません。こ
こをクリックして すぐ開始することが出来ます!
次の手順に従って、Talend Big Dataサンドボックスに
Hadoopディストリビューションをインストールして下さい。
1. Firefoxを起動する
1
2. Talendプラットフォームで評価することを希望するディ
ストリビューションを選択します。
3. しばしお待ち下さい。仮想マシンをダウンロード
して、選択されたディストリビューションをインストー
ルします。各ディストリビューションは
約2.5GB必要です(通知メッセージが進捗を示します)。
2
3
4. インストールが完了すると、仮想マシンがリブートされ
ます。
5. リブート後に、ディストリビューションを確認して下さ
い。WeaveScopeを通して、Dockerコンテナがオンライ
ンになっています。ブックマークでリンクが利用出来ま
す。
注:チュートリアルビデオが用意されていますので
、サンドボックスのさらなる詳細を確認下さい。
5
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
注:本デモはローカルモードとディストリビューションモードで利用することが出来ます。ローカルモードでは、Talend
のローカルSparkエンジンとローカルファイルシステムを使います。ディストリビューションモードでは、選択されたディ
ストリビューションのYARNリソースマネージャーとHDFSファイルシステムを使います。
概要:
本デモでは、皆さんのWebサイトをイ
ンテリジェントなアプリケーションを
変える簡単な例を示します。
チャネル
顧客
Eメール
体験してみよう:
Webサイト
• Spark商品レコメンドモデルをビルド
店舗
する。
• 新規のKafkaトピックをセットアップ
して、小売Webストアを閲覧してい
るライブWebユーザーからライブ
Webトラフィックをシミュレーショ
ンする。
• ここで最も重要なポイントは、スト
ストリーミング
ショッピング
カート
(レコメンド)
NoSQL
Window
アップデート
Sparkエンジン
(レコメンデーショ
ン)
社内システム
POS
クリック
ストリーム
ストリーミング
リーミングデータを取り出して、シ
ョッピングカート販売増を支援する
…….
リアルタイムレコメンデーションに
変えることがTalendを使って容易に
出来ることを体験することです。
次のデモは、Talendの活用が皆さんのビッグデータプロジェクトにもたらす価値を示すこと目的としています。
商品レコメンデーションデモは、皆さんのビッグデータアーキテクチャ内でのSparkの使用にもたらすTalendが実現する簡素化と柔軟
性を例示するために設計されています。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
本デモのハイライト:
Kafka
リアルタイムのストリーミング
データを生成して、活用する
Kafkaトピックを作成する
機械学習
特定のユーザー行動をベースに
Spark商品レコメンドモデルを
作成する
Sparkストリー
ミング
WebUIの“Fast Data”アクセスを
可能にするのために、ライブ商
品推奨をCassandra NoSQL
データベースへストリーミング
する
ALSモデルに精通している場合には、ALSパラメーターを調整してALSモデルを機能強化することも、
デフォルト値のまま使用することも出来ます。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
デモセットアップ:
商品レコメンドデモを実行するには、ソースデータを生成
して、Cassandraルックアップテーブルを事前に設定するこ
とが必要である。
1
2
3
1. [Job Designs]フォルダーへナビゲートする。
2. [Standard Jobs]をクリックして、
[Realtime_Recommendation_Demo]を選択する。
3. [Step_1a_Recommendation_DemoSetup 0.1]をダブ
ルクリックする。デザイナーウインドウにこのジョブ
を開く。
4. Runタブから、[Run]をクリックして、実行する。
5. このジョブが終了したら、
Step_1b_Recommendation_DemoSetup 0.1のため
にステップ1から4を繰り返す。
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
商品レコメンドデモを実行する:
Kafkaトピックを作成する:
1
1. [Job Designs]フォルダーへナビゲートする。
2
2. [Standard Jobs]をクリックして、
[Realtime_Recommendation_Demo]を選択する。
3. [Step_2_Recommendation_Create_KafkaTopic
0.1]をダブルクリックする。デザイナーウインドウに
このジョブを開く。
3
4. Runタブから、[Run]をクリックして、実行する。
ここで、商品評価データをALS(Alternating Least
Squares)アルゴリズムにロードすることで、
商品レコメンドを生成することが出来ます。Scala
による複雑なアルゴリズムをコーディングするのではな
く、Talend Studioで利用出来る1つのSparkコンポーネン
トによってモデル作成のプロセスが簡素化されます。
レストランモデルは、このケースでは、ローカルで
HDFS内に保存することが出来ます。
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
商品レコメンドデモを実行する:
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
1
Sparkを使って商品レコメンドモデルを生成する。
1. [Job Designs]フォルダーへナビゲートする。
2. [Big Data Batch ]をクリックして、
[Realtime_Recommendations_Demo]を
選択する。
2
3
3. [Step_3_Recommendation_Build_Model_
Spark 0.1]をダブルクリックする。デザイナー
ウインドウにこのジョブを開く。
4. Runタブから、[Run]をクリックして、実行する。
作成された商品レコメンドモデルによって、ルックア
ップテーブルがセットされ、Kafkaトピックがデータ
を利用出来るようになりますので、ここでクリックス
トリームのデータを商品レコメンドへストリーミング
することが出来るようになり、ストリーミング結果を
Cassandraテーブルに置くことでWebUIから参照出来
るようになります。
4
ALSモデルに精通している場合には、ALSパラメーターを調整sしてALSモデルを機能強化することも、
デフォルト値のまま使用することも出来ます。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
商品レコメンドデモを実行する:
1. [Job Designs]フォルダーへナビゲートする
。
2
2. [Standard Jobs]をクリックして、
[Realtime_Recommendation_Demo]を
選択する。
3. [Step_4a_Recommendation_Push_to_
Kafka 0.1]をダブルクリックする。デザイナ
ーウインドウにこのジョブを開く。
3
4. Runタブから、[Run]をクリックして、実行
する。
ジョブがセットアップされ、Kafkaトピックに
Webトラフィックとクリックストリームデータ
のリアルタイムのストリーミングがシミュレー
ションされ、商品レコメンドの生成のために商
品レコメンドエンジンによって利用されます。
KafkaへのPushを起動後に、本デモの
以降のステップを続行します。
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
商品レコメンドデモを実行する:
このジョブ内では:
•
•
•
•
Kafkaコンシューマーがクリックストリームデータをリードする。
このデータは商品レコメンドエンジンへフィードされ、現在のユーザー行動をベースにリアルタイムの“オファー”を生成する。
tWindowコンポーネントがどれくらいの頻度で商品推奨を生成するかをコントロールする。
商品推奨は3つのアウトプットストリームへ送信される。
 閲覧目的のための[Execution]ウインドウ
 ビッグデータアナリティクス環境内で今後の処理のためのファイルシステム
1
 WebUIによって“Fast Data”レイヤー内で使用するためのCassandra
Kafkaトピックへのデータストリーミングによ
って、商品レコメンドパイプラインを始動する
。
1. [Job
る。
2.
Designs]フォルダーへナビゲートす
2
[Big Data Streaming]をクリックして、
[ Realtime_Recommendations_Demo]を
選択する。
3. [Step_4b_Recommendation_Realtime_
Engine_Pipeline 0.1]をダブルクリックす
る。デザイナーウインドウにこのジョブを
開く。
4. [RUN]をクリックして、商品レコメンドエ
ンジンを起動する。
3
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
商品レコメンドデモを実行する:
実行アウトプットウインドウを確認する。
ここで、商品レコメンドをベースに推奨
された商品を含むリアルタイムデータを
見ることが出来る。
商品レコメンドはCassandraデータベー
スへも書き出されるので、WebUIによっ
て参照することができ、顧客がチェック
アウト時に最終的な商品アドバイスを行
うことが出来る。
 結果が表示されると、商品レコメンドエ
ンジンをKillすることが出来る。Kafka
ジョブへのPushで、ストリーミング商
品推奨を
停止する。
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
注:このデモを実行するには、Hadoopディストリビューションが必要です。
Hadoopディストリビューションが選択されていない場合は、ここをクリックして下さい。
概要:
この例では、スポーツイベントで
のフィールド内の選手の動きを追
跡するためにKafkaキューを通し
てデータのリアルタイムストリー
ミングを利用します。
データ
ベース
体験してみよう:
• IoTデバイス(例えば、フィール
ドカメラセンサー)からのリアル
タイムストリーミングデータを使
って、Kafkaキューを作成し、デ
ータ入力する。
• Sparkストリーミングテクノロジ
ーを使って、各プレイヤーのスピ
ードや移動距離を計算する。
• リアルタイムのWebベースダッシ
ュボードにプレイヤーのスピード
と距離をプロッティングする。
Ingest
Process
Store
Deliver
Visualiz
e
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
本デモのハイライト:
Kafkaへの
IoTデータ
XMLファイル内のIoTデータを
キャプチャし、次にリアルタイ
ム処理のために Kafkaキューへ
このデータをロードする。
Sparkストリー
ミング
Sparkストリーミングテクノロ
ジーを使用して、プレイヤーの
距離とスピードをプレイヤーの
フィールドでの動きに合わせて、
瞬時に計算する。
ライブダッシュ
ボードへの
RESTサービス
RESTful Web サービスを使って
、プレイヤーの動きをWebベー
スダッシュボードで追跡する。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
1
スポーツ統計デモを実行する:
ライブデータがストリーミングするKafkaトピック
を作成する。
1. [Job Designs]フォルダーへナビゲートする。
2
3
2
2. [Standard]をクリックして、
[Realtime_SportStats_Demo]を選択する。
3. [Step_1_SportStats_Create_KafkaTopic 0.1]
をダブルクリックする。デザイナーウインドウ
にこのジョブを開く。
4. Runタブから、[Run]をクリックして、実行す
る。
2
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
スポーツ統計デモを実行する:
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
1
XMLファイル内のデータ(例えば、センサーによ
って生成されたデータ)を読み取り、Kafkaトピッ
クへ入力する。
1. [Job Designs]フォルダーへナビゲートする。
2. [Standard]をクリックして、
[Realtime_SportStats_Demo]を選択する。
2
3
3. [Step_2_SportStats_Read_Dataset 0.1]をダ
ブルクリックする。デザイナーウインドウにこ
のジョブを開く。
4. Runタブから、[Run]をクリックして、実行す
る。
このステップは、Kafkaトピックへフィード
されているライブのプレイヤー追跡データを
シミュレーションする。
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
スポーツ統計デモを実行する:
このジョブ内では:
•
•
•
•
•
Kafkaコンシューマーがセンサーデータをリードする。
tWindowコンポーネントが、どれくらいの頻度でKafkaトピックからデータを読み込むかをコントロールする。このケースでは、
10秒分のデータを10秒ごとに読み取る。
このデータは、以降の処理を容易にするために正規化される。
Using the tCacheコンポーネントを使用して、プロセスはプレイヤーの動きをベースに距離およびスピードを計算する。
計算結果は2つのアウトプットストリームへ送信される。
 閲覧目的のための[Execution]ウインドウ
 ダッシュボード表示を生成するためにWebサービスによって読み取られるMySQLデータベース(MySQLはDockerコンテナ上
で稼働する)
1. [Job Designs]フォルダーへナビゲートする。
2.
[Big Data Streaming]をクリックして、
[Realtime_SportStats_Demo]を選択する。
1
3. [Step_3_SportStats_LiveStream 0.1]
をダブルクリックする。デザイナーウインドウ
にこのジョブを開く。
4. Runタブから、[Run]をクリックして、実行する
。
SportStatsライブストリームを起動後に、
本デモの以降のステップを続行します。
2
3
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoop
ディストリ
ビューション
デモ(シナリオ)
商品レコメンド
スポーツ統計
クリックストリーム
ETLオフロード
Apache Webログ
スポーツ統計デモを実行する:
1
Webサービスを起動して、スポーツ統計の
Webベースダッシュボードへデータ入力す
る。
2
1. [Job Designs]フォルダーへナビゲー
トする。
3
2. [Standard]をクリックして、
[Realtime_SportStats_Demo]を選択
する。
3. [Step_4_SportStats_WebService
0.1]をダブルクリックする。デザイナ
ーウインドウにこのジョブを開く。
4. Runタブから、[Run]をクリックして、
実行する。
Webサービスを起動したら、このデ
モの次のステップを続行する。
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
スポーツ統計デモを実行する:
2
リアルタイムに更新されるプレイヤーの動
きを反映するライブダッシュボードを確認
する。
1. Firefox Webブラウザーを開く。
2. ブックマークツールバー上で、
[Demos]をクリックして、
[SportStats Demo]を選択する。
1
 Talend Studioに戻って結果を確認し
たら、Webサービスとライブストリ
ーミングの両方のジョブをKillする
ことが出来る。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
注:このデモを実行するには、Hadoopディストリビューションが必要です。
Hadoopディストリビューションが選択されていない場合は、ここをクリックして下さい。
概要:
この例では、ネイティブ
MapReduceを使用してデータセ
ットを拡張し、異なるWebベース
ダッシュボードに対しての結果を
集計することを例示します。
体験してみよう:
クリックス
トリーム
• HDFSへデータをローディングす
る
• Hadoop環境内でデータの拡張
および集計のためにMapReduce
を使用する
• 計算結果を集計するWebベース
ダッシュボードを生成するために
サードパーティのグラフ化ツール
を使用する
Ingest
Process
Store
Deliver
Visualiz
e
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
本デモのハイライト:
HDFS
Talendのサンプルコンポーネン
トを使ってHDFSへのデータを
リードおよびライトする
ネイティブ
MapReduce
TalendのMapReduceコンポー
ネントを使って、Hadoop内で
データをネイティブで拡張して
分析する
インサイト
Microsoft Excel またはTableau
などのグラフ化ツールへ分析
データをフィードして、結果を
分かりやすく表示する
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
デモセットアップ:
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
1
HDFSへデータをロードする。
1. [Job Designs]フォルダーへナビ
ゲートする。
2
3
2. [Standard]をクリックして、
[Clickstream_Scenario]から
[ Pre_Requirements]を選択する
。
3. [LoadWeblogs 0.1]をダブルクリ
ックする。デザイナーウインドウ
にこのジョブを開く。
4. Runタブから、[Run]をクリック
して、実行する。
4
このジョブが完了したら、
MapReduce
ジョブで使用するためにルックアップ
ファイルをHDFSへアップロードする
。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
クリックストリームデモを実行する:
このプロセスの結果は、米国内の異なる
エリアでの商品嗜好を示す集計データで
す。Google Chart上で可視化することが
出来る。
1. [Job Designs]フォルダーへナビゲー
トする。
2. [Standard]をクリックして、
[Clickstream_Scenario]を選択する
。
1
2
3
3. [Step_1_Clickstream_MasterJob
0.1]をダブルクリックする。デザイナ
ーウインドウにこのジョブを開く。
4. Runタブから、[Run]をクリックして
、実行する。
4
注:追加のJarファイルのダウンロー
ドとインスト-ルが要求された場合は
、[Download and Install]をクリッ
クする。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
Apache Webログデモを実行する:
HDFS内でデータを閲覧する。
3
1. Firefoxを開く。
2. ブックマークリンク[HDFS
Browser]をクリックする。
2
3. [Utilities] ドロップダウン内で
[Browse the File System]を選択し
て、
/user/talend/clickstream_demo/
output/resultsへナビゲートする。
4. データファイルを閲覧するには、
HDFSからデータファイルをダウン
ロードすることが必要。[part00000] をクリックして、
[download]を選択することで、Web
ブラウザー内に表示される。
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
2
クリックストリームデモを実行する:
アナリティクス分析ダッシュボードを閲覧する。
1. Firefox Webブラウザーを開く。
2. ブックマークツールバー上で、[Demos]をクリ
ックして、[Clickstream Demo]を選択する。
3. 希望する州をマウスオーバーして、集計カウン
トを確認する。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoopディストリ
ビューション
デモ(シナリオ)
商品レコメンド
スポーツ統計
クリックストリーム
ETLオフロード
Apache Webログ
クリックストリームデモを実行する:
追加の分析を実行することで、特定のリンクをアク
セスするユーザーの年齢や性別を算出することが出
来る。
1
1. [Job Designs]フォルダーへナビゲートする。
2. [Big Data Batch ]をクリックして、
[Clickstream_Scenario]を選択する。
2
3
3. [Step_1_Clickstream_SimpleFile_Omniture_
MR 0.1]をダブルクリックする。デザイナーウ
インドウにこのジョブを開く。
4. Runタブから、[Run]をクリックして、実行す
る。
このジョブの結果は、HDFSファイルブラウザーで
確認することが出来る。
/user/talend/clickstream_demo/output/results
4
HDFS内の分析データを使って、Hiveテー
ブルへロードすることで、さらなるクエリ
を実行したり、可視化ツールへインポート
したり出来る。デモの次のステップを続行
することで、さらなる処理をいかに実行す
るかを理解出来る。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
クリックストリームデモを実行する:
分析が完了したら、HDFSから生ファイルを引き出
すか、またはHiveテーブルへロードしてさらなるク
エリを実行することが出来る。
1
2
3
1. [Job Designs]フォルダーへナビゲートする。
2. [Standard]へナビゲートして、
[Clickstream_Scenario]から
[Clickstream_Step_by_Step]を選択する。
3. [ Step3_Clickstream_Get_WeblogAnalytics
0.1]をダブルクリックする。デザイナーウインド
ウにこのジョブを開く。
4. Runタブから、[Run]をクリックして、実行する
。
このジョブの結果は、HDFSファイルブラウザーで
確認することが出来る。
/home/talend/Documents/Clickstream/webloganalytic
s.csv
4
このファイルをMS ExcelまたはTableauなどTalend Big Dataサンドボックスに含まれていないの他のBIツールへインポート
することで、追加のダッシュボードを作成することが出来る。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
注:このデモを実行するには、Hadoopディストリビューションが必要です。
Hadoopディストリビューションが選択されていない場合は、ここをクリックして下さい。
概要:
この例では、HadoopとTalendを如
何に活用すれば、膨大なサードパー
ティデータの処理をスピードアップ
して簡素化することが出来るを例示
します。このサンプルデータは、サ
ードパーティベンダーから提供され
た生活週間に関する処方箋データを
シミュレーションしています。
体験してみよう:
• ETLオーバーヘッドをHadoopと
データウェア
ハウス
サード
パーティ
データ
(ファイル)
サード
パーティ
へ戻す
HDFSへオフロードすることで、デ
ータウェアハウスを最適化する。
• 大容量データセットの高速・事前ロ
ード分析を実行する。
• 同一のデータセットから複数のレポ
ートを作成して、コスト削減および
売上増大のための情報に基づくイン
テリジェントなビジネスデシジョン
を下す。
Ingest
Process
Store
Deliver
Decide
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
本デモのハイライト:
大容量処理
TalendとHadoopを使うことで、
数ギガまたは数テラのデータを瞬
時に処理することが出来る。
プリロード分析
データウェアハウスへロードす
る前に大容量データを分析する
ことで、データウェアハウス内
で発生するコストのかかるデー
タ異常のオーバーヘッドを取り
除く。
ETLオフロード
HadoopクラスターでTalendを
利用することで、コストのかか
るデータ処理のオーバーヘッド
を取り除き、データウェアハウ
スを最適化することが出来る。
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
注:ETLオフロードデモの価値を容易に手早く確認するには、次のステップへ進んで下さい。
さらなる詳細の体験およびソースデータのさらなるコントロールを希望する場合は、ここをクリックして下さい。
デモセットアップ:
このデモを実行するには、Hadoop内で処理
するためにまず最初にソースファイルを作成
する必要がある。
1. [Job Designs]フォルダーへナビゲート
する。
1
2
3
2. [Standard]をクリックして、
[ETL_OffLoad_Scenario]を選択する。
3. [Step_1_ProductAnalysis_Demo
Setup 0.1]をダブルクリックする。
デザイナーウインドウにこのジョブを開
く。
4. Runタブから、[Run]をクリックして、実
行する。
このジョブが完了すると、このデモで処理さ
れるソースファイルが仮想マシンに配置され
る。さらに、HDFS内で、初期レポートが生
成されることになる。初期レポートはこのデ
モで分析のために比較されるものとなる。
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoopディストリ
ビューション
デモ(シナリオ)
商品レコメンド
スポーツ統計
クリックストリーム
ETLオフロード
Apache Webログ
ETLオフロード"ワンクリック"デモを実行する:
本デモの"ワンクリック"版では:
• ソースファイルがHDFS内に配置される。
• MapReduceが使用され、全ての圧縮ファイルがまとめて分析される。
• この分析結果が、前月およびそれ以前の結果と対比され、レポートが生成される。
• 生成されたレポートはGoogle Charts APIへ送られ、このデータをグラフ化して表示する。
• この結果レポートはWebブラウザー内で閲覧することが出来る。
 [Product by Physician]によって、医師が特定の薬に関して書いた処方箋の数が示される。
 [Net Change]によって、全ての医者を集計して特定の薬に関して作成された処方箋の総数が示される。
1
1. [Job Designs]フォルダーへナビゲートする。
2. [Standard]をクリックして、
[ETL_OffLoad_Scenario]を選択する。
3. [Step_2_ProductAnalysis_MapReduce 0.1]
をダブルクリックする。デザイナーウインドウ
にこのジョブを開く。
4. Runタブから、[Run]をクリックして、実行す
る。
このデモを終了するには、ここをクリックする。
2
3
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
デモセットアップ:
本デモのステップバイステップ版では、TalendとHadoopの組み合わせによっていかに簡単に進めることが出来るかを示す。
また、本デモ内で使用されるソースデータをさらにコントロールして、さらなるパーソナライズされた体験を生み出すことが
出来る。
1. [Job Designs]フォルダーへナビゲートする
。
2. [Standard]をクリックして、
[ETL_OffLoad_Scenario]から
[Pre_Requirements_Step_by_Step]
を選択する。
1
2
3
3. [PreStep_1_Generate_Mock_Rx_
Data 0.1]をダブルクリックする。デザイナ
ーウインドウにこのジョブを開く。
4. Runタブから、[Run]をクリックして、実行
する。
5. 本ジョブの開始時に、デフォルト値を編集
するか(推奨パラメーターの範囲で、限定
されたスペースの仮想環境であることを前提
に)またはデフォルト値のままにする。
編集が完了したら、[OK]をクリックする。
5
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
デモセットアップ(続き):
Mock Rxデータを作成したら、比較データと
共にHadoop環境を初期化する必要がある。
この場合は、”Previous Month(前月度)”分
析となる。
1. [Job Designs]フォルダーへナビゲートす
る。
1
2
3
2. [Standard]をクリックして、
[ETL_OffLoad_Scenario]から
[Pre_Requirements_Step_by_Step]を
選択する。
3. [PreStep_2_PrepEnvironment 0.1]を
ダブルクリックする。デザイナーウイン
ドウにこのジョブを開く。
4. Runタブから、[Run]をクリックして、実
行する。
注:このジョブが完了すると、ステップ
バイステップのETLオフロードデモを実
行することが出来ます。
4
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
ETLオフロード"ステップバイステップ"デモを実行す
る:
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
1
デモ環境のセットアップが完了に伴い、ETLオフロー
ドプロセスを確認することを開始出来る。
2
1. [Job Designs]フォルダーへナビゲートする。
2. [Standard]をクリックして、
[ETL_OffLoad_Scenario]から
[ProductAnalysis_Step_by_Step]を選択する。
3
3. [Step_ 1_PutFiles_on_HDFS 0.1]をダブルクリ
ックする。デザイナーウインドウにこのジョブを
開く。
4. Runタブから、[Run]をクリックして、実行する
。
4
5
このジョブが完了すると、HDFS上に個々に生成され
たソースファイルを確認することが出来る。これらの
ファイルを表示するには、
5. Firefoxを開く。
6. ブックマークツールバー上の[HDFS Browser]
リンクをクリックする。
7. [Utilities]ドロップダウンから[Browse the file
system]を選択する。
8. /user/talend/ Product_demo/Inputへナビゲート
する。
6
8
7
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
ETLオフロード"ステップバイステップ"デモを実行
する:
ここでソースデータはHDFSに存在する。Hadoop
とMapReduceの組み合わせによって、大容量デー
タセットを分析出来る。
1
52
1. [Job Designs]フォルダーへナビゲートする。
2. [Big Data Batch ]をクリックして、
[ETL_OffLoad_Scenario]を選択する。
3
2
3. [Step_2_Generate_MonthlyReport_mr 0.1]を
ダブルクリックする。デザイナーウインドウに
このジョブを開く。
4. Runタブから、[Run]をクリックして、実行す
る。
5
このジョブが完了すると、Hadoopファイルシステ
ムへ再度ナビゲートすることができ、生成されたフ
ァイルを確認出来る。
5. Firefoxを開く。
6. ブックマークツールバー上の[HDFS Browser]
リンクをクリックする。
7. [Utilities]ドロップダウンから[Browse the file
system]を選択する。
8. /user/talend/Product_demo/Outputへナビゲ
ートする。
4
2
6
8
7
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
ETLオフロード"ステップバイステップ"デモを実行す
る:
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
1
前月度分析をベースラインとして使って、当月分析
と比較して、異常値を追跡する。
2
1
1. [Job Designs]フォルダーへナビゲートする。
2. [Standard]をクリックして、
[ETL_OffLoad_Scenario]から
[ProductAnalysis_Step_by_Step]を選択する。
3
1
3. [Step_3_Month_Over_Month_Comparison 0.1]
をダブルクリックする。デザイナーウインドウに
このジョブを開く。
4. Runタブから、[Run]をクリックして、実行する
。
このジョブが完了すると、Hadoopファイルシステム
へ再度ナビゲートすることができ、生成されたファ
イルを確認出来る。
5. Firefoxを開く。
6. ブックマークツールバー上の[HDFS Browser]
リンクをクリックする。
7. [Utilities]ドロップダウンから[Browse the file
system]を選択する。
8. /user/talend/Product_demo/Outputへナビゲー
トする。
4
1
5
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoopディストリ
ビューション
デモ(シナリオ)
商品レコメンド
スポーツ統計
クリックストリーム
ETLオフロード
Apache Webログ
ETLオフロード"ステップバイステップ"デモを実行
する:
最終ステップでは、Google Charts APIを使って
チャートを生成する。
1
2
1
32
1. [Job Designs]フォルダーへナビゲートする。
2. [Standard]をクリックして、
[ETL_OffLoad_Scenario]から
[ProductAnalysis_Step_by_Step]を選択する
。
3. [Step_4_GoogleChart_Product_by_Unit 0.1
]をダブルクリックする。デザイナーウインドウ
にこのジョブを開く。
4
3
5
4. Runタブから、[Run]をクリックして、実行す
る。
6
このジョブが完了すると、生成されたレポートを
Webブラウザーから確認することが出来る。
5. Firefoxを開く。
6. 新しいタブから、[Demos]をクリックして、
[Product Demo]から[Net Change]を選択して
、レポートを表示する。
7. 上記のステップ2を繰り返して、[Product by
Physician]レポートを開く。
7
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoopディストリ
ビューション
デモ(シナリオ)
商品レコメンド
スポーツ統計
クリックストリーム
ETLオフロード
Apache Webログ
ETLオフロード"ステップバイステップ"デモを実行
する:
デモをリセットして、再起動する。本デモは繰り
返し実行することができ、ソースファイルを変更
することで異なる結果を得ることが出来る。
1
2
1
1. [Job Designs]フォルダーへナビゲートする。
2. [Standard]をクリックして、
[ETL_OffLoad_Scenario]を選択する。
3. [Step_3_ProductAnalysis_DemoReset 0.1]
をダブルクリックする。デザイナーウインドウ
にこのジョブを開く。
3
1
4. Runタブから、[Run]をクリックして、実行す
る。
このデモをもう一度繰り返して
実行する。
4
1
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
注:このデモを実行するには、Hadoopディストリビューションが必要です。
Hadoopディストリビューションが選択されていない場合は、ここをクリックして下さい。
概要:
この例では、異なるビッグデータ
手法を使用して、大量のWebログ
データを集計し、分析することを
例示します。
体験してみよう:
Webログ
• Hiveを使って、Hadoop分散ファイ
PI
G
ルシステム内のデータを保存して、
アクセスする。
• 標準MapReduceを使って、Apache
ログファイル内のIPアドレスを分析
して、カウントする。
• Pigを使って同一の分析(Apacheロ
グファイル内のIPアドレスのカウン
ト)を実行する。
Ingest
Process
Store
Deliver
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
本デモのハイライト:
Hiveコンポーネン
ト
Hiveコンポーネントによって接
続、作成、リード、ライトを行
い、HDFS内のデータをアクセ
スする
ネイティブ
MapReduce
TalendのMapReduceコンポー
ネントを使って、HDFSからデ
ータをネイティブでアクセスし
て分析する
Pigコンポーネント
同一のオペレーションを複数の
テクノロジーによって実行して
Talend機能の柔軟性を理解する
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Apache Webログデモを実行する:
HDFS内のHiveテーぶすを作成して、古い
データセットをクリアする。
1. [Job Designs]フォルダーへナビゲート
する。
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
1
2
3
1
2. [Standard]をクリックして、
[ApacheWebLog]を選択する。
3. [Step_1_ApacheWebLog_HIVE_
Create 0.1]をダブルクリックする。
デザイナーウインドウにこのジョブを開
く。
4. Runタブから、[Run]をクリックして、実
行する。
このジョブが完了すると、前回の実行からの
古いデータセットがクリアされて、新しい
HiveテーブルがHDFS内に生成される。
4
1
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Apache Webログデモを実行する:
Apache Weblogファイルをフィルター
してHDFSへロードする。.
1
2
3
1
1. [Job Designs]フォルダーへ
ナビゲートする。
2. [Standard]をクリックして、
[ApacheWebLog]を選択する。
3. [Step_2_ApacheWeblog_Load
0.1]をダブルクリックする。
デザイナーウインドウにこのジョ
ブを開く。
4. Runタブから、[Run]をクリックし
て、実行する。
このジョブがWebログから“301”コー
ドをフィルターして、HDFSへデータ
をロードする。ここから、HDFSファ
イルブラウザーまたはHiveクエリによ
ってデータを確認出来る。
4
1
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
Apache Webログデモを実行する:
HDFS内でデータを閲覧する。
1
1. Firefoxを開く。
2. ブックマークリンク[HDFS Browser]
をクリックする。
3. [Utilities]ドロップダウン内で
[Browse the File System]を選択して
、user/talend/weblogへナビゲートす
る。
注:データはHDFSへロードされる
とともに、作成されたHiveテーブル
内の想定される場所に保管される。
ここで、HiveクエリまたはHDFSフ
ァイルブラウジングによってデータ
を確認出来る。
2
3b
3a
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
Apache Webログデモを実行する:
MapReduceを使って、IPカウントを分析して算出
する。
1. [Job Designs]フォルダーへナビゲートする。
2. [Big Data Batch ]をクリックして、
[ApacheWebLog]を選択する。
1
3. [Step_3_ApacheWeblog_Count_IP_MR 0.1]
をダブルクリックする。デザイナーウインドウ
にこのジョブを開く。
4. Runタブから、[Run]をクリックして、実行す
る。
5. ジョブが完了したら、ジョブ実行ウインドウへ
出力された結果を確認することが出来る。
このジョブからのデータは同時にHDFSへ保存され
る。HDFSファイルブラウザー内では、
/user/talend/weblogMR/mr_apache_ip_out
へナビゲートして、新しいファイルを確認出来る。
3
2
2
4
2
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
商品レコメンド
スポーツ統計
クリックストリーム
Apache Webログデモを実行する:
Hadoop
ディストリ
ビューション
デモ(シナリオ)
ETLオフロード
Apache Webログ
1
2
MapReduceを使って、IPカウントを分析して
算出する。
1. [Job Designs]フォルダーへナビゲートす
る。
3
2
2. [Standard]をクリックして、
[ApacheWebLog]を選択する。
3. [Step_4_ApacheWeblog_Count_IP_Pig
0.1]をダブルクリックする。デザイナーウ
インドウにこのジョブを開く。
4. Runタブから、[Run]をクリックして、実
行する。
このジョブからのデータは同時にHDFSへ
保存される。HDFSファイルブラウザー内で
は、user/talend/weblogPIG/apache_ip_cnt
へナビゲートして、新しいファイルを
確認出来る。
4
2
Talend Big Dataサンドボックス
ビッグデータインサイト・クックブック
概要
前提条件
セットアップと
構成設定
Hadoop
ディストリ
ビューション
デモ(シナリオ)
まとめ
ビッグデータ統合の簡素化
Talendは、ビッグデータ統合システ
ムを抜本的に簡素化します。ビッグ
データコード(Spark、MapReduce
、PIG、Java)を生成するTalendの
豊富なGUIツールを使用することは、
社内のIT開発者のスキルをレバレッ
ジすることが可能になります。
Talendは、Eclipse、JavaやSQLなど
の一般的に普及している技術をベー
スにしているだけではなく、巨大な
ユーザーコミュニティによって支援
されています。
これにより、新たなIT開発者を探す
のではなく、既存のIT開発者のスキ
ルアップを可能にします。
バッチおよびリアルタイム
ビッグデータのための設計
Talendは、バッチおよびリアルタイ
ムビッグデータのために設計されて
います。Talend以外にもビッグデー
タに位置づけられる、またはいくつ
かのビッグデータコンポーネントを
サポートするソリューションは数多
く存在しています。Talendは、これ
らとは大きく異なり、100種類を超
えるSparkコンポーネントによって
Spark上に構築された最初の統合プ
ラットフォームです。
バッチ(MapReduce、Spark)、ス
トリーミング(Spark)、NoSQLま
たはリアルタイムで統合するかを問
わず、Talendは全ての統合要件のた
めに単一のツールを提供します。
TalendのネイティブHadoopデータ
クオリティソリューションは、無制
限の拡張性でクリーンな一貫性のあ
るデータを提供します。
運用コストの低減
また、Talendは運用コストを引き下
げます。
そして、Talendの”0”フットプリン
トソリューションは、次の複雑性を
解消します。
統合ソリューションの導入配備
統合ソリューションの運用管理
統合ソリューションの保守管理
さらに、従量ベースのサブスクリプ
ションモデルが、大きな初期導入コ
ストなしに、迅速な投資回収を可能
にします。
WP223-JP