Tableau プロダクトマネージャー、Jeff Feng ビッグデータについての Tableau のビジョン 2 私たちは新しい時代に生きています。データは今日のビジネスを動かす鍵の「原材料」 であり、 データが次の産業革命に導いてくれます。1700 年代、1800 年代に生まれた新しい製造プロセ スによって物の生産方法が根底から変化したのと同様に、ビッグデータの時代は、データを生 成、分析、使用する方法が大きく変化しています。 ビッグデータの皮肉な点は、確実性と危険性にあります。データ資産をどう扱っているかが、ビ ジネスで高い収益性を得られるのか悪戦苦闘するかの大きな分岐点になっています。しかし、 巨大な規模で成長を続け、その種類も多様化しているデータを扱うのは、 リレーショナルデータ ベース管理システムの観点からも、大変で高額な費用がかかります。 そのため、急速に変化するデータのニーズに応えるために、Hadoop、Spark、NoSQL データベー スといったビッグデータテクノロジーを取り入れる企業が増えています。企業は、オンプレミス およびクラウドの両方のモデルでこれらのテクノロジーを導入しています。さらに、高速分析用 データベースやデータウェアハウスでは、Hadoop のコンセプトを取り入れることによる機能性 の向上、 または Hadoop との直接接続ができるようになっています。このようにビッグデータ環 境が変化・統合されていく中で、変わらないテーマが1つあります。それは、 データの場所や規 模に関わらず、共通の分析ツールでデータにアクセスできるべきであるという点です。 目次 Tableau の (ビッグ) データ戦略....................................................................................................3 Tableau はビッグデータをどのように扱うか?......................................................................5 使用事例: Tableau & ビッグデータ..............................................................................................7 まとめ........................................................................................................................................................8 著者について........................................................................................................................................8 3 Tableau の (ビッグ) データ戦略 Tableau の ミッション は、お客様がデータを見て理解できるように支援することです。このミッションを達成す るため、データを誰にでも使いやすくすること、つまり 「データのことを知る人が、データに問いかけられるよう にする」 ことが Tableau の基本的な理念といえます。知識のある一般的な社員が、 どこからでも簡単にデータに アクセスでき、データサイエンティストや IT 開発者などといった一部のエリートの力を借りなくても、データの 分析を行いそこからインサイトが得られるようになるべきです。 データの規模に関係なく、データを可視化することは重要です。単なる情報がインサイトに変わり、次のとるべ きアクションを導き出すからです。ビッグデータの場合、データの保管、準備、 クエリ実行の費用がさらに高額 になることから、可視化の方法が特に重要になります。そのため企業では、知識のある社員たちが直接ビッグ データに問いかけを行えるように、データソースを適切に構造化し、ベストプラクティスをきっちりと実施しなけ ればなりません。近年ビッグデータは革新の源としてその重要性が高まっており、 さまざまな特徴を持つ多くの プラットフォームが使われるようになりました。Tableau のビジョンは、Tableau ユーザーが使用するものであ ればどのビッグデータプラットフォームもサポートし、ユーザーがデータからリアルタイムで情報を得られるよ うに支援することです。 このビジョンを実現するために、Tableau は 6つの軸に注力します。 1. ビッグデータプラットフォームへの広範なアクセス - ビッグデータがどこにあるかに関係なく、分析を可能に するというビジョン。Tableau がサポートするデータソースは 40 種類を超え、拡張オプションによりその他 多数のデータと接続することができます。新しいデータソースが生まれ、それが Tableau ユーザーにとっ て価値があるものであれば、Tableau はそのデータソースへの接続機能を組み込み、データアクセスにか かる障壁を緩和します。 Tableau で用意しているビッグデータエコシステムのコネクタ: • Hadoop: Cloudera Impala & Hive、Hortonworks Hive、MapR Hive、Impala & Hive の Amazon EMR、 Pivotal HAWQ、IBM BigInsights • NoSQL: MarkLogic、Datastax • Spark: Apache Spark SQL • クラウド: Amazon Redshift、Google BigQuery • オペレーショナルデータ: Splunk • 高速分析用データベース: Actian Vectorwise & ParAccel、Teradata Aster、HP Vertica、SAP Hana、 SAP Sybase、Pivotal Greenplum、EXASOL EXASolution 2. ビジネスユーザーによるセルフサービスでのビッグデータの可視化 - 複雑な SQL、Java コード、MapReduce ジョブを記述する必要はなく、ビジネスユーザーがドラッグ & ドロップだけでデータを可視化できます。 Tableau がデータ分析タスクを簡素化 - ユーザーは、 これまでにないスピードでデータを可視化し、そこか らインサイトを見つけ出すことができます。 4 3. クエリパフォーマンスを最適化するハイブリッドのデータアーキテクチャ - Tableau はデータソースにライブ 接続できます。 また、データソースをインメモリに取り込むこともできます。ライブ接続は、高速のインタラ クティブなクエリエンジンや大きなデータセットに接続する際に活躍します。速度の遅いデータソースで も、抽出データを作成したり、インメモリデータエンジンにデータを取り込むことで、高速化しパフォーマン スを向上させることができます。 4. 複数データソースを使った分析を行うためのデータブレンディング - 多くの場合において分散データは ビッグデータよりも扱いが難しいと言えます。分析用のデータがきっちりと一ヵ所にまとめられているのは 珍しいことです - データは、 さまざまなテクノロジーやプラットフォームで、あちこちの場所に存在します。 Tableau は、ビッグデータと他のデータソース (たとえば、Salesforce、MySQL、Excel ファイル) をブレンド することができます。 ブレンドすることによって、分析中にユーザーがデータソース間を行き来できるように なり、企業はデータの置き場所を変更する必要がなくなります。 5. プラットフォームクエリの総合的なパフォーマンス - データ規模が大きくなってもユーザーがデータとリアル タイムで会話できるように、 コアとなるクエリパフォーマンスを Tableau は向上させていきます。最近では パラレルクエリ、 クエリ統合、外部クエリキャッシュなどの機能が含まれるようになりました。Tableau は、そ れをサポートするプロセッサのベクトル化も利用しています。 6. 使いやすく統一されたデータとのビジュアルインターフェイス - Tableau は、データのフィルタリング、予想、 傾向線分析をシンプルなアクションで行える分析ツールを用意しています。ユーザーのアクションを解析 し、視覚的なベストプラクティスに基づいてデータを表示する最適な方法を選択します。Tableau は、 どん なデータソースでも、いったんデータに接続すれば同じビジュアル インターフェイスで操作できます。 これからもデータをとりまく環境の変化にあわせて、Tableau のビジョンも変化します。多くのお客様がビッグ データテクノロジーを多様に使用することが、新しい常識になりました。Hadoop や Spark といったテクノロジー は、データの保存・処理を行うことから、データウェアハウスと併せてデータアーキテクチャの一部として扱われ るようになりました。これと並行して、Hadoop を導入することにより、お客様はデータウェアハウスを縮小して います。NoSQL データベースは、柔軟なデータモデル、短い待ち時間、 アプリケーションにあわせた設計を行え るという理由で、 アプリケーションのバックエンドとしてリレーショナルデータベースよりも選ばれる傾向にあり ます。最後に、 クラウド CRM & ERP システムがビジネスプロセスを管理するための方法として好まれるように なり、 クラウドストレージやデータ処理においても 「使った分だけ支払う」消費モデルが一般的になってきたこと から、 クラウドデータソースはユビキタスであると言えます。バックエンドが多様に変化しますが、 ユーザー には、ビッグデータプラットフォームやクラウドデータソース、 リレーショナルデータベースのいずれにも柔軟に 接続し、 アジャイルにデータを分析できる Tableau のようなフロントエンドツールが必要です。 5 Tableau はビッグデータをどのように扱うか? Tableau のコアテクノロジーは VizQL とデータエンジンです。VizQL は、ユーザーがデータのビューをすぐに 生成し視覚的なフィードバックを即座に得ることができる Tableau 独自のテクノロジーです。VizQL を使用す れば、ユーザーは棒グラフやラインチャート、マップなどといった様々なグラフを1つのツールで生成でき、 グ ラフタイプも簡単に変更できます。一方、データエンジンは、データ圧縮、インメモリテクノロジー、 カラムベー スのストレージを採用し、Tableau の「ライブ接続」技術と統合されています。Tableau のライブ接続技術は、 プ ラットフォームに対して高度に最適化された SQL クエリをデータベースに対して実行し、 これによりデータを 移動させなくても、Tableau はリアルタイムで膨大なデータをビジュアル化することができます。 次のセクションでは、データへのアクセスおよびデータセキュリティ、Hive での特殊な機能を含め、Tableau が どのようにビッグデータを扱うのかを考察します。 データへのアクセス ビッグデータを取り扱う際の鍵は、美しい接続モデルを持つことです。Tableau のビッグデータ用のコネクタ は、ODBC プロトコルを使用し、 さらに送信する SQL クエリをチューニングすることでそれぞれのデータベー スが持つ機能を活用します。 SQL ベースのコネクタ Tableau は Hadoop、NoSQL データベースおよび Spark とのインターフェイスに SQL を使用します。Tableau が生成する SQL は、ANSI SQL-92 標準に準拠しています。SQL は、標準化されたオープンソースで、 ライブラ リ依存性がなく、複雑なクエリでもコンパクトかつ的確に記述できるので、非常に有用です。たとえば、結合、関 数、条件付け、集計、 グループ化、ネストは SQL ですべて記述できます。 ODBC Tableau は、ビッグデータプラットフォームにより提供される SQL ライクなデータインターフェイスと SQL のや りとりに ODBC プログラミング標準に準拠したドライバーを使用します。Hadoop には、Hive Query Language (HiveQL)、Impala SQL、BigSQL、Spark SQL などのインターフェイスがあります。最高のパフォーマンスを得 るために、生成する SQL をチューニングし、集計やフィルターなどの SQL オペレーションをビッグデータ プラットフォームで実行できるようにします。 NoSQL インターフェイス その名が示すように、NoSQL (Not Only SQL) データベースは、非リレーショナルにモデル化されたデータを 有します。SQL ライクなインターフェイスもサポートします。現在、Tableau は、SQL ライクなインターフェイス のコネクタとして MarkLogic および DataStax Enterprise をサポートしています。MarkLogic では、 フルテキ ストへの接続、 または非構造化データやレガシーのリレーショナルデータセットでの複雑な検索を行えます。 DataStax Enterprise および Cassandra では、パーティションで区切られた Cassandra の行データに HiveQL でアクセスする Hive ODBC インターフェイスをサポートします。 6 データセキュリティ 独立したセルフサービス型ビジュアル分析を企業レベルで導入するには、認証およびデータアクセスなどのセ キュリティ上の課題が解決されなければなりません。ビッグデータに関連するデータソースでのセキュアなデー タアクセスを可能にするための複数のリリースを、Tableau では行っています。 現在、LDAP または Kerberos 認証をサポートしており、Tableau Desktop ユーザーは Cloudera Hadoop、 Hortonworks Hadoop または MapR Hadoop を使用して Hive Server 2 クラスタにセキュアに接続できます。 さらに、Cloudera Impala に接続する際に Kerberos 認証を使用したシングルサインオンおよび委任アクセス をサポートしています。Active Directory、SAML、Tableau のビルトイン認証システムを使用して、以前のサポー トを拡張しています。ローカルマシンにサインインしているユーザーは、Tableau Server またはライブの Impala データソースに再度サインインする必要がなく、 よりシームレスに Tableau を使用できるようになりま す。IT 管理者にとっては、Tableau の Apache Sentry との互換性により、ユーザーは閲覧権限のあるデータし か閲覧できなくなるため、データのセキュリティが確実に保護されます。Impala での委任アクセスを実現する ため、 Tableau と Cloudera は連携してきた結果、 ユーザーが安定した自動のバックエンド認証を介して、 ライブの データソースとしての Impala に接続できるようになりました。今後も Tableau は、 Kerberos によるシングルサイン オンおよび委任アクセスのサポートを、多くの異なるデータソースについて行っていきたいと考えています。 Hadoop Hive の特別な機能 Hadoop は、ほぼ完全にユビキタスなビッグデータテクノロジーとなりました。Hadoop は、従来のデータベー スと比べ、 ストレージ層で行われるデータ処理を大きく拡張しています。そのため、Tableau は、Hadoop Hive との接続のために、多くの特殊な機能を用意しています。これには次のような機能が含まれます。 • XML 処理 - Tableau は、XPath を使用して XML データを処理するために、多くの UDF (ユーザー定義関 数) を提供しています。これらの関数により、ユーザーは、 コンテンツの抽出、簡単な分析の実施、XML デー タのフィルタリングなどができるようになります。 • Web およびテキストの処理 - XPath 演算子に加えて、Hive クエリ言語は一般的な Web 要素およびテキス トデータを扱う複数の方法を提供しています。 • JSON オブジェクト - JSON オブジェクトを含む文字列からデータエレメントを取り出します。 • URL - プロトコルタイプやホスト名などの URL コンポーネントを抽出、あるいはキー/値パラメータリ ストにあるクエリキーに関連する値を取り出します。 • • テキストデータ - Tableau 内で Hive のテキストを検索し置き換えます。 オンザフライ ETL - カスタム SQL により、複雑な結合条件、事前フィルタリング、事前集計を使用して、ユー ザーがデータ接続を定義できるようになります。 7 • 初期 SQL - 初期 SQL により、ユーザーはデータ接続が確立した直後に実行される SQL ステートメントを 指定できます。これは一般的に、パフォーマンスのチューニングや、 カスタムデータの処理ロジックを作成 するために行われます。 • UDF および MapReduce を使ったカスタム分析- Tableau は、ユーザーが UDF、ユーザー定義集計関数 (UDAF)、Hive からの任意の SQL 表現を「パススルー機能」を使って実装できるようにします。これらの機 能は、Hadoop クラスタにコピーできる Java アーカイブ (JAR) ファイルとして構築されます。ユーザーは、 カスタム SQL で MapReduce オペレーションの実施を確実にコントロールできます。 使用事例: Tableau & ビッグデータ ビッグデータを活用し始めている企業は、データ資産の調査とビジュアル化という 2 つの使い方で Tableau を利用できることにお気づきになるでしょう。 データの調査 企業は多くの場合、最初から実施したいと考えている分析があるわけではなく、データが役立つもので将来そ こからインサイトが得られたらと願いながら、データの取得や保存を行っています。Web ログ、サーバーログ、 クリックストリームデータ、センサーデータ、 ソーシャルメディアデータなどといったデータは、破棄されることな く、Hadoop などのデータプラットフォームで集められます。このようなアプローチだと、実験的な分析を柔軟に 行えます。Tableau は、データから情報を取り出すための運用リソースを構築するまえに、データの傾向を調査 してビジュアル化できます。 EMC では、Tableau を使用して Hadoop の電力メーターセンサーのデータを探っています。ソリューションエ ンジニアの Tom Hudgins 氏は語っています。 「私のデータベースにある 700 億行のデータを Tableau で分析 しています。分析しているのは、家庭や事業所から送られてくる電力情報であるスマートメーターのデータで す。企業が情報の波をかきわけて、発見やインサイト、今まで考えたこともないアイデアに導いてくれる情報を 取り出せるかどうかが、今後の成功と失敗の分かれ目です。」 データのビジュアル化 企業がデータのビジュアル化を行うアプローチとして、 どの分析セットを有効化し運用していくかを判断した 後、パフォーマンスの最適化に焦点を合わせることが重要です。ビッグデータから取り出すデータの幅と詳細さ を適切に設定することが、反応のよいダッシュボードを運用し、 ライブのデータと会話をしていくためには必要 不可欠です。IT 管理者および Tableau ユーザーはいずれも、データを適切な詳細レベルまで思い通りに調べ ることができるツールを持っています。加えて、 インタラクティブな分析をサポートするデータ処理プラットフォー ムの選択も非常に重要です。パフォーマンスを最大限に引き出すベストプラクティスは次の通りです。 • 高速でインタラクティブなクエリエンジンを利用する • ライブクエリが行えるように接続パフォーマンスをカスタマイズする • 集計、 フィルタリング、サンプリングを介して抽出を最適化 • パーティション設計など、データベースのベストプラクティスを適用 8 ここで紹介する Rosenblatt Securities のチームは、ビッグデータへのアプローチを繰り返し、最適化している組織 の一例です。 「完了するのに 50 人は必要な膨大な量の仕事を、Tableau を使って 5 人のグループで行いました」 と、 パートナー & マネージングディレクター の Scott Burrill 氏は語ります。 「私たちは 800 の株式証券の予測分析を 行っています。 買うべきか売るべきかの判断をリアルタイムに行っています。何十万ものフィールドを使って何通りも の分析を行い、結果をビジュアル化してインサイトを見つけ出し、そこから行動を起こし、 ストーリーを作ります。 しか も、 この一連の作業を速く行えます。Tableau を使うようになって、インサイトに基づいて行動を起こせるようになり ました。以前は、サンプリングを行わなければならなかったことでも、データ全体を見渡すことができるようになった のです。」 まとめ ビッグデータの時代が到来しました。 データの増加は加速する一方であり、企業はデータインフラに Hadoop、Spark、 NoSQL など、高速分析用データベースを導入し、新しいデータの常識に対応しようとしています。EMC や Rosenblatt Securities の一般的なビジネスユーザーにも使用されている Tableau を使うことで、多くの人がビッグデータを ビジュアル化しそこからインサイトを見出せるようになります。 著者について Jeff Feng - Tableau Software プロダクトマネージャー (@jtfeng) Jeff Feng は、Tableau Software のプロダクトマネージャーであり、ビッグデータ製品ロードマップ、製品戦略、従来 からのデータ使用方法を変革するような新機能の開発を担当しています。Tableau に入社する以前は、 McKinsey & Co. において経営コンサルタントとして Fortune 500 のハイテク企業に、経営、テクノロジー、製品戦略についてのコン サルティングを行っていました。 また、 アップル社では、 プログラムマネージャーとして iPhone 4 のリリースに携わり ました。マサチューセッツ工科大学スローンマネジメントスクールで MBA を取得し、イリノイ大学アーバナ・シャン ペーン校で電気工学の修士号および学士号を取得しています。 9 Tableau について Tableau Software のミッションは、お客様がデータを見て理解できるように支援することです。Tableau を利用すれば、簡単に情報を分析してビジュアル化し、共有することができます。すでに世界で 26,000 社を超えるお客様が Tableau を導入し、オフィスや外出先で簡単にデータ分析を行っています。また、 無料のデータビジュアル化ツールである Tableau Public を利用して、数万人のお客様がデータをイン タラクティブな Viz (ビジュアライゼーション) としてブログや Web サイトで共有しています。ぜひ無料 トライアル版をお試しください。 www.Tableau.com/ja-jp/trial からダウンロードできます。 関連ホワイトペーパー Tableau & Hadoop の 5 つのベストプラクティス ビッグデータで成功するための7つのヒント データドリブンな文化の育成: エコノミストインテリジェンスユニットとTableauによる特別レポート ビッグデータ: 次の産業革命 Tableau ソフトウェアとビッグデータ Aberdeen Group: 分析とビッグデータの価値を最大限に利用する すべてのホワイトペーパーを見る その他のリソース · 無料トライアル版をダウンロード · 製品デモ · トレーニングとチュートリアル · Community & Support (コミュニティとサポート) · カスタマーストーリー ·ソリューション Tableau および Tableau Software は、Tableau Software, Inc. の商標です。その他の社名および製品名は各社の商標です。
© Copyright 2024 Paperzz