IBM ソフトウェア データ・シート IBM BigInsights for Apache Hadoop オープン・ソースの Hadoop によって アナリティクスとデータ・サイエンスを高速化 特長 Hadoop 向けの最も高機能な SQL エンジ ンである Big SQL によって分析時間を 短縮 1 BigSheets を使用して、コーディングなし で Hadoop 上でデータの操作と可視化を 実現 Big R によってネイティブの R 関数が ビッグデータをサポート Big R の機械学習によって、大規模データ に対する機械学習のパフォーマンスを 自動的にチューニング 最新のテキスト・アナリティクス機能と 地理空間データ機能 ビッグデータを効率的に使用する企業は、ビジネスを成長に導き利益を 生み出すことができます。データの大容量化と多様化が進む中、Apache Hadoop がさまざまな種類の膨大な量のデータを経済的に格納し分析を 可能にする強力なビッグデータ・テクノロジーであることを認識する組 織が増えています。 しかし、多くの組織は、Hadoop 内部に格納されているすべてのデータ から重要な洞察を引き出すためには、予想以上に高度なスキルと多大な 労力が必要であることに気付いています。ビッグデータは、分析しなけ れば単なる大量のデータにすぎません。 古くから大規模分析に使用されている SQL に関して、ビジネス・アナ リストは通常高度な専門知識を有しています。ビジネス・アナリストは その SQL スキルを利用して、Hadoop を含むあらゆるソースからのデー タを検索し、可視化しようとします。Hadoop に搭載されている SQL エ ンジンは豊富な機能を備えているため、多くの人が簡単に Hadoop の分 析機能を利用できます。 データ・サイエンティストにとっては、データの準備と機械学習が主な 課題です。データ・サイエンティストは、これらのアルゴリズムを使用 して自動予測のためのモデルを構築します。そのために、通常はオープ ン・ソースの R 言語を使用します。しかし、ビッグデータの処理に Hadoop を使用するようになると、Hadoop クラスターの性能を生かしき る機械学習の実装環境はほとんどないことがわかっています。データ・ サイエンティストは、使い慣れた R 関数を使用して分散分析に Hadoop を利用する方法を模索しています。 最後に、IT 管理者は、大量のリソースに投資することなく、Hadoop ク ラスターのスケーラビリティー、パフォーマンス、およびセキュリティー を確保する必要があります。 IBM ソフトウェア データ・シート IBM BigInsights for Apache Hadoop の 新機能 IBM BigInsights for Apache Hadoop の新機能 データが Hive、HBase、または HDFS のいずれかに存 在する場合でも、単一クエリー内ですべてのデータにア クセス (Big SQL) こ れ ま で に 述 べ た 課 題 を 解 決 す る た め に 、 IBM は IBM® BigInsights™ for Apache Hadoop にアナリスト、 データ・サイエンティスト、および管理者向けの新機能 を導入しました。 SQL の高可用性とパフォーマンスを強化し、さらに機 能を追加 (Big SQL) アナリスト IBM BigInsights Analyst モジュールには、Big SQL と BigSheets が組み込まれています。これまでも Hadoop で SQL を使用できましたが、全ての SQL エンジンが同 等というわけではありません。Big SQL は Hadoop で使 用できる最も高速かつ高機能な SQL エンジンであり 2、 以下に示すすべての機能を提供します。 ビジネス・ユーザー向け Web ツールが新たに搭載され たスプレッドシート形式のインターフェースによる データの操作および可視化の機能 (BigSheets) R の機械学習アルゴリズムによる自動予測 テキスト・アナリティクスおよび地理空間アナリティク スを含む高度な分析によりさらに詳細な洞察を提供 テキストからコンテキストとリレーションシップを推 察できる強化されたテキスト・アナリティクス 超並列処理 (MPP) テクノロジーによる低遅延クエリー クエリーの書き換えの最適化およびコスト・ベース のオプティマイザー Hive と HBase の両方のデータ・ソースの統合 ANSI SQL 標準をこれまでにないレベルでサポート IBM DB2®、Oracle、Teradata、および ODBC の各ソー スに対するフェデレーションに基づくクエリー・アク セス BigSheets は、データ・サイエンス・チームにとって重 要なユース・ケースをサポートします。 Hadoop をランディング・ゾーンとして使用すること で、これまでにないデータ・セットの探索と把握を 実現 データ・セットのデータ品質のレベルを把握するこ とで、データ統合またはビジネス・インテリジェン ス・プロジェクトをサポート Hadoop クラスターのすべての計算リソースを利用 して、データ抽出を行わずに直接クラスター上で BigSheets による洞察と可視化を促進 Big SQL は、次世代の論理データ・ウェアハウスを最新 化および構築する場合の大抵のユース・ケースをサポー トします。 既存のデータ・ウェアハウスのデータとワークロー ドのオフロード Hadoop 内部にクエリー可能なアーカイブを作成す ることにより、使用頻度が非常に少ないデータを高 コストなデータ・ウェアハウスから移動 ビジネス・インテリジェンス・レポートの迅速なプ ロトタイピングの実現 既存の SQL スキルを使用することにより Hadoop の短期間での導入を確実にサポート データ・サイエンティスト IBM BigInsights Data Scientist モジュールに含まれる Big R は、以下で構成されています。 BigSheets は、Hadoop 内の一連のファイルを Web ベー スのスプレッドシート形式で表示します。ユーザーは、 大量のデータの変換、フィルタリング、および可視化を 実行できます。BigSheets がスプレッドシートの操作を MapReduce に変換することで Hadoop クラスターの計 算リソースを利用するため、コーディングは必要ありま せん。そのため、アナリストはデータに含まれる価値を すばやく簡単に発見できます。 2 オープン・ソースの R とのエンド・ツー・エンドの 統合 Hadoop での透過的な実行 Big R が提供する機能が豊富でスケーラブルな機械 学習アルゴリズムへのシームレスなアクセス テキスト・アナリティクスにより非構造化データか ら意味のある情報を抽出 IBM ソフトウェア データ・シート データ・サイエンティストは所有する R コードを使用 し、R コミュニティーの 4,500 を超える統計パッケー ジを無料で利用することができます。新しい処理エンジ ンは、Hadoop クラスター内の膨大なデータ・セットに 対する機械学習パフォーマンスを自動的にチューニン グします。また、BigInsights Data Scientist モジュールに は、Hadoop に格納されている非構造化データをより詳 細に理解するためのテキスト・アナリティクスなどの分 析機能が追加されています。 Hadoop エコシステムおよび IBM Analytics プラットフォームとの連携 IBM は、Open Data Platform Initiative (ODP) の創立メ ンバーです。ODP は、ビッグデータ・ツールの相互運 用性促進を目指す業界共通の取り組みです。ODP は、 Apache Hadoop で通常使用される互換性のある一連の 100% オープン・ソースのプロジェクトの定義、統合、 テスト、および認定を行います。ビッグデータのソ リューション・プロバイダーは、この「ODP コア」を 使用してソリューションを構築できます。ODP の創立 メンバーである IBM は、Hadoop およびビッグデー タ・テクノロジー全般の標準化の推進に取り組んでいま す。 管理者 IBM BigInsights Enterprise Management モジュールは以 下を提供します。 POSIX 準拠のファイル・システム マルチ・テナントのスケジューリング データ分離によるマルチ・インスタンスのサポート BigInsights のコアである IBM Open Platform with Apache Hadoop は、ODP に端を発する最初の Hadoop ディストリビューションの一つです。BigInsights Analyst、 Data Scientist、および Enterprise Management の各モ ジュールは、その ODP に準拠する IBM Open Platform with Apache Hadoop 上で動作するように構築された付 加価値テクノロジーであるため、他のビッグデータ・ ツールとの相互運用性の強化によるメリットが得られ るように設計されています。 IBM Spectrum Scale™-FPO (旧称 IBM GPFS™-FPO) は、 POSIX 準拠のカーネル・レベルのファイル・システム であり、Hadoop 分散ファイル・システム (HDFS) の代 わりに使うことが可能です。Spectrum Scale は、Hadoop アプリケーションに対して透過的に機能するように設 計されています。そのうえ、管理者は Spectrum Scale を 使用して、企業内の他のシステムを詳細に制御し、統合 できます。BigInsights Enterprise Management モジュール に付属する IBM Spectrum Scale Active File Management (AFM) は、災害復旧用に広大な地理ロケーションを対象 にデータをきめ細かくレプリケーションするなど、最も 要求の厳しいアプリケーション向けの機能を提供しま す。 IBM Open Platform with Apache Hadoop の新機能 同じく BigInsights Enterprise Management モジュールに 付属する IBM Platform™ Symphony はマルチ・インスタ ンスをサポートします。これにより、管理者はリソース の割り当てと最適化を実行して、大量のユーザーに合わ せて環境を拡張できます。この結果、複数グループの ユーザーが共有する Hadoop クラスター内でマルチ・テ ナント機能とデータ分離を実現することにより、効率と セキュリティーの強化に役立ちます。 3 100% オープン・ソースのコンポーネントを使用して 構築され、Open Data Platform Initiative (ODP) に準 拠 Hadoop 2.6 の基盤には YARN と Apache Spark が 含まれる YARN のロングランニング・サービスをサポート Spark のインメモリー分散計算エンジンにより MapReduce に比べてパフォーマンスを飛躍的に高 め、Java、Python、および Scala による開発を平易 化 Apache Ambari の運用フレームワークにより Hadoop クラスターをプロビジョニング、管理、およ びモニタリング IBM ソフトウェア データ・シート BigInsights Analyst、Data Scientist、および Enterprise Management の各モジュールが提供する機能は、広範な IBM Analytics プラットフォームと連携します。このプ ラットフォームは幅広い分析機能を提供し、Hadoop ソ リューションをウェアハウジングとデータ・アーキテク チャの一部として統合します。特に IBM SPSS® の予測 機能を使用すると、予測モデルの構築、Hadoop での機 械学習と R の実行、ビジネスの最適化、および構築し たモデルのリアルタイムのビジネス・プロセスへの実装 を行うことができます。 パフォーマンスの強化および価値実現までの時間の短縮 データ・サイエンティストは BigInsights を使用するこ とで、簡単に既存の R コードとアルゴリズムのパッ ケージを Hadoop クラスターにプッシュして分散分析 を実行し、オープン・ソースの R のメモリー制限に拘 束されることなく Hadoop クラスター全体のメモリー を使用できます。これは、最終的には処理の高速化と結 果を得るまでの時間の短縮化をもたらします。 BigInsights は、以下の点でパフォーマンス向上にも役立 ちます。 BigInsights が企業にもたらすメリット 低遅延の並列処理インフラが Hadoop データにネイ ティブにアクセスし、読み取りと書き込みを高速化 インメモリー・キャッシュにより、計算リソースの より近くにデータを配置 必要なメモリーが一時的に増えた場合、BigInsights が大量のデータ・セットを各ノードのローカル・ディ スクに振り分けて、処理速度の低下を回避可能 分析の強化により結果を向上 BigInsights は、サンプル・データだけでなくすべての データを参照することによってパターンを抽出する場 合に役立ちます。膨大なデータ・セットを分析するため に、BigInsights は非常にスケーラブルなあらゆる機械学 習アルゴリズム (旧称は IBM Research による System ML) を提供します。機械学習アルゴリズムは、使い慣れ た R 言語でプログラミング可能です。効果的な統計モ デルを構築するには、十分なサイズのデータ・セットが 必須です。より効果的なモデルはより正確な予測能力を 持ち、最終的により良い結果をもたらします。 また、BigInsights の自動チューニングにより、ビッグ データのユース・ケースの増加に合わせて専用リソース を追加しなければいけないというプレッシャーが緩和 されます。すべてのアルゴリズムは異なる計算プロファ イルを持つため、プロファイルとデータ・セットに応じ て異なる最適化が行われます。BigInsights では、アルゴ リズム担当者は 1 度だけアルゴリズムを選択または作 成すれば済みます。システムはこのアルゴリズムをさま ざまなデータ、マシン、およびシステムの特性に応じて 自動的に最適化し、スケールアップのためのすべてのプ ロパティーを調整します。 BigInsights は、テキスト・アナリティクス機能と地理空 間分析機能も提供します。データ・サイエンティストは テキスト・アナリティクスを使用して、文書から洞察を 抽出し、既存の分析を補強できます。地理空間分析機能 を使用すると、例えば警察による犯罪現場のパターンの 検出や地方自治体によるタクシーの呼び出しが最も多 いロケーションの把握などの応用が可能となります。 管理の簡略化および投資の保護 BigInsights に組み込まれている使いやすさと自動化機 能は、IT 管理者がワークロードの管理、ジョブのスケ ジューリング、およびリスクの削減を効率的に実行する 際に役立ちます。以下の特長があります。 4 ワークロード管理ツール。さまざまなクラスの同時 実行されるクエリーのアドミッション制御の自動 化により、CPU、メモリー・リソース、およびディ スク I/O の過度の負荷を回避します。 セルフ・チューニング・メモリーによる管理インフ ラ。管理者を各ワーカー・ノードのパフォーマンス と同時実行のための管理とチューニングから解放 します。 IBM ソフトウェア データ・シート IBM を選択する理由 BigInsights for Apache Hadoop の新機能は、IBM Analytics のソフトウェア、サービス、研究開発、およびハードウェ アに亘るビッグデータ・ソリューションのポートフォリ オを拡張します。このポートフォリオは、従来のデー タ・ウェアハウス・ツールと最新のビッグデータの手法 とテクノロジー (Hadoop、ストリーム・コンピューティ ング、データ探索、先進アナリティクス、エンタープラ イズ統合、および IBM Watson™ のコグニティブ・コン ピューティングなど) を組み合わせて、あらゆる組織が ビッグデータと分析機能を使用できるようにする統合 ソリューションを構築します。 詳細情報 IBM BigInsights for Apache Hadoop の詳細については、 IBM の営業担当員またはビジネス・パートナーにお問 い合わせいただくか、ibm.com/hadoop の Web サイト をご参照ください。 さらに、IBM Global Financing は、できるかぎりコスト 効率が良く戦略的な方法でビジネスに必要なソフト ウェア機能を入手するための支援を提供します。弊社は 与信基準を満たしたお客様と連携することで、お客様の ビジネス目標と開発目標に適合し、効果的なキャッ シュ・マネジメントを実現し、TCO が向上するよう、 融資ソリューションをカスタマイズします。IBM Global Financing は、重要な IT 投資の資金を提供し、お客様 のビジネスを前進させます。詳細情報については、 ibm.com/financing の Web サイトをご参照ください。 5 © Copyright IBM Corporation 2015 ソフトウェア・グループ 〒103-8510 東京都中央区日本橋箱崎町 19 番 21 号 アメリカ合衆国にて作成 2015 年 3 月 IBM、IBM ロゴ、ibm.com、BigInsights、DB2、IBM Watson、Platform、 Spectrum Scale、および SPSS は、世界の多くの国で登録された International Business Machines Corporation の商標です。他の製品名お よびサービス名等は、それぞれ IBM または各社の商標である場合が あります。現時点での IBM の商標リストについては、 http://www.ibm.com/legal/copytrade.shtml をご覧ください。 Java およびすべての Java 関連の商標およびロゴは Oracle やその関 連会社の米国およびその他の国における商標または登録商標です。 本書の情報は最初の発行日の時点で得られるものであり、予告なしに 変更される場合があります。すべての製品が、IBM が営業を行って いるすべての国において利用可能なのではありません。 本書に含まれる情報は、特定物として現存するままの状態で提供され、 商品性の保証、特定目的適合性の保証、および第三者の権利の不侵害 の保証を含むすべての明示もしくは黙示の保証責任なしで提供され ています。IBM 製品は、IBM 所定の契約書の条項に基づき保証され ます。 1 “The Real SQL over Hadoop Story: Experiences from the Hadoop-DS benchmark.” 2014. http://www-01.ibm.com/common/ssi/cgi-bin/ssialias?subtype=WH&inf otype=SA&appname=SWGE_IM_EZ_USEN&htmlfid=IMW14800USE N&attachment=IMW14800USEN.PDF 2 Ibid. IMD14496-JPJA-00
© Copyright 2024 Paperzz