オープンソースによるデータサイエンスの高速化

IBM ソフトウェア
データ・シート
IBM BigInsights for
Apache Hadoop
オープン・ソースの Hadoop によって
アナリティクスとデータ・サイエンスを高速化
特長
 Hadoop 向けの最も高機能な SQL エンジ
ンである Big SQL によって分析時間を
短縮 1
 BigSheets を使用して、コーディングなし
で Hadoop 上でデータの操作と可視化を
実現
 Big R によってネイティブの R 関数が
ビッグデータをサポート
 Big R の機械学習によって、大規模データ
に対する機械学習のパフォーマンスを
自動的にチューニング
 最新のテキスト・アナリティクス機能と
地理空間データ機能
ビッグデータを効率的に使用する企業は、ビジネスを成長に導き利益を
生み出すことができます。データの大容量化と多様化が進む中、Apache
Hadoop がさまざまな種類の膨大な量のデータを経済的に格納し分析を
可能にする強力なビッグデータ・テクノロジーであることを認識する組
織が増えています。
しかし、多くの組織は、Hadoop 内部に格納されているすべてのデータ
から重要な洞察を引き出すためには、予想以上に高度なスキルと多大な
労力が必要であることに気付いています。ビッグデータは、分析しなけ
れば単なる大量のデータにすぎません。
古くから大規模分析に使用されている SQL に関して、ビジネス・アナ
リストは通常高度な専門知識を有しています。ビジネス・アナリストは
その SQL スキルを利用して、Hadoop を含むあらゆるソースからのデー
タを検索し、可視化しようとします。Hadoop に搭載されている SQL エ
ンジンは豊富な機能を備えているため、多くの人が簡単に Hadoop の分
析機能を利用できます。
データ・サイエンティストにとっては、データの準備と機械学習が主な
課題です。データ・サイエンティストは、これらのアルゴリズムを使用
して自動予測のためのモデルを構築します。そのために、通常はオープ
ン・ソースの R 言語を使用します。しかし、ビッグデータの処理に
Hadoop を使用するようになると、Hadoop クラスターの性能を生かしき
る機械学習の実装環境はほとんどないことがわかっています。データ・
サイエンティストは、使い慣れた R 関数を使用して分散分析に Hadoop
を利用する方法を模索しています。
最後に、IT 管理者は、大量のリソースに投資することなく、Hadoop ク
ラスターのスケーラビリティー、パフォーマンス、およびセキュリティー
を確保する必要があります。
IBM ソフトウェア
データ・シート
IBM BigInsights for Apache Hadoop の
新機能
IBM BigInsights for Apache Hadoop の新機能
 データが Hive、HBase、または HDFS のいずれかに存
在する場合でも、単一クエリー内ですべてのデータにア
クセス (Big SQL)
こ れ ま で に 述 べ た 課 題 を 解 決 す る た め に 、 IBM は
IBM® BigInsights™ for Apache Hadoop にアナリスト、
データ・サイエンティスト、および管理者向けの新機能
を導入しました。
 SQL の高可用性とパフォーマンスを強化し、さらに機
能を追加 (Big SQL)
アナリスト
IBM BigInsights Analyst モジュールには、Big SQL と
BigSheets が組み込まれています。これまでも Hadoop
で SQL を使用できましたが、全ての SQL エンジンが同
等というわけではありません。Big SQL は Hadoop で使
用できる最も高速かつ高機能な SQL エンジンであり 2、
以下に示すすべての機能を提供します。





 ビジネス・ユーザー向け Web ツールが新たに搭載され
たスプレッドシート形式のインターフェースによる
データの操作および可視化の機能 (BigSheets)
 R の機械学習アルゴリズムによる自動予測
 テキスト・アナリティクスおよび地理空間アナリティク
スを含む高度な分析によりさらに詳細な洞察を提供
 テキストからコンテキストとリレーションシップを推
察できる強化されたテキスト・アナリティクス
超並列処理 (MPP) テクノロジーによる低遅延クエリー
クエリーの書き換えの最適化およびコスト・ベース
のオプティマイザー
Hive と HBase の両方のデータ・ソースの統合
ANSI SQL 標準をこれまでにないレベルでサポート
IBM DB2®、Oracle、Teradata、および ODBC の各ソー
スに対するフェデレーションに基づくクエリー・アク
セス
BigSheets は、データ・サイエンス・チームにとって重
要なユース・ケースをサポートします。

Hadoop をランディング・ゾーンとして使用すること
で、これまでにないデータ・セットの探索と把握を
実現
 データ・セットのデータ品質のレベルを把握するこ
とで、データ統合またはビジネス・インテリジェン
ス・プロジェクトをサポート
 Hadoop クラスターのすべての計算リソースを利用
して、データ抽出を行わずに直接クラスター上で
BigSheets による洞察と可視化を促進
Big SQL は、次世代の論理データ・ウェアハウスを最新
化および構築する場合の大抵のユース・ケースをサポー
トします。




既存のデータ・ウェアハウスのデータとワークロー
ドのオフロード
Hadoop 内部にクエリー可能なアーカイブを作成す
ることにより、使用頻度が非常に少ないデータを高
コストなデータ・ウェアハウスから移動
ビジネス・インテリジェンス・レポートの迅速なプ
ロトタイピングの実現
既存の SQL スキルを使用することにより Hadoop
の短期間での導入を確実にサポート
データ・サイエンティスト
IBM BigInsights Data Scientist モジュールに含まれる
Big R は、以下で構成されています。

BigSheets は、Hadoop 内の一連のファイルを Web ベー
スのスプレッドシート形式で表示します。ユーザーは、
大量のデータの変換、フィルタリング、および可視化を
実行できます。BigSheets がスプレッドシートの操作を
MapReduce に変換することで Hadoop クラスターの計
算リソースを利用するため、コーディングは必要ありま
せん。そのため、アナリストはデータに含まれる価値を
すばやく簡単に発見できます。



2
オープン・ソースの R とのエンド・ツー・エンドの
統合
Hadoop での透過的な実行
Big R が提供する機能が豊富でスケーラブルな機械
学習アルゴリズムへのシームレスなアクセス
テキスト・アナリティクスにより非構造化データか
ら意味のある情報を抽出
IBM ソフトウェア
データ・シート
データ・サイエンティストは所有する R コードを使用
し、R コミュニティーの 4,500 を超える統計パッケー
ジを無料で利用することができます。新しい処理エンジ
ンは、Hadoop クラスター内の膨大なデータ・セットに
対する機械学習パフォーマンスを自動的にチューニン
グします。また、BigInsights Data Scientist モジュールに
は、Hadoop に格納されている非構造化データをより詳
細に理解するためのテキスト・アナリティクスなどの分
析機能が追加されています。
Hadoop エコシステムおよび
IBM Analytics プラットフォームとの連携
IBM は、Open Data Platform Initiative (ODP) の創立メ
ンバーです。ODP は、ビッグデータ・ツールの相互運
用性促進を目指す業界共通の取り組みです。ODP は、
Apache Hadoop で通常使用される互換性のある一連の
100% オープン・ソースのプロジェクトの定義、統合、
テスト、および認定を行います。ビッグデータのソ
リューション・プロバイダーは、この「ODP コア」を
使用してソリューションを構築できます。ODP の創立
メンバーである IBM は、Hadoop およびビッグデー
タ・テクノロジー全般の標準化の推進に取り組んでいま
す。
管理者
IBM BigInsights Enterprise Management モジュールは以
下を提供します。



POSIX 準拠のファイル・システム
マルチ・テナントのスケジューリング
データ分離によるマルチ・インスタンスのサポート
BigInsights のコアである IBM Open Platform with
Apache Hadoop は、ODP に端を発する最初の Hadoop
ディストリビューションの一つです。BigInsights Analyst、
Data Scientist、および Enterprise Management の各モ
ジュールは、その ODP に準拠する IBM Open Platform
with Apache Hadoop 上で動作するように構築された付
加価値テクノロジーであるため、他のビッグデータ・
ツールとの相互運用性の強化によるメリットが得られ
るように設計されています。
IBM Spectrum Scale™-FPO (旧称 IBM GPFS™-FPO) は、
POSIX 準拠のカーネル・レベルのファイル・システム
であり、Hadoop 分散ファイル・システム (HDFS) の代
わりに使うことが可能です。Spectrum Scale は、Hadoop
アプリケーションに対して透過的に機能するように設
計されています。そのうえ、管理者は Spectrum Scale を
使用して、企業内の他のシステムを詳細に制御し、統合
できます。BigInsights Enterprise Management モジュール
に付属する IBM Spectrum Scale Active File Management
(AFM) は、災害復旧用に広大な地理ロケーションを対象
にデータをきめ細かくレプリケーションするなど、最も
要求の厳しいアプリケーション向けの機能を提供しま
す。
IBM Open Platform with Apache Hadoop の新機能
同じく BigInsights Enterprise Management モジュールに
付属する IBM Platform™ Symphony はマルチ・インスタ
ンスをサポートします。これにより、管理者はリソース
の割り当てと最適化を実行して、大量のユーザーに合わ
せて環境を拡張できます。この結果、複数グループの
ユーザーが共有する Hadoop クラスター内でマルチ・テ
ナント機能とデータ分離を実現することにより、効率と
セキュリティーの強化に役立ちます。
3

100% オープン・ソースのコンポーネントを使用して
構築され、Open Data Platform Initiative (ODP) に準
拠

Hadoop 2.6 の基盤には YARN と Apache Spark が
含まれる

YARN のロングランニング・サービスをサポート

Spark のインメモリー分散計算エンジンにより
MapReduce に比べてパフォーマンスを飛躍的に高
め、Java、Python、および Scala による開発を平易
化

Apache Ambari の運用フレームワークにより
Hadoop クラスターをプロビジョニング、管理、およ
びモニタリング
IBM ソフトウェア
データ・シート
BigInsights Analyst、Data Scientist、および Enterprise
Management の各モジュールが提供する機能は、広範な
IBM Analytics プラットフォームと連携します。このプ
ラットフォームは幅広い分析機能を提供し、Hadoop ソ
リューションをウェアハウジングとデータ・アーキテク
チャの一部として統合します。特に IBM SPSS® の予測
機能を使用すると、予測モデルの構築、Hadoop での機
械学習と R の実行、ビジネスの最適化、および構築し
たモデルのリアルタイムのビジネス・プロセスへの実装
を行うことができます。
パフォーマンスの強化および価値実現までの時間の短縮
データ・サイエンティストは BigInsights を使用するこ
とで、簡単に既存の R コードとアルゴリズムのパッ
ケージを Hadoop クラスターにプッシュして分散分析
を実行し、オープン・ソースの R のメモリー制限に拘
束されることなく Hadoop クラスター全体のメモリー
を使用できます。これは、最終的には処理の高速化と結
果を得るまでの時間の短縮化をもたらします。
BigInsights は、以下の点でパフォーマンス向上にも役立
ちます。
BigInsights が企業にもたらすメリット
 低遅延の並列処理インフラが Hadoop データにネイ
ティブにアクセスし、読み取りと書き込みを高速化
 インメモリー・キャッシュにより、計算リソースの
より近くにデータを配置
 必要なメモリーが一時的に増えた場合、BigInsights
が大量のデータ・セットを各ノードのローカル・ディ
スクに振り分けて、処理速度の低下を回避可能
分析の強化により結果を向上
BigInsights は、サンプル・データだけでなくすべての
データを参照することによってパターンを抽出する場
合に役立ちます。膨大なデータ・セットを分析するため
に、BigInsights は非常にスケーラブルなあらゆる機械学
習アルゴリズム (旧称は IBM Research による System
ML) を提供します。機械学習アルゴリズムは、使い慣れ
た R 言語でプログラミング可能です。効果的な統計モ
デルを構築するには、十分なサイズのデータ・セットが
必須です。より効果的なモデルはより正確な予測能力を
持ち、最終的により良い結果をもたらします。
また、BigInsights の自動チューニングにより、ビッグ
データのユース・ケースの増加に合わせて専用リソース
を追加しなければいけないというプレッシャーが緩和
されます。すべてのアルゴリズムは異なる計算プロファ
イルを持つため、プロファイルとデータ・セットに応じ
て異なる最適化が行われます。BigInsights では、アルゴ
リズム担当者は 1 度だけアルゴリズムを選択または作
成すれば済みます。システムはこのアルゴリズムをさま
ざまなデータ、マシン、およびシステムの特性に応じて
自動的に最適化し、スケールアップのためのすべてのプ
ロパティーを調整します。
BigInsights は、テキスト・アナリティクス機能と地理空
間分析機能も提供します。データ・サイエンティストは
テキスト・アナリティクスを使用して、文書から洞察を
抽出し、既存の分析を補強できます。地理空間分析機能
を使用すると、例えば警察による犯罪現場のパターンの
検出や地方自治体によるタクシーの呼び出しが最も多
いロケーションの把握などの応用が可能となります。
管理の簡略化および投資の保護
BigInsights に組み込まれている使いやすさと自動化機
能は、IT 管理者がワークロードの管理、ジョブのスケ
ジューリング、およびリスクの削減を効率的に実行する
際に役立ちます。以下の特長があります。


4
ワークロード管理ツール。さまざまなクラスの同時
実行されるクエリーのアドミッション制御の自動
化により、CPU、メモリー・リソース、およびディ
スク I/O の過度の負荷を回避します。
セルフ・チューニング・メモリーによる管理インフ
ラ。管理者を各ワーカー・ノードのパフォーマンス
と同時実行のための管理とチューニングから解放
します。
IBM ソフトウェア
データ・シート
IBM を選択する理由
BigInsights for Apache Hadoop の新機能は、IBM Analytics
のソフトウェア、サービス、研究開発、およびハードウェ
アに亘るビッグデータ・ソリューションのポートフォリ
オを拡張します。このポートフォリオは、従来のデー
タ・ウェアハウス・ツールと最新のビッグデータの手法
とテクノロジー (Hadoop、ストリーム・コンピューティ
ング、データ探索、先進アナリティクス、エンタープラ
イズ統合、および IBM Watson™ のコグニティブ・コン
ピューティングなど) を組み合わせて、あらゆる組織が
ビッグデータと分析機能を使用できるようにする統合
ソリューションを構築します。
詳細情報
IBM BigInsights for Apache Hadoop の詳細については、
IBM の営業担当員またはビジネス・パートナーにお問
い合わせいただくか、ibm.com/hadoop の Web サイト
をご参照ください。
さらに、IBM Global Financing は、できるかぎりコスト
効率が良く戦略的な方法でビジネスに必要なソフト
ウェア機能を入手するための支援を提供します。弊社は
与信基準を満たしたお客様と連携することで、お客様の
ビジネス目標と開発目標に適合し、効果的なキャッ
シュ・マネジメントを実現し、TCO が向上するよう、
融資ソリューションをカスタマイズします。IBM Global
Financing は、重要な IT 投資の資金を提供し、お客様
のビジネスを前進させます。詳細情報については、
ibm.com/financing の Web サイトをご参照ください。
5
© Copyright IBM Corporation 2015
ソフトウェア・グループ
〒103-8510 東京都中央区日本橋箱崎町 19 番 21 号
アメリカ合衆国にて作成
2015 年 3 月
IBM、IBM ロゴ、ibm.com、BigInsights、DB2、IBM Watson、Platform、
Spectrum Scale、および SPSS は、世界の多くの国で登録された
International Business Machines Corporation の商標です。他の製品名お
よびサービス名等は、それぞれ IBM または各社の商標である場合が
あります。現時点での IBM の商標リストについては、
http://www.ibm.com/legal/copytrade.shtml をご覧ください。
Java およびすべての Java 関連の商標およびロゴは Oracle やその関
連会社の米国およびその他の国における商標または登録商標です。
本書の情報は最初の発行日の時点で得られるものであり、予告なしに
変更される場合があります。すべての製品が、IBM が営業を行って
いるすべての国において利用可能なのではありません。
本書に含まれる情報は、特定物として現存するままの状態で提供され、
商品性の保証、特定目的適合性の保証、および第三者の権利の不侵害
の保証を含むすべての明示もしくは黙示の保証責任なしで提供され
ています。IBM 製品は、IBM 所定の契約書の条項に基づき保証され
ます。
1
“The Real SQL over Hadoop Story: Experiences from the Hadoop-DS
benchmark.” 2014.
http://www-01.ibm.com/common/ssi/cgi-bin/ssialias?subtype=WH&inf
otype=SA&appname=SWGE_IM_EZ_USEN&htmlfid=IMW14800USE
N&attachment=IMW14800USEN.PDF
2
Ibid.
IMD14496-JPJA-00