優れたパフォーマンスを実現する インメモリー BI

IT@Intel ホワイトペーパー
インテル IT 部門
IT ベスト・プラクティス
インメモリー BI プラットフォーム
2013 年 11 月
優れたパフォーマンスを実現する
インメモリー BI プラットフォームの構成
概要
サーバー・サイジング・テストと
ストレステストを実施した結果、
インテル® Xeon® プロセッサー・
ファミリーを搭載した
業界標準サーバーについて、
価格とパフォーマンスの
両面から、サーバー速度、
プロセッサー・コア数、
キャッシュサイズ、メモリーの
最適な組み合わせを
特定することができました。
Ajay Chandramouly
インテル IT 部門
ビッグ・データ・ドメイン・オーナー
Rajeshkumar Ramamurthy
インテル IT 部門
BI プラットフォーム・アーキテクト
Rama Sheshadri
インテル IT 部門
システムエンジニア
Prashanth Uk
インテル IT 部門
機能エンジニア
Chandhu Yalla
インテル IT 部門
BI エンジニアリング・マネージャー /
アーキテクチャー・オーナー
大量のデータセットをリアルタイムで分析するためには、優れたクエリー応答性が求められ
ます。インテル IT 部門は、クエリーの応答性という視点から、コスト効率の高いハイパフォーマン
スなインメモリー・ビジネス・インテリジェンス(BI)ソリューションに最適なプラットフォームを判
定するためのテストを実施しました。サーバー・サイジング・テストとストレステストを実施した結
果、インテル ® Xeon® プロセッサー・ファミリーを搭載した業界標準サーバーについて、価格とパ
フォーマンスの両面から、サーバー速度、プロセッサー・コア数、キャッシュサイズ、メモリーの最
適な組み合わせを特定することができました。
インメモリー BI ソリューションは、優れたアク
を短縮したり、新しいセルフサービス BI 機
織が適切な意思決定者に対して適切な情報
て、高いビジネス価値を実現する
セス機能と応答機能を特長としています。組
をタイミングよく提供するには、このような機
能は欠かせません。ただしインメモリー BI ソ
会を得られるようにするソリューションを通し
ため、インテル IT 部門では、サードパーティー
• インメモリー BI ソリューションのアプリケー
ションが将来増えた場合に、ソリューション
を容易に拡張および複製できるようにする
出し、そのアプリケーションにとって最適なプ
インメモリー・データベースは非常に高速で、
しました。
は、より高性能な分析機能をインテル社内の
インメモリー・プラットフォームに最適な構成を
して、包括的で多角的データ・ウェアハウス戦
と考えました。
インメモリー・データベースが備えている特長
リューションは種類ごとに多くの相違点がある
製のインメモリー分析アプリケーションを選び
ラットフォームを判断する目的でテストを実施
特定することにより、以下のメリットが得られる
• インメモリー BI ソリューション用に構築され
たエンタープライズ・クラスのデータ・ウェア
ハウスでコスト効率の高いパフォーマンスを
実現する
• インテルのビジネスグループが大量のデー
タセットをリアルタイムでチェックしたり、短
時間でインサイトを引き出したり、開発期間
遅延時間は 1 秒未満です。インテル IT 部門
各ビジネスグループに提供するための手段と
略をとっています。このような戦略にとって、
はますます重要になっています。インテルで
は近い将来、需要と供給計画、新しいビジネ
ス機会のほぼリアルタイムでの特定、外貨換
算で数百万ドルも節約できる可能性のあるバ
ランスシート・ヘッジ、40 万点以上の部品と
16 億ドルの支出に対するリアルタイムのサプ
ライチェーン・リスク評価といったビッグデータ
活用にインメモリー BI ソリューションを導入す
ることも検討中です。
IT@Intel ホワイトペーパー 優れたパフォーマンスを実現するインメモリー BI プラットフォームの構成
目 次
概 要................................ 1
背 景................................ 2
ビジネス課題 . . . . . . . . . . . . . . . . . . . . . . . . 2
ソリューション . . . . . . . . . . . . . . . . . . . . . . . 3
利用案件テスト. . . . . . . . . . . . . . . . . . . 3
テストの目的 . . . . . . . . . . . . . . . . . . . . . 4
手 法............................. 4
テストタイプ :
プラットフォームと容量 . . . . . . . . . . . 5
結 果................................ 6
最適な構成 . . . . . . . . . . . . . . . . . . . . . . 6
コアを追加する利点 . . . . . . . . . . . . . . 6
より高速なコアを使用する利点 . . . 7
キャッシュサイズを増やす利点 . . . . 7
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
関連情報 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
略 語................................ 8
背景
大規模なデータセットを使ったコスト効率の
高いビジネス・インテリジェンス(BI)を素早
く利用できるようにしたいという要求が高まっ
ています。インテル IT 部門では、広範囲な
データを迅速、詳細、効率的に分析すること
を望むインテルのビジネスグループを支援す
る新たな方法を模索していました。何よりも
重要な BI 目標は、適切なデータを適切な相
手にタイミングよく提供できるようにすること
です。そのためには、さまざまなビジネス利用
に柔軟に対応できて、重要なビジネス問題に
ついての適切なインサイトをほぼリアルタイム
で提供できる BI 戦略が必要です。
インテル IT 部門ではここ数年、以下を含めな
がら、BI データ・ウェアハウス・ソリューションを
拡張してきました。
• エンタープライズ・データ・ウェアハウス
( E DW):エンタープライズ規模の構造化
データ用
• Apache* Hadoop* ソリューション:未加工
の非構造化データ用
• エクストリーム・データ・ウェアハウス(XDW)
:
構造化および半構造化データ用
• 独立型カスタム・データ・ウェアハウス:構造
化された正規化データ用
• インメモリー BI プラットフォーム:大量のスト
リーミング・データセットのリアルタイム分析用
現 在では、このリストの最 後に加えられた
2
www.intel.co.jp/itatintel
• 高額なデータベース・アプライアンスによる処
理の負担を軽減できる
• さまざまなソースからのデータを統合し、クエ
リー分析、キューブ構築、集計テーブルの設
計などのパフォーマンス調整作業にかかる時
間を解消または短縮できる
• セルフサービス分析を容易に導入して、直観的
かつ制約のないデータ調査を行うことができる
• 複雑なデータセットを直ちに視覚化できる
インテルのビジネスの高速化と複雑化が増す
につれて、インメモリー BI プラットフォームは多
角的データ・ウェアハウス戦略の重要な要素と
なりつつあります。これにより、ビジネスグルー
プの意思決定のスピードと質を大幅に高めて、
グローバル市場におけるインテルの競争力強
化を支援できるようになります。
ビジネス課題
インメモリー BI ソリューションのメリットは十
分に確立されていますが、インテル IT 部門は
調査の初期段階で、業界標準サーバーを使っ
てコスト効率の高いパフォーマンスを実現す
る最適なプラットフォームの設計方法につい
セットを素早く分析できるようにする方法を模
した。
では、高いビジネス価値の具体的要件を満た
インメモリー・コンピューティングが登場したの
その点では、インメモリー BI ソリューションの
クションやイベント処理に用いられてきました。
ます。こうしたビジネス利用において、処理速
が限られることから、インメモリー BI ソリュー
索しています。インテルにおけるビジネス利用
IT@Intel は IT プロフェッショナル、マネー
ジャー、エグゼクティブが、インテル IT 部
門のスタッフや数多くの業界 IT リーダー
を通じ、今日の困難な IT 課題に対して成
果を発揮してきたツール、手法、戦略、ベ
スト・プラクティスについて詳しく知るため
の情報源です。詳細については、http://
www.intel.co.jp/itatintel / を参照し
てください。あるいはインテルまでお問い
合わせください。
• 大量のデータに対するショートクエリーの応
答が速い
インメモリー BI プラットフォームを使用して、
インテルのビジネスグループが大量のデータ
IT@Intel
• 標準的なデータベース管理システム(特に
I/O のボトルネックによって性能が低下する
システム)
と比較して、パフォーマンスが非常
に優れ、遅延が極めて小さい
す結果を素早く提供できることが重要であり、
費用については妥当という評価が得られてい
度が非常に速いということは、迅速かつ十分
な情報に基づくビジネス上の意思決定が可能
になることを意味し、非常に高いビジネス価値
て、学ぶべきことはまだ多くあると考えていま
は 1990 年代末頃であり、一般的にトランザ
当初は、RAM のコストが高いことや拡張性
ションの開発や採用はあまり普及しませんでし
た。RAM の価格が徐々に低下し、64 ビット
OS の普及率が上がってきた現在では、インメ
の創出が実現されます。
モリー分析は以前よりも手ごろで拡張性の高
インメモリー BI 分析への関心が高まっている
ト OS には、アドレス指定可能なメモリーが
ベース固有の利点が挙げられます。
では最大 1TB のメモリーがサポートされてい
要因として、以下に示すインメモリー・データ
いソリューションとなりました。以前の 32 ビッ
4 GB しかありませんでしたが、64 ビット OS
るため、テラバイトのデータセットを RAM に
優れたパフォーマンスを実現するインメモリー BI プラットフォームの構成
IT@Intel ホワイトペーパー
インメモリー BI ソリューションによる、投資収益率上のメリットの可能性
インテル IT 部門によるインメモリー・ビジネス・インテリジェンス(BI)
ソリューションへの投資判断は、これらのソリューションがビジネスグルー
プにもたらすメリットから得られるであろう投資収益率を確認することから始まりました。
• 短時間でインサイトを得る:インメモリー BI ソリューションではメモリーにデータが読み込まれるため、プロセッサー・コアは、ハードディス
クからデータを引き出すよりもはるかに高速に計算を実行できます。
• リアルタイム可視性:従来の BI システムは、ソースからデータ・ウェアハウスにデータをプッシュ送信します。インメモリー BI ソリューション
では、ERP アプリケーションや同様のアプリケーションからデータをリアルタイムで複製し、ユーザーがリアルタイムで業務分析を行い、イン
サイトを引き出すことができます。
• 高い効率性:インメモリー BI ソリューションでは列圧縮を使用するため、
ビジネスユーザーは従来の分析ツールよりもはるかに大量のデー
タを、高速に処理することができます。行ではなく列で情報を格納することで、高いレベルでデータを圧縮(最大 10 倍)できるデータベー
ス管理システム構造が実現されるため、大容量のデータセットをメモリーに読み込みやすくなります。
• 高い俊敏性:インメモリー BI ソリューションでは、データを集計してスキーマを構築する必要がないため、分析プロセスの俊敏性が高まり、
従来の BI に比べてビジネス要件の変化に順応しやすくなります。
• セルフサービス:集計および事前計算されたデータ構造の構築が必要となる場合、ユーザーがデータを調査できる方法が限られてしま
います。インメモリー BI ソリューションでは、分析時の柔軟性が高い上に、インデックスの作成やメンテナンスといった管理上のオーバー
ヘッドがないため、セルフサービスが助長され、その分、ビジネスユーザーによる IT への依存度が低くなります。
• 開発時間の短縮:BI の導入時には、集計データ構造の構築が主要な要素となることが一般的ですが、レポート作成や分析のための詳
細データをメモリーに読み込めれば、こうした必要性が低減されます。インメモリー BI ソリューションのセットアップや導入を短期間で行え
るのはこのためです。
格納することが可能です。このように容量が
ソリューション
ら、サーバー・サイジング・テストの結果を判断
となり、多くの組織がデータマートを(おそらく
インテル IT 部 門 は、インメモリー分 析 が
る要求が特定の利用案件よりも大きな影響
増えたことにより、RAM が新しい「ディスク」
データ・ウェアハウス全体をも)1 TB のアドレ
ス指定可能メモリーを備えた 64 ビット OS 上
インテルのビジネスグループと BI 手法にも
たらす価値を理解しています。インテル IT 部
する上で、ソフトウェアのパフォーマンスに対す
を及ぼす可能性があるためです。
門では、サーバーサイズを分析して、選ばれ
利用案件テスト
インメモリー BI ソリューションの現実性が高
スト効率良く実行できるプラットフォームを特
このテストに使 用したデータは、セールス・
を備えたインテル ® Xeon® プロセッサー・ファ
アプリケーションにとって最適なサーバー速
るインサイトを提供するインテル IT 部門の BI
サーバーが低価格で登場したことが挙げられ
の組み合わせを見つけることです。
リューションから得た顧客に関するインサイト
力を発揮します。また、このサーバーを組み
まず、特定の利用案件に使用可能なインメ
数のビッグデータ技 術を統 合して、Web 分
の RAM に読み込めるようになりました。
まったもう 1 つの要因として、1TB の RAM
ミリーを搭載した高性能な業界標準ブレード
ます。このタイプのサーバーは分析処理で威
合わせることで、パワフルなマルチノード・シス
テムを容易に構築できます。さらに、このサー
バーに搭載されたマルチコア・プロセッサー
は、インメモリー・データを高速かつ効率的に
並列処理することができます。
加えて、従 来の 行ベースのリレーショナル・
たインメモリー分析アプリケーションを最もコ
定することにしました。具体的な目標は、その
度、コア数、メモリーサイズ、キャッシュサイズ
モリー BI ツールの各種カテゴリーと、各ツー
ルが何に最も適しているか、およびその最適
マーケティング・グループに対して顧客に関す
ソリューションから得たものです。この BI ソ
は、複数のデータコンテナーにアクセスし、複
析用のビジネスルール一式を組み込むことが
できる機能を利用したものです。このソリュー
なハードウェア要件の調査から分析を始めま
ションは未加工の Web データを処理した後、
択プロセスの詳細は本資料の範囲外ですが、
用可能な従来のトランザクションに関する社
した。インメモリー分析アプリケーションの選
テスト手順と結果は、同様のアプリケーション
のプラットフォーム・サイジング戦略のガイダン
そのデータを、別のデータ・ウェアハウスで使
内消費データと統合します。
データベースに代わるものとして列指向デー
スとして役立つはずです。
分析が主流となりつつある要因の 1 つです。
使用可能ないくつかのソフトウェア・ベース製
に関する意思決定をより迅速に行えるように
圧縮レベルが大幅に高まり、大規模なデータ
のは、業界標準サーバー上でのテストが最も
タを素早く分析し、以下のインサイトを得る必
実的になりました。
ションです。これは重要な決定でした。なぜな
タベースが一般化してきたことも、インメモリー
情報を行ではなく列に格納することでデータ
セットをメモリーに読み込むことが以前より現
品の中からインテル IT 部門が実際に選んだ
容易と思われるインメモリー分析アプリケー
最終的な目標は、インテルの製品とサービス
のマーケティング・キャンペーンやアプローチ
することです。そのためには、利用案件でデー
要があります。
www.intel.co.jp/itatintel
3
IT@Intel ホワイトペーパー 優れたパフォーマンスを実現するインメモリー BI プラットフォームの構成
• 顧客のニーズ、嗜好、行動、期待事項を特
定する
この案件が特にインメモリー BI 分析に適して
• どの顧客が特定の製品やサービスを必要と
しそうかを正確に予測する
と、リアルタイム消費データを高速で処理で
• 顧客の購入につながる販売サイクルとプロ
セス(ウェビナーを見る、ホワイトペーパーを
読む、参照アーキテクチャーをダウンロード
するなど)
を特定する
BI プロセスではまず、Intel.com へのアクセ
スから、顧客とネットワークの利用状況に関
する分析情報を収集します。次に、この Web
利用状況データがマーケティングやコンテン
ツ・ナビゲーションの目的に応じて分析され、
販売サイクルの初期段階で、顧客に合わせて
マーケティング範囲が適切に個別化されます。
これまでは、データソースの量と種類が多い
ために、データを迅速に分析できず、製品の
位置付けや顧客対応については有意義な対
処をしたり、
リアルタイムで調整することができ
ませんでした。この案件にインメモリー分析を
利用する目的は、このデータをリアルタイムで
分析し、マーケティング・キャンペーンに対する
最新の反応に基づいて、製品の位置付けや
価格設定を正確に予測および調整できるよう
にすることです。
ネスグループの需要が大きくなっているため
• サーバーや利用状況に関するその他の側面
(サーバーの仮想化、複数の同時ユーザー
など)がパフォーマンスに影響を与えるか?
きるためです。ビジネスユーザーは、さまざま
手法
いる理由は、セルフサービス BI に対するビジ
な見込み客から得られた大量のデータ
(約
7 GB)を確認し、さまざまな角度から掘り下げ
て、適切な意思決定を行うために必要な情報
を得られなければなりません。
テストの目的
サーバー・サイジング・テストとストレステスト
を実施する目的は、サーバー・ハードウェアの
コストが増えても、それを正当化できるだけ
のパフォーマンス・レベルを実現する、最適な
サーバー構成を見つけることです。テストで
は、以下の疑問に対する答えを得ることを目
指しました。
• プロセッサー・コア数を増やし、より高速な
ものにすれば、インメモリー BI ソリューション
のパフォーマンスが向上するか?
• プロセッサー・キャッシュを大きくすれば、
イン
メモリー BI ソリューションのパフォーマンス
が向上するか?
適切なプラットフォーム構成を判断し、テーブ
ルベースのインメモリー BI ソリューションのサ
イジングを行うにあたり、以下の 4 つの主要
基準を特定しました。
• サーバー速 度:コア速 度が 2.40GHz ∼
2.93 GHz のプロセッサーをテストして、コ
ア速度がインメモリー BI ソリューションに与
える影響を判断しました。
• コア数:使用可能なコアが複数あると、パ
フォーマンスのオプションが可能になります。
コア数によってプラットフォームを拡張し、サ
ポートするユーザー数を増やしたり、処理時
間を短縮することができます。
• キャッシュ:キャッシュは重要なテスト・パラ
メーターです。なぜなら、読み込まれたデー
タは物理メモリー(RAM)にコピーされ、そ
の後クエリーが実行されると、
(実行する必
要のある操作に応じて)圧縮解除のために
データがプロセッサー・キャッシュに複数回
インメモリー BI ソリューションの仕組み
従来のビジネス・インテリジェンス(BI)
ツールは、ハードディスク・ドライブ上のデータを照会します。標準的な BI データ・ウェアハウスでユー
ザーがクエリーを実行するたびに、そのクエリーがデータベースに送られ、サーバーのハードディスク・ドライブ上に格納された複数のテーブ
ルから情報が読み取られます。
一方、インメモリー BI ソリューションは、動的 RAM 内のデータを照会します。つまり、ユーザーがソース・データベースを照会すると、
ソース・
データベースの情報がすべてメモリーに読み込まれるため、最初のクエリーだけでなく後続のクエリーもすべてそのセッションで実行するこ
とができます。インメモリー・ツールはメモリー内に丸ごと格納されたデータセットを調べるため、反復処理が解消され、データベース・サー
バーの負担が減ります。ハードディスク・ドライブから情報を引き出す必要がないため、インメモリー・ツールは理論上、1 万倍から 100 万
倍も速くデータにアクセスできます。また、I/O サイクル数と計算回数を大幅に削減できるため、クエリー応答時間が大幅に短縮されます。
このようにすべてのデータを高いコスト効率でメモリーに格納するために、インメモリー BI ソリューションは列圧縮などの技術を用いて、高
圧縮形式でデータを格納します。インメモリー BI ソリューションは、従来のオンディスク・ストレージに比べて 1:10 もの高いデータボリュー
ム比を達成することができます。
ディスクベースのソリューションの場合、IT 組織は一般的に、クエリーのパフォーマンスに合わせて最適化されたデータレイヤーを設計し、
構築しなければなりません。従来のデータ・ウェアハウジング・アプリケーションや BI アプリケーションでは、インデックス、集計テーブル、多
次元キューブを構築する必要がありましたが、インメモリー BI ソリューションは仮想レイヤーを使ってデータにアクセスすることでデータ分析
処理を簡素化するため、そのような必要はありません。
インメモリー BI ソリューションの範囲は、スプレッドシート・ベースのアプリケーションから、膨大な量のデータを処理するよう設計されたハイ
エンド・プラットフォームにまで及びます。インメモリー・ツールを使用すれば、IT チームのデータ管理作業が軽減され、クエリーの作成と実
行が容易になります。また、これらのツールにより、特殊なスキルを持たないエンドユーザーでも、セルフサービス BI 機能を利用して高度な
分析作業を行えるようになります。
4
www.intel.co.jp/itatintel
優れたパフォーマンスを実現するインメモリー BI プラットフォームの構成
コピーされるためです。プロセッサー・キャッ
シュが大きいほど、クエリーのパフォーマンス
は向上し、
トランスレーション・ルックアサイド・
バッファー(TLB)の検索回数が減ります。
• コアと関 連する R A M のサイズ:インメモ
リー BI ソリューションで は、データベース
を RAM 内に常駐させる必要があるため、
RAM が大きいほど、RAM 内で処理できる
データベースも大きくなります。ここで重要
となる考慮事項は、RAM 内のデータベー
スに対してインメモリー分析を実行するに
は、処理(キューブ / クエリー)用の RAM が
別途必要になる点です。今回の利用案件で
は、RAM の合計サイズをインメモリー・デー
タベースのサイズの少なくとも 2.5 ∼ 3 倍
にする必要がありました。
その他の考慮事項としては、物理ディスクやス
トレージなどがあります。ストレージは、インメ
モリー BI ソリューションでクエリーを処理する
際の考慮事項ではありませんが、
メモリーへの
データベースの読み込みや、サーバーの復元、
ページネーション(データを 2 次ストレージに
ら、複数の同時ユーザーから(5 ∼ 10 の並
プラットフォーム・テスト
のタイプのクエリーを実行する各種プラット
データまたはメタデータ、あるいはその両方が
フォームのパフォーマンスを比較しました。
ディメンション・テーブルとファクトテーブル(測
容量テスト
格納される可能性があります。この構造には、
定値)が含まれます。ディメンションには、従業
データベース の パ フォーマン ス は、通 常、
員と地理的位置に関するマスターデータが含
「80/20 のルール 」
( クエリーの 20% がパ
のデータを集計すると、レポート作成や項目
こす)に従います。こうしたルールを踏まえた
まれます。測定値は数値データであり、これら
フォーマンス上の問題のうち 80% を引き起
の数量化におけるインサイトが得られます。
上で容量をテストするため、その実行時間に
基づいて、以下のようにクエリーを単純、普
今回の調査では、以下の 2 つのクエリータイ
通、複雑の各カテゴリーに分類しました。
プが対象となりました。
• 単純:実行時間が 1 ∼ 3 秒のクエリー
• メモリー中心のクエリー:これらのクエリー
では、物理メモリーから大半のデータを読み
取って、プロセッサー負荷の高い計算は最
小限に抑える必要があります。
インテル IT 部門では、コア数がそれぞれ 8 ∼
サー中心のクエリーでは、処理されたすべて
32 個の 4 台のサーバー構成を使用して、2
種類のテストを実施しました(表 1 を参照)。
まず、プラットフォーム・テストを実施し、単一
ユーザーの場合と複数の同時ユーザーの場
合とで、テーブルベースのインメモリー分析
ソリューションに適したハードウェア・プラット
フォームを特定しました。次に、容量テストを
実施し、さまざまなクエリーの組み合わせと多
数の同時セッションを使用して、適切なサー
内にデータがある場合とない場合とで、両方
ブル構造には、スライシングとダイシング用の
クエリータイプは、プロセッサーを選択する際
はストレージ・エリア・ネットワーク
(SAN)を使
列セッション)、さらにプロセッサー・キャッシュ
インメモリー BI ソフトウェアで使 用するテー
テストタイプ : プラットフォームと容量
プットを実現するために、インテル IT 部門で
プラットフォーム・テストでは、単一ユーザーか
データとデータベースを使用しました。
用しました。
処理)
で重要となります。高可用性と高スルー
を制御できなくなります。
バーサイジングを判別しました。どちらの場合
も、インテルの世界規模の消費案件の実際の
• プロセッサー中心のクエリー:これらのクエ
リーでは、圧縮と圧縮解除を含む広範囲な
処理を必要とするため、プロセッサー・キャッ
シュや追加コアから得られるメリットは大き
いと考えられています。
格納し、使用時にそこからデータを取得する
IT@Intel ホワイトペーパー
• 普通:実行時間が 4 ∼ 6 秒のクエリー
• 複雑:実行時間が 8 ∼ 10 秒以上のクエ
リー
このようなクエリー選択で、さまざまなクエリー
の組み合わせと同時実行を使用し、同時に
クエリーを出すユーザーの数を変えてシミュ
レーションして、各プラットフォームで容量テス
トを実施しました。クエリー作成ツールとサー
バー・ストレス・ツールを使用してクエリーを並
列実行し、以下の 3 種類のロードを実行して
に、必ずチェックすべき項 目です。プロセッ
テストを実施しました。
のデータがプロセッサーのキャッシュを経由し
• 単純クエリー 1,000
ます。キャッシュが小さかったり、プロセッサー
• 単純クエリー 250、普通 125、複雑 125
が低速であるほど、クエリーの処理にかかる
時間が長くなります。キャッシュサイズがもた
• 単純クエリー 200、普通 50、複雑 50
場合に顕著になります。この場合、キャッシュ
さらに、同時ロードでは、アクティブユーザー
ロセッサーを共有する仮想サーバー間でプロ
が同時セッションでアクティブになるように、妥
らす最大の効果は、仮想サーバーを使用する
がパーティション分割されていないと、同じプ
を 1,000 人として、常にその 10%(100 人)
セッサーのキャッシュをどのように使用するか
当と思われる作成時間を想定しました。
表 1. テストサーバーの構成。
サーバー
コア速度(GHz)
コア総数
プロセッサー当たりの
L2/L3キャッシュ
サイズ(MB)
サーバー1:開発用
インテル® Xeon® プロセッサー X5670を搭載したホスト上で稼動する仮想サーバー
2.93
16(仮想コア)
12
32
サーバー2:実稼動用
インテル® Xeon® プロセッサー E7330を搭載した4-wayサーバー
2.40
16
6
192
サーバー3
インテル® Xeon® プロセッサー E5-2650を搭載し、
インテル® ターボ・ブースト・テクノロジー¹2.0 対応の4-wayサーバー
2.70
32
20
96
サーバー4
インテル® Xeon® プロセッサー X5670を搭載したホスト上で稼動する仮想サーバー
2.93
8(仮想コア)
12
12
サーバーメモリー
(GB)
www.intel.co.jp/itatintel
5
IT@Intel ホワイトペーパー 優れたパフォーマンスを実現するインメモリー BI プラットフォームの構成
表 2. 最適な単一ノードの構成。今回のテストでは、
インテル ® Xeon® プロセッサー E5-2650 を搭載し、
インテル ® ターボ・ブースト・テクノロジー 1 2.0 を採用
した 4-way サーバーが最適な単一ノード構成である
と分かりました。
カテゴリーと
パラメーター
結果
今回の利用案件における最初のストレージロー
最適な結果が得られたのは、2.7 0GHz のコ
アと 20 MB のキャッシュを実行する 32 コア
構成でした。この構成が、ほぼ最速のコアを最
値
も多く、さらに最大のキャッシュを持つことに
プロセッサー
なりました。インテルのセールス・マーケティン
グ・グループが使用している世界規模の消費
コア数
32
速 度
2.7 0GHz以上
L2/L3キャッシュ
20 MB以上
データベースにこのプラットフォームを適用し
たところ、プロセッサー負荷の高い一部のクエ
リーでは、以前の BI 分析ソリューションに比
メモリー
サイズ
物理ディスク
タイプ
ストレージ・エリア・ネットワーク
RAID
5または10
に対するインメモリー BI ソリューションの場合、
物理
100 GB のデータを処理し、それを 10 GB に
圧縮するのにかかる合計時間は 3.5 時間から
1.5 時間に短縮されました。
サー負荷も高い)
クエリーの処理時間は、コア
ては 50% 以上短縮されました(図 1 の青と黒
の棒グラフを参照)。クエリータイプによっては、
これでランタイムが大幅に向上します。
このテスト結果からは、世界規模の消費案件
タイプ
データキューブへの圧縮も必要でしたが、約
数を 8 から 16 に倍増することで、ケースによっ
最適な構成
サーバー
む処理の所要時間が 50% 以上短縮されま
した(図 1 の緑の線を参照)。このタスクでは、
ションの開発が容易になり、開発時間も短縮
ルを 1/5 に短縮できました。
500∼700 GB
からデータを取得し、それをメモリーに読み込
さらに、圧縮解除が必要な(したがってプロセッ
されたことで、この消費案件の製品開発サイク
サイズ
ことにより、いくつかのクエリータイプでソース
べて実行時間を 50% 以上短縮することに成
功しました。さらに、インメモリー BI ソリュー
96 GB
ドの結果では、コア数を 8 から 16 に倍増した
表 2 に示す構成がクラスター内の単一ノードに
とって最適なサーバーサイジングであることが
コア追加のもう 1 つのメリットは、それらのコア
によってプラットフォームを拡張し、サポートす
るユーザー数を増やせることです。テストでは、
コアを増やすことでパフォーマンスが向上して、
複数のユーザーが同時にクエリーを実行でき
結論付けられます。
るようになることが判明しました。処理中の圧
コアを追加する利点
クエリーロード数が増えることで、最適化され
縮と圧縮解除が高速化され、同時実行される
あるテストでは、まず 8 つのコアを搭載した
たパフォーマンスが得られます。
サーバーを使用して処理を実行しました。次
に、さらに 8 つのコアを追加して、合計 16 個
のコアで同じテストを繰り返しました。
200
8コアサーバー
16コアサーバー
16コアサーバーのパフォーマンス向上
173
167
パフォーマンスの向上
75%
150
52%
50%
50%
44%
83
33%
33%
50%
83
25%
50
6
0%
100
処理時間(秒)
100%
4
クエリー 1
単純
6
3
クエリー 2
単純
12
8
クエリー 3
普通
18
10
クエリー 4
普通
クエリー 5
複雑
クエリー 6
複雑
0
図 1. 追加コアによる処理速度の向上。緑の線が示すように、処理の一部として圧縮解除を必要とするクエリーの場合、コア数を倍増することで、ケースによっては 50% 以上の性能向上
が得られました。青と黒の棒グラフが示すように、コア数を倍増することで、圧縮解除を必要とするプロセッサー負荷の高い一部のクエリーで、処理時間が 50% 以上短縮されました。
6
www.intel.co.jp/itatintel
優れたパフォーマンスを実現するインメモリー BI プラットフォームの構成
今回使用したインメモリー BI ソリューションは、
シングルスレッドの高速エンジンです。つまり、
拡張して同時ユーザー数を増やすためには、よ
り高速なコアを追加する必要があります。より
高速なコアを使用することで、
データ処理(エン
コード、圧縮、圧縮解除)の速度は直線的に向
250
200
150
秒
より高速なコアを使用する利点
100
50
上します。
テストでは、単一ユーザー(黒の棒グラフ)によ
るクエリーの場合と複数の同時ユーザー(グ
レーの棒グラフ)によるクエリーの場合の両方
について、2.93 GHz で動作する 16 の仮想コ
アを使用したノード
(サーバー 1、
青の棒グラフ)
と、2.40 GHz で動作する 16 のコアを使用
したノード(サーバー 2)を比較しました。単一
ユーザーによるクエリーの場合も、複数の同時
ユーザーによるクエリーの場合も、2.93 GHz
のコアを使用することでパフォーマンスが倍以
IT@Intel ホワイトペーパー
0
クエリー 1
クエリー 2
実稼動サーバー
クエリー 3
開発サーバー
サーバー2:コア速度 2.40 GHzのインテル® Xeon®
プロセッサー E7330を搭載した4-wayサーバー上
での、単一ユーザーによるクエリー
サーバー2:コア速度 2.40 GHzのインテル® Xeon®
プロセッサー E7330を搭載した4-wayサーバー上
での、複数の同時ユーザーによるクエリー
サーバー1:コア速度 2.93 GHz のインテル® Xeon®
プロセッサー X5670を搭載したホスト上で稼動する
仮想サーバー上での、単一ユーザーによるクエリー
と複数の同時ユーザーによるクエリー
図 2. 単一ユーザーによるクエリーと複数の同時ユーザーによるクエリーの、実稼動サーバー上と仮想開発サーバー上で
のパフォーマンス比較。2.93 GHz で動作するコアを使用したサーバー・プラットフォームを使用すると、3 つすべてのクエ
リーでパフォーマンスが倍以上向上しました。
上向上しました(図 2 を参照)。
キャッシュサイズを増やす利点
プロセッサーはまずプロセッサー・キャッシュ内
25
のデータを調べ、次に RAM からデータを読み
(図 3 を参照)。
15
秒
クエリーのパフォーマンスは向上します。こう
した特徴は、サーバー 3 で顕著に見られました
複数の同時ユーザー
20
取ります。キャッシュのサイズが大きくて、その
キャッシュに読み込まれるデータ量が多いほど、
単一ユーザー
10
5
0
ノードが仮想サーバーで、1 つのホストを他の
19 台の仮想サーバーと共有していて、キャッ
シュの使用に関する制御が設定されていない
場合、キャッシュサイズを増やす利点が減少す
ることが分かりました。これらのケースで同時
ユーザーテストを複数回実施したところ、16 コ
アの仮想サーバーが 12 MB のキャッシュを他
の 19 台の仮想サーバーと共有した場合(サー
バー 1)、8 コアの仮想サーバーが 12 MB の
キャッシュを他の 19 台の仮想サーバーと共有
した場合(サーバー 4)に比べて、メリットはほ
とんどないことが分かりました(図 3 参照)。
サーバー 1
12 MB のキャッシュを
他の 19 台の
仮想サーバーと共有する
16 コア仮想サーバー
サーバー 2
6 MB のキャッシュ
サーバー 3
20 MB のキャッシュ
サーバー 4
12 MB のキャッシュを
他の 19 台の
仮想サーバーと共有する
8 コア仮想サーバー
図 3. キャッシュサイズを増やす利点。テストでは、仮想サーバーが他の 19 台の仮想サーバーとホストを共有していると、
キャッシュサイズを増やすメリットが減少することが判明しました。複数ユーザーのテストでは、サーバー 4 に対するサー
バー 1 のパフォーマンス向上は微々たるものでした。
www.intel.co.jp/itatintel
7
まとめ
サーバー・サイジング・テストとストレステストの
コア数は、圧縮解除を必要とするプロセッサー
関連情報
倍増するとパフォーマンスが最大 52% 向上
関連トピックの情報については、http://www.
負荷の高いクエリーで特に重要となり、コアを
結果、最も高い効果を得るためには、インメモ
しました。コア数が多ければ、複数の同時ユー
適切に構成することが重要であると分かりまし
も役立ちます。より高速なコアを使用すると、
高いクエリーとプロセッサー負荷の高いクエリー
ストのどちらでもパフォーマンスが倍以上向上
リー BI プラットフォームに使用するサーバーを
た。今回のテストに基づく限り、メモリー負荷の
からなる異種混合のクエリーを処理する際には、
ノード当たりコア数、コア速度、キャッシュサイ
ズの増加のいずれもがインメモリー BI プラット
フォームのパフォーマンスに影響を与えると考え
られます。
今回の結果により、非常にパフォーマンスの高
いプラットフォーム構成には、以下の要素が含
まれることが判明しました。
• 32 の高速コアで構成された 4-way マザー
ボード
• プロセッサーごとの大容量 L2/L3 キャッシュ
• ホストを共有する場合は、キャッシュの競合
を避けるための専用キャッシュ
• 圧縮データベースのサイズの 2.5 ∼ 3 倍の
サーバーメモリー
ザーが存在する場合のパフォーマンス維持に
単一ユーザーテストと複数の同時ユーザーテ
し、ほぼリアルタイムで結果を確認できるだけ
のパフォーマンスが実証されました。
業界標準サーバーを使用すれば、
インメモリー
BI ソリューションのアプリケーションが増えた
場合も、ソリューションの拡張や複製を容易
に行うことができます。今回の結果に基づい
て、インテル IT 部門では今後も、BI 分析を向
上させるためのマルチコンテナー戦略の一環
として、インメモリー BI ソリューションのビジ
ネス上、財務上、BI 上のメリットをケースごと
に分析していく予定です。メモリーの価格は
下がり続けており、市販のインメモリー BI ソフ
トウェア製品も増えているため、インメモリー
BI ソリューションへの依 存を高めることで、
インテルのビジネスグループは、リアルタイム
での大量データセットの確認、より短時間で
のインサイトの入手、開発期間の短縮、新しい
セルフサービス BI 機会の取得を実現できると
期待しています。
intel.co.jp/itatintel/ を参照してください。
•『インテルのビッグデータ環境に Apache*
Hadoop* を統合』
•『Using a Multiple Data Warehouse
Strategy to Improve BI Analytics』
略 語
EDW
エンタープライズ・データ・
ウェアハウス
ROI
投資収益率
SAN
ストレージ・エリア・
ネットワーク
XDW
エクストリーム・データ・
ウェアハウス
インテル IT 部門のベスト・プラクティスの詳細については、
http://www.intel.co.jp/itatintel/ を参照してください。
1
インテル ® ターボ・ブースト・テクノロジーに対応したシステムが必要です。インテル ® ターボ・ブースト・テクノロジーおよびインテル ® ターボ・ブースト・テクノ
ロジー 2.0 は、一部のインテル® プロセッサーでのみ利用可能です。各 PC メーカーにお問い合わせください。実際の性能はハードウェア、ソフトウェア、シス
テム構成によって異なります。詳細については、http://w w w.intel.co.jp/jp/technolog y/turboboost / を参照してください。
インテル・プロセッサー・ナンバーはパフォーマンスの指標ではありません。プロセッサー・ナンバーは同一プロセッサー・ファミリー内の製品の機能を区別し
ます。異なるプロセッサー・ファミリー間の機能の区別には用いません。インテル・プロセッサー・ナンバーの詳細については、http://w w w.intel.co.jp/
content /w w w/jp/ja /processors/processor-numbers.html を参照してください。
性能に関するテストや評価は、特定のコンピューター・システム、コンポーネント、またはそれらを組み合わせて行ったものであり、このテストによるインテル
製品の性能の概算の値を表しているものです。システム・ハードウェア、ソフトウェアの設計、構成などの違いにより、実際の性能は掲載された性能テストや
評価とは異なる場合があります。システムやコンポーネントの購入を検討される場合は、ほかの情報も参考にして、パフォーマンスを総合的に評価すること
をお勧めします。インテル製品の性能評価についてさらに詳しい情報をお知りになりたい場合は、http://w w w.intel.co.jp/content /w w w/jp/ja /
benchmarks/resources-benchmark-limitations.html を参照していただくか、1-800-628-8686 または 1-916-356-3104(アメリカ合衆国)
までご連絡ください。
本書に記載されている情報は一般的なものであり、具体的なガイダンスではありません。推奨事項(潜在的なコスト削減など)はインテルの経験に基づいて
おり、概算にすぎません。インテルは、他社でも同様の結果が得られることを一切保証いたしません。
本資料に掲載されている情報は、インテル製品の概要説明を目的としたものです。本資料は、明示されているか否かにかかわらず、また禁反言によるとよ
らずにかかわらず、いかなる知的財産権のライセンスも許諾するものではありません。製品に付属の売買契約書『Intel's Terms and Conditions of
Sale』に規定されている場合を除き、インテルはいかなる責任を負うものではなく、またインテル製品の販売や使用に関する明示または黙示の保証(特定目
的への適合性、商品適格性、あらゆる特許権、著作権、その他知的財産権の非侵害性への保証を含む)に関してもいかなる責任も負いません。
Intel、インテル、Intel ロゴ、Look Inside.、Look Inside. ロゴ、Xeon は、アメリカ合衆国およびその他の国における Intel Corporation の商標です。
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル株式会社
〒 100-0005 東京都千代田区丸の内 3-1-1
http://www.intel.co.jp/
©2014 Intel Corporation. 無断での引用、転載を禁じます。
2014 年 10 月
329337-001JA
JPN/1410/PDF/SE/MKTG/IA