サーバ仮想化のための イーサネットネットワーク コントローラの強化

ネットワーキング
サーバ仮想化のための
イーサネットネットワーク
コントローラの強化
Dhiraj Sehgal、Abhijit Aswath、Srinivas Thodati 共著
Broadcom とデルは、Dell PowerEdge ™サーバの Broadcom® ネットワーク
コントローラを機能強化し、仮想化環境のパフォーマンスを低下させる可能
性があるボトルネックやオーバーヘッドを低減させるために、さまざまな仮
想化プロバイダと連携しています。
企
業のIT環境において、仮想化は多大なメ
リットをもたらします。組織では、コン
ピューティングリソースの統合と共有、
管理性と効率性の向上、およびコスト効
率の高いデータセンターの運用が可能に
なります。ただし、単に仮想マシン(VM)を導入する
だけでは、仮想化環境を最大限に活用することはでき
ません。効果的なネットワーキングインフラストラク
チャが不可欠です。
Broadcomネットワークアダプタは、デルのシス
テムに使用されている他のハードウェアリソースと
同様、VM用に仮想化されています。仮想化プラット
フォームでは、ハイパーバイザをベースにしたアーキ
テクチャ(VMモニタ(VMM)アーキテクチャとも呼
ばれます)が使用されます。このアーキテクチャに
よってコンピュータプラットフォームの物理特性が隠
されるため、ホストプラットフォーム上で複数のVMを
変更せずに同時に実行できます。
この設計では、仮想化を実現するためにパフォー
マンスの低下という犠牲を払うことになります。今日
の仮想化アーキテクチャには、デバイスドライバを備
えたVM、I/Oスタック、および仮想レイヤの最上層で
稼働するアプリケーションが含まれています。この最
上層には、デバイスエミュレーション、I/Oスタック、
およびイーサネットネットワークコントローラを管理
する物理デバイスドライバが含まれます。この仮想化
レイヤによってプロセッサーの使用率が上昇して使用
可能な帯域幅が減少し、オーバーヘッドの増加とシス
テムパフォーマンスの低下をもたらすのです。
ギガビットイーサネット(GbE)および10ギガ
ビットイーサネット(10 GbE)ネットワークコント
ローラを使用したネットワーキング分野の大手ベン
ダーであるBroadcomは、こうした問題に対処する
68
2010年第3号 | dell.com/powersolutions
ため、ヴイエムウェア、マイクロソフト、シトリッ
クス、デルなど、さまざまな仮想化ベンダーと緊密
に連携しています。Broadcomのコントローラは、
幅広いDell PowerEdgeサーバにLAN on Motherboard
(LOM)、メザニンカード、標準のネットワークイン
ターフェイスカード(NIC)として搭載され、デルの
包括的な仮想化ソリューションの構成要素として使用
されています。Broadcomは現在、デル製システムを
使用する組織が仮想化の導入によって最大限のメリッ
トを実現できるようにするため、仮想化環境で使用さ
れる同社のコントローラの強化に向けて2段階の取り組
みを進めています。
第 1 段階 : ボトルネックの解消
とパフォーマンスの向上
強化対策の第1段階では、Broadcomは多くの追加機
能を提供することによって、仮想化のボトルネック解
消とシステムのパフォーマンス向上に努めました。
例えば、Broadcomイーサネットネットワークコント
ローラでは、TCPチェックサムのオフロードなど、ス
テートレスなオフロードに対応できるようになり、送受
信時にネットワークアダプタでTCPチェックサムの計
算が可能になりました。また、TCPの大量送信オフ
ロードにも対応し、TCPレイヤで最大64 KBのTCPメッ
セージを作成して、それをIPおよびイーサネットデ
バイスドライバを介してスタック内の下部レイヤに
1回のコールで送信できます。そのため、仮想化環境内
のチェックサムをホストのプロセッサーで計算する必要
がありません。
また、Broadcomが仮想化環境でサポートするジャ
ンボフレームは、割り込みを少なくすることによって
プロセッサーの使用率を抑え、システムの処理をデー
Dell Power Solutions 2010年第3号より転載。Copyright © 2010 Dell Inc. All rights reserved.
タに関連するフレームではなくフレーム内の
データに集中させることによってスループッ
トを向上できるように設計されています。し
かし、仮想化レイヤのI/OおよびそのI/Oのコ
ピーを処理するハイパーバイザがシングルス
レッドであるため、このようなアプローチ
ではやはりパフォーマンスに限界がありま
す。BroadcomはVMware® NetQueueおよび
Microsoft® Hyper-V™ VMキュー(VMQ)の
機能もサポートしているため、そうしたシン
グルキューによるボトルネックを解消し、
TCPのオフロードのようなステートフルオフ
ロードが不要になります。また、Broadcom
のコントローラではデルの仮想化ソリュー
ションの一環としてインターネットSCSI
(iSCSI)ホストバスアダプタ(HBA)モード
をサポートし、仮想化環境で優れたパフォー
マンスを発揮します。
複数のキューの使用
プロセッサーコアが高密度化する傾向にある
ため、使用するVMの数も増えており、その
VMにパケットをルーティングするためにさ
らにプロセッサーサイクルが必要となってい
ます。仮想化ベンダーは、ネットワークコン
トローラによって提供されるハードウェア
キューを使用することで、従来のOSのシン
グルスレッドによる制約を回避し、ハイパー
バイザを複数のハードウェアスレッド用に最
適化させてきました。
VMwareおよびMicrosoft Hyper-Vプラッ
トフォームでは、コントローラとVMとの間
に直接のパスがないため、パケットはハイ
パーバイザまたは親パーティションを通過す
る必要があります。送信時には、パケットは
仮想スイッチ内での処理のために、まず送信
元のVMでコピーが作成されます。送信先の
MAC(メディアアクセス制御)アドレスと仮
想LAN(VLAN)IDを検索してルートが特定
されると、パケットは他のVMの受信キュー
にコピーされるか、ネットワークドライバに
送られて、送信されます。受信時には、パ
ケットがスイッチに通知されると、スイッ
チでは送信先のMACアドレスとVLAN IDを使
用して、そのパケットをどのVMまたはVMグ
ループにコピーできるかを特定します。
ルート検索、データコピー、およびフィ
ルタリングのタスクは、非仮想化環境では見
られないプロセッサーの負荷の増加やレイテ
ンシの原因になります。このようなタスクに
伴うオーバーヘッドは、ネットワーキングの
パフォーマンスに大きな影響を及ぼすことが
あり、特に10 Gbpsの場合にはその可能性が大
きくなります。こうした問題には、そのタス
クをネットワークアダプタにオフロードする
ことによって対処しています。ネットワーク
アダプタでは、トランスポートキューマネー
ジャにより、複数のキューからのパケット送
信と、受信パケットを複数のキューに誘導す
ることが可能です。Broadcomのコントロー
ラでは、VMware NetQueueおよびMicrosoft
Hyper-V VMQの機能によってこうしたタス
クに対処できるため、仮想化環境で高いパ
フォーマンスとネットワーキングスループッ
トを必要とし、多くの帯域幅を使用するアプ
リケーションの要求にも対応できます。
ストレージのオフロード
ネットワークストレージは仮想化環境に不
可欠であり、1つの物理サーバから別の物理
サーバへのVMの速やかな移行およびフェイ
ルオーバを可能とします。iSCSIは、ハイパ
フォーマンスで使いやすいネットワークスト
レージテクノロジーとして登場し、多くの仮
想化環境で広く利用されています。Broadcom
NetXtreme II® iSCSI HBA機能は、VMware、
Microsoft Hyper-V、およびCitrix® Xen®によ
る仮想化をサポートしています。図1に示す
ように、プロセッサーリソースを解放して帯
域幅とパフォーマンスを向上させるオンチッ
プ処理を可能にすることによって、仮想化環
境に必要な統合機能を提供します。この図
に示されているBroadcom GbEおよび10 GbE
iSCSI HBAの機能は、Dell PowerEdgeサーバの
VMware vSphere™ 4.1プラットフォームではデ
フォルトで有効化されています。
Broadcom iSCSI HBAの機能により、
iSCSIプロトコル(およびTCP/IPプロトコ
ル)のオンチップ処理が可能になるため、
ホストプロセッサーのリソースを解放し、
1つのイーサネットポートで10 Gbpsのライ
ンレートを実現できます。この機能により、
パフォーマンスのメリットがさらに大きくな
り、ハイパーバイザ用にハイパフォーマンス
なブロックストレージI/Oと多くの帯域幅を
必要とするアプリケーションの要求を満た
し、VMのすべてのインスタンスに対応でき
ます。
iSCSIブート
iSCSIブートでは、サーバからストレージエリ
アネットワーク(SAN)を介してOSをブート
できるため、コンピュータシステムの主な障
害原因となるローカルディスクストレージが
不要になります。ディスクレスサーバを使用
すると、システムの信頼性が向上するだけで
なく、サーバイメージの作成、配布、および
メンテナンスの一元化によってIT管理者のワー
クロードがシンプル化されます。また、ディ
スク容量の使用率が向上するため、ストレー
ジ容量の全体的な必要量が削減され、データ
のミラーリングとレプリケーションを使用す
ることでデータの冗長性も向上します。
仮想化環境ではSANの利用が増え続けて
おり、管理者たちはローカルストレージを
個々のサーバから一元管理されたストレージ
アレイに移行することにはメリットがあると
考えているため、iSCSIブートのようなネッ
トワークブートという選択肢は、データセン
ターや企業内でますます広く採用されるよう
になっています。Broadcom、ヴイエムウェ
ア、マイクロソフト、シトリックスは、仮
Significantly reduced iSCSI processing in OS stack
benefits the guest OS and virtualization platform
VM 1
VM 2
VM n
OS SCSI
stack
OS SCSI
stack
OS SCSI
stack
VMware iSCSI stack
Broadcom iSCSI
Hypervisor
or VMM
Existing iSCSI
and
network stack
Figure 1. Broadcom
iSCSI HBA mode
in a virtualized
environment
On-chip iSCSI
Broadcom GbE/10GbE NIC
Third-party GbE/10GbE NIC
On-chip iSCSI processing frees processor cycles, helping
to reduce power consumption and increase performance
Dell Power Solutions 2010年第3号より転載。Copyright © 2010 Dell Inc. All rights reserved.
dell.com/powersolutions | 2010年第3号
69
ネットワーキング
想化環境でローカルストレージの代わりにiSCSIを使用
する、シンプルでありながら高度な機能を備えたiSCSI
ブートという選択肢を実現するために協力を進めてい
ます。BroadcomのGbEおよび10 GbE iSCSIブート機能
は、Dell PowerEdgeサーバのVMware vSphere 4.1では
デフォルトで有効化されています。また、ハイパーバ
イザの10 GbEコントローラ向けBroadcom iSCSI HBA
モードおよびiSCSIブートは、いずれもデルのプラット
フォームでサポートされています。1
第 2 段階 : SR-IOV 拡張機能の統合
Broadcomの仮想化を強化する取り組みは、現在第2
段階が進行中であり、シングルルートI/O仮想化(SRIOV)に焦点を絞っています。こうした強化の成果は、
Broadcom NetXtreme II 57712コントローラを使用する
デル製システムに反映されるものと予想されます。SRIOV対応のイーサネットネットワークコントローラは、
拡張性とデバイスの共有機能を高めつつ、I/Oスルー
プットを向上させ、プロセッサーの使用率を抑える設
計となっています。SR-IOVによって、イーサネット
ネットワークコントローラのI/Oを複数のVMに直接割
り当てることが可能になり、ネットワークアダプタの
性能を帯域幅全体で最大限に高めることができます。
PCI I/O仮想化のためのPCI Express(PCIe)SR-IOV
仕様と共有テクノロジーは、SR-IOV対応のBroadcom
コントローラにSR-IOVを実装する上で基本となるもの
です。この仕様では、複数のシステムイメージまたは
VM間でPCIeハードウェアリソースの共有を可能にす
るPCIe仕様の拡張が定義されています(図2参照)。
BroadcomのSR-IOV対応デバイスは、複数の仮想機能
(VF)を備えた物理機能(PF)です。VFは軽量のPCIe
機能であり、この機能の主要なデータの移動に関連す
るリソースをVMで使用することができます。VFは、
1つのVMに割り当てられたVFをリセットして別のVMに
割り当てるという方法で、異なるVM間で連続的に共有
できます。また、VFはPFに変換することも可能です。
Figure 2. SR-IOV-capable Broadcom
controller in a virtualized environment
PCIe SR-IOVの包括的なサポートには、プラット
フォームとOSの既存機能の拡張と、新機能の追加の両
方が必要です。SR-IOVをサポートするネットワークコン
トローラのデバイスドライバも、PFとVF間の追加の通信
経路に対応するように再構築する必要があります。
VMware VMDirectPath
I/Oレイテンシがクラスタとアプリケーション全体のパ
フォーマンスに影響を及ぼす分散システムでは、高いス
ループットと低いレイテンシが特に重要です。拡張性の
高いSR-IOVネットワークアダプタを実装する大規模な
データベースクラスタ内でデータの整合性を維持するた
めには、低レイテンシであることが求められます。
VMware VMDirectPathネットワークプラグイン
アーキテクチャとSR-IOV対応のBroadcomデバイスを
使用すると、VFをVMに直接割り当てることができるた
め、追加のI/Oコピーを作成する必要がなくなり、本来
のパフォーマンスに近い性能を実現できます。また、
VMware vMotion™テクノロジーやMicrosoft Hyper-V
ライブマイグレーションなど、さまざまな仮想化機能
もサポートされます(図3参照)。I/Oアプライアンス
とハイパフォーマンスのVMを実現するには、PCIデバ
イスをVMに直接割り当てる必要があります。
動的なVMDirectPathまたはUniform Pass- Through
バージョン2(UPTv2)を使用すると、デバイスのイ
ンターフェイスが2つに分割され、TX/RXプロデュー
サインデックスレジスタ、割り込みマスクレジスタ、
VMware ESXで稼働する管理ドライバのエミュレート
された不定期な操作など、パフォーマンスが重視され
る操作のパススルーが可能になります。ライブマイグ
レーションを実装するには、やむを得ずVFをパスス
ルーモードからエミュレーションモードに切り替え、
チェックポイントとなる、またはリストアの対象とな
るデバイスのステータスを最小限に抑えるようにしま
す。ほとんどのステータスはVMのメモリに格納されて
いるため、ゲストオペレーティングシステムにはこの
移行は認識されません。
VM 1
VM 2
VM n
Virtual
NIC
VF device
driver
VF device
driver
PF device
driver
Hypervisor
or VMM
PF
VF
VF
SR-IOV-capable Broadcom controller
1
70
デルのシステム向けにBroadcomアダプタが提供するiSCSI機能の詳細については、Dhiraj Sehgal、Abhijit Aswath、Srinivas Thodati共著『A unified networking approach
to iSCSI storage with Broadcom controllers(Broadcomのコントローラを使用したiSCSIストレージに対する統合ネットワーキングアプローチ)』、Dell Power
Solutions、2010年第2号(dell.com/downloads/global/power/ps2q10-20100411-broadcom.pdf)を参照してください。
2010年第3号 | dell.com/powersolutions
Dell Power Solutions 2010年第3号より転載。Copyright © 2010 Dell Inc. All rights reserved.
VM 1
VM 2
VM n
Virtual
NIC
VF device
driver
VF device
driver
PF device
driver
Hypervisor
or VMM
VF
Figure 3. VMware VMDirectPath with an
SR-IOV-capable Broadcom controller
VF
PF
NIC embedded switch
SR-IOV-capable Broadcom controller
VMDirectPathをサポートするには、OSプラット
フォームとネットワークデバイスドライバを再構築す
る必要があります。VMwareプラットフォームでは、
vmxnetドライバをパーティションで区切り、そこに
VM固有のシェルとハードウェア固有のモジュールまた
はネットワークプラグインドライバを含めることによ
り、パフォーマンスが重要なパーツのパススルーを可
能にするネットワークプラグインアーキテクチャを実
装します。VM固有のシェルは、OSのネットワークス
タックに対するインターフェイスを実装し、ハイパー
バイザとの間で設定のための対話を行います。ハード
ウェア固有のネットワークプラグインドライバは、
データパス内のハードウェアと対話し、VMシェルイ
ンターフェイスを使用してOS固有の呼び出しを行いま
す。VMware ESXはシェルが使用するネットワークプラ
グインを制御し、VFに基づいてそのプラグインをVMに
ロードします。また、VFをVMのアドレス空間にマッピ
ングします。
NIC内蔵スイッチ
スイッチをベースにしたポイントツーポイントの構成
では、I/Oの仮想化と共有により、VM、VF、チップ
セット、スイッチ、エンドポイント、ブリッジ間で相
互運用を可能にすることも必要です。BroadcomのNIC
内蔵スイッチは、VM間でイーサネットを介したVFから
VFへの切り替え、および外部ポートとの送受信の切り
替えを可能にします。
効果的かつ効率的な仮想化
ネットワークは仮想化環境にとって重要なコンポーネ
ントであり、仮想化の要求に対応できるように強化さ
れたネットワークコントローラは、パフォーマンスを
最大限に高めることができます。仮想化に重点を置い
たBroadcomの取り組みによって、デルのシステムを
使用している組織は、オフロードテクノロジーおよび
フレキシブルなリアルタイムI/O拡張のメリットを活用
して、効果的かつ効率的な仮想化を促進することが可
能になります。Broadcomがイーサネットネットワー
クコントローラ向けに提供するTCPおよびiSCSIオフ
ロードによるSR-IOVおよびI/Oパススルー機能は、本
来のパフォーマンスに近い性能と低レイテンシを実現
できます。今後の取り組みとして、Broadcomでは、
デルのサーバプラットフォーム上での仮想化の実現お
よびサポートを継続し、IT組織がパフォーマンスを高
めコストを抑えながら仮想化導入を促進するための支
援を行うことを計画しています。
Dhiraj Sehgal氏は、Broadcomのイーサネットコント
ローラのシニアプロダクトラインマネージャです。
Abhijit Aswath氏は、Broadcomのイーサネットコ
ントローラソフトウェアのシニアプロダクトライン
マネージャです。
Srinivas Thodatiは、デルのPowerEdge Mシリー
ズサーバのシニアプロダクトマーケティングマネー
ジャです。
詳細はこちら
Broadcomイーサネットコントローラ:
broadcom.com/products/Ethernet
-Controllers
Dell PowerEdgeサーバ:
dell.com/poweredge
Dell Power Solutions 2010年第3号より転載。Copyright © 2010 Dell Inc. All rights reserved.
dell.com/powersolutions | 2010年第3号
71