Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン

アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
アリスタネットワークスの Arista 7500 シリーズは、革新的なスイッチング・プラットフォームとして 2010 年 4 月に登場
し、さまざまな賞を受けた製品です。データセンターのパフォーマンス、効率性、ネットワーク全体の信頼性を極限まで
引き出すことができます。モジュール型データセンター・スイッチの他製品と比べて、スイッチングのパフォーマンスを 5
倍高速化しながら、消費電力は 10 分の 1、占有面積は 2 分の 1 と、性能の基準を引き上げる役割を果たしました。
それからわずか 3 年後に登場した Arista 7500E シリーズのモジュールとファブリックは、機能、テーブル・サイズ、バッ
ファリングを損なうことなく、密度とパフォーマンスを 3 倍に高めた製品です。同じクォーターラックの 11RU シャーシで、
1,152x10GbE、288x40GbE、96x100GbE と、業界トップクラスのポート数を誇ります。
このホワイトペーパーでは、Arista 7500E の第 2 世代のラインカードとファブリック・モジュールで実現されたスケール
アウト・クラウド・ネットワークのデザインについて説明します。
アリスタのデザインのキー・ポイント
アリスタのすべてのリファレンス・デザインは、以下に挙げ
る設計思想を根底に構築されています。
1.
5.
俊敏性を備え、ポート速度に柔軟性のあるデザイン
が必要
大半のサーバー/処理ノードが 1000Mb to 10G で
接続するときのターニングポイントは、2013~2015
独自プロトコルやベンダー・ロックインを排除する
の間です。この場合、ネットワークのアップリンクを
アリスタはオープン・スタンダードを信条としています。
10G to 40G および 10G to 100G に移行する必要
豊富な実績を持つアリスタのリファレンス・デザインが
性が生じます。Arista スイッチとリファレンス・デザイ
示すように、巨大なスケールアウト・ネットワークを構
ンは、こうした柔軟性を備えています。
築するうえで、独自プロトコルやベンダー・ロックイン
は必要ありません。
2.
階層は少ない方がいい
階層が少ない構成(たとえば、3 層ではなく 2 層構成)
の方が、コストと複雑さを抑え、配線を減らし、消費電
力と発熱を抑制できます。必要なポート数を満たすた
めに、わずか数年前なら 3 層以上を必要とした従来型
の構成も、今では 1 層や 2 層の構成で実現できます。
3.
プロトコル非依存
アリスタは、レイヤ 2 またはレイヤ 3 で構築されたス
ケールアウト・デザインをサポートしています。
4.
現代のインフラはアクティブ/アクティブで稼働すべし
レイヤ 2 の MLAG(Multi-chassis Link Aggregation)
やレイヤ 3 の ECMP(Equal Cost Multi-Pathing)に
より、ポートのブロックのないアクティブ/アクティブでイ
ンフラを構築できます。こうすることで、2 台のデバイ
ス間で利用可能なすべてのリンクを活用できます。
図 1:7504E と 7508E。最大 1,152 個の 10G ポート、288 個の
40G ポート、96 個の 100G ポートに対応
6.
スケールアウトを考慮したデザインによって、最初は小規模なインフラを次第に拡張させていくことが可能
2way の ECMP デザインを、2way から 4way、8way、16way、さらには 32way のデザインにまで拡張できます。多額の
初期投資を行うことなく、ECMP のデザインを時間とともに拡張できます。
7.
スパイン(またはアグリゲーション)での大容量バッファは重要
現代のオペレーティング・システム(OS)、ネットワーク・インターフェイス・カード(NIC)、スケールアウト・ストレージ・アレ
イでは、TCP セグメンテーション・オフロード(TSO)や汎用セグメンテーション・オフロード(GSO)という手法を活用するこ
とが次第に増えています。これらを総称してラージ・セグメント・オフロード(LSO)と言います。こうした手法は、サーバー
が大量のデータを送信するときに必要な CPU サイクルを減らすための基盤となります。受信側では、ラージ・レシーブ・
オフロード(LRO)を利用して同様の機能を実現しています。
こうした手法には副作用もあります。まとまった量のデータを伝送したいサーバー、OS、ストレージは、そのデータを NIC
にオフロードします。NIC は、このデータをセグメントに分割して、連続的なフレームとしてラインレートで伝送路に流しま
す。複数のフレームが同じ出力ポート宛ての場合、マイクロバーストの輻輳が発生します。バーストを吸収するにはディ
ープ・バッファが必要です。
スパイン(アグリゲーション)レイヤは、ネットワークの中で数万から数百万という数のフローが集結する場所に位置しま
す。したがって、マイクロバーストの輻輳が発生する確率ははるかに上です。ディープ・バッファがなくてバーストを吸収で
きない場合、パケットの損失が発生し、アプリケーション間の実際的なスループットが低下します。
8.
機能と OS の一貫性
アリスタのスイッチは、すべての製品が同じ Arista EOS を使用しています。プラットフォーム、ソフトウェアの系統、OS に
違いはありません。すべてのスイッチで同じバイナリ・イメージが動作します。
9.
相互運用性
アリスタのスイッチとデザインは、他のネットワーク・ベンダーと相互運用性があります。
デザイン上の選択肢
オーバーサブスクリプション
オーバーサブスクリプションとは、仮にすべてのデバイスがトラフィックを同時に送信した場合に生じる競合の比率のことです。
North/South の方向(データセンターに出入りするトラフィック)と、East/West の方向(データセンター内のデバイス間のトラフ
ィック)の両方で測定できます。従来のデータセンター・デザインでは、North/South と East/West の両方で、20:1 を超える非
常に大きなオーバーサブスクリプション率が多く見られました。階層の数が多く、スイッチの密度/ポートが限られていることに
加え、従来はサーバー1 台あたりのトラフィック・レベルが低かったことによるものです。
マルチコア CPU、サーバー仮想化、フラッシュ・ストレージ、ビッグデータ、クラウド・コンピューティングなどの利用が大きく増
えた現代のネットワークでは、オーバーサブスクリプションを抑えることが要件になっています。現在のネットワーク・デザイン
では、オーバーサブスクリプション率は 3:1 以下です。2 階層のデザインの場合、オーバーサブスクリプション率は、ダウンリ
ンク・ポート(サーバー/ストレージに対するポート)対アップリンク・ポート(スパイン・スイッチに対するポート)の比率として算
出できます。ポートが 64 個のリーフ・スイッチでオーバーサブスクリプションが 3:1 の場合、ダウンリンク・ポートが 48 個、ア
ップリンク・ポートが 16 個です。一方、ポートが 64 個のリーフ・スイッチで 1:1 の場合、ダウンリンク・ポートが 32 個、アップリ
ンク・ポートも 32 個です。
現代のデータセンターの経験則では、オーバーサブスクリプション
率のスタートラインは 3:1 です。Arista レイテンシー・アナライザー
(LANZ)などの機能を使うと、サービス低下(パケット損失)が発生
する前に、輻輳の発生箇所を特定できます。これにより、トラフィッ
クが処理能力の許容範囲を超えた場合に、デザインの比率をある
程度柔軟に変更できます。
図 2:3:1 のオーバーサブスクリプション(ダウンリンクは 48x10G、
アップリンクは 4x40G)で展開したリーフ・スイッチ
10G と 40G のアップリンク
リーフ/スパイン・ネットワークでは、リーフからスパインへのアップリンクは通常 10G または 40G です。最初は 10G(N x
10G)から始めて、後から 40G(N x 40G)へと移行できます。アリスタの 10G ToR スイッチは、こうした柔軟性をすべての製
品が備えています。QSFP+の 40G ポートを 1x40G と 4x10G のどちらでも使用できるからです(ソフトウェアで設定可能)。
さらに、一部の Arista スイッチが備える AgilePort 機能では、4 個の 10G SFP+ポートのグループを 1 個の 40G ポートとし
て使用できます。
レイヤ 2 とレイヤ 3
2 階層のネットワークは、レイヤ 2(VLAN を全体に展開)またはレイヤ 3(サブネット)で構築できます。それぞれにメリットと
デメリットがあります。
レイヤ 2 のデザインは、最も柔軟性があり、VLAN を全体に展開して MAC アドレスをどこにでも移行できます。デメリットの 1
つは、障害ドメインが 1 つで共通であること(非常に大きくなる可能性があること)です。もう 1 つは、ネットワーク内で最小の
スイッチの MAC アドレスのテーブル・サイズによって規模が制限されるため、トラブルシューティングが困難な場合があるこ
とです。L3 の規模とコンバージェンス時間は、L3 ゲートウェイの Host Route テーブルのサイズで決まります。最大のノンブ
ロッキング・ファンアウト・ネットワークは、スイッチ 2 台でマルチシャーシ・リンク・アグリゲーション(MLAG)を利用するスパイ
ン・レイヤです。
レイヤ 3 デザインは、コンバージェンスが最も高速で、Equal Cost Multi Pathing(ECMP)を使用して展開される構成で規模
は最大です。最大 32 台またはそれ以上のアクティブ/アクティブ・スパイン・スイッチをサポートしています。こうしたデザイン
では、L2/L3 ゲートウェイが先頭ホップのスイッチに限定されるため、種類の異なるスイッチを最大限の処理能力まで最も柔
軟に活用でき、スイッチ間の機能低下(最小共通項への移行)がありません。
レイヤ 3 デザインでは、VLAN と MAC アドレスの可搬性は 1 台のスイッチまたは 1 ペアのスイッチに制限されているため、
VM のモビリティの範囲は、1 台のスイッチまたは 1 ペアのスイッチの範囲に制限されます。これは通常、1 台または数台の
ラック程度の範囲です。
レイヤ 3 と VXLAN
VXLAN のデザインでは、独自規格ではないマルチベンダー対応の VXLAN 仕様に基づいてレイヤ 2 をレイヤ 3 上に拡張
することによって、レイヤ 3 のデザインを補完できます。こうすることで、レイヤ 3 デザインの特長(スケールアウト、巨大ネット
ワークへの拡張性、迅速なコンバージェンス、障害ドメインの最小化)と、レイヤ 2 の柔軟性(VLAN と MAC アドレスの可搬
性)の両方を兼ね備えることができ、レイヤ 2 とレイヤ 3 のそれぞれのデザインが持つ弱点を抑えられます。
VXLAN の機能は、仮想サーバー・インフラの中で、ハイパーバイザが備える仮想スイッチを利用してソフトウェアで実現する
ことも可能です。しかし、こうしたソフトウェアベースの手法では、確かにレイヤ 2 をレイヤ 3 上に拡張できるものの、トラフィッ
クをどのようにして正しい物理サーバーに最適な形で届けるかという問題に対処できません。また、VXLAN などのオーバー
レイ技術をネットワークに展開するときにこうしたソフトウェアベースの手法を利用すると、サーバー上の CPU サイクルを消
費することになり、NIC のオフロード機能が無効となります。
ハードウェア VXLAN ゲートウェイ機能がスイッチに搭載されていると、最大限の柔軟性を確保でき、拡張性を高めてトラフィ
ックを最適化できます。物理ネットワークはレイヤ 3 のままで、最大限のスケールアウト、テーブルや処理能力の最適な利用、
最速のコンバージェンスを実現できます。サーバーでは、CPU から NIC へのオフロード機能が引き続き有効です。ハードウ
ェアによる VXLAN ゲートウェイでは、レイヤ 2 とレイヤ 3 のフォワーディングに加え、レイヤ 3 のフォワーディングに対するレ
イヤ 2 のオーバーレイを実現できます。
ハードウェアによる VXLAN ゲートウェイは機能が急速に進化していることから、VXLAN ゲートウェイで実現できるトポロジ
は現在も発展を続け、最大限の柔軟性が得られるようになっています。こうしたデザインについては、アリスタとの密接な連
携のもとに進めることをお勧めします。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
3
表 1:レイヤ 2、レイヤ 3、レイヤ 3+VXLAN のそれぞれのデザインのメリットとデメリット
デザイン
メリット
デメリット
レイヤ 2
VLAN を全体に展開することで柔軟性が最も高い
巨大な単一の障害ドメイン
MAC の可搬性によってシームレスな VM モビリティ
STP で冗長/HA リンクがブロック
を実現
ポッドやデータセンターの枠を越えた拡張が困難で、
障害ドメインの拡大が伴う
コントロール・プレーンの速度(毎秒の ARP)が
L3 ゲートウェイ・コンバージェンスの制約
L3 の規模は L3 ゲートウェイでのホスト・ルートの規模で決まる
規模は 2-way 止まり(MLAG アクティブ/アクティブ)
VLAN の最大数 x スイッチのポート数が、スパニング・
ツリーの論理ポート数の規模に制約される
トラブルシューティングが困難
レイヤ 3
ポッド間やデータセンター間で拡張可能
VLAN は単一のスイッチに制限
ECMP により非常に大規模なスケールアウトが可能
MAC の可搬性は単一のスイッチ内のみ
コンバージェンス/再コンバージェンスが非常に高速
レイヤ 3+ハードウ
VXLAN では VLAN をどのスイッチ/デバイスにも
ソフトウェア/ハイパーバイザの仮想スイッチ・ベースの
ェアによる VXLAN
拡張可能
VXLAN では、ホストに CPU のオーバーヘッドの負担が発生
ゲートウェイ
MAC の可搬性が L3 接続の範囲全体に拡大
ポッド間やデータセンター間で拡張可能
MAC の可搬性によってシームレスな VM モビリティ
を実現
ECMP により非常に大規模なスケールアウトが可能
コンバージェンス/再コンバージェンスが非常に高速
フォワーディング・テーブルのサイズ
イーサネットのスイッチングを行う ASIC では、転送に関する判断のために、いくつかのフォワーディング・テーブルを使用
します。MAC テーブル(L2)、ホスト・ルート・テーブル(L3)、LPM(プレフィックス最長一致)(L3 のプレフィックスの検索)で
す。L2 または L3 で構築できるネットワークの最大サイズは、これらのテーブルのサイズに応じて決まります。
かつては、サーバーやホストが持つアドレスは、MAC アドレスも IP アドレスもそれぞれ 1 個のみでした。しかし、サーバー
仮想化を利用すると、仮想サーバー1 台につき、MAC アドレスと IP アドレスがそれぞれ少なくとも 1 個となります。別の仮
想 NIC(vNIC)を定義している場合、仮想マシン 1 台あたりのアドレスも複数です。IT 部門の中には、IPv4 と IPv6 のデュ
アルスタックを展開中(または計画中)の所も多く、スイッチのフォワーディング・テーブルで IPv4 と IPv6 の両方のテーブ
ルの要件を考慮する必要があります。
ネットワークをレイヤ 2 で構築する場合、そのネットワーク内のすべての MAC アドレスをすべてのスイッチが学習します。
スパインのスイッチは、レイヤ 2 とレイヤ 3 の間のフォワーディングを提供し、ゲートウェイのホスト・ルートを提供する必要
があります。
レイヤ 3 でネットワークを構築する場合、スパイン・スイッチでは、リーフ・スイッチ 1 台あたり 1 つ(または 2 つ)のサブネッ
トに対する IP フォワーディングを使用するだけで済みます。ホストの MAC アドレスについてスパイン・スイッチが把握して
おく必要はありません。一方、リーフ・スイッチは、ローカルの IP ホスト・ルートと MAC アドレスは知っておく必要がありま
すが、ローカル接続より外の部分については何も知っておく必要はありません。リーフ・スイッチが必要とするルーティン
グ・プレフィックスは、スパイン・スイッチに対するデフォルト・ルート 1 つのみです。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
4
図 3:レイヤ 2 とレイヤのデザインの対比
ネットワークがレイヤ 2 とレイヤ 3 のどちらで構築されているかに関係なく、ネットワーキング・テーブルのサイズを押し上げ
るのは多くの場合 VM の数です。現在の x86 サーバーはデュアル・ソケットで、ソケットあたりの CPU コア数は 6~8 です。
一般的な企業のワークロードでは、CPU の 1 コアあたり 10 台の VM に対応できることから、一般的なサーバーでは、60~
80 台の VM が稼働していることも珍しくありません。今後この数字は増加の一途をたどるものと予想されます。
1CPU あたりの VM が 10 台、CPU はクアッドコアで物理サーバー1 台あたり 2 ソケット、ラック 1 台あたりの物理サーバー
が 40 台、ラックの数が 20 台というデザインの場合、ネットワークのフォワーディング・テーブルの要件は次のようになります。
表 2:レイヤ 2 デザインとレイヤ 3 デザインでのフォワーディング・テーブルの規模
フォワーディング・
テーブル
MAC アドレス
(1 vNIC/VM)
レイヤ 2 デザイン
スパイン・スイッチ
レイヤ 3 デザイン
リーフ・スイッチ
1 MAC アドレス/VM x
10 VM/CPU x 4 CPU/ソケット x
2 ソケット/サーバー =
80 VM/サーバー x 40 サーバー/ラック =
3,200 MAC アドレス/ラック x 20 ラック =
64K MAC アドレス
少数の IP プレフィックス
IP ホスト・ルート
(IPv4 のみ)
1 IPv4 ホスト・ルート/VM
3200 IPv4 ホスト・ルート/ラック x
20 ラック = 64K IP ホスト・ルート
IP ホスト・ルート
(IPv4 + IPv6 デュア
ル・スタック)
1 IPv4 と IPv6 のホスト・ルート/VM
64K IPv4 ホスト・ルート +
64K IPv6 ホスト・ルート
リーフ・スイッチ
最小限
1 MAC アドレス/VM x
10 VM/CPU x 4
(スパイン・スイッチは L3 CPU/ソケット x 2 ソケット =
で稼働するため L2 の
80 VM/サーバー x
フォワーディング・テーブ
40 サーバー/ラック =
ルは不使用)
3,200 MAC アドレス
(L2 で稼働するリー
フ・スイッチは L3 なし)
1 サブネット/ラック x
20 ラック =
20 IP ルート LPM
プレフィックス
なし
最小限
なし
IP ルート LPM
スパイン・スイッチ
(L2 で稼働するリー (スパイン・スイッチに IP
フ・スイッチは L3 なし)
ホスト・ルートなし)
最小限
(スパイン・スイッチに対して
単一の ECMP ルート)
1 IPv4 ホスト・ルート/VM
3200 IPv4 ホスト・
ルート/ラック =
3200 IP ホスト・ルート
1 IPv4 と IPv6 の
ホスト・ルート/VM
(L2 で稼働するリー (スパイン・スイッチに IP 3200 IPv4 ホスト・ルート +
フ・スイッチは L3 なし)
ホスト・ルートなし)
3200 IPv6 ホスト・ルート
なし
最小限
レイヤ 2 のスパニング・ツリーの論理ポート数の規模
大規模なレイヤ 2 ネットワークに対する一般的な懸念としては、ブロードキャスト・ドメインの大きさ、単一の障害ドメイン、トラ
ブルシューティングの難しさといった点がありますが、制約となる要因で見過ごされがちなものの 1 つに、スイッチでのスパニ
ング・ツリー・プロトコルの動作に伴う、コントロール・プレーンの CPU のオーバーヘッドがあります。スパニング・ツリーがプロ
トコルとして比較的珍しい点は、プロトコルの処理が失敗した場合に、現在では一般的な「フェール・クローズ」状態ではなく、
「フェール・オープン」状態になることです。プロトコルが何らかの理由で失敗すると、ネットワークにループが生じます。スパニ
ング・ツリーにはこうした特徴があることから、スイッチのコントロール・プレーンに負担がかからないようにすることが不可欠
です。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
5
Rapid Per VLAN Spanning Tree(RPVST)では、複数の独立したインスタンスのスパニング・ツリー(VLAN ごと)をスイッチ
が維持しています。ポートでは BPDU の送受信を一定間隔で行い、BPDU に基づいて、物理ポートの状態を、ラーニング/リ
スニング/フォワーディング/ブロッキングの間で遷移させています。同期なしで互いに独立している大量のインスタンスを扱う
ことから、VLAN のトランキングを注意深くデザインしない限り、規模の面で難が生じます。たとえば、単一のポートで 4K の
VLAN をトランキングする場合、それぞれの VLAN の状態を個別に追跡する必要があります。
RPVST よりも好ましいのは、Multiple Spanning Tree Protocol(MSTP)です。スパニング・ツリー・プロトコルの稼働インスタ
ンス数が少なく、物理ポートの状態遷移もグループで行うことができるからです。しかし、こうした改良があっても、レイヤ 2 の
論理ポート数は依然として慎重に管理する必要があります。
スパニング・ツリーに参加するスイッチの規模に関する個別の特性はさまざまですが、デザインで考慮すべき主なポイントと
しては以下が挙げられます。

対象のスイッチがサポートする STP の論理ポート数 (VlanPorts の数として示される場合がある)

RPVST を使用する場合にサポートされるスパニング・ツリーのインスタンス数
階層数が多い場合と少ない場合の比較
階層の数が少ないデザインよりも、階層の数が多いデザインの方が、スケーラビリティは高まります。しかしその代償として、
投資支出(CAPEX)と運用コスト(OPEX)も高くなります。階層が増えるほどデバイスの数は増えます。管理すべきデバイス
が増えるのみならず、スイッチ間の相互接続で使用するポートも増えるということです。
単純化した例で考えてみましょう。4 個のポートを
持つスイッチを使用し、オーバーサブスクライブの
ない Clos 網のネットワーク・トポロジだとします。
このとき、ネットワークで 4 個のポートが必要だと
したら、1 台のスイッチで要件を満たすことができ
ます。(あまりに単純な例ですが、これは根本的
な原理を示すためのものです)。
必要なポートが 4 個から 8 個へと要件が倍増し、
ポートが 4 個のスイッチを構成要素として使用す
る場合、ネットワークは 1 階層から 2 階層へと広
がり、オーバーサブスクライブなしのネットワーク
図 4:1 階層、2 階層の Clos、3 階層の Clos の比較
を維持するために必要なスイッチの数は 1 台から
6 台に増えます。使用可能なポートの数が 2 倍になったのに対し、使用可能ポート 1 個あたりのコストは 3 倍です(実際には、
相互接続のケーブルやトランシーバー/光ファイバーのコストもかかるため、3 倍よりさらに上です)。
ポート数の要件が 8 個から 16 個へとさらに倍増した場合、3 番目の階層が必要となり、スイッチの数は 6 台から 20 台に増
えます。ポート数が倍増しただけで、デバイス/コストは 3.3 倍の増加です。1 階層のデザインと比べると、この 3 階層のデザ
インは、使用可能ポート数が 4 個から 16 個へと 4 倍に増えましたが、コストを比べると、当初のスイッチ 1 台のデザインと比
べて 20 倍以上です。
規模が拡大すると、投資支出(CAPEX)が増えます。しかし、少ない数の階層でネットワークを構築できれば、CAPEX は
大幅に削減できます。階層間の相互接続に投じるコストを抑えられるからです。また、運用コスト(OPEX)も劇的に削減で
きます。管理すべきデバイスの数、消費電力、冷却コストなどを抑えられるからです。ネットワーク・デザインはすべて、使
用可能なポート(サーバーやストレージに使用するポート)1 個あたりのコストという観点で、ネットワークの使用期間全体
にわたって捉えることが必要です。使用可能なポート 1 個あたりのコストは次の式で計算できます。
(スイッチのコスト + 消費電力 + 光トランシーバー + ファイバー)
(合計ノード数 x オーバーサブスクリプション)
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
6
アリスタのスケールアウト・デザイン
はじめに
ネットワーク・デザインの一般的な原則として、短期的な要件に基づくデザ
インではなく、ネットワークやネットワーク・ポッドが今後どこまで拡大するか
という長期的な要件に基づくデザインが必要です。使用可能ポートの最大
数や、それらのポートに接続したデバイス間のトラフィックに求められるオ
ーバーサブスクリプション率を長期的に考え、それらの要件に基づいてネッ
トワークをデザインする必要があります。
ポート数の長期的な要件を 1 台のスイッチ(または HA デザインのスイッチ
の 1 ペア)で満たせるのであれば、1 階層のデザインを使わない理由はあ
りません。1 階層のデザインは、CAPEX と OPEX を常に極限まで抑えること
図 5:1 階層での最大の規模
ができます。デバイスの数が最小限で、スイッチの階層間を接続するために
使用するポートもないからです。
1 階層に適合しないデザインの場合は、次に 2 階層を考えるのが合理的です。2 階層のデザインは、上位層にスパイン・ス
イッチ、下位層にリーフ・スイッチを配置します。
2 階層のスパイン/リーフ・デザインでは、それぞれのリーフ・スイッチをそれぞれのスパイン・スイッチに接続します。このデザ
インはレイヤ 2 とレイヤ 3 のどちらを使っても構築できますが、レイヤ 3 のデザインの方が拡張性に優れています。2 台を超
えるスパイン・スイッチを配置でき、MAC アドレスのエントリやホスト・ルートは所定のリーフ・スイッチ 1 台またはリーフ・スイ
ッチのペアに局所化されるからです。
アリスタのスケールアウト・デザイン
スケールアウト・デザインの第 1 歩は、1 ペアのスパイン・スイッチと、数台のリーフ・スイッチです。2 階層のリーフ/スパイン
のネットワーク・デザインで、オーバーサブスクリプションが 3:1、リーフ・スイッチ 1 台あたりのサーバーが 48 台(Arista
7050S-64)の場合、各デバイスへの接続は 48x10G、スパインへのアップリンクは 16x10G です(48x10G : 16x10G =
48:16 = 3:1 のオーバーサブスクリプション)。スパインは、Arista 7500 のモジュール型スイッチ(7504 または 7508)のペア
です。それぞれのリーフ・スイッチをそれぞれのスパイン・スイッチに 8x10G のリンクで接続します。各スパイン・スイッチは
DCS-7500E-36Q ラインカード(36x40G / 144x10G)1 枚を搭載し、最初のネットワークは 18 台のリーフ・スイッチの接続ま
で拡張できます(864x10G の接続デバイス、エンドツーエンドで 3:1 のオーバーサブスクリプション)。これを表したのが図 6
です。
図 6:スケールアウト・デザインの出発点:スイッチは 1 ペアで、それぞれラインカードが 1 枚
リーフ・スイッチの数が増え、スパイン・スイッチの 1 枚目のラインカードのポートが埋まった場合は、各シャーシに 2 枚目の
ラインカードを追加し、半分のリンクをそちらのラインカードに移動します。このデザインでは、リーフ・スイッチを 18 台から 36
台まで拡張できます(1,728x10G の接続デバイス、エンドツーエンドで 3:1 のオーバーサブスクリプション)。これを表したの
が図 7 です。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
7
図 7:スケールアウト・デザインでのスパインの最初の拡張:2 枚目のラインカード・モジュール
この拡張を何回か繰り返します。リーフとスパインの間のアップリンクが 10G の場合、それぞれのアップリンクは、各スイッチ
の 4 枚のラインカードにある 4 つのポート間で分配できます。
このデザインの最終的な規模は、スパイン・スイッチのポートの規模/密度、目的のオーバーサブスクリプション率、スパイン・
スイッチの数に応じて決まります。スパイン・スイッチが 2 台あれば、このデザインはレイヤ 2 またはレイヤ 3 で構築できます。
2 台のスパイン・スイッチが Arista 7504 の場合の最終的な規模は、リーフ・スイッチが 72 台で、3,456x10G、エンドツーエン
ドで 3:1 のオーバーサブスクリプションです。2 台のスイッチが Arista 7508 の場合、規模はこの倍となります。つまり、リー
フ・スイッチが 144 台で、6,912x10G、エンドツーエンドで 3:1 のオーバーサブスクリプションです。これを表したのが図 8 で
す。
図 8:スケールアウト・デザインでのスパインの最終的な拡張:Arista 7504 のそれぞれに 4 枚目のラインカード・モジュールを追加
Arista 7500 シリーズ 2 台をスパイン・スイッチに使用した 1G ノードのスパイン/リーフ・デザイン
図 9:スパイン・スイッチに Arista 7504/7508 を使用し、ノードが 1G 接続のスパイン/リーフ・ネットワーク・デザイン(スイッチ 2 台での最大
限の規模)。アップリンクは 10G
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
8
Arista 7500 シリーズ 2 台をスパイン・スイッチに使用した 10G ノード、3:1 のオーバーサブスクリプションのスパイン/リー
フ・デザイン
図 10:スパイン・スイッチに Arista 7504/7508 を使用し、ノードが 10G 接続、3:1 のオーバーサブスクリプションのスパイン/リーフ・ネットワ
ーク・デザイン(スイッチ 2 台での最大限の規模)。アップリンクは 10G
Arista 7500 シリーズ 2 台をスパイン・スイッチに使用した 10G ノード、オーバーサブスクリプションなしのスパイン/リーフ・
デザイン
図 11:スパイン・スイッチに Arista 7504/7508 を使用し、ノードが 10G 接続、オーバーサブスクリプションなしのスパイン/リーフ・ネットワー
ク・デザイン(スイッチ 2 台での最大限の規模)。アップリンクは 10G
これらのトポロジはいずれも、レイヤ 2 とレイヤ 3 のどちらでも構築できます。レイヤ 2 のデザインの場合、MLAG を使用す
ることにより、リンクのブロックなしでアクティブ/アクティブで動作する L2 ネットワークを構築できます。これには、スパイン・ス
イッチ間の MLAG ピアリンクが必要です。
また、サーバー/ストレージをアクティブ/アクティブで接続するために、リーフ・スイッチで MLAG を使用することが望ましい場
合もあります。この場合、リーフ・スイッチのペアが MLAG のペアとなり、MLAG ピアリンクで相互接続します。MLAG ピアリ
ンクは比較的少数の物理リンク(最小 2 本)でも可能です。MLAG はネットワーク・トラフィックの優先度付けを行い、両接続
のデバイスのスイッチに対してローカルとなるようにするからです。
10G アップリンクを使用した大規模デザイン
レイヤ 3 を使って、ECMP レイアウトで最大 32 台のスパイン・スイッチまでデザインをスケールアウトすることも可能で、非常
に大規模な展開のリーフ・スイッチを実現できます。ネットワークの拡張に合わせてスパイン・スイッチにラインカード・モジュ
ールを増設していくのと同じような考え方で、スパイン・スイッチを増やしていくことができます。2 台のスパイン・スイッチから、
4 台、8 台、16 台、さらには 32 台のスパイン・スイッチまでネットワークを拡張できます。スパインとリーフの間のすべてのパ
スは、BGP や OSPF などの標準のルーティング・プロトコルを使用してアクティブ/アクティブで動作し、最大 32-way の
ECMP を使用してすべてのパスがアクティブ/アクティブ・モードで稼働します。次の図は、3:1 のオーバーサブスクリプション
の 10G デザインで、4 台のスパイン・スイッチから 8 台および 16 台にネットワークが拡大するようすを示します(図 12 を参
照)。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
9
図 12:Arista 7504/7508 スパイン・スイッチ、4-way ECMP、Arista 64 ポート 10G リーフ・スイッチ、3:1 のオーバーサブスクリプション
図 13:Arista 7504/7508 スパイン・スイッチ、8-way ECMP、Arista 64 ポート 10G リーフ・スイッチ、3:1 のオーバーサブスクリプション
図 14:Arista 7504/7508 スパイン・スイッチ、16-way ECMP、Arista 64 ポート 10G リーフ・スイッチ、3:1 のオーバーサブスクリプション
次の図は、4-way ECMP での 1G サーバー・デザインの拡張を示します(各リーフ・スイッチには 4x10G のアップリンクがあ
り、48x1G のサーバー/ストレージ接続に対応)。
図 15:Arista 7504/7508 スパイン・スイッチ、4-way ECMP、Arista 48x10G リーフ・スイッチ、1.2:1 のオーバーサブスクリプション
同じ考え方に基づくデザインで、オーバーサブスクリプションなしの 10G ネットワークを構築できます。後で費用を投じながら
ネットワークの規模を徐々に拡大していくことにより、CAPEX の初期投資をある程度抑えることができます。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
10
図 16:Arista 7504/7508 スパイン・スイッチ、4-way ECMP、Arista 64 ポート 10G リーフ・スイッチ、オーバーサブスクリプションなし
図 17:Arista 7504/7508 スパイン・スイッチ、8-way ECMP、Arista 64 ポート 10G リーフ・スイッチ、オーバーサブスクリプションなし
図 18:Arista 7504/7508 スパイン・スイッチ、16-way ECMP、Arista 64 ポート 10G リーフ・スイッチ、オーバーサブスクリプションなし
図 19:Arista 7504/7508 スパイン・スイッチ、32-way ECMP、Arista 64 ポート 10G リーフ・スイッチ、オーバーサブスクリプションなし
40G アップリンクを使用した大規模デザイン
同じ考え方に基づくシンプルなデザインによって、スパインとリーフの間に 10G のアップリンクではなく 40G のアップリンクを
使用したネットワークを構築できます。Arista スイッチでは、40G QSFP+ポートは 1x40G と 4x10G のどちらとしても構成で
き、光ブレークアウト技術の併用により個別の 10G リンクとして利用できます。多くのデザインは、10G のアップリンクから
40G のアップリンクに簡単に拡張でき、両者の組み合わせにも対応しています。AgilePort をサポートする Arista スイッチ・プ
ラットフォーム(たとえば Arista 7150S)の場合は、4 個の SFP+インターフェイスを 1 個の 40G ポートとして構成できること
から、アップリンクの選択でさらなる柔軟性が得られます。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
11
次の図は、レイヤ 3 の ECMP デザインで、リーフからスパインに 40G のアップリンクを使用し、3:1 のオーバーサブスクリプ
ションで 10G ノードの場合の最大の規模を示します。
図 20:Arista 7504/7508 スパイン・スイッチ、4-way ECMP、Arista 48x10G + 4x40G リーフ・スイッチ、3:1 のオーバーサブスクリプション
光ファイバー、ケーブル、トランシーバーの選択肢
トランシーバー、光ファイバー、ケーブルには多種多様な選択肢があります。
SFP+/SFP は、10G/1G で最も一般的なトランシーバーで、広範囲の距離をサポートし
ています。
図 21:SFP+/SFP ポート
表 3:SFP+/SFP トランシーバーの選択肢
タイプ
速度
10GBASE-CR
10G
10G-AOC
10G
距離
媒体
0.5m、1m、1.5m、2m、2.5m、
Direct Attach(DAC)
3m、5m、7m
CX1 Twinax
3m~30m
ケーブルは事前に終端処理が行われ
アクティブ光ケーブル
(AOC)
10GBASE-SRL
10G
100m(OM3) 150m(OM4)
50µ MMF
10GBASE-SR
10G
100m(OM3) 150m(OM4)
50µ MMF
10GBASE-LRL
10G
1km
9µ SMF
10GBASE-LR
10G
10km
9µ SMF
10GBASE-ER
10G
40km
9µ SMF
10GBASE-ZR
10G
80km
9µ SMF
10GBASE-DWDM
10G
40km/80km
9µ SMF
1000BASE-T
100M/1G
100m
Cat5e
1000BASE-SX
1G
550m
50µ MMF
1000BASE-LX
1G
10km
9µ SMF
アリスタ・ホワイトペーパー
補足
ているため、トランシーバーを両端に
装備し銅線ケーブルと結合
ケーブルは事前に終端処理が行われ
ているため、トランシーバーを両端に
装備し光ケーブルと結合
光接続で 10GBASE-SR と
100m まで相互運用可能
光接続で 10GBASE-SRL と
100m まで相互運用可能
光接続で 10GBASE-LR と
1km まで相互運用可能
光接続で 10GBASE-LRL と
1km まで相互運用可能
40 以上の波長に対応
100M のサポート用一部の
スイッチ/トランシーバーで対応
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
12
QSFP+トランシーバーは 40G 接続に使用します。これらは、単一の物理ポートを分岐し
て 1x40G と 4x10G のいずれかとして使用することもできます。
図 22:QSFP+ポート
表 4:QSFP+トランシーバーの選択肢
タイプ
速度
40GBASE-CR4
40G
40GBASE-CR4 to
4x10GBASE-CR
4x10G
40G-AOC
40G
40G UNIV
40G
40G UNIV
40G
距離
媒体
補足
0.5m、1m、2m、
Direct Attach
(DAC)
ケーブルは事前に終端処理が行われているため、トランシ
3m、5m、7m
1.5m、1m、2m、
ケーブルは事前に終端処理が行われているため、一端に
Direct Attach
(DAC)
QSFP+、もう一端に 4xSFP+を装備し銅線ケーブルと結合
アクティブ光ケーブル
ケーブルは事前に終端処理が行われているため、トランシ
(AOC)
ーバーを両端に装備し光ケーブルと結合
50µ MMF
Duplex MMF
9µ SMF
Duplex SMF
光接続で 40GBASE-LRL4 および 40GBASE-LR4 と
3m、5m
3m~100m
ーバーを両端に装備し銅線ケーブルと結合
150m(OM3)
150m(OM4)
500m
500m まで相互運用可能
40GBASE-SR4
40GBASE-XSR4
40G
40G
100m(OM3)
150m(OM4)
300m(OM3)450m
(OM4)
1x40G(40GBASE-SR4)または
50µ MMF
4x10G(10GBASE-SR/SRL 互換)として運用可能
1x40G(40GBASE-XSR4)または
4x10G(10GBASE-SR/SRL 互換)として運用可能
50µ MMF
光接続で 40GBASE-SR4 と 150m まで相互運用可能
40GBASE-LR4
40G
10km
9µ SMF
光接続で 40GBASE-LRL4 と 1km まで相互運用可能
40GBASE-LRL4
40G
1km
9µ SMF
光接続で 40GBASE-LRL4 と 1km まで相互運用可能
1x40G(40GBASE-PLR4)または
40G-PLR4
40G
10km
4x10G(10GBASE-LR/LRL 互換)として運用可能
9µ SMF
光接続で 40GBASE-PLRL4 と 1km まで相互運用可能
1x40G(40GBASE-PLRL4)または
40G-PLRL4
40G
1km
4x10G(10GBASE-LR/LRL 互換)として運用可能
9µ SMF
光接続で 40GBASE-PLR4 と 1km まで相互運用可能
Arista 7500E-72S-LC や 7500E-12CM-LC などのラインカード・モジュール
をはじめとする、アリスタのボックス型およびモジュール型の各種システムで
は、組み込みの 100G 光ファイバー・モジュールを使用して、業界標準の
100GBASE-SR10、40GBASE-SR4、10GBASE-SR ポートにトランシーバ
ーなしで対応しています。これにより、業界トップクラスの経済性と高密度で
10/40/100G 接続が可能です。各ポートは、標準の MPO/MTP ケーブル(単
図 23:Arista マルチスピード・ポート(MXP)
の 100G MPO/MTP コネクタ
一のケーブル/コネクタで 12 ペアのファイバー)に適合し、1 つのポートを次の
いずれとしても構成できる高い柔軟性があります。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
13

1 x 100GBASE-SR10

3 x 40GBASE-SR4

2 x 40GBASE-SR4 + 4 x 10GBASE-SR

1 x 40GBASE-SR4 + 8 x 10GBASE-SR

12 x 10GBASE-SR
これらのポートでは OM3/OM4 MMF を使用できます。サポートする距離は 100m(OM3)および 150m(OM4)です。MPO
to 12xLC のパッチケーブルは、12xLC コネクタに分岐し、SFP+への接続に対応しています。
一部のスイッチが備える Arista AgilePort では、4 個または 10 個の SFP+ポートをグループ化して、業界標準の
40GBASE-SR4 または 100GBASE-SR10 として構成できます。これによって、10G から 40G および 100G へとネットワー
クを拡張するうえでの柔軟性がいっそう高まり、サポート可能な距離も柔軟になります。
100GbE CFP2 および QSFP100 のトランシーバーでは、Arista 7500E-6C2-LC(CPF2)や 7500E-12CQ-LC(QSFP100)
のラインカード・モジュールなど、ボックス型とモジュール型のさまざまなシステムでプラグ・アンド・プレイの 100G 接続を実現
でき、業界標準のさまざまな 100G ファイバーやケーブルに対応しています。7500E シリーズ向けでホットプラグ対応の
CFP2 トランシーバーは、第 1 世代の CFP モジュールに比べて半分ほどの大きさで、100G の密度に合った最適化を施しな
がら、トランシーバー1 基あたり 12W という省電力で最大 40km の長距離接続に対応しています。100G の QSFP フォーマ
ットは、40GbE の QSFP+と区別するために QSFP100 という名前になっていますが、技術的なデザインは共通です。したが
って、QSFP 100G ポートは、40GbE と 100GbE の両方をサポートし、デュアル・スピードに対応できます。さらに、
QSFP100 のフォーム・ファクターは、そのサイズと電力コスト抑制により、高密度インターフェイスに対応しています。CFP2
および QSFP100 のフォーム・ファクターには、ケーブルや短距離/長距離など、さまざまな 100GbE 接続の選択肢がありま
す。
図 24:Arista 7504/7508E シリーズの CFP2 と QSFP100 のラインカード
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
14
スケールアウト・クラウドのデザインを実現する Arista EOS の基盤的機能
アリスタのスケールアウト・クラウド・ネットワークのデザインは、受賞歴を誇る Arista EOS(Extensible Operating System)
の基盤的機能に支えられています。
マルチシャーシ・リンク・アグリゲーション(MLAG)
MLAG では、Arista スイッチのペア(MLAG ペア)にデバイスを接続し、すべてのリンクをアクティブ/アクティブの状態に維持
できます。MLAG ではボトルネックが解消され、耐障害性も得られます。また、STP によるリンクのブロックとは違って、帯域
幅の 50%を無駄にすることなく、レイヤ 2 のリンクをアクティブ/アクティブで稼働できます。L3 Anycast Gateway(仮想
ARP/VARP)と MLAG によって、HSRP や VRRP のようなプロトコルのオーバーヘッドなしで、L3 ゲートウェイをアクティブ/
アクティブ・モードで稼働できます。
隣接するデバイスに対しては、MLAG の動作は標準的なリンク・アグリゲーション(LAG)と同様です。Link Aggregation
Control Protocol(LACP)(以前は IEEE 802.3ad、最近は IEEE 802.1AX-2008)を使用するか、または静的な「mode on」
の構成で動作します。
MLAG のスイッチのペアは、転送状態を互いに同期しており、1 つのノードで障害が発生しても、中断や停止には至りません。
デバイスはアクティブ/アクティブ・モードで動作していることから、スタンバイからアクティブに移行するプロトコルや、新しい状
態の学習はありません。
ゼロ・タッチ・プロビジョニング(ZTP)
ZTP とは、スイッチを物理的に展開するときに設定作業を不要にする機能です。ZTP では、ネットワーク内の一元的な場所
からスイッチがイメージと設定を読み込みます。これによって展開作業が簡単になり、ネットワーク・エンジニアのリソースをよ
り生産的な作業に充てることができます。スイッチのプロビジョニングのような反復作業で貴重な時間を浪費したり、ネットワ
ーク・エンジニアがシリアル・コンソール・ケーブル片手に歩き回ったりする必要はありません。
ZTP の延長線上にある機能で、ゼロ・タッチ・リプレース(ZTR)というものもあります。スイッチを物理的に交換するときに、交
換前のスイッチと同じイメージや設定を交換後のスイッチがそのまま引き継ぐというものです。スイッチの ID と設定は、スイッ
チの MAC アドレスと結び付いているのではなく、ネットワーク内でデバイスが接続されている場所と結び付いています(近隣
のデバイスからの LLDP 情報に基づく)。ハードウェア障害や RMA は頻繁にあるものではありませんが、たとえ実際に起き
た場合でも、ZTR があれば、復旧に要する時間は、新しいスイッチが届いて物理的な配線を行う時間のみに短縮されます。
ネットワーク・エンジニアの時間を確保する必要はありません。シリアル・コンソール・ケーブルを片手にスイッチの前で設定
作業を行わなくてもよいからです。
VM Tracer
仮想データセンターの規模が大きくなる中、その基盤となる物理ネットワークと仮想ネットワークも、サイズと複雑さの両面で
拡大しています。仮想マシンはまず仮想スイッチに接続し、そこから物理インフラへとつながることから、抽象化と複雑化の層
が間に 1 つ入っている形です。VMware 管理者が仮想マシンや仮想ネットワークを管理しやすくするためのサーバー側のツ
ールは登場していますが、ネットワーク管理者が物理ネットワークと仮想ネットワークの間の競合を解決するためのツールは、
これまでありませんでした。
Arista VM Tracer はその間隙を埋める機能です。どの物理サーバーが仮想化されているかを、VMware vCenter API を利
用して自動的に検知し、それがどの VLAN に該当するかを、vCenter のポリシーに基づいて判断したうえで、vMotion のイ
ベントにより物理スイッチのポート設定をリアルタイムで自動的に適用します。こうして、ポートの構成や VLAN データベース
のメンバー構成を自動化でき、トランク・ポートに対して VLAN を動的に追加/削除できます。
また、VM Tracer では、ネットワーク・エンジニアが物理スイッチのポート上の VM や物理サーバーについて詳細に把握でき
るほか、サーバー・チームとネットワーク・チームの間の柔軟な対応や自動化を実現します。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
15
VXLAN
VXLAN とは、ネットワーク仮想化に関連する技術の 1 つです。業界全体がサポートし、複数のベンダーが対応しています。
レイヤ 2 で巨大なネットワークを構築でき、大規模なレイヤ 2 ネットワークに付き物の拡張性の問題を解決できます。VLAN
に似たカプセル化の手法を利用して、レイヤ 2 のイーサネット・フレームをレイヤ 3 の IP パケット内にカプセル化していること
から、「オーバーレイ」ネットワークに分類されています。
VXLAN を利用すれば、レイヤ 2 ネットワークの規模に関する根本的な問題を解決できます。たとえば次のような点です。

障害ドメインを増やすことなく、大規模なレイヤ 2 ネットワークを構築可能

VLAN の上限数である 4K を超えて拡張可能

物理的に異なる場所やポッドの間でレイヤ 2 接続が可能

フラッディング(不明な宛先)やブロードキャスト・トラフィックを単一のサイトに局所的に限定することが可能

各デバイスが他のすべての MAC アドレスを参照しなくてもよい形で大規模なレイヤ 2 ネットワークを構築可能
仮想マシンの観点で見ると、VXLAN を利用することで、物理サーバーが属する IP サブネットや VLAN とは関係なく、あらゆ
る場所のあらゆるサーバーに VM を展開できるようになります。
VXLAN は、レイヤ 3 上でレイヤ 2 のオーバーレイをサポートする業界標準の技術です。複数のベンダーがサポートしている
ことから、VXLAN には多種多様な展開方法があります。ハイパーバイザ上の仮想スイッチのソフトウェア機能、ファイアウォ
ールやロード・バランシング・アプライアンス、L3 スイッチに組み込まれた VXLAN のハードウェア・ゲートウェイなどです。
VXLAN に関してアリスタが取ったアプローチは、ハードウェアで高速化した VXLAN ゲートウェイ機能をさまざまなスイッチに
搭載するというもので、2013 年を通して徐々に実現してきました。
LANZ
Arista レイテンシー・アナライザー(LANZ)では、ネットワークの輻輳をリアルタイムで検知し、パフォーマンスの問題を引き起
こす前の段階で把握できます。現在のシステムでは、「ネットワークが遅く感じる」という苦情が利用者から上がった時点で輻
輳の発生を把握するケースが少なくありません。ネットワーク・チームは、トラブル対応のサポート・チケットを受け取って調査
を行い、重要なインターフェイスでパケット損失が生じていることを認識します。これまでは、ネットワーク・チームが取ることの
できる最善の策は、問題が起きているポートをミラーリングしてパケット・キャプチャ・デバイスに取り込み、輻輳の問題が再
現されることを祈るくらいでした。
これからは、LANZ の事前対応的な輻輳検出機能や警告機能を活用することで、管理者や統合型アプリケーションが次のよ
うな対応を実現できます。

レイテンシーやパケット損失につながるネットワーク状況を回避する。

その時その時の状況に基づいてアプリケーションの動作を適合させる。

ボトルネックの可能性を早い段階で切り分け、事前対応的なキャパシティ・プランニングを実現する。

処理後の対比や事後テストのために調査データを保存しておく。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
16
Arista EOS:安定性と柔軟性を得られるプラットフォーム
アリスタの Extensible Operating System(EOS)は、業界屈指の高度なネットワーク・オペレーティング・システムです。現代
的なソフトウェアと OS アーキテクチャ、透過的に再起動可能なプロセス、オープンなプラットフォーム開発、改変なしの Linux
カーネル、ステートフル・パブリッシュ/サブスクライブ・データベース・モデルを兼ね備えています。
EOS の中核となるのはシステム・データベース(SysDB)です。SysDB は、マシン生成のソフトウェア・コードで、EOS の各プ
ロセスの状態を保存するために必要なオブジェクト・モデルを基盤としています。EOS のすべてのプロセス間通信は SysDB
オブジェクトへの書き込みとして実装されています。これらの書き込みは、サブスクライブしたエージェントに伝達され、これら
のエージェントでイベントが発生します。たとえば、ユーザーレベルの ASIC ドライバーは、いずれかのポートでリンク障害を
検出した場合、そのことを SysDB に書き込みます。続いて、LED ドライバーが SysDB から更新を受け取り、ポートの状態を
読み取って、それに応じて LED の状態を調整します。こうして、一元的なデータベースを利用してシステム全体に状態を受
け渡すことや、SysDB のコードを自動生成することによって、リスクと誤りが減少し、ソフトウェア機能の俊敏性が高まり、お
客様は柔軟性が得られます。SysDB から通知を受信するときにも、スイッチの機能にカスタマイズや拡張を施すときにも、同
じ API を使用できます。
アリスタのソフトウェア・エンジニアリングの手法は、品質と一貫性という面でも、お客様にメリットをもたらしています。

ユーザー領域で障害を完全に分離し、SysDB を通じて、致命的なイベントを害のないイベントへと適切に変換でき
る。メモリ・リークなどの一般的な状況に対してはシステムが自己修復を行う。すべてのプロセスは切り分けられて
おり、IPC や共有メモリで全体が道連れになることはない。また、エンディアンの影響はなく、可能な部分ではマルチ
スレッドを利用している。

手動でのソフトウェア・テストが不要。すべての自動テストを 24 時間体制で常時実行し、オペレーティング・システム
をエミュレーター内とハードウェア上で動かすことで、プロトコルと単体テストを経済的に拡張できる。

すべてのプラットフォームで共通のシステム・バイナリを継続的に利用できる。これによって、各プラットフォームでの
テストの詳細さが高まり、市場投入までの時間を短縮して、機能やバグ解決の互換性をすべてのプラットフォーム
間で維持できる。
EOS は、拡張性という中心的な考え方を実現する開発フレームワークを提供します。オープンな基盤と、トップクラスのソフト
ウェア開発モデルを利用して、機能を俊敏に実現し、稼働率を高め、メンテナンスを容易にし、ツールやオプションの選択肢
を広げることができます。
Arista EOS の拡張性
Arista EOS では、root レベルの管理者が Linux シェルに完全にアクセスできるようになっており、お客様は Linux ベースの
多種多様なツールを利用できます。「オープン」の精神に基づいて、SysDB のプログラミング・モデルと API セットが完全に公
開されており、標準の bash シェルから使用できます。SysDB は「隠ぺい」された API ではありません。つまり、アリスタが使
用している API のごく一部のみを一般向けに公開しているわけではありません。アリスタのソフトウェア開発者が EOS のア
ドレス空間内で使用しているのと同じプログラミング・インターフェイスすべてを、サード・パーティの開発者やお客様も利用で
きます。
Arista EOS のカスタマイズや拡張性の活用例としては、次のようなものがあります。

NFS または CIFS の特定の共有場所にすべてのログ・ファイルを毎晩バックアップするには、スイッチからストレー
ジを直接マウントし、rsync またはスナップショットを利用して構成ファイルをコピーすればよい。

スイッチのインターフェイスの統計情報や LANZ のストリーミング・データをラウンド・ロビン・データベースに保存す
るには、スイッチで MRTG を実行する。

Internet2 のパフォーマンス管理アプリケーション perfSONAR を使いたければ、ローカルでそのまま実行できる。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
17

サーバーの起動時に Nessus でセキュリティ・スキャンを実行したければ、ポートの立ち上げ時に実行されるイベン
ト・ハンドラを作成すればよい。

Chef、Puppet、CFEngine、Sprinkle でサーバー環境を自動化したければ、Arista スイッチでこれらをいずれも使
用でき、構成とモニタリングを自動化できる。

サーバーを PXE でスイッチから直接起動したければ、スイッチで DHCP および TFTP サーバーを実行すればよい。
EOS が動作するのと同じ Linux インスタンスでコードを実行するのを避けたければ、スイッチに内蔵の KVM でゲスト OS を
動かすことも可能です。 ゲスト OS にリソース(CPU、RAM、vNIC)を割り当てることができます。アリスタでは、エンタープラ
イズ・クラスの SSD を使用してフラッシュ・ストレージを増強したスイッチも出荷しています。
その他の Software Defined Cloud Networking(SDCN)テクノロジー
アリスタの Software Defined Cloud Networking(SDCN)は、ここまで説明してきた EOS の基盤技術に加えて、自動化した
スケールアウト・ネットワーク・デザインを実現するさまざまなテクノロジーを他にも取り入れています。たとえば次のようなテク
ノロジーです。

高度なイベント・モニタリング(AEM)

自動モニタリング/管理

Arista CloudVision

Arista eAPI

OpenFlow、OpenStack、Open Virtual Switch などの統合
全リンクがアクティブ/
アクティブのスパイン/
リーフ
スケールアウト・
デザインの
段階的拡張で初
期投資を抑制
大規模な L2 と
巨大な L3 の
選択肢
MLAG で
サーバー/ストレージへの
アクティブ/アクティブ接続
が可能
ハードウェア VXLAN
ゲートウェイにより
L3 の境界を越えた
VM 移動を実現
柔軟なデザインで
1G/10G/40G/
100G に対応
VM Tracer や OpenStack の
統合で VM のプロビジョニング
と移動を自動化
LANZ により、
パフォーマンスの問題が
生じる前に輻輳をリアル
タイムで追跡可能
ディープ・バッファ
で輻輳を
抑制
新しいラックを
ゼロ・タッチで
展開可能
ワイヤスピードの
ラック間
パフォーマンス
柔軟性のあるデザインで
オーバーサブスクリプションの
有無を選択可能
オープン・スタン
ダードでベンダー・
ロックインを回避
サーバーの
ベアメタル・プロビ
ジョニングがネット
ワークから可能
同じデザインでサーバーを
10 台から数万台まで
拡張可能
EOS の同一イメージが
すべてのネットワーク・
デバイスで動作。
EOS の拡張性によって
自動化とローカルの
拡張を実現
図 25:Arista EOS の基本機能とクラウド・ネットワークの拡張性
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
18
まとめ
アリスタのスケールアウト・クラウド・ネットワーク・デザインは、クラウド・コンピューティングの普及の原動力でもある、自動化、
セルフサービス・プロビジョニング、パフォーマンスとコストのリニアなスケーリングを実現しつつ、ネットワーク仮想化、カスタ
ム化可能なプログラマビリティ、シンプルなアーキテクチャ、手頃な価格帯の実現といった Software Defined Networking の
トレンドを兼ね備えています。
これにより、企業とサービス・プロバイダーの両方のデータセンターに対し、ネットワークの価値を最大限に高める業界最高
水準のソフトウェア基盤を構築します。IT インフラ内の最もミッション・クリティカルな場所を対象とする新しいアーキテクチャ
は、制御と可視化の機能をネットワークおよびシステム管理者に提供しつつ、管理とプロビジョニングを簡素化し、サービス・
デリバリを迅速化し、コストを削減して、サービスの競争力を高める機会を創出します。
アリスタ・ホワイトペーパー
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
19
アリスタネットワークスについて
アリスタネットワークスは、大規模なデータセンターとコンピューティング環境に特化した SDCN(Software Driven Cloud Networking)ソリューション企業として設立され
ました。さまざまな受賞歴を誇るアリスタの先進の 10/40/100GbE スイッチは、従来の概念を覆すスケーラビリティ、堅牢性、価格性能比を備え、全世界で 2,700 社を超
えるユーザに採用され、200 万ポートを超えるクラウド・ネットワーキング用のポートを出荷しています。アリスタのプラットフォームの中核となるのは、先進のネットワー
ク・オペレーティング・システムである EOS です。アリスタネットワークスの製品は、販売パートナー、システム・インテグレータ、リセラーを通じて、世界各地でご利用いた
だけます。
アリスタネットワークスジャパン合同会社
〒170-6045 東京都豊島区東池袋 3-3-1 サンシャイン 60 45F
Tel:03-5979-2012 Fax:03-5979-2013
お問い合わせ先
[email protected]
Copyright © 2014 Arista Networks, Inc. All rights reserved.CloudVision、
Extensible Operating System、EOS は、Arista Networks, Inc.の登録商標
です。Arista Networks は Arista Networks, Inc.の商標です。その他の企業
名はすべて、それぞれの所有者の商標です。本書に記載されている情報は
予告なく変更される場合があります。一部の機能は、まだ提供されていない
可能性があります。Arista Networks, Inc.は、本書に含まれる誤りについて、
一切の責任を負わないものとします。
アリスタ・ホワイトペーパー
www.arista.com/jp
2014 年 7 月
Arista 7500 のスケールアウト・クラウド・ネットワークのデザイン
20