「止まらないシステム」を実現する アラクサラのフォールト・トレラント

Interop Tokyo 2008 ブースセミナー資料
「止まらないシステム」を実現する
アラクサラのフォールト・トレラント・ネットワーク
アラクサラネットワークス株式会社
2008年6月
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
これより、
「止まらないシステム」を実現するアラクサラのフォールト・トレラント・ネットワークを
ご紹介させていただきます。
1
Interop Tokyo 2008 ブースセミナー資料
重大なシステム障害の増大
近年、重大なシステム障害が発生しています
近年、重大なシステム障害が発生しています
重大なシステム障害
ビジネス基盤を支えるシステムが、広範囲かつ長時間に渡ってダウン
例えば、
‹ 金融機関のオンライン端末が一斉ダウン
‹ 交通機関の改札システムや発券システムが長時間サービス停止
‹ IP電話サービスの広範囲に渡る通話障害 など
いずれも社会基盤を支える重要なインフラであり
いずれも社会基盤を支える重要なインフラであり
当然、システムも冗長化されています
当然、システムも冗長化されています
なぜ、冗長化されたシステムで重大障害が起きるのか?
なぜ、冗長化されたシステムで重大障害が起きるのか?
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
2
近年、ビジネス基盤を支えるシステムが、広範囲かつ長時間に渡ってダウンする
重大なシステム障害が発生しています。
例えば、金融機関のオンライン端末が一斉にダウンしたり、発券システムが長時
間に渡ってサービスを停止したり、などが記憶に新しいかと思います。
これらはいずれも重要なインフラであり、当然、システムの冗長化も考慮されてい
るはずです。
それなのに何故、これら冗長化されたシステムで重大障害が起きるのでしょうか?
2
Interop Tokyo 2008 ブースセミナー資料
IPネットワークの複雑化
従来の冗長ネットワーク
従来の冗長ネットワーク
複数のプロトコルが自律分散的に動作し、システム全体で冗長化を実現
複数のプロトコルが自律分散的に動作し、システム全体で冗長化を実現
《問題点1》
《問題点1》 組み合わせの複雑さ
組み合わせの複雑さ
装置構成やプロトコルの組み合わせが複雑で、
複雑
有事に期待通りの動作をしない
《問題点2》
《問題点2》 全体への波及
全体への波及
ダイナミックルーティングは全装置が自律的に
経路再計算するので、障害の影響が全体に波及
冗長システムの複雑化が、かえって不安定さの原因になっている
冗長システムの複雑化が、かえって不安定さの原因になっている
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
3
過去の重大障害を見てみると、複数のプロトコルが自律分散的に動作する、IPネットワー
クそのものが抱える問題が見えてきます。
ひとつ目の問題は「組み合わせの複雑さ」です。IPネットワークは、複数の装置とプロトコ
ルを組み合わせることで冗長化を実現しています。例えば、装置間の冗長プロトコルに
VRRP(ブイアールアールピー)、レイヤ2の冗長プロトコルにスパニングツリー、レイヤ3の
経路冗長にはOSPF(オーエスピーエフ)などを用います。これらは異なるレイヤで自律的
に動作するため、それぞれを組み合わせときの動作が複雑になります。このため、実際
に障害が起きたときに期待通りに動かないことがあります。
ふたつ目は「全体への波及」があります。IPネットワークは、各装置がお互いの経路情報
をやり取りしてネットワーク全体の経路を構成します。どれか1台の装置で障害が起ると、
周囲の装置が自律的に経路の再計算を行います。通常は、時間とともに経路は再構成
されていきますが、特定の装置に再計算処理が集中して復旧時間が長くなることがあり
ます。最悪の場合は、装置の処理能力を超え、ネットワーク全体がメルトダウンしてしまう
可能性もあります。
この冗長システムの複雑化は、IPネットワークをミッションクリティカルシステムに適用す
る際の解決すべき課題であるといえます。
3
Interop Tokyo 2008 ブースセミナー資料
アラクサラの提案する新しいアプローチ
フォールトトレラントネットワーク(FTN)
フォールトトレラントネットワーク(FTN)
装置レベルの耐障害性を高め、システムレベルでは安定化を図る
装置レベルの耐障害性を高め、システムレベルでは安定化を図る
《解決策1》
《解決策1》 フォールト・トレラント・スイッチ
フォールト・トレラント・スイッチ
シン
プル
1台の装置に2台分の機能を実装することで、
装置自身の可用性を高める
《解決策2》
《解決策2》 グレースフル・リスタート
グレースフル・リスタート
障害の影響が他の装置に波及することを防ぎ、
ネットワーク全体を安定化
ネットワークをシンプルにして不安定さを排除
ネットワークをシンプルにして不安定さを排除
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
4
この課題を解決する新しいアプローチとして、アラクサラネットワークスはフォー
ルト・トレラント・ネットワークを提案いたします。そのコンセプトを一言で言うと、装
置レベルの耐障害性を極限まで高め、システムレベルでは安定化を図るというも
のです。
フォールト・トレラント・ネットワークは2つの技術で安定化を図ります。
1つ目は、1台の装置に2台分の機能を搭載したフォールト・トレラント・スイッチで
す。このスイッチを用いることで、図のようにシステムはシンプルに構成できます。
2つ目は、グレースフル・リスタートです。この機能は障害の影響が他の装置に波
及することを防ぎ、ネットワーク全体を安定化できます。
フォールトトレラントネットワークでは、これらを用いることで、システムレベルでの
安定化を図っています。
以下、これら2つの技術について、簡単にご説明いたします。
4
Interop Tokyo 2008 ブースセミナー資料
フォールト・トレラント・スイッチ
装置の可用性を極限まで高めた交換機並のアーキテクチャ
装置の可用性を極限まで高めた交換機並のアーキテクチャ
完全冗長化
AX6700Sのアーキテクチャ
AX6700Sのアーキテクチャ
マイクロ・モジュール
1系
BCU1
マイクロ・モジュール
BCU2
モジュール構成を小さくすることで、
高速かつ安定した切替を実現!!
コントロール部 クロス・コネクション コントロール部
BSU1
1台の装置に2台分の機能を搭載!!
2系
完全冗長化
クロス・コネクション
BSU2
ミラーリング
どのモジュールが壊れても、装置内で
独立した代替パスを保証!!
フォワーディング部
フォワーディング部
NIF1
NIF2
ハードウェア・ミラーリング
・・・
現用・予備でハードウェア状態の一致
をリアルタイムで保証!!
・・・
リンクアグリゲーション
※電源、FANも冗長化
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
5
フォールト・トレラント・スイッチは、交換機なみのアーキテクチャを持った、装置の耐障害性を極限まで高
めたスイッチです。
その特徴として、完全冗長化が挙げられます。1系と2系といったように、1台の装置の中に、完全に独立し
た2台分の機能を搭載することで、装置内部でのシングルポイント・オブ・フェイラーを極限まで排除してい
ます。
2番目の特徴として、マイクロモジュール構成があります。図のような、3階層のモジュール構造にすること
で、装置内部で障害が起きたときの切替単位を小さくでき、高速切替を実現しています。
3番目に、クロス・コネクション機能があります。すべてのモジュールは互いにクロスした交絡(こうらく)パスを
持っており、どのモジュールが壊れても、必ず装置内の代替パスが準備されています。さらに、この交絡
(こうらく)パスは1系と2系で完全に分離しているため、片方の系で起きた障害がもう片方に影響することは
ありません。
最後に、ハードウェア・ミラーリング機能です。ハードウェア・ミラーリング機能とは、クロス・コネクション機能
を用いて、1系と2系のハードウェア状態を、リアルタイムで一致させる機能です。この機能を搭載した
AX6700Sでは、最短50ミリ秒の高速切替を実現しています。これは、SDHなどの伝送装置と同じ水準です。
装置単体の可用性を極限まで高めたフォールト・トレラント・スイッチ、このスイッチを用いれば、障害が発
生しても装置内部で瞬時に切替えて通信を継続できます。これにより、スパニングツリーやVRRPなどの冗
長プロトコルを使う必要がなく、組み合わせの複雑さという問題から開放されます。
5
Interop Tokyo 2008 ブースセミナー資料
グレースフル・リスタート
障害の影響が周りの装置へ波及することを防ぐ
障害の影響が周りの装置へ波及することを防ぐ
従来のダイナミック・ルーティング
グレースフル・リスタート
セッション維持
セッション切断
経路
再計算
経路
再計算
経路
維持
経路再計算
経路
再計算
経路再計算
経路
再計算
経路
維持
障害の影響範囲が全体に波及
(ネットワークの不安定化)
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
経路
維持
リスタート通知
経路
維持
障害の影響範囲を局所化
(ネットワークの安定化)
6
IPネットワークのもうひとつの課題である「全体への波及」を解決する手段として、グレー
スフル・リスタートについてご説明します。
通常のダイナミック・ルーティングは、装置間でお互いの経路情報を交換し、ネットワー
ク全体の経路を構成します。どれか1台の装置で障害が発生すると、その周囲の装置は
情報交換用セッションの切断を検出し、自律的に経路の再計算を行います。このため、
通常のダイナミック・ルーティングでは、障害の影響がシステム全体に波及してしまいま
す。
これに対して、グレースフル・リスタートは、障害が発生しても、周囲の装置はセッション
を維持し続け、経路の再計算を抑止します。そして、障害装置が復旧したあと、ゆっくり
と経路整合性の再チェックを行います。これにより、障害の影響範囲を該当装置のみに
局所化し、ネットワークの安定化を図ることができます。
6
Interop Tokyo 2008 ブースセミナー資料
フォールト・トレラント・ネットワーク
シンプルな構成で安定した耐障害性ネットワーク!!
シンプルな構成で安定した耐障害性ネットワーク!!
経路維持
フォールト・トレラント・スイッチ
グレースフル・リスタート
通信継続
装置内で瞬時に
復旧し通信継続
1系
障害発生
障害の影響を回りの
装置に波及させない
2系
BCU1
BCU2
コントロール部
コントロール部
BSU1
BSU2
フォワーディング部
フォワーディング部
NIF1
NIF2
・・・
・・・
経路維持
経路維持
経路維持
経路維持
経路維持
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
経路維持
障害発生
経路維持
7
以上ご説明してまいりましたように、フォールト・トレラント・ネットワークは、障害の発生時
に、フォールト・トレランス・スイッチによって、装置内で瞬時に復旧し通信を継続します。
さらに、グレースフル・リスタートによって、障害の影響が周囲に波及することを防ぎます。
これによって、シンプルな構成で、安定したネットワークを実現しています。
7
Interop Tokyo 2008 ブースセミナー資料
まとめ
安全・確実なフォールト・トレラント・ネットワーク
安全・確実なフォールト・トレラント・ネットワーク
従来の冗長ネットワーク
複雑
フォールト・トレラント・ネットワーク
安定
複雑でトラブルの多いネットワーク
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
シンプル
装置台数が減るので
低コスト!!
省エネ!! 省スペース!!
シンプルで運用が楽なネットワーク
8
フォールト・トレラント・ネットワークは、従来の冗長ネットワークの課題であった、
プロトコル組み合わせの複雑さによるトラブル、障害の影響が全体に波及すると
いった問題を解決した、安定したネットワークです。
さらに、装置の台数が減るので、保守コストが下がるとともに、省エネ、省スペー
スにも有効です。
8
Interop Tokyo 2008 ブースセミナー資料
Thank You !!
http://www.alaxala.com/
Copyright 2008, All right Reserved, ALAXALA Networks Corp.
9
9