PRIMECLUSTER - ソフトウェア

PRIMECLUSTER
PRIMECLUSTER™
コンセプトガイド 4.1
(Solaris™ オペレーティングシステム /Linux 版 )
Redakteur
Fujitsu Siemens Computers GmbH Paderborn
33094 Paderborn
E メール : Email: [email protected]
電話 : (089) 636-00000
ファックス : (++49) 700 / 372 00001
U42121-J-Z100-3-76
Sprachen: En
2005 年 6 月版
版権および商標
PRIMECLUSTER は、富士通株式会社の商標です。
Sun、Sun Microsystems、Sun ロゴ、Solaris およびすべての Solaris に関連する
商標及びロゴは、米国およびその他の国における米国 Sun Microsystems, Inc. の
商標または 登録商標であり、同社のライセンスを受けて使用しています。
その他各種製品名は、各社の製品名称、商標または登録商標です。
Linux は、Linus Torvalds 氏の米国およびその他の国における登録商標あるいは商標です。
お願い
●本書を無断で他に転載しないようお願いします。
●本書は予告なしに変更されることがあります。
Copyright(C) 2005 富士通株式会社 .
All Rights Reserved.
Copyright (C) 2005 Fujitsu Siemens Computers GmbH.
All Rights Reserved.
目次
1 はじめに ........................................................................................................................................... 1
1.1
1.2
1.3
1.4
1.5
本書の構成 ....................................................................................................................................................... 1
マニュアル ....................................................................................................................................................... 1
本書の表記について ....................................................................................................................................... 2
1.3.1 表記 ....................................................................................................................................................... 2
1.3.1.1 プロンプト ............................................................................................................................ 2
1.3.1.2 マニュアルページのセクション番号 ................................................................................ 3
1.3.1.3 キーボード ............................................................................................................................ 3
1.3.1.4 書体 / 記号 ............................................................................................................................ 3
1.3.1.5 例 1 ......................................................................................................................................... 3
1.3.1.6 例 2 ......................................................................................................................................... 3
1.3.2 コマンド構文 ....................................................................................................................................... 4
表記記号 ........................................................................................................................................................... 4
略称 ................................................................................................................................................................... 4
2 クラスタリングテクノロジーの概要 .......................................................................................... 5
2.1
2.2
2.3
概要 ................................................................................................................................................................... 5
高可用性 (HA) .................................................................................................................................................. 6
2.2.1 クラスタインタコネクト ................................................................................................................... 6
2.2.2 HA マネージャ (RMS) ........................................................................................................................ 6
2.2.2.1 データ整合性の保証 ............................................................................................................ 6
2.2.2.2 ウィザード .......................................................................................................................... 10
拡張性 ( スケーラビリティ ) ....................................................................................................................... 10
3 PRIMECLUSTER のアーキテクチャ ....................................................................................... 13
3.1
3.2
3.3
アーキテクチャの概要 ................................................................................................................................. 13
PRIMECLUSTER 設計理念 .......................................................................................................................... 15
3.2.1 モジュール方式 ................................................................................................................................. 15
3.2.2 プラットフォーム非依存性 ............................................................................................................. 15
3.2.3 拡張性 ( スケーラビリティ ) ........................................................................................................... 15
3.2.4 可用性 ................................................................................................................................................. 15
3.2.5 データの整合性保証 ......................................................................................................................... 16
PRIMECLUSTER のモジュール .................................................................................................................. 16
3.3.1 CF ........................................................................................................................................................ 16
3.3.1.1 OSD ...................................................................................................................................... 17
3.3.1.2 ICF ....................................................................................................................................... 17
3.3.1.3 JOIN ..................................................................................................................................... 17
3.3.1.4 ENS ...................................................................................................................................... 17
3.3.1.5 Cluster Admin ...................................................................................................................... 18
3.3.1.6 Web-Based Admin View ...................................................................................................... 18
3.3.1.7 SNMP ................................................................................................................................... 18
3.3.1.8 PRIMECLUSTER SF .......................................................................................................... 19
3.3.1.9 SCON (Solaris) .................................................................................................................... 25
3.3.2 RMS ..................................................................................................................................................... 27
3.3.2.1 RMS ウィザード ................................................................................................................ 28
3.3.2.2 プロセス監視機構 .............................................................................................................. 28
3.3.3 SIS (Solaris) ......................................................................................................................................... 28
3.3.4 PAS ...................................................................................................................................................... 29
3.3.5 GDS ..................................................................................................................................................... 30
3.3.6 GFS ...................................................................................................................................................... 32
3.3.6.1 GFS ローカルファイルシステム (Solaris) ...................................................................... 32
3.3.6.2 GFS 共用ファイルシステム ............................................................................................. 32
3.3.6.3 メリット .............................................................................................................................. 34
J2UZ-5301-02Z2(A)
目次
3.3.7 GLS ...................................................................................................................................................... 35
3.3.7.1 高速切替方式 ...................................................................................................................... 36
3.3.7.2 NIC 切替方式 ...................................................................................................................... 36
4 クラスタインタコネクトの詳細 ................................................................................................ 37
4.1
4.2
概要 ................................................................................................................................................................. 37
4.1.1 クラスタインタコネクトと通常のネットワークとの違い ......................................................... 37
4.1.2 ネットワークの可用性 ..................................................................................................................... 37
4.1.3 インタコネクトプロトコル ............................................................................................................. 38
クラスタインタコネクトの要件 ................................................................................................................. 38
4.2.1 冗長化 ................................................................................................................................................. 38
4.2.2 経路 ..................................................................................................................................................... 39
4.2.2.1 ハートビート ...................................................................................................................... 39
4.2.3 プロパティ ......................................................................................................................................... 40
4.2.3.1 帯域幅 .................................................................................................................................. 40
4.2.3.2 応答待ち時間 ( レイテンシ ) ............................................................................................ 41
4.2.3.3 信頼性 .................................................................................................................................. 42
4.2.3.4 デバイスインタフェース (Solaris) ................................................................................... 42
4.2.3.5 セキュリティ ...................................................................................................................... 43
5 RMS (Reliant Monitor Services) ................................................................................................. 45
5.1
5.2
5.3
5.4
RMS の概要 .................................................................................................................................................... 45
5.1.1 冗長化 ................................................................................................................................................. 46
5.1.2 アプリケーションの切替え ............................................................................................................. 46
5.1.2.1 自動切替え .......................................................................................................................... 46
5.1.2.2 手動切替え .......................................................................................................................... 47
5.1.2.3 IP エイリアス ..................................................................................................................... 47
5.1.2.4 データの整合性 .................................................................................................................. 47
RMS の監視と切替え .................................................................................................................................... 47
5.2.1 BM ( ベースモニタ ) ......................................................................................................................... 48
5.2.2 構成定義ファイル ............................................................................................................................. 48
5.2.2.1 オブジェクト間の依存関係 .............................................................................................. 48
5.2.2.2 オブジェクトタイプ (Object Type) .................................................................................. 49
5.2.2.3 オブジェクト定義 (Object Definition) .............................................................................. 49
5.2.3 構成スクリプト ................................................................................................................................. 49
5.2.4 ディテクタ ......................................................................................................................................... 51
5.2.5 RMS 環境変数 .................................................................................................................................... 51
RMS の管理 .................................................................................................................................................... 51
カスタマイズオプション ............................................................................................................................. 52
5.4.1 汎用リソースタイプとディテクタ ................................................................................................. 52
6 RMS ウィザード ........................................................................................................................... 53
6.1
6.2
6.3
6.4
RMS ウィザードの概要 ................................................................................................................................ 53
RMS ウィザードのアーキテクチャ ............................................................................................................ 53
RMS Wizard Tools .......................................................................................................................................... 54
6.3.1 共用ディスク装置への対応 ............................................................................................................. 54
RMS Wizard Kit .............................................................................................................................................. 55
7 SIS (Solaris) ................................................................................................................................... 57
7.1
7.2
7.3
SIS の概要 ...................................................................................................................................................... 57
7.1.1 機能 ..................................................................................................................................................... 57
7.1.2 サービス提供ノード (Service Node) ................................................................................................ 58
7.1.3 ゲートウェイノード (Gateway Node) .............................................................................................. 58
7.1.4 プライマリデータベースノード (Primary Database Node) ........................................................... 58
7.1.5 バックアップデータベースノード (Backup Database Node) ........................................................ 58
7.1.6 サテライトノード (Satellite Node) ................................................................................................... 58
SIS クラスタシステムの設計例 .................................................................................................................. 60
VIP 負荷分散アルゴリズム .......................................................................................................................... 61
J2UZ-5301-02Z2(A)
目次
7.4
7.5
7.6
プロキシアドレス (Proxy Address) ............................................................................................................. 61
プライベートアドレス (Private Address) .................................................................................................... 61
バックアップノード ..................................................................................................................................... 61
用語集 .................................................................................................................................................. 63
略語 ...................................................................................................................................................... 79
図 .......................................................................................................................................................... 83
索引 ...................................................................................................................................................... 85
J2UZ-5301-02Z2(A)
目次
J2UZ-5301-02Z2(A)
はじめに
1
本書では、PRIMECLUSTER の各種製品の概要について説明します。PRIMECLUSTER 製品は、高可用性
(HA) と拡張性を保証する、オペレーティングシステムおよびハードウェアプラットフォーム非依存のク
ラスタリングソリューションです。PRIMECLUSTER のモジュール化されたソフトウェアアーキテクチャ
により、クラスタ内の全てのコンピュータ ( ノード ) に導入される基本的なモジュールセット、および特
定のアプリケーションをサポートするオプションモジュールで構成されます。モジュール化されたアー
キテクチャにより多様なユーザに柔軟なクラスタリングソリューションを提供することが可能になりま
す。このソリューションは現在および将来のあらゆるプラットフォームに適応可能です。
本書では、PRIMECLUSTER の全てのコンポーネントについて説明します。ただし、リリースに
よっては利用できないコンポーネントもあります。それぞれのプラットフォームで使用できる機
能については、" 製品添付インストールガイド " を確認してください。
本書はエンドユーザ、システム管理者を対象にしています。本書はクラスタソリューションの基本概念
の説明を目的としたもので、管理方法、構成設定、およびインストールの説明書ではありません ( 詳細
については、1 ページの "1.2 マニュアル " を参照してください )。
1.1
本書の構成
本書は以下の章で構成されています。
● 5 ページの "2 クラスタリングテクノロジーの概要 " では、PRIMECLUSTER の主なコンポーネン
トなどのクラスタリングの概念とメリットについて説明します。
● 13 ページの "3 PRIMECLUSTER のアーキテクチャ " では、PRIMECLUSTER のアーキテクチャお
よび主な機能について説明します。
● 37 ページの "4 クラスタインタコネクトの詳細 " では、クラスタインタコネクトの概要、要件、設
計上の検討事項について説明します。
● 45 ページの "5 RMS (Reliant Monitor Services)" では、RMS の基本的な概念、コンポーネント、メ
リットについて説明します。
● 53 ページの "6 RMS ウィザード " では、RMS ウィザードを構成する RMS Wizard Tools と RMS
Wizard Kit について説明します。
● 57 ページの "7 SIS (Solaris)" では、Scalable Internet Services (SIS) の基本的な概念とコンポーネント
について説明します。
1.2
マニュアル
このセクションで紹介するマニュアルには、PRIMECLUSTER に関する情報が記載されています。
PRIMECLUSTER には本書以外に以下のマニュアルがあります。
● "PRIMECLUSTER Cluster Foundation 導入運用手引書 (Solaris™ オペレーティングシステム版 )"
— Solaris 版の PRIMECLUSTER CF の構成設定および管理方法について説明しています。
● "PRIMECLUSTER Cluster Foundation 導入運用手引書 4.1 (Linux 版 )" — Linux 版の PRIMECLUSTER
CF の構成設定および管理方法について説明しています。
● "PRIMECLUSTER RMS 導入運用手引書 4.1 (Solaris™ オペレーティングシステム /Linux 版 )"
— PRIMECLUSTER Wizard Tools を使用して、RMS を構成および管理する手順について説明して
います。
● "PRIMECLUSTER Global Disk Services 説明書 (Solaris™ オペレーティングシステム版 )"
— Solaris 版 GDS の構成設定および管理について説明しています。
J2UZ-5301-02Z2(A)
1
本書の表記について
はじめに
● "PRIMECLUSTER Global Disk Services 説明書 4.1 (Linux 版 )" — Linux 版 GDS の構成設定および管
理について説明しています。
● "PRIMECLUSTER Global File Services 説明書 (Solaris™ オペレーティングシステム版 )"
— Solaris 版 GFS の構成設定および管理について説明しています。
● "PRIMECLUSTER Global File Services 説明書 4.1 (Linux 版 )" — Linux 版の GFS 構成設定および管
理について説明しています。
● "PRIMECLUSTER Global Link Services 説明書 ( 伝送路二重化機能編 ) (Solaris™ オペレーティングシ
ステム版 )" — Solaris 版 GLS 伝送路二重化機能の構成設定および管理について説明しています。
● "PRIMECLUSTER Global Link Services 説明書 4.1 ( 伝送路二重化機能編 ) (Linux 版 )" — Linux 版
GLS 伝送路二重化機能の構成設定および管理について説明しています。
● "PRIMECLUSTER Global Link Services 説明書 ( マルチパス機能編 ) (Solaris™ オペレーティングシ
ステム版 )" — Solaris 版 GLS マルチパス機能の構成設定および管理について説明しています。
● "PRIMECLUSTER Web-Based Admin View操作手引書 (Solaris/Linux)" — PRIMECLUSTER サービス
の運用管理 GUIを使用するための共通基盤として動作する Web-Based Admin View について説明し
ています。
● "PRIMECLUSTER 導入運用手引書 4.1" — PRIMECLUSTER システムの導入から運用管理までの一
連の流れ、および操作について説明しています。
● " 製品添付インストールガイド (Solaris™ オペレーティングシステム版 )" — このドキュメントは、
PRIMECLUSTER (Solaris™ オペレーティングシステム版 ) のインストール、構成設定、および操
作に関する最新情報が記載されています。
● " 製品添付インストールガイド (Linux 版 )" — このドキュメントは、PRIMECLUSTER (Linux 版 )
のインストール、構成設定、および操作に関する最新情報が記載されています。
● RMS ウィザードマニュアルパッケージ — PRIMECLUSTER CD に収録されています。このマニュ
アルパッケージに含まれるドキュメントでは、切替えファイルシステムの設定方法や、切替え IP
アドレスの設定方法、その他さまざまなウィザードによる設定方法について詳しく説明していま
す。
以降、マニュアル名の "PRIMECLUSTER" を省略して記述する場合があります。
1.3
本書の表記について
表現を標準化するため、このマニュアルにはいくつかの表記上、印刷上、構文上の規則があります。
1.3.1
表記
以下の表記規則があります。
1.3.1.1 プロンプト
実行にシステム管理者 ( ルート ) 権限が必要なコマンドライン例の場合、先頭にシステム管理者プロンプ
トを示すハッシュ記号 (#) が付いています。いくつかの例で、node# という表記は、指定されたノード
の root プロンプトを表しています。たとえば、コマンド名の前に fuji2# が記述されていると、そのコ
マンドが fuji2 という名前のノード上で、root ユーザとして実行されたことを示しています。システ
ム管理者権限を必要としないエントリの場合、先頭にドル記号 ($) が付いています。
2
J2UZ-5301-02Z2(A)
はじめに
本書の表記について
1.3.1.2 マニュアルページのセクション番号
オペレーティングシステムコマンドの後ろにマニュアルページのセクション番号が括弧付きで示されて
います。
例 : cp(1)
1.3.1.3 キーボード
印字されない文字のキーストロークは< Enter >や< F1 >などのキーアイコンで表示されます。たとえ
ば、< Enter >は Enter というラベルの付いたキーを押すことを意味し、< Ctrl > + < B >は Ctrl また
は Control というラベルの付いたキーを押しながら< B >キーを押すことを意味します。
1.3.1.4 書体 / 記号
以下の書体は特定要素の強調に使用されます。
書体
使用方法
固定幅
コンピュータ出力、およびプログラムリスト : テキスト本文中のコマンド、ファイ
ル名、マニュアルページ名、他のリテラルプログラミング項目
斜体
具体的な数値に置き換える必要のある変数。具体的な数値に置き換える必要のある
コマンド行の変数。隣接する文字列と区別するためかぎ括弧で括られて表記される
場合がありますが ( 例 : <nodename>RMS)、特に指定のない限り、かぎ括弧は入力対
象ではありません。
CUI または GUI 内の項目名。
太字
記述どおりに入力する必要のあるコマンドライン項目
" 均等幅 "
参照先のタイトル名、マニュアル名、画面名等
[ 均等幅 ]
ツールバー名、メニュー名、コマンド名、アイコン名
<均等幅>
ボタン名
書体規則の例を以下に示します。
1.3.1.5 例 1
以下に /etc/passwd ファイルのエントリの一部を示します。
root:x:0:1:0000-Admin(0000):/:/sbin/ksh
sysadm:x:0:0:System Admin.:/usr/admin:/usr/sbin/sysadm
setup:x:0:0:System Setup:/usr/admin:/usr/sbin/setup
daemon:x:1:1:0000-Admin(0000):/:
1.3.1.6 例 2
cat(1) コマンドでファイルの内容を表示するには、以下のコマンドラインを入力します。
$ cat <ファイル名>
J2UZ-5301-02Z2(A)
3
表記記号
1.3.2
はじめに
コマンド構文
コマンド構文には以下の規則があります。
記号
[]
名前
意味
角括弧
オプション項目を囲む。
{}
波括弧
択一選択の複数選択肢を囲む。各項目は縦線 (|) で区切られる。
|
縦線
波括弧で囲まれている場合は、択一選択の各選択肢の区切り。波括弧で囲ま
れていない場合は、1 つのプログラムの出力が他のプログラムの入力にパイ
プされることを示すリテラル要素。
()
丸括弧
繰り返しの際にグループ化される項目を囲む。
...
省略符号
項目の繰り返しを示す。1 グループの項目を繰り返す場合には、項目グルー
プを丸括弧で囲む。
1.4
表記記号
特に注意すべき事項の前には以下の記号が付いています。
説明されている内容に関する重要な情報が記述されていることを示します。
データが破損する可能性のある状態を示します。
1.5
略称
参照する Solaris™ オペレーティングシステム ( 以降、Solaris) のマニュアル名称で "Solaris X" と書かれて
いる部分は、Solaris™ 8 オペレーティングシステム ( 以降、Solaris 8)、または Solaris™ 9 オペレーティン
グシステム ( 以降、Solaris 9) と読み替えてマニュアルを参照してください。
4
J2UZ-5301-02Z2(A)
クラスタリングテクノロジーの概要
2
本章では、PRIMECLUSTER の主なコンポーネントを含むクラスタリングテクノロジーの基本概念とメ
リットについて説明します。
本章で説明する内容は以下のとおりです。
● 5 ページの "2.1 概要 " では、クラスタリングテクノロジーの概念について説明します。
● 6 ページの "2.2 高可用性 (HA)" では、PRIMECLUSTER の高可用性機能について説明します。
● 10 ページの "2.3 拡張性 ( スケーラビリティ )" では、PRIMECLUSTER の拡張性におけるメリット
について説明します。
2.1
概要
一般にクラスタとは、以下の機能を提供するコンピュータ、またはコンピュータのパーティション ( この
単位をノードと呼びます ) の結合体を意味します。
● 高可用性 (HA) — クラスタを構成する各コンポーネントの冗長化により実現する。
● 拡張性 — アプリケーションリソースを複数個動作させることにより実現する。
本書では、PRIMECLUSTER ソフトウェア製品群により実現する、高可用性および拡張性を保証するクラ
スタシステムを中心に説明します。管理用クラスタシステムや R&D 向け並列計算用クラスタなどの、他
の種類のクラスタシステムについては本書の説明対象外です。図 1 は、一般的な 2 ノードクラスタシス
テムを示しています。
クラスタ
コンソール
ノード 1
冗長クラスタインタコネクト
ノード 2
冗長 SAN
共用ディスク装置
図 1: 一般的な 2 ノードクラスタシステム
J2UZ-5301-02Z2(A)
5
高可用性 (HA)
2.2
クラスタリングテクノロジーの概要
高可用性 (HA)
HA クラスタは冗長化されたコンポーネントにより、各種の障害に対して対応することができます。多く
の HA クラスタは、共用記憶装置環境を採用 / 必須としています。しかし、PRIMECLUSTER は共有アク
セス Storage Area Network (SAN) によるクラスタノードから記憶装置への接続機能をサポートしています
が、共用記憶装置は PRIMECLUSTER による HA クラスタの必須機能ではありません。PRIMECLUSTER
を構成する各ノードは同じクラスタの他のノードとクラスタインタコネクトを利用して定周期間隔で通
信を行いその応答を確認することにより、各ノードが稼動中かどうかを監視します。この定周期間隔の
通信をハートビートと呼びます。
2.2.1
クラスタインタコネクト
クラスタインタコネクトとは PRIMECLUSTER がノード間の通信処理に使用する専用のネットワーク接
続であり、クラスタシステムのもっとも基本的な構成要素です。クラスタインタコネクトの故障による
クラスタ全停止を防ぐために、クラスタインタコネクトの冗長化をぜひお勧めします。
クラスタインタコネクトは、ハートビート要求の他、各種のイベント通知、プロセス間通信、クラスタ
ファイルアクセスなどのノード間のメッセージを伝送します。詳細は、本マニュアルの 37 ページの "4
クラスタインタコネクトの詳細 " で説明します。
2.2.2
HA マネージャ (RMS)
PRIMECLUSTER のクラスタシステムを構成する各ノード間のハートビートを行うことで、ノードが正常
に動作しているかどうか、およびクラスタ内のクラスタインタコネクトを利用した通信機能が正常であ
るかどうかを判断します。しかし、ユーザの業務や SAN のホストアダプタの動作状態はクラスタインタ
コネクトを利用したハートビートでは判断できません。PRIMECLUSTER が提供するディテクタと呼ばれ
る監視プログラムは、ユーザ業務が動作するための各種コンポーネントおよび、ユーザ業務が使用する
リ ソ ー ス の 状 態 を 監 視 し ま す。各 種 リ ソ ー ス や ユ ー ザ 業 務 の 障 害 を デ ィ テ ク タ が 検 出 す る と、
PRIMECLUSTER の HA マネージャである Reliant Monitor Services (RMS) に通知されます。
2.2.2.1 データ整合性の保証
RMS は以下の処理により、ユーザ資産であるデータ整合性を保証します。
● ユーザ業務および各種リソースの監視
● ユーザ業務を同時に複数実行させないこと
● 全てのクラスタノードの状態を確認した上でユーザ業務を自動起動する (RMS 環境変数の設定に
より、制御されている場合は除く )
以下に、データ整合性を保証するための機能や処理の内容について説明します。
ユーザ業務の監視
RMS はアプリケーション固有のルールおよびクラスタ構成で設定されます。RMS の構成情報は、ユーザ
が定義するユーザ業務固有の定義と、動作するクラスタ環境の情報で構成されます。ディテクタが障害
を検出すると、RMS は定義に従い適切な処置をとり、ユーザ業務を続行させるために必要なリソースの
リカバリを行います。リカバリ処理はユーザ業務、およびおのおののリソースごとに定義することがで
きます。
RMS には以下のリカバリ処理があります。
● ローカルリカバリ — ユーザ業務を他のノードに切替えずに、現在のノードで再度 Online に戻す
リカバリ処理
● リモートリカバリ — ユーザ業務を他のノードに切替える ( フェイルオーバ )
6
J2UZ-5301-02Z2(A)
クラスタリングテクノロジーの概要
高可用性 (HA)
クラスタパーティションに対する処理
クラスタパーティションとはクラスタインタコネクトの障害により起こりうる現象のことです。クラス
タの一部または全てのノードは処理を続行できますが、クラスタノードの一部のノードの通信は停止し
た状態を示します。この状態はスプリットブレイン状態とも呼ばれます。この状態をできるだけ回避す
るためにもクラスタインタコネクトの冗長化が必要になります。
図 2 は、クラスタインタコネクトの 2 箇所の切断によりノード 1 とノード 2 の通信が停止した場合の例
を示しています。2 つのノードはまだ SAN にアクセスすることができるため、各ノード上で独立してリ
カバリ処理を行うとユーザ業務がクラスタの 2 つのノードで互いに認識されないまま実行される可能性
があります。この状態で互いに連携されていないユーザ業務が個別にデータを更新すると、共用ディス
ク装置上のユーザ資産を破損する危険性が生じることになります。
クラスタパーティション :
両方のインタコネクトに障害が発生
している
クラスタ
コンソール
ノード 1
冗長クラスタインタコネクト
ノード 2
冗長 SAN
共用ディスク装置
図 2: 2 ノードクラスタのクラスタパーティション
ハートビートによる相手ノードとの通信が行えない場合、各ノードは相手の状態が確認できないノード
に LEFTCLUSTER 状態を設定します。LEFTCLUSTER 状態とは、動作中 (UP) と停止中 (DOWN) の中間の
状態で、ノードがクラスタシステムから外れていて、現在の状態が動作しているのか、それとも停止し
ているのか不明であることを意味します。各ノードがリカバリ処理を開始する前に、クラスタシステム
は各ノードの状態を確認し、整合性が保てることを確認しなければなりません。この確認を行わない場
合は前述のとおりユーザ資産を破壊する可能性があるからです。この整合性の保たれている状態を
PRIMECLUSTER のマニュアルではクラスタ整合状態 ( クォーラム ) と定義します。
PRIMECLUSTER のマニュアルでは「クラスタ整合状態」と「クォーラム」とは同じ意味です。クラスタ
整合状態とは、クラスタの全てのノードが動作中 (UP) または 停止中 (DOWN) のいずれかの状態で、動作
中の UP ノードが他の全ての UP 状態のノードと通信可能な状態である場合に設定されます。クラスタ内
で定義されているユーザ業務は、共用ディスク装置上のデータの変更を伴う処理を開始する前にクラス
タがクラスタ整合状態になっていることを確認する必要があります。RMS はクラスタシステム内のユー
ザ業務起動前に、クラスタシステムがクラスタ整合状態になっていることを確認してから動作します。
PRIMECLUSTER は、クラスタシステムを構成するノードのアーキテクチャに応じた方法で、クラスタ
ノードの強制停止を行います。PRIMECLUSTER はノードが LEFTCLUSTER 状態であると判断すると、
ノードを強制停止してユーザ業務のリカバリ処理 ( ローカルリカバリあるいはリモートリカバリ ( フェイ
ルオーバ )) を行い、データの整合性を保証します。
J2UZ-5301-02Z2(A)
7
高可用性 (HA)
クラスタリングテクノロジーの概要
クォーラムという用語の意味は、クラスタパーティションの処理を説明する文書にはさまざまな
意味に用いられています。通常は、クラスタシステムを構成するノードが n 個存在した場合、互
いに (n + 1)/2 個のノードが参照できればクォーラムであり、クォーラムでないノードは I/O 処理
を行うことができません。PRIMECLUSTER ではクォーラムの意味が上記の意味と異なるため、
「ク
ラスタ整合状態」という言葉を採用しています。
クラスタ整合性モニタ (CIM)
PRIMECLUSTER はクラスタ整合性モニタ (CIM) により、ユーザ業務がクラスタの複数ノードで共用さ
れている資源を使った処理を、処理の競合をおこすことなく安全に処理することができるかどうかを判
断します。つまり、処理を行うノードが、クラスタ整合状態であるクラスタシステムのメンバである場
合、共用リソースを安全に使用することができることになります。
PRIMECLUSTER システムにおける整合状態は、CIM が監視するクラスタシステムの全てのノードが動
作中 (UP) または停止中 (DOWN) のいずれかの状態、かつ安全な状態である場合に設定されます。CIM が
監視するノードは、CIM 構成時に設定されたノード全てです。CIM はクラスタの状態を調べる場合、こ
れらのノードのみを対象とします。
CIM は他のノードが安全である場合、クラスタ整合状態であると判断します。
クラスタを構成するノードの状態を調べる方式は CIM 方式と呼ばれます。CIM は複数の異なる CIM 方
式を使用することができます。PRIMECLUSTER では以下の方式が使用可能です。
● NSM — ノード状態モニタ (NSM) はノードの状態を定周期で監視し、現在および過去のクラスタ
ノードのノード状態を管理します。この方法は NULL 方式またはデフォルト CIM 方式とも呼ばれ
ます。NSM は PRIMECLUSTER CF に組込まれています。
● RCI — RCI (Remote Cabinet Interface) は、Solaris システム上でシステム間の状態通知やシステム制
御を非同期で行う PRIMEPOWER 専用制御機構です ( 詳細については、"Cluster Foundation 導入運
用手引書 4.1 (Solaris 版 )" を参照してください )。
● MMB — MMB (Management Board) は、Linux システム上でシステム間の状態通知やシステム制御
を非同期で行う PRIMEQUEST 専用制御機構です ( 詳細については、"Cluster Foundation 導入運用
手引書 4.1 (Linux 版 )" を参照してください )。
PRIMECLUSTER は、複数の CIM 方式を登録して使用することができます。
複数の CIM 方式が登録されている場合は、優先度の高い方式でノードの状態が判断できない場合にのみ
優先度の低い方式を使用して確認します。例として、CIM 方式として RCI と NSM が登録され、RCI の
方が優先度が高い場合は、CIM は、RCI を使用した CIM 方式で確認を行います。
対象が PRIMEPOWER ノードまたは PRIMEPOWER パーティションであれば、RCI CIM 方式が UP また
は DOWN を返して処理は終了します。一方、RCI 方式によりチェックされるノードが RCI に接続されて
いない、または RCI が故障していた場合は、RCI 方式は失敗するため、CIM は NSM による CIM 方式を
使用してノード状態を調べます。
PRIMEQUEST ノードでは、CIM 方式として MMB と NSM が使用され、MMB の方が優先度が高い場合
は、CIM は、MMB を使用した CIM 方式で確認を行い、MMB CIM 方式が UP または DOWN を返して処
理は終了します。MMB 方式によりチェックされるノードが MMB に接続されていない、または MMB が
故障していた場合は、MMB 方式は失敗するため、CIM は NSM による CIM 方式を使用してノード状態
を調べます。
CIM は対象ノードに関して、クラスタ整合状態である (TRUE)、またはクラスタ整合状態でない (FALSE)
のいずれかのノード状態を通知します。TRUE と FALSE の定義は以下のとおりです。
● TRUE — 全ての CIM ノードにとって、UP、または DOWN の状態が既知の状態
● FALSE — 全ての CIM ノードにとって、UP、または DOWN の状態が不明な状態
8
J2UZ-5301-02Z2(A)
クラスタリングテクノロジーの概要
高可用性 (HA)
シャットダウン機構 (PRIMECLUSTER SF)
CIM は、クラスタ整合状態である場合にユーザ業務に対して動作することを許可しますが、クラスタ整
合状態でない場合はこれを解決するような処理を行いません。高可用性要件ではクラスタ整合状態を保
証するために複数の方式が使用されます。しかし、ノード間の協調を必要とせず、かつ完全に効果のあ
る方法は 1 つだけです。PRIMECLUSTER では、クラスタ整合状態を妨げるような問題が発生した場合
は、シャットダウン機構 (SF) を使用して、クラスタ整合状態に戻します。図 2 のクラスタパーティショ
ンの例では、2 つのノードは互いに相手ノードに対して LEFTCLUSTER を通知した結果、CIM は FALSE
と判断します。PRIMECLUSTER は、クラスタシステムをクラスタ整合状態にするため、SF は強制的に
相手ノードを停止することで、生存ノードを 1 つにして競合の発生しない安全な状態にします。
SF の設定により、PRIMECLUSTER は異常となったノードを強制停止することができます。SF はノード
を強制停止するような要求を受けると、ノードを強制停止を行い、成功した場合にノードの状態は
LEFTCLUSTER から DOWN に変化します。
状態を LEFTCLUSTER から DOWN に変更すると PRIMECLUSTERは各種、リカバリ処理を開始します。ノー
ドの強制停止の方法は、システムによって異なります。たとえば、Solarisでは有効なシャットダウンエー
ジェントが、Linux では使用できないことがあります。
システムに登録されている全ての方式を実行しても要求したノードの強制停止成功の応答が得られない
場合、処理はそこで停止します。この場合、クラスタはクラスタ整合状態ではない状態のままなので、
オペレータによる操作が必要になります。
このフェイルセイフ方式により、誤ってクラスタパーティションに分割されたクラスタシステムの 2 箇
所でユーザ業務を実行し、その競合によりユーザデータが破壊されることを防ぐことができます。また、
システム負荷 (System Load) が著しく高いことなどが原因で、ノードがハートビートに対する応答に失敗
し、後から復活するという状況でも、ユーザ資産は競合から保護されます。
PRIMECLUSTER はハードウェア固有のさまざまな方法で、Solaris または Linux が稼動するノード
をリセットするように定義することができます。PRIMECLUSTER は RCI の使用、コンソール装
置に対する BREAK 信号送信、RSB の使用または MMB の使用でノードの強制停止が可能です。
非同期監視 (Monitoring Agent)
PRIMEPOWER ハードウェアは、シャットダウン機構で説明した RCI (Remote Cabinet Interface) を備えて
おり、PRIMEQUEST ハードウェアは、シャットダウン機構で説明した MMB (Management Board) を備え
ています。RCI / MMB には、システムの停止機能以外に、システムの状態を調べる機能があり、ノード
にパニックが発生したり、ノードがシャットダウンさせられたりした場合には直ちにそれを検出するこ
とができます。
PRIMECLUSTER は、これらのハードウェアの機能を使用してシステム状態の変化をすばやく検出し、ク
ラスタを構成するノードに通知します。PRIMECLUSTER のこの監視機能を非同期監視 (Monitoring Agent)
といいます。非同期監視を使用しない場合、ノードのパニックを検出する機能はクラスタのハートビー
トタイムアウトのみであるため、デフォルトのハートビート間隔の設定では検出に 10 秒が必要です。非
同期監視を使用した場合、ノードのパニックを即時に検出することができます。非同期監視テクノロジー
により、PRIMECLUSTER は監視対象ノードの障害からすばやく復旧することができます。非同期監視
は、シャットダウン機構のプラグインとして実装されています。
J2UZ-5301-02Z2(A)
9
拡張性 ( スケーラビリティ )
クラスタリングテクノロジーの概要
ノードに異常が発生した場合、PRIMECLUSTER は以下の処理を行います。
● ノード異常の検出
● 異常となった障害の通知
● ノード状態の確認
● ノードの強制停止
MA はノード異常を検出すると、ただちに SF に通知します。SF は、MA による障害通知が本当に正しい
かどうかを判断するために、ノード状態に関する冗長確認を行います。この検証処理は、正常に動作し
ているノードが誤って停止されないようにするために行われます。
SF は、以下のようにしてノードの状態を確認します。
● 全ての登録済み MA から再度ノードの状態情報を採取する。
● CF ハートビート要求への応答があったかどうかを確認する。
全ての MA から SF に対してノード障害の通知があり、CF から SF に対して、ハートビート要求への応
答がなかった旨の通知があった場合は、SF は MA に対して障害の発生したノードの強制停止を要求しま
す。ノードの強制停止が完了すると、他方のノードは DOWN の状態になります。
2.2.2.2 ウィザード
ユーザ業務を適切にリカバリするには、ユーザ業務の正常な動作に必要なリソースをあらかじめ RMS に
定義し、その状態を通知しておかなければなりません。リソース構成およびリソース間の関係はきわめ
て複雑になる場合があります。RMS Wizard Tools および RMS Wizard Kit は、これらの情報を RMS に指
定するための構成定義を行います。また、userApplication Configuration Wizard を用いることでこれらを
GUI により構成することができます。RMS Wizard Tools は、クラスタや一般的なアプリケーションサー
ビスに関係する一般的な情報を設定します。
RMS Wizard Kit の可用性についての詳細は、当社技術員 (SE) にお問い合わせください。
2.3
拡張性 ( スケーラビリティ )
高い拡張性も PRIMECLUSTER の特長の 1 つです。PRIMECLUSTER の拡張性は、クラスタの処理能力の
拡張によって実現されます。拡張性が重要なユーザ業務の形態は、基本的に以下の 2 種類のタイプがあ
ります。
● クラスタソフトウェアと密接に連携した分散環境向け
● クラスタを意識しないもの
クラスタソフトウェアと連携するケース
クラスタソフトウェアと連携する拡張性のあるアプリケーションの一例として、Oracle 9iRAC がありま
す。Oracle 9iRAC はクラスタシステム上の一部または全てのノード上で、データベースサーバの Oracle
インスタンスを起動します。また、Oracle 9iRAC は、PAS (Parallel Application Services) との連携により、
異なるノード上の Oracle インスタンス間のメッセージ送信機能を提供します。
10
J2UZ-5301-02Z2(A)
クラスタリングテクノロジーの概要
拡張性 ( スケーラビリティ )
クラスタを意識しないもの
クラスタ環境を意識せずに動作することができるようなユーザ業務は、複数ノードで同時に動作させるこ
とができます。とりわけ、1 台のコンピュータ上で複数ユーザがアプリケーションを実行するような場合
は、Scalable Internet Services (SIS) および Global File Services (GFS) の機能によりクラスタノード間負荷分散
効果が増大します。SIS の詳細については本マニュアルの 57 ページの "7 SIS (Solaris)" を、GFS の詳細に
ついては本マニュアルの 16 ページの "3.3 PRIMECLUSTER のモジュール " および "Global File Services 説
明書 4.1 (Linux 版 )" を参照してください。
J2UZ-5301-02Z2(A)
11
拡張性 ( スケーラビリティ )
12
クラスタリングテクノロジーの概要
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
3
本章では、PRIMECLUSTER のアーキテクチャおよび主な機能について説明します。
本章で説明する内容は以下のとおりです。
● 13 ページの "3.1 アーキテクチャの概要 " では、基本的な PRIMECLUSTER コンポーネントおよび
クラスタリング環境でのコンポーネントの機能について説明します。
● 15 ページの "3.2 PRIMECLUSTER 設計理念 " では、オペレーティングシステムおよびプラット
フォームの独立性、拡張性、可用性、データの整合性保証など、PRIMECLUSTER 設計の理念につ
いて説明します。
● 16 ページの "3.3 PRIMECLUSTER のモジュール " では、Cluster Foundation (CF)、Reliant Monitor
Services (RMS)、Web-Based Admin View グラフィカルユーザインターフェース (GUI)、およびオプ
ションの PRIMECLUSTER サービスについて説明します。
3.1
アーキテクチャの概要
PRIMECLUSTER は、高可用性 (HA) を実現するソフトウェアやハードウェアを構築してきた実績に基づ
いて設計されています。PRIMECLUSTER はこのソリューションとして以下の特徴があります。
● 新しいハードウェアプラットフォーム、オペレーティングシステム、およびクラスタインターコ
ネクトへの容易な移植性
● クラスタシステムを使用 / 管理するために視覚的、感覚的に理解しやすい操作方法
● 他のアプリケーションが PRIMECLUSTER との通信機能や、PRIMECLUSTER の機能を利用するた
めのインタフェースの提供
エンタープライズマネージメント
アプリケーション
PRIMECLUSTER
PRIMECLUSTER の
サービス
PRIMECLUSTER の
サービス
PRIMECLUSTER の
サービス
クラスタ
マネージャ
CF
OS
サーバ
OS
OS
サーバ
...
サーバ
クラスタのインタコネクト
ディスク
ディスク
...
ディスク
Storage Area Network
図 3: 一般的な PRIMECLUSTER の設定図
J2UZ-5301-02Z2(A)
13
アーキテクチャの概要
PRIMECLUSTER のアーキテクチャ
図 4 は、
PRIMECLUSTER ソフトウェアのアーキテクチャおよび PRIMECLUSTER とオペレーティングシ
ステム本体とのインタフェースの概念を示しています。PRIMECLUSTER の全てのモジュールは、OS 依
存層 (OS Dependent。以降、OSD 層と呼ぶ ) に対して、OS 非依存型インタフェースを使用して、モジュー
ル間の通信や基本オペレーティングシステムのサービスへのアクセスを行います。OSD 層には以下の機
能があります。
● メモリアロケーション
● シンクロナイゼーション
● デバイスおよびネットワークアクセス
管理および
構成設定
高可用性
マネージャ
アプリケーション
OS 非依存型ユーザインタフェース
OS 依存型ユーザインタフェース
アプリケーションレベル
カーネルレベル
システムコールインタフェース
OSD システム I/F
プラットフォーム
オペレーティング
システム
PRIMECLUSTER の基本モジュール
および
オプションモジュール
OSD ネットワーク I/F
ネットワーク I/O システム
インタコネクトハードウェア
図 4: PRIMECLUSTER フレームワークの概要
14
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
3.2
PRIMECLUSTER 設計理念
PRIMECLUSTER 設計理念
PRIMECLUSTER クラスタリングソフトウェアは以下を目標に設計されています。
● モジュール方式
● プラットフォーム非依存性
● 拡張性 ( スケーラビリティ )
● 可用性
● データの整合性保証
3.2.1
モジュール方式
PRIMECLUSTER は、基本的なクラスタリング機能を提供する、Cluster Foundation (CF) と呼ばれるモ
ジュールを中心とした集合体で構成されます。PRIMECLUSTER には Parallel Application Services (PAS) モ
ジュール、Scalable Internet Services (SIS) モジュール、および Reliant Monitor Services (RMS) モジュールな
ど、さまざまなモジュールで機能を拡張することが可能です。
3.2.2
プラットフォーム非依存性
PRIMECLUSTER のアーキテクチャはオペレーティングシステムやハードウェアプラットフォームに依
存しません。PRIMECLUSTER のモジュールは、オペレーティングシステムのカーネル機構の抽象化に基
づいて設計およびコーディングされています。これはオペレーティングシステムやネットワークインタ
コネクトの種類によって固有の OSD 層で処理されます。この方式により、オペレーティングシステムを
変更することなしに、PRIMECLUSTER をサポート対象上に実装することができます。これにより、ユー
ザニーズに合わせたプラットフォームに展開することができます。
3.2.3
拡張性 ( スケーラビリティ )
PRIMECLUSTER 製品は高可用性に加えて拡張性も備えています。PRIMECLUSTER は、共通のサービス
を提供するために、複数のノードを連携して動作させることができます。たとえば SIS では、WWW サー
ビスに対するアクセスを、クラスタの全ノードへ分散させることができます。PAS では、データベース
を複数のノードにわたって並列に動作させることができます。GFS では、多数のノード上の連携プロセ
スが同一のデータにアクセスできるようクラスタ規模のファイルシステムを実現しています。
リソース ( 特に CPU) に対するアプリケーションの要求が、単一マシンの能力を超えてしまっている場合
には、PRIMECLUSTER の拡張性が大きな意味を持ちます。ノードをクラスタ化することによって、この
ようなアプリケーションに対してより大きな処理能力を提供することができます。
3.2.4
可用性
PRIMECLUSTER では、全てのクラスタ情報をノード間で完全に複製して、ソフトウェアの一点故障を回
避します。また、冗長化された複数のクラスタインタコネクトにより、ハードウェアの一点故障 (Single
Point of Failure) も回避することができます。また、PRIMECLUSTER の HA マネージャである RMS によ
り、ノード障害の発生時に、ユーザ業務をフェイルオーバさせることができるので、業務の可用性を保
証します。さらに、PRIMECLUSTER には、ネットークの可用性を向上させるオプションのネットワーク
負荷分散モジュール (SIS、GLS) も存在します。
J2UZ-5301-02Z2(A)
15
PRIMECLUSTER のモジュール
3.2.5
PRIMECLUSTER のアーキテクチャ
データの整合性保証
PRIMECLUSTER のアルゴリズムは、クラスタパーティション ( またはスプリットブレイン状態 ) 発生時
においても、また、複数のハードウェアインタコネクトに障害が発生してもデータの不整合を起さない
ように設計されています。クラスタ整合状態 ( クォーラム ) を利用したアルゴリズムは、クラスタパー
ティションにより分断されているクラスタシステムの一部のみ動作させます。
3.3
PRIMECLUSTER のモジュール
PRIMECLUSTER のコアコンポーネントである Cluster Foundation (CF) は、全てのコンポーネントの基礎
となるクラスタの機能を提供します。CF の構成は以下のとおりです。
● Cluster Admin — クラスタの管理、構成、監視、および診断サービスのインタフェースを提供します。
● Web-Based Admin View — PRIMECLUSTERの全てのGUIが稼動するフレームワークを提供します。
● PRIMECLUSTER Simple Network Management Protocol (SNMP) — PRIMECLUSTER モジュールの状
態や構成に関する情報や統計を収集およびレポートする機能を提供します。
上記コンポーネントを基盤として、PRIMECLUSTER の機能を強化するオプションコンポーネントと製品
群を以下に示します。
● Reliant Monitor Services (RMS) — ユーザ業務の各種プロセスおよび各種リソースの高可用性のた
め、ユーザ業務のフェイルオーバを制御します。さらに、RMS ウィザードにより RMS の容易な
設定を可能にします。
● RMS ウィザード — RMS の構成が行えます。
● RMS Wizard Kit — ユーザ固有の業務に応じて RMS を構成します。
● Parallel Application Services (PAS) — 並列データベースソフトウェアに対する高性能かつ高速な通
信機能を提供します。
● Global Disk Services (GDS) — ディスク装置に格納されているデータの可用性と運用管理性を向上
させるボリューム管理機能を提供します。
● Global File Services (GFS) — 共用ディスク装置に接続している複数ノードによるアクセス機能を備
えたファイルシステムを提供します。
● Global Link Services (GLS) — 複数のネットワークインタフェースカード (NIC) を使った冗長化パ
スを構築することにより信頼性の高い通信機能を可能にします。
3.3.1
CF
CF は、他の全ての PRIMECLUSTER モジュール / コンポーネントが使用する OSD 層などの基盤機能を提
供します。
CF には以下の特徴があります。
● システム起動時に自動的にロードされる、ロード可能な擬似デバイスドライバの装備
● OSD および汎用モジュールを含む CF ドライバ
次に CF の機能について説明します。
16
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
PRIMECLUSTER のモジュール
3.3.1.1 OSD
CF の OSD 層モジュールは、OS と全ての PRIMECLUSTER モジュールが依存する抽象化された OS 非依
存部との間を橋渡しするインタフェースを提供します。このため、PRIMECLUSTER がサポートする OS
とアーキテクチャにおけるソースファイルは同一となります。この設計理念は、以下の 2 つのメリット
のために採用しています。
● ソース保守管理情報の一本化による万全なユーザ支援体制
● 新しい OS やアーキテクチャへの移植が容易なため市場ニーズへ迅速に対応できる
3.3.1.2 ICF
ICF ( ノード間通信機構 ) モジュールは、PRIMECLUSTER における全てのノード間通信のネットワーク
通信層です。ICF モジュールには以下の機能があります。
● 到着順を保証したクラスタノード間のデータグラム通信サービス
● 送信順序の保証 ( 宛先ノードの異常がない場合 )
● OSD を経由したネットワークへのインタフェース
ハードウェアの一点故障 (Single Point of Failure) を回避するため、ICF は冗長化されたクラスタインタコ
ネクトでも使用できます。複数のクラスタインタコネクトが使用可能な場合、ICF は使用可能な全ての
インタコネクトにメッセージを分散させることにより、パフォーマンスを向上させます。ひとたび障害
が発生すると、クラスタインタコネクト間の自動切替えが行われます。また、ICF には、クラスタイン
タコネクトの間欠障害に対する経路リカバリ機構も保持しています。
ICF は、CF の内部コンポーネントのみで使用可能であり、上位層の各種プログラム ( 一般的なユーザプ
ログラム ) では使用することはできません。そのかわり、クラスタインタコネクトにアクセスするアプ
リケーションには Cluster Interconnect Protocol (CIP) が使用可能です。CIP は ICF 上で TCP/IP プロトコル
を提供します。
3.3.1.3 JOIN
JOIN モジュールは、ノードを動的にクラスタに参入させる機構です。参入すべきクラスタが存在しない
初期状態の場合は、CF が 1 ノードのクラスタシステム ( 初期クラスタ ) を作成します。このとき、複数
ノードが同時に初期クラスタを作成するようなケースが考えられますが、分散ノード環境におけるリー
ダ選択アルゴリズムにより、マスタノードが決定され、初期クラスタが作成されます。
初期クラスタが作成されると、JOIN モジュールは他のノードをクラスタに参入させることができます。
JOIN モジュールは、初期クラスタ作成段階にプロトコルバージョン情報を提供し、ローリングアップグ
レードをサポートする機構が組込まれています。各ノード間で使用しているプロトコルのバージョンが
異なる場合、クラスタの全ノードがサポートしているバージョンを自動的に指定します。
3.3.1.4 ENS
ENS ( イベント通知サービス ) モジュールは、さまざまなイベントをクラスタシステムの各ノードに通知
する機構です。ENS のキューにいったん格納されたメッセージは、全てのノードに配送されるか、また
は、どのノードにも配送されないかのいずれかの状態を取ることが保証されます。PRIMECLUSTER モ
ジュールおよびアプリケーションプログラムは ENS を使用することで、ノードの参入や、クラスタから
削除したなどのイベント通知を受けることができます。また、各プログラム固有のイベントを各プログ
ラム間で定義して、通知することができます。
J2UZ-5301-02Z2(A)
17
PRIMECLUSTER のモジュール
PRIMECLUSTER のアーキテクチャ
3.3.1.5 Cluster Admin
Cluster Admin マネージャは、以下の管理機構を提供します。
● クラスタシステムの構成
● クラスタシステムの管理
● クラスタシステムの運用および診断機構
Cluster Admin マネージャを使った管理は、クラスタシステム内の任意のノードから実行することができ
ます。また、ネットワーク経由で、遠隔地のクライアントから管理を行うことも可能です。ユーザは Java
対応の Web ブラウザを使って管理を行いますが、ノード上でコマンドラインインタフェースを使用する
こともできます。多様で明解な画面表現やイベントログにより、クラスタの状態に関して簡潔でタイム
リーな情報をユーザに提供します。
3.3.1.6 Web-Based Admin View
Web-Based Admin View は、PRIMECLUSTER 製品が使用する GUI 基盤です。Web-Based Admin View の機
能を以下に示します。
● 複数の GUI の共通基盤
PRIMECLUSTER には、CF、SIS、RMS、SF を制御する Cluster Admin GUI の他に、GDS や GFS
などの他のサービスをサポートする GUI が用意されている。Web-Based Admin View には、これら
の全ての GUI が共通基盤として動作する。
● シングルログイン
1 回のログインで複数ノード、複数の GUI 製品を使用することが可能
● パスワードの暗号化
クライアントブラウザと管理サーバの間で送信されるパスワードは暗号化される
● ロギング
構成設定または管理に関する全ての GUI 操作のロギング
● 3 層構造
管理サーバをクラスタシステムと分離した外部に設定
Web-Based Admin View の機能の詳細については、"Web-Based Admin View 操作手引書 V4.1
(Solaris/Linux)" を参照してください。
3.3.1.7 SNMP
PRIMECLUSTER SNMP は、PRIMECLUSTER モジュールの状態や構成に関する情報や統計を収集および
通知する機能を提供します。ユーザは、通知された情報を SNMP 管理サーバに問い合わせることで得る
ことができます。現在SNMPを使って情報を表示しているPRIMECLUSTERモジュールを以下に示します。
● Cluster Foundation (CF)
● Reliant Monitor Services (RMS)
PRIMECLUSTER SNMP は主に MIB (Management Information Bases) とサブエージェントで構成されてい
ます。MIB は SNMP により提供される情報の内容を定義するファイルです。サブエージェントは
PRIMECLUSTER コンポーネントに問い合わせて情報を表示するプログラムです。
18
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
PRIMECLUSTER のモジュール
3.3.1.8 PRIMECLUSTER SF
PRIMECLUSTER シャットダウン機構 (PRIMECLUSTER SF) は、クラスタシステム内でユーザ資産に対
する競合が発生するような異常処理時に、他のノードを停止させることを保証する機能を提供します。
PRIMECLUSTER SF は主に以下のコンポーネントで構成されます。
● SD ( シャットダウンデーモン ) — クラスタノードの状態を監視し、状態を収集したり、ノードの
手動シャットダウンを要求したりするためのインタフェースを提供します。
● SA ( シャットダウンエージェント ) — リモートクラスタノードを停止させることを保証します。
● MA ( 非同期監視 ) — SA の機能に加え、リモートクラスタノードの状態を監視し、そのノードの
ダウンを即時に検出します。
PRIMECLUSTER SF には以下の長所があります。
● 異常が発生したクラスタノードを強制停止させる。
● 任意の PRIMECLUSTER モジュールからクラスタノードを強制停止させる。
● 冗長シャットダウン方式が利用できる。
非同期監視
非同期監視は、ハードウェア特性を活かしてノードの状態を監視し、ノードダウンを即時に検出します。
PRIMECLUSTER システムは、クラスタインタコネクトを利用した、ハートビートの送信と応答による
ノードの状態監視を定周期間隔で行っていますが、非同期監視を利用することにより、より即時的なノー
ドのダウン検出を実現します。
非同期監視は以下の機能を提供します。
ノードの状態監視
非同期監視は、ハードウェアが提供する機能を利用したノードの状態監視を行います。突然のシステム
パニックや電源切断など、万が一他のノードに異常が発生した場合、SF にその異常を通知します。また、
システム負荷 (System Load) が著しく高いことが原因で、クラスタノード間でのハートビート要求の送信
と応答が一時的に途切れた場合でも、非同期監視がオプションハードウェアを経由してノードの状態を
正確に判断します。
ノードの強制停止
SA ( シャットダウンエージェント ) としての機能を提供し、
異常が発生したノードの強制停止を保証します。
サポートされるオプションハードウェアを以下に示します。
● RCI 非同期監視 (RCI) (PRIMEPOWER)
PRIMEPOWER に搭載されるハードウェアの 1 つ、RCI を利用してノードの状態を監視する機能
です。ハードウェア本体に標準で実装されているシステム監視機構 (System Control Facility: SCF
と略する ) がハードウェアの状態を監視し、その状態をソフトウェアに通知することでノードダ
ウンを判断することができます。
また、他ノードを意図的にパニックあるいはリセットさせることで確実な強制停止を実現し、
ユーザ資産への競合を防ぎます。
RCI 非同期監視のノード状態の監視は、/var/adm/messages ファイルに以下のメッセージ (a)
が出力されてから、(b) が出力されるまでの間機能しています。コンソール非同期監視の場合は、
それぞれ (c) と (d) に該当します。ノード状態の監視が機能していない状態では、ノードを強制的
に停止する機能が正常に動作しないことがあります。MMB 非同期監視の場合は、それぞれ (e) と
(f) に該当します。
J2UZ-5301-02Z2(A)
19
PRIMECLUSTER のモジュール
PRIMECLUSTER のアーキテクチャ
(a) FJSVcluster:INFO:DEV:3042: The RCI monitoring agent has been started
FJSVcluster: 情報 :DEV:3042: RCI 非同期監視機能を開始しました。
(b) FJSVcluster:INFO:DEV:3043: The RCI monitoring agent has been stopped
FJSVcluster: 情報 :DEV: 3043: RCI 非同期監視機能を停止しました。
(c) FJSVcluster:INFO:DEV:3040: The console monitoring agent has been
started (node:monitored node name)
FJSVcluster: 情報 :DEV: 3040: コンソール非同期監視機能を開始しました。
(node: 監視対象ノード名 )
(d) FJSVcluster:INFO:DEV:3041: The console monitoring agent has been
stopped (node:monitored node name)
FJSVcluster: 情報 :DEV:3041: コンソール非同期監視機能を停止しました。
(node: 監視対象ノード名 )
(e) FJSVcluster:INFO:DEV:3080: The MMB monitoring agent has been started.
(f) FJSVcluster:INFO:DEV:3081: The MMB monitoring agent has been stopped.
● コンソール非同期監視 (RCCU)
クラスタシステムを構成する各ノードのコンソールに表示されるメッセージを監視する機能で
す。パニック発生時等のコンソールメッセージを他ノードが検出し、メッセージ出力ノードの
ノードダウンを判断します。コンソール非同期監視は通常、数珠状に 1 対 1 の関係で他ノードの
状態を監視しており、異常が発生してノードがダウンした場合、ダウンノードが監視していた
ノードを監視する役目を、その他のノードに引き継ぎます。また、ノードに対して break 信号を
送信して確実なノード停止を行います。
ノードがダウンした場合の監視の引き継ぎについて、3 ノードで構成されるクラスタシステムを
例に示します。
図 5 は、3 ノードのクラスタシステムにおいて、1 つのノードが停止した場合に監視機能がどのよ
うに引き継がれるかを示しています。点線は、どのノードがどのノードを監視しているかを表し
ます。
監視対象の矢印:
ノード 1 がノード 2 を監視している
管理 LAN
RCCU
ノード 1
RCCU
ノード 2
RCCU
ノード 3
コンソール回線
冗長クラスタインタコネクト
図 5: 正常稼動時のコンソール非同期監視の処理
20
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
PRIMECLUSTER のモジュール
ノード 2 に異常が発生してダウンすると、以下の処理が実行されます。
■ ノード 1 はノード 3 の状態監視を開始します。
■ 以下のメッセージがノード 1 の /var/adm/messages ファイルに出力されます。
FJSVcluster:INFO:DEV:3044: The console monitoring agent took over
monitoring (node: targetnode)
FJSVcluster: 情報 :DEV:3044: コンソール非同期監視機能の監視対象にノード targetnode を
追加しました。
図 6 は、ノード 2 が停止した場合に、ノード 1 がノード 3 を監視対象ノードとして追加する様子を示し
ています。
監視対象の矢印:
ノード 1 がノード 3 を監視対象に追加した
管理 LAN
RCCU
ノード 1
RCCU
ノード 2
RCCU
ノード 3
コンソール回線
冗長クラスタインタコネクト
図 6: ノード異常発生時のコンソール非同期監視の処理
ノード 2 が異常から復旧後に起動してくると、以下の処理が実行されます。
■ 従来の正常起動時の監視形態に戻ります。
■ 以下のメッセージがノード 1 の /var/adm/messages ファイルに出力されます。
FJSVcluster:INFO:DEV:3045: The console monitoring agent cancelled to
monitor (node: targetnode)
FJSVcluster: 情報 :DEV:3045: コンソール非同期監視機能の監視対象からノード targetnode
を削除しました。
J2UZ-5301-02Z2(A)
21
PRIMECLUSTER のモジュール
PRIMECLUSTER のアーキテクチャ
図 7 は、クラスタに復旧したノード 2 がノード 3 の監視を再開する様子を示しています。
監視対象の矢印:
ノード 2 がノード 3 の監視を再開した
管理 LAN
RCCU
ノード 1
RCCU
ノード 2
RCCU
ノード 3
コンソール回線
冗長クラスタインタコネクト
図 7: ノード復旧時のコンソール非同期監視の処理
コンソール非同期監視では、コンソールのメッセージを監視しているため、突然の電源切断の状
態を判断できず LEFTCLUSTER 状態が発生します。本現象が発生した場合は、ノードに DOWN マー
クを付ける必要があります。DOWN マークの付けかたについては、"Cluster Foundation 導入運用手
引書 4.1 (Linux 版 )" の "5.7 ノードに DOWN マークを付ける " を参照してください。
● MMB 非同期監視 (MMB) (PRIMEQUEST)
PRIMEQUEST に搭載されるハードウェアの 1 つ、MMB を利用してノードの状態を監視する機能
です。ハードウェア本体に標準で実装されている MMB がハードウェアの状態を監視し、その状
態をソフトウェアに通知することでノードダウンを判断することができます。
また、他ノードを意図的にパニックあるいはリセットさせることで確実な強制停止を実現し、
ユーザ資産への競合を防ぎます。
● MMB の異常が発生している状態でノード異常が発生した場合、通常よりノードのダウンを確
定するまでにかかる時間が長くなることがあります ( 最大 6 秒 )。
● 全ノードで片系の MMB 管理 LAN に異常が発生している状態でノード異常が発生した場合、通
常よりノードのダウンを確定するまでにかかる時間が長くなることがあります ( 最大 6 秒 )。
● MMB の異常を検出するには最大 10 分かかります。
● MMB の異常を復旧させた場合、その復旧を検出するには最大 10 分かかります。ただし、復旧
をまだ検出していない状態でノードの異常が発生した場合、その時点で復旧されたことを認識
するため、実際には MMB 非同期監視は問題なく動作します。MMB の異常を復旧させた後、
すぐにその復旧を検出させたい場合は、シャットダウン機構 (SF) を再起動してください。
● 自ノードに異常 (smtptrapd が停止 ) が発生した場合、以下のメッセージが表示されます。
FJSVcluster:INFO:DEV:3084:Monitoring another node has been stopped.
22
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
PRIMECLUSTER のモジュール
この場合は、ノード状態の監視が機能していない状態となります。よって、この状態でノード
異常が発生した場合、通常よりノードのダウンを確定するまでにかかる時間が長くなることが
あります。
また、ノード起動またはシャットダウン機構 (SF) の再起動後、以下のメッセージが表示され
ていない場合も、ノード状態の監視が機能していない状態となります。よって、この状態で
ノード異常が発生した場合、通常よりノードのダウンを確定するまでにかかる時間が長くなる
ことがあります。
FJSVcluster:INFO:DEV:3083:Monitoring another node has been started.
● ノード起動中に以下のメッセージが表示されることがあります。
FJSVcluster: INFO: DEV: 3084: Monitoring another node has been
stopped.
これは、smtptrapd が起動中のためであり、smtptrapd が起動してから約 10 分以内に以下のメッ
セージが出力されれば問題ありません。
FJSVcluster: INFO: DEV: 3083: Monitoring another node has been
started.
● ノード起動直後にsdtool -sを実行すると、自ノードのテスト状態(Test State)にTestFailed
と表示される場合があります。ノード起動直後に自ノードのテスト状態を参照したい場合は、
sdtool -r を実行後、sdtool -s を実行してください。
MMB の非同期監視では、MMB 管理 LAN が切断した場合、以下のメッセージが表示されます。
FJSVcluster:WARN:DEV:5021:An error has been detected in part of the transmission
route to MMB. (node:nodename mmb_ipaddress1:mmb_ipaddress1
mmb_ipaddress2:mmb_ipaddress2 node_ipaddress1:node_ipaddress1
node_ipaddress2:node_ipaddress2)
FJSVcluster:ERROR:DEV:7213:An error has been detected in the transmission route
to MMB. (node:nodename mmb_ipaddress1:mmb_ipaddress1 mmb_ipaddress2:mmb_ipaddress2
node_ipaddress1:node_ipaddress1 node_ipaddress2:node_ipaddress2)
各メッセージの対処法に従い、対処を行ってください。
なお、7213 番のエラーメッセージが表示された場合は、ノード状態の監視が機能していない状態
となります。よって、ノードを強制的に停止する機能が正常に動作しないことがあります。
また、自ノードに異常 (smtptrapd が異常終了等 ) が発生した場合は、以下のメッセージが表示さ
れます。
FJSVcluster:ERROR:DEV:7210:An error was detected in MMB. (node:nodename
mmb_ipaddress1:mmb_ipaddress1 mmb_ipaddress2:mmb_ipaddress2
node_ipaddress1:node_ipaddress1 node_ipaddress2:node_ipaddress2 status:status detail:detail)
この場合も、ノード状態の監視が機能していない状態となります。よって、ノードを強制的に停
止する機能が正常に動作しないことがあります。
メッセージの詳細については、"Cluster Foundation 導入運用手引書 " の "10.13 非同期監視メッセー
ジ " を参照してください。
SA ( シャットダウンエージェント )
PRIMECLUSTER シャットダウン機構では、以下のシャットダウンエージェントを提供します。
● RCI(SA_pprcip, SA_pprcir) — Remote Cabinet Interface
PRIMEPOWER に搭載されるハードウェアの1つ、RCI を利用して、他ノードを意図的にパニック
あるいはリセットさせることで、確実な強制停止を実現します。
J2UZ-5301-02Z2(A)
23
PRIMECLUSTER のモジュール
PRIMECLUSTER のアーキテクチャ
● RCCU (SA_rccu) — リモートコンソール接続装置
各ノードに接続しているリモートコンソール接続装置を利用して、他ノードに break 信号を送信し
て確実なノード停止を実現します。
● XSCF (SA_xscfp, SA_xscfr, SA_rccu) — eXtended System Control Facility
PRIMEPOWER に搭載されるハードウェアの1つ、XSCF を利用して、他ノードを意図的にパニッ
クあるいはリセットさせることで、確実な強制停止を実現します。
また、コンソールに XSCF を使用している場合は、他ノードに break 信号を送信して確実なノード
停止を実現します。
● NPS (SA_wtinps) — ネットワーク電源スイッチ ( 未サポート )
Western Telematic Inc. のネットワーク電源スイッチ (WTINPS) 装置を使用して、他ノードをシャッ
トダウンさせることで、確実なノード停止を実現します。
● RPS (SA_rps) — リモート電源スイッチ ( 未サポート )
リモート電源スイッチ (RPS) 装置を使用して、他ノードをシャットダウンさせることで、確実な
ノード停止を実現します。
● RSB (SA_rsb) — リモートサービスボード
RemoteView サービスボード (RSB) を使用して、他ノードをシャットダウンさせることで、確実な
ノード停止を実現します。
● BLADE (SA_blade)
PRIMERGY ブレードサーバで使用可能な機能で、SNMP コマンドを使用して、他ノードをシャッ
トダウンさせることで、確実なノード停止を実現します。
● IPMI (SA_ipmi) — Intelligent Platform Management Interface
PRIMERGY に搭載されるハードウェアの1つ、IPMI を使用して、他ノードをシャットダウンさ
せることで、確実なノード停止を実現します。
● MMB (SA_mmbp, SA_mmbr) — Management Board
PRIMEQUEST に搭載されるハードウェアの1つ、MMB を利用して、他ノードを意図的にパニッ
クあるいはリセットさせることで、確実な強制停止を実現します。
● LKCD (SA_lkcd)
相手ノードパニック時に (LKCD) Linux Kernel Crash dumps を使用してクラッシュダンプ採取を行
う場合にクラスタ高速切り替えを実現します。
● netdump (SA_lkcd)
相手ノードパニック時に netdump を使用してクラッシュダンプ採取を行う場合にクラスタ高速切
り替えを実現します。
● diskdump (SA_lkcd)
相手ノードパニック時に diskdump を使用してクラッシュダンプ採取を行う場合にクラスタ高速
切り替えを実現します。
24
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
PRIMECLUSTER のモジュール
3.3.1.9 SCON (Solaris)
PRIMECLUSTER では、クラスタコンソールを使用することで、スタンドアロンシステムのコンソールを
置き換えます。このクラスタコンソールから全てのクラスタノードを集中管理することができます。シ
ステム管理操作の他に、クラスタコンソールには、必要に応じて SMAWRscon ソフトウェアをインストー
ルし、ノードの強制停止機能を準備します。
PRIMECLUSTER の導入では、通常、1 つのシングルクラスタコンソールによる運用が可能です。ただし
場合によっては、クラスタノードに管理者としてアクセスするには複数のクラスタコンソールの構成が
必要になることがあります。
以下の場合には、複数のクラスタコンソールが必要です。
● PRIMEPOWER 800、900、1000、1500、2000 または 2500 を利用した筐体間クラスタシステムが共
通のシステム管理コンソールを使用していない場合
● ノード間の距離が離れているため、共通のクラスタコンソールを使用することが適当でない場合
1 つのクラスタ内で複数のクラスタコンソールが使用されている場合は、分散クラスタコンソール構成
と呼ばれます。
クラスタコンソールは、PRIMEPOWER 200 から 850 までのハードウェアパーティショニングをサポート
していないシステムでは、
シリアル回線 - ネットワーク変換装置 (CU) を使用してコンソールシリアルポー
トに接続します。PRIMEPOWER クラスタでサポートされている CU には、リモートコンソールアクセス
(RCA) や リモートコンソール接続ユニット (RCCU) などがあります。 PRIMEPOWER 800 および 1000 か
ら 2500 までの、ハードウェアパーティショニングをサポートしているシステムでは、クラスタコンソー
ルからシステム管理コンソールへのインタフェースにより、各パーティションを個別に管理します。
シングルクラスタコンソール
シングルクラスタコンソール構成とは、全てのクラスタノードへのコンソール回線が 1 つの中央クラス
タコンソールからアクセスできる構成です ( 図 8 を参照 )。図 8 の CU は、シリアル回線をネットワーク
アクセスに変換する一般的な変換装置を示し、RCA または RCCU を表しています。
SCON
管理 LAN
CU
ノード 1
CU
ノード 2
CU
ノード 3
CU
ノード 4
冗長クラスタインタコネクト
コンソール回線
図 8: シングルクラスタコンソールの構成
シングルクラスタコンソールでは、SMAWRscon ソフトウェアが稼動し、クラスタ内の全ノードの強制
停止処理を行います。この構成では、全てのクラスタノードがシングルクラスタコンソールから認識さ
れ、全てのクラスタノードからこのコンソールにシャットダウン要求が転送されます。
J2UZ-5301-02Z2(A)
25
PRIMECLUSTER のモジュール
PRIMECLUSTER のアーキテクチャ
分散クラスタコンソール
分散クラスタコンソール構成は、2 つ以上のクラスタコンソールを持つクラスタです。各クラスタコン
ソールからは、一定範囲のクラスタノードのコンソール回線にアクセスができます ( 図 9 を参照 )。各ク
ラスタノードのコンソール回線にアクセスできるのは、1 つのクラスタコンソールだけです。図 9 の CU
は、シリアル回線をネットワークアクセスに変換する一般的な変換装置を示し、RCA または RCCU を表
しています。
SCON 1
SCON 2
管理 LAN
CU
ノード 1
CU
ノード 2
CU
ノード 3
CU
ノード 4
冗長クラスタインタコネクト
コンソール回線
図 9: 分散クラスタコンソールの構成
図 9 では、SCON 1 がノード 1 およびノード 2 へのアクセスを制御し、SCON 2 がノード 3 およびノー
ド 4 へのアクセスを制御しています。SMAWRscon 製品を SCON 1 上で構成した場合、ノード 1 および
ノード 2 のみが認識されます。同様に、SCON 2 上の SMAWRscon 製品からはノード 3 およびノード 4
のみが認識されます。
実行時には、全ての停止要求が全てのクラスタコンソールに送られ、停止対象のノードを担当するクラ
スタコンソールがこれに応答します。
ネットワークに関する注意事項
シングルクラスタコンソールおよび分散クラスタコンソールのいずれを構成する場合にも、以下の事項
に注意する必要があります。
● クラスタインタコネクトと管理 LAN は必ず物理的に分離すること
● 全ての CU、クラスタコンソール、およびクラスタノードを管理 LAN に接続すること
● 管理 LAN を業務 LAN からは物理的に切り離しておくこと
26
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
3.3.2
PRIMECLUSTER のモジュール
RMS
RMS は、クラスタのハードウェアおよびソフトウェアの可用性を保証する、HA マネージャです。
PRIMECLUSTER は、各コンポーネントの冗長化と、稼動中のノードへの監視対象リソースのフェイル
オーバ機能により可用性を保証します。
以下に示すように、多くのシステムコンポーネントが監視対象リソースになります。
● ファイルシステム
● ボリューム ( ディスク )
● アプリケーション
● ネットワークインタフェース
● ノード全体
RMS では、クラスタシステムの複数ノードを使用し、各ノードは他のノードのリソースを引き継ぐよう
に設定され、ユーザ業務は冗長化されます。
ユーザ業務の可用性は、ディテクタプログラムを使ったリソース監視により保証されます。リソースに
障害が発生すると、RMS はユーザ定義のリカバリ処理を起動します。このリカバリ処理が、他のノード
上でリソースを使用できるようにするトリガになります。
依存関係にある複数リソースは、グループ化することで、グループ内のリソースの一部に障害が発生し
たときにグループ全体に対するリカバリ処理を実行されるようにすることも可能です。フェイルオーバ
時には、元のノード上の全てのリソースを確実にオフラインにしてから、新しいノード上でリソースを
オンラインにします。これにより、複数ノードが同時に 1 つのリソースにアクセスしようとする競合に
より、データが破損する可能性を排除します。
図 10 は、RMS のディテクタによるリソース監視方法を示しています。ディテクタから RMS BM ( ベー
スモニタ ) にリソースの状態変化が通知されると、RMS は対処が必要であるかどうか判断します。
ディテクタ
監視
アプリケーション
( リソース )
BM
( ベースモニタ )
RMS
アプリケーション層
カーネル層
CF
図 10: RMS のリソース監視
J2UZ-5301-02Z2(A)
27
PRIMECLUSTER のモジュール
PRIMECLUSTER のアーキテクチャ
3.3.2.1 RMS ウィザード
RMS ウィザードは、RMS が動作するための構成を作成する機能を提供します。RMS ウィザードは、以
下の製品分野に分かれます。
● RMS Wizard Tools — RMS ウィザードの基盤および、RMS BM ( ベースモニタ ) とのインタフェー
スを提供します。RMS Wizard Tools により、RMS 構成を作成する設定が簡素化され、RMS およ
び RMS Wizard Kit との統合により HA クラスタ環境が強化されます。
● RMS Wizard Kit — RMS Wizard Kit は、特定の上位アプリケーションも含めた、実際のユーザ業務
を構築するための、RMS HA 構成を作成することができます。RMS Wizard Kit は、各企業のユー
ザ業務に最適な HA 環境を構築するための別売のソフトウェアオプションです (RMS Wizard Kit を
使用するには、RMS Wizard Tools をあらかじめ購入してインストールしておく必要があります )。
当社では、Wizard for Oracle、Wizard for Networker などの製品が準備されています。
RMS、RMS Wizard Tools、RMS Wizard Kit は別コンポーネントの扱いをとります。
3.3.2.2 プロセス監視機構
プロセス監視機構は RMS に対してプロセスの状態を通知します。プロセス監視機構の長所は以下のとお
りです。
● プロセスの状態を素早く低い負荷により RMS に通知します。これはユーザアプリケーションの高
速な切替えにつながります。
● 不慮のエラーにより終了したプロセスを自動的に再起動します。
● プロセスの状態を確認するためのコマンドを用意する必要がありません。
3.3.3
SIS (Solaris)
SIS は、PRIMECLUSTER システムに対して拡張性、信頼性を強化し、管理を容易にするネットワークシ
ステムとして以下に示す機能を提供するコンポーネントです。
● 仮想インタフェース (VIP) アドレスに対するアクセスを行うことで、クライアントからは複数ノー
ドで構成されているクラスタシステムが、1 台のネットワークサーバのように見せることができま
す。
● クラスタ内のどのノードでネットワーク処理が行われているかをクライアントから隠蔽すること
により、透過的な通信を実現します。
28
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
PRIMECLUSTER のモジュール
例:
図 11 は、4 ノードの SIS クラスタの例を示しています。この例では、SIS クラスタは WWW サー
バとして動作しています。SIS クラスタには www.mycluster.com という FQDN に対応する仮
想アドレスがあり、クライアントがこのアドレスに接続すると、稼動中の任意のノードから Web
ページを表示することができます。
www.mycluster.com
ノード
ノード
ノード
ノード
インターネット
クライアント
クライアント
図 11: SIS クラスタの例
3.3.4
PAS
PAS (Parallel Application Services) は、OPS (Oracle Parallel Server) のような並列データベースアプリケーショ
ンに対する高性能かつ高速な通信機能を提供します。
並列データベースアプリケーションはクラスタテクノロジーを採用した市販アプリケーションです。複
数ノードで構成されているクラスタシステムの、各ノード間で負荷およびデータを分割することにより、
並列データベースアプリケーションは 1 台の大規模 SMP サーバの限界を超えるパフォーマンスを実現し
ます。
OPS は、90 年代に商用 UNIX プラットフォームとして最初に導入されて以来、並列データベースアプリ
ケーションの先駆者となっています。Oracle 9i および Oracle 10g RAC Cache Fusion テクノロジーは、
PRIMECLUSTER の高速プロセス間通信機能を利用することで、共用記憶装置を利用して Oracle インス
タンスの排他制御を行っていた従来の OPS のパフォーマンスボトルネックを克服しました。
J2UZ-5301-02Z2(A)
29
PRIMECLUSTER のモジュール
3.3.5
PRIMECLUSTER のアーキテクチャ
GDS
GDS (Global Disk Services) は、ディスク装置に格納されているデータの可用性と運用管理性を向上させる
ボリューム管理ソフトウェアです。GDS は、ハードウェアの故障やユーザの操作ミスからデータを保護
し、ディスク装置の運用管理を支援します。
ボリューム管理機能には以下の 2 つの役割があり、それらは密接に関連しています。
● ディスクデータの可用性の向上
● ディスクデータの運用管理性の向上
GDS のミラーリング機能は、ディスクデータの複製を複数のディスクに保持することにより、ハードウェ
アの故障からデータを保護します。これにより、不測のトラブルが発生しても、ユーザはアプリケーショ
ンを停止することなくディスクデータへのアクセスを継続できます。
図 12: ディスクミラーリング
また、GDS の運用管理機能は、さまざまなディスク管理においてシステム管理者の負担を軽減します。
使いやすい運用管理機能には、管理作業を簡易にするだけではなく、操作ミスによるデータ破壊を防止
する効果があります。
30
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
PRIMECLUSTER のモジュール
SAN (Storage Area Network) においては、複数のサーバと複数のディスク装置が自由に接続されるため、ディ
スク装置のデータを複数のサーバから直接共用することができます ( 図 13 を参照 )。これにより、ファイル
システムやデータベースの同時共用が可能になります。また、サーバ間でのデータの複写や、バックアップ
などの作業の利便性が改善されます。その反面、複数のサーバからのアクセス競合によってデータ破壊が発
生するという問題が潜在しているため、SAN に適合したボリューム管理機能が不可欠です。
図 13: SAN (Storage Area Network)
GDS は、SAN に適合したボリューム管理機能を提供します。GDS を使用することにより、特定のサーバ
にローカル接続されたディスク装置だけでなく、SAN を経由して複数のサーバに共用接続されたディス
ク装置も含めて、全てのサーバに接続された、全てのディスク装置を統一的に管理することができます。
ローカル接続ディスク ( システムディスクも含む ) の管理ができるのは、Solaris サーバまたは
PRIMEQUEST の場合です。
GDS の主な機能を以下に示します。
● システムディスクのミラーリング機能 (Solaris サーバおよび PRIMEQUEST)
● 共用ディスクのミラーリング機能
● ディスクアレイ筐体間のミラーリング機能
● ディスク故障時に自動的にミラーリング状態を回復するホットスペア機能
● アプリケーションを停止することなく、故障したディスクを交換するホットスワップ機能
● システムダウン後やクラスタフェイルオーバ後にミラーリング状態を高速に回復する高速等価性
回復機能
● SAN 環境に接続されたディスクの統合管理とアクセス制御
● サーバとディスク装置との物理的な接続構成を自動的に認識し、構成情報の登録や接続構成の
チェックを行う自動構成機能 (Solaris サーバ )
● 大容量ボリュームの作成を可能にするコンカチネーション機能
● ディスクへのアクセス負荷を分散するストライピング機能
● 柔軟なディスク構成を実現する論理パーティション分割機能
● 主業務への影響を最小限に抑えたバックアップ運用を支援するスナップショット機能
詳細については、"Global Disk Services 説明書 4.1" を参照してください。
J2UZ-5301-02Z2(A)
31
PRIMECLUSTER のモジュール
3.3.6
PRIMECLUSTER のアーキテクチャ
GFS
GFS (Global File Services) は、1 ノード内で使用する GFS ローカルファイルシステム (Solaris) と、複数の
ノードから同時共用できる GFS 共用ファイルシステムがあり、使用目的に合わせて最適なファイルシス
テムを選択できます。
3.3.6.1 GFS ローカルファイルシステム (Solaris)
GFS ローカルファイルシステムは、UNIX の代表的なファイルシステム UFS を拡張し、可用性、性能を
向上させています。GFS ローカルファイルシステムの主な機能は、以下のとおりです。
● 複数のパーティション ( スライス ) を 1 つのファイルシステムで割当てる マルチパーティション
構成が可能
● 高速ファイルシステム回復 (UFS ロギングと同等機能 )
● エクステントベース管理による連続ブロック割当て
● ファイルシステムのデータ領域の拡張
● ディスクブロック故障時の領域再割当て
● ファイルへのエクステント属性情報の設定
● デフラグメント機能
GFS ローカルファイルシステムは、システムダウン後の高速な整合性回復機能により、スタンバイ構成
において、片系ノードダウンに伴うファイルシステムの切替えを高速に行うことができます。また、業
務を停止することなく、オンラインでデータ領域の追加やデフラグメント機能を使用することができま
す。GFS ローカルファイルシステムは、ローカルファイルシステムとして単独に使用するかまたは、RMS
を使用して切替えファイルシステムとして使用します。
3.3.6.2 GFS 共用ファイルシステム
GFS 共用ファイルシステムは共用ディスク装置に接続している複数ノード (Linux では、最大 2 ノード )
による同時アクセス機能を備えた信頼性と性能に優れたファイルシステムです。
GFS 共用ファイルシステムには主要な機能に加え、以下のような機能があります。
● 複数ノードから 1 つのファイルまたはファイルシステムに同時にアクセスする機能
● 複数ノードからファイルデータを参照または更新する場合に整合性を維持する機能
● ノードが停止中のとき、他のノードでファイル操作を続行し、ファイルシステムの整合性を維持
する機能
● ファイルシステムの高速修復機能
● 共用記憶装置への直接アクセスによりデータアクセス性能を向上させる機能
● ファイル領域の連続したブロックを割当てることによる高速 I/O 処理機能
● 各ノードのファイルキャッシュを利用したファイルアクセス機能
● マルチボリュームのサポートによる I/O の負荷分散および大容量記憶ファイル (Solaris)
● ファイルシステムを再構築せずに拡張する機能 (Solaris)
● Web ブラウザで GUI によりファイルシステムを操作する機能
整合性が保証された同時共用アクセス機能
GFS 共用ファイルシステムでは、複数ノードからデータを更新する場合に整合性が保証されます。
また、Solaris 版では複数ノードに及ぶファイルロック機能も従来の UFS のアプリケーションプログラム
インタフェース (API) で利用することができます。このように分散アプリケーションが複数ノードで実
行される場合、UFS の API をそのまま使って適切なアプリケーションデータを転送することができます。
32
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
PRIMECLUSTER のモジュール
高可用性 (HA)
GFS 共用ファイルシステムを複数ノードで使用する場合、1 つのノードが停止中でも他のノードからファ
イルにアクセスすることが可能です。停止中のノードが保持しているファイルシステム情報の整合性は、
他のノードの GFS 共用ファイルシステムで自動的に回復されます。そのため、他のノードで実行中のア
プリケーションは、ファイルシステムの操作エラーを起こすことなく処理を続行します。
ファイルの作成や削除など、ファイルシステム構造の変更に必要な処理は GFS 共用ファイルシステムの
更新ログと呼ばれる領域に記録されます。この領域に保存された情報を使うことにより、ファイルシス
テム構造全体をチェックしなくてもシステム障害をリカバリすることができます。
図 14: ノードが停止中のときの処理続行
データアクセス性能
GFS 共用ファイルシステムでは、共用ディスク装置のファイルシステムに複数ノードからアクセスする
ことができます。従来の分散ファイルシステムでは、データは LAN によるネットワーク通信により、
ファイルシステムデータを管理するサーバからのアクセスを要求したクライアントに転送されます。こ
れに対して GFS 共用ファイルシステムでは、要求側ノードからディスク装置に直接アクセスします。そ
のため、NFS よりネットワーク負荷が軽く、要求の読込み / 書込みの応答時間も速くなります。
また、GFS 共用ファイルシステムではファイルデータに連続したブロックを割当てることにより I/O 処
理をまとめて行い、ファイルシステムの性能を改善します。
Solaris 版の GFS 共用ファイルシステムには複数のパーティションを 1 つのファイルシステムに統合する
機能があります。複数パーティション構成の場合、ラウンドロビン (Round Robin) 割当て方式を使用して
ファイルごとに異なるパーティションのファイルデータ領域を使用するようにします。そのため、I/O 負
荷は複数ディスク装置に分散され、ファイルシステムの性能が向上します。この機能を使用することに
より後述するデータパーティションの追加が容易になります。
J2UZ-5301-02Z2(A)
33
PRIMECLUSTER のモジュール
PRIMECLUSTER のアーキテクチャ
拡張性 ( スケーラビリティ )(Solaris)
GFS 共用ファイルシステムでは、空のディスクパーティションを指定するだけでファイルシステムを簡
単に拡張することができます。この機能により、ファイルシステムの空き領域不足がすぐに解消されま
す。データパーティションはマウント中に追加することができます。
図 15: パーティションの追加
3.3.6.3 メリット
GFS には以下のメリットがあります。
● LANを経由しない直接アクセスなどの優れたファイルアクセス機能や各システムのファイルキャッ
シュを使用することにより、システム全体の性能が向上する。
● 複数のシステム上のファイルによりリンクされたアプリケーションを分散実行することにより
CPU の負荷分散が実現し、データの整合性も保証される。
● 1 つのノードが停止しても他のノード上でファイルアクセスを続行することのできる可用性の高い
システムが実現する。
● エクステントベースの領域管理、マルチボリューム機能 (*1) などによる高速ファイルアクセスが
実現する (*1:マルチボリューム機能は Solaris 版でのみ )。
● 複数ディスク装置をマルチボリューム機能や領域不足の場合の領域拡張などの機能と連携させる
ことにより、大規模なファイルシステムの作成などのファイルシステムのリソース管理が容易に
なる (Solaris)。
● ファイルシステムを Web ブラウザで操作することができるため、環境の構築や管理が容易になる。
34
J2UZ-5301-02Z2(A)
PRIMECLUSTER のアーキテクチャ
3.3.7
PRIMECLUSTER のモジュール
GLS
GLS (Global Link Services) は、複数の NIC を使用して、自システムが接続されるネットワーク伝送路を
冗長化し、通信全体の高信頼化を実現するソフトウェアです。
GLS には以下のメリットがあります。
● 複数のNICにより伝送路を冗長化することで、耐故障性や可用性に優れた信頼性の高いネットワー
クを構築することができます。
● GLS を利用するアプリケーションは、冗長化した伝送路の構成や伝送路上で発生したネットワー
ク障害を意識することなく、業務を行うことができます。
以下の二重化機能を PRIMECLUSTER 上で利用することができます。
PRIMECLUSTER の伝送路には次の 2 つの方式から選択できます。
● 高速切替方式 - 同一ネットワーク上のサーバ間に複数の転送ルートを作成
● NIC 切替方式 - 同一ネットワーク上のスイッチまたはハブとサーバとの間に 1 つの転送ルートを
作成
PRIMECLUSTER GLS には次の 2 つの機能があります。
● 伝送路二重化機能
– 高速切替方式
同一ネットワーク上のサーバ間の伝送路を多重化
– RIP 方式 (Solaris)
別ネットワークとのサーバ間の伝送路を二重化
– NIC 切替方式
同一ネットワーク上のサーバとスイッチ /HUB 間の伝送路を二重化
– GS/SURE 連携方式 (Solaris)
同一ネットワーク上のサーバ、グローバルサーバ /SURE SYSTEM、および ExINCA 間の伝送
路を多重化
● マルチパス機能
– マルチパス方式 (Solaris)
同一ネットワーク上のサーバとスイッチ間の伝送路を多重化
– マルチリンクイーサネット方式 (Solaris)
同一ネットワーク上のサーバとスイッチ間で多重化した伝送路の 送信データ負荷分散
GLS の機能の詳細については、"Global Link Services 説明書 4.1 ( 伝送路二重化機能編 ) (Linux 版 )" および
"Global Link Services 説明書 ( マルチパス機能編 )" を参照してください。
なお、マルチパス機能編は Solaris 版のみ存在します。
J2UZ-5301-02Z2(A)
35
PRIMECLUSTER のモジュール
PRIMECLUSTER のアーキテクチャ
3.3.7.1 高速切替方式
GLS 自身の方式により伝送路を制御します。本方式では、多重化した伝送路を同時に使用し、障害発生
時は該当の伝送路を切り離して縮退運用します。
GLS 自身が制御するため、障害を早期に検出することが可能です。通信可能な相手装置は、高速切替方
式が動作している Solaris サーバおよび Linux サーバで、その他のホストとの通信には利用できません。
また、ルータを超えた別ネットワーク上のホストとの通信には利用できません。
自ホスト
相手ホスト
仮想 IP
PRIMECLUSTER
仮想 IP
Global Link Services
NIC
NIC
Global Link Services
NIC
Global Link Services
NIC
NIC
NIC
通信
業務 LAN
図 16: 高速切替方式
3.3.7.2 NIC 切替方式
二重化した NIC を同一ネットワーク上に接続し、排他使用して伝送路の切替えを制御します。本方式で
は通信相手が限定されず、また同一ネットワーク上および別ネットワーク上の両方のホストとの通信が
可能です。なお、二重化範囲は直結しているスイッチおよびハブまでとなるため、通信経路全体を二重
化するには、ルータ等の途中ネットワーク機器や通信相手装置の伝送路も二重化する必要があります。
自ホスト
相手ホスト
IP
PRIMECLUSTER
仮想 IP
Global Link Services
NIC
NIC
Global Link Services
NIC
NIC
NIC
通信
業務 LAN
図 17: NIC 切替方式
36
J2UZ-5301-02Z2(A)
クラスタインタコネクトの詳細
4
本章では、クラスタインタコネクト概要と要件について説明し、最後にクラスタインタコネクトの設計
上の検討事項について説明します。
本章で説明する内容は以下のとおりです。
● 37 ページの "4.1 概要 " では、クラスタインタコネクトの概要について説明します。
● 38 ページの "4.2 クラスタインタコネクトの要件 " では、PRIMECLUSTER で使用されるクラスタ
インタコネクトの要件について説明します。
4.1
概要
クラスタインタコネクトとは、PRIMECLUSTER クラスタシステムの最も基本的な構成要素です。
PRIMECLUSTER が提供する全てのサービスは、各ノード間の通信を行い、ハートビート要求の応答によ
りノード状態を判断するためのクラスタインタコネクトに依存しています。
4.1.1
クラスタインタコネクトと通常のネットワークとの違い
クラスタインタコネクトは従来のネットワークとは用途が異なります。クラスタインタコネクトの最も
重要な役割は、ハートビート要求の送信および応答です。
ハートビートメッセージは、ノードおよびクラスタインタコネクトの状態を判断するために使用されます。
メッセージが到達しない場合、クラスタソフトウェアは障害が発生したと判断してリカバリ処理を実行し
ます。ただし、100パーセント信頼できるネットワークハードウェアは存在しないため、PRIMECLUSTER
ICFプロトコルは、パケットの紛失や配送順序エラーなどのエラーを、ある範囲までは容認します。
クラスタインタコネクトでは、物理的に接続されているネットワークを冗長化することにより、1 箇所
で障害が発生してもメッセージを送信できるようにしなければなりません。ただし、全てのクラスタイ
ンタコネクトが故障した場合は、クラスタ管理ソフトウェアはノード障害が発生したときと同様にリカ
バリ処理を実行します。
4.1.2
ネットワークの可用性
通常、ユーザはネットワークは常に使用可能な状態にあると考えられています。ところが、ネットワー
クには定期的な停止時間が存在します。これは、ネットワーク管理者はスイッチやルータの調整を行い、
他のメンテナンス作業を行う必要があるためです。通常、このような作業はネットワークの使用率が低
い時に行われ、かつ、そのための停止時間は数秒です。しかし、クラスタシステムではインタコネクト
を 24 時間年中無休で継続的に使用しなければなりません。その結果、通常のネットワークメンテナンス
作業を行っている状態でも、クラスタシステムは、システムをシャットダウンしてアプリケーションを
切替えるクラスタリカバリ処理を実行することができるようになります。
メンテナンス作業以外にも、一時的なネットワーク停止は発生することがあります。今までは、イーサ
ネットの最高の機能改善方法はハブ、スイッチ、ルータの高速化でした。通常、ユーザはイーサネット
デバイスをポートに差し込むだけで、ネットワークインタフェースカード (NIC) とポートの速度を一致
させることに配慮する必要はありません 。ところがこのテクノロジーには問題があります。それは、ハ
ブまたはスイッチの使用率がきわめて高い場合に、NIC と再調整することが必要になるケースがありえ
るということです。再調整には数秒かかり、その間にメッセージの受け渡しは行われません。このよう
な場合、クラスタインタコネクトが切断され、コネクトは、クラスタがノードを緊急停止して、リカバ
リ処理を実行することになります。
J2UZ-5301-02Z2(A)
37
クラスタインタコネクトの要件
クラスタインタコネクトの詳細
その他にも、イーサネットデバイスが最初にオープンされた場合は、ネットワークの一時停止が
発生することがあります。この場合、イーサネットデバイスを接続しているスイッチポートのイ
ベント連鎖が始まり、構成設定を開始することになります。スイッチによっては設定に 1 分以上
かかる場合があります。このような場合、PRIMECLUSTER はポートからの応答がないために、他
のクラスタノードが構成設定されていないと判断するケースもあり得ます。
ネットワーク構成やデバイスによって要件は異なるため、PRIMECLUSTER ではシステム管理者がクラス
タインタコネクトに関連するパラメタを調整することができるようになっています。詳細については、
"Cluster Foundation 導入運用手引書 4.1 (Linux 版 )" を参照してください。
4.1.3
インタコネクトプロトコル
PRIMECLUSTER は、クラスタインタコネクトの通信層にイーサネットプロトコルまたは IP をサポート
していますが、クラスタサービスの基本プロトコルが TCP/IP だというわけではありません。TCP/IP は異
種のネットワークタイプ、ルータ、スイッチやネットワーク障害などのさまざまな障害を乗り越えて信
頼性の高いメッセージ通信を実現します。TCP/IP は高機能で優れたプロトコルスタックとして多様な
ジョブに広く利用されています。ただし、クラスタシステムの全ての要件に対して最適な選択ではあり
ません。
PRIMECLUSTER が使用する ICF ( ノード間通信機構 ) プロトコルは、クラスタ通信専用に設計されてい
ます。この高速プロトコルはメッセージの順序正しい配送を保証します。ICF は TCP/IP よりオーバー
ヘッドが少なく、これはパラレルアプリケーションにとって重要な要素です。ICF はイーサネットプロ
トコルまたはサービスオーバー IP (CF/IP) を使用します。
TCP/IP のみをサポートしているデバイスでは、直接イーサネット上に設定された ICF プロトコル
をルーティングすることはできません。この場合、ルーティングにはレベル 2 のルータを使用す
る必要があります。
ICF は CF の内部コンポーネントのみで使用可能であり、ユーザレベルリソースで使用することはできま
せん。クラスタインタコネクトにアクセスするアプリケーションにはクラスタインタコネクトプロトコ
ル (CIP) を使用します。CIP は ICF 上で標準的な TCP/IP プロトコルを提供します。
4.2
クラスタインタコネクトの要件
PRIMECLUSTER は、イーサネットデバイスおよび、TCP/IP をサポートするデバイスをクラスタインタ
コネクトとして使用します。クラスタインタコネクトは冗長化して、クラスタ内の全てのノード間に複
数の独立した接続を装備する必要があります。また、各クラスタインタコネクトは、クラスタシステム
の全ノードに接続されていなければなりません。このリリースでの動作が確認されている全てのイーサ
ネットデバイス一覧の詳細については、1 ページの "1.2 マニュアル " の " 製品添付インストールガイド "
を参照してください。
4.2.1
冗長化
クラスタインタコネクトを冗長化するには、複数の独立した接続と、独立した経路を用意する必要があ
ります。独立した接続とは、イーサネットが共通コンポーネントを共有しないということです。独立し
た経路とは、個々のインタコネクトがノード間の経路を一部でも共有しないということです。冗長クラ
スタインタコネクトの例を以下に示します。
● 各イーサネットボードで、使用するポートは 1 つのみにする。1 つのボードに複数のポートが存在
するボード (Quad Fast Ethernet Card など ) を使用すると、ボードの一点故障がクラスタインタコネ
クトの全系停止を引き起こすことになるため、各ノードへの接続を独立させる。
● 複数のインタコネクトに同じハブ、スイッチ、ルータを使用しない。
38
J2UZ-5301-02Z2(A)
クラスタインタコネクトの詳細
クラスタインタコネクトの要件
図 18 は、一般的な 4 ノードのクラスタシステムを示しています。この図には 2 つのハブがあり、各ハブ
の複数回線はそれぞれ固有の電源に接続されています。ハブがラック内で同じ電源装置に接続されてい
ると、電源装置の一点故障時に、クラスタインタコネクトの全系停止が発生する可能性があります。
ハブ 1
ノード 1
電源 1
ノード 3
ノード 2
ハブ 2
ノード 4
電源 2
図 18: 一般的な 4 ノードクラスタシステム
4.2.2
経路
クラスタシステムが信頼性を保証するには、クラスタインタコネクトの冗長化が不可欠です。このため、
ICF は使用可能な帯域幅を全て使用するように設計されています。クラスタシステムのノード間の各々
の接続を経路と呼び、ICF が他のノードメッセージを送信する時、使用可能な全ての経路間でトラフィッ
クを分散するように、経路を選択します。図 18 に示す 4 ノードクラスタの場合、各ノードには他の各
ノードにつながる 2 つの経路があります。
4.2.2.1 ハートビート
クラスタインタコネクトの動作が全て正常であれば、経路は有効 (UP 状態 ) となります。冗長化された
クラスタインタコネクトが同じ速度で動作しているものであれば、全ての経路がメッセージ通信に使用
され、UP 状態となります ( 速度の異なるクラスタインタコネクト (100M イーサネットとギガバイトイー
サネットの混在など ) については後述します )。さらに、ハートビート要求には常に冗長化されたクラス
タインタコネクトの全経路が使用されます ( ハートビートとは、ノードが機能していることを示すメッ
セージです )。ある経路上でハートビート要求が失敗した場合、その経路には DOWN 状態と判定されます。
DOWN 状態の経路は PRIMECLUSTER の系間通信に使用されません。ただし、DOWN 状態の経路でハート
ビート要求がリトライされる場合がありますが、この要求が成功すれば、DOWN 状態の経路は UP 状態に
自動復旧します。このように、系間通信に UP 状態の全経路を使用することをポートアグリゲーション (Port
Aggregation) またはトランキング (Trunking) といいます。
ハートビートが失敗する原因は複数考えられます。ネットワークコンポーネントに障害が発生すると、
その経路は使用できなくなり、上記の動作が起こります。特定ノードと他のノードとの最後の経路が
DOWN 状態になったときは、その経路に DOWN マークが付くのではなく、ノードが LEFTCLUSTER となり
ます。
LEFTCLUSTER とは、ノードが同じクラスタにある他のノードと通信できないことを示す状態をいいま
す。これは、ノードがクラスタが参入していないことを意味します。ノードが LEFTCLUSTER または
DOWN 状態になると、クラスタに再参入するまで、そのノードに対するハートビートは行われなくなりま
す。
J2UZ-5301-02Z2(A)
39
クラスタインタコネクトの要件
クラスタインタコネクトの詳細
ノードが LEFTCLUSTER または DOWN 状態であっても、最後の経路は DOWN 状態にはなりません。
ノードの障害でなくてもノードがハートビート要求に応答することを妨げるイベントが発生する場合が
あります。たとえば、リンク修復の試行中にファイバチャネルコントローラが他のネットワークデバイ
スドライバの実行を妨げる場合があり、これがノード障害と誤認される可能性があります。このような
場合に備えて、最後の経路上でハートビート要求が何回失敗したらノードを LEFTCLUSTER にするかを
示すパラメタはチューニング可能です。
ICF のその他のパラメタをチューニングすることはできません。経路検出アルゴリズムでは、できるだ
け早く経路を DOWN 状態として、メッセージを他の経路に切替えて、著しい遅延をもたらさないように
することが重要であるからです。ある経路が間欠故障などの理由で一時的に使用できない状態でも、自
己復旧方式により経路が動作可能と判断されれば、その経路が使用可能 (UP 状態 ) になります。ICF パラ
メタの調整については、"Cluster Foundation 導入運用手引書 4.1 (Linux 版 )" を参照してください。
PRIMECLUSTER は、ギガビットイーサネットと 100M イーサネットとの組み合わせのような、速度の異
なるクラスタインタコネクトの組み合わせもサポートしています。上記の例の場合、PRIMECLUSTER は
系間通信に 100M イーサネットよりは、ギガビットイーサネットを使用するように経路を選択すること
になります。ポートアグリゲーション (Port Aggregation) / トランキング (Trunking) は同速度の全てのデバ
イスに対して使用可能であり、非対称の組み合わせの場合は使用されません。しかし、ハートビート要
求はインタコネクトの速度に関係なく、常に全てのクラスタインタコネクトに送信されます。
4.2.3
プロパティ
クラスタインタコネクトをどのように冗長化して使用するか、どのデバイスを使用するかといった設計
では、以下の事項を検討する必要があります。
● 帯域幅
● 応答待ち時間 ( レイテンシ )
● 信頼性
● デバイスインタフェース
● セキュリティ
4.2.3.1 帯域幅
PRIMECLUSTER 自体は多くの帯域幅を必要とはしていません。PRIMECLUSTER の各クラスタインタコ
ネクトに必要な帯域幅は 2KB/ 秒未満です。クラスタインタコネクトは帯域幅を共有するため、ユーザ業
務が使用可能な帯域幅の合計は、各インタコネクトの全帯域幅の合計とほぼ同じです。
帯域幅の使用例については、表 1 を参照してください。図 18 の構成では、クラスタインタコネクトに
100 メガビット / 秒イーサネットが 2 つ構成されています。各クラスタインタコネクトが使用できる帯域
幅は 10 メガバイト / 秒、各ノード上のエンドユーザアプリケーションがクラスタファイルシステムおよ
びその他のアクティビティに使用する帯域幅は 4.5 メガバイト / 秒であるとします ( これはあくまで使用
例です。実際に使用する帯域幅はアプリケーションによって異なります )。
40
J2UZ-5301-02Z2(A)
クラスタインタコネクトの詳細
クラスタインタコネクトの要件
項目
帯域幅
合計帯域幅
100 メガバイト / 秒
イーサネット× 2
10 メガバイト / 秒
20 メガバイト / 秒
PRIMECLUSTER 要件
2 キロビット / 秒
16 キロビット / 秒
(=4 ノード× 2 インタコネクト× 2 キロビット / 秒 )
ユーザ業務要件
4.5 メガバイト / 秒
18 メガバイト / 秒
(=4.5 メガバイト / 秒× 4 ノード )
18.002 メガバイト / 秒
(=18 メガバイト / 秒 +(16 キロビット / 秒 /8)
90% の合計使用率 (=18.002/20 * 100)
合計
表 1: 2 つの 100 メガビット / 秒イーサネットボードによるインタコネクトの例
この例では、2 つの高速イーサネットインタコネクトが帯域幅の 90 パーセント以上を使用していること
になります。
合計使用率が 100 パーセントに近いとインタコネクトの応答待ち時間が低下するため、初期設定
時には、30 パーセント以上の余裕を残しておくような設計をすることを推奨します。
この例の構成と、それにかかる負荷状況から、1 つの高速イーサネットインタコネクトを増設して余分
な容量を確保することが推奨されます。表 2 は増設後の計算結果を示しています。
項目
帯域幅
合計帯域幅
100 メガバイト / 秒
イーサネット× 3
10 メガバイト / 秒
30 メガバイト / 秒
PRIMECLUSTER 要件
2 キロビット / 秒
24 キロビット / 秒
(=4ノード×3インタコネクト×2キロビット/秒)
ユーザ業務要件
4.5 メガバイト / 秒
18 メガバイト / 秒
(=4.5 メガバイト / 秒× 4 ノード )
合計
18.003 メガバイト / 秒
(=18 メガバイト / 秒 + (24 キロビット / 秒 /8)
60% の合計使用率 (=18.003/30 * 100)
表 2: 3 つの 100 メガビット / 秒イーサネットボードによるインタコネクトの例
増設後の新しい構成では、帯域幅に 40 パーセントの余裕があり、30 パーセント以上の余裕を確保するべ
きという推奨例を満たすことになります。本例では 3 重に冗長化されたクラスタインタコネクトを使用
していますが、PRIMECLUSTER は最大 8 重のインタコネクトをサポートしています。
4.2.3.2 応答待ち時間 ( レイテンシ )
PRIMECLUSTER の応答待ち時間要件はあまり厳しくありません。前述してきたように、PRIMECLUSTER
はハートビートの要求および応答により、ノードおよびその他のリソースが正常に動作しているかどう
かを判断します。一定時間内にハートビートの応答がなければ、PRIMECLUSTER はリカバリ処理を開始
します。リカバリを開始する間隔は、PRIMECLUSTER の監視対象によって異なります。各ノードの
Cluster Foundation (CF) は、各クラスタインタコネクト上で、クラスタシステムを構成する自分以外の全
てのノードに、200 ms ごとにハートビートを送信します。デフォルトでは、CF は、応答の受信を 50 回
試行しても応答がなければ、ノードは LEFTCLUSTER 状態になったと判断します。
200 ms はクラスタインタコネクトの応答待ち時間の上限として、サイズの小さいメッセージや応答を長
距離伝送するのには十分な間隔です。この間隔ならば、インタコネクト上で 2 ~ 3 の要求または応答の
喪失をもたらすパケットの紛失などのエラーを修復することも可能となります。
J2UZ-5301-02Z2(A)
41
クラスタインタコネクトの要件
クラスタインタコネクトの詳細
クラスタインタコネクトの応答待ち時間は、ユーザ業務に使用されるアプリケーションによって要件が
異なるケースがあります。たとえば、OPS のようなアプリケーションの場合、200 ms の間隔では長すぎ
ます。このように、クラスタソリューションの設計過程では、上位アプリケーションの要件も含めて検
討することが重要です。
市販の全てのイーサネットハブおよびスイッチは、PRIMECLUSTER およびほとんどのアプリケーション
の応答待ち時間要件を満たしています。ハブおよび高速イーサネットを使って応答待ち時間を測定する
と、一般的なユーザレベルのアプリケーションで 15 ~ 60 ms という結果が得られます。
一部のルータは、ネットワーク負荷が高い場合、応答待ち時間が速すぎる場合があります。その
ため、クラスタインタコネクトにルータを使用してはいけません。どうしてもルータを使わざる
を得ない場合は、応答待ち時間の問題を検討する必要があります。
4.2.3.3 信頼性
イーサネットを PRIMECLUSTER のクラスタインタコネクトとして使用する場合は何の問題もありませ
ん。PRIMECLUSTER の通信プロトコルは ICF であり、ICF は送信先に正確かつ順序正しくメッセージ送
信を行うことを保証します。ただし、ICF は信頼性の高い通信を重点において動作します。そのため、ク
ラスタインタコネクトの信頼性が高い場合は、ICF のオーバーヘッドはほとんどありませんが、インタ
コネクトの信頼性が低い場合、ICF のオーバーヘッドが増加します。TCP/IP などのプロトコルの場合と
同様、インタコネクトにエラーが発生すると、メッセージの再送が行われます。
メッセージの再送には帯域幅が浪費され、かつ、応答待ち時間の劣化も引き起こすため、再送が
発生しないように信頼性の高いクラスタインタコネクトを使用することが重要になります。
イーサネットのエラー率が 1/1,000,000 バイトより多い場合、イーサネット層にて調査する必要が
あります ( エラー率を調べるには、netstat(1) コマンドを使用します )。
4.2.3.4 デバイスインタフェース (Solaris)
PRIMECLUSTER は DLPI (Data Link Provider Interface) を使用します。デバイスが DLPI をサポートしてい
ない場合は、PRIMECLUSTER はそのデバイスをクラスタインタコネクト対応のデバイスとして認識する
ことができません。さらに付け加えると、インタコネクト対応デバイスとして認識されるためには、イー
サネットデバイスとして OS に認識されている必要があります。TCP/IP をサポートしていてもイーサネッ
トでないデバイスもありますが、PRIMECLUSTER のクラスタインタコネクトに使用されるプロトコルは
TCP/IP ではなくイーサネットであることを認識しておいてください ( 詳細については、1 ページの "1.2
マニュアル " の " 製品添付インストールガイド " を参照してください )。
42
J2UZ-5301-02Z2(A)
クラスタインタコネクトの詳細
クラスタインタコネクトの要件
4.2.3.5 セキュリティ
PRIMECLUSTER 製品は、クラスタインタコネクトを専用のネットワークにすることを想定しています
が、ICF は物理媒体上で動作する他のプロトコルと干渉しないため、業務 LAN を使用することは技術的
には不可能ではありません。しかし、PRIMECLUSTER のセキュリティモデルはクラスタインタコネクト
を構成するネットワークを、物理的に業務 LAN 他から切り離すことによって実現します。
セキュリティ上の理由も含め、クラスタインタコネクトに業務 LAN を使用しないでください。
クラスタインタコネクトに業務 LAN を使用すると、PRIMECLUSTER 製品がインストールされていれば、
業務 LAN 上のどのマシンでもクラスタに参入することができてしまいます。これにより不正なユーザが
参入してクラスタサービスにフルアクセスすることも可能となってしまうからです。
J2UZ-5301-02Z2(A)
43
クラスタインタコネクトの要件
44
クラスタインタコネクトの詳細
J2UZ-5301-02Z2(A)
5
RMS (Reliant Monitor Services)
本章では、RMS の基本的な概念について説明します。まず、RMS の高可用性を実現するために用いられ
る基本的な用語と概念から始めて、その後に RMS の動作の詳細について説明します。
本章で説明する内容は以下のとおりです。
● 45 ページの "5.1 RMS の概要 " では、高可用性 (HA)、冗長化、切替えの概念について説明します。
● 47 ページの "5.2 RMS の監視と切替え " では、RMS のコンポーネントの概要と、RMS コンポーネ
ントを統合して高可用性を実現する方法について説明します。
● 51 ページの "5.3 RMS の管理 " では、GUI ( グラフィカルユーザインタフェース ) および CLI ( コ
マンドラインインタフェース ) による RMS の管理方法について説明します。
● 52 ページの "5.4 カスタマイズオプション " では、特定の顧客要件などで、RMS をカスタマイズす
る方法について説明します。
5.1
RMS の概要
RMS は、ユーザ業務に対して高可用性を実現するように設計されたソフトウェアです。最小構成として、
共用ディスク装置に接続されている 2 ノードクラスタシステムは、クラスタコンソールから管理されま
す。RMS は、ディテクタによりコンポーネントの状態や、ユーザ業務に必要とされるリソースを監視し
ます。ユーザ業務や、ユーザ業務を構成するリソースの障害が発生すると、その障害をディテクタが検
出し、RMS へ通知します。通知を受けた RMS は、次のセクションで説明するような処置を行います。
図 19 では、Solaris 上の基本的な RMS クラスタコンポーネントについて説明します。
クラスタコンソール ( 点線内に 2 台の装置を配置 )
システム管理ネットワーク
( 業務またはプライベート )
ノード -1
ノード -2
クラスタインタコネクト
コンソールアクセス用のシリアル回線
クラスタノード
共用
ディスク
共用ディスク
接続
クラスタノード
注 : クラスタコンソールでは、
クラスタノードの各コンソール
の回線をまとめて、1 台のマシ
ンからアクセスできるようにす
ることにより、シングルポイン
トの管理およびノード強制停止
を実現します。
図 19: Solaris 上の RMS クラスタ
RMS の高可用性とは、各ノードを停止させないということではなく、ユーザ業務の可用性を最大限に引
き出すことを意味しています。
RMS で高可用性を実現する方法には、冗長化と切替えの 2 種類があります。
J2UZ-5301-02Z2(A)
45
RMS の概要
5.1.1
RMS (Reliant Monitor Services)
冗長化
高可用性を保証するために、以下の冗長手法が使用されます。
● 複数台のノードでそれぞれが他のクラスタノードのリソース負荷を引き継げるように構成
● ディスクのミラー化、ハードウェア RAID、リモートミラー化によるデータの複製
● 記憶装置へのアクセスのパスの冗長化
● ノード間通信専用の通信経路の冗長化
RMS による冗長化システムは以下の要素により構成されます。
複数ノード
同一のオペレーティングシステムおよびRMSソフトウェアを導入した複数ノードによるクラスタを構成
します。RMS 構成でサポートする最大ノード数は、理論上無制限です。適切なノード数については、
1 ページの "1.2 マニュアル " の " 製品添付インストールガイド " を参照してください。
共用記憶装置
RMS 構成で定義されている全ノードで共用している、共用ディスク装置上の全てのデータにアクセスでき
るようにしておく必要があります。このためには、通常、全てのノードが SAN の共用ディスクにアクセス
できるようにしておく必要があります。ただし、NAS などの他のアクセス方法を使用することも可能です。
RMS ネットワーク
RMS では、RMS 構成で定義されているノード間の通信に、TCP/IP プロトコルを使用します。RMS は、
RMS 構成で定義されている他ノードの RMS を監視するために PRIMECLUSTER を構成する冗長化され
たクラスタインタコネクト上の Cluster Interconnect Protocol (CIP) を使用します ( 詳細については、38 ペー
ジの "4.1.3 インタコネクトプロトコル " を参照してください )。
5.1.2
アプリケーションの切替え
RMS はオブジェクト指向に基づいて設計されています。仮想ディスク、ファイルシステムのマウントポ
イント、プロセスなどのあらゆるシステムコンポーネントが「オブジェクト」として認識されます。こ
れらの「オブジェクト」は「RMS リソース」と呼ばれます。
「RMS リソース」はオブジェクトタイプ
(Object Type) と呼ばれる単位グループに分類され、オブジェクトタイプにはプロパティと呼ばれる属性
(Attribute) があり、この属性により RMS リソースに対して実行 / 監視または異常発生時のリカバリ処理
を限定または定義します。RMS リソースはディテクタと呼ばれるプログラムにより監視されます。この
ようにきわめて汎用化されたオブジェクト指向設計により、監視の種類やレベルに高度な柔軟性をもた
らすことができます。
また、互いに依存関係にあるリソースをグループ化して論理的なグループを設定することができます。
グループ内の RMS リソースに障害が発生すると、ユーザ業務全体が障害に対応することができます。
5.1.2.1 自動切替え
RMS リソースの障害が検出されると、ユーザが定義した処理が実行されます。多くの場合、障害に対す
る最大の対処法は切替処理です。
切替処理はフェイルオーバとも呼ばれ、最初にユーザ業務を Offline 状態にしてから、RMS の制御に
より他のノード上でユーザ業務を再起動します。RMS では、対称的な切替えの定義が可能です。たとえ
ば、全ての RMS ノードが他の任意の RMS ノードからリソースを引継ぐことができるように設定するこ
とが可能です。これにより、ユーザ業務を実行中のノードに障害が発生すると、RMS は自動的にその
ノードを停止して、ユーザ業務を稼動中の他のノードに切替えます。
自動切替えの詳細は、障害の発生時に RMS が起動するユーザ定義スクリプトおよび構成定義情報ファイ
ル (us ファイル ) に定義されます。このファイルの作成には、RMS ウィザードが使われます。
46
J2UZ-5301-02Z2(A)
RMS (Reliant Monitor Services)
RMS の監視と切替え
5.1.2.2 手動切替え
RMS で監視しているユーザ業務を手動切替えすることで、ハードウェアのメンテナンスなどを行うこと
ができます。たとえば、2 ノードの RMS 構成では、1 台のノードのメンテナンスを行う場合は、全ての
ユーザ業務を一時的にもう 1 台のノードに切替え、ノードのメンテナンスを行います。メンテナンス完
了後、もう 1 台のノードに対するメンテナンスを行うために、ユーザ業務の切戻しを行います。なお、
RMS の切替えを実行している間、ユーザ業務が提供するサービスが瞬間的に中断する可能性があります。
また、全てのアプリケーションが 1 台のノード上で動作している間は、負荷が集中することにより、応
答時間が低下する可能性があります。
5.1.2.3 IP エイリアス
RMS では IP エイリアスを使うことにより、IP アドレス切替えを可能としています。これにより、1 つの
物理ネットワークインタフェースに対して、複数の IP アドレス (IP エイリアス ) を割当てることができ
ます。この IP エイリアスを行うことで、RMS の切替えの結果、他のノードでユーザ業務を実行する場合
にも、ユーザは同じ IP アドレスで通信を続けることができます。この機構により、PRIMECLUSTER は
IP アドレス引継ぎを可能とします。
5.1.2.4 データの整合性
RMS により、ユーザ業務の切替えを実行する場合には、RMS は現在のノード上のユーザ業務に関連する
全ての RMS リソースを Offline にしてから、次にこれらの RMS リソースを新しく稼動させるノード
上で Online にします。この手順を踏むことにより、複数ノードが同じ共有資源に対するアクセスの競
合により、データが破損する危険を回避することができます。
複数の障害が同時に発生 ( 二重故障または三重故障 ) した場合には、RMS は切替え自体を禁止して競合
によるデータの破損を防ぎます。そのため、特定の状況では切替えが全くできなくなるケースもありえ
ます。
RMS では高可用性を目標にしていますが、データが破損する恐れがある場合は高可用性よりもデータの
整合性を優先します。
5.2
RMS の監視と切替え
RMS は、RMS リソースの高可用性を実現するために、以下のプロセス、スクリプト、ファイル、パラメ
タで構成されます。
● BM ( ベースモニタ )
● 構成定義ファイル
● 構成スクリプト
● ディテクタ
● RMS 環境変数
構成スクリプト、ファイル、および環境変数はカスタマイズ可能であり、切替えに対する顧客固有のニー
ズに合わせて調整することができます ( カスタマイズの詳細については、52 ページの "5.4 カスタマイズ
オプション " を参照してください )。
J2UZ-5301-02Z2(A)
47
RMS の監視と切替え
5.2.1
RMS (Reliant Monitor Services)
BM ( ベースモニタ )
BM ( ベースモニタ ) は、RMS クラスタからノードを監視するための中心的なプロセスです。BM は以下
の機能を実行します。
● RMS の全ての状態変更を制御および調整
● 監視中のリソースに問題が発生した場合に定義に従いリカバリ処置の実施
● RMS リソースに関する情報を取得し、システム管理者が RMS の使用要件に応じて作成した RMS
構成定義ファイルからリカバリ処理を実行
BM は Cluster Admin GUI または hvcm コマンドで起動され、クラスタの各ノード上で bm という名前の
プロセスとして実行されます。
5.2.2
構成定義ファイル
RMS 構成定義ファイルは通常、RMS Wizard Tools によって生成されるテキストファイルで、以下に記載
する RMS で監視するリソースオブジェクトの定義やオブジェクトの相互依存性などの RMS オブジェク
トの構成が格納されます。RMS 構成定義ファイルの記述内容は RMS 実行時に BM に渡されます。
5.2.2.1 オブジェクト間の依存関係
RMS では、親 (Parent) および子 (Child) という用語は、オブジェクトおよび RMS リソースオブジェクト
間の依存関係を示します。リーフオブジェクト (Leaf Object) という用語は、子が存在しないシステムグ
ラフのオブジェクトを示します。リーフオブジェクトは構成定義ファイルの最初に定義されます。リー
フオブジェクトは子を持つことができませんが、子は親および子を持つことができます。
図 20 は、オブジェクト間の親子関係を示しています。
A
B の親
(Parent)
C および D の
親 (Parent)、かつ
A の子 (Child)
C
C
リーフ (Leaf)、
B の子 (Child)
B
D
リーフ (Leaf)、
B の子 (Child)
図 20: オブジェクトの親子関係
48
J2UZ-5301-02Z2(A)
RMS (Reliant Monitor Services)
RMS の監視と切替え
図 20 は、以下の関係を示しています。
● オブジェクト A が正常に動作するためには オブジェクト B が必要。オブジェクト A はオブジェ
クト B の親 (Parent) であり、オブジェクト B はオブジェクト A の子 (Child) である。
● オブジェクト B が正常に動作するためにはオブジェクト C およびオブジェクト D が必要。オブ
ジェクト B はオブジェクト C およびオブジェクト D の親 (Parent) である。
● 子 (Child) が存在しないオブジェクト C およびオブジェクト D はリーフオブジェクト (Leaf Object)
である。オブジェクト C およびオブジェクト D は、オブジェクト B の子でもある。
5.2.2.2 オブジェクトタイプ (Object Type)
オブジェクトタイプ (Object Type) とは、監視方法等を共有する同種のリソースグループとしてまとめた
ものです ( 例として、グループ内の全てのオブジェクトが同じディスク装置を使用する場合などがあり
ます )。グループ内の全てのオブジェクトに対する各オブジェクトタイプには、属性 (Attribute) が存在し、
この属性により RMS リソースに対して実行する監視の種類を限定または定義します。つまり、特定のオ
ブジェクトタイプに関連付けられた属性を使って、RMS リソースに対する BM の動作方法を定義するこ
とができます。属性は一般にデバイス名やスクリプトを指定するために使用され、RMS リソースのオブ
ジェクト定義 (Object Definition) により任意の順序で指定することができます。
属性には必須属性と任意属性があります。必須属性の例として、vdisk オブジェクトタイプのデバイス
名の指定があります。また、一般的な任意属性の例として、ある特殊な条件下で実行されるようなスク
リプトがあります。多くの属性は、ほとんどのオブジェクト定義に使用されます。
一方、特定のオブジェクトタイプのみに有効な属性や、オブジェクト定義に特定の属性を使用すること
が必須とされるオブジェクトタイプもあります。
5.2.2.3 オブジェクト定義 (Object Definition)
オブジェクト定義 (Object Definition) とは構成定義ファイルに記述されるステートメントで、"object" と
いうキーワードで始まります。このキーワードにより、RMS が認識できる用語で特定のリソースを指定
します。オブジェクト定義に指定する項目を以下に示します。
● オブジェクトタイプ (Object Type)
● RMS リソース名
● 属性 (Attribute)
● 特定の RMS リソースが依存している子 (Child) RMS リソース
RMS のインストールおよび確認が完了したら、RMS リソースの監視を開始する前に、構成定義ファイル
を設定する必要があります。構成定義ファイルのオブジェクト定義に指定されていない対象に対しては、
RMS リソースとして RMS に認識されることはありません。
5.2.3
構成スクリプト
RMS 構成スクリプトは、RMS リソースの状態の変化に反応したり、状態の変化を呼び出したりするシェ
ルプログラムまたは実行可能ファイルの集まりです。
RMS リソースの状態には以下の種類があります。
● Faulted
● OfflineFault
● Offline
● Online
● Unknown
J2UZ-5301-02Z2(A)
49
RMS の監視と切替え
RMS (Reliant Monitor Services)
● Wait
● Deact
● Inconsistent
● Standby
● Warning
RMS の活性処理またはリカバリ処理は、全てのスクリプトにより実行されます。スクリプトを使用しな
い場合、RMS リソースの監視は可能ですが、どんな状態変化による活性処理も行われません。スクリプ
トは特定リソースのオブジェクト定義 (Object Definition) の属性 (Attribute) として認識され、また、ディ
テクタから状態の変化に応じて BM から実行されます。たとえば、RMS ネットワークリソースの状態が
Online から Faulted に変わると、BM は RMS リソースのオブジェクト定義に定義されている
FaultScript を起動します。
RMS のスクリプトは、状態を変更するスクリプト ( 要求トリガ・スクリプト ) と状態に反応して動作す
るスクリプト ( 状態トリガ・スクリプト ) に分類されます。
要求トリガ・スクリプトを以下に示します。
● PreOnlineScript
● PreOfflineScript
● PreCheckScript
● OnlineScript
● OfflineScript
● OfflineDoneScript
状態トリガ・スクリプトを以下に示します。
● PostOnlineScript
● PostOfflineScript
● FaultScript
使用している RMS によっては、追加スクリプトが含まれている場合もあります。
RMS リソース状態およびスクリプトの詳細についてはマニュアル、"RMS 導入運用手引書 4.1 (Solaris™
オペレーティングシステム /Linux 版 )" を参照してください。
50
J2UZ-5301-02Z2(A)
RMS の管理
RMS (Reliant Monitor Services)
5.2.4
ディテクタ
ディテクタとはリソースの状態を監視してベースモニタにリソースの状態を通知するものです。
各ディテクタは 1 つ以上のリソースに関する情報を内部テーブルで管理します。ディテクタは内部テー
ブルに記録されている各 RMS リソースを検索し、各 RMS リソースの最新の状態を取得して、最新の状
態と前回の状態を比較します。最新の状態と現在の状態が異なる場合、ディテクタは該当する RMS リ
ソースタイプのディテクタ通知用待ち行列 (Detector Report Queue) により、BM に最新の状態を通知しま
す。BM は、構成定義ファイルからの情報に基づいてリソースの状態に応じた処理を実行します。
図 21 は、BM と RMS ディテクタ間の通信フローを示しています。
ノード 1
ノード 2
hvdet_node
hvdet_node
汎用ディテクタ 1
汎用ディテクタ 1
汎用ディテクタ K
汎用ディテクタ K
ディテクタ
要求
キュー
ディテクタ
要求
キュー
ディテクタ通知用待ち行列
(Detector Report Queue)
ディテクタ通知用待ち行列
(Detector Report Queue)
BM
BM
CLI
ADMIN キュー
CLI
ADMIN キュー
RMS ネットワーク
図 21: BM ( ベースモニタ ) の通信フロー
5.2.5
RMS 環境変数
ユーザは RMS 環境変数を使って、BM に起動時に BM を対して値を指定します。RMS には可用性を高める
ための HV_AUTOSTARTUP_WAIT、RELIANT_PATH などの数多くの RMS 環境変数があります。RMS 環
境変数のデフォルト設定は各クラスタシステムおよびユーザ業務に応じて調整することができます。
5.3
RMS の管理
RMS の管理には 2 種類の方法があります。1 つはコマンドラインインタフェース (CLI) によるもので、も
う 1 つはグラフィカルユーザインタフェース (GUI) によるものです。Cluster Admin GUI を使用すること
を推奨します。
J2UZ-5301-02Z2(A)
51
カスタマイズオプション
5.4
RMS (Reliant Monitor Services)
カスタマイズオプション
障害の検出およびリカバリ方法を、ユーザ要件、システム環境に応じてカスタマイズすることができま
す。このカスタマイズは、RMS の監視対象リソースの構成定義ファイル、ディテクタ、スクリプトを変
更することにより行います。構成変更は、あらかじめ事前に計画 / 設計をしておいて、十分なテストを
実施した上で、カスタマイズする必要があります。
5.4.1
汎用リソースタイプとディテクタ
RMS には、IP エイリアス、ファイルシステムなどの、通常のシステムレベルのリソースタイプでは使用
できないような専用リソースを定義するための、汎用リソースタイプがあります。このような汎用リソー
スを監視するための、汎用ディテクタは、最大 64 種類のリソースタイプおよびディテクタを定義するこ
とができます。
52
J2UZ-5301-02Z2(A)
RMS ウィザード
6
本章では、RMS ウィザードの基本的な概念について説明します。まず概要を説明し、次に 2 つの主要な
RMS ウィザード製品とその機能について検討します。
本章で説明する内容は以下のとおりです。
● 53 ページの "6.1 RMS ウィザードの概要 " では、ウィザード製品について説明します。
● 53 ページの "6.2 RMS ウィザードのアーキテクチャ " では、RMS Wizard Tools と RMS Wizard Kit
という 2 つのウィザード製品について説明します。
● 54 ページの "6.3 RMS Wizard Tools" では、RMS Wizard Tools の機能について説明します。
● 55 ページの "6.4 RMS Wizard Kit" では、RMS Wizard Kit の機能について説明します。
6.1
RMS ウィザードの概要
複数の顧客アプリケーションを組み合わせて、顧客環境に合わせた RMS 構成を作成するのは、非常に複
雑な作業であるため、ユーザ業務で使用する各アプリケーションと、RMS 環境に詳しい専門家が必要に
なります。しかし、RMS ウィザードを使えば、RMS の構成設定および運用が簡単に行うことができます。
RMS ウィザードはシステム、RMS、およびアプリケーションを管理します。ただし、RMS、RMS
Wizard Tools、RMS Wizard Kit は別コンポーネントの扱いをとります。
6.2
RMS ウィザードのアーキテクチャ
RMS ウィザードは主に 2 つの製品分野に分かれます。
● RMS Wizard Tools — RMS ウィザードのフレームワークおよび RMS BM ( ベースモニタ ) とのイン
タフェースを提供します。RMS 構成の設定が簡素化され、RMS および RMS Wizard Kit との統合
により HA クラスタ環境が強化されます。
● RMS Wizard Kit — 顧客環境に合わせたユーザ業務を実現する RMS HA環境を構築します。
RMS Wizard
Kitは、各ユーザ業務に最適な RMS HA 環境を構築するための別売のソフトウェアオプションです
(RMS Wizard Kitを使用するには、RMS Wizard Toolsを購入してインストールする必要があります)。
RMS Wizard Kit の可用性についての詳細は、当社技術員 (SE) にお問い合わせください。
J2UZ-5301-02Z2(A)
53
RMS ウィザード
RMS Wizard Tools
図 22 は、この 2 つの製品間および RMS との関連性を示しています。RMS Wizard Kit を使用するには、
RMS Wizard Tools が必要です。
PRIMECLUSTER
RMS
基盤
RMS
Wizard Tools
RMS
Wizard Kit
- 汎用ディテクタ
- IT インフラストラ
クチャ用
ユーティリティ
RMS に統合される
オプション製品
- アプリケーション
ディテクタ
- テンプレート
訓練を受けたコンサンルタントが使用
し、固有のアプリケーションを構成し
て可用性を高める — RMS Wizard Tools
が必要
図 22: RMS ウィザードのアーキテクチャ
6.3
RMS Wizard Tools
オプション製品である RMS Wizard Tools は、高可用性の RMS 構成を作成および管理する製品です。RMS
Wizard Tools には以下の機能があります。
● RMS Wizard Kit との連携により RMS 構成を作成
● クラスタ内のノード上で構成設定済みのユーザ業務の起動
● 構成全体をコピー
● 構成の変更を許可または禁止
さらに可用性の高い構成にするには、RMS Wizard Tools のユーティリティウィザードを使用します。ユー
ティリティウィザードは個別のアプリケーションウィザードではサポートされていない、以下のような
システムの標準的なリソースおよびアプリケーションを管理します。
● ファイルシステムのマウントとアンマウント
● IP エイリアス ( 仮想 IP 割当 ) の設定と解除
● 仮想ディスクの構成および構成解除
6.3.1
共用ディスク装置への対応
アプリケーションウィザードにより、RMS 構成をさまざまなディスク装置用に設定できます。たとえば、
GDS、Veritas VxVM などのソフトウェアベースのソリューションを構成することも、EMC などのハード
ウェアソリューションを構成することもできます。このウィザードには複数のSAN (Storage Area Network)
モジュールを構成する機能があります。この機能により、各モジュールを組み合わせることができます。
54
J2UZ-5301-02Z2(A)
RMS ウィザード
6.4
RMS Wizard Kit
RMS Wizard Kit
RMS Wizard Kit により、ユーザ固有のユーザ業務に応じて、RMS HA 構成を設定することができます。
RMS Wizard Kit で作成された RMS 構成は、RMS Wizard Tools および RMS で使用することができます。
RMS Wizard Kit の可用性についての詳細は、当社技術員 (SE) にお問い合わせいただくか、RMS
ウィザードのマニュアルパッケージを参照してください ( 詳細については 1 ページの "1.2 マニュ
アル " を参照してください )。
RMS Wizard Kit により、顧客要件に合わせたユーザ業務を構築し、可用性を向上させることができます。
RMS Wizard Kit には、各アプリケーションソフトウェア固有のディテクタ、定義、およびアプリケーショ
ンソフトウェアにユーザパラメタを入力するためのテンプレートが事前定義されて提供されます。
各アプリケーションソフトウェア固有のディテクタは、対象となる特定アプリケーションソフトウェア
を RMS リソースとして監視します。ひとたび RMS リソースに障害が検出されると、ユーザ定義のリカ
バリ処理が実行されます。RMS 上でのディテクタの機能の詳細については、51 ページの "5.2.4 ディテク
タ " を参照してください。
J2UZ-5301-02Z2(A)
55
RMS Wizard Kit
RMS ウィザード
56
J2UZ-5301-02Z2(A)
7
SIS (Solaris)
本章では、Scalable Internet Services (SIS) の基本的な概念とコンポーネントについて説明します。その後
に SIS コンポーネントの機能とサービスについて説明します。
本章で説明する内容は以下のとおりです。
● 57 ページの "7.1 SIS の概要 " では、SIS テクノロジーの概念について説明します。
● 60 ページの "7.2 SIS クラスタシステムの設計例 " では、SIS クラスタの例を示します。
● 61 ページの "7.3 VIP 負荷分散アルゴリズム " では、SIS ユーザが利用することのできる VIP の負
荷分散について説明します。
● 61 ページの "7.4 プロキシアドレス (Proxy Address)" では、プロキシアドレス (Proxy Address) の使
用方法および機能について説明します。
● 61 ページの "7.5 プライベートアドレス (Private Address)" では、プライベートアドレス (Private
Address) の使用方法および機能について説明します。
● 61 ページの "7.6 バックアップノード " では、バックアップノードの概念および機能について説明
します。
7.1
SIS の概要
SIS は PRIMECLUSTER テクノロジーに基づいた、拡張性があり、耐故障性を備えたネットワーク (Fault
Tolerant Network) 環境を提供します。SIS の機能により、PRIMECLUSTER は高拡張、高信頼で、かつ、
管理が容易なネットワークサーバシステムとして機能することができます。SIS クラスタのサービスへの
アクセスにおいては、1 つ以上の仮想インタフェース (VIP) アドレスを使用することで、SIS クラスタシ
ステムは、クライアントからはあたかも 1 台のネットワークサーバとして動作しているかのように認識
されます。
SIS クラスタシステムを構成するノード群は、複数のネットワークサービスの負荷を共有して分散しま
す。SIS を使うことで、ユーザはネットワークサービス単位に負荷分散を行う構成を作成して、各アプリ
ケーションソフトウェアおよび顧客固有の要件に応じて負荷分散アルゴリズムを適用して、最適な
チューニングを行うことができます。
また、SIS は以下のように、一点故障を回避し、かつ、可用性を保証します。
● SIS クラスタシステムのノードに障害が発生した場合、障害発生ノードを回避してアクセス要求を
調整する。
● SIS モジュールに障害が発生した場合、適切なリカバリを行う。
● 障害発生ノードの再起動時には、SIS クラスタシステムにシームレスに参入してパフォーマンスを
回復する。
● 発信パケットを正常ノードの正常 NIC から送出するようルーティングすることにより、NIC 障害
から復旧。
7.1.1
機能
SIS には以下の特長があります。
● クライアントに単一の IP アドレスを提供する機能
● クラスタノードやネットワークサービスを容易に追加
● ポート単位に構成可能な TCP および UDP サービス
● 多様な負荷分散アルゴリズムのサポート
● クラスタノード異常、ネットワークサービス異常、コンポーネント障害のシームレスな処理
J2UZ-5301-02Z2(A)
57
SIS の概要
SIS (Solaris)
● 柔軟なバックアップノード管理
● サテライトノード (Satellite Node) のサポート
● Windows 2000 サービスノードをサポート
● クラスタシステム用のプロキシアドレス (Proxy Address)
● クラスタノード間の専用通信
● ソフトウェアベースのソリューション
● GUI ベースの環境構築および管理
以下に各種 SIS モジュールについて説明します。
7.1.2
サービス提供ノード (Service Node)
サービス提供ノード (Service Node) は、Web サービスやディレクトリサービスなどのネットワークサービ
スを提供します。サービス提供ノードに障害が発生すると、ネットワークサービスはそのサービス提供
ノードを回避してスケジューリングされます。障害発生ノードはリカバリ後、SIS クラスタシステムに
シームレスに再参入します。
7.1.3
ゲートウェイノード (Gateway Node)
各 VIP アドレスには、それぞれ 1 つのゲートウェイノード (Gateway Node) があります。全ての受信パケッ
トはゲートウェイノードで受信され、ネットワークサービスのスケジューリングアルゴリズムに従って
選択したサービス提供ノード (Service Node) に転送されます。ゲートウェイノードに障害が発生すると、
他のクラスタノードがシームレスに障害発生ノードのかわりにゲートウェイノードの役割を引継ぎま
す。
7.1.4
プライマリデータベースノード (Primary Database Node)
プライマリデータベースノードは、SIS クラスタシステムの静的データおよび動的データを管理します。
静的データには SIS クラスタのノード一覧、VIP アドレス、提供するネットワークサービス、スケジュー
リングアルゴリズムなどがあります。動的データには現在の接続一覧、SIS クラスタシステムの現在の状
態の情報などがあります。
7.1.5
バックアップデータベースノード (Backup Database Node)
バックアップデータベースノードは、プライマリデータベースノード (Primary Database Node) の障害発生
時に、プライマリデータベースノードの機能を引継ぎます。また、SIS は複数のバックアップデータベー
スノード (Backup Database Node) を使用することが可能です。各バックアップデータベースノードは、静
的構成の詳細情報を保持しており、動的構成項目は稼動中の全てのノードから SIS が収集します。これ
によりネットワークの中断を最小限にとどめます。
7.1.6
サテライトノード (Satellite Node)
サテライトノード (Satellite Node) とは、SIS の機能の一種で、通常の SIS パッケージで提供される統合機
能と管理機能を利用しつつ、同等のネットワークサービスをより効率的に提供します。サテライトノー
ドと通常の SIS ノードとの相違は以下のとおりです。
● サテライトノードは、SIS データベースノード (Database Node) / SIS ゲートウェイノード (Gateway
Node) としては動作しない。
● サテライトノードは、CF クラスタのメンバである必要はない。
● サテライトノードは、Windows 2000 や Linux でも動作可能。
58
J2UZ-5301-02Z2(A)
SIS の概要
SIS (Solaris)
図 23 は、5 ノードの SIS 構成で、通常の SIS ノードが 3 つ、Linux サテライトノード (Satellite Node) が
1 つ、Windows 2000 サテライトノードが 1 つで構成されています。
SIS コアノード群
SIS ゲートウェイ SIS データ
ノード
ベースノード
(Gateway Node) (Database
Node)
SIS サテライトノード (Satellite Node) 群
SIS バックアップ
データベース
ノード
(Backup Database
Node)
Linux
サテライトノード
(Satellite Node)
Windows 2000
サテライトノード
(Satellite Node)
SIS 全機能
SIS による管理
全てのネットワークサービスを提供
図 23: サテライトノードを使用した SIS クラスタ例
J2UZ-5301-02Z2(A)
59
SIS クラスタシステムの設計例
7.2
SIS (Solaris)
SIS クラスタシステムの設計例
図 24 は、1 つのゲートウェイノード (Gateway Node) と 2 つのサービス提供ノード (Service Node) で構成
される SIS クラスタシステムの例です。クライアントから要求を受信した後の SIS クラスタの処理手順
の例を以下に示します。
クラスタのインタコネクト
(3)
サービス提供ノード (2)
(Service Node)
(4)
ゲートウェイノード
(Gateway Node)
サービス提供ノード
(Service Node)
イントラネット
(5)
ファイアウォール
インターネット
(1)
図 24: SIS クライアントおよびサーバの図
図 24 では、SIS クラスタは以下のように動作します。
1. クライアントがネットワークによりサービスを要求する。この場合 1 つの IP アドレスのみを参照
します。クライアントは SIS クラスタシステムの単一の IP アドレス (VIP アドレス ) に対して、
ネットワークサービス要求を行う。
2. ゲートウェイノード (Gateway Node) が最初の接続要求を受信する。
3. ゲートウェイノード (Gateway Node) とデータベースノード (Database Node) がスケジューリング方
針と処理可能なネットワークサービスに基づいて、サービス提供ノード (Service Node) を選択す
る。サービス提供ノードはサテライトノード (Satellite Node) の場合もあります。このスケジュー
リングが必要なのは一番最初のアクセス要求時のみです。後続のデータパケットはサービス提供
ノードに直接ルーティングされます。
4. サービス提供ノード (Service Node) が要求を処理してクライアントに直接応答する。
5. クライアントが応答を受信する。
60
J2UZ-5301-02Z2(A)
SIS (Solaris)
7.3
VIP 負荷分散アルゴリズム
VIP 負荷分散アルゴリズム
SIS には以下の負荷分散アルゴリズムがあり、このアルゴリズムはポート単位に設定可能です。
● キープローカル (Keep Local) — ゲートウェイノード (Gateway Node) が一切の処理オーバヘッドな
しに要求に応答します。
● クライアントベース (Client Based) — クライアントの IP アドレスに基づいてサービス提供ノード
(Service Node) が選択されます。
● システム負荷 (System Load) — システム負荷が最も低いノードが選択されます。SIS の内部アルゴ
リズムにより計算されます。
● ラウンドロビン (Round Robin) — 稼動中の全てのノードがサイクリックに選択されます。
● スピルオーバ (Spillover) — プライマリノードのシステム負荷 (System Load) が、設定されたしきい
値に達した場合、負荷を減らすためにバックアップノードが選択されます。
● 重みコネクション数 (Weighted Connection Count) — SIS はコネクション数が最も少ないノードを選
択します。各ノードには重みが設定され、コネクション数はこの重みに従って平均化されます。
7.4
プロキシアドレス (Proxy Address)
プロキシアドレス (Proxy Address) を定義することで、1 つのノードに複数の仮想アドレスを割当てるこ
とができます。プロキシアドレスにはフェイルオーバ機能があり、高い可用性が保証されます。プロキ
シアドレスには以下の使用方法があります。
● 1 つのノードに複数アドレスを共存させる。
● インターネット接続機能のないノードに外部接続を割当てる。
● ノードにバックアップノードを割当てる。
7.5
プライベートアドレス (Private Address)
SIS クラスタシステムの稼動中の各ノードに対して、プライベートアドレス (Private Address) を設定する
ことができます。これらのアドレスは、一般的に、インタコネクトおよび IP プロトコルによるノード間
通信に使用されます。プライベートアドレスは、安全かつ高速で、また、冗長化したインタコネクトを
使用することで高可用性も保証されます。
7.6
バックアップノード
各サービスのサービス提供ノード (Service Node) には、複数ノードを指定することができます。また、各
サービス提供ノードには、1 つ以上のバックアップノードを指定することができ、バックアップノード
は待機状態、もしくは、他のタスクを実行させることが可能です。ノードに障害が発生すると、バック
アップノードが構成定義ファイルの設定に従って障害発生ノードに切替わります。
J2UZ-5301-02Z2(A)
61
バックアップノード
62
SIS (Solaris)
J2UZ-5301-02Z2(A)
用語集
AC
アクセスクライアントを参照。
API
アプリケーションプログラムインタフェースを参照。
BM ( ベースモニタ ) (RMS)
RMS の中心となるリソースの可用性を管理するモジュールプロセス。BM ( ベースモニタ ) はデーモ
ンとディテクタから構成され、RMS が管理するオブジェクトの状態変更の調整 / 制御を行う。監視
中の RMS オブジェクトに異常が発生した場合には、構成定義に従ってリカバリ処理 ( ローカルリカ
バリまたはリモートリカバリ ) を実行する。
Cache Fusion
Oracle 9i で改良されたプロセス間通信インタフェース。論理ディスクブロック ( バッファ ) を更新す
る際、各ノードのローカルメモリ上にキャッシュされているブロックをディスクにフラッシュする
かわりに、インタコネクト経由で、ブロックを他のノードにコピーすることで、物理 I/O のオーバー
ヘッドをなくし、処理を高速化することができる。
CCBR
クラスタ構成のバックアップおよびリストアを参照。
ccbr.conf
/opt/SMAW/ccbr ディレクトリに配置されるバックアップ / リストア用の環境設定ファイル。
$CCBRHOME 変数の設定などに使用します。詳細は、cfbackup(1M) コマンドおよび
cfrestore(1M) コマンドのマニュアルページおよび ccbr.conf ファイル内のコメントを参照して
ください。
ccbr.gen
/opt/SMAW/ccbr ディレクトリに配置される世代数を格納するためのファイル。0 以上の値が格納
されます。詳細は、cfbackup(1M) コマンドおよび cfrestore(1M) コマンドのマニュアルページを
参照してください。
CCBRHOME 変数
バックアップデータが格納されるディレクトリを示します。初期値は /var/spool/pcl4.1/ccbr
ディレクトリになります。この変数は、ccbr.conf ファイルでのみ設定可能です。
CF
Cluster Foundation を参照。
Cluster Foundation
基本的なクラスタリング通信サービスを提供する PRIMECLUSTER モジュールの集まり。
関連項目
クラスタ基盤
DOWN (CF)
ノードが使用不可であることを示すノード状態 (DOWN 状態と呼ぶ )。LEFTCLUSTER 状態のノードを
クラスタに再参入させるためには、事前にそのノードの状態を DOWN に変更する必要がある。
関連項目
UP、LEFTCLUSTER、ノード状態
ENS (CF)
イベント通知サービスを参照。
GDS
Global Disk Services を参照。
J2UZ-5301-02Z2(A)
63
用語集
GFS
Global File Services を参照。
GFS 共用ファイルシステム
GFS 共用ファイルシステムは、共用ディスク装置を接続した複数の Solaris から一貫性 / 整合性を
保った同時アクセスが可能であり、一部のノードがダウンしても、他のノードは処理を継続できる
ことを特長とする共用ファイルシステムです。GFS 共用ファイルシステムは、複数のノードから同
時にマウントして使用できます。
GFS ローカルファイルシステム
GFS ローカルファイルシステムは、ファイルデータの連続ブロック割り当てによる高性能なファイ
ルアクセス、システムダウン後の高速な整合性回復機能による、高速なファイルシステム切替えを
特長とするローカルファイルシステムです。GFS ローカルファイルシステムは、1 ノードで使用する
か、または 2 ノードで切替えファイルシステムとして使用します。
Global Disk Services
ディスク装置に格納されたデータの可用性と運用管理性を向上させるためのボリューム管理機能を
提供するサービス。
Global File Services
クラスタ内の 2 つ以上のノードから共有記憶ユニットのファイルシステムの直接、同時アクセス機
能を提供するサービス。
Global Link Services
ネットワーク伝送路を冗長化することにより、ネットワークの高可用性を実現するサービス。
GLS
Global Link Services を参照。
GUI
グラフィカルユーザインタフェースを参照。
IP アドレス
インターネットプロトコルアドレスを参照。
IP エイリアス
1 つの物理ネットワークインタフェースに複数の IP アドレス ( エイリアス ) を割り当てる機能。IP
エイリアスにより、他のノードでアプリケーションを実行する場合にも同じ IP アドレスで通信を続
けることができる。
関連項目
インターネットプロトコルアドレス
JOIN (CF)
クラスタ参入サービスを参照。
LAN
業務 LAN を参照。
LEFTCLUSTER (CF)
ノードが同じクラスタにある他のノードと通信できないことを示すノード状態。ノードがクラスタ
を離れていることになる。LEFTCLUSTER という中間状態は、ネットワークパーティションの問題
を防ぐために設けられている。
関連項目
UP、DOWN、ネットワークパーティション、ノード状態
MAC アドレス
MAC address。ローカルエリアネットワーク (LAN) の MAC 副層で用いられる局、あるいはノードを
示すアドレス。
64
J2UZ-5301-02Z2(A)
用語集
MDS
メタデータサーバを参照。
MMB
PRIMEQUEST に搭載されるハードウェアの 1 つである Management Board の略称。
NIC 切替方式
GLS が提供する LAN 二重化方式の 1 つ。二重化した NIC を排他使用し、Solaris サーバとスイッチ
ング HUB 間の LAN 監視と異常検出時の切替えを実現する。
OPS
Oracle パラレルサーバを参照。
Oracle パラレルサーバ
Oracle パラレルサーバは、クラスタ化されたプラットフォームまたは MPP (massively parallel
processing) プラットフォームのユーザおよびアプリケーションにデータベースの全てのデータへの
アクセス機能を提供する。
OSD (CF)
オペレーティングシステム依存を参照。
PRIMECLUSTER サービス (CF)
クラスタ化アプリケーションにサービス、および内部インタフェースを提供するサービスモジュー
ル。
RC2000
各ノードの OS コンソールを操作するための機能を提供するソフトウェア (Java アプリケーション )。
RCCU
リモートコンソール接続装置 (Remote Console Connection Unit) の略称。
関連項目
リモートコンソール接続装置
Reliant Monitor Services (RMS)
監視、および切替機能によりユーザが指定したリソースの高可用性を維持するサービス。
RMS
Reliant Monitor Services を参照。
RMS Wizard Kit
RMS Wizard Kit の各コンポーネントは、特定のアプリケーション (Oracle, R/3) の RMS ウィザード
ツールに新しいメニュー項目を追加する。
関連項目
RMS Wizard Tools、Reliant Monitor Services、RMS ウィザード
RMS Wizard Tools
RMS 構成のアプリケーションの作成および管理に使用する各種設定、および管理ツールで構成され
るソフトウェアパッケージ。RMS ウィザードの基盤および、BM ( ベースモニタ ) とのインタフェー
スを提供する。
関連項目
RMS Wizard Kit、RC2000
RMS ウィザード
RMS が動作するための構成定義を作成するためのソフトウェアツール。RMS ウィザードは、RMS
Wizard Tools と RMS Wizard Kit の 2 つによって構成されている。
関連項目
J2UZ-5301-02Z2(A)
RMS Wizard Tools、RMS Wizard Kit
65
用語集
RMS 構成
複数のノードを共用リソースに接続する構成。各ノードはオペレーティングシステム、RMS ソフト
ウェア、固有アプリケーションのコピーを固有に保持する。
RMS コマンド
RMS リソースをコマンドラインから管理するコマンド。
SAN
Storage Area Network を参照。
Scalable Internet Services (SIS)
Scalable Internet Services の TCP 接続は、各接続の通常のクライアント / サーバセッションを維持しな
がらクラスタノード間のネットワークアクセス負荷を動的に分散する。
SCON
シングルコンソールを参照。
SDX オブジェクト (GDS)
クラス、グループ、SDX ディスク、ボリュームなど、GDS が管理する資源の総称。
SDX ディスク (GDS)
GDS が管理しているディスクの総称。SDX ディスクは、用途に応じてシングルディスク、キープ
ディスク、スペアディスク、および未定義ディスクと呼ばれる場合があります。SDX ディスクを単
に「ディスク」と呼ぶ場合もあります。
SIS
Scalable Internet Services を参照。
Storage Area Network
複数の外部記憶装置どうしを接続し、複数のコンピュータに接続する高速ネットワーク。通常は
ファイバチャネルの接続。
UP (CF)
ノードが同じクラスタにある他のノードと通信できることを示すノード状態。
関連項目
DOWN、LEFTCLUSTER、ノード状態
Web-Based Admin View
PRIMECLUSTER のグラフィックユーザインタフェースを活用するための共通基盤。インタフェース
は Java で記述されている。
Wizard Kit (RMS)
RMS Wizard Kit を参照。
XSCF
eXtended System Control Facility の略。本体装置の CPU とは独立した専用プロセッサで構成されてい
るシステム監視機構。冷却部 (FAN ユニット )、電源ユニット、システム状態監視、周辺装置の電源
投入/切断、異常監視を一括して制御する。さらに、遠隔地からの本体装置の管理を可能にするため
にシリアルポートまたはイーサネット接続経由で、本体装置をモニタする機能、故障情報をシステム
管理者に通報する機能、コンソール入出力機能を兼ね備えている。
アクセスクライアント
各ノード上の GFS カーネルモジュール。メタデータサーバと通信し、共用ファイルシステムへの同
時アクセス機能を提供する。
関連項目
66
メタデータサーバ
J2UZ-5301-02Z2(A)
用語集
アプリケーションテンプレート (RMS)
定義済みのオブジェクト定義の値の集まり。RMS Wizard Kit で特定タイプのクラスタアプリケー
ションのオブジェクト定義を作成する際に使用される。
アプリケーションプログラムインタフェース
アプリケーションが、OS などのサービスプロバイダが提供するサービスを利用する際に使うインタ
フェース。
イーサネット
IEEE802.3 にて標準化された LAN 規格。現在、特殊な用途を除いて、ほとんどの LAN はイーサネッ
トである。なお、イーサネットという表現は元々 10 メガバイト / 秒タイプの LAN 規格の名称であ
るが、現在は高速イーサネット / ギガバイトイーサネットをも含んだ総称としても用いられる。
イベント通知サービス (CF)
クラスタ内で発生したイベントをノード間にブロードキャストする機能を提供する PRIMECLUSTER
モジュール。
インストールサーバ
ネットワークを通じてクライアントマシンにオペレーティングシステムをインストールできるため
の設定を施したサーバ。
インターネットプロトコルアドレス
コンピュータまたはアプリケーションに割り当てられる数値アドレス。
関連項目
IP エイリアス
インタコネクト (CF)
クラスタインタコネクトを参照。
ウォッチドックタイマ監視
OS ハングやブート異常を監視するタイマ値。
ウィザード (RMS)
テスト済みのオブジェクト定義を使って特定タイプのアプリケーションを作成するインタラクティ
ブなソフトウェアツール。
エラー検出 (RMS)
エラーを検出するプロセス。RMS では、ログの記録開始、ログファイルへのメッセージ送信、リカ
バリ処理の実行などを行う。
応答待ち時間 ( レイテンシ )
データの送信要求を行ってから、実際に応答を受信するまでの時間間隔。
オブジェクト (RMS)
構成定義ファイルまたはシステムグラフでは、ノードは物理または仮想リソースを示す。
関連項目
リーフオブジェクト、オブジェクト定義、ノード状態、オブジェクトタイプ
オブジェクトタイプ (RMS)
ディスクドライブなど監視される同種のリソースをグループ化するカテゴリ。各オブジェクトタイ
プにはプロパティと呼ばれる固有の属性があり、この属性により実行する監視またはアクションの
種類を限定または定義する。リソースを特定のオブジェクトタイプに関連付けると、関連付けたオ
ブジェクトタイプの属性がリソースに適用される。
関連項目
J2UZ-5301-02Z2(A)
汎用タイプ
67
用語集
オブジェクト定義 (RMS)
RMS の監視対象となるリソースを識別する構成定義ファイルのエントリ。定義された属性により、
関連するリソースのプロパティが指定される。オブジェクト定義に関連するキーワードに object
がある。
関連項目
属性、オブジェクトタイプ
オペレーティングシステム依存 (CF)
オペレーティングシステム本体と、OS 非依存の PRIMECLUSTER モジュールとの間のインタフェー
スを提供するモジュール。
オペレーティングシステム本体
オペレーティングシステムのうち、常にアクティブでシステムコールを実際の処理に変換している
部分。
親 (RMS)
1 つ以上の子オブジェクトを保持する、構成定義ファイルまたはシステムグラフのオブジェクト。
関連項目
子、構成定義ファイル、システムグラフ
オンラインメンテナンス
ホストのシャットダウンや電源オフの必要なく機器を追加、削除、または交換できる機能。
回線切替装置
外部からの回線を複数ノードの間に接続して、RCI により接続ノードの切替えを行う装置。
下位グループ (GDS)
他のグループに属しているグループ。下位グループにはボリュームを作成できません。
拡張性
作業負荷の増加に動的に対処するコンピューティングシステムの機能。拡張性は、特にインター
ネットベースのアプリケーションにおいて、インターネットの使用量の増大に伴って重要になる。
カスタムタイプ (RMS)
汎用タイプを参照。
カスタムディテクタ (RMS)
ディテクタを参照。
仮想インタフェース (VIP)
クラスタの複数ノードをシングルシステムイメージとして見せるために、SIS が使用する仮想的な
IP アドレスまたはノード名。
仮想ディスク
仮想ディスクでは、Solaris 論理 I/O システムの最上位と物理デバイスドライバとの間に擬似デバイ
スドライバが追加される。擬似デバイスドライバは全ての論理 I/O 要求を物理ディスク上にマップ
する。( 富士通シーメンス製品から移行のお客様のみ )
関連項目
スク
連結仮想ディスク、ミラー仮想ディスク (VM)、単独仮想ディスク、ストライプ化仮想ディ
可用性
多くの企業が必要とする、インターネットによる 24 時間年中無休のアプリケーション稼動環境の達
成度を示す指標。実際と計画の使用時間の比較によってシステムの可用性が決まる。
環境変数
グローバルに定義された変数またはパラメタ。
68
J2UZ-5301-02Z2(A)
用語集
管理 LAN
PRIMECLUSTER の構成における、システムコンソールやクラスタコンソールなどが接続されたプラ
イベートローカルエリアネットワーク (LAN)。管理 LAN には、一般ユーザがアクセスできないため、
非常に高いレベルのセキュリティを確保できる。管理 LAN を使用するかどうかは選択可能。
関連項目
業務 LAN
キーワード ( 予約語 )
プログラミング言語において、ある特別な意味を持つ用語。たとえば、構成定義ファイルの node
キーワードは、後に続く定義の種類を指定する。
キュー
メッセージキューを参照。
業務 LAN
一般ユーザがマシンにアクセスするためのローカルエリアネットワーク (LAN)。
関連項目
管理 LAN
共用ディスク接続確認
ノード起動時に共用ディスク装置の電源投入漏れやケーブルの結線誤りがないことを確認する機能。
共用リソース
複数ノード間で共有されるディスクドライブなどのリソース。
関連項目
専用リソース、リソース
切替え (RMS)
userApplication の制御を監視対象の 1 つのノードから他のノードに切替える RMS のプロセス。
関連項目
自動切替え、指定切替え、フェイルオーバ、対称切替え
切替方式
GLS が提供する LAN 二重化の方式名。高速切替方式、NIC 切替方式、GS/SURE 連携方式、RIP 方
式、マルチパス方式、マルチリンクイーサネット方式、の合計 6 種類が存在する。
クラス (GDS)
ディスククラス (GDS) を参照。
クラスタ
1 つのコンピューティングソースに統合されるコンピュータの集まり。クラスタは分散型のパラレル
コンピューティングを実行する。
関連項目
RMS 構成
クラスタアプリケーション (RMS)
RMS のリソース定義において、userApplication に分類されるリソース。複数のリソースをアプ
リケーション単位にグループ化する際に使用される。
クラスタインタコネクト (CF)
PRIMECLUSTER がノード間の通信処理で専用に使用するネットワーク接続。
クラスタ基盤 (CF)
基本 OS の上位で動作する PRIMECLUSTER の基本モジュール。PRIMECLUSTER の上位サービスが
使用する機能を CF(Cluster Foundation) インタフェースとして提供する。
関連項目
J2UZ-5301-02Z2(A)
Cluster Foundation
69
用語集
クラスタ構成のバックアップおよびリストア
CCBR を使用すると、あるクラスタノードについて現在の PRIMECLUSTER 構成情報を簡単に保存す
ることができる。また、構成情報をリストアすることもできる。
クラスタ参入サービス (CF)
新規クラスタの作成およびクラスタへのノードの追加を処理する PRIMECLUSTER サービス。
クラスタ整合状態 ( クォーラム )
クラスタシステムを構成するノード間の整合性が保たれている状態。具体的には、クラスタシステ
ムを構成する、各ノードの CF の状態が UP または DOWN である状態 (LEFTCLUSTER となっている
ノードが存在しない )。
クラスタリソース管理機構
複数のノード間で共用されるハードウェアを管理する機構。
グラフ (RMS)
システムグラフを参照。
グラフィカルユーザインタフェース
ウィンドウ、アイコン、ツールバー、プルダウンメニューを使った、コマンドラインインタフェー
スより使いやすいコンピュータインタフェース。
グループ (GDS)
ディスクグループ (GDS) を参照。
経路
"PRIMECLUSTER コンセプトガイド " では、ノードとノードの間を接続する冗長化されたクラスタ
インタコネクトの各々のネットワーク経路を意味している。
ゲートウェイクラスタノード (SIS)
ゲートウェイクラスタノードは外部ネットワークインタフェースを有し、全ての受信パッケージは
このノードで受信され、サービスのスケジューリングアルゴリズムに従って選択したサービスノー
ドに転送される。
関連項目
サービス提供ノード、データベースノード、Scalable Internet Services
子 (RMS)
1 つ以上の親に属し、構成定義ファイルに定義されるリソース。子は複数の親に属することが可能。
また、子を保持して親ノードとなることも、子を持たずにリーフオブジェクトとなることも可能。
関連項目
リソース、オブジェクト、親、リーフオブジェクト
高可用性
冗長リソースにより一点故障箇所を排除する概念。
構成定義ファイル (RMS)
監視するリソースを定義し、リソース間の相互依存性を設定する RMS 構成定義ファイル。デフォル
トファイル名は config.us。
高速切替方式
GLS が提供する LAN 二重化方式の 1 つ。多重化した LAN を同時に使用し、Solaris サーバ間通信の
スケーラビリティ向上と、LAN 異常発生時の高速な切替えを実現する。
コンカチネーション
複数の物理ディスクを連結すること。複数のディスクを仮想的に 1 つの大容量ディスクとして使用
する仕組み。
70
J2UZ-5301-02Z2(A)
用語集
コンソール
シングルコンソールを参照。
最上位グループ (GDS)
他のグループに属していないグループ。最上位グループには、ボリュームを作成できます。
サービス提供ノード (SIS)
FTP、Telnet、HTTP など 1 つ以上の TCP サービスを提供し、ゲートウェイクラスタノードからクラ
イアント要求を受信する。
関連項目
データベースノード、ゲートウェイクラスタノード、Scalable Internet Services
システムグラフ (RMS)
構成定義ファイルの作成、または解釈に使用される監視対象リソースのビジュアル表示 ( マップ )。
関連項目
構成定義ファイル
システムディスク (GDS)
動作中のオペレーティングシステムがインストールされているディスク。次のいずれかのファイル
システム ( またはスワップ域 ) として現在動作しているスライスが存在するディスク全体を指しま
す。
Solaris の場合 : /、/usr 、/var 、またはスワップ域
Linux の場合 : /、/usr 、/var 、/boot、/boot/efi、またはスワップ域
指定切替え (RMS)
管理者が RMS の userApplication を指定したノードに切替える処理。
関連項目
自動切替え、フェイルオーバ、切替え、対称切替え
自動切替え (RMS)
ある一定の条件が検出された際に、userApplication の実行を他のノードへ自動的に切替える
RMS の処理。
関連項目
指定切替え、フェイルオーバ、切替え、対称切替え
自動電源制御
自動電源制御は、ESF (Enhanced Support Facility) で提供している機能で、PRIMEPOWER の電源投入
および、切断を自動的に行うための機能である。
シャットダウン機構
異常が発生したノードを強制停止させるための機構。PRIMECLUSTER は、クラスタ整合性 ( クォー
ラム ) が保てない状態になったと判断した場合に、シャットダウン機構 (SF) を使用して、クラスタ
システムをクラスタ整合状態 ( クォーラム ) に戻している。
状態
リソース状態を参照。
状態遷移プロシジャ
クラスタ制御からの状態遷移指示を受け取り、リソースの活性 / 非活性化を制御 ( クラスタアプリ
ケーションの起動 / 停止など ) するもの。
冗長化
オブジェクトがクラスタ内の他のオブジェクトのリソース負荷を引継ぐ機能、および RAID ハード
ウェア、またはソフトウェアにより 2 次記憶装置に保存されているデータを複製する機能。
シングルコンソール
RMS の監視対象ノードを集中管理するワークステーション。シングルコンソールソフトウェアの
SCON はシングルコンソールから実行される。
J2UZ-5301-02Z2(A)
71
用語集
シングルディスク (GDS)
グループに属していない SDX ディスクで、シングルボリュームを作成できるディスク。
シングルボリューム (GDS)
グループに属していないシングルディスク内に作成されたボリューム。データは冗長化されません。
スイッチオーバ
ユーザの要求によりユーザ業務が運用系から待機系へ処理やデータを引継ぐこと。
スクリプト (RMS)
リソースの状態遷移に対応して BM ( ベースモニタ ) から実行されるシェルプログラム。スクリプト
によりリソースの状態が変更される場合もある。
スコープ (GDS)
共用タイプのディスククラスにおいてオブジェクトを共用できるノード群の範囲を表します。
ストライピング
データを一定のサイズに分割して、複数のスライスに交互に振り分けて書込むこと。I/O を複数の物
理ディスクに分散して同時に発行する仕組み。
ストライプ化仮想ディスク
ストライプ化仮想ディスクは複数の区画で構成されます。物理パーティションや複数の仮想ディス
ク ( 通常はミラーディスク ) で構成することもできます。このようにして仮想ディスク上の連続した
I/O 処理を複数の物理ディスク上の I/O 処理に変換することができる。この機能は RAID レベル 0
(RAID0) に該当する。( 富士通シーメンス製品から移行のお客様のみ )
関連項目
連結仮想ディスク、ミラー仮想ディスク (VM)、単独仮想ディスク、仮想ディスク
ストライプグループ (GDS)
ストライプ (stripe) タイプのディスクグループ。ストライピングの単位となるディスクおよび下位グ
ループの集まり。
ストライプ幅 (GDS)
ストライピングする際の、データを分割するサイズ。
ストライプボリューム (GDS)
ストライプグループ内に作成されたボリューム。ストライピングによって I/O 負荷を複数のディス
クに分散させることができます。データは冗長化されません。
スペアディスク (GDS)
故障したディスクの替わりにミラーリング状態を回復させるための予備ディスク。
世代数
PRIMECLUSTER のバックアップ / リストアは、データの世代管理が可能で、現在の世代数は、バッ
クアップおよびリストアデータの名前の一部として付加されます。なお世代数は 0 以上の整数が使
用され、バックアップが成功するたびに 1 ずつ増加します。世代数は、ccbr.gen ファイル、また
は、cfbackup(1M) コマンドおよび cfrestore(1M) コマンドのオプション引数にて指定すること
ができます。詳細は、cfbackup(1M) コマンドおよび cfrestore(1M) コマンドのマニュアルページ
を参照してください。
専用ネットワークアドレス
RFC1918 により指定された一定範囲の予約済 IP アドレス。どの部門でも使用可能であるが、異なる
部門が同時に同じアドレスを使用する可能性があるため、インターネット経由で外部から参照でき
ないようにする必要がある。
専用リソース (RMS)
1 台のノードのみが使用可能で、他の RMS ノードからは使用できないリソース。
関連項目
72
リソース、共用リソース
J2UZ-5301-02Z2(A)
用語集
属性 (RMS)
各オブジェクトタイプについて、BM ( ベースモニタ ) がどう処理するかを規定するオブジェクト。
対称切替え (RMS)
全ての RMS ノードが他の任意の RMS ノードからリソースを引継ぐことのできる機能。
関連項目
自動切替え、指定切替え、フェイルオーバ、切替え
タイプ
オブジェクトタイプを参照。
多重ホスト
複数のコントローラ経由で同一のディスク。( 富士通シーメンス製品から移行のお客様のみ )
単独仮想ディスク
単独仮想ディスクは、物理ディスクパーティションの 1 領域、またはパーティション全体を定義し
ます。( 富士通シーメンス製品から移行のお客様のみ )
関連項目
連結仮想ディスク、ストライプ化仮想ディスク、仮想ディスク
通知メッセージ (RMS)
ディテクタが BM ( ベースモニタ ) に特定リソースの状態を通知するメッセージ。
停止要求
クラスタ整合状態 ( クォーラム ) を回復するために、指定したノードを強制停止させるための指示。
ディスククラス (GDS)
SDX オブジェクトの集まり。共用タイプのディスククラスは、PRIMECLUSTER システムで利用可
能なリソースの単位でもあります。ディスククラスを単に「クラス」と呼ぶ場合もあります。
ディスクグループ (GDS)
ミラーリング、ストライピング、またはコンカチネートされる単位となるディスクまたは下位グ
ループの集まり。同じディスクグループに属しているディスクおよび下位グループは、そのディス
クグループのタイプ属性 ( ミラー、ストライプ、またはコンカチネーション ) に応じて、互いに ミ
ラーリング、ストライピング、またはコンカチネートされます。ディスクグループを単に「グルー
プ」と呼ぶ場合もあります。
ディテクタ (RMS)
特定のオブジェクトタイプの状態を監視して、リソースの状態変化を BM ( ベースモニタ ) に通知す
るプロセス。
データベースノード (SIS)
SIS 構成の設定、動的データ、統計を管理するノード。
関連項目
ゲートウェイクラスタノード、サービス提供ノード、Scalable Internet Services
デーモン
特定の機能を繰り返し実行する、システムに常駐するプロセス。
電源連動 ( 制御 )
PRIMEPOWER で構成されるクラスタシステムにおいて、1 ノードの電源を投入すると、電源切断状
態にあるその他全てのノードおよびノードと RCI ケーブルで接続されたディスクアレイ装置の電源
が投入されること。
テンプレート
アプリケーションテンプレートを参照。
ネットワークアダプタ
LAN 関連のネットワークアダプタ。
J2UZ-5301-02Z2(A)
73
用語集
ネットワークインタフェースカード
ネットワークアダプタを参照。
ネットワークパーティション (CF)
クラスタ内の複数ノードのインタコネクトによる通信が不可能な場合に発生する状態。ネットワー
クパーティション状態でアプリケーションが共用ディスクにアクセスし続けるとデータの整合性が
とれなくなる恐れがある。
ノード
クラスタのメンバであるホスト。コンピュータノードとはコンピュータのことを指す。
ノード間通信機構
PRIMECLUSTER CF で使用されるクラスタノード間の通信機能。クラスタノード間通信専用に設計
されているため、TCP/IP よりもオーバヘッドが少なく、メッセージの到着順も保証したデータグラ
ム通信サービスを行うことができる。
ノード状態 (CF)
クラスタ内の全てのノードは、同じクラスタの他の全てのノードのローカル状態を管理する。クラ
スタ内のノードは、全て UP、DOWN、または LEFTCLUSTER のいずれかの状態にある。
関連項目
UP、DOWN、LEFTCLUSTER
パトロール診断
ハードウェアの故障を定期的に診断する機能。
ハブ
LAN や、ファイバチャネルで使用されるスター型の結線装置。
汎用タイプ (RMS)
汎用プロパティを持つオブジェクトタイプ。汎用タイプは、既存のオブジェクトタイプに割り当て
ることのできない監視対象リソースがある場合に RMS をカスタマイズするために使用される。
関連項目
オブジェクトタイプ
非同期監視
SA の機能に加え、リモートクラスタノードの状態を監視し、そのノードのダウンを即時に検出する
コンポーネント。
フェイルオーバ (RMS、SIS)
SIS では、このプロセスにより障害発生ノードのバックアップノードへの切替えを行う。RMS では、
このプロセスを切替えと呼ぶ。
関連項目
自動切替え、指定切替え、切替え、対称切替え
フォルトトレラントネットワーク ( 耐故障性を備えたネットワーク )
耐故障性 ( フォルトトレラント ) を備えたネットワーク。耐故障性 ( フォルトトレラント ) とは、コ
ンピュータシステムの一部に何らかの障害が発生した場合でも、正常な動作を保ち続ける能力のこ
と。よって、フォルトトレラントネットワークとはネットワークシステムの一部に異常が発生した
場合でも、正常に通信を継続できるネットワークのことを意味している。
物理 IP アドレス
ネットワークインタフェースカードのインタフェース ( たとえば hme0) に直接割り振られた IP アド
レス。関連する用語として論理 IP アドレスがある。論理インタフェースについては ifconfig(1M)
の "logical interface" の説明を参照。
プライマリノード (RMS)
RMS の起動時にユーザアプリケーションをオンラインにするデフォルトノード。
userApplication のオブジェクト定義中に最初に記述されたノードがプライマリノードとなる。
74
J2UZ-5301-02Z2(A)
用語集
ボリューム (GDS)
論理ボリューム (GDS) を参照。
マウントポイント
ディレクトリツリー上でファイルシステムが接続されるポイント。
ミラー仮想ディスク (VM)
ミラー仮想ディスクは複数の物理デバイスで構成され、全ての出力処理が全てのデバイス上で同時
実行される。( 富士通シーメンス製品から移行のお客様のみ )
関連項目
連結仮想ディスク、単独仮想ディスク、ストライプ化仮想ディスク、仮想ディスク
ミラー化部品 (RCFS)
ミラー化仮想ディスクを構成する物理部品。ミラー化部品にはミラーディスク、データディスクな
どがある。( 富士通シーメンス製品から移行のお客様のみ )
関連項目
ミラーディスク (RCFS)
ミラーグループ (GDS)
ミラー (mirror) タイプのディスクグループ。互いにミラーリングされるディスクおよび下位グループ
の集まり。
ミラーディスク (RCFS)
同一のデータを格納した複数ディスクの集合。1 つのディスクで障害が発生しても他のディスクが使
用可能なため、データの可用性が損なわれることがない。( 富士通シーメンス製品から移行のお客様
のみ )
関連項目
ミラー化部品 (RCFS)
ミラーボリューム (GDS)
ミラーグループ内に作成されたボリューム。ミラーリングによってデータが冗長化されます。
ミラーリング
同じデータを複数のスライスに書込むことによって、冗長性を維持すること。一部のスライスで障
害が発生したとしても、正常なスライスが残っていれば、ボリュームへのアクセスが継続できる仕
組み。
メタデータサーバ
ファイルシステム ( メタデータ ) の制御情報を一括管理する GFS デーモン。
メッセージ
1 つのソフトウェアプロセスから他のプロセス、デバイス、またはファイルに伝送されるデータの集
まり。
メッセージキュー
メッセージの保存場所として使用される専用のメモリ領域。
モデル混在クラスタ
PRIMEPOWER の異なるモデルによって構築したクラスタシステム。たとえば 1 つのノードが
PRIMEPOWER1000 でもう 1 つのノードが PRIMEPOWER200 など。モデルは、代表的なマシンでは
PRIMEPOWER200/400/600、PRIMEPOWER800/1000/2000 で分かれます。
ユーザグループ
Web-Based Admin View や Cluster Admin GUI が提供する環境設定、運用管理などの操作範囲を限定す
るもので、wvroot、clroot、cladmin、clmon の 4 種類がある。クラスタ管理サーバのオペレー
ションシステムの管理者に依頼して、個々のユーザ ID を適切なユーザグループへ登録する。
J2UZ-5301-02Z2(A)
75
用語集
リーフオブジェクト (RMS)
システムグラフの最下位オブジェクト。リーフオブジェクトは構成定義ファイルの最後に定義され
る。リーフオブジェクトはその配下に子オブジェクトを持たない。
リソース (RMS)
ミラーディスク、ミラーディスク部品、データベースサーバなどの機能を提供する、専用または共
用のハードウェアまたはソフトウェア要素。ローカルリソースは、ローカルノード上でのみ監視対
象となる。
関連項目
専用リソース、共用リソース
リソース状態 (RMS)
リソースの現在の状態。
リソース定義 (RMS)
オブジェクト定義を参照。
リソースデータベース
複数のノード間で共用されるハードウェアの情報を管理するデータベース。リソースデータベース
は、クラスタリソース管理機構により管理される。
リソースラベル (RMS)
システムグラフに表示されるリソース名。
リモートコンソール接続装置
RS232C インタフェースと LAN インタフェースを変換する装置。本装置により、LAN 接続された他
の装置 ( パソコン ) から Telnet 機能により TTY コンソール機能を利用可能とする。
リモートノード
リモートホストを参照。
リモートホスト
遠距離通信回線または LAN を使ってアクセスするホスト。
関連項目
ローカルホスト
リンク (RMS)
特定リソース間の親子関係を指定する。
連結仮想ディスク
1 つ以上のディスクドライブ上の複数の区画で構成され、各部を合計したものに相当する。ディスク
を細かく分割する単独仮想ディスクと異なり、各ディスクまたはパーティションを連結して 1 つの
大規模な論理ディスクを構成する。( 富士通シーメンス製品から移行のお客様のみ )
関連項目
ミラー仮想ディスク (VM)、単独仮想ディスク、ストライプ化仮想ディスク、仮想ディスク
ローカル MAC アドレス
ローカルエリアネットワーク (LAN) のシステムごとに、システム管理者がそのシステム内部での一
意性を保証する MAC アドレス。
ローカルエリアネットワーク
業務 LAN を参照。
ローカルホスト
コマンドまたはプロセスを開始するホスト
関連項目
76
リモートホスト
J2UZ-5301-02Z2(A)
用語集
ログファイル
重要なシステムイベントやメッセージを記録したファイル。BM ( ベースモニタ )、ウィザード、
ディテクタにはそれぞれ固有のログファイルがある。
ローリングアップデート
クラスタシステムにおいて、修正適用、保守時に使用されるアップデート手法。1 ノードずつ順次修
正適用を行うことで、業務を停止せずに修正を適用することが可能となる。
論理ボリューム (GDS)
利用者が直接アクセスできる仮想ディスクデバイスの総称。利用者は、物理ディスクのスライス
( パーティション ) と同じように、論理ボリュームにアクセスできます。論理ボリュームを単に「ボ
リューム」と呼ぶ場合もあります。
J2UZ-5301-02Z2(A)
77
用語集
78
J2UZ-5301-02Z2(A)
略語
AC
アクセスクライアント (Access Client)
API
アプリケーションプログラムインタフェース (application program interface)
BM
ベースモニタ (base monitor)
CF
Cluster Foundation または Cluster Framework
CIM
クラスタ整合性モニタ (Cluster Integrity Monitor)
CIP
クラスタインタコネクトプロトコル (Cluster Interconnect Protocol)
CLI
コマンドラインインタフェース (command-line interface)
CLM
Cluster Manager
CRM
クラスタリソース管理 (Cluster Resource Management)
DLPI
Data Link Provider Interface
EE
Enterprise Edition
ENS
イベント通知サービス (Event Notification Services)
GDS
Global Disk Services
GFS
Global File Services
GLS
Global Link Services
GUI
グラフィカルユーザインタフェース (graphical user interface)
HA
高可用性 (high availability)
ICF
ノード間通信機構 (Internode Communication Facility)
J2UZ-5301-02Z2(A)
79
略語
I/F
インタフェース (Interface)
I/O
入出力 (input/output)
JOIN
クラスタ参入サービスモジュール (cluster join services module)
LAN
ローカルエリアネットワーク (local area network)
MA
非同期監視 (Monitoring Agent)
MDS
メタデータサーバ (Meta Data Server)
MIB
Management Information Base
MIPC
Mesh Interprocessor Communication
MMB
Management Board
NIC
ネットワークインタフェースカード (network interface card)
NSM
Node State Monitor
OPS
Oracle パラレルサーバ (Oracle Parallel Server)
OSD
オペレーティングシステム依存 (operating system dependant)
PAS
Parallel Application Services
PS
パラレルサーバ (Parallel Server)
RAO
RMS-Add on
RCCU
リモートコンソール接続装置 (Remote Console Connection Unit)
RCI
Remote Cabinet Interface
80
J2UZ-5301-02Z2(A)
略語
RMS
Reliant Monitor Services
SA
シャットダウンエージェント (Shutdown Agent)
SAN
Storage Area Network
SC
拡張性クラスタ (Scalability Cluster)
SCF
システム監視機構 (System Control Facility)
SCON
シングルコンソールソフトウェア (single console software)
SD
シャットダウンデーモン (Shutdown Daemon)
SF
シャットダウン機構 (Shutdown Facility)
SIS
Scalable Internet Services
VIP
仮想インタフェース (Virtual Interface Provider)
WK
Wizard Kit
WT
Wizard Tools
XSCF
eXtended System Control Facility
J2UZ-5301-02Z2(A)
81
略語
82
J2UZ-5301-02Z2(A)
図
図 1:
一般的な 2 ノードクラスタシステム ....................................................................................................... 5
図 2:
2 ノードクラスタのクラスタパーティション ........................................................................................ 7
図 3:
一般的な PRIMECLUSTER の設定図 ..................................................................................................... 13
図 4:
PRIMECLUSTER フレームワークの概要 .............................................................................................. 14
図 5:
正常稼動時のコンソール非同期監視の処理 ......................................................................................... 20
図 6:
ノード異常発生時のコンソール非同期監視の処理 ............................................................................. 21
図 7:
ノード復旧時のコンソール非同期監視の処理 ..................................................................................... 22
図 8:
シングルクラスタコンソールの構成 ..................................................................................................... 25
図 9:
分散クラスタコンソールの構成 ............................................................................................................. 26
図 10:
RMS のリソース監視 ............................................................................................................................... 27
図 11:
SIS クラスタの例 ...................................................................................................................................... 29
図 12:
ディスクミラーリング ............................................................................................................................. 30
図 13:
SAN (Storage Area Network) ..................................................................................................................... 31
図 14:
ノードが停止中のときの処理続行 ......................................................................................................... 33
図 15:
パーティションの追加 ............................................................................................................................. 34
図 16:
高速切替方式 ............................................................................................................................................. 36
図 17:
NIC 切替方式 ............................................................................................................................................. 36
図 18:
一般的な 4 ノードクラスタシステム ..................................................................................................... 39
図 19:
Solaris 上の RMS クラスタ ...................................................................................................................... 45
図 20:
オブジェクトの親子関係 ......................................................................................................................... 48
図 21:
BM ( ベースモニタ ) の通信フロー ........................................................................................................ 51
図 22:
RMS ウィザードのアーキテクチャ ....................................................................................................... 54
図 23:
サテライトノードを使用した SIS クラスタ例 ..................................................................................... 59
図 24:
SIS クライアントおよびサーバの図 ...................................................................................................... 60
J2UZ-5301-02Z2(A)
83
図
84
J2UZ-5301-02Z2(A)
索引
B
BM ( ベースモニタ )
集中監視 48
説明 48
C
CF/IP 38
Cluster Admin 16, 18
CF 18
RMS 51
Cluster Foundation 16, 18
Cluster Admin 18
ドライバ 16
ハートビート 41
CU
「変換装置」を参照
D
Data Link Provider Interface 42
DLPI
「Data Link Provider Interface」を参照
DOWN、状態 40
E
ENS ( イベント通知サービス ) 17
G
GDS
「Global Disk Services」を参照
GFS
「Global File Services」を参照
Global Disk Services 16
SAN 30
ディスク管理 30
データを保護 30
ファイルシステム 31
Global File Services 16
拡張性 34
共用ディスク装置 32
データの整合性 32
Global Link Services 16
NIC 切替方式 35
高速切替方式 35
多重 NIC 35
GLS
「Global Link Services」を参照
I
ICF
「ノード間通信機構」を参照
IP エイリアス 47
J
JOIN
「参入サービス」を参照
J2UZ-5301-02Z2(A)
L
LEFTCLUSTER、状態 40
M
Management Information Bases 18
MIB
「Management Information Bases」を参照
N
NIC
「ネットワークインタフェースカード」を参照
NIC 切替方式 35
O
OSD
「OS 依存層」を参照
OS 依存層 17
OS 非依存部 17
P
Parallel Application Services 16
説明 29
モジュール方式 15
PAS
「Parallel Application Services」を参照
PRIMECLUSTER のモジュール 16
R
RAID 72
RCA
「リモートコンソールアクセス」を参照
Reliant Monitor Services 18
RMS 15, 16, 27
HA マネージャ 6
ウィザード 53, 55
概要 47, 51
環境変数 51
管理 51
構成スクリプト 49
RMS Wizard Kit 10, 28, 53
コンポーネント 55
ディテクタ 55
RMS Wizard Tools 10
機能 54
説明 28, 53
RMS 構成の作成 54
RMS のカスタマイズ 52
S
SAN 30
「Storage Area Network」を参照
Scalable Internet Services 15, 28
説明 28
ネットワークサービス 57
85
索引
SIS
ゲートウェイノード 58
サービス提供ノード 58
サテライトノード 58
バックアップデータベースノード 58
プライマリデータベースノード 58
SMAWRscon 25
SNMP 16
Storage Area Network
ウィザード 54
高可用性 6
U
UP、状態 39
W
Web-Based Admin View 16
Windows 2000、サテライトノード 58
Wizard Kit
「RMS Wizard Kit」を参照
Wizard Tools
「RMS Wizard Tools」を参照
あ
アプリケーション
PAS 29
監視リソース 27
イーサネット
エラー率 42
ギガビット 40
速度 40
ネットワークの可用性 37
インタコネクト
NIC 切替方式 35
応答待ち時間 ( レイテンシ ) 41
高速切替方式 35
帯域幅 40
非対称 40
プロトコル 38
「クラスタインタコネクト」を参照
ウィザード
RMS 10
RMS Wizard Kit 55
RMS Wizard Tools 54
ユーティリティ 54
運用 18
エイリアスの解除 54
エイリアスの設定 54
応答待ち時間 ( レイテンシ ) 41
重みコネクション数 (Weighted Connection Count) 61
か
外部接続を割当てる 61
概要 18
拡張性
SIS 57
ネットワークサービス 57
ファイルシステム 34
86
拡張性 ( スケーラビリティ ) 5, 15
基本的なユーザ業務の形態 10
ノード量 15
拡張性のあるアプリケーション 10
仮想ディスク
単独 73
ミラー 75
可用性 15
高 6
設計機能 15
環境変数 51
監視
コンポーネント 6
非同期 9, 19
ユーザ業務 6
管理
Cluster Admin 18
RMS 51
ファイルシステム 32
キープローカル (Keep Local) 61
ギガビットイーサネット 40
擬似デバイスドライバ 16, 68
機能
拡張性 ( スケーラビリティ ) 15
可用性 15
データの整合性 16
共用記憶装置 32
共用ディスク装置 33
共用ファイルシステムのアクセス 32
切替処理 46
クライアントベース (Client Based) 61
クラスタ
SIS 28, 57
アーキテクチャ 13
パーティション 7
並列データベース 29
クラスタインタコネクト 6, 37
故障 37
信頼性 42
プロパティ 40
「インタコネクト」を参照
クラスタコンソール
SCON 25
ソフトウェア 25
複数 25
「シングルコンソール」を参照
クラスタの管理のインタフェース 16
クラスタリング 5
ゲートウェイノード、SIS 58
サテライトノード 58
高可用性 6
クラスタリング 5
ファイルシステム 33
複数の NIC 35
更新ログ 33
J2UZ-5301-02Z2(A)
索引
構成
Cluster Admin 18
GDS 30
SCON 25
コピー 54
作成 54
さらにサポート 54
変更を許可 54
変更を禁止 54
構成スクリプト 49
構成全体をコピー 54
構成定義ファイル 48
構成の変更を許可 54
構成の変更を禁止 54
高速
入出力 32
リカバリ 32
高速切替方式 35
故障 37
さ
サービス
パラレルアプリケーション 29
サービス提供ノード 58, 61
サテライトノード、SIS 58
サブエージェント 18
参入サービス 17
システム負荷 (System Load) 61
手動切替え 47
状態
DOWN 40
LEFTCLUSTER 40
Offline 46
UP 39
監視変更 48
スクリプト 50
制御変更 48
ディテクタ 51
リソース 49
冗長化
クラスタインタコネクト 38
コンポーネント 6
冗長手法 46
シングルコンソール
構成 25
ソフトウェア 25
「クラスタコンソール」を参照
シンクロナイゼーション 14
診断機構 18
信頼性、インタコネクト 42
スクリプト
RMS 構成 49
任意属性 49
スピルオーバ (Spillover) 61
スピンロック 14
属性
オブジェクトプロパティ 46
任意 49
ノード 49
必須 49
J2UZ-5301-02Z2(A)
た
帯域幅、インタコネクト 40
単独仮想ディスク 73
ディスク管理 30
ディテクタ 51
アプリケーション固有 55
汎用 52
データ
整合性 6, 16, 32
データの整合性保証 15, 16
データベースノード、SIS 58
サテライトノード 58
デバイスおよびネットワークアクセス 14
ドライバ
CF 16
擬似デバイス 16
ネットワークデバイス 40
な
二重化ネットワークインタフェースカード 36
ネットワーク
インタフェース 27
可用性 37
ファイルシステム 27
負荷 33
ネットワークインタフェースカード
速度 37
複数 35
ノード
SIS ゲートウェイ 58, 60
SIS データベース 58
SIS データベース、バックアップ 58
重みの設定 61
監視リソース 27
クライアント IP アドレス 61
サービス提供 58
サテライト、SIS 58
タイプ 49
通信 61
定義 49
バックアップ 61
複数プロキシアドレス 61
ノード間通信機構 17, 38
ノードの強制停止機能 25
は
ハートビート 37
RMS 6
応答 37
要求 37, 41
要求が失敗 39
パス障害から保護 35
バックアップ SIS データベースノード 58
バックアップノード 61
非対称インタコネクト 40
ファイバチャネルコントローラ 40
ファイル
MIB 18
RMS ソフトウェア 47
同じソース 17
87
索引
カスタム 52
クラスタアクセス 6
クラスタ規模のシステム 15
構成 47, 49, 52
ユーザ定義の構成 46
ファイルアクセスをキャッシュ 32
ファイルシステム
GUI による管理 32
拡張 32
拡張性 34
共用ディスク装置 32, 33
高可用性 33
更新ログ 33
高速リカバリ 32
整合性 32
性能の改善 33
同時アクセス 31
ネットワーク 27
パーティションの統合 33
マウントポイント 46
ラウンドロビン割当て 33
フェイルオーバ 46
負荷分散アルゴリズム 61
複数のネットワークインタフェースカード 35
プライマリ SIS データベースノード 58
プラットフォーム非依存性 15
プロキシアドレス 61
分散
アプリケーション 32
環境 10
クラスタコンソール 25
コンピューティング 5
変換装置 25
保護
データ 30
保証
データの整合性 6
ボリューム管理 30
状態 49
ディテクタ 51, 52
ハートビート 41
リモートコンソールアクセス 25
リンク修復 40
ルータ
応答待ち時間 ( レイテンシ ) 42
ま
マニュアル
PRIMECLUSTER 1
付加 1
マルチボリュームのサポート 32
ミラー仮想ディスク 75
メモリアロケーション 14
モジュール方式 15
モジュラーコンポーネント 16
や
ユーティリティウィザード 54
ら
ラウンドロビン (Round Robin) 61
リソース
監視 50
切替え 46
高可用性 46
自動切替え 46
手動切替え 47
88
J2UZ-5301-02Z2(A)