システムのリカバリー手順
システムのリカバリー手順は、システム状態が失われた場合にシステム全体をリカバリーします。 この手順は、保存済みの構成データを使用してストレージ・システムを再作成するものであり、Tier 3 (T3) リカバリーとも呼ばれます。保存された構成データは、アクティブなクォーラム・ディスクおよび最新の XML 構成バックアップ・ファイルにあります。リカバリーを実行しても、すべてのボリューム・データを復元できない可能性があります。
注意:
システムで以下の状態が検出された場合、
- すなわち、アクティブなノードがない場合は、
ノード・レスキューを開始しようとしないでください (ユーザーは、サービス・アシスタント GUI、または satask rescuenode サービス CLI コマンドを使用してノード・レスキューを開始できます)。停止して、IBM®® リモート技術サポートに連絡してください。この特定の状態でこの T3 システム・リカバリー手順を開始すると、XML 構成バックアップ・ファイルが失われる場合があります。
重要:
- 修正手順で指示された場合にのみ、サービス・アクションを実行してください。不適切に使用されると、サービス・アクションによってデータへのアクセスが失われたり、場合によってはデータ損失が発生します。 説明を最後まで読み、理解した上で、必要なアクションを実行してください。
- システムで大容量デバイスをクォーラム・デバイスとして使用する場合は、リカバリー手順に数時間かかる場合があります。
- リカバリー手順を実行した後でオフライン・アレイがある場合は、IBM サポートに連絡してください。
以下の条件が満たされない限り、システム・リカバリー手順を行わないでください。
- システム・リカバリー手順を実行する状況のすべての条件が満たされている。
- ハードウェア・エラーがすべて修正済み。ハードウェア・エラーの修正を参照してください。
- すべてのノードが候補の状況にある。それ以外の場合は、ステップ 1 を参照してください。
- すべてのノードが、システムが障害を起こす前のコードと同じレベルでなければならない。いずれかのノードが変更または交換された場合は、サービス・アシスタントを使用してコードのレベルを確認します。そして、必要に応じて、システム内の他のノード上で稼働しているレベルに一致するようにコードのレベルを再インストールします。詳しくは、サービス・アシスタントを使用してエラー・コード 550 またはエラー・コード 578 が報告されたノードのシステム情報を削除するを参照してください。
- システムが T3 メタデータに IP クォーラムを使用していた場合は、すべての IP クォーラム・アプリケーションが実行中であることを確認してください。
システムのリカバリー手順は、実行しなければならないいくつかのタスクの内の 1 つです。
以下のリストは実行する必要のあるタスクの概要とその順序です。
- システム・リカバリーの準備:
- システム・リカバリー手順を実行するタイミングに関する情報を確認する。
- ハードウェア・エラーを修正し、システム内のすべてのノードがサービス・アシスタントに表示されるのか、sainfo lsservicenodes からの出力に表示されるのかを確認する。
- サービス・アシスタントを使用して、エラー・コード 550 またはエラー・コード 578 のあるノードのシステム情報を削除する。ただし、これらのノード・エラーに対する推奨ユーザー応答が実行されている場合のみ。
- 仮想ボリューム (VVOL) では、システムに接続しているすべての Spectrum Control Base インスタンスに対するサービスをシャットダウンする。Spectrum Control Base コマンド service ibm_spectrum_control stop を使用します。
- リカバリー・プロセスを開始する前に、ホット・スペア・ノードをシステムから削除し、それらを候補モードに設定します。システムからノードを削除するには、次の CLI コマンドを実行します。
ノードが保守モードに戻った後、次の CLI コマンドを実行して、候補モードに設定します。satask leavecluster -force spare-node-panel-namesatask stopservice spare-node-panel-name
- システム・リカバリーを実行する。リカバリーするシステムの準備ができ、前提条件が満たされたら、システム・リカバリーを実行します。注: 一度にファブリック内のシステム 1 つずつに対して手順を実行してください。同一システム内の別のノードに対して手順を実行しないでください。この制約事項は、リモート・システムにも適用されます。
- 環境を稼働可能にするためのアクションを実行する。
- CLI を使用したオフライン・ボリュームからのリカバリー。
- すべてのマップ済みボリュームが確実にホストにアクセスできるようにするために、システムをチェックする。
- システム・リカバリー手順を実行する状況
リカバリー手順は、システム障害の原因を完ぺきかつ徹底的に調査した後にのみ試行してください。 他の保守手順を使用して、これらの問題の解決を試みてください。 - ハードウェア・エラーの修正
システム・リカバリー手順を実行する前に、ハードウェアの問題の根本原因を特定して修正することが重要です。 - サービス・アシスタントを使用してエラー・コード 550 またはエラー・コード 578 が報告されたノードのシステム情報を削除する
システム・リカバリー手順が機能するのは、リカバリーするノード・システム内のすべてのノードが候補状況である場合のみです。 エラー・コード 550 またはエラー・コード 578 を表示するノードがある場合は、それらのシステム・データを除去する必要があります。 - サービス・アシスタントを使用したシステム・リカバリーの実行
システムのメンバーであったすべてのノードがオンラインで、候補状態になったら、サービス・アシスタントを使用してリカバリーを開始することができます。エラー・コード 550 または 578 を表示するノードがある場合は、システム情報を除去し、ノードを候補状態にします。同一システム内の別のノードに対してリカバリー手順を実行しないでください。この制約事項は、リモート・システムにも適用されます。 - CLI を使用したオフライン・ボリュームからのリカバリー
Tier 3 リカバリー手順がオフライン・ボリュームで完了した場合は、ノード・キャニスターの書き込みキャッシュ内のデータが、すべてのノード・キャニスターのブロック・ストレージ・システム・クラスター状態が失われる原因となる障害の発生時に失われる可能性があります。 コマンド・ライン・インターフェース (CLI) を使用して、書き込みキャッシュから失われたデータがあることを確認し、ボリュームをオンラインに戻して、データ損失への対処を試みることができます。 - システムのリカバリー実行後に検査する内容
システムを使用する前に、いくつかのタスクを実行する必要があります。
親トピック: トラブルシューティング