拡張システムまたは HyperSwap システムでのクォーラムの手動オーバーライド

ローリング災害が発生すると、クォーラムの手動オーバーライドが必要になります。まれに、システムが「ローリング災害」と呼ばれるものにさらされることがあります。ローリング災害は、発生事象が広範囲にわたる場合に発生し、その影響は長時間にわたって複数のステップで感知されます。次のシナリオは、ローリング災害を説明し、そのローリング災害からの復旧方法を示す例です。

ローリング災害の 1 つの例は、次の状況が真の状態のときに発生します。
  1. 2 つのサイトの間のリンクで障害が起こり、その時点で 1 つのサイトが自動クォーラム・フィーチャーを使用して操作を続行する。
  2. クォーラム・デバイスを制御しているシステム・サイトで (例えば電源異常のために) 障害が発生する。

この例では、2 番目のサイトがデータ入出力を続行できる可能性のある唯一のサイトとして残されます。ただし、2 番目のサイトがクォーラム・デバイスの制御権を獲得するまではその動作を行えません。2 番目のサイトで MDisk が停止します。そのサイトのノードはノード・エラー 551 を表示します。このエラーは、拡張システムまたは HyperSwap®システムの構成で、クォーラムを形成するために使用できるノードの数が不足していることを示します。

このシナリオでは、 quorum override コマンドを実行して自動的なクォーラム・デバイスの選択をオーバーライドし、2 番目のサイト内のノードを含んでいる新しいシステムを作成することができます。
注:
  • システムが使用前に正しい状態であることを確認するために、サポートの支援を得られる場合にのみ、quorum override コマンドを実行できます。
  • quorum override コマンドの実行中にファブリックの中断が発生する場合、ノードのサブセットがそのシステム ID を更新することが可能です。更新されたノードはノード・エラー 550 を表示して、更新されなかったノードは 551 エラーを表示し、ノードは 2 つの異なるシステムに割り当てられています。この状況では、エラー 551 を報告したノードの 1 つで quorum override コマンドを再び実行できます。このコマンドにより、2 つのシステム内のすべてのノードが新しいクラスター (システム) ID によって更新されます。 その後はデータをリカバリーできます。

クォーラムの条件の実行

ローリング災害の発生時に quorum override コマンドを実行する必要があります。The quorum override コマンドは、トポロジーが stretched または hyperswap に設定されていないシステムでは使用できません。 このコマンドを使用するには、前もって以下の前提条件を満たしておく必要があります。

  • 2 つのノードを持つすべての入出力グループで、1 つのノードがサイト 1 に、もう 1 つのノードがサイト 2 に割り当てられている。
  • MDisk を持つすべてのストレージ・システムで、定義されているサイトが必要である。

これらの前提条件が満たされており、自動クォーラム選択が有効である場合、システムは 3 つのすべてのサイト内に 1 つずつクォーラム・デバイスを割り当てようとします。サイトにクォーラム・デバイスに適した MDisk がない場合、そのサイトにはクォーラム・デバイスは割り当てられません。

注: chsystem -topology stretched コマンドまたは chsystem -topology hyperswap コマンドの実行後は、非管理 MDisk のみを持つ新しいコントローラーの場合を除いて、どのコントローラーのサイト割り当ても変更できません。

ノードのサイト設定も行えません。こうした制約を課しておくことは、 コマンドが正しく機能するようシステムの適正な動作を確保するために必要です。

chsystem -topology standard コマンドを実行する場合も、ノードとコントローラーのサイト設定を変更できます。 ただし、このコマンドはクォーラムのオーバーライド機能を無効にします。したがって、このサポートを再び有効にするために、変更が完了した時点で chsystem -topology stretched または chsystem -topology hyperswap を実行するようにしてください。