恢复系统过程
如果系统状态已丢失,那么系统恢复过程将恢复整个系统。 此过程将使用保存的配置数据重新创建存储系统,也称为“第 3 层 (T3)”恢复。已保存的配置数据位于活动定额磁盘和最新 XML 配置备份文件中。 恢复可能无法复原所有卷数据。
警告:
如果系统遇到以下状态:
- 无活动节点
请勿尝试启动节点急救(用户可以使用 服务助手 GUI 或 satask rescuenode 服务 CLI 命令来启动节点急救)。 停止运行并联系 IBM®® 远程技术支持人员。在此特定状态下启动 T3 系统恢复过程可能会导致 XML 配置备份文件丢失。
注意:
- 仅在修复过程指示的情况下才运行维护操作。 如果使用不当,那么服务器操作可能会导致失去对数据的访问权,甚或丢失数据。 在完成任何操作之前,请阅读并理解所有指示信息。
- 如果系统使用大容量设备作为定额设备,那么恢复过程可能需要几个小时。
- 如果在运行恢复过程后存在脱机阵列,请联系 IBM 支持人员。.
除非满足以下条件,否则请不要尝试执行系统恢复过程:
- 已满足何时运行恢复系统过程中的所有条件。
- 所有硬件错误都已修复。 请参阅修复硬件错误
- 所有节点都具有候选状态。 否则,请参阅步骤 1。
- 所有节点都必须处于系统发生故障之前系统所处的代码级别。 如果已修改或更换任何节点,请使用服务助手来验证代码级别,并在必要情况下,重新安装代码级别,以使其与系统中其他节点上运行的级别匹配。 有关更多信息,请参阅使用服务助手除去具有错误代码 550 或错误代码 578 的节点的系统信息。
- 如果系统正在将 IP 定额用于 T3 元数据,请验证是否所有 IP 定额应用程序都在运行。
系统恢复过程是必须完成的几项任务中的一项。
以下列表为任务概述以及完成任务必须采用的顺序:
- 准备系统恢复:
- 查看有关何时运行系统恢复过程的信息。
- 纠正硬件错误,并确保系统中的所有节点都显示在服务助手中或 sainfo lsservicenodes 的输出中。
- 通过使用服务助手,除去存在错误代码 550 或 578 的节点的系统信息,但仅在执行针对这些节点错误建议的用户响应后才这样做。
- 对于虚拟卷 (VVol),关闭正在连接到系统的 Spectrum Control Base 的任何实例服务。 使用 Spectrum Control Base 命令 service ibm_spectrum_control stop。
- 从系统除去热备用节点,并将其设置为候选方式,然后再启动恢复过程。 运行以下 CLI 命令以从系统除去该节点。
当节点以服务方式返回时,运行以下 CLI 命令以将其设置为候选方式。satask leavecluster -force spare-node-panel-namesatask stopservice spare-node-panel-name
- 运行系统恢复。 准备执行系统恢复且满足所有先决条件后,运行系统恢复。注: 每次在光纤网中的一个系统上运行该过程。 请勿在同一系统中的不同节点上运行该过程。 此限制也适用于远程系统。
- 完成相关操作,使您的环境正常运行。
- 使用 CLI 从脱机卷进行恢复。
- 例如,检查系统以确保所有映射卷能够访问主机。
- 何时运行恢复系统过程
仅在完全彻底调查系统故障的原因后,才尝试执行恢复过程。 请尝试通过使用其他维护过程来解决这些问题。 - 修复硬件错误
请务必先确定并修复硬件问题的根本原因,然后再运行系统恢复过程。 - 使用服务助手除去具有错误代码 550 或错误代码 578 的节点的系统信息
仅当要恢复的节点系统中的所有节点都处于候选状态时,系统恢复过程才正常工作。 如果存在显示错误代码 550 或 578 的任何节点,必须移除其系统数据。 - 使用服务助手运行系统恢复
当作为系统成员的所有节点都已联机并处于候选状态时,您可以使用服务助手启动恢复。 如果任何节点显示错误代码 550 或 578,那么除去系统信息以使其处于候选状态。 请勿在同一系统中的不同节点上运行恢复过程;此限制包括远程系统。 - 使用 CLI 从脱机卷进行恢复
如果对脱机卷完成了第 3 层恢复过程,那么节点容器写高速缓存中的数据很有可能会在导致所有节点容器失去块存储系统集群状态的故障期间丢失。 您可以使用命令行界面 (CLI) 来确认写高速缓冲中丢失数据,并使卷恢复联机以尝试处理数据丢失。 - 运行系统恢复后要检查的内容
使用系统之前,必须完成若干任务。
父主题: 故障诊断