1194 A recuperação automática de nó off-line falhou.
Explicação
O cluster tem um nó off-line e determinou que um dos nós candidatos corresponde às características do nó off-line. O cluster tentou mas falhou ao incluir o nó de volta no cluster. O cluster tentou mas parou de tentar incluir automaticamente o nó de volta no cluster.
Se um nó tiver dados de estado incompletos, ele permanecerá off-line após seu início. Isso ocorrerá se o nó tiver uma perda de energia ou uma falha de hardware que impediu de concluir a gravação de todos os dados de estado no disco. O nó relata um erro de nó 578 quando está nesse estado.
Se tiverem sido feitas três tentativas de incluir automaticamente um nó candidato correspondente em um cluster, mas o nó não tiver retornado ao estado on-line por 24 horas, o cluster para de tentar incluir automaticamente o nó e registra o código de erro 1194 Falha de recuperação automática do nó off-line
.
Dois cenários possíveis quando este evento de erro é registrado são:
- O nó falhou sem salvar todos os seus dados de estado. O nó foi reiniciado, possivelmente depois de um reparo, e mostra o erro de nó 578 e é um nó de candidato para junção do cluster. O cluster tenta incluir o nó no cluster mas não é bem-sucedido. Depois de 15 minutos, o cluster faz uma segunda tentativa de incluir o nó no cluster e novamente não obtém êxito. Depois de 15 minutos, o cluster faz uma terceira tentativa de incluir o nó no cluster e novamente não obtém êxito. Após outros 15 minutos, o cluster registra o código de erro 1194. O nó nunca ficou on-line durante a tentativa de incluí-lo no cluster.
- O nó falhou sem salvar todos os seus dados de estado. O nó foi reiniciado, possivelmente depois de um reparo, e mostra o erro de nó 578 e é um nó de candidato para junção do cluster. O cluster tenta incluir o nó no cluster e é bem-sucedido, e o nó fica on-line. Dentro de 24 horas, o nó falha novamente sem salvar seus dados de estado. O nó reinicia e mostra o erro de nó 578 e é um nó candidato para junção do cluster. O cluster novamente tenta incluir o nó no cluster, é bem-sucedido e o nó se torna on-line. No entanto, o nó falha novamente dentro do período de 24 horas. O cluster novamente tenta uma terceira vez incluir o nó no cluster, é bem-sucedido e o nó se torna on-line. No entanto, o nó falha novamente dentro do período de 24 horas. Após outros 15 minutos, o cluster registra o código de erro 1194.
Uma combinação destes cenários também é possível.
Nota: Se o nó for removido manualmente do cluster, a contagem de tentativas de recuperação automática é reconfigurada para zero.
Resposta do Usuário
- Se o nó ficou continuamente on-line no cluster por mais de 24 horas, marque o erro como corrigido e acesse o MAP de Verificação de Reparo.
- Determine o histórico de eventos para este nó localizando eventos para este nome de nó no log de eventos. Observe que o ID do nó será alterado, assim corresponda o WWNN com o nome do nó. Além disso, verifique os registros de serviço. Especificamente, observe as entradas indicando um de três eventos: 1) o nó está ausente do cluster (erro de cluster 1195 evento 009052), 2) uma tentativa de recuperar automaticamente o nó off-line está iniciando (evento 980352), 3) o nó foi incluído no cluster (evento 980349).
- Se o nó não tiver sido incluído no cluster desde o início do processo de recuperação, provavelmente há um problema de hardware. O disco interno do nó pode estar falhando de uma maneira em que não é possível modificar seu nível de software para corresponder ao nível de software do cluster. Se ainda não tiver determinado a causa-raiz do problema, é possível tentar remover manualmente o nó a partir do cluster e incluir o nó de volta no cluster. Monitore continuamente o status dos nós no cluster enquanto o cluster está tentando incluir o nó. Nota: Se o tipo de nó não for suportado pela versão do software do cluster, o nó não aparecerá como um nó candidato. Portanto, o hardware incompatível não é uma causa-raiz potencial desse erro.
- Se o nó tiver sido incluído no cluster, mas falhou novamente antes dele ter ficado on-line por 24 horas, investigue a causa-raiz da falha. Se nenhum evento no log de eventos indicar a razão da falha do nó, colete dumps e entre em contato com o suporte técnico IBM para obter assistência.
- Quando tiver corrigido o problema com o nó, você deve utilizar o console do cluster ou a interface da linha de comandos para remover manualmente o nó do cluster e incluir o nó no cluster.
- Marque o erro como corrigido e acesse o MAP de verificação.
Causa Possível - unidades substituíveis em campo ou outra:
Nenhuma, embora a investigação possa indicar uma falha de hardware.