1194   오프라인 노드의 자동 복구에 실패했습니다.

설명

클러스터에 오프라인 노드가 있으며 클러스터에서 후보 노드 중 하나가 오프라인 노드의 특성과 일치함을 판별했습니다. 클러스터가 노드를 다시 클러스터에 추가하려 했으나 실패했습니다. 클러스터가 노드를 다시 클러스터에 자동으로 추가하려는 시도를 중지했습니다.

노드가 불완전한 상태 데이터를 가지면 노드가 시작된 후에도 오프라인 상태를 유지합니다. 노드 전원이 나갔거나 하드웨어 장애가 있어 노드가 상태 데이터를 디스크에 다 기록하지 못할 경우 이러한 상황이 발생합니다. 노드는 이 상태일 때 노드 오류 578을 보고합니다.

일치하는 후보 노드를 클러스터에 자동으로 추가하려고 세 번 시도했으나 노드가 24시간 동안 온라인 상태로 돌아오지 않으면, 클러스터는 자동 노드 추가 시도를 중지하고 오류 코드 1194 오프라인 노드의 자동 복구에 실패했습니다를 로그합니다.

이 오류 이벤트가 로그될 때 가능한 두 가지 시나리오는 다음과 같습니다.

  1. 상태 데이터가 다 저장되지 않은 상태에서 노드 작동이 중단되었습니다. 수리 후 노드는 다시 시작되어 노드 오류 578을 표시하며 클러스터에 결합되는 후보 노드입니다. 클러스터가 노드를 클러스터에 추가하려고 하나 실패합니다. 15분 후 클러스터는 두 번째로 클러스터에 노드를 추가하려고 시도하며 다시 실패합니다. 15분 후 클러스터는 세 번째로 클러스터에 노드를 추가하려고 시도하지만 다시 실패합니다. 15분 후 클러스터는 오류 코드 1194를 로그합니다. 클러스터에 노드를 추가하려고 시도하는 동안 노드가 온라인 상태로 되지 않았습니다.
  2. 상태 데이터가 다 저장되지 않은 상태에서 노드 작동이 중단되었습니다. 수리 후 노드는 다시 시작되어 노드 오류 578을 표시하며 클러스터에 결합되는 후보 노드입니다. 클러스터가 노드를 클러스터에 추가하려고 시도하고 이 시도가 성공하여 노드는 온라인 상태가 됩니다. 24시간 내에 상태 데이터가 저장되지 않은 상태에서 노드 작동이 다시 멈춥니다. 노드가 다시 시작되고 노드 오류 578을 표시하며 클러스터에 결합되는 후보 노드입니다. 클러스터가 다시 노드를 클러스터에 추가하려고 시도하고 이 시도가 성공하여 노드가 온라인 상태가 됩니다. 그러나 24시간 내에 노드 작동이 다시 멈춥니다. 클러스터가 세 번째로 노드를 클러스터에 추가하려고 시도하고 이 시도가 성공하여 노드가 온라인 상태가 됩니다. 그러나 24시간 내에 노드 작동이 다시 멈춥니다. 15분 후 클러스터는 오류 코드 1194를 로그합니다.

이러한 시나리오의 조합도 가능합니다.

참고: 클러스터에서 노드를 수동으로 제거하면 자동 복구 시도 수가 0으로 다시 설정됩니다.

사용자 응답

  1. 노드가 클러스터에서 24시간 넘게 계속해서 온라인 상태로 있으면 오류를 수정됨으로 표시하고 수리 확인 MAP으로 이동하십시오.
  2. 이벤트 로그에서 이 노드 이름의 이벤트를 찾아 이 노드의 이벤트 히스토리를 판별하십시오. WWNN 및 노드 이름에서 일치하도록 노드 ID가 변경됩니다. 서비스 레코드도 확인하십시오. 구체적으로 세 이벤트 중 하나를 표시하는 항목에 주의하십시오: 1) 클러스터에서 노드가 누락되었습니다(클러스터 오류 1195 이벤트 009052), 2) 오프라인 노드를 자동으로 복구하려는 시도가 시작됩니다(이벤트 980352), 3) 노드가 클러스터에 추가되었습니다(이벤트 980349).
  3. 복구 프로세스가 시작된 후 노드가 클러스터에 추가되지 않았으면 하드웨어 문제점이 있을 수 있습니다. 노드의 내부 디스크에 장애가 발생하여 해당 소프트웨어 레벨을 클러스터의 소프트웨어 레벨과 일치하도록 수정하지 못할 수도 있습니다. 문제점의 근본 원인을 아직 판별하지 못했으면 클러스터에서 노드를 수동으로 제거하여 노드를 다시 클러스터에 추가할 수 있습니다. 클러스터가 노드를 추가하려고 시도하는 동안 계속해서 클러스터에서 노드의 상태를 모니터하십시오. 참고: 클러스터의 소프트웨어 버전에서 해당 노드 유형을 지원하지 않으면 노드가 후보 노드로 표시되지 않습니다. 따라서 호환 불가능한 하드웨어는 이 오류의 잠재적 근본 원인이 아닙니다.
  4. 노드가 클러스터에 추가되었으나 24시간 동안 온라인 상태를 유지하기 전에 다시 장애가 발생하면 장애의 근본 원인을 조사하십시오. 이벤트 로그에 노드 장애 이유를 표시하는 이벤트가 없으면 덤프를 수집하여 IBM 기술 지원에 문의하십시오.
  5. 노드의 문제점을 수정했으면 클러스터 콘솔 또는 명령행 인터페이스를 사용하여 수동으로 클러스터에서 노드를 제거하고 클러스터에 노드를 추가해야 합니다.
  6. 오류를 수정됨으로 표시하고 확인 MAP으로 이동하십시오.

가능한 원인-FRU 또는 기타:

없음(조사 결과 하드웨어 장애가 의심될 수 있음).