gmlinktolerance 기능은 비순환 모드에서 글로벌 미러 관계에 대한
응답 시간을 모니터합니다. chsystem CLI 명령 또는 관리 GUI를 사용하여 gmlinktolerance 기능을 설정할 수 있습니다.
gmlinktolerance 기능은 1차
시스템이 2차 시스템의 느린 응답 시간을 허용하는 시간(초)을 나타냅니다.
응답이 늦어 지정된 허용 범위를 넘는 경우 1920 오류가 로그됩니다. 또한,
하나 이상의 글로벌 미러 관계가 자동으로 중지되어 1차 사이트에서 애플리케이션 호스트를
보호합니다.
글로벌 미러 기능은 비동기 복제를 사용하기 때문에 정상 조작 중에 애플리케이션 호스트가 응답 시간에 최소한의 영향을 받은 것을 볼 수 있습니다. 그러나
글로벌 미러 조작에서
확장된 시간 동안 2차 시스템의 응답 시간이 저하되면 I/O 조작이 1차 시스템의
큐에 대기합니다. 이 상황은 애플리케이션 호스트에 대한 응답 시간을 느리게 합니다. 이 경우,
gmlinktolerance 기능은 글로벌 미러 관계를 중지하고 애플리케이션 호스트 응답 시간은
정상으로 돌아갑니다. 1920 오류가 발생한 후, 오류의 원인을 수정하여 글로벌 미러 관계를 다시 시작할 때까지 글로벌 미러 보조
볼륨은 더 이상 consistent_synchronized 상태가
아닙니다. 이러한 이유로, 이 오류 발생 시 추적할 시스템을
모니터해야 합니다.
gmlinktolerance 값을 0(제로)으로 설정하여 gmlinktolerance 기능을 사용하지 않을 수 있습니다. 그러나 gmlinktolerance 기능은 사용 안함으로 설정된 경우
긴 응답 시간으로부터 애플리케이션을 보호할 수 없습니다. 다음과 같은 상황에서는 gmlinktolerance 기능을 끄는 것이 적절할 수 있습니다.
- SAN 유지보수 창 중이며, 여기서는 저하된 성능이
SAN 구성요소에서 예상되며 애플리케이션 호스트가 글로벌 미러
볼륨에서 긴 응답 시간을 용납할 수 있습니다.
- 애플리케이션 호스트가 긴 응답 시간을 허용할 수 있는 기간 중이며, 여기서는
gmlinktolerance 기능이 글로벌 미러 관계를 중지할 것으로 예상됩니다. 예를 들어,
백엔드 스토리지를 압박하도록 구성된 I/O 생성기를 사용하여 테스트 중인 경우
gmlinktolerance 기능이 긴 대기 시간을 발견하고 글로벌 미러 관계를 중지할 수 있습니다.
gmlinktolerance를 사용하지 않으면 이를 예방할 수 있으나 테스트 호스트의 응답 시간이 길어질 위험이 있습니다.
1920 오류 진단 및 수정
1920 오류는
하나 이상의 SAN 구성요소가 애플리케이션 호스트에 필요한 성능을 제공할 수 없음을
표시합니다. 이 오류는 임시적(예를 들어,
유지보수 활동의 결과) 또는 영구적(예를 들어, 하드웨어 실패 또는 예상치 못한 호스트 I/O 워크로드의
결과)일 수 있습니다.
1920 오류 앞에 정보 이벤트 985004
최대 복제 지연이 초과되었음이 있는 경우, 시스템은
최대 복제 지연 제한시간 값 이내에 원격 시스템에서 디스크의 경로를 찾을 수 없습니다. 원격 시스템을 조사하여
저하된 경로를 찾고 복구하십시오. 또한
lssystem 명령을 사용하여 maxreplicationdelay 값을 볼 수 있습니다. 값이 너무 낮으면
chsystem 명령을 사용하여 새
maxreplicationdelay 값을 지정하십시오.
기타 1920 오류가 발생하는 경우, SAN 성능
분석 도구를 설정하고(예: IBM® Spectrum Control)
올바르게 구성되어 문제점 발생 시 통계를 모니터하는지 확인하십시오. SAN
성능 분석 도구를 최소 사용 가능한 통계 콜렉션 간격으로 설정하십시오.
IBM Spectrum Control 시스템의 경우, 최소 간격은
5분입니다. 몇몇 1920 오류가 발생하면 최초 오류의 원인을 먼저 진단하십시오. 오류의 원인을 판별하는 데는 다음 질문이 도움이 될 수 있습니다.
- 오류가 발생했을 때 유지보수 작업이 진행중이었습니까?
유지보수에는
스토리지 시스템 물리적 디스크의 교체,
스토리지 시스템의 펌웨어 업데이트
또는
시스템 중 하나에서 코드 업데이트 완료가 포함될 수 있습니다.
비순환 모드에서 글로벌 미러 관계를 다시 시작하기 전에
유지보수 프로시저가 완료될 때가지 대기해야 합니다. 그렇지 않으면, 시스템이 좋은 성능으로 안정 상태로 아직 돌아오지 않았으므로 다른 1920
오류가 발행됩니다.
- 소스 또는 대상 시스템에 수정되지 않은 오류가 있었습니까?
그러한 경우, 이를 분석하여
오류에 대한 이유인지 여부를 판별하십시오. 특히, 관계에서 사용 중인 MDisk 또는
볼륨에 오류가 관련되는지 여부 또는
오류가 대상 시스템의 성능을 축소했는지 판별하십시오. 글로벌 미러 관계를 다시 시작하기 전에
오류가 수정되었는지 확인하십시오.
- 장거리 링크에 과부하가 걸려있습니까?
링크가 단기 최대 글로벌 미러 워크로드를 처리할 수 없을 경우 1920 오류가 발생할 수 있습니다. 다음 확인을 완료하여
장거리 링크에 과부하가 걸려 있는지 여부를 판별하십시오.
- 글로벌 미러 관계가 중단되기 전의 총 글로벌 미러 보조 볼륨 쓰기 처리량을 확인하십시오. 이 볼륨이 링크 대역폭과 대략 비슷할 경우
링크에 과부하가 걸려있을 수 있습니다. 이 문제는 애플리케이션 호스트 I/O 조작 또는
호스트 I/O 및 백그라운드(동기화) 복사 활동의 조합으로 인한 것일 수 있습니다.
- 글로벌 미러 관계가 중단되기 전의 총 글로벌 미러 소스 볼륨 쓰기 처리량을 확인하십시오. 이 값은 애플리케이션 호스트에서 완료되는 I/O 조작을
나타냅니다. 이러한 조작이 링크의 대역폭에 근접한 경우,
애플리케이션이 완료하려고 시도하는 I/O 조작을 축소하거나 글로벌 미러를 사용하여
더 적은 볼륨을 복사하십시오. 보조 디스크가 소스 볼륨보다 훨씬 많은 쓰기 I/O 조작을 나타내는 경우에는 백그라운드 복사가 많습니다. 총 애플리케이션 I/O 대역폭 및 백그라운드 복사 속도를
링크의 기능에서 감당할 수 있는 범위 안에 들게 하기 위해 글로벌 미러 파트너십의 백그라운드 복사 속도 매개변수를 줄이십시오.
- 글로벌 미러 관계가 중단된 후의 총 글로벌 미러 소스 볼륨 쓰기 처리량을 확인하십시오. 관계가 중단되었을 때
쓰기 처리량이 30% 이상 증가한 경우
애플리케이션 호스트는 링크가 감당할 수 있는 양보다 더 많은 I/O 조작을 완료하려고 시도합니다. 글로벌 미러 관계가 활성 상태인 동안 과부하된 링크는 애플리케이션 호스트의 응답 시간을 증가시키며
따라서 그 처리량이 감소하게 됩니다. 글로벌 미러 관계가 중지된 후,
애플리케이션 호스트의 응답 시간은 줄어듭니다. 이 경우,
링크 대역폭을 늘리고 애플리케이션 호스트 I/O 비율을 줄이거나 글로벌 미러를 통해
더 적은 볼륨이 복사되어야 합니다.
- 2차 시스템의 스토리지 시스템에
과부하가 걸려있습니까?
하나 이상의 MDisk가 시스템에 부실한 서비스를 제공하므로
애플리케이션 I/O 조작이 애플리케이션 호스트에 필요한 비율로 진행할 수 없는 경우,
1920 오류가 발생합니다.
백엔드
스토리지 시스템
요구사항을 따른 경우, 오류는
스토리지 시스템 성능의 감소로 인한 것일 수 있습니다. 갑자기 50ms 이상을 늘린 개별적인 MDisk의 응답 시간 또는
100ms를 넘는 응답 시간은
문제점을 표시합니다. 다음 확인을 완료하여
스토리지 시스템에 과부하가 걸려있는지 판별하십시오.
- 스토리지 시스템에서 매체 오류, 물리 디스크 실패 또는 RAID 다시 빌드와 같은 연관 행동 등의 오류 조건을 확인하십시오. 문제점을 수정한 후 글로벌 미러 관계를 다시 시작하십시오.
- 오류가 없는 경우 2차 스토리지 시스템이
애플리케이션 호스트 I/O 조작의 필수 레벨을 진행할 수 있는지 여부를 판별하십시오. 어레이에 물리적 디스크를 추가하여 스토리지 시스템의 성능을
개선해서, 어레이의 RAID 레벨을 변경하고 캐시 배터리가
조작 가능하도록 스토리지 시스템의 캐시 설정을 변경하거나 스토리지 시스템의 기타 특정 구성 매개변수를 변경할 수 있습니다.
- 1차 시스템의 스토리지 시스템에
과부하가 걸려있습니까?
2차 백엔드 스토리지와 동일한 단계를 사용하여 1차 백엔드 스토리지의 성능을
분석하십시오. 성능이 나쁜 경우 애플리케이션 호스트에서 완료할 수 있는 I/O
조작의 수를 제한하십시오. 글로벌 미러 관계에 영향을 미치지 않아도
1차 사이트에서 백엔드 스토리지를
모니터하십시오.
낮은 성능이 계속되면 1920 오류가 발생하며 글로벌 미러 관계가 중단됩니다.
- 사용자의 시스템 중 하나에 과부하가 걸려있습니까?
각 시스템의 이러한 2개의 통계 총계가 1밀리초를 넘는 경우, 시스템의
I/O 로드가 높을 수 있습니다. 또한
50%보다 큰 비율도 문제점의 원인일 수 있으므로 시스템 노드 CPU 이용률을
확인하십시오. 어느 경우든 추가 지원을
IBM
서비스 담당자에 문의하십시오.
- 2차 시스템에서 FlashCopy®
조작이 준비된 상태로 되어 있습니까?
글로벌 미러 보조 볼륨이 FlashCopy 맵핑의 소스이며 이 맵핑이 긴 시간 동안 준비된 상태로 있을 경우
캐시를 사용하지 않게 되어 볼륨에 대한 성능이 저하될 수 있습니다. 글로벌 미러 I/O 조작에서 캐시를 사용하며 성능이 나아지도록
FlashCopy 맵핑을 시작합니다.