O recurso gmlinktolerance monitora os tempos de resposta dos relacionamentos do
Global Mirror em modo sem ciclo. É possível usar o comando da CLI
chsystem ou o GUI de gerenciamento para configurar o recurso gmlinktolerance.
O recurso gmlinktolerance representa o número de segundos que o
sistema primário tolera tempos de resposta lentos do sistema secundário.
Se a resposta insatisfatória se estender além da tolerância especificada, um erro 1920 será
registrado. Além disso, um ou mais relacionamentos de Global Mirror são automaticamente interrompidos para
proteger os hosts de aplicativos no site primário. Durante a operação normal, os hosts de aplicativos
observam um impacto mínimo nos tempos de resposta porque o recurso Global Mirror
usa a replicação assíncrona. No entanto, se as operações de
Global Mirror experimentarem
tempos de resposta degradados do sistema secundário por um tempo estendido, as operações de E/S se
enfileirarão no sistema primário. Essa situação resulta em um tempo de resposta estendido para hosts de aplicativos. Nesse caso, o recurso
gmlinktolerance para os relacionamentos do Global Mirror e o tempo de resposta dos hosts de aplicativos
retornam ao normal. Após a ocorrência de um erro 1920, os
volumes auxiliares do Global Mirror não estarão mais
no estado consistent_synchronized até você corrigir a causa do erro e reiniciar seus relacionamentos do Global Mirror. Por esse motivo, assegure-se de monitorar o sistema para rastrear quando esse erro ocorre.
É possível desativar o recurso
gmlinktolerance configurando o valor gmlinktolerance para 0 (zero). No entanto, o recurso gmlinktolerance não
poderá proteger os aplicativos de tempos de resposta estendidos se ele estiver desativado. Pode ser apropriado desativar o recurso
gmlinktolerance nas seguintes circunstâncias:
- Durante as janelas de manutenção da SAN, em que o desempenho comprometido é esperado de componentes da SAN e os hosts de
aplicativos podem resistir a tempos de resposta estendidos de volumes do Global Mirror.
- Durante períodos em que os hosts de aplicativos podem tolerar tempos de reposta estendidos, é esperado que o recurso
gmlinktolerance pare os relacionamentos do Global Mirror. Por exemplo, se você
estiver testando usando um gerador de E/S que está configurado para estressar o armazenamento
de backend, o recurso gmlinktolerance poderá detectar a alta latência e parar os relacionamentos
do Global Mirror.
Desativar o gmlinktolerance impede isso
com o risco de expor o host de teste aos tempos de resposta estendidos.
Diagnosticando e corrigindo erros 1920
Um erro 1920 indica que
um ou mais componentes da SAN não são capazes de fornecer o desempenho requerido pelos
hosts de aplicativos. Esse erro
pode ser temporário (por exemplo, um resultado da atividade de manutenção) ou permanente (por exemplo, um resultado de uma
falha de hardware ou uma carga de trabalho inesperada de E/S do host).
Se o erro 1920 foi precedido pelo evento informativo 985004,
Atraso máximo de replicação foi excedido, o sistema pode não localizar um caminho para
o disco no sistema remoto dentro do valor de tempo limite de atraso máximo de replicação. Investigue o
sistema remoto para localizar e reparar quaisquer caminhos degradados. Também é possível usar
o comando lssystem para visualizar o valor maxreplicationdelay. Se
o valor for muito baixo, use o comando chsystem para especificar um novo valor
de maxreplicationdelay.
Se estiverem ocorrendo outros erros 1920, configure uma ferramenta de análise de desempenho da SAN,
como o IBM® Spectrum
Control, e certifique-se
de que ele esteja configurado corretamente e estatísticas de monitoramento quando o problema ocorrer. Configure
sua ferramenta de análise de desempenho da SAN para o intervalo de coleta de estatísticas mínimo disponível.
Para um
sistema
IBM Spectrum
Control, o intervalo mínimo é
de 5 minutos. Se ocorrerem
diversos erros 1920, faça primeiro o diagnóstico da causa do erro mais antigo. As perguntas
a seguir podem ajudá-lo a determinar a causa do erro:
- A manutenção estava ocorrendo no momento do erro?
A manutenção pode incluir a substituição de um
disco físico do sistema de armazenamento, a atualização do firmware do sistema de armazenamento ou a conclusão de uma atualização de código em
um do
.
Antes de reiniciar os relacionamentos do
Global Mirror no
modo sem ciclo, deve-se esperar até que o procedimento de manutenção seja concluído. Caso contrário, outro
erro 1920 será emitido, pois o sistema ainda não retornou para um estado estável com bom desempenho.
- Havia algum erro não corrigido no sistema de origem ou de destino?
Se
sim, analise-os para determinar se eles são a razão deste erro. Em particular, determine se os erros
estão relacionados ao volume ou MDisks que estão sendo utilizados no relacionamento ou se
os erros reduziram o desempenho do sistema de destino. Assegure-se de que os erros sejam corrigidos antes de
reiniciar o relacionamento Global Mirror.
- O link de longa distância está sobrecarregado?
Se o link não for capaz de sustentar
o pico de carga de trabalho de Global Mirror de curto prazo, um erro
1920 poderá ocorrer. Conclua
as verificações a seguir para determinar se o link de longa distância está sobrecarregado:
- Examine o rendimento total de gravação do volume auxiliar do
Global Mirror antes dos relacionamentos de Global Mirror serem interrompidos. Se esse volume for aproximadamente igual
à largura da banda do link, o link poderá estar sobrecarregado. Esse problema pode ocorrer devido a operações de E/S do host de aplicativos ou a uma combinação de E/S do host e atividades de cópia (sincronização) de plano de fundo.
- Examine o rendimento total de gravação de volume de origem
do Global Mirror antes que os relacionamentos do Global Mirror sejam interrompidos. Este valor
representa as operações de E/S que estão sendo concluídas pelos hosts de aplicativos. Se essas
operações estiverem se aproximando da largura da banda do link,
reduza as operações de E/S que o aplicativo está tentando concluir ou use o Global Mirror para
copiar menos volumes. Se os discos auxiliares mostrarem
significativamente mais operações de E/S de gravação do que os volumes
de origem, haverá um alto nível de cópia plano de fundo.
Diminua o parâmetro da taxa de
cópia em plano de fundo da parceria do Global Mirror para fazer
com que a largura da banda de E/S de aplicativo total e a taxa
de cópia em plano de fundo fiquem dentro da capacidade do link.
- Veja o rendimento total da gravação do volume de origem
do Global Mirror após os relacionamentos de Global Mirror serem interrompidos. Se o rendimento de gravação aumentar 30% ou mais quando os
relacionamentos forem interrompidos, os hosts de aplicativos estarão
tentando concluir mais operações de E/S do que o link pode sustentar. Embora os relacionamentos de Global Mirror estejam
ativos, o link sobrecarregado faz com que haja tempos
de resposta maiores para o host de aplicativos, o que diminui o rendimento que ele pode atingir. Depois que os relacionamentos do Global Mirror param, o host de aplicativos observa tempos de resposta menores. Nesse caso, a
largura da banda do link deve ser aumentada, a taxa de E/S do host de aplicativos deve ser diminuída ou menos volumes devem ser copiados com o uso do
Global Mirror.
- Os sistemas de armazenamento no sistema secundário estão sobrecarregados?
Se as operações de E/S do aplicativo
não puderem continuar na taxa que é necessária para o host de aplicativos porque um ou mais
MDisks está fornecendo serviço insatisfatório ao sistema, ocorrerá um erro 1920.
Se os requisitos do
sistema de armazenamento de backend forem seguidos, o erro
poderá ocorrer devido a uma diminuição do desempenho do
sistema de armazenamento. Um tempo de resposta para um MDisk maior que 50 ms ou mais repentinamente individual ou um tempo de
resposta acima de 100 ms indica um problema. Conclua as
verificações a seguir para determinar se os
sistemas de armazenamento estão sobrecarregados:
- Verifique o sistema de armazenamento em busca
de condições de erro, como erros de mídia, disco físico com falha
ou atividades associadas, como a reconstrução de RAID. Corrija quaisquer problemas e, em seguida, reinicie os
relacionamentos do
Global Mirror.
- Se não ocorrer nenhum erro, determine se o sistema de armazenamento secundário pode processar o nível
necessário de operações de E/S do host de aplicativos. O
desempenho do sistema de armazenamento
poderá ser melhorado incluindo mais discos físicos em uma matriz, alterando o nível do RAID da
matriz, alterando as configurações de cache do sistema de armazenamento,
assegurando-se que a bateria de cache está operacional ou alterando outros parâmetros de
configuração específicos do
sistema de armazenamento.
- Os sistemas de armazenamento no sistema primário
estão sobrecarregados?
Analise o desempenho do armazenamento de backend primário usando as mesmas etapas que
para o armazenamento de backend secundário. Se o desempenho for ruim, limite o número de operações
de E/S que podem ser concluídas pelos hosts de aplicativos. Monitore o armazenamento de backend no local primário, mesmo se os relacionamentos do
Global Mirror
não foram afetados. Se o desempenho ruim continuar por um período
prolongado, um erro 1920 ocorrerá
e os relacionamentos Global Mirror serão interrompidos.
- Um de seus sistemas está
sobrecarregado?
Se o total dessas duas estatísticas para qualquer um dos sistemas estiver acima de 1 milissegundo, o
sistema poderá estar enfrentando um carregamento de E/S alto. Além disso, verifique a
utilização da CPU
do nó do sistema, pois taxas maiores que 50% também podem contribuir para o problema. Em qualquer um dos casos, entre em contato com seu Representante de serviços IBM para obter
assistência adicional.
- Você possui operações de
FlashCopy no estado
preparado no sistema secundário?
Se os
volumes auxiliares do Global Mirror
forem as origens de um mapeamento do FlashCopy
e esse mapeamento estiver no estado preparado por um tempo estendido,
o desempenho desses volumes poderá ser impactado,
pois o cache estará desativado. Inicie o mapeamento do FlashCopy para ativar o cache e
melhorar o desempenho em operações de E/S do Global Mirror.