Comportamento da recuperação do Cluster de Cópia Única

 

Aplica-se a: Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007

Tópico modificado em: 2007-10-26

Os SCCs (clusters de cópia única) oferecem redundância para os serviços que fornecem acesso aos dados. A redundância de serviços permite recuperação rápida, sem perda de dados, quando ocorrem falhas no nó do host. Como um SCC passa o armazenamento que contém os bancos de dados para o novo nó como parte de um serviço de failover, o serviço deve ser restaurado sem perda de dados.

No entanto, em um SCC, o subsistema de armazenamento é um ponto único de falha. Normalmente, uma falha total do subsistema de armazenamento produz uma interrupção de um dia e uma média de perda de dados de 12 horas. Isso pressupõe a execução diária de backups completos. Além disso, a configuração de armazenamento para uma solução de SCC é geralmente mais complexa de instalar e operar que a exigida pela CCR (replicação contínua em cluster), que é o outro tipo de solução de cluster do Exchange. Para obter mais informações sobre CCR, consulte Replicação Contínua em Cluster.

O comportamento da recuperação de SCC pode ser separado em dois tipos de interrupções:

  • Interrupções agendadas   Interrupções agendadas são iniciadas pelo administrador. Uma interrupção agendada pode ser utilizada na recuperação de uma falha detectada pelo sistema de monitoramento ou na execução de alguma tarefa administrativa, como manutenção de hardware ou instalação de software ou atualizações de software.

  • Interrupções não agendadas   Interrupções não agendadas são iniciadas pelo sistema como uma ação de recuperação de uma falha detectada. Essas interrupções são detectadas e suas recuperações são acionadas pelo serviço de cluster do Windows.

A tabela a seguir descreve as ações de recuperação esperadas para várias falhas. Algumas falhas exigem que o administrador inicie a recuperação enquanto outras falhas são manipuladas automaticamente pelo serviço de Cluster do Windows.

Interrupções agendadas e não agendadas, embora acionadas de maneira diferente, resultam na ativação de um nó passivo e na montagem de bancos de dados, pressupondo que a transição de discos compartilhados seja realizada com êxito. Se os discos compartilhados falharem ao realizar a transição corretamente, talvez devido a erros de configuração, o comportamento será o mesmo. Os bancos de dados afetados não são montados.

Dica

É possível ativar apenas um servidor de caixas de correio clusterizadas em um nó passivo em qualquer momento especificado. Quando o nó já está hospedando um servidor de caixas de correio agrupadas ativo, ele não pode colocar outro servidor online.

Dica

Ao contrário das versões anteriores do Exchange, o Microsoft Exchange Server 2007 não aciona interrupções (failover) não agendadas automáticas de SCC como resultado de falhas de banco de dados.

Ações de recuperação para falhas

Descrição da falha Ação Comentários

Erro de interrupção do sistema operacional; sistema operacional pára de responder, falha total de energia de um nó, falha irrecuperável do chip do processador, da placa-mãe ou do painel traseiro ou falha total de comunicação de um nó

Failover automático para nó passivo, se disponível. Os bancos de dados são montados à medida que os respectivos armazenamentos ficam online.

Para que um nó passivo esteja disponível, deverá ser possível estabelecer um quorum após a falha. Isso significa que o nó restante deve poder acessar o quorum.

Falha total de armazenamento no nó ativo

Falhas de armazenamento são relatadas ao sistema de monitoramento e por meio dele. O administrador pode recuperar o armazenamento ou deve usar backups para recuperá-lo.

Failover automático para nó passivo, se disponível. Os bancos de dados são montados à medida que os respectivos armazenamentos ficam online.

Para que um nó passivo esteja disponível, deverá ser possível estabelecer um quorum após a falha. Isso significa que o nó restante deve poder acessar o quorum.

Falha total de armazenamento

Falhas de armazenamento são relatadas ao sistema de monitoramento e por meio dele. O administrador pode recuperar o armazenamento ou deve usar backups para recuperá-lo.

A falha é relatada como uma falha do cluster (e de todos os seus recursos) porque o quorum e os bancos de dados não estão acessíveis.

Falha do centro de dados

Failover automático sem suporte quando não existe uma solução de replicação de terceiros.

A replicação deve ser síncrona, caso realizada a partir de dados atualizados.

Falha da unidade do sistema operacional

Nenhuma ação de recuperação automática. Não detectada pelo Exchange, a menos que haja uma falha no sistema operacional. Detectada com base em falhas aparentes, não importando a causa principal.

A falha na unidade do sistema operacional é relatada pelos serviços de monitoramento do sistema operacional e pode causar falha do sistema operacional.

Unidade do sistema operacional sem espaço

Failover automático para nó passivo, se disponível. Os bancos de dados são montados à medida que os respectivos armazenamentos ficam online.

Essa falha é relatada aos serviços de monitoramento e por meio deles. Se o failover automático não ocorrer ou não puder ocorrer, a ação de recuperação para esse cenário será determinada pelo administrador.

Falha da rede pública do cluster no nó ativo

Mesma ação de recuperação que a do cenário de falha total de energia.

Não há detecção da integridade da rede pública além do hardware e do software usados para comunicação entre os nós ativo e passivo. A verificação de conectividade real de cliente não é fornecida pelo Exchange 2007.

Falha total da rede pública do cluster

Nenhuma ação de recuperação automática.

Se a rede pública for perdida, os recursos de Endereço IP entrarão em estado de falha. Depois que o problema de rede pública for solucionado, os recursos poderão ser colocados online novamente.

Perda de quorum do cluster

Os servidores de caixas de correio clusterizadas e o quorum de cluster estão offline.

O resultado deste cenário será sem serviço se um quorum não puder ser formado.

Falha do armazenamento de informações

Reinício automático do recurso de armazenamento de informações.

Depois de repetidas falhas, o administrador pode tentar mover manualmente o servidor de caixas de correio clusterizadas para um nó passivo como tentativa de colocá-lo online.

Falha da unidade de aplicativos (arquivo binário)

Nenhuma ação de recuperação automática.

Geralmente, este cenário resulta em outras falhas que são relatadas aos serviços de monitoramento e por meio deles. Essas falhas podem ser acionadas pelo administrador. A ação de recuperação para este cenário é determinada pelo administrador.

Unidade de aplicativo (arquivos binários) sem espaço

Nenhuma ação de recuperação automática.

Os serviços de monitoramento relatam essa condição. A ação de recuperação para este cenário é determinada pelo administrador.

Perda total do banco de dados ou do grupo de armazenamento ou falha total do banco de dados

Tentativa automática de remontar os bancos de dados afetados. Se essa tentativa falhar, o banco de dados permanecerá em um estado de falha, mas não ocorrerá nenhum failover do servidor de caixas de correio clusterizadas.

O grupo de armazenamento ou o banco de dados foi desmontado devido à falha ou corrupção do software, ou falhou devido a falhas de hardware. Por exemplo, um grupo de armazenamento faz uma desmontagem forçada de todos os bancos de dados quando seu diretório de log não está disponível. O administrador determina a ação corretiva. A recuperação pode ser uma interrupção agendada para ativar o nó passivo.

Falha parcial do grupo de armazenamento ou do banco de dados, alguns dados indisponíveis ou falha inicial de montagem do banco de dados

Nenhuma ação de recuperação automática.

Falha parcial significa que alguma danificação foi relatada, mas não forçou a desmontagem do grupo de armazenamento ou do banco de dados. Se um banco de dados não for montado na inicialização, nenhuma ação será tomada e os serviços de monitoramento relatarão a falha. O servidor de Caixas de Correio gera eventos quando isso é detectado, o que pode ser relatado pelos serviços de monitoramento. O monitoramento também detectará e relatará bancos de dados desmontados.

Log danificado detectado para o grupo de armazenamento

Nenhuma ação de recuperação automática.

Os serviços de monitoramento relatam essa condição.

Unidade do banco de dados e do log de transações sem espaço

Nenhuma ação de recuperação automática. Os bancos de dados no grupo de armazenamento serão desmontados.

A condição de falta de espaço livre na unidade é relatada pelo sistema de monitoramento. O administrador determina a ação corretiva.