Comportamento de recuperação de Replicação Contínua em Cluster

 

Aplica-se a: Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007

Tópico modificado em: 2007-10-29

O recurso de CCR (replicação contínua em cluster) fornece redundância completa tanto dos dados como dos serviços que fornecem acesso aos dados. A redundância completa habilita a recuperação rápida nos casos em que uma cópia compartilhada de dados da caixa de correio não permite recuperação rápida.

O comportamento da recuperação de CCR pode ser separado em dois tipos de interrupções:

  • Interrupções agendadas   Interrupções agendadas são iniciadas pelo administrador. Uma interrupção agendada pode ser utilizada na recuperação de uma falha detectada pelo sistema de monitoramento ou na execução de alguma tarefa administrativa, como manutenção de hardware ou instalação de software ou atualizações de software.

  • Interrupções não agendadas   Interrupções não agendadas são iniciadas pelo sistema como uma ação de recuperação de uma falha detectada. Essas interrupções são detectadas e suas recuperações são acionadas pelo serviço de cluster do Windows.

A tabela a seguir descreve as ações de recuperação esperadas para várias falhas. Algumas falhas exigem que o administrador inicie a recuperação e outras são tratadas automaticamente pela solução de cluster do Exchange.

Ações de recuperação para falhas

Descrição Ação Comentários

Erro de interrupção do sistema operacional; desligamento detectado do sistema operacional (pára de responder), falha total de energia de um nó, falha irrecuperável do chip do processador, da placa-mãe, do painel traseiro; ou falha total de comunicação de um nó

Failover automático para nó passivo, se disponível. O administrador também tem a opção de forçar a montagem automática independente da perda de dados, se a recuperação não tiver ocorrido dentro de um tempo configurado. Se nenhum banco de dados for montado após o failover e o nó ativo original ficar novamente online, com todo o armazenamento operacional, os logs ausentes serão copiados e os bancos de dados serão automaticamente montados.

Para que um nó passivo esteja disponível, deverá ser possível estabelecer um quorum após a falha. Isso significa que o nó remanescente deve poder acessar o quorum de compartilhamento de arquivos. De forma alternativa, a maior parte dos nós no cluster deve estar operacional e ser capaz de se comunicar entre si.

Falha de armazenamento total no servidor ativo

Falhas de armazenamento são relatadas ao sistema de monitoramento e por meio dele. O administrador pode recuperar o armazenamento ou iniciar uma interrupção agendada para o nó passivo.

Essa falha seria reportada como uma falha de todos os bancos de dados.

Falha do centro de dados

Se o nó ativo no centro de dados principal falhar, ocorrerá um failover automático do servidor de caixas de correio clusterizadas para o nó passivo no segundo centro de dados.

Outros servidores Exchange, serviços de diretório, serviços de rede e servidores devem ser recuperados para continuar a fornecer acesso a emails. Os dados de correio estão disponíveis e atualizados em alguns minutos.

Falha da unidade do sistema operacional

Nenhuma ação de recuperação automática. Não detectada pelo Exchange, a menos que haja uma falha no sistema operacional. Detectada com base em falhas aparentes, não importando a causa principal.

A falha na unidade do sistema operacional reportada pelos serviços de monitoramento do sistema operacional pode fazer com que o sistema operacional apresente falhas.

Unidade do sistema operacional sem espaço

Failover automático para nó passivo, se disponível.

Essa falha é relatada aos serviços de monitoramento e por meio deles. Se a recuperação automática não ocorrer ou não puder ocorrer, a ação de recuperação para esse cenário será determinada pelo administrador.

Falha total da rede pública do cluster

Nenhuma ação de recuperação automática.

Se a rede pública for perdida, os recursos de Endereço IP inserirão um estado de falha. Depois que o problema de rede pública for solucionado, os recursos poderão ser colocados online novamente.

Perda de quorum do cluster

Servidores de caixas de correio clusterizadas e quorum de cluster offline.

Esse cenário resultará na ausência de serviço se um quórum não puder ser formado.

Falha do armazenamento de informações

Reinício automático do recurso de armazenamento de informações. Se a falha do recurso de armazenamento de informações ocorrer durante um reinício, um failover será acionado.

Depois de repetidas falhas, o administrador pode tentar mover manualmente o servidor de caixas de correio clusterizadas para o nó passivo como tentativa de colocá-lo online.

Falha da unidade de aplicativos (arquivos binários)

Nenhuma ação de recuperação automática.

Geralmente, esse cenário resulta em outras falhas que são relatadas aos serviços de monitoramento e por meio deles. Essas falhas podem ser acionadas pelo administrador. A ação de recuperação para este cenário é determinada pelo administrador.

Unidade de aplicativo (arquivos binários) sem espaço

Nenhuma ação de recuperação automática.

Relatado para os serviços de monitoramento e por meio deles. A ação de recuperação para este cenário é determinada pelo administrador.

Perda total do banco de dados ou do grupo de armazenamento ou falha total do banco de dados

Tentativa automática de remontar os bancos de dados afetados. Se essa tentativa falhar, o banco de dados permanecerá em um estado de falha, mas não ocorrerá nenhum failover do servidor de caixas de correio clusterizadas.

O grupo de armazenamento ou o banco de dados foi desmontado devido à falha ou corrupção do software, ou falhou devido a falhas de hardware. Por exemplo, um grupo de armazenamento faz uma desmontagem forçada de todos os bancos de dados quando seu diretório de log não está disponível. O administrador determina a ação corretiva.

Falha parcial do grupo de armazenamento ou do banco de dados, alguns dados indisponíveis ou falha inicial de montagem do banco de dados

Nenhuma ação de recuperação automática.

Falha parcial significa que alguma danificação foi relatada, mas não forçou a desmontagem do grupo de armazenamento ou do banco de dados. Se um banco de dados não for montado na inicialização, nenhuma ação será tomada e o monitoramento relatará a falha. O servidor de caixa de correio gera eventos quando isso é detectado e pode ser relatado pelos serviços de monitoramento. O monitoramento também detecta e relata bancos de dados desmontados.

Log danificado detectado para o grupo de armazenamento

Nenhuma ação de recuperação automática. A cópia entra em uma condição de interrupção e deve ser propagada novamente.

O monitoramento relata essa condição.

Unidade do banco de dados e do log de transações sem espaço

Nenhuma ação de recuperação automática. Os bancos de dados no grupo de armazenamento são desmontados.

A condição de falta de espaço livre na unidade é relatada pelo sistema de monitoramento. O administrador determina a ação corretiva.

O administrador possui controle de configuração sobre uma recuperação de falha de interrupção não agendada. Para obter mais informações sobre interrupções agendadas e não agendadas, consulte Interrupções agendadas e não agendadas.