Comportamiento de la recuperación de la replicación continua en clústeres

 

Se aplica a: Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007

Última modificación del tema: 2007-10-29

La replicación continua en clúster (CCR) proporciona redundancia total tanto de los datos como de los servicios que proporcionan acceso a los datos. La redundancia total permite la recuperación rápida en aquellos casos en que una copia compartida de los datos del buzón no permitiría la recuperación rápida.

El comportamiento de la recuperación CCR se puede separar en dos tipos de cortes:

  • Cortes programados   El administrador se encarga de iniciar los cortes programados. Un corte programado se puede utilizar para la recuperación de un error detectado por el sistema de supervisión o para realizar algunas tareas administrativas, tales como el mantenimiento de hardware, la instalación de software o las actualizaciones de software.

  • Cortes no programados   El sistema se encarga de iniciar los cortes no programados como una acción de recuperación de un error detectado. Estos cortes son detectados por el Servicio de Clúster Server de Windows, que además se encarga de activar su recuperación.

En la siguiente tabla se describen las acciones de recuperación previstas para diversos errores. Algunos errores requieren que el administrador inicie la recuperación mientras que otros son administrados automáticamente por la solución de clústeres de Exchange.

Acciones de recuperación de errores

Descripción Acción Comentarios

El sistema operativo deja de funcionar, el sistema operativo detectado no responde, error total de alimentación de un nodo, error irrecuperable del chip del procesador, de la placa base, del backplane o error total en las comunicaciones de un nodo

Conmutación por error automática en el nodo pasivo, si está disponible. El administrador también tiene la opción de aplicar el montaje automático, independientemente de la pérdida de datos, si la recuperación no se ha producido dentro de un período de tiempo configurado. Si no se montan bases de datos después de la conmutación por error y el nodo activo original vuelve a estar conectado, con todo su almacenamiento operativo, se copian los registros que faltan y se montan automáticamente las bases de datos.

Para que se encuentre disponible un nodo pasivo, debe ser posible establecer un quórum tras el error. Esto significa que el nodo restante debe poder tener acceso al quórum de recursos compartidos de archivos. Como alternativa, una mayoría de los nodos del clúster deben estar operativos y poder comunicarse entre sí.

Error de almacenamiento total en el servidor activo

Los errores de almacenamiento notificados al sistema de supervisión y a través de él. El administrador puede recuperar el almacenamiento o iniciar una interrupción programada en el nodo pasivo.

Este error se notificaría como un error de todas las bases de datos.

Error de centro de datos

Si se produce un error en el nodo activo del centro de datos principal, tiene lugar la conmutación por error automática del servidor de buzones de correo en clúster al nodo pasivo del centro de datos secundario.

Otros Exchange, los servicios de directorio, los servicios de red y los servidores deben recuperarse para continuar ofreciendo acceso al correo. Los datos de correo están disponibles y actualizados en unos minutos.

Error de unidad en el sistema operativo

No hay ninguna opción de recuperación automática. No detectado por Exchange a no ser que se produzca un error en el sistema operativo. La detección se basa en errores aparentes, no en una causa raíz.

Los servicios de supervisión del sistema notifican el error de unidad del sistema operativo y éste puede ocasionar un error del propio sistema operativo.

La unidad del sistema operativo se ha quedado sin espacio

Conmutación por error automática al nodo pasivo, siempre que esté disponible.

Este error se notifica a los servicios de supervisión. Si la recuperación automática ni se produce ni se puede producir, el administrador determina la acción de recuperación para este escenario.

Error total de la red pública del clúster

No hay ninguna opción de recuperación automática.

Si se pierde la red pública, los recursos de la dirección IP pasan a estar en un estado de error. Una vez que se ha solucionado el problema de la red pública, se puede volver a conectar los recursos.

Pérdida del quórum de los clústeres

Servidores de buzones de correo en clúster y del quórum de clúster sin conexión.

La consecuencia de esta situación es que no habrá servicio si no se puede formar ningún quórum.

Error del almacén de información

Reinicio automático del recurso del almacén de información. Si el error del recurso del almacén de información se produce durante un reinicio, se puede desencadenar una conmutación por error.

Tras varios errores, el administrador puede intentar mover manualmente el servidor de buzones de correo en clúster al nodo pasivo para volver a conectarlo.

Error de la unidad de la aplicación (archivos binarios)

No hay ninguna opción de recuperación automática.

Generalmente, este escenario tendrá como resultado otros errores notificados a los servicios de supervisión y que pueden ser materia de juicio por parte del administrador. En este caso, el administrador determina la acción de recuperación.

La unidad de la aplicación (archivos binarios) se ha quedado sin espacio

No hay ninguna opción de recuperación automática.

Se notifica a los servicios de supervisión. En este caso, el administrador determina la acción de recuperación.

Pérdida completa de la base de datos o del grupo de almacenamiento, o bien error total de la base de datos

Intento automático para volver a montar las bases de datos afectadas. Si este intento produce un error, la base de datos se queda en un estado de error, pero no tiene lugar la conmutación por error del servidor de buzones de correo en clúster.

El grupo de almacenamiento o la base de datos se desmontan debido a un error o a un daño en el software, o bien se han visto afectados por errores del hardware. Por ejemplo, un grupo de almacenamiento realiza un desmontaje forzado de todas las bases de datos cuando su directorio Log no está disponible. El administrador determina la acción correctiva.

Error parcial del grupo de almacenamiento o error parcial de la base de datos, algunos datos no están disponibles o error en el montaje inicial de la base de datos

No hay ninguna opción de recuperación automática.

Error parcial significa que se han detectado daños, pero éstos no obligan a desmontar el grupo de almacenamiento ni la base de datos. Si una base de datos no se monta en el inicio, no se realiza ninguna acción y la supervisión informa del error. El servidor de buzones genera eventos cuando se detecta que el servicio de supervisión puede informar de ellos. La supervisión también detecta y genera informes de las bases de datos desmontadas.

Se ha detectado que un registro del grupo de almacenamiento está dañado

No hay ninguna opción de recuperación automática. La copia pasa al estado de rota y se debe reinicializar.

La supervisión informa de esta condición.

La unidad de la base de datos o del registro de transacciones se ha quedado sin espacio

No hay ninguna opción de recuperación automática. Se desmontan las bases de datos del grupo de almacenamiento.

Se genera un informe sobre la falta de espacio disponible en la unidad a través del sistema de supervisión. El administrador determina la acción correctiva.

El administrador tiene control de configuración de la recuperación de error de interrupciones no programadas. Para obtener más información acerca de las interrupciones programadas y no programadas, consulte Cortes programados y no programados.