Comportamiento de la recuperación de clúster de copia única

 

Se aplica a: Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007

Última modificación del tema: 2007-10-26

Los clústeres de copia única (SCC) ofrecen redundancia para los servicios que proporcionan acceso a los datos. La redundancia de servicio permite una recuperación rápida, sin pérdida de datos, en los casos en los que se producen errores en el nodo host. Como un SCC pasa el almacenamiento que contiene las bases de datos a un nuevo nodo como parte de un servicio de conmutación por error, el servicio se debería restaurar sin pérdida de datos.

Sin embargo, en un SCC, el subsistema de almacenamiento es un error puntual. Un error total del subsistema de almacenamiento produce normalmente un corte de un día y una pérdida de datos media de 12 horas. Se da por supuesto que se realizan copias de seguridad completas diariamente. Además, la configuración de almacenamiento para una solución SCC normalmente es más compleja de instalar y utilizar que la que requiere la replicación continua de clústeres (CCR), que es el otro tipo de solución de clúster de Exchange. Para obtener más información acerca de la replicación continua de clústeres, consulte replicación continua de clústeres.

El comportamiento de recuperación de SCC se puede dividir en dos tipos de cortes:

  • Cortes programados   El administrador se encarga de iniciar los cortes programados. Un corte programado se puede utilizar para la recuperación de un error detectado por el sistema de supervisión o para realizar algunas tareas administrativas, tales como el mantenimiento de hardware o la instalación de software o actualizaciones de software.

  • Cortes no programados   El sistema se encarga de iniciar los cortes no programados como una acción de recuperación de un error detectado. Estos cortes se detectan y el servicio de clúster de Windows se encarga de activar su recuperación.

En la siguiente tabla se describen las acciones de recuperación previstas para diversos errores. Algunos errores requieren que el administrador inicie la recuperación mientras que otros son administrados automáticamente por el servicio de clúster de Windows.

Los cortes programados y no programados, aunque se desencadenan de forma diferente, tienen como resultado la activación de un nodo pasivo y el montaje de las bases de datos, dando por supuesto que los discos compartidos realizan la transición correctamente. Si los discos compartidos no realizan la transición correctamente, debido quizás a un error de configuración, el comportamiento es el mismo. Las bases de datos afectadas no se montan.

Nota

En un nodo pasivo sólo puede activarse un servidor de buzones de correo en clúster en el tiempo especificado. Si un nodo ya hospeda un servidor de buzones de correo en clúster activo, no puede conectar otro servidor.

Nota

A diferencia de versiones anteriores de Exchange, Microsoft Exchange Server 2007 no desencadena interrupciones automáticas no programadas SCC (conmutación por error) como resultado de los errores de la base de datos.

Acciones de recuperación de errores

Descripción del error Acción Comentarios

El sistema operativo deja de funcionar, el sistema operativo no responde, error total de alimentación de un nodo, error irrecuperable del chip del procesador, de la placa base, del backplane o error total en las comunicaciones de un nodo

Conmutación por error automática al nodo pasivo, siempre que esté disponible. Las bases de datos se montan cuando su almacenamiento entra en línea.

Para que se encuentre disponible un nodo pasivo, debe ser posible establecer un quórum tras el error. Esto significa que el nodo restante debe poder tener acceso al quórum.

Error de almacenamiento total en el nodo activo

Los errores de almacenamiento se notifican al sistema de supervisión. El administrador puede recuperar el almacenamiento o debe utilizar copias de seguridad para recuperarlo.

Conmutación por error automática al nodo pasivo, siempre que esté disponible. Las bases de datos se montan cuando su almacenamiento entra en línea.

Para que se encuentre disponible un nodo pasivo, debe ser posible establecer un quórum tras el error. Esto significa que el nodo restante debe poder tener acceso al quórum.

Error de almacenamiento total

Los errores de almacenamiento se notifican al sistema de supervisión. El administrador puede recuperar el almacenamiento o debe utilizar copias de seguridad para recuperarlo.

Este error se considera un error del clúster (y todos sus recursos) porqué no se puede obtener acceso al quórum ni a las bases de datos.

Error de centro de datos

No se admite la conmutación por error automática sin una solución de replicación de terceros.

La replicación debe ser sincrónica si se replican datos activos.

Error de unidad de disco del sistema operativo

No hay ninguna opción de autorrecuperación. No detectado por Exchange a no ser que se produzca un error en el sistema operativo. La detección se basa en errores aparentes, no en una causa raíz.

Los servicios de supervisión del sistema operativo envían un error de la unidad de disco del sistema operativo y puede ocasionar errores en el mismo.

La unidad del sistema operativo se ha quedado sin espacio

Conmutación por error automática al nodo pasivo, siempre que esté disponible. Las bases de datos se montan cuando su almacenamiento entra en línea.

Este error se notifica a los servicios de supervisión. Si no se produce la conmutación por error, o si no se puede producir, el administrador determina la acción de recuperación para este escenario.

Error de la red pública del clúster en un nodo activo

La misma acción de recuperación que en el caso de error total de alimentación.

No hay detección del estado de la red pública, sólo del hardware y software utilizados para establecer comunicación entre los nodos activos y pasivos. La comprobación de la conectividad real del cliente no la proporciona Exchange 2007.

Error total de la red pública del clúster

No hay ninguna opción de autorrecuperación.

Si se pierde la red pública, los recursos de dirección IP entrarán a un estado de error. Una vez solucionado el problema de la red pública, los recursos se pueden volver a conectar.

Pérdida del quórum de los clústeres

Los servidores de buzones de correo en clúster y el quórum no están conectados.

La consecuencia de esta situación es que no habrá servicio si no se puede formar ningún quórum.

Error del almacén de información

Reinicio automático del recurso del almacén de información.

Tras varios errores, el administrador puede intentar mover manualmente el servidor de buzones de correo en clúster a un nodo pasivo en un intento de conectarlo.

Error de la unidad de disco de la aplicación (archivo binario)

No hay ninguna opción de autorrecuperación.

Generalmente, este escenario tendrá como resultado otros errores notificados a los servicios de supervisión y que pueden ser materia de juicio por parte del administrador. En este caso, el administrador determina la acción de recuperación.

La unidad de la aplicación (archivos binarios) se ha quedado sin espacio

No hay ninguna opción de autorrecuperación.

El servicio de supervisión informa de este estado. En este caso, el administrador determina la acción de recuperación.

Pérdida completa de la base de datos o del grupo de almacenamiento, o bien error total de la base de datos

Intento automático de volver a montar las bases de datos afectadas. Si se produce un error en el intento, la base de datos permanecerá en un estado de error, pero no se producirá ninguna conmutación por error del servidor de buzones de correo en clúster.

El grupo de almacenamiento o la base de datos se desmontan debido a un error o a un daño en el software, o bien han quedado afectados por errores del hardware. Por ejemplo, un grupo de almacenamiento realiza un desmontaje forzado de todas las bases de datos cuando su directorio Log no está disponible. El administrador determina la acción de corrección. La recuperación puede ser un corte programado para activar el nodo pasivo.

Error parcial del grupo de almacenamiento o de la base de datos, algunos datos no están disponibles o error en el montaje inicial de la base de datos

No hay ninguna opción de autorrecuperación.

Error parcial significa que se han detectado daños, pero éstos no obligaron a desmontar el grupo de almacenamiento ni la base de datos. Si una base de datos no se monta en el inicio, no se realiza ninguna acción y los servicios de supervisión informan del error. El servidor de buzones de correo genera eventos cuando se detecta que el servicio de supervisión puede informar de ellos. La supervisión también detectará y generará informes de las bases de datos desmontadas.

Se ha detectado que un registro del grupo de almacenamiento está dañado

No hay ninguna opción de autorrecuperación.

El servicio de supervisión informa de este estado.

La unidad de la base de datos o del registro de transacciones se ha quedado sin espacio

No hay ninguna opción de autorrecuperación. Se desmontarán las bases de datos del grupo de almacenamiento.

Se genera un informe sobre la falta de espacio disponible en la unidad a través del sistema de supervisión. El administrador determina la acción de corrección.