Medidas de tolerancia a errores de componentes

 

Última modificación del tema: 2005-05-20

Esta sección contiene consideraciones de nivel de componentes y estrategias para aumentar la tolerancia a errores de su organización de Exchange 2003. En concreto, nivel de componentes se refiere al hardware de servidor, el hardware de almacenamiento y el hardware de red individual de la infraestructura de su organización. Una estrategia de hardware efectiva puede mejorar la disponibilidad global de un sistema. Estas estrategias pueden ir desde la adopción de prácticas de sentido común hasta el uso de equipos tolerantes a errores muy costosos.

El hardware de la organización de Exchange 2003 incluye hardware de servidor y hardware de red. A la hora de adoptar una estrategia de hardware, tenga en cuenta lo siguiente:

  • Asegúrese de que el hardware sea redundante.
  • Asegúrese de implementar hardware de tipo servidor.
  • Asegúrese de seleccionar hardware estándar.
  • Asegúrese de que tiene hardware de reserva disponible.

En las próximas secciones se explica cada una de estas consideraciones de forma detallada. En general, cuando se selecciona y se implementa correctamente, el hardware puede ayudarle a cumplir los requisitos de sus SLA.

Para obtener más información acerca de las estrategias de hardware tolerante a errores y diseños de sistemas de alta disponibilidad, consulte el sitio Web Microsoft Solutions Framework.

Hardware redundante

La redundancia de hardware se refiere al uso de uno o más componentes de hardware para realizar tareas idénticas. Para reducir al mínimo los puntos únicos de error en su organización de Exchange 2003, es importante que utilice hardware redundante de servidor, red y almacenamiento. Al incorporar configuraciones de hardware duplicadas, puede producirse un error en una ruta de E/S de datos o en los componentes físicos de hardware de un servidor sin que ello afecte al funcionamiento de un servidor.

El hardware que debe utilizar para reducir al mínimo los puntos únicos de error dependerá de los componentes que desee hacer redundantes. Muchos proveedores de hardware ofrecen productos que crean redundancia en el hardware de la solución de servidor o de almacenamiento. Algunos de estos proveedores también ofrecen soluciones completas de almacenamiento, incluyendo hardware avanzado de copia de seguridad y de restauración diseñado para su uso con Exchange 2003.

Hardware de tipo servidor

El hardware de tipo servidor es hardware que proporciona un mayor grado de confiabilidad que el hardware diseñado para las estaciones de trabajo. Al seleccionar hardware para los servidores, los subsistemas de almacenamiento y la red de Exchange 2003, elija componentes de tipo servidor.

Nota

Tradicionalmente, los servidores que incluyen hardware de tipo servidor también incluyen características especiales de supervisión de hardware o software. Sin embargo, si el hardware que adquiere no incluye características de supervisión, piense en una solución de supervisión como parte del plan de diseño e implementación. Para obtener más información acerca de la importancia de la supervisión para el mantenimiento de una organización tolerante a errores, consulte “Implementación de una estrategia de supervisión” en Medidas de tolerancia a errores del sistema.

Hardware de servidor de tipo servidor

El hardware de servidor de tipo servidor incluye lo siguiente:

  • Fuentes de alimentación redundantes   Si se produce un error en la fuente de alimentación principal, las unidades y las baterías de reserva Sistema de alimentación ininterrumpida (SAI) redundantes del servidor y de la matriz de discos ofrecen una fuente de alimentación secundaria. Básicamente, un SAI y una reserva de baterías proporcionan protección contra las subidas y las pérdidas de tensión, que pueden ocasionar daños en los servidores y en los datos que contienen.

  • Ventiladores redundantes   Si un ventilador de refrigeración deja de funcionar, los ventiladores redundantes garantizan que haya suficiente refrigeración dentro del servidor. Los servidores sin ventiladores redundantes pueden apagarse automáticamente si un ventilador deja de funcionar.

    Nota

    Si una sala de servidores supera una temperatura determinada, puede que los ventiladores redundantes no sean suficientes para que el hardware pueda seguir funcionando correctamente. Para obtener información acerca de la temperatura y otras consideraciones de protección, consulte “Protección del entorno físico de los servidores” en Medidas de tolerancia a errores del sistema.

  • Memoria redundante   Si se produce un error en un banco de memoria, la memoria redundante garantiza que la memoria seguirá estando disponible. Por ejemplo, la copia de la memoria física (conocida como reflejo de memoria) proporciona tolerancia a errores mediante la replicación de memoria. Entre las técnicas de reflejo de memoria se incluye tener dos conjuntos de RAM en un equipo, siendo cada uno de ellos un reflejo del otro, o reflejar todo el estado del sistema (lo que incluye los estados de la RAM, la CPU, el adaptador y el bus). El reflejo de memoria debe realizarse e implementarse junto con el fabricante de equipos originales (OEM).

  • Memoria con ECC   Si se produce un error de doble bit, la memoria con Código de corrección de errores (ECC) detecta y corrige los errores de un único bit y pone la memoria fuera de conexión.

  • Tarjetas de interfaz de red redundantes   Si se produce un error en una tarjeta de interfaz de red (NIC) o en una conexión de red, las NIC redundantes garantizan que los servidores conservarán la conexión de red.

  • Componentes de supervisión de encendido   Cuando se enciende el servidor, éste detecta las condiciones de error de inicio, como condiciones anormales de temperatura o un ventilador que no funciona.

  • Componentes de supervisión previa al error   Mientras el servidor está en funcionamiento se supervisan las condiciones previas al error. Si un componente (como una fuente de alimentación, un disco duro, un ventilador o la memoria) empieza a fallar, se notifica al administrador antes de que se produzca realmente el error.
    Por ejemplo, un error detectado por la memoria con ECC lo corrige la memoria con ECC o se enruta a la memoria redundante, impidiendo que se produzca un error en el servidor. Se notifica inmediatamente a un administrador para rectificar el problema de memoria.

  • Componentes de supervisión de hardware de errores de alimentación   Cuando se produce un error de alimentación, el software de apagado del sistema garantiza un apagado, si es necesario, junto con un SAI.

Hardware de almacenamiento de tipo servidor

  • Un sistema de almacenamiento redundante ofrece protección contra el error de una unidad o de un controlador de disco. Debe considerar la posibilidad de implementar los siguientes componentes redundantes:
    • Hardware redundante en los servidores de servicios de fondo para la conexión a la matriz externa
    • Rutas redundantes a la matriz de discos
    • Controladores de almacenamiento redundantes
  • Además, utilice RAID para implementar redundancia de los números de unidad lógica (LUN). Para obtener más información acerca de cómo implementar tolerancia a errores para su solución de almacenamiento de servicios de fondo, consulte “Implementación de una solución de almacenamiento de servicios de fondo confiable” en Medidas de tolerancia a errores del sistema.

Hardware de red de tipo servidor

El hardware de red de tipo servidor incluye lo siguiente:

  • Concentradores, conmutadores, adaptadores de red y cables redundantes   Para obtener información acerca de cómo implementar este hardware redundante en su red, consulte a los proveedores que ofrecen estos componentes.
  • Enrutadores redundantes   Los enrutadores no tienen errores con frecuencia. Sin embargo, si los tienen, se pueden apagar organizaciones enteras de servidores. Por tanto, es fundamental tener una capacidad redundante de enrutamiento. Para obtener información acerca de cómo protegerse contra los errores de enrutadores, consulte a su proveedor de enrutadores.

Nota

Para los servidores en los que deba mantener el máximo grado de disponibilidad, utilice direcciones fijas del Protocolo Internet (IP) y no utilice el Protocolo de configuración dinámica de host (DHCP). Esto impide una interrupción del servicio debido a un error del servidor DHCP. Esto puede mejorar la resolución de direcciones por parte de servidores DNS que no realizan la asignación de direcciones dinámicas que ofrece DHCP.

Hardware estándar

Para asegurarse de que su hardware es totalmente compatible con los sistemas operativos Windows, seleccione hardware incluido en Windows Server Catalog (este sitio está en inglés).

Cuando seleccione hardware incluido en Windows Server Catalog, adopte un estándar para el hardware y estandarícelo lo máximo posible. En concreto, seleccione un tipo de equipo y, para cada equipo que compre, utilice los mismos componentes (por ejemplo, las mismas tarjetas de red, controladores de disco y tarjetas gráficas). Los únicos parámetros que debe modificar son la cantidad de memoria, el número de CPU y las configuraciones de disco duro.

La estandarización de hardware presenta las ventajas siguientes:

  • A la hora de probar actualizaciones de controladores o de software de aplicación, sólo es necesario realizar una prueba antes de implementarlas en todos los equipos.
  • Se necesitan menos piezas de repuesto para mantener un conjunto adecuado de hardware de sustitución.
  • El personal de soporte técnico necesita menos aprendizaje, ya que es más fácil para ellos familiarizarse con un conjunto limitado de componentes de hardware.

Componentes de repuesto y servidores en espera

Cuando elabore su presupuesto para hardware, incluya componentes de hardware de repuesto, servidores de repuesto e incluso servidores en espera activos. ((Activos se refiere a servidores que están encendidos y preparados para sustituir a un determinado tipo de servidor de su organización). El hecho de tener accesibles estos componentes de hardware y servidores de repuesto puede mejorar considerablemente su capacidad de sustituir hardware dañado y recuperarse de errores de hardware.

Componentes de repuesto

No olvide incluir componentes de repuesto en su presupuesto de hardware, y tenga estos componentes activos y preparados para empezar a funcionar rápidamente. Una ventaja del uso de hardware estándar es el menor número de componentes de repuesto que debe tener a mano. Por ejemplo, si todas las unidades de disco duro son del mismo tipo y del mismo fabricante, no necesita almacenar tantas unidades de repuesto.

El número de componentes de repuesto que debe tener disponibles está relacionado con el tiempo máximo de inactividad que su organización puede tolerar. Otra preocupación es la disponibilidad en el mercado de componentes de sustitución. Algunos componentes, como memoria y CPU, son bastante fáciles de encontrar y adquirir en cualquier momento. Sin embargo, otros componentes como las unidades de disco duro se dejan de fabricar con frecuencia y puede ser difícil encontrarlos dentro de poco tiempo. En el caso de estos componentes, debe comprar repuestos cuando adquiera el hardware original. Además, cuando evalúe soluciones de distintos proveedores de hardware, debe utilizar compañías de servicios o proveedores que sustituyan rápidamente componentes o servidores enteros dañados.

Servidores en espera

Considere la posibilidad de mantener un servidor en espera, posiblemente hasta un servidor en espera activo en el que se replican automáticamente los datos. Si los costos del tiempo de inactividad son elevados y la organización en clústeres no es una opción viable, puede utilizar servidores en espera para reducir los tiempos de recuperación. El uso de servidores en espera puede ser también importante si el error del servidor supone costos elevados, como pérdidas de beneficios por el tiempo de inactividad del servidor o penalizaciones por el incumplimiento de un SLA.

Un servidor en espera puede sustituir rápidamente a un servidor con errores o, en algunos casos, actuar como fuente de piezas de repuesto. Además, si un servidor experimenta un error catastrófico que no afecta a las unidades de disco duro, quizás sea posible mover las unidades desde el servidor con errores a un servidor funcional (posiblemente junto con la restauración de datos a partir de medios de copia de seguridad).

Nota

En un entorno de clústeres, esta transferencia de datos se realiza automáticamente.

Una ventaja de utilizar servidores en espera para recuperarse de un error es que el servidor donde se produjo el error se puede diagnosticar a fondo. El diagnóstico de la causa de un error es importante para evitar errores repetidos.

Los servidores en espera deben estar certificados y, al igual que los servidores de producción, deben estar en funcionamiento 24 horas al día los 7 días de la semana.