Descripción del tiempo de inactividad

 

Última modificación del tema: 2005-05-20

El tiempo de inactividad puede afectar considerablemente a la disponibilidad del sistema de mensajería. Es importante que se familiarice con las diversas causas del tiempo de inactividad y de cómo afectan al sistema de mensajería.

Tiempo de inactividad previsto e imprevisto

El tiempo de inactividad imprevisto es el tiempo de inactividad que se produce como resultado de un error (por ejemplo, un error de hardware o de sistema ocasionado por una configuración incorrecta del servidor). Como los administradores no saben cuándo puede producirse el tiempo de inactividad imprevisto, no se notifica de antemano a los usuarios de las interrupciones de servicio. Por el contrario, el tiempo de inactividad previsto es el que tiene lugar cuando un administrador apaga el sistema a una hora programada. Como el tiempo de inactividad previsto está programado, los administradores pueden planear que ocurra en el momento en que menos afecte a la productividad.

Para eliminar o reducir al mínimo el tiempo de inactividad previsto puede implementar clústeres de servidor. Incluso mientras se realizan tareas de mantenimiento en un nodo principal, los clústeres de servidor proporcionan una disponibilidad de mensajería continua para la organización (mediante la conmutación por error temporal a servicios de Exchange ubicados en un equipo en espera en el clúster de Exchange). Para obtener más información acerca de la organización en clústeres, consulte Diseño de la organización en clústeres de Exchange.

En la tabla siguiente se enumeran las causas más frecuentes del tiempo de inactividad y se ofrecen ejemplos de cada causa posible.

Causas del tiempo de inactividad y ejemplos de cada causa

Causas del tiempo de inactividad Ejemplos

Tiempo de inactividad previsto por tareas administrativas

Actualizaciones de componentes de hardware, firmware, controladores, sistema operativo y aplicaciones de software.

Errores en componentes

Componentes de servidor con errores, como chips de memoria, ventiladores, placas base y fuentes de alimentación.

Componentes del subsistema de almacenamiento con errores, como unidades de disco y controladores de disco.

Componentes de red con errores, como enrutadores y cable de red.

Defectos o errores de software

La unidad deja de responder, el sistema operativo deja de responder o se reinicia, virus o daños en archivos.

Error del operador o usuarios malintencionados

Eliminación de archivos accidental o intencionada, funcionamiento sin conocimientos o experimentación.

Cortes del sistema o mantenimiento

Software o sistemas que se deben reiniciar, o error en la placa base.

Desastre local

Incendios, tormentas u otros desastres locales.

Desastre regional

Terremotos, huracanes, inundaciones y otros desastres regionales.

Tipos de error

Un aspecto integral de la implementación de un sistema de mensajería con alta disponibilidad es garantizar que ningún punto único de error pueda hacer que un servidor o una red deje de estar disponible. Antes de implementar el sistema de mensajería de Exchange 2003 debe familiarizarse con los siguientes tipos de error que pueden producirse y establecer un plan para actuar en consecuencia.

Nota

Para obtener información detallada acerca de cómo reducir al mínimo el impacto de los siguientes tipos de error, consulte Cómo hacer que su organización de Exchange 2003 sea tolerante a errores.

Errores de almacenamiento

Dos errores de almacenamiento frecuentes que pueden producirse son errores de disco duro y errores de controlador de almacenamiento. Puede utilizar varios métodos para protegerse frente a errores de almacenamiento individuales. Un método consiste en utilizar Matriz redundante de discos independientes (RAID) para ofrecer redundancia de los datos del subsistema de almacenamiento. Otro método es utilizar proveedores de almacenamiento que ofrezcan soluciones avanzadas, como soluciones de Red de área de almacenamiento (SAN). Estas soluciones avanzadas de almacenamiento deben incluir funciones que le permitan intercambiar dispositivos de almacenamiento dañados y componentes individuales de controlador de almacenamiento sin perder el acceso a los datos. Para obtener más información acerca de las tecnologías RAID y SAN, consulte Diseño de una solución de almacenamiento de servicios de fondo confiable.

Errores de red

Entre los errores de red más frecuentes se incluyen errores en enrutadores, conmutadores, concentradores y cables. Para ayudar a protegerse frente a estos errores, existen varios componentes de tolerancia a errores que puede utilizar en su infraestructura de red. Los componentes de tolerancia a errores también ayudan a ofrecer conexión de alta disponibilidad con recursos de red. Cuando evalúe los métodos para proteger la red, tenga en cuenta todos los tipos de red (como redes de acceso de clientes y de administración). Para obtener información acerca del hardware de red, consulte “Hardware de red de tipo servidor” en Medidas de tolerancia a errores de componentes.

Errores en componentes

Entre los errores frecuentes en componentes de servidor se incluyen errores en tarjetas de interfaz de red (NIC), memoria (RAM) y procesadores. Como recomendación, debe tener hardware de repuesto disponible para cada componente fundamental del servidor (por ejemplo, NIC, RAM y procesadores). Además, muchas plataformas de servidor de nivel empresarial proporcionan componentes de hardware redundantes, como fuentes de alimentación y ventiladores redundantes. Los proveedores de hardware crean equipos con componentes redundantes de intercambio directo, como tarjetas Interconexión de componentes periféricos (PCI, Peripheral Component Interconnect) y memoria. Estos componentes le permiten sustituir el hardware dañado sin interrumpir el servicio del equipo.

Para obtener información acerca de cómo utilizar componentes redundantes y componentes de hardware de repuesto, consulte Medidas de tolerancia a errores de componentes.

Errores en equipos

Debe resolver rápidamente los errores de aplicaciones o cualquier otro problema que afecte al rendimiento de un equipo. Para reducir al mínimo el impacto de un error de un equipo, existen dos soluciones que puede incluir en el plan de recuperación de desastres: una solución de servidor en espera y una solución de clúster de servidor.

En una solución de servidor en espera, tiene uno o más equipos preconfigurados dispuestos a entrar en servicio inmediatamente. Si se produce un error en un servidor principal, este servidor en espera puede reemplazarlo. Para obtener información acerca de cómo utilizar servidores en espera, consulte “Componentes de repuesto y servidores en espera” en Medidas de tolerancia a errores de componentes.

Con los clústeres de servidor, las aplicaciones y los servicios están disponibles para los usuarios aunque se produzca un error en un nodo del clúster. Esto es posible si se conmuta por error la aplicación o el servicio (se transfieren las solicitudes de los clientes de un nodo a otro) o si se tienen varias instancias de la misma aplicación disponibles para las solicitudes de los clientes.

Nota

La organización en clústeres del servidor también puede ayudar a mantener un alto grado de disponibilidad si es preciso retirar temporalmente del servicio uno o más equipos para realizar tareas rutinarias de mantenimiento o efectuar actualizaciones.

Para obtener información acerca de Equilibrio de carga de red (NLB) y la organización en clústeres de servidor, consulte “Medidas de tolerancia a errores para la infraestructura” en Medidas de tolerancia a errores del sistema.

Errores en sitios

En casos extremos, puede fallar todo un sitio por pérdida de alimentación eléctrica, un desastre natural y otros hechos poco habituales. Para protegerse contra dichos errores, muchas empresas están implementando soluciones fundamentales en distintos sitios dispersos geográficamente. Estas soluciones suelen implicar la duplicación del hardware, las aplicaciones y los datos de un sistema de mensajería en uno o más sitios remotos geográficamente. Si se produce un error en un sitio, los demás sitios siguen ofreciendo servicio (ya sea por conmutación por error automática o mediante procedimientos de recuperación de desastres que se realizan en el sitio remoto) hasta que se repara el sitio donde se produjo el error. Para obtener más información al respecto, consulte “Uso de varios sitios físicos” en Medidas de tolerancia a errores del sistema.

Costos del tiempo de inactividad

Es relativamente sencillo calcular algunos de los costos que supone el tiempo de inactividad. Por ejemplo, puede calcular fácilmente el costo de sustitución de hardware dañado. Sin embargo, los costos derivados de pérdidas en áreas como productividad e ingresos son más difíciles de calcular.

En la tabla siguiente se muestran los costos que deben tenerse en cuenta a la hora de calcular el impacto del tiempo de inactividad.

Costos del tiempo de inactividad

Categoría Costo implicado

Productividad

Número de empleados afectados por la pérdida de funcionalidad de mensajería y otros activos de IT

El número de administradores necesarios para un sitio aumenta con la frecuencia del tiempo de inactividad

Ingresos

Pérdidas directas

Pagos compensatorios

Pérdida de ingresos futuros

Pérdidas de facturación

Pérdidas de inversión

Rendimiento financiero

Reconocimiento de ingresos

Efectivo

Descuentos perdidos (A/P)

Garantías de pago

Nivel crediticio

Precio de las acciones

Daños en la reputación

Clientes

Proveedores

Mercados financieros

Bancos

Asociados comerciales

Otros gastos

Empleados temporales

Alquiler de equipos

Costos de horas extras

Costos adicionales de envío

Gastos de viajes

Impacto del tiempo de inactividad

La disponibilidad es cada vez más importante a medida que las empresas siguen dependiendo cada vez más de la tecnología de la información. Por tanto, la disponibilidad de los sistemas de información fundamentales para la empresa suele estar directamente relacionada con el rendimiento o con los ingresos de la empresa. Dependiendo del papel que desempeñe su servicio de mensajería (por ejemplo, la importancia del servicio para la organización), el tiempo de inactividad puede producir consecuencias negativas como insatisfacción de los clientes, pérdida de productividad o incapacidad de cumplir requisitos de obligado cumplimiento.

Sin embargo, no todo el tiempo de inactividad tiene el mismo costo; el tiempo de inactividad imprevisto produce unos gastos mayores. Fuera de las horas básicas de funcionamiento de un servicio de mensajería, la cantidad de tiempo de inactividad (y el correspondiente nivel de disponibilidad general) puede tener poco impacto o ninguno sobre su empresa. Si se produce un error en un sistema durante las horas normales de servicio, el impacto financiero puede ser importante. Como el tiempo de inactividad imprevisto no suele ser previsible y puede producirse en cualquier momento, debe evaluar el costo que supone durante las horas de servicio normales.

Debido a la diferente manera en que el tiempo de inactividad afecta a las empresas, es importante que seleccione la respuesta adecuada para su organización. En la tabla siguiente se enumeran distintos niveles de impacto (basándose en la gravedad), incluyendo el impacto que tiene cada nivel en su organización.

Niveles de impacto del tiempo de inactividad y el efecto correspondiente en la empresa

Nivel de impacto Descripción Impacto para la empresa

Nivel de impacto 1

Poco impacto en los resultados empresariales.

Bajo: requisito de disponibilidad mínimo.

Nivel de impacto 2

Interrumpe los procesos empresariales normales.

Mínima pérdida de ingresos, bajo costo de recuperación.

Bajo: la prevención de pérdidas empresariales mejora el retorno de la inversión y la rentabilidad.

Nivel de impacto 3

Pérdida de ingresos sustanciales; algunos se pueden recuperar.

Medio: la prevención de pérdidas empresariales mejora el retorno de la inversión y la rentabilidad.

Nivel de impacto 4

Impacto importante sobre las actividades empresariales básicas.

Afecta a los resultados a medio plazo.

Alto: la prevención de la pérdida de ingresos mejora los resultados empresariales. el riesgo empresarial vale más que el costo de la solución.

Nivel de impacto 5

Fuerte impacto sobre las actividades empresariales básicas.

Afecta a los resultados a medio plazo.

La supervivencia de la empresa puede estar en peligro.

Alto: el riesgo empresarial vale más que el costo de la solución.

Nivel de impacto 6

Impacto muy fuerte sobre las actividades empresariales básicas.

Amenaza inmediata a la supervivencia de la empresa.

Extremo: es esencial la administración del riesgo empresarial. El costo de la solución es secundario.