Help Desk Software Home » Características

Las métricas son la base de la gestión de servicios de TI, ya que proporcionan información sobre las operaciones y ayudan a identificar áreas de mejora continua. Las métricas habituales de la mesa de ayuda permiten mostrar la eficiencia operativa interna. Por ejemplo, el SLA, que mide el número de tickets resueltos en el tiempo especificado, es un factor clave que muestra la eficiencia de la mesa de servicio. Por otro lado, las métricas de fallos ayudan a los equipos a identificar los puntos débiles de la infraestructura de TI y a evaluar las respuestas a los fallos. Esto ayuda a los equipos de TI a minimizar el efecto dominó que los fallos pueden causar en los sistemas críticos.

¿Cuáles son las principales métricas de fallos que debe supervisar? En este artículo veremos los tres KPI siguientes:

  • Tiempo medio entre fallos
  • Tiempo medio de fallo
  • Tiempo medio de reparación

Tiempo medio entre fallos (MTBF)

Mean Time Between Failures (MTBF)  meaning

Cuando se producen fallos frecuentes en los activos de infraestructura de TI, ya sean redes, servidores, estaciones de trabajo, etc., tienen un impacto dominó en la disponibilidad de los servicios de TI y empresariales. Estas interrupciones pueden causar la pérdida de ingresos y reputación. Si un determinado activo informático sufre interrupciones frecuentes, suele ser necesario repararlo o sustituirlo. Antes de eso, es útil investigar y entender por qué el activo falla a menudo y en qué circunstancias. Esto ayuda a planificar el mantenimiento de los activos y a mejorar la disponibilidad de los sistemas. El MTBF es la métrica que ayuda a identificar las causas de los tiempos de inactividad y a mitigarlas o a planificar una recuperación rápida y una mayor disponibilidad de los sistemas informáticos.

MTBF metrics and calculation

Figura 1. Tiempo medio entre fallos

Si el MTBF de un determinado activo informático es bajo, significa que el activo sufre inactividades frecuentes que provocan interrupciones en el negocio y TI.

Ejemplo de MTBF

En una organización, las nuevas actualizaciones de la unidad de almacenamiento seguían fallando cada vez que se aplicaban nuevas actualizaciones del firmware de Windows. Esto ocurrió varias veces y el MTBF empeoró. Tras analizar el problema, el equipo determinó que el controlador de terceros no permitía implementar la API necesaria para llevar a cabo la actualización o hacía que ésta fallara. Cuando se programa una nueva actualización, si los controladores de terceros no implementan las API necesarias, se puede recurrir a dos posibles soluciones. Por un lado, se pueden intercambiar las API con las alternativas de Windows para los protocolos de almacenamiento SATA y NVMe. Por otro lado, se puede obtener una versión nueva y compatible del controlador por parte del OEM, lo cual puede ayudar a implementar actualizaciones, corregir errores y solucionar las brechas de seguridad. Monitorear y supervisar las actualizaciones de los controladores y el tiempo de inactividad ayuda a mejorar la disponibilidad de las unidades de almacenamiento.

Cómo mejorar el MTBF

  • Implemente un proceso para observar el estado de los activos y así monitorear y supervisar los fallos. Esto ayuda a identificar la causa de las interrupciones.
  • Analice la causa raíz del problema para crear conciencia, abordar las causas a largo plazo y mejorar el rendimiento de los activos.
  • Cree una estrategia de respuesta rápida para abordar y reducir eficazmente los tiempos de inactividad que afectan a las operaciones. El objetivo es conseguir que haya menos interrupciones y más tiempo entre ellas.

Tiempo medio de fallo (MTTF)

Mean time to failure (MTTF) meaning

Los activos que fallan con regularidad pueden interrumpir las operaciones de TI de su organización y provocar el deterioro y el bajo rendimiento de la infraestructura de TI. La métrica MTTF ayuda a determinar la vida útil típica de un activo, dispositivo o componente. En el caso de activos y componentes de TI con un MTTF bajo, sustituir el componente de TI en lugar de repararlo suele ser más eficiente en términos de tiempo, y minimiza los impactos y costos operativos.

Esto se aplica especialmente a los componentes de TI vinculados a elementos operativos cruciales de la infraestructura, como una pila de servidores mainframe o un punto de acceso a la red.

MTTF formula and calculation

Figura 2. Tiempo medio de fallo

Si el MTTF de un activo es desfavorable y falla con regularidad, indica que el activo informático no es fiable y necesita sustituirse con frecuencia para no afectar a las operaciones de TI.

Ejemplo de MTTF

En una empresa de desarrollo de software informático, cuando se conectaba o desconectaba un cable del switch de la pila de datos y servidores de red, los cables de red se soltaban y se desconectaban o dañaban. Esto provocaba que los archivos se corrompieran debido a la interrupción en la transferencia de datos. Un análisis más detallado realizado por el equipo de redes reveló que la cubierta de plástico sin enganches se rompía continuamente en el cable de conexión RJ45 CAT6. Esto se debía a que el cable había sido adquirido a un fabricante que utilizaba material barato. El equipo de TI sustituyó los cables viejos por otros de mejor calidad para asegurarse de que no habría problemas en el futuro cuando se trasladaran los cables, como la pérdida o corrupción de datos. Este es un ejemplo clásico, pero supervisar periódicamente el MTTF del cable ayuda a los equipos de TI a comprender el impacto de los activos críticos, como los componentes, para que puedan tomar decisiones informadas sobre su reparación y sustitución.

Cómo aumentar el MTTF

  1. Aumente la vida útil de los activos al adquirir activos de alta calidad y retirar los activos de baja calidad y costo.
  2. Evite las interrupciones a gran escala de las operaciones empresariales programando revisiones periódicas de los componentes vinculados a los activos críticos.
  3. Implemente un proceso de inventario justo a tiempo que calcule el tiempo que un activo está operativo, lo que permite reducir los gastos generales de almacenamiento de activos.

Tiempo medio de reparación (MTTR)

Mean Time to Repair (MTTR) meaning

Cuando falla un sistema informático crítico, los equipos de TI deben reactivarlo lo antes posible. Los retrasos en el restablecimiento de los sistemas informáticos pueden provocar pérdidas de ingresos y afectar a operaciones empresariales críticas. Un sistema de recuperación y respuesta bien organizado puede ayudar a los equipos de TI a responder a las interrupciones imprevistas y restablecer las operaciones con eficacia. El MTTR mide el tiempo medio que se tarda en reparar o solucionar los problemas de un activo y devolverlo a su capacidad operativa.

MTTR calculation

Figura 3. Tiempo medio de reparación

El costo de una interrupción aumenta a medida que lo hace el MTTR. Un MTTR elevado sugiere que sus operaciones de recuperación y respuesta no son rápidas y eficaces. Los fallos del sistema son inevitables, pero el MTTR permite a los equipos reaccionar a los fallos de los activos de forma oportuna y estratégica.

Ejemplo de MTTR

Una empresa de software se enfrentó a un ataque de día cero contra un videojuego que estaba desarrollando debido a la vulnerabilidad de un código. El ataque interrumpió algunas operaciones como la conexión Wi-Fi y los sistemas de vigilancia. Esto llevó a los atacantes a acceder al dominio de red de la organización y a archivos empresariales confidenciales. El equipo de ciberseguridad informó a los empleados sobre los ataques de día cero y dónde podían denunciarlos. Todos los activos informáticos de la organización estaban equipados con antivirus de nueva generación (NGAV). El ataque inutilizó la LAN y el portal de autoservicio de los empleados, paralizando las operaciones de la organización. Una hora después del ataque, el equipo de ciberseguridad fue informado y ayudado por la capacidad del NGAV, que aprovecha el análisis de amenazas y los patrones de comportamiento de los usuarios, e identificó la actividad sospechosa. El equipo de ciberseguridad ejecutó inmediatamente un script de gestión de parches para corregir la vulnerabilidad en el código, y bloqueó su red local para evitar un mayor impacto en las operaciones y el robo de datos.

Cómo reducir el MTTR

  1. Una estrategia eficaz de gestión de activos ayuda a tomar mejores decisiones al identificar los cuellos de botella y designar los activos que se deben reparar o sustituir. Esto ahorra dinero y espacio de almacenamiento.
  2. Defina las responsabilidades y roles de los técnicos para agilizar el proceso de detección y resolución de incidentes.
  3. Proporcione a los técnicos procedimientos operativos estándar detallados para reducir la falta de comunicación y la confusión durante un tiempo de inactividad.
  4. Mida el MTTR utilizando una solución de gestión de activos empresariales que centralice la información de mantenimiento y monitoreo de los activos. Esto también ayuda a optimizar la utilización de activos, recopilar datos sobre los activos y predecir posibles interrupciones.

Conclusión

MTBF and MTTR

Estas métricas de fallos ayudan a los equipos a identificar los cuellos de botella en las operaciones y su capacidad de respuesta a incidentes de TI. Permiten a los equipos de TI lograr una mayor eficiencia operativa al identificar la causa raíz de los incidentes persistentes. Los equipos de TI pueden mejorar su estrategia de respuesta a incidentes al tener una imagen clara de las áreas en las que se ven afectadas las operaciones de TI. Estas métricas se pueden implementar en las organizaciones utilizándolas como KPI en lugar de como meros objetivos de rendimiento. Las métricas resaltan las áreas en las que se pueden simplificar procesos y hacer mejoras operativas, y no son meros objetivos a alcanzar.

Un breve resumen de cada métrica:

  • MTBF permite conocer mejor la eficacia de la mesa de servicio para evitar futuras interrupciones.
  • MTTF le ayuda a comprender el ciclo de vida de un activo y su fiabilidad.
  • MTTR indica el tiempo invertido en reparaciones y la rapidez con la que sus equipos de TI son capaces de diagnosticar las interrupciones.
Saket

Acerca del autor

Saket Pasumarthy, experto de productos en ManageEngine ServiceDesk Plus, es un entusiasta de la ITSM y le fascina conocer los últimos avances en el espacio de TI. Saket escribe artículos y blogs que ayudan a los equipos de gestión de servicios de TI de todo el mundo a afrontar los retos que plantea la gestión de servicios. También dirige sesiones de capacitación de usuarios en la clase magistral de ServiceDesk Plus. Saket pasa su tiempo libre jugando al fútbol y pilotando aviones en un simulador de vuelo.