En esta sección, nos sumergiremos en las distintas técnicas empleadas para encontrar la causa raíz de un problema en un entorno de TI.
Técnicas de gestión de problemas de TI
El proceso de gestión de problemas se puede establecer con una buena herramienta de mesa de servicio, pero las técnicas utilizadas para la investigación y el diagnóstico deben variar según la organización. Se recomienda que las técnicas de investigación sean flexibles en función de las necesidades de la organización en lugar de ser demasiado estrictas.
Dado que los problemas pueden tener cualquier forma o tamaño, es imposible apegarse a una sola técnica para encontrar todas las soluciones; se obtendrán mejores resultados si se combinan varias técnicas. Un simple problema de conectividad LAN podría resolverse con una sesión rápida de lluvia de ideas, pero un problema de red o VoIP podría necesitar un análisis más profundo.
Estas son algunas técnicas que puede aplicar en el proceso de gestión de problemas de su organización.
Lluvia de ideas
Al conversar con varios departamentos, puede obtener diversas perspectivas y nueva información, generando muchas soluciones potenciales.
Para tener una sesión de lluvia de ideas productiva, necesita un moderador. El moderador se encarga de lo siguiente:
- Dirigir la reunión
- Documentar la información obtenida
- Destacar las medidas que se van a tomar
- Dar seguimiento al entregable discutido
- Evitar que la sesión se prolongue demasiado
Las sesiones de lluvia de ideas son más productivas cuando se utilizan técnicas colaborativas de resolución de problemas, como el análisis de Ishikawa y el método de los cinco porqués. Estas técnicas se discutirán más adelante en esta sección.
Método Kepner-Tregoe
El método Kepner-Tregoe (K-T) es una técnica de resolución de problemas y toma de decisiones que se utiliza en muchos campos debido a su enfoque paso a paso para resolver un problema de manera lógica. Es ideal para resolver problemas complejos tanto en la gestión de problemas proactiva como reactiva.
El método sigue cuatro procesos:
- Evaluación de la situación: Evaluar y aclarar el escenario
- Análisis del problema: Relacionar la causa con el efecto
- Análisis de decisiones: Sopesar las opciones alternativas
- Análisis de problemas potenciales: Anticipar el futuro
Sin embargo, el análisis de problemas es la única parte que concierne a la gestión de problemas de TI y consta de cinco pasos.
Definir el problema
Identificar cuál es realmente el problema puede ser un problema en sí mismo. Dado que la gestión de problemas es inherentemente un esfuerzo de colaboración, definir el problema de manera exhaustiva elimina las nociones preconcebidas que podría tener algún participante, lo cual ahorra mucho tiempo.
Por ejemplo, si la copia de seguridad automática de datos de una organización en un servidor ha fallado, el problema se puede definir como:
Copia de seguridad fallida en el servidor
Esta definición de hecho describe la situación inusual, pero requiere de más preguntas e información. Un buen modelo de definición debe ser inequívoco y fácil de entender.
Para eliminar la ambigüedad, la definición se puede modificar de la siguiente manera:
La copia de seguridad de datos del 15 de noviembre falló en el servidor #34-C
Esta definición proporciona más claridad y evita que los empleados formulen preguntas redundantes. Sin embargo, esta definición puede mejorarse aún más. Imagine que la causa de la falla de la copia de seguridad de datos se puede atribuir a un evento como la aplicación de un nuevo parche; entonces el análisis inicial del problema indudablemente conduciría a este evento.
Para ahorrar tiempo y esfuerzo, modifique la definición de la siguiente manera:
La copia de seguridad de datos del 15 de noviembre falló en el servidor #34-C después de que el ingeniero Noah aplicara el parche 3.124
Esta definición detallada evita las preguntas redundantes y proporciona una buena cantidad de información sobre dónde podría estar el problema. Estos minutos adicionales dedicados a la definición inicial ahorran tiempo y esfuerzo valiosos, proporcionan un sentido lógico de dirección para el análisis y eliminan cualquier noción preconcebida sobre el problema.
Describir el problema
El siguiente paso es establecer una descripción detallada del problema. El método K-T proporciona las preguntas que se deben formular sobre cualquier problema para ayudar a identificar las posibles causas.
Las siguientes preguntas ayudan a describir cuatro partes de cualquier problema:
- ¿Cuál es el problema?
- ¿Dónde ocurrió el problema?
- ¿Cuándo ocurrió el problema?
- ¿Cuál es el alcance del problema?
Cada una de estas preguntas exige dos tipos de respuestas:
ES: Como en "¿Cuál es el problema?" o "¿Dónde está el problema?"
y
PODRÍA SER pero NO ES: Como en "¿Dónde podría estar el problema pero no está?"
Este ejercicio ayuda a comparar y resaltar el "qué, dónde, cuándo y cómo" de la desviación que está ocurriendo en el rendimiento normal de los procesos comerciales.
Establecer las posibles causas
La comparación entre el rendimiento normal y el rendimiento anormal del paso anterior ayuda a crear una lista de las posibles causas del problema. Hacer una tabla con toda la información en un solo lugar puede ser útil para hacer la comparación.
Es | Podría ser pero no es | Diferencias | Cambios | |
---|---|---|---|---|
Qué | La copia de seguridad del servidor #34-C falló después del parche 3.124 | Copias de seguridad fallidas en otros servidores con el parche 3.124 | El nuevo ingeniero (Noah) aplicó el parche | Nuevo procedimiento de parche seguido |
Dónde | Servidor del cuarto piso | Servidores del sótano | Normalmente lo realizan los ingenieros de nivel 3 | El ingeniero de nivel 1 lo aplicó |
Cuándo | 15 de noviembre, 12:32 am | En otro momento | Ninguno identificado | |
Alcance | Solo en el servidor #34-C | Cualquier otro servidor | Ninguno identificado |
Las nuevas causas posibles se hacen evidentes cuando la información se analiza en conjunto. Para nuestro problema de ejemplo, la causa raíz se puede reducir a:
Error de procedimiento causado por la transferencia de conocimiento inadecuada por parte de los ingenieros de Nivel 3.
Cualquiera que sea el problema, se puede realizar un análisis detallado de las posibles causas con base en la comparación relevante.
Probar la causa más probable
El penúltimo paso es hacer una pequeña lista de las causas probables y someterlas a prueba antes de sacar una conclusión. Cada causa probable se debe probar con esta pregunta:
Si _______ es la causa raíz de este problema, ¿explica cuál ES el problema y cuál PODRÍA SER el problema pero NO ES?
Nuevamente, es mejor completar toda la información en una tabla.
Posible causa raíz | Cierto si | ¿Posible causa raíz? |
---|---|---|
El servidor # 34-C tiene un problema | Solo el servidor # 34-C ha sido afectado | Tal vez |
Procedimiento incorrecto | El mismo procedimiento afecta a otro servidor | Probablemente |
Error del ingeniero | El problema no volvió a ocurrir con el mismo procedimiento | Probablemente no |
Comprobar la verdadera causa
El último paso es eliminar todas las causas improbables y buscar evidencia para las causas más probables. Con esta verificación, es hora de proponer una solución al problema. Si no hay evidencia de la posible causa raíz, no se debe intentar implementar la solución.
Análisis de Ishikawa, o análisis de diagrama de causa y efecto
El análisis de Ishikawa utiliza el diagrama de causa y efecto (también llamado "diagrama de espina de pescado") para enumerar la causa y los efectos de un problema y se puede combinar con las sesiones de lluvia de ideas y el método de los cinco porqués. Que no lo engañe la simplicidad del diagrama de Ishikawa al realizar un RCA, ya que resulta muy útil para manejar problemas complejos.
Para comenzar el análisis, defina el problema y úselo como la "cabeza del pescado" en el diagrama. Dibuje la "columna vertebral" y agregue las categorías desde las cuales podría originarse el problema ilustrándolas como las "espinas" del diagrama de pescado.
En general, es más fácil comenzar las categorías con las cuatro dimensiones de la gestión de servicios: socios, procesos, personas y tecnología. Sin embargo, estas categorías pueden ser cualquier cosa que sea relevante para su problema, entorno, organización o industria.
Una vez que estas categorías formen las espinas del pescado, comience a asociar las posibles causas de cada categoría. Cada posible causa también se puede ramificar para detallar la razón de esa ocurrencia. Esto podría convertirse en un diagrama complejo con cuatro a cinco niveles de causas y efectos, que posteriormente se derivan en la causa raíz del problema.
Se recomienda dividir las espinas densas en espinas adicionales según sea necesario. Alternativamente, combinar las espinas vacías con otras espinas relacionadas permite ordenar y comprender mejor el diagrama. Además, debe asegurarse de que las espinas estén llenas de causas, no solo síntomas del problema.
Este análisis también es un esfuerzo de colaboración y requiere un moderador que dirija las sesiones de lluvia de ideas de manera efectiva. Todos los participantes tienen la oportunidad de participar, proporcionando una visión integral del problema.
Análisis de Pareto
El principio de Pareto es una observación que sugiere que aproximadamente el 80 por ciento de los efectos provienen de aproximadamente el 20 por ciento de las causas. Esta observación se aplica a una amplia gama de temas, incluida la gestión de problemas.
Cuando se trata de reducir la cantidad de incidentes que ocurren en una organización, es muy útil aplicar el análisis de Pareto antes de comenzar a resolver los problemas. El análisis de Pareto prioriza las causas de los incidentes y ayuda a gestionar los problemas en función de su impacto y probabilidad.
Este análisis se lleva a cabo generando un diagrama de Pareto a partir de una tabla de Pareto. Una tabla de Pareto consiste en el recuento acumulativo de la clasificación de todos los problemas. Un diagrama de Pareto es un gráfico de barras que muestra el porcentaje acumulativo de la frecuencia de varias clasificaciones de problemas.
Para crear un diagrama de Pareto, siga los pasos que se detallan a continuación:
- Recopile datos de los tickets de problema de su herramienta de mesa de servicio.
- Remodele los datos en categorías basadas en varios atributos.
- Cree una tabla de Pareto para determinar la frecuencia de los problemas en cada clasificación durante un período de tiempo específico.
- Calcule la frecuencia de la ocurrencia de los problemas en cada categoría.
- Genere el porcentaje de frecuencia acumulativo en orden decreciente.
- Grafique los datos en un gráfico de Pareto.
El paso más importante es remodelar los datos en un conjunto contable de clasificaciones y atributos.
Clasificación | Atributo | ||
---|---|---|---|
Impacto | Afecta al negocio | Afecta al departamento | Afecta al usuario |
Prioridad | Bajo | Alto | Urgente |
Categoría | Red | Activos de hardware | Activos de software |
Duración | Dentro del SLA | Fuera del SLA | Sin SLA |
Clasificación | Atributo | Recuento | Acumulado | % de contribución |
---|---|---|---|---|
Duración | Sin SLA | 670 | 1.470 | 38,72% |
Prioridad | Alto | 550 | 2,020 | 53.21% |
Duración | Fuera del SLA | 500 | 2,520 | 66.39% |
Categoría | Red | 430 | 2,950 | 77.71% |
Prioridad | Urgente | 300 | 3,250 | 92.73% |
Categoría | Activos de software | 270 | 3,520 | 92.73% |
Categoría | Activos de hardware | 150 | 3,670 | 96.68% |
Impacto | Afecta al departamento | 80 | 3,750 | 98.79% |
Impacto | Afecta al usuario | 35 | 3,785 | 99.71% |
Impacto | Afecta al negocio | 9 | 3,794 | 99.95% |
Duración | Dentro del SLA | 2 | 3,796 | 100% |
Este diagrama ayuda a identificar los problemas que se deben resolver primero para reducir significativamente la interrupción del servicio. Este análisis complementa los métodos de Ishikawa y Kepner-Tregoe al proporcionar una forma de priorizar la categoría de los problemas, mientras que los otros métodos analizan la causa raíz.
Es importante recordar que la regla 80/20 sugiere las causas probables y a veces podría equivocarse.
Técnica de los cinco porqués
La técnica de los cinco porqués es una técnica sencilla para el RCA. Define una declaración del problema, luego pregunta repetidamente por qué hasta que se descubre la causa raíz subyacente del problema. El número de porqués no necesariamente se limita a cinco, sino que puede basarse en el problema y la situación.
La técnica de los cinco porqués complementa muchas otras técnicas de resolución de problemas como el método Ishikawa, el análisis de Pareto y el método K-T.
Retomando el ejemplo de la falla de la copia de seguridad de los datos en un servidor, apliquemos la técnica de los cinco porqués.
¿Por qué falló la copia de seguridad de datos en el servidor #32-C? | Debido a la aplicación del parche 3.124. |
¿Por qué se debió al parche 3.124? | El procedimiento utilizado fue diferente. |
¿Por qué fue diferente el procedimiento? | Un ingeniero de nivel 1 fue responsable de ello. |
¿Por qué fue responsable el ingeniero de nivel 1? | Los ingenieros de nivel 3 estaban ocupados con un incidente importante y la transferencia de conocimiento fue inadecuada. |
¿Por qué hubo una transferencia de conocimiento inadecuada? | No hay un horario o formato estandarizado en la organización. |
Este proceso iterativo revela que no existe un formato estandarizado, lo que ha causado el problema de la falla de la copia de seguridad de datos.
En nuestro contexto, el ejemplo anterior es una ejecución simple del método. En un escenario real, la siguiente pregunta depende de la respuesta a la pregunta anterior, por lo que es imprescindible colaborar con las partes interesadas que tienen un conocimiento detallado del dominio en el que reside el problema.
Al adoptar partes del método K-T junto con la técnica de los cinco porqués, como proporcionar evidencia a cada respuesta antes de validarla con una pregunta de respuesta, puede garantizar la precisión del análisis durante las sesiones de resolución de problemas.
Otras técnicas
Además de las cinco técnicas principales, existen muchas otras, cada una con sus propias fortalezas. En general, la investigación del problema se lleva a cabo utilizando una combinación de técnicas adecuadas para la situación. Algunas otras técnicas que se usan con frecuencia en la comunidad de gestión de problemas son las pruebas cronológicas, el análisis del árbol de fallas, el método de aislamiento de fallas, las pruebas de hipótesis y el análisis de puntos débiles. Vale la pena tomarse el tiempo para aprender muchas técnicas a medida que madura el proceso de gestión de problemas de su organización.
A continuación:
¡Ha llegado muy lejos! En nuestra penúltima parte de la serie de seis partes, conocerá las mejores prácticas de gestión de problemas que pueden ayudarle a superar cualquier obstáculo que encuentre durante su travesía en la gestión de problemas.
-
Anterior
← -
Siguiente
→
Evalúe si está preparado para responder a los incidentes y comience su travesía en la gestión de problemas
El primer paso en el camino hacia la gestión de problemas proactiva es establecer un sólido proceso de gestión de incidentes en su entorno de TI. Descubra cómo Zoho, nuestra empresa matriz, gestiona el espectro de incidentes que se le presentan año tras año y evalúe su preparación para la gestión de incidentes a escala empresarial.
Descargue una copia gratuita de nuestro manual de gestión de incidentes y una lista de verificación de mejores prácticas para revisar su solución de gestión de problemas.
-
Lista de verificación de funciones para la gestión de problemas
-
Manual de gestión de incidentes de TI