As métricas estão no centro do gerenciamento de serviços de TI, fornecendo insights sobre as operações e ajudando a identificar áreas de melhoria contínua. As métricas usuais da central de serviços ajudam a mostrar a eficiência operacional interna. Por exemplo, o SLA, que mede o número de tíquetes resolvidos dentro do tempo especificado, é um fator importante que demonstra a eficiência da central de serviços. Por outro lado, as métricas de falha ajudam as equipes a identificar falhas na infraestrutura de TI e a avaliar as respostas aos eventos de falha. Isso ajuda as equipes de TI a minimizar o efeito cascata que as falhas podem causar em sistemas críticos.
Quais são as principais métricas de falha a serem monitoradas? Neste artigo, veremos os três KPIs a seguir:
- Tempo médio entre falhas
- Tempo médio até a falha
- Tempo médio para reparo
Tempo médio entre falhas (MTBF)
Quando há falhas frequentes nos ativos de infraestrutura de TI, sejam eles redes, servidores, estações de trabalho etc., elas têm um impacto em cascata na disponibilidade dos serviços de TI e de negócios. Essas interrupções levam à perda de receita e de reputação. Se um determinado ativo de TI sofre interrupções frequentes, geralmente é necessário fazer reparos ou substituições. Antes disso, é útil investigar e entender por que o ativo fica inativo com frequência e em quais circunstâncias. Isso ajuda a planejar a manutenção dos ativos e a melhorar a disponibilidade dos sistemas. O MTBF é a métrica que ajuda a identificar as causas do tempo de inatividade e a mitigá-las ou planejar a recuperação rápida e a melhor disponibilidade dos sistemas de TI.
Figura 1. Tempo médio entre falhas
Se o MTBF de um ativo de TI específico for baixo, isso significa que o ativo enfrenta frequentes períodos de inatividade, resultando em interrupções na TI e nos negócios.
Exemplo de MTBF
Em uma organização, novas atualizações para a unidade de armazenamento continuavam falhando sempre que novas atualizações de firmware do Windows eram aplicadas. Isso ocorreu algumas vezes e o MTBF piorou. Após analisar o problema, a equipe determinou que o driver de terceiros causou a API necessária para realizar a atualização a não ser implementada ou a ser defeituosa. Quando uma nova atualização é agendada, se os drivers de terceiros não implementarem as APIs necessárias, existem duas soluções possíveis a serem exploradas. Substituir as APIs pelas alternativas do Windows para os protocolos de armazenamento SATA e NVMe, ou obter uma nova e melhor versão do driver do OEM pode ajudar a implementar atualizações, corrigir bugs e fechar brechas de segurança. Monitorar e rastrear atualizações de drivers e tempo de inatividade ajuda a melhorar a disponibilidade das unidades de armazenamento.
Como melhorar o MTBF
- Implementar um processo para observar a saúde do ativo e rastrear e monitorar falhas. Isso ajuda a identificar a causa das interrupções.
- Analisar a causa raiz do problema para criar consciência, abordar causas de longo prazo e melhorar o desempenho do ativo.
- Criar uma estratégia de resposta rápida para enfrentar e reduzir efetivamente os períodos de inatividade que impactam as operações. O objetivo é alcançar menos e mais tempo entre as interrupções.
Tempo médio até
a falha (MTTF)
A falha regular dos ativos pode interromper as operações de TI da sua organização e resultar na deterioração e no baixo desempenho da infraestrutura de TI. A métrica MTTF ajuda a determinar a vida útil típica de um ativo, dispositivo ou componente. Para ativos e componentes de TI com um MTTF baixo, geralmente é mais eficiente em termos de tempo e minimiza os impactos e custos operacionais substituir o componente de TI em vez de consertá-lo. Isso se aplica especialmente a componentes de TI vinculados a sistemas de informação.
Isso se aplica especialmente aos componentes de TI vinculados a elementos operacionais cruciais da infraestrutura, como uma pilha de servidores de mainframe ou um ponto de acesso à rede.
Figura 2. Tempo médio até a falha
Se o MTTF de um ativo for desfavorável e falhar regularmente, isso indica que o ativo de TI não é confiável e precisa de substituição frequente para não afetar as operações de TI.
Exemplo de MTTF
Em uma empresa de desenvolvimento de software de TI, quando um cabo era conectado ou desconectado do switch na pilha de servidores de rede e dados, os cabos de rede se soltavam, desconectavam-se ou eram danificados. Isso fazia com que os arquivos fossem corrompidos devido à interrupção da transferência de dados. Uma análise mais aprofundada feita pela equipe de rede revelou que a tampa plástica sem ressalto continuava quebrando no patch cable CAT6 RJ45. Isso se devia ao fato de o cabo ter sido adquirido de um fabricante que usava material barato. A equipe de TI então substituiu os cabos antigos por cabos de melhor qualidade para garantir que não houvesse problemas, como perda ou corrupção de dados, no futuro, quando os cabos fossem movidos. Esse é um exemplo clássico, mas acompanhar o MTTF do cabo regularmente ajuda as equipes de TI a entender o impacto de ativos críticos, como componentes, para que possam tomar decisões informadas sobre reparos e substituições.
Como aumentar o MTTF
- Aumente a vida útil do ativo adquirindo ativos de alta qualidade e desativando ativos de baixa qualidade e custo.
- Evite interrupções em grande escala nas operações comerciais programando verificações regulares nos componentes vinculados a ativos críticos.
- Implemente um processo de inventário just-in-time que estime o tempo em que um ativo está operacional, o que leva à redução dos custos indiretos de armazenamento de ativos.
Tempo médio para
reparo (MTTR)
Quando um sistema crítico de TI falha, as equipes de TI precisam colocar o sistema em funcionamento o mais rápido possível. Os atrasos na restauração dos sistemas de TI podem levar à perda de receita e afetar as operações comerciais críticas. Um sistema de recuperação e resposta bem organizado pode ajudar as equipes de TI a responder ao tempo de inatividade não planejado e a restaurar as operações com eficiência. O MTTR mede o tempo médio necessário para reparar ou solucionar problemas de um ativo e devolvê-lo à sua capacidade operacional.
Figura 3. Tempo médio para reparo
O custo de um tempo de inatividade aumenta à medida que o MTTR aumenta. Um MTTR alto sugere que suas operações de recuperação e resposta não são rápidas e eficazes. As falhas de sistema são inevitáveis, mas o MTTR permite que as equipes reajam às falhas de ativos de forma oportuna e estratégica.
Exemplo de MTTR
Uma empresa de software sofreu um ataque de dia zero em um videogame que estava desenvolvendo devido a uma vulnerabilidade em um código. O ataque interrompeu operações como Wi-Fi e sistemas de vigilância. Isso fez com que os invasores acessassem o domínio da rede da organização e arquivos comerciais confidenciais. A equipe de segurança cibernética informou aos funcionários sobre os ataques de dia zero e onde eles poderiam denunciá-los. Todos os ativos de TI da organização foram equipados com antivírus de última geração (NGAV). O ataque desativou a LAN e o portal de autoatendimento dos funcionários, prejudicando as operações da organização. Uma hora depois do ataque, a equipe de segurança cibernética foi informada e ajudada pela capacidade do NGAV, que aproveita a análise de ameaças e os padrões de comportamento dos usuários, e identificou a atividade suspeita. A equipe de segurança cibernética executou imediatamente um script de gerenciamento de patches para corrigir a vulnerabilidade no código e bloqueou a rede local para evitar um impacto maior nas operações e no roubo de dados.
Como reduzir o MTTR
- Uma estratégia eficiente de gerenciamento de ativos ajuda a conduzir uma melhor tomada de decisão ao identificar gargalos e designar que os ativos sejam reparados ou substituídos. Isso economiza dinheiro e espaço de armazenamento.
- Defina as responsabilidades e funções dos técnicos para agilizar o processo de detecção e resolução de incidentes.
- Forneça aos técnicos procedimentos operacionais padrão detalhados para reduzir a falta de comunicação e a confusão durante um tempo de inatividade.
- Meça o MTTR usando uma solução de Enterprise Asset Management que centralize as informações de manutenção e monitoramento de ativos. Isso também ajuda a otimizar a utilização dos ativos, coletar dados sobre os ativos e prever possíveis paralisações.
Conclusão
Essas métricas de falha ajudam as equipes a identificar os gargalos nas operações e sua capacidade de resposta a incidentes. Elas capacitam as equipes de TI a obter maior eficiência operacional, identificando a causa raiz dos incidentes persistentes. As equipes de TI podem aprimorar sua estratégia de resposta a incidentes com uma visão clara das áreas em que as operações de TI são afetadas. Essas métricas podem ser implementadas nas organizações usando-as como KPIs em vez de apenas objetivos de desempenho. As métricas apontam áreas para simplificação de processos e melhorias operacionais, e não são apenas metas a serem atingidas.
Um breve resumo de cada métrica:
- O MTBF fornece melhores insights sobre a eficácia da central de serviços na prevenção de interrupções futuras.
- O MTTF ajuda a entender o ciclo de vida de um ativo e sua confiabilidade.
- O MTTR indica o tempo gasto em reparos e a rapidez com que suas equipes de TI conseguem diagnosticar interrupções.
Sobre o autor
Saket Pasumarthy, especialista em produtos do ManageEngine ServiceDesk Plus, é um entusiasta de ITSM e é fascinado por entender os últimos avanços no espaço de TI. Saket escreve artigos e blogs que ajudam as equipes de gerenciamento de serviços de TI em todo o mundo a lidar com os desafios do gerenciamento de serviços. Ele também apresenta sessões de treinamento de usuários na série ServiceDesk Plus Masterclass. Saket passa seu tempo livre jogando futebol e pilotando aviões em um simulador de voo.