O gerenciamento de incidentes de TI é um dos processos fundamentais da central de ajuda. Neste guia, você conhecerá os conceitos básicos do gerenciamento de incidentes, seus componentes, as funções e responsabilidades envolvidas e como ele funciona com outros componentes da central de serviços.
Neste guia de gerenciamento de incidentes, discutiremos o seguinte:
- Definição de incidente
- Ciclo de vida/fluxo de processos do gerenciamento de incidentes de TI
- Funções e responsabilidades do gerenciamento de incidentes
- Práticas recomendadas de gerenciamento de incidentes
- Benefícios e vantagens do gerenciamento de incidentes
- Lista de verificação dos recursos do software de gerenciamento de incidentes
- KPIs de gerenciamento de incidentes
- Diferença entre incidente, problema, mudança e ativo
- Glossário ITSM para gerenciamento de incidentes
- Baixe o kit de ferramentas de autoavaliação
Definição de incidente de TI
O que é um incidente de TI?
Um incidente de TI é qualquer interrupção nos serviços de TI de uma organização que afete um único usuário ou toda a empresa. Em resumo, um incidente é qualquer coisa que interrompa a continuidade dos negócios.
O que é gerenciamento de incidentes de TI?
O gerenciamento de incidentes é o processo de gerenciar as interrupções dos serviços de TI e os restaurar dentro dos acordos de nível de serviço (SLAs) acordados.
O escopo do gerenciamento de incidentes começa com um usuário final que relata um problema e termina com um membro da equipe da central de serviços que resolve esse problema.
As etapas do gerenciamento de incidentes
Com o gerenciamento adequado de incidentes em vigor, a coleta de informações sobre incidentes é simplificada e menos caótica, sem a necessidade de ficar enviando e recebendo e-mails para esse fim. As equipes de central de serviços podem publicar formulários no portal de autoatendimento do usuário para garantir que todas as informações relevantes sejam coletadas no momento da criação do ticket.
A próxima etapa do gerenciamento de incidentes é a categorização e a priorização dos incidentes. Isso não apenas ajuda a classificar os tickets recebidos, mas também garante que os tickets sejam encaminhados aos técnicos mais qualificados para trabalhar no problema. A categorização de incidentes também ajuda o sistema de central de serviços a aplicar os SLAs mais adequados e a comunicar essas prioridades aos usuários finais. Depois que um incidente é categorizado e priorizado, os técnicos podem diagnosticar o incidente e fornecer uma solução ao usuário final.
O processo de gerenciamento de incidentes, quando ativado com as automações relevantes, permite que as equipes da central de serviços fiquem de olho na conformidade com o SLA e envia notificações aos técnicos quando eles estão se aproximando de uma violação. Os técnicos também têm a opção de escalonar as violações do SLA configurando escalonamentos automatizados, conforme aplicável ao incidente. Depois de diagnosticar o problema, o técnico oferece ao usuário final uma solução, que ele pode validar. Esse processo de várias etapas garante que qualquer problema de TI que afete a continuidade dos negócios seja resolvido o mais rápido possível.
Como classificar os incidentes de TI
Os incidentes em um ambiente de TI podem ser categorizados de várias maneiras diferentes. Alguns fatores que influenciam a categorização de incidentes incluem a urgência do incidente e a gravidade de seu impacto sobre os usuários ou a empresa em geral.
A classificação e a categorização de incidentes de TI ajudam a identificar e encaminhar os incidentes para o técnico certo, economizando tempo e esforço. Por exemplo, os incidentes podem ser classificados como incidentes maiores ou menores com base em seu impacto nos negócios e em sua urgência.
Normalmente, os incidentes maiores são aqueles que afetam os serviços essenciais aos negócios, afetando, portanto, toda a organização, e precisam de resoluções imediatas. Os menores geralmente afetam um único usuário ou um departamento e podem já ter uma resolução documentada em vigor.
O que acontece quando você não tem um gerenciamento de incidentes de TI implementado?
O gerenciamento de incidentes abrange todos os aspectos de um incidente em seu ciclo de vida. Ele acelera o processo de resolução e torna o gerenciamento de tickets transparente. Sem o gerenciamento de incidentes, lidar com chamados pode ser um incômodo. Alguns dos principais problemas que podem surgir incluem:
- Falta de transparência no status do ticket e nos prazos esperados para os usuários finais.
- Nenhum registro adequado de incidentes anteriores.
- Incapacidade de documentar soluções para problemas repetidos ou familiares.
- Maior risco de interrupções nos negócios, principalmente com incidentes graves.
- Tempos de resolução estendidos
- Falta de capacidade de geração de relatórios.
- Diminuição da satisfação do cliente
Quem usa o gerenciamento de incidentes de TI?
As práticas de gerenciamento de incidentes são amplamente utilizadas pelas equipes da central de serviços de TI. As centrais de serviços geralmente são o único ponto de contato dos usuários finais para relatar problemas às equipes de gerenciamento de TI.
Procurando agilizar o gerenciamento de incidentes na sua organização?
O ciclo de vida do gerenciamento de incidentes de TI
O processo de gerenciamento de incidentes pode ser resumido da seguinte forma:
- Etapa 1 : Registro de incidentes.
- Etapa 2 : Categorização de incidentes.
- Etapa 3 : Priorização de incidentes.
- Etapa 4 : Atribuição de incidentes.
- Etapa 5 : Criação e gerenciamento de tarefas.
- Etapa 6 : Escalonamento e gerenciamento de SLA.
- Etapa 7 : Resolução de incidentes.
- Etapa 8 : Encerramento do incidente.
Esses processos podem ser simples ou complexos com base no tipo de incidente. Eles também podem incluir vários fluxos de trabalho e tarefas além do processo básico descrito acima.
Registro de incidentes
Um incidente pode ser registrado por meio de chamadas telefônicas, e-mails, SMS, formulários da Web publicados no portal de autoatendimento ou por meio de mensagens de chat online.
Categorização de incidentes
Os incidentes podem ser categorizados e subcategorizados com base na área de TI ou de negócios em que o incidente causa uma interrupção, como rede, hardware etc.
Priorização de incidentes
A prioridade de um incidente pode ser determinada como uma função de seu impacto e urgência usando uma matriz de prioridade. O impacto de um incidente indica o grau de dano que o problema causará ao usuário ou à empresa. A urgência indica o tempo em que o incidente deve ser resolvido. Com base na prioridade, os incidentes podem ser categorizados como:
- Crítico
- Alta
- Média
- Baixa
Encaminhamento e atribuição de incidentes
Depois que o incidente é categorizado e priorizado, ele é encaminhado automaticamente para um técnico com a experiência relevante.
Criação e gerenciamento de tarefas
Com base na complexidade do incidente, ele pode ser dividido em subatividades ou tarefas. Normalmente, as tarefas são criadas quando a resolução de um incidente exige a contribuição de vários técnicos de vários departamentos.
Escalonamento e gerenciamento de SLA
Enquanto o incidente está sendo processado, o técnico precisa garantir que o SLA não seja violado. Um SLA é o tempo aceitável dentro do qual um incidente precisa de resposta (SLA de resposta) ou resolução (SLA de resolução). Os SLAs podem ser atribuídos a incidentes com base em seus parâmetros, como categoria, solicitante, impacto, urgência, etc. Nos casos em que um SLA está prestes a ser violado ou já foi violado, o incidente pode ser escalado funcional ou hierarquicamente para garantir que seja resolvido o mais rápido possível.
Resolução de incidentes
Um incidente é considerado resolvido quando o técnico apresenta uma alternativa temporária ou uma solução permanente para o problema.
Encerramento do incidente
Um incidente pode ser encerrado quando o problema for resolvido e o usuário reconhecer a resolução e estiver satisfeito com ela.
Revisão pós-incidente
Após o encerramento de um incidente, é uma boa prática documentar todas as suas conclusões. Isso ajuda a preparar melhor as equipes para futuros incidentes e cria um processo de gerenciamento de incidentes mais eficiente. O processo de revisão pós-incidente pode ser dividido em vários aspectos, conforme mostrado abaixo, e é particularmente útil para incidentes graves.
Avaliação interna
Identificação do incidente
- Quem detectou o incidente e como?
- Em quanto tempo o incidente foi detectado após sua ocorrência?
- O incidente poderia ter sido identificado antes?
- Alguma ferramenta ou tecnologia poderia ter ajudado na detecção imediata ou preventiva do incidente?
Fluxo de informações e comunicação
- Com que rapidez as partes interessadas foram informadas sobre o incidente?
- Que canal foi usado para transmitir as notificações?
- Todas as partes interessadas relevantes foram prontamente atualizadas com as informações mais recentes?
- Qual foi a facilidade de comunicação com o(s) usuário(s) final(is) para coletar informações e mantê-lo(s) informado(s) sobre o status do ticket?
Estrutura
- Como a equipe de resposta a incidentes foi estruturada inicialmente?
- Essa estrutura foi mantida durante todo o ciclo de vida do gerenciamento de incidentes? Se não, por quê? Que mudanças tiveram de ser feitas na estrutura?
- A equipe de tratamento de incidentes pode ser organizada de uma maneira melhor? Em caso afirmativo, como?
Utilização de recursos
- Quais recursos foram empregados para lidar com o incidente?
- Esses recursos foram usados em sua capacidade ideal?
- Com que rapidez os recursos foram mobilizados para lidar com o incidente?
- A utilização de recursos poderia ser melhorada no futuro?
Processo
- O processo de gerenciamento de incidentes definido foi seguido à risca?
- Houve algum desvio no fluxo de trabalho e no processo de gerenciamento de incidentes?
- Os SLAs do incidente foram cumpridos? Caso contrário, quais SLAs foram violados? Por quê?
- Houve monitoramento adequado do processo que está sendo seguido para lidar com o incidente?
- O processo poderia ser aprimorado para torná-lo mais eficiente? Em caso afirmativo, como?
Relatórios
- Foram gerados relatórios para analisar como o incidente foi tratado?
- Quais parâmetros foram incluídos nos relatórios?
- Quais partes do ciclo de vida do incidente foram analisadas?
- Há algum espaço para melhorias? Em caso afirmativo, como isso pode ser feito?
Avaliação externa - pesquisas com usuários finais
Além dos fatores acima, alguns fatores voltados para o usuário final também devem ser avaliados. Para esse fim, é realizada uma pesquisa pós-encerramento para coletar feedback dos usuários finais afetados pelo incidente. Essa pesquisa deve ser usada para obter informações sobre algumas áreas importantes, como:
- Quão fácil ou difícil foi para o usuário final relatar um incidente?
- A primeira resposta da equipe de TI foi rápida e imediata?
- O incidente foi resolvido em tempo hábil?
- Qual é o grau de satisfação do usuário final com a resolução?
Crie fluxos de trabalho de gerenciamento de incidentes personalizados
As funções e responsabilidades envolvidas no gerenciamento de incidentes de TI
Embora cada organização possa ter suas próprias funções e responsabilidades personalizadas, abaixo estão algumas das funções mais comuns do gerenciamento de incidentes de TI.
Usuário final / usuário / solicitante
Essa é a parte interessada que geralmente sofre uma interrupção no serviço e abre um ticket de incidente para iniciar o processo de gerenciamento de incidentes.
Central de serviços de nível 1
Esse é o primeiro ponto de contato para os solicitantes quando eles querem abrir uma solicitação ou um ticket de incidente. A central de serviços de nível 1 geralmente é composta por técnicos que têm conhecimento prático dos problemas mais comuns que podem ocorrer em um ambiente de TI, inclusive redefinições de senha e problemas de Wi-Fi.
Central de serviços de nível 2
Essa central de serviços é composta por técnicos com conhecimento avançado de gerenciamento de incidentes. Normalmente, recebe solicitações mais complexas dos usuários finais; também recebe solicitações na forma de escalonamentos da Camada 1.
Central de serviços de nível 3 (e superior)
Esse nível geralmente é composto por técnicos especializados que têm conhecimento avançado de domínios específicos da infraestrutura de TI. Por exemplo, os técnicos de manutenção de hardware e suporte a servidores são especializados em campos muito específicos.
Gerente de incidentes
Essa parte interessada desempenha um papel fundamental no processo de gerenciamento de incidentes, monitorando a eficácia do processo, recomendando melhorias e garantindo que o processo seja seguido, entre outras responsabilidades.
Proprietário do processo
Esse stakeholder é o proprietário do processo seguido para gerenciar incidentes. Ele também analisa, modifica e aprimora o processo para garantir que ele atenda melhor aos interesses da organização.
Cada função tem responsabilidades exclusivas, conforme mostrado abaixo.
Usuário final / usuário / solicitante:
- Entra em contato com a central de serviços para fazer uma nova solicitação de incidente.
- Acompanha uma solicitação existente.
- Comunica claramente todas as informações necessárias aos técnicos.
- Reconhecee a restauração do serviço e a conclusão do ticket.
- Responde a pesquisas de acompanhamento após a resolução do ticket, completando o ciclo de feedback.
Help desk de nível 1:
- Registra todas as solicitações de incidentes recebidas com parâmetros apropriados, como categoria, urgência e prioridade.
- Atribuii tickets aos técnicos.
- Analisa e resolve um incidente para restaurar o serviço.
- Encaminha os incidentes não resolvidos para a central de serviços de Nível 2.
- Reúne todas as informações necessárias dos solicitantes e envia-lhes atualizações regulares sobre o status da solicitação.
- Atua como um ponto de contato para os solicitantes e, se necessário, coordena entre a central de suporte de Nível 2 e os solicitantes.
- Verifica a resolução com o usuário final e coleta feedback.
Central de serviços de níveis 2 e 3:
- Realiza o diagnóstico do incidente.
- Documenta as etapas seguidas para resolver o incidente e envia artigos da base de conhecimento.
- Identifica quando um incidente é um problema e converte o ticket de incidente em um de problema.
- Se o incidente for resolvido, confirma a resolução com o usuário final.
- Se o incidente não for resolvido, encaminha-o para a central de serviços de Nível 3.
- Se não for resolvido, encaminha o incidente para a equipe de gerenciamento de problemas de TI para identificar o problema subjacente ou para fornecedores externos, conforme aplicável.
- Fornece conhecimento especializado no assunto.
Gerente de incidentes:
- Serve como ponto de contato para todos os incidentes importantes.
- Planeja e facilita todas as atividades envolvidas no processo de gerenciamento de incidentes.
- Garante que o processo correto seja seguido para todos os tickets e corrige quaisquer desvios.
- Coordena e comunica-se com o proprietário do processo.
- Garante que os SLAs sejam cumpridos.
- Identifica os incidentes que precisam ser revisados e realiza a revisão.
Proprietário do processo:
- Assume a responsabilidade pelo processo geral de gerenciamento de incidentes.
- Define indicadores-chave de desempenho (KPIs) e alinha-os aos fatores críticos de sucesso (CSFs).
- Revisa os KPIs e garante que eles atendam às metas comerciais e aos CSFs.
- Projeta, documenta, revisa e aprimora processos.
- Estabelece a melhoria contínua dos serviços (CSI), em que os procedimentos, as políticas, as funções, a tecnologia e outros aspectos do processo de gerenciamento de incidentes sejam revisados e aprimorados.
- Mentam-se informado sobre as práticas recomendadas do setor e incorpora-as ao processo de gerenciamento de incidentes.
Práticas recomendadas para o gerenciamento bem-sucedido de incidentes de TI
- Ofereça vários modos de criação de tickets, inclusive por e-mail, chamada telefônica ou portal de autoatendimento.
- Publique formulários personalizados de incidentes de TI voltados para a empresa para uma coleta eficaz de informações.
- Categorize e priorize automaticamente os incidentes de TI com base nos critérios do ticket.
- Associe SLAs a incidentes de TI com base nos parâmetros do ticket, como prioridade.
- Se todos os técnicos tiverem os mesmos níveis de habilidade, atribua tickets automaticamente aos técnicos com base em algoritmos como balanceamento de carga e round robin.
- Associe dados de ativos de TI, problemas de TI e mudanças de TI a tickets de incidentes de TI.
- Garanta que os incidentes sejam encerrados somente depois de fornecer uma resolução adequada, confirmando com o usuário final e aplicando os códigos de encerramento apropriados.
- Configure um processo personalizado de comunicação com o usuário final para cada etapa do ciclo de vida de um incidente de TI.
- Crie e mantenha uma base de conhecimento com as soluções adequadas
- Forneça acesso baseado em funções aos usuários finais e técnicos com base na complexidade das soluções.
- Lide com incidentes importantes criando fluxos de trabalho exclusivos.
Avalie rapidamente suas práticas de gerenciamento de incidentes de TI com nosso kit de ferramentas
- Uma autoavaliação para medir suas principais práticas de gerenciamento de incidentes, desde a identificação até o encerramento do incidente
- Uma checklist para analisar a prontidão da sua equipe para lidar com incidentes importantes no ambiente de trabalho híbrido
- Uma folha de dicas para ajudar a superar os desafios comuns de gerenciamento de incidentes enfrentados no modelo de trabalho híbrido