Les métriques forment le cœur de la gestion des services informatiques, éclairant sur les opérations et aidant à identifier les domaines à améliorer en continu. Les métriques de service habituels indiquent l’efficacité opérationnelle interne. Par exemple, les SLA, qui mesurent le nombre de tickets résolus dans la période définie, servent à analyser l’efficacité de l’assistance. D’autre part, les métriques permettent d’identifier les points faibles de l’infrastructure et d’évaluer la réponse aux défaillances. Les DSI atténuent ainsi l’effet en cascade des défaillances sur les systèmes sensibles.
Quels sont les métriques de service clés à suivre ? Cet article aborde les trois KPI suivants :
- Temps moyen entre défaillances
- Temps moyen de bon fonctionnement
- Temps moyen de réparation
Temps moyen entre défaillances (MTBF)
Si les ressources (réseaux, serveurs, postes de travail, etc.) de l’infrastructure informatique présentent des défaillances fréquentes, cela se répercute sur la disponibilité des services informatiques et métier. Ces interruptions nuisent à la rentabilité et la réputation. Si un bien donné connaît des interruptions fréquentes, il faut souvent le réparer ou le remplacer. Auparavant, il faut rechercher et comprendre pourquoi il tombe souvent en panne et dans quelles conditions. Cela aide à prévoir sa maintenance et améliorer la disponibilité des systèmes. Le MTBF est un métrique pour identifier les causes d’interruption, les prévenir ou préparer une reprise rapide et assurer la disponibilité des systèmes.
Figure 1. Temps moyen entre défaillances
Si le MTBF d’un élément précis est bas, cela indique qu’il connaît des interruptions fréquentes perturbant toute l’activité.
Exemple de MTBF
Dans une organisation, les mises à jour de lecteur de stockage échouent après la mise à niveau de microprogrammes Windows. Le problème se reproduit et le MTBF empire. Après l’analyse du problème, l’équipe détermine qu’un pilote tiers fait que l’API nécessaire pour réaliser la mise à jour ne s’exécute pas ou affiche une erreur. Lorsqu’une nouvelle mise à jour est prévue, si les pilotes tiers n’appellent pas les API nécessaires, deux solutions possibles existent. Remplacer les API par les alternatives Windows pour les protocoles de stockage SATA et NVMe ou obtenir une nouvelle version plus compatible du pilote auprès de l’OEM, pour appliquer les mises à jour ou correctifs et combler les lacunes de sécurité. L’analyse et le suivi des mises à niveau de pilote et des interruptions permet d’améliorer la disponibilité des lecteurs de stockage.
Comment améliorer le MTBF
- Déployez un processus pour examiner l’intégrité des éléments et suivre et analyser les défaillances. Cela permet d’identifier la cause des interruptions.
- Analysez la cause première du problème pour sensibiliser, remédier aux racines durables et améliorer la performance.
- Créez une stratégie de réponse rapide pour bien isoler et réduire les interruptions affectant les opérations. L’objectif est de parvenir à limiter et espacer les interruptions.
Temps moyen de bon
fonctionnement (MTTF)
Les éléments subissant des interruptions régulières perturbent l’activité de l’organisation et entraînent une altération et déficience de l’infrastructure. Le métrique MTTF vise à déterminer la durée de vie type d’un actif, appareil ou élément. Pour les actifs et éléments matériels à MTTF bas, il s’avère souvent plus rapide, rentable et efficace de remplacer l’élément plutôt que de le réparer.
Cela vaut surtout pour les actifs liés à des éléments opérationnels cruciaux de l’infrastructure comme une pile de serveurs centraux ou un point d’accès réseau.
Figure 2. Temps moyen de bon fonctionnement
Si le MTTF d’un actif est défavorable à cause de défaillances régulières, il présente un défaut de fiabilité et exige un remplacement fréquent pour ne pas nuire aux opérations.
Exemple de MTTF
Dans une entreprise, la connexion ou déconnexion d’un câble de commutateur dans une pile de serveurs de données et réseau provoque un desserrage, débranchement ou endommagement du câblage. Cela entraîne la corruption de fichiers à cause d’un transfert de données interrompu. L’analyse poussée de l’équipe réseau révèle que le cache en plastique protecteur du câble de brassage CAT6 RJ45 se casse toujours. En effet, le câble a été acheté à un fabricant qui utilise des matériaux bon marché. La DSI remplace alors les anciens câbles par d’autres de meilleure qualité pour veiller à régler le problème (perte ou corruption de données) à l’avenir au déplacement de câbles. Il s’agit d’un exemple classique. Le suivi régulier du MTTF du câble aide la DSI à comprendre le rôle des actifs critiques, comme les éléments, pour prendre des décisions éclairées de réparation ou remplacement.
Comment améliorer le MTTF
- Prolongez la durée de vie des actifs en achetant des biens de qualité et déclassant ceux peu fiables et bon marché.
- Évitez les interruptions à grande échelle des opérations en planifiant des contrôles réguliers des éléments liés aux actifs critiques.
- Déployez un processus d’inventaire juste-à-temps qui estime la durée de service d’un actif, pour réduire les frais généraux de stockage.
Temps moyen de
réparation (MTTR)
En cas de défaillance d’un système informatique clé, la DSI doit le rétablir dès que possible. Tout retard risque d’entraîner une perte de revenus et nuire aux opérations stratégiques. Un système de réponse et de reprise bien organisé aide la DSI à réagir aux interruptions imprévues et rétablir efficacement les services. Le MTTR mesure le temps moyen mis à réparer ou dépanner un actif et rétablir son bon fonctionnement.
Figure 3. Temps moyen de réparation
Le coût d’une interruption croît avec le MTTR. Un MTTR élevé indique un processus de réponse et de reprise lent et déficient. Les défaillances système sont inévitables, mais le MTTR permet d’y réagir de façon rapide et efficace.
Exemple de MTTR
Un éditeur de logiciels subit une attaque zero-day d’un jeu vidéo qu’il développe à cause d’une vulnérabilité du code. L’attaque perturbe les opérations comme le Wi-Fi et les systèmes de surveillance. Les attaquants peuvent accéder au domaine réseau de l’éditeur et aux fichiers commerciaux confidentiels. L’équipe de cybersécurité a informé le personnel à ce sujet et de la marche à suivre pour le signaler. Chaque ressource de l’entreprise dispose d’un antivirus de nouvelle génération (NGAV). L’attaque désactive le LAN et le portail en libre-service du personnel, paralysant l’activité. Dans l’heure suivant l’attaque, l’équipe est informée. Grâce à la capacité de l’antivirus avec l’analyse des menaces et les modèles comportementaux des utilisateurs, elle identifie l’activité suspecte. Elle exécute immédiatement un script de gestion des correctifs pour éliminer la vulnérabilité du code et verrouille son réseau local pour éviter d’autres effets ou un vol de données.
Comment réduire le MTTR
- Une stratégie de gestion des actifs efficace améliore la prise de décision en identifiant les goulots et désignant les actifs à réparer ou remplacer. On économise de l’argent et de l’espace de stockage.
- Définissez les responsabilités et les rôles des techniciens pour simplifier la détection et la résolution des incidents.
- Fournissez aux techniciens des procédures opératoires standards détaillées pour une meilleure communication et clarté en cas d’interruption.
- Mesurez le MTTR avec une solution de gestion des actifs d’entreprise qui centralise la mise à jour et le suivi. Cela permet d’optimiser l’utilisation des actifs, de collecter des données et de prévoir d’éventuelles interruptions.
Conclusion
Ces métriques de service aident à identifier les goulots opérationnels et évaluer la réactivité aux incidents. Ils permettent à la DSI de gagner en efficacité opérationnelle en décelant la cause première des incidents persistants. La DSI améliore sa stratégie de réponse aux incidents avec un aperçu clair des domaines d’activité affectés. L’organisation peut adopter ces métriques en les utilisant comme KPI au lieu de simples objectifs de performance. Ils soulignent les points de simplification et d’amélioration opérationnelle, pour gagner en efficacité.
Bref résumé de chaque métrique :
- MTBF pour mieux analyser l’efficacité de l’assistance dans la prévention des interruptions.
- MTTF pour comprendre le cycle de vie d’un actif et sa fiabilité.
- MTTR pour connaître le temps consacré à réparer et la rapidité à laquelle la DSI peut diagnostiquer les incidents.
À propos de l’auteur
Saket Pasumarthy, expert produit de ManageEngine ServiceDesk Plus, est un adepte de l’ITSM captivé par la compréhension des derniers progrès informatiques. Saket écrit des articles et des billets de blog aidant les DSI du monde entier à relever les défis de gestion des services. Il présente aussi des sessions de formation d’utilisateurs ServiceDesk Plus Masterclass. Saket consacre son temps libre à jouer au football et piloter des avions sur un simulateur de vol.