Pour offrir une continuité de service aux utilisateurs et assurer le bon fonctionnement de l’entreprise, il prime d’éliminer les pannes et les interruptions. Cela semble simple et faisable en théorie mais, en réalité, l’entreprise connaît souvent des interruptions de service dues à une panne réseau inopinée, des problèmes d’élément d’infrastructure, des erreurs humaines ou des catastrophes naturelles. Une architecture technique de plus en plus complexe, ainsi que des systèmes et des appareils imbriqués et interconnectés, rendent encore plus difficile pour l’organisation de bien prévoir et prévenir les incidents.
Dans ce contexte ardu, il ne suffit pas de suivre et d’analyser les applications et les réseaux ou de surveiller les pannes. Il faut un cadre unifié qui identifie les symptômes ou les signaux pour avertir des prochaines pannes système. Ce guide présente un cadre en trois étapes pour identifier, diagnostiquer et résoudre de façon proactive les éventuels problèmes avant qu’ils n’aboutissent à des pannes :
Avant que des éléments d’infrastructure ou un système ne fonctionnent mal ou pas, ils émettent des signaux et des signes précurseurs. Découvrez ces signaux d’incident résultant de défaillances d’élément, d’erreurs humaines ou de contraintes de capacité.
Découvrez les seuils de base et maximaux de divers indicateurs et leur intérêt pour prévoir des incidents.
Recoupez l’information de plusieurs indices et décelez des erreurs à plusieurs niveaux aboutissant à des pannes.