В центре системы управления ИТ-услугами находятся показатели ее работы, с помощью которых формируются аналитические данные об операциях и выявляются области непрерывного улучшения. Стандартные показатели работы службы поддержки помогают определить внутреннюю операционную эффективность. Например, SLA, которое измеряет количество заявок, которые были обработаны за определенный срок, является важным фактором, отражающим эффективность работы службы поддержки. С другой стороны, показатели отказов помогают службам поддержки определить слабые места в ИТ-инфраструктуре и помочь оценить реагирование на события отказа. Тем самым ИТ-отделы могут свести к минимуму эффект каскадирования, к которому отказы могут приводить в критически важных системах.

Какие основные показатели отказов необходимо отслеживать? В этой статье мы рассмотрим следующие три КПЭ:

  • Среднее время между отказами
  • Среднее время отказа
  • Среднее время ремонта
 

Среднее время между отказами (MTBF)

Среднее время между отказами (MTBF)

Если в активах ИТ-инфраструктуры часто возникают отказы, будь то в сетях, на серверах, рабочих местах и т. д., они оказывают каскадирующее влияние на доступность ИТ- и бизнес-услуг. Такие сбои приводят к потере прибыли и репутации. Если какой-то ИТ-актив часто простаивает, он может нуждаться в периодическом ремонте или даже замене. Пока этого не случилось, следует изучить и разобраться, почему актив часто отказывает и при каких обстоятельствах это происходит. Это помогает планировать техническое обслуживание активов и повышать доступность систем. MTBF — это новый показатель, который помогает определить причины простоя и устранить их или запланировать быстрое восстановление и повышенную доступность ИТ-систем.

Среднее время между отказами

Рис. 1. Среднее время между отказами

Если значение MTBF какого-то определенного ИТ-актива является низким, это означает, что актив часто простаивает, что нарушает работу ИТ и бизнеса.

Пример MTBF

В одной организации обновления накопителя приводили к отказу при установке любого обновления микропрограммного обеспечения Windows. Такое случалось несколько раз, и показатель MTBF ухудшился. После анализа проблемы отдел пришел к выводу, что из-за стороннего драйвера тот API, который устанавливал обновление, не был реализован должным образом или был неисправен. При планировании очередного обновления, если сторонние драйверы не будут осуществлять реализацию необходимых API, можно рассмотреть два возможных решения. Заменить API на альтернативные Windows протоколы хранения SATA и NVMe или получить новую версию драйвера, которая более оптимально поддерживается, от поставщика систем, что может помочь реализовать обновления, исправить ошибки и устранить бреши в системе безопасности. Отслеживание обновлений драйверов и их простоев помогает повышать доступность накопителей.

Как улучшить MTBF

  • Внедрить процесс для слежения за состоянием активов и контроля за отказами. Это помогает определить причину сбоев.
  • Анализировать основную причину проблемы для формирования осведомленности, устранения долгосрочных факторов и повышения производительности активов.
  • Создать стратегию быстрого реагирования для эффективной борьбы с простоями, которые влияют на работу, и их сокращения. Цель — сократить количество сбоев и увеличить промежутки между ними.
 

Среднее время
отказа (MTTF)

Среднее время отказа (MTTF)

Активы, которые регулярно перестают работать, могут сказываться на ИТ-операциях вашей организации и приводить к ухудшению и неэффективности ИТ-инфраструктуры. Показатель MTTF помогает определить стандартный срок службы актива, устройства или компонента. Для ИТ-активов и компонентов с низким значением MTTF часто будет более эффективно с точки зрения времени, влияния на работу и затрат заменить ИТ-компонент вместо его ремонта.

Это особенно характерно для ИТ-компонентов, которые связаны с критически важными операционными элементами инфраструктуры, например сервером класса мейнфрейм или точкой входа в сеть.

Среднее время отказа

Рис. 2. Среднее время отказа

Если значение MTTF актива является неудовлетворительным, и отказы возникают регулярно, это свидетельствует о ненадежности ИТ-актива и необходимости в его частой замене во избежание воздействия на ИТ-операции.

Пример MTTF

В одной компании по разработке программного обеспечения при подключении или отключении кабеля от выключателя в стеллаже серверов данных и сетевых серверов сетевые кабели ослабевали, что приводило к их отключению или повреждению. Из-за этого повреждались файлы, так как прерывалась передача данных. Дальнейший анализ со стороны сетевого отдела показал, что пластмассовая крышка защелки на соединительном кабеле CAT6 RJ45 постоянно ломалась. Дело в том, что кабель закупали у производителя, который использовал дешевые материалы. Тогда ИТ-отдел заменил старые кабели на кабели лучшего качества, чтобы таких проблем, т. е. потери или повреждения данных, в будущем при смещении кабелей больше не возникало. Это классический пример, но отслеживание показателя MTTF по кабелю на регулярной основе помогает ИТ-отделам разобраться во влиянии критических важных активов, например компонентов, чтобы выносить осознанные решения по поводу ремонта и замены.

Как повысить MTTF

  1. Увеличить срок службы актива за счет закупки активов высокого качества и вывода из эксплуатации низкокачественных и дешевых активов.
  2. Предотвращать масштабные сбои в бизнес-операциях за счет планирования регулярных проверок компонентов, которые подключены к критически важным активам.
  3. Внедрить процесс своевременной инвентаризации, который будет оценивать время работы актива, что будет снижать накладные расходы на хранение актива.
 

Среднее время
ремонта (MTTR)

Среднее время ремонта (MTTR)

Если происходит отказ критически важной системы, ИТ-отделы должны запустить систему в работу как можно скорее. Задержка в восстановлении работоспособности ИТ-систем может приводит к потере прибыли и сказываться на критически важных бизнес-операциях. Правильно организованная система восстановления и реагирования может помочь ИТ-отделам эффективно среагировать на внеплановый простой и восстановить операции. MTTR измеряет среднее время, которое уходит на ремонт или поиск и устранение неисправности актива и его возврат в рабочее состояние.

Среднее время ремонта

Рис. 3. Среднее время ремонта

Стоимость простоя возрастает по мере увеличения MTTR. Высокое значение показателя MTTR означает, что ваши операции по реагированию и восстановлению являются недостаточно быстрыми и эффективными. Избежать сбоев в системе невозможно, но MTTR позволяет отделам реагировать на отказы активов своевременно и стратегическим образом.

Пример MTTR

Компания-разработчик ПО столкнулась с атакой нулевого дня в видеоигре, которую она разрабатывала, из-за уязвимости в ее коде. Атака привела к сбою в деятельности, например в Wi-Fi и системах наблюдения. Из-за этого злоумышленники смогли получить доступ к сетевому домену организации и конфиденциальным рабочим файлам. Отдел кибербезопасности уведомил сотрудников об атаках нулевого дня и о том, куда можно о них сообщать. Каждый ИТ-актив в организации был оснащен антивирусным ПО следующего поколения (NGAV). Атака привела к отключению LAN и портала самообслуживания для сотрудников, нарушив работу всей организации. В течение часа после атаки отдел кибербезопасности получил уведомление и поддержку со стороны NGAV, где используется аналитика угроз и изучается характер поведения пользователей, и выявил подозрительную активность. Отдел кибербезопасности мгновенно запустил сценарий управления исправлением для устранения уязвимости кода и заблокировал свою локальную сеть во избежание дальнейшего воздействия на работу и кражи данных.

Как снизить MTTR

  1. Эффективная стратегия управления активами помогает принимать более осознанные решения за счет выявления узких мест и определения необходимости в ремонте или замене активов. Тем самым осуществляется экономия средств и пространства.
  2. Определить обязанности и роли технических специалистов для организации процесса выявления и урегулирования инцидентов.
  3. Предоставить техническим специалистам подробные стандартные рабочие процедуры для уменьшения недопонимания и путаницы при простое.
  4. Измерять MTTR посредством решения по управлению корпоративными активами, которое объединяет в себе техническое обслуживание активов и данные мониторинга. Это также помогает оптимизировать загрузку активов, собирать данные об активах и прогнозировать возможные простои.
 

Заключение

Как снизить MTTR

Данные параметры отказов помогают отделам определять узкие места в работе и свою способность реагировать на инциденты. Они дают ИТ-отделам возможность повышать операционную эффективность за счет выявления основной причины повторяющихся инцидентов. ИТ-отделы могут совершенствовать свою стратегию реагирования на инциденты, формируя четкое представление о тех областях, где имело место воздействие на ИТ-операции. Эти показатели можно внедрить в организациях в качестве КПЭ, а не просто целей по эффективности. Показатели определяют те области, где можно упросить процессы и улучшить работу, т. е. это не просто цели к достижению.

Краткое описание каждого показателя:

  • MTBF позволяет получить более расширенные аналитические данные относительно эффективности вашей службы поддержки для предотвращения сбоев в будущем.
  • MTTF помогает вам проанализировать жизненный цикл актива и его надежность.
  • MTTR указывает на время, затрачиваемое на ремонт, и на то, как быстро ваши ИТ-отделы способны обнаруживать сбои.
Saket

Об авторе

Сакет Пасумарти, эксперт по продукции в ManageEngine ServiceDesk Plus, выступает активным сторонником ITSM и с удовольствием разбирается в последних разработках ИТ-сферы. Сакет пишет статьи и ведет блоги, которые помогают отделам, управляющим ИТ-услуги по всему миру, справляться с трудностями в управлении обслуживанием. Кроме того, он обучает пользователей на мастер-классах ServiceDesk Plus. В свободное время Сакет играет футбол и пилотирует самолеты на пилотажном тренажере.

Вопросы и ответы

Быстро оцените ваши стратегии по управлению ИТ-инцидентами с помощью нашего набора инструментов

  • Самооценка основных стратегий по управлению инцидентами, начиная от выявления инцидента до завершения работы с ним
  • Контрольный перечень для проверки готовности вашего отдела к устранению крупных инцидентов в гибридной рабочей среде
  • Памятка по устранению наиболее распространенных проблем с устранением инцидентов, которые возникают в гибридной рабочей модели
 

Вы хотели бы в этом году заменить свое средство управления ИТ-ресурсами (ITSM)? *

Нажимая « Загрузить набор инструментов», вы принимаете условия обработки персональных данных в соответствии с Политикой конфиденциальности.

Нам доверяют ведущие организации в мире

Раскройте весь потенциал 360° ITSM