Тревоги

Тревоги уведомляют операторов системы о возникновения важного события или превышении каким-либо параметром порогового значения, в какой бы части распределённой IoT-инсталляции это не случилось. Без тревог оператор был бы вынужден постоянно открывать и просматривать устройства, чтобы убедиться, что все в порядке. Тревоги заставляют пользователя обратить внимание на те или иные аспекты работы системы.

Настройки тревоги включают в себя:

Триггеры тревог Правила эскалации
Правила уведомления Корректирующие действия

Триггеры тревог

Тревоги могут иметь один или более триггеров – условий поднятия тревоги. Они подразделяются на триггеры событий и триггеры состояний.

Каждый триггер может проверять одно или более устройство или ресурс, например, все устройства в группе. Вместе с возможностью устанавливать множество триггеров на событие это дает возможность очень гибкой настройки.

Триггеры событий

Триггер события активируется, когда событие определенного типа соответствует условию триггера. Условие задается выражением и позволяет выполнять сложные проверки. Например, система мониторинга транспорта может поднять тревогу, если от контроллера транспортного средства пришло событие «Удар», означающее что сила удара превысила заданный порог.

Триггеры событий поддерживают корреляцию событий, то есть тревога может быть активирована событием одного типа и дезактивирована событием другого типа (коррелирующим событием).

Любой триггер события можно настроить для активации только в случае, если активируется больше N соответствующих событий в определенный промежуток времени.

Триггеры состояний

Триггер состояния может активироваться в ответ на конкретное состояние или на любое изменение состояния одного из объектов мониторинга. Триггер состояния периодически проверяет устройство или системное свойство (также задаваемое с помощью выражения).

Триггеры состояния имеют настраиваемое время гистерезиса (зону нечувствительности). Это позволяет активировать тревогу, только если условие было верно для заданного промежутка времени. Например, триггер состояния может поднять тревогу, если значение температуры превышало отметку 120 градусов на протяжении 3 минут. Аналогичным образом тревога может быть деактивирована.

Триггеры состояний могут быть проверены на основе динамически корректируемых исходных состояний, таких как среднемесячное значение или максимальное значение за выходные. Также триггеры состояний поддерживают распознавание «мерцания» (частых изменений) значений, что вызывает тревогу специального типа.

Правила оповещения

Оповещения информируют пользователя о параметрах тревоги. Оповещения могут быть следующих видов:

  • Всплывающее окно (может требовать подтверждающих действий оператора)
  • Звуковой сигнал
  • E-mail. Поддерживает отправку нескольким адресатам, для подтверждения можно использовать ответы на сообщения
  • SMS
  • Любые другие способы доставки оповещений, такие как отправка сообщения через внешнее приложение, например, Skype или WhatsApp

Кроме того, для реализации других схем оповещения можно использовать корректирующие действия.

Активные тревоги

После активации тревога может оставаться активной до тех пор, пока активно вызвавшее ее условие или пока не получено событие, коррелируемое с событием активации. Сервер хранит список глобальных активных тревог и отслеживает активные экземпляры, ассоциируемые с каждым ресурсом и устройством. Активные тревоги высокого приоритета обычно визуализируются на инструментальных панелях обзора системы.

Подтверждение тревог и эскалация тревожных сообщений

Некоторые тревоги могут требовать подтверждения. Неподтвержденные тревоги называются активными и подсвечиваются оранжевым цветом для привлечения внимания оператора.

Эскалация тревоги обычно означает повышение критичности ситуации. Эскалированные тревоги подсвечиваются красным. Существует два правила эскалации тревог:

  • Количественная эскалация ‐ когда число активных (неподтвержденных) тревог превышает заданный порог.
  • Хронологическая эскалация ‐ когда тревога находится в активном состоянии больше заданного промежутка времени

Для одной тревоги можно использовать оба типа эскалации.

Корректирующие действия

Часто при возникновении ошибки требуется выполнить конкретное действие по ее устранению. Например, если на устройстве заканчивается память, то необходимо либо загрузить с него базу данных, либо очистить ее.

Операции такого рода могут быть автоматизированы. Любое системное действие может быть запущено в ответ на тревогу.

Если в системе нет активных операторов, или она работает в автономном режиме, то корректирующие действия запускаются в неинтерактивном режиме (также называемом автоматическим). Также есть действия в интерактивном режиме, требующие ввода оператора в реальном времени.

Примеры некоторых интерактивных корректирующих действий:

  • Запуск оператором пользовательского рабочего процесса разрешения инцедента
  • Запрос к оператору при очистке базы данных - «Вы уверены?»
  • Перезагрузка устройство только после получения подтверждения от оператора

Примеры автоматических корректирующих действий:

  • Подготовка отчета о произошедшей тревоге и оправить его по e-mail
  • Запуск внешнего приложения, исправляющего ошибку
  • Создание новой заявки в Service Desk