Quis custodiet ipsos custodes?
Это первая статья в серии, рассказывающей о построении своими руками системы мониторинга рассчитанной на большой поток событий.
Немного теории для начала
Согласно WIKI:
Мониторинг — процесс систематического или непрерывного сбора информации о параметрах сложного объекта или процесса.
В случае телекоммуникационного оборудования мониторинг представляет из себя некий набор мер и методик по выявлению неисправностей, нештатных ситуаций и изменения ключевых показателей сервиса.
Качество работы любой системы мониторинга определяется тремя основными показателями :
- Максимальное время реакции — время необходимое системе на то чтобы распознать проблему и оповестить о ней оператора.
- Вероятность ложного срабатывания. (Оповещение оператора о несуществующей или уже завершившейся проблеме)
- Вероятность пропуска аварии. (Ситуация, при которой система не оповещает оператора о существующей проблеме)
Чем меньше время реакции — тем больше времени остается оператору на принятие решения и устранение проблемы. Два следующих показателя в принципе равнозначны, и хотя пропуск аварии на первый взгляд кажется более опасным, при большом потоке аварий ложное срабатывание вещь очень неприятная. Оператор тратит свое время на решение несуществующей проблемы, да и меры предпринимаемые для ее устранения с очень большой долей вероятности приводят к реальным сбоям.
Есть еще один, неофициальный показатель — степень доверия. Это то, на сколько доверяют системе мониторинга операторы. 🙂
Continue Reading →