Archive | Мониторинг

Disaster friendly arcitecture

Все нижеизложенное целиком и полностью навеяно статьей на сайте Радар О’Рейли.

Если в кратце, то на прошлой неделе M$ начали закрытое бета-тестирование нового сервиса Vine, предназначенного для мониторинга и оповещения в случае катостроф и нештатных ситуаций. Планируется что это будет мультиплатформенный (в понимании M$) сервис, позволяющий оставаться на связи с некоторой группой людей в случае нештатной ситуации или для повседневной жизни.

Сервис представляет из себя mashup из LiveMesenger, FaceBook, LinkedIn и позволяет делать групповые оповещения и отслеживать местонахождение участников (через специальный клиент).

Так же планируется интеграция с твиттером, вэб-интерфейс и клиенты для «Не виндовс» :-).

Посмотрим, во принципе может получиться вполне приличная коммуникационная платформа, только подозреваю что в случае на самом деле серьезных проблем толку от нее будет ровно 0.

В случае каких-либо техногенных катастроф информационная инфраструктура страдает сильнее всего: если каналы связи и оказываются не поврежденными то получают серьезную перегрузку (помните отключение электричества в Москве?).

В любом случае нужно смотреть на это ближе, подписался на участие в бэта-тестировании, жду приглашения. Если пришлют и удастся посмотреть — расскажу подробнее.

Мониторинг за 4 раза :-) , агенты влияния.

Продолжение серии статей, рассказывающих о построении своими руками системы мониторинга рассчитанной на большой поток событий.

Схема хранения данных, выбор протокола, реализация агентов мониторинга.

В прошлой статье мы определили что такое система мониторинга и как она оценивается. В этот раз мы с вами попытаемся разобраться с архитектурой и реализовать агенты мониторинга для типовой (сферической в вакууме) инфраструктуры уровня крупного отдела некоей корпорации.

Continue Reading →

Мониторинг за 4 раза :-) , введение в мониторинг.

Quis custodiet ipsos custodes?

Это первая статья в серии, рассказывающей о построении своими руками системы мониторинга рассчитанной на большой поток событий.

Немного теории для начала

Согласно WIKI:

Мониторинг — процесс систематического или непрерывного сбора информации о параметрах сложного объекта или процесса.

В случае телекоммуникационного оборудования мониторинг представляет из себя некий набор мер и методик по выявлению неисправностей, нештатных ситуаций и изменения ключевых показателей сервиса.

Качество работы любой системы мониторинга определяется тремя основными показателями :

  • Максимальное время реакции — время необходимое системе на то чтобы распознать проблему и оповестить о ней оператора.
  • Вероятность ложного срабатывания. (Оповещение оператора о несуществующей или уже завершившейся проблеме)
  • Вероятность пропуска аварии. (Ситуация, при которой система не оповещает оператора о существующей проблеме)

Чем меньше время реакции — тем больше времени остается оператору на принятие решения и устранение проблемы. Два следующих показателя в принципе равнозначны, и хотя пропуск аварии на первый взгляд кажется более опасным, при большом потоке аварий ложное срабатывание вещь очень неприятная. Оператор тратит свое время на решение несуществующей проблемы, да и меры предпринимаемые для ее устранения с очень большой долей вероятности приводят к реальным сбоям.

Есть еще один, неофициальный показатель — степень доверия. Это то, на сколько доверяют системе мониторинга операторы. 🙂

Continue Reading →

Powered by WordPress. Designed by WooThemes