про суровую реальность :)

Проблема выбора мониторинга сетевой инфраструктуры

by L0rda on Jan.14, 2010, under hosting, linux, новости

Это мой первый пост в наступившем 2010 году, поэтому прежде всего хочу поздравить всех читателей моего блога с тем, что год все-таки наступил:) желаю много работать, зарабатывать денег, уезжать в теплые края и переставать быть овощами :)

Теперь, когда все формальности утрясены, вернемся к сабжу. В далекие-далеки времена, когда я только начал жить в Питере, я и не знал ни про какие мониторинги. Но так случилось, что первое, с чем я столкнулся, начав работать у Дена, это то, что нужно было что-то сделать с мониторингом, который написал он сам. Самописные мониторинги это круто :) Тогда я немножко пилил мониторинг Дена и одновременно писал свой, который должен был быть распределенным, но умер не родясь, так как чаще делал только хуже, чем собственно выполнял задачу мониторинга. С мониторингом мы боролись все время, что я работал у Дена :) И надо заметить, что положительная тенденция в работе самописного скрипта все-таки имела место. Но шло время и хостинг, из разряда хобби, перешел в основной вид моего заработка. Я снова столкнулся с проблемой мониторинга. Тогда Bezruk ткнул меня носом в nagios. Я начитавшись, про то как крут nagios, попросил своего сисадмина установить и настроить nagios на одном из своих серверов, было это в начале 2007-го, как щас помню. Nagios оказался очень неповоротливым, я даже написал для него админку на django, но этого все равно было недостаточно, может быть его и можно было гибко настроить, но убив при этом кучу времени. Примерно год назад, находясь в Тайланде, я принял ряд кординальных решений по реорганизации структуры хостинга, в том числе планировалось заменить Nagios на Zabbix. Почему именно zabbix я точно ответить не могу, видимо какие-то вселенские силы заставили обратить меня внимание именно на него. Админу была дана команда и zabbix был установлен. Как только я сам ни старался в это не лезть – все равно пришлось. Начнем с проблем, с которыми столкнулись в процессе. В инфраструктуре нашей сети большинство серверов клиентов и виртуального хостинга работают на CentOS и Fedora.
Проблема CentOS
В репозиториях CentOS(имеется ввиду EPEL) очень старые пакеты Zabbix, я конечно понимаю, что стабильность это хорошо, но уже 2010 год!
# cat /etc/redhat-release
CentOS release 5.4 (Final)
# yum info zabbix
[ ...skip... ]
Available Packages
Name : zabbix
Arch : i386
Version : 1.4.6
Release : 1.el5
Size : 1.8 M
Repo : epel

В Fedora тем временем лежат rpm’ки версии 1.6.6(именно ее мы и используем), хотя текущая версия уже 1.8. На zabbix-сервер пришлось поставить Fedora, а на CentOS клиентах собирать агента из сорцов. Так продолжалось практически год, занимался этим админ, но в конце концов все приходится брать в свои руки :) Меня категорически не устраивала работа мониторинга, доступные по-умолчанию шаблоны Zabbix очень избыточны, они собирают кучу ненужной информации, много абсолютно ненужных триггеров, да и уведомления работали через пень колоду.

  • Во-первых, что я сделал – нашел RPM версии 1.6 для CentOS, заменил почти везде.
  • Во-вторых, в дефолтном шаблоне Linux убрал все ненужное – сервисы, триггеры и неподдерживаемые элементы, после этого zabbix-сервер начал бегать в 10 раз шустрее
  • В-третьих, начал создавать свой стандартный шаблон, мониторить только нужные сервисы, получать только нужные данные, написал ряд своих проверок, например, состояние raid, память eAccelerator, мониторинг ip_conntrack_count и др.
  • В четвертых, я нашел очень полезный для меня вид мониторинга, который раньше не замечал – это мониторинг веб-страниц, с возможностью создания сценария в несколько шагов. Например, зайти на сайт, залогиниться и посмотреть все ли внутри работает, а то вдруг какой-то внешний сервис упал или недоступен
  • И на последок самое сладкое – я кардинально решил проблему мониторинга в нерабочее время. Чаще всего после работы у меня довольно крепкий сон, ну и хоть убей – я не слышу SMS. Чтобы решить эту проблему, мы с коллегой написали небольшого консольного sip-клиента. В zabbix’е был создан новый тип уведомления – звонок, был добавлен отдельный пользователь, которому было назначено действие – звонить в нерабочее время, когда уровень проблемы “критический” или “высокий”. Собственно теперь когда я сплю крепким сном, а что-то вдруг не так, например apache-status где-то не открывается, раздается звонок, и заранее записанный женский голос произносит: “Привет, меня зовут зомбо-бот Ира, теперь я живу в кронтабе и буду иметь тебе мозг..”. Слыша это трудно устоять и приходится ползти к ноутбуку :)

Сейчас, я наверное в первый раз реально доволен своим мониторингом. Я научился настраивать Zabbix очень гибко и могу помочь с внедрением его на вашем предприятии. Сейчас все бегает на zabbix 1.6 и обслуживает сотни узлов, и в принципе мне всего хватает, но все-таки хочется воткнуть 1.8(нашел уже сборки для CentOS) и посмотреть, что в нем нового и позитивного.

:, , , ,

1 Trackback or Pingback for this entry

Leave a Reply

Looking for something?

Use the form below to search the site:

Still not finding what you're looking for? Drop a comment on a post or contact us so we can take care of it!