Пока инфраструктура работает без сбоев и аварийных ситуаций, о необходимости мониторинга легко забыть. Но так вы подкладываете себе же бомбу, которая обязательно взорвется, и обязательно в самый неподходящий момент.
Я разделяю мониторинг на 3 уровня:
1. Контроль за состоянием оборудования, базовыми метриками ПО и ошибками резервного копирования. Исправно/неисправно железо, отвалился порт, не пингуется сервер, забился диск – все это сюда
2. Мониторинг производительности отдельных приложений и ошибок в их работе: нагрузка на железо от SQL-сервера, 1С, web-приложений, падения служб и т.д.
3. Анализ работы приложений. Например, метрик выполнения запросов SQL-сервером, времени длительных операций 1С и т.д.
Мониторинг первого уровня должен быть в любой сети, где есть хотя бы один сервер. За состоянием серверов и коммутаторов можно следить вручную, но в этом случае о проблеме узнают, когда уже она случилась: диск забит, память кончилась, сервер упал. Поэтому лучше использовать инструменты для автоматического сбора данных:
- SNMP (Simple Network Management Protocol) — протокол для отслеживания управляемых сетевых устройств.
-IPMI (Intelligent Platform Management Interface) — интеллектуальный интерфейс для управления сервером и контроля за его состоянием.
- Агенты мониторинга — ПО для сбора данных.
Эти системы собирают данные с железа и передают в систему мониторинга, которая предупреждает о том, что показатель приблизился к критической отметке. То есть мы видим, что температура сервера начинает зашкаливать, и успеваем предупредить аварию.
Про второй и третий уровни расскажу в следующем посте.
Больше интересного в нашем телеграмм-канале https://t.me/+a8sjeXybRkIwNWQy
Обратитесь к нам прямо сейчас и мы подберем для вас лучшие решения на самых выгодных условиях!