Следить за дисками необходимо так же тщательно, как и за температурой, пылью в сервере. Даже если вы используете супер надежный Raid массив, контроль за сервером показывает уровень Системного Администратора.
Для мониторинга и диагностики состояния HDD существует технология smart — технология оценки состояния жесткого диска с помощью встроенной аппаратной диагностики.
Специально для систем мониторинга в Unix системах разработана утилита smartmontools. Данный софт присутствует во всех известных мне Unix системах.
Сейчас мы настроим smartd который находится в пакете smartmontools для непрерывного мониторинга HDD штатными средствами smartmontools, устанавливаем smartmontools: (или из Backports)
Устанавливаем пакет в Debian или Ubuntu:
# apt-get install -y smartmontools
Устанавливаем пакет в CentOS или RedHat:
# yum install -y smartmontools
Устанавливаем пакет в FreeBSD
# cd /usr/ports/sysutils/smartmontools # make install clean
smartctl — просмотр текущих значений S.M.A.R.T., запуск тестов диагностики диска вручную;
smartd — демон для записи в системный журнал изменений в значениях S.M.A.R.T, уведомления по электронной почте об ошибках, запуска тестов диагностики по расписанию;
Проверяем установлен ли S.M.A.R.T., с помощью команды:
# smartctl -i /dev/sda
Если S.M.A.R.T. отключен, то включаем:
# smartctl -s on /dev/sda
Настраиваем S.M.A.R.T. как демон в /etc/default/smartmontools, для примера добавляем два диска:
enable_smart=”/dev/sda /dev/sdb” start_smartd=yes smartd_opts=”–interval=1800″
Автоматизируем мониторинг для для дисков.
В файл /etc/smartd.conf (записываем email для получения уведомлений, о состоянии HDD)
/dev/sda -S on -o on -a -I 194 -W 4,38,45 -R 5 -H -l error -l selffortest -m sistemadmin@mail.ru -s (S/../.././02|L/../../6/03) /dev/sdb -S on -o on -a -I 194 -W 4,38,45 -R 5 -H -l error -l selffortest -m sistemadmin@mail.ru -s (S/../.././02|L/../../6/03) или /dev/sda -S on -o on -a -I 194 -m sistemadmin@mail.ru
-a заставляет smartd наблюдать за всеми доступными SMART-параметрами дисков
-I 194 указывает smartd игнорировать изменения значения атрибута #194
-m указывает на необходимость отправки email-уведомлений.
Внимание! В файле smartd.conf вы сможете увидеть уже готовые примеры с описанием! Воспользуйтесь ими.
Запускаем сервис:
# /etc/init.d/smartmontools start
Можно проверить пишутся ли логи:
cat /var/log/syslog | grep smartd
Ключи программы взятые из MAn:
-d TYPE Тип устройства: ata, scsi, marvell, removable, 3ware,N, hpt,L/M/N
-T TYPE допустимое отклонение: normal, permissive
-o VAL Включает/выключает автоматические оффлайн тесты (on/off)
-S VAL Включает/выключает автосохранение атрибутов (on/off)
-n MODE Не проверять. Один из режимов: never, sleep, standby, idle
-H Мониторить SMART статус, уведомлять только при ошибках.
-l TYPE Мониторить SMART логи. Режимы: error, selftest
-f Монитор отказа для любых атрибутов ‘Usage’
-m ADD Письмо с варнингами на ADD для -H, -l error, -l selftest, and -f
-M TYPE Изменение поведения отсыла е-майлов (см. ман)
-s REGE Запустить тест когда дата совпадает с регулярным выражением (см. ман)
-p Сообщать о изменениях в ‘Prefailure’ атрибутах
-u ообщать о изменениях в ‘Usage’ атрибутах
-t Эквивалентно -p и -u директивам
-r ID Также сообщать ‘RAW’ значения атрибутов ID с -p, -u или -t
-R ID Следить за изменениями в атрибуте ID ‘Raw’ значения -p, -u or -t
-i ID Игнорировать атрибут ID для -f директивы
-I ID Игнорировать атрибут ID для -p, -u или -t директивы
-C ID Рапортовать если счётчик `ждущих` секторов не равен нулю
-U ID Рапортовать если счётчик `некорректируемых` секторов не равен нулю
-W D,I,C Monitor Temperature D)ifference, I)nformal limit, C)ritical limit
-v N,ST Mодифицировать метку для атрибута N (для нестандартных атрибутов)
-a Дефолт: эквивалентно -H -f -t -l error -l selftest -C 197 -U 198
-F TYPE Для ошибок в прошивке. Значения: none, samsung
-P TYPE Предустановки для диска: use, ignore, show, showall
# Комментарии: текст после него игнорируется
\ Продолжения строки