Береги честь с молоду а хард снову

Однако хард - не честь, его еще надо мониторить, и лучше всего не останавливая работы.

Делать это мы будем при помощи инструмента sys-apps/smartmontools
давайте для начала поставим его

emerge -avt sys-apps/smartmontools</code>

все. теперь мы можем начать приобщаться к великому почитав http://ru.wikipedia.org/wiki/Технология_SMART и запустив команду

man smartctl</code>

Если вы выполнили предыдущий пункт и прониклись сутью жизни и смерти (хард диска), то дальше вам читать совсем не обязательно, и всеже обьясню что делать дальше, итак:
для начала посмотрим что с нашим диском командой

smartctl -a /dev/sda # здесь и далее я предпологаю что ваш диск /dev/sda</code>

Тут мы увидим всю информацию скопившуюся в SMART диска о себе самом. Однако бывает что информация эта неполная, т.е. дефект уже есть, но в SMART о нем пока ничего нет. Для того чтоб обновить информацию в SMART запустим команду:

smartctl -t offline /dev/sda</code>

Эта команда запускает фоновую полную проверку диском самого себя. На производительности это практически не скажется, поскольку проверка будет проводиться хардом во время простоя. Это не единственный режим проверки, подробности ищи в man-e.

Все хорошо, но выполнять эти действия каждую неделю самому неинтересно. для этого в пакет входит служба smartd. для начала настроим ее.

echo "DEVICESCAN -a -I 194 -W 4,50,60 -R 5 -R 197 -R 198 -m my@mail.address -o on -S on -s (s/../.././02|L/../../6/03)" >>/etc/smartd.conf
less /etc/smartd.conf</code>

здесь мы указали:

  • DEVICESCAN
    If the test string DEVICESCAN is the first uncommented text then smartd will scan for devices /dev/hd[a-l] and /dev/sd[a-z] (спасибо комментариям в конфиге)
    А это значит, что если указать DEVICESCAN, то по следующему правилу будут сканироваться все харды подряд, по маске /dev/hd[a-l] и /dev/sd[a-z]_. Если же указать определенный диск - то команда запустится лишь для него.
  • выдать полную инфу, без параметра Temperature_Celsius (I 194)
  • но с выдачей предупреждения при температуре 50C и критического предупрееждения при 60C(W 4,50,60)
  • оповещать об изменении аттрибутов Reallocated_Sector_Ct, Current_Pending_Sector и Offline_Uncorrectable (R 5 -R 197 -R 198)
  • смысл o on -S on оставлю понять самим.
  • Строка s (s/…/…/./02|L/…/…/6/03/30) расшифровывается вот как: выполнять short test каждую ночь в 02:00 и выполнять Long test каждую субботу в 3:30
  • Результат проверки отправлять на мыло my@mail.address (m my@mail.address)

подробности насчет ключей можно найти в man-ах и комментах конфига

PS

Многие админы со стажем не знают о такой болезни ВСЕХ хардов, как рыжие контакты
Тут объяснять не буду. Слишком уж много об этом написано в инете.
Скажу лишь что <<это может быть причиной многих ошибок в SMART>>.
Еще пожалуй скажу, что профилактику рыжих контактов надо проводить не реже полугода/года. Профилактика - это снять hdd, аккуратно, подходящей отверткой открутить плату, и обычным твердым ластиком АККУРАТНО зачистить контакты идущие к блоку голов (идущие на привод шпинделя можно не трогать, там токи и напруга достаточно высокие, и нет данных, передаваемых на высокой частоте.@
@
Другая причина ошибок smart может быть в китайских sata/pata шлейфах.
Тут надо смотреть на качество коннектора и толщину самого провода.
А еще поможет утилита Victoria 3.4 которая имеет режим тестирования интерфейса.
В этом режиме она гоняет в кеш диска и обратно данные (без записи на диск), и проверяет данные на неизменность (у меня из-за одного такого шлейфа хард переглючило, пришлось на спец.оборудовании у знакомого ремонтника заводской тест харду пропускать)