Что такое S.M.A.R.T. и как расшифровать его показания?

Автор Ruterk, 27 июля 2013, 00:02:55

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

Ruterk

Что такое S.M.A.R.T.?
Self-Monitoring, Analysis and Reporting Technology - технология оценки состояния жёсткого диска системой интегрированной аппаратной самодиагностики/самонаблюдения. Основная задача - определить вероятность выхода устройства из строя, предотвратив потерю данных.

Почему показания S.M.A.R.T. жестких дисков различных вендоров (производителей) отличаются?
Потому что технология развивалась поэтапно, и внедрялась отдельно каждым производителем по-своему: сначала IBM с технологией PFA (Predictive Failure Analysis), потом Compaq с IntelliSafe, затем по инициативе Compaq, компаниями IBM, Seagate, Quantum, Conner и Western Digital было создано стандартизованное подобие нынешнего S.M.A.R.T. симбиозом IntelliSafe и PFA.

Стандарт SMART I предполагал мониторинг основных параметров и запускался только после команды по интерфейсу. Созданию стандарта SMART II способствовали инновации компании Hitachi: методика полной самодиагностики накопителя (Extended Self-Test) и журналирование ошибок. Стандарт SMART III обеспечил прозрачное наблюдение за состоянием диска с функцией обнаружения дефектов поверхности и возможностью их восстановления. Современные атрибуты S.M.A.R.T. могут различаться для каждого отдельно взятого диска.

Каким образом можно получить показания S.M.A.R.T.?
С помощью специализированного софта:

1. HDTune(вкладка Health/Здоровье)
2. Victoria (Документация)
3. CrystalDiskInfo
4. Advanced SmartCheck
5. Hard Disk Sentinel
6. Фирменные утилиты SeaGate
7. Фирменные утилиты Samsung
8. Фирменные утилиты Hitachi
9. Фирменные утилиты WD
10. Caviar Green/GP
11. Caviar Blue/SE/SE16 (SATA II)
12. Caviar Black
13. RE3
14. RE4

Что такое система само-тестирования (само-диагностики) диска?
Иногда диск производит самопроверку, поэтому не пугайтесь, если заметите, что в тот момент, когда никаких интенсивных операций в системе не проходит, а диск на некоторое время начинает интенсивно трещать. Такие операции часто запускаются в том случае, если у вас имеются "pending сектора". Диск сам начнет (в момент минимальной нагрузки) перепроверять "кандидата", для того, чтобы исключить его из списка подозрения, либо наоборот исключить из относительной индексации.

Документировано существует три типа тестов само-диагностики:

+ Фоновый сбор данных (Off-line collection);
+ Сокращенный тест (Short Self-test);
+ Расширенный тест (Extended Self-test).

Два последних способны выполняться как в автономном (off-line), так и в монопольном (on-line) режимах. Продолжительность их выполнения может длиться от нескольких секунд до минут и даже часов.  Во время автономного тестирования возможно выполнение других команд, так как тестирование происходит в фоновом режиме. Во время монопольного режима тестирования выполнение других команд невозможно. Попытка исполнить другую команду приведет к прерыванию теста.

Типичная задача само-тестирования - избавиться от "бэдов". Нужно заметить, что "релоки" могут быть (почти гарантированно) на диске сразу после его покупки "с нуля". Они будут находится в заводской резервной зоне (Primary list). Уже при непосредственной эксплуатации будет формироваться вторичный резерв (Growth list).

Заметьте, "ремап" не может происходить до бесконечности, потому как объем пользовательской резервной зоны ограничен. Поэтому не удивляйтесь, если вдруг ваш "умирающий" диск (если вы по показаниям смарта заранее это определили) вдруг резко перестанет работать, хотя до этого вроде как худо-бедно трудился - он сам до отказа заполнит резерв "релоками", после чего уже не будет производить "ремап", и вы начнете терять данные. В том случае, если на "бэд-сектор" системного диска попадет системный файл, вы рискуете полюбоваться "синькой" (Blue Screen Of Death), с последующей невозможностью загрузки системы.


Атрибуты S.M.A.R.T.
Это характеристики, использующиеся при анализе состояния надежности накопителя.

[attachimg=1]

Значения атрибутов S.M.A.R.T. - Столбцы:

+ Value/Current - текущее значение (в диапазоне от 0/1 до 100/200/255) - надежность конкретного атрибута относительно его эталонного значения, которое определяется производителем. Максимальное значение атрибута означает максимальную стабильность. Чем значение ниже, тем быстрее текущий параметр деградирует.

+ Worst - означает наихудшее из всех когда-либо запротоколированных значений, т.е. наихудшее (бывшее) состояние атрибута.

+ Threshold - пороговое значение для каждого отдельно взятого атрибута. Если текущее значение атрибута ниже, чем пороговое, значит вероятность отказа (если этот параметр критичен) велика.

+ Raw - значение атрибута во внутреннем формате. Иногда значения могут нести бесполезную нагрузку, гораздо важнее, что из них вычисляется преобразованное значение.

+ Data - преобразованное значение атрибута, в большинстве случаев говорящее о состоянии параметра в доступной для восприятия форме.


Значения атрибутов S.M.A.R.T. - Строки: Основные критические (непосредственно влияющие на надежность работы диска) атрибуты:

+ Raw Read Error Rate - частота ошибок при чтении данных с поверхности диска. Возникает в случае, когда при единовременном проходе, головке не удается произвести чтение ячейки. Увеличение параметра вызвано обычно аппаратными неполадками.

+ Soft Read Error Rate - частота появления "программных" ошибок при чтении данных с диска. В данном случае виновата не аппаратная часть, а логическая (ошибка микропрограммы диска).

+ Write Error Rate - частота появления ошибок записи. Вызвана в большинстве своем неполадками механики.

+ Seek Error Rate - ошибки позиционирования головки. Вызваны неполадками движущей механики, либо повреждением "сервометок" (servo)из-за сильного термического расширения дисков или "промахом" самой головки.

Магнитная головка знает в какое положение относительно дорожки диска ей необходимо закрепиться (сверяя свое положение по сервометкам) для того, чтобы попасть туда, куда нужно и считать запрашиваемую информацию с определенного адреса, и если ее местоположение не совпадает с реальной позицией над запрашиваемой дорожкой, то возникает ошибка позиционирования.

+ End-to-End error - ошибка четности при передаче данных между кэшем и хостом.

+ Reported Uncorrectable Errors - ошибки, которые не удается исправить методами аппаратной коррекции.

+ Current Pending Sector Count - при единовременном проходе у головки может не получиться считать данные с ячейки, в таком случае эта ячейка будет помечена "кандидатом на замену". Параметр этот может меняться, потому как неудача иногда возникает по вине самой головки (когда она виновата в том, что "промахнулась") хотя ячейка при этом исправна. При повторном проходе статус может быть снят, в том случае, если чтение удалось осуществить успешно. Если этот параметр всегда нулевой, это может говорить о том, что качество само-тестирования на низком уровне.

+ Reallocated Sectors Count - количество "переназначенных секторов" (remap). Если магнитной головке жесткого диска не удается при нескольких проходах произвести чтение/запись/верификацию ячейки, микропрограмма попытается переместить данные в резервную область диска (spare area - она не входит в область основной разметки) и, в случае успеха, помечает сектор как "переназначенный", т.е. при каждом запросе на чтение данных из этой ячейки, будет происходить "перенаправление" (redirect) на ее резерв, следовательно физически этот переназначенный сектор больше не будет использоваться.

Благодаря "ремапу", на современных жестких дисках очень редко видны (при тестировании поверхности) "битые сектора" (bad block). Если на графике чтения с поверхности будут заметны "провалы" - резкое падение скорости чтения (до 10% и более), значит вероятны 2 варианта:

+ В этот момент к диску поступило обращение сторонней команды (например, системы);
+ На нем слишком много "ремапов", и головке приходится скакать туда-сюда по поверхности диска из основной разметки в резервную.


+ Reallocation Event Count - количество попыток "ремапа". В поле атрибута (raw value) хранится общее число попыток (как успешные, так и безуспешные) переноса информации с переназначенных секторов в резервную область.

+ Spin Up Retry Count - число повторных попыток раскрутки шпинделя до рабочей скорости. Возрастание значения говорит о том, что диски по той или иной причине не получилось вывести на расчетную скорость вращения с первой попытки. Ошибки обычно вызваны аппаратными проблемами.

+ Recalibration Retries - количество повторов попыток рекалибровки. Неполадки механики иногда приводят к тому, что диску приходится сбросить состояние позиционирования головки в нулевую дорожку. Значения этого атрибута засчитывается в том случае, если рекалибровка происходила большее количество раз, чем положено.

+ Read Error Retry Rate - количество повторных операций чтения ячейки. Возрастание параметра атрибута может говорить как о проблемах поверхности диска, так и некорректном функцмонировании считывающей головки.

+ Soft ECC correction - количество ошибок ECC (Error-Correcting Code - код коррекции ошибок), удачно скорректированных программным способом.

+ Power-off Retract Count - количество операций вывода блока магнитных головок из рабочей зоны в парковочную, результатом которых послужил перебой питания диска.

+ Run Out Cancel - количество операций коррекции данных из-за неправильной хэш-суммы.

+ Hardware ECC Recovered - число коррекции ошибок аппаратной частью диска (ошибок чтения, ошибок позиционирования, ошибок передачи по интерфейсу).

+ Uncorrectable Sector Count - если обычно после ошибки чтения микропрограмма пытается исправить положение дел, то этот параметр показывает те случаи, когда коррекцию произвести не удалось. Чаще всего причина кроется в критической неисправности механики/аппаратной части, либо при наличии софт-бэда.

+ UltraDMA CRC Error Count - количество ошибок CRC (контроль целостности передачи данных) при обмене данными между диском и контроллером в режиме UltraDMA по контрольной сумме.

Ошибка может возникать в нескольких случаях:
+ При сильном завышении частоты PCI (больше номинальных 33.3 MHz);
+ При надломленном или сильно закрученном кабеле (иногда даже замена шлейфа на аналогичный не помогает, нужно пробовать разные варианты в каждом конкретно взятом случае);
+ При ошибке драйверов ОС (при чем не только драйверов контроллера);
+ При сбое в работе (например, при внезапном скачке напряжения или отключения питания компьютера), когда посланные диском пакеты не доходят до контроллера.


+ Command Timeout - количество операций, отмененных по превышении предела ожидания. Возникают такие ошибки обычно при неисправном кабеле или сбоях в подаче питания (пруфлинк).

+ High Fly Writes - количество операций записи произведенных при положении магнитной головки выше номинального значения (head flying range).

+ Disk Shift - дистанция смещения блока дисков относительно шпинделя. В основном возникает из-за удара или падения.

+ G-Sense Error Rate - атрибут хранит показания ударо-чувствительного сенсора - общее количество ошибок, возникших в результате полученных накопителем внешних ударных нагрузок (при падении, толчке, излишней вибрации, неправильной установке, и т.п.).

Значения атрибутов S.M.A.R.T. - Некритические атрибуты, сообщающие служебную информацию, не оказывающую прямого влияния на надежность диска.

+ Throughput Performance - средняя производительность диска по оценки программы само-диагностики. Регламентируется производителем.

+ Seek Time Performance - средняя производительность операции позиционирования магнитными головками. Аппаратно зависимый параметр.

+ Spin Up Time - время, затрачиваемое шпиндлем для того, чтобы выйти на расчетную скорость вращения. Ухудшение значение атрибута указывает на проблемы с приводом или подшипником.

+ Start/Stop Count - количество зафиксированных циклов запуска/остановки шпинделя.

+ Power-On Time Count - общее количество часов в рабочем состоянии. Значение зависит от отдельно взятого диска/производителя.

+ Power On/Off Retract Cycle - количество зафиксированных циклов полного включения/отключения.

+ Load/Unload Cycle Count - количество операция вывода блока магнитных головок в или из рабочей зоны.

+ Head Flying Hours - общее время, затраченное на позиционирование БМГ.


Что такое "бэды"?

+ "Бэды" (bad block) - это ячейки диска, непригодные для хранения информации.

+ "Аппаратные бэды" - аппаратно неисправная область поверхности диска, которую никак не исправить кроме извлечения из относительной адресации (remap);

+ "Софтовые бэды" ("софт-бэд") - ячейки, которые невозможно использовать из-за неисправностей логического характера. "Лечатся" программой "erase": магнитная головка заполняет область диска нулями, уничтожая таким образом и данные в ячейках, и неисправности.

Источник: http://www.thg.ru/

Prkad