Forum: PC Hard- und Software smartctl Ausgabe für HDs und SSDs - Seek_Error_Rate


von Markus W. (dl8mby)


Lesenswert?

Hallo Forum,
hallo Linux Spezialiatsn,

im erstan Beispiel sieht man die smartctl Ausgabe für eine 
konventionelle
HD 2.5"
Dabei ist der "Seek_Error_Rate" Wert an Position 7 von Bedeutung um eine
langsam kapputgehende Disk zu idenfifizieren.

Der Wert 082 ist zu wie folgt zu übersetzen:
ein Seek_Error tritt alle 10⁸·² Bytes (Bits, da bin ich mir nicht ganz 
sicher), die von Disk gelesen werden, auf.
Eine Disk bei der dieser Wert beim Lesen zunimmt deutet auf einen
langsamen aber sicheren Ausfall hin.
1
>date ; smartctl -a /dev/sdb | grep Seek_Error_Rate
2
Sat May 13 13:00:14 CEST 2023
3
  7 Seek_Error_Rate         0x000f   082   060   045    Pre-fail  Always       -       144140850
4
root@linux-kwm1:~
5
>date ; smartctl -a /dev/sdb | grep Seek_Error_Rate
6
Sat May 13 13:00:21 CEST 2023
7
  7 Seek_Error_Rate         0x000f   082   060   045    Pre-fail  Always       -       144141370
8
root@linux-kwm1:~
9
>date ; smartctl -a /dev/sdb | grep Seek_Error_Rate
10
Sat May 13 13:00:30 CEST 2023
11
  7 Seek_Error_Rate         0x000f   082   060   045    Pre-fail  Always       -       144141956

Die fast ganze Ausgabe des Befehls, s.u.
1
smartctl -a /dev/sdb
2
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.2.10-1-default] (SUSE RPM)
3
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
4
5
=== START OF INFORMATION SECTION ===
6
Model Family:     Seagate Barracuda 2.5 5400
7
Device Model:     ST2000LM015-2E8174
8
Serial Number:    WDZPQV5A
9
LU WWN Device Id: 5 000c50 0cf3875d8
10
Firmware Version: 0001
11
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
12
Sector Sizes:     512 bytes logical, 4096 bytes physical
13
Rotation Rate:    5400 rpm
14
Form Factor:      2.5 inches
15
TRIM Command:     Available
16
Device is:        In smartctl database 7.3/5319
17
ATA Version is:   ACS-3 T13/2161-D revision 3b
18
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
19
Local Time is:    Sat May 13 11:39:07 2023 CEST
20
SMART support is: Available - device has SMART capability.
21
SMART support is: Enabled
22
23
SMART Attributes Data Structure revision number: 10
24
Vendor Specific SMART Attributes with Thresholds:
25
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
26
  1 Raw_Read_Error_Rate     0x000f   076   053   006    Pre-fail  Always       -       37529113
27
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
28
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1709
29
  5 Reallocated_Sector_Ct   0x0033   100   092   036    Pre-fail  Always       -       0
30
  7 Seek_Error_Rate         0x000f   082   060   045    Pre-fail  Always       -       143929202
31
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       10610 (28 144 0)
32
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
33
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1706
34
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
35
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
36
188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       8590327814
37
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
38
190 Airflow_Temperature_Cel 0x0022   077   055   040    Old_age   Always       -       23 (Min/Max 19/23)
39
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       16
40
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       16
41
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       1238483
42
194 Temperature_Celsius     0x0022   023   045   000    Old_age   Always       -       23 (0 16 0 0 0)
43
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
44
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
45
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
46
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       6927 (134 232 0)
47
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       9950074105
48
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       15494367377
49
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0
50
51
SMART Error Log Version: 1
52
No Errors Logged


Im Gegensatz dazu sieht die Ausgabe des selben Befehls
bei einer neuen SSD (Samsung SSD 870 EVO 4TB) wie folgt aus.
1
>smartctl -a /dev/sdc
2
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.2.10-1-default] (SUSE RPM)
3
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
4
5
=== START OF INFORMATION SECTION ===
6
Model Family:     Samsung based SSDs
7
Device Model:     Samsung SSD 870 EVO 4TB
8
Serial Number:    S6BCNF0W301034L
9
LU WWN Device Id: 5 002538 f4333533f
10
Firmware Version: SVT02B6Q
11
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
12
Sector Size:      512 bytes logical/physical
13
Rotation Rate:    Solid State Device
14
Form Factor:      2.5 inches
15
TRIM Command:     Available, deterministic, zeroed
16
Device is:        In smartctl database 7.3/5319
17
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
18
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 3.0 Gb/s)
19
Local Time is:    Sat May 13 11:37:21 2023 CEST
20
SMART support is: Available - device has SMART capability.
21
SMART support is: Enabled
22
23
SMART Attributes Data Structure revision number: 1
24
Vendor Specific SMART Attributes with Thresholds:
25
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
26
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
27
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       0
28
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       2
29
177 Wear_Leveling_Count     0x0013   100   100   000    Pre-fail  Always       -       0
30
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
31
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
32
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
33
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
34
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
35
190 Airflow_Temperature_Cel 0x0032   079   059   000    Old_age   Always       -       21
36
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
37
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
38
235 POR_Recovery_Count      0x0012   100   100   000    Old_age   Always       -       0
39
241 Total_LBAs_Written      0x0032   100   100   000    Old_age   Always       -       0
40
252 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0

offenbar gibt es bei SSDs keinen SEEK Vorgang, da direkt auf einen
Speicher zugegriffen wird, so dass smartctl den auch nicht anzeigt.

Mir stellt sich nun die Frage, welchen Wert ich bei SSDs im Auge
behalten muss, um auf einen Ausfall vorzeitig vorbereitet zu sein.

Was sind Eure Erfahrungen zu der Thematik.

Markus

Sorry meine Formatierung scheint nicht richtig zu funktionieren!

[Mod: Formatierung korrigiert]

: Bearbeitet durch Moderator
von Jack V. (jackv)


Lesenswert?

Markus W. schrieb:
> Mir stellt sich nun die Frage, welchen Wert ich bei SSDs im Auge
> behalten muss, um auf einen Ausfall vorzeitig vorbereitet zu sein.

Wie bei HDDs: die mit „pre-fail“ gekennzeichneten Felder.

Im Übrigen sagt der Raw-Wert ohne interpretation wenig aus, stattdessen 
ist zu schauen, wie weit das mit „VALUE“ gekennzeichnete Feld von dem 
mit „TRESH“ entfernt ist. Wenn der momentane Wert unter die Schwelle 
fällt, kann man mit einem baldigen Ausfall rechnen.

von Mario M. (thelonging)


Lesenswert?

Markus W. schrieb:
> Der Wert 082 ist zu wie folgt zu übersetzen:
> ein Seek_Error tritt alle 10⁸·² Bytes (Bits, da bin ich mir nicht ganz
> sicher), die von Disk gelesen werden, auf.
> Eine Disk bei der dieser Wert beim Lesen zunimmt deutet auf einen
> langsamen aber sicheren Ausfall hin.

"Schon heute bedeckt der Sozialismus ein Fünftel unserer Erde! Und schon 
bald wird es ein Sechstel, ein Siebtel, ein Achtel, ein Neuntel und ein 
Zehntel sein ..."

von Markus W. (dl8mby)


Lesenswert?

@Jack V.

Was ist mit den u.g. Werten?
195 ECC_Error_Rate  0x001a   200   200   000    Old_age   Always  -    0
199 CRC_Error_Count 0x003e   100   100   000    Old_age   Always  -    0

Markus

von Markus W. (dl8mby)


Lesenswert?

@Mario M.

Sorry,
> Eine Disk bei der dieser Wert beim Lesen zunimmt deutet auf einen
> langsamen aber sicheren Ausfall hin.
muss natürlich heißen, dass die Wahrscheinlichkeit zunimmt und der
Wert, der einen Exponenten darstellt abnimmt.

So war das gemeint, wenn auch falsch formuliert.

Markus

von Jack V. (jackv)


Lesenswert?

Markus W. schrieb:
> Was ist mit den u.g. Werten?

Was soll damit sein? Offensichtlich sind die Felder noch auf 
Werkszustand (100 bzw. 200), und weit vom Threshold (0) entfernt.

von Markus W. (dl8mby)


Lesenswert?

Jack V. schrieb:
> Markus W. schrieb:
>> Was ist mit den u.g. Werten?
>
> Was soll damit sein? Offensichtlich sind die Felder noch auf
> Werkszustand (100 bzw. 200), und weit vom Threshold (0) entfernt.

Ich formuliere es anders,

was kann was aus den Werten ECC_Error_Rate, CRC_Error_Count
ablesen und wie sind sie zu interpretieren?

Da die SSD neu ist, ist klar dass die Werte Null sind.

Markus

: Bearbeitet durch User
von Jack V. (jackv)


Lesenswert?

Markus W. schrieb:
> was kann was aus den Werten ECC_Error_Rate, CRC_Error_Count
> ablesen und wie sind sie zu interpretieren?

Nix für ungut, aber von Suchmaschinen hast du gehört? Erster Treffer bei 
mir ist eine Application Note von Samsung, in der die Sachen erläutert 
werden: 
https://download.semiconductor.samsung.com/resources/others/SSD_Application_Note_SMART_final.pdf

von Markus W. (dl8mby)


Lesenswert?

@Jack V.

Danke für Deine Mühe der Suche.
Ich wollte mich mit Gleichgesinnten
hier im MC Forum austauschen.
Wenn Dir das Thema als zu unspektakulär
erscheint und Dein Interesse nicht trifft
kannst Du es ja überlesen.

Ich freue mich über sachdienliche Antworten
will und kann aber keinen dazu zwingen.

LG
Markus

von Markus W. (dl8mby)


Lesenswert?

@Jack V.

im Übrigen steht zwar im angegebenen PDF von Samsung
was die Parameter in etwa bedeuten

195 ECC Error Rate -> The percentage of ECC correctable errors.
199 CRC Error Count -> The number of Cycle Redundancy Check (CRC) 
errors. If there is a problem between the host and the SSD, the CRC 
engine will tally the error and store it in this attribute.

wie sie aber zu interpretieren sind habe ich aber auf die
Schnelle nicht gefunden.
Und das war was ich hier im Forum eigentlich erläutern und
erfahren wollte.

LG
Markus

von Jack V. (jackv)


Lesenswert?

Markus W. schrieb:
> Wenn Dir das Thema als zu unspektakulär
> erscheint und Dein Interesse nicht trifft
> kannst Du es ja überlesen.

Dein Belehren kannst du für dich behalten. Lern’ lieber ’ne Suchmaschine 
zu bedienen. Der zweite Treffer bei mir wäre ein Link zum Wiki von 
Thomas Krenn gewesen, in dem zumindest eines der beiden Felder 
ausführlich erläutert wird. Ein weiterer, gezielter Suchlauf findet 
Ähnliches für das zweite gesuchte Feld. Eine ebenfalls sehr 
empfehlenswerte Literatur wäre die Manpage zu ›smartctl‹, btw. – hilft 
sehr beim initialen Verständnis, das hier offenbar zu fehlen scheint.

Wie auch immer: die Felder beinhalten geloggte Fehler, aus denen nicht 
auf den Zustand des Devices mit Bezug auf die verbleibende Lebensdauer 
geschlossen werden kann („Old_age“).

: Bearbeitet durch User
von Markus W. (dl8mby)


Angehängte Dateien:

Lesenswert?

Lieber Jack V.,

ich behalte meistens mein Ansichten für mich und habe nicht vor
Dir Belehrungen anzubieten, genauso wie ich auf Belehrungen
Deinerseits gerne verzichte, soweit sie nicht zum Thema gehören.

Ich habe Dir meinen man page Output zu smartctl angehängt und eine
Resultat von grep mit den Schlagwörtern ECC, CRC, ERROR, RATE, COUNT, 
194, 199 auf den Text.

Du kannst Deine eigenen Schlüsse daraus ziehen, wenn Du Zeit und Lust
dafür erübrigen kannst - aber nur freiwillig - kein Zwang.

Die Materie zu Unix und Linux unterliegt ständigen Veränderungen und
man muss immer versuchen sein Wissen auf den neusten Stand zu bringen,
wenn auch es nicht immer so einfach ist.

Du kannst mir aber glauben, dass mein Arbeitgeber durchaus mein
Wissen zu der Thematik schätzt und auch teuer vergütet.
Womit sich Deine Annahme

>initialen Verständnis, das hier offenbar zu fehlen scheint

nicht zweifelsfrei belegen lässt.

Ich wünsche Dir ein schönes WE und dass Du Dein emotionales
Kostüm etwas toleranter tunest.

Markus

von Jack V. (jackv)


Lesenswert?

Markus W. schrieb:
> Die Materie zu Unix und Linux unterliegt ständigen Veränderungen und
> man muss immer versuchen sein Wissen auf den neusten Stand zu bringen,
> wenn auch es nicht immer so einfach ist.

Bei dem hier angesprochenen Thema hat sich in den letzten zehn Jahren 
nicht sehr viel geändert. Auch hat es wenig mit Linux oder gar Unix zu 
tun, sondern mit SMART. Dass es für dich neu zu sein scheint, 
widerspricht deiner Darstellung, dass ein initales Verständnis vorliegen 
würde. Dies ist mein Schluss, den ich aus deinen OT-Rechtfertigungen 
ziehe.

Markus W. schrieb:
> Du kannst mir aber glauben, dass mein Arbeitgeber durchaus mein
> Wissen zu der Thematik schätzt und auch teuer vergütet.

Ah ja – deswegen sollen andere Leute dir die Doku vorlesen? Damit dein 
Arbeitgeber es dir vergüten kann?

Nochmal: kipp die Namen der Felder in eine Suchmaschine und klicke die 
Links an. Wenn dann konkrete Fragen oder Verständnisprobleme auftreten 
sollten, kann da gerne hier weiterschauen – aber dass du von anderen 
Leuten erwartest, dir die Grundlagen darzulegen, damit du nicht selbst 
schauen musst, finde ich persönlich ein wenig dreist.

: Bearbeitet durch User
von Peter M. (r2d3)


Lesenswert?

Hallo Markus,

die SSD-Hersteller haben typischerweise ein Attribut als 
Verschleißanzeige eingerichtet. Die Zellen können ja nur eine bestimmte 
Anzahl von Schreibzyklen vertragen.

Die c't hatte mal in einem Langzeittest probiert, wie sich die SSDs 
verschiedener Hersteller denn so verhalten.

Wenn Du die SSDs nach Lebenszeitende nutzt, kannst Du zwei Reaktionen 
erwarten:

1. Totalausfall
2. Verlust der Beschreibfähigkeit bei Aufrechterhaltung der 
Lesefähigkeit


Dooferweise ist die eingangs genannte Verschleißanzeige 
herstellerübergreifend leider nicht unter einer bestimmten 
Attributnummer zu finden.

Bei Crucial habe ich z.B.
202   Percent_Lifetime_Remain
gefunden, bei Adata
169   Remaining_Lifetime_Perc
und bei WD
230   Media_Wearout_Indicator.

Große RAW-Zahlen und große Änderungen bei anderen Attributen in kurzer 
Zeit sind immer ein Alarmsignal, aber Hersteller wie z.B. Seagate 
codieren gerne mehrere Informationen in ein Attribut, mit dem Ergebnis, 
dass große RAW-Zahlen entstehen ohne dass man alarmiert sein müsste.

: Bearbeitet durch User
von Frank M. (ukw) (Moderator) Benutzerseite


Lesenswert?

Markus W. schrieb:
> Sorry meine Formatierung scheint nicht richtig zu funktionieren!

Ich habe sie gerade im Eröffnungsposting korrigiert. Im Hinweistext bei 
jedem Schreiben eines Postings sind die Code-Tags erklärt.

Da stehen eckige Klammern wie '[' und ']', um den Code einzuleiten. Du 
benutztest aber stattdessen '<' und '>'. Außerdem ist dort zum Abschluss 
des Codes der Slash angegeben (das ist der über der 7 auf der Tastatur). 
Du verwendetest aber den Backslash (neben dem ß).

von Markus W. (dl8mby)


Lesenswert?

@Frank M.

Danke für Deinen Eingriff und das zurecht Formatieren meines
Postings. Werde mir hoffentlich merken '[]' und nicht '<>'
Bei den Slashes habe ich beide probiert, was aber sinnlos war,
weil die Klammerung ja falsch war.

LG
Markus

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.