PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : RAID-Attribute, wie auslesen?



jm83
18.12.2017, 22:07
Hallo zusammen

Ich habe ein virtualisierung-Host unter Proxmox 4.4-1/eb2d6f1e sowie dem Kernel "4.9.0-0.bpo.3-amd64" aus "jessie-backports" (nicht nachahmen, Proxmox 4.4-1 verwendet ja eigentlich einen Ubuntu-Kernel 3.x. Mit dem Debian-Jessie-Backports-Kernel 4.9.0-0.bpo.3-amd64 ist Proxmox nicht mehr fähig, funktionierende "Snapshots" zu erstellen!! -> https://forum.proxmox.com/threads/restore-failed-wrong-vma-extent-header-chechsum.33479/#post-181790 )

Als Systemfestplatte habe ich ne uralte 2.5"-SATA-Platte im Einsatz am Mainboard-SATA-Anschluss, für die Daten habe ich 2 Stk. ebenfalls gebrauchte Western Digital "Green" im Einsatz mit jeweils 1.5TB mit SW-RAID1-Verbund. Diese beiden Platten habe ich vor dem Einsatz mit dem neusten Firmware-Update ausgerüstet, zusätzlich habe ich diese "gewipt" mit dem "HDD Low Level Format Tool". (Wenn Probleme bspw. mit den Sektoren bestanden hätten, dann hätte dieses Tool sofort mit Fehlermeldungen auf den Zustand der Platten hingewiesen..)

Nun bin ich mir aber trotzdem ein wenig "unsicher", wenn ich die SMART-Werte sehe...

...die Systemplatte ist zwar nicht sooo wichtig wie der SW-RAID1-Verbund, aber trotzdem wäre es mühsam, wenn ich deswegen eines Tages das System neu installieren müsste. Da sehen die SMART-Attribute folgendermassen aus:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-0.bpo.3-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org (http://www.smartmontools.org)


=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 174 163 021 Pre-fail Always - 6258
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 81
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 058 058 000 Old_age Always - 30734
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 77
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 56
193 Load_Cycle_Count 0x0032 178 178 000 Old_age Always - 67351
194 Temperature_Celsius 0x0022 113 107 000 Old_age Always - 37
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 11
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0


Was ich klar und deutlich erkennen kann, ist dass diese schon 30734 Stunden Betriebszeit hinter sich hat (Power_On_Hours = 30734), das ergibt
- 1280.58 Tage
resp.
- 3.5 Jahre


... bei Platte 1 aus dem SW-RAID1-Verbund ist es folgendermassen:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-0.bpo.3-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org (http://www.smartmontools.org)


=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 177 166 021 Pre-fail Always - 6116
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 83
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 053 053 000 Old_age Always - 34442
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 82
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 52
193 Load_Cycle_Count 0x0032 131 131 000 Old_age Always - 208975
194 Temperature_Celsius 0x0022 114 108 000 Old_age Always - 36
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 199 000 Old_age Always - 13
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0



Betriebszeit: 34442 Stunden = 1435.08 Tage = 3.93 Jahre


... und bei Platte 2 aus dem SW-RAID1-Verbund ist es so:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-0.bpo.3-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org (http://www.smartmontools.org)


=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 100 046 Pre-fail Always - 187994
2 Throughput_Performance 0x0005 100 100 030 Pre-fail Offline - 38731776
3 Spin_Up_Time 0x0003 100 100 025 Pre-fail Always - 1
4 Start_Stop_Count 0x0032 077 077 000 Old_age Always - 114741
5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 0 (2000 0)
7 Seek_Error_Rate 0x000f 100 100 047 Pre-fail Always - 1085
8 Seek_Time_Performance 0x0005 100 100 019 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 068 068 000 Old_age Always - 16350
10 Spin_Retry_Count 0x0013 100 100 020 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 5185
182 Erase_Fail_Count_Total 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 253 253 000 Old_age Always - 0
185 Unknown_Attribute 0x0010 253 253 000 Old_age Offline - 0
186 Unknown_Attribute 0x0032 253 253 000 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 099 000 Old_age Always - 2
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 073 045 000 Old_age Always - 27 (Min/Max 20/33)
191 G-Sense_Error_Rate 0x0032 253 099 000 Old_age Always - 16580609
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 5439571
193 Load_Cycle_Count 0x0032 092 092 000 Old_age Always - 173624
195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 26
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 (0 6865)
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x000f 100 100 060 Pre-fail Always - 7311
203 Run_Out_Cancel 0x0002 100 100 000 Old_age Always - 2628612583989
240 Head_Flying_Hours 0x003e 200 200 000 Old_age Always - 0

Betriebszeit: 16350 Stunden = 685.25 Tage = 1.86 Jahre

Dass RAID kein Ersatz für ein Backup, ist mir natürlich klar. Deswegen mache ich auch 1x pro Monat ein Backup vom RAID-Verbund, auf den Laptop (immer zuhause..) oder eine ext. USB-Platte.

Ist mein System quasi ne "tickende Zeitbombe" ? ;) Ein Vorteil bei meiner Sache könnte zumindest sein, dass ich keine "hochgezüchteten" Platten verwende mit den Western Digital Green..

Präventiv die Platten wechseln, oder alles beim Status quo lassen wenn die Platten eine derart hohe Betriebszeit haben? Oder regelmässiger als nur 1x pro Monat ein Backup machen, bspw. 1x pro Woche?

Bin gespannt auf eure Vorschläge, vielen Dank! :)

jm83
18.12.2017, 22:09
Platte 2 hat scheinbar ein paar Probleme mehr, die SMART-Werte gehen von 1-240, obwohl es sich um das gleiche Modell handelt wie Platte 1. (1-200 vs. 1-240 bei den SMART-Werten..)

jm83
18.12.2017, 22:22
"Platte 2 hat scheinbar ein paar Probleme mehr, die SMART-Werte gehen von 1-240, obwohl es sich um das gleiche Modell handelt wie Platte 1. (1-200 vs. 1-240 bei den SMART-Werten..)"

Die Sache mit der 2. Platte wo die SMART-Attribute bis 240 gehen, ist falsch. Es handelt sich dabei nicht um eine Platte des RAID-Verbunds, sondern um die Systemplatte. Die ersten zwei Auflistungen sind demzufolge vom RAID-Verbund!!

/dev/sda = RAID1 HD #1
/dev/sdb = RAID1 HD #2
/dev/sdc = Systemplatte..

jm83
18.12.2017, 23:25
Und mdadm gibt mir zum RAID-Verbund folgendes aus:

/dev/md0:
Version : 1.2
Creation Time : Sun Aug 6 02:38:54 2017
Raid Level : raid1
Array Size : 1465006464 (1397.14 GiB 1500.17 GB)
Used Dev Size : 1465006464 (1397.14 GiB 1500.17 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent


Intent Bitmap : Internal


Update Time : Mon Dec 18 22:23:46 2017
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0


Name : pve:0 (local to host pve)
UUID : a7b47a1c:cd7396ea:b3976afd:d70e1f7a
Events : 12586


Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
1 8 17 1 active sync /dev/sdb1

jm83
20.12.2017, 18:22
Der Systemplatte wird's wohl nicht mehr all zu gut gehen...?

P.S.: Wohl nicht mehr viel los hier im Forum, so wie's den Eindruck macht??