Infos rapides : Dell R410 avec 2x500GB disques en RAID1 sur adaptateur H700
Récemment, l'un des disques de la matrice RAID1 du serveur est tombé en panne, appelons-le disque 0. Le contrôleur RAID l'a marqué comme défectueux et l'a mis hors ligne. J'ai remplacé le disque défectueux par un nouveau (même série et fabricant, juste plus grand) et j'ai configuré le nouveau disque comme disque de secours.
La reconstruction à partir du disque 1 a commencé immédiatement et après une heure et demie, j'ai reçu un message indiquant que le disque 1 avait échoué. Le serveur ne répondait plus (panique du noyau) et a dû être redémarré. Étant donné qu'une demi-heure avant cette erreur, la reconstruction était à environ 40%, j'ai estimé que le nouveau disque n'était pas encore synchronisé et j'ai essayé de redémarrer uniquement avec le disque 1.
Le contrôleur RAID s'est plaint un peu des tableaux RAID manquants, mais il a trouvé un tableau RAID étranger sur le lecteur 1 et je l'ai importé. Le serveur a démarré et il fonctionne (à partir d'un RAID dégradé).
Voici les données SMART pour les disques. Lecteur 0 (celui qui a échoué en premier)
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-K 200 200 051 - 1
3 Spin_Up_Time POS--K 142 142 021 - 3866
4 Start_Stop_Count -O--CK 100 100 000 - 12
5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0
7 Seek_Error_Rate -OSR-K 200 200 000 - 0
9 Power_On_Hours -O--CK 086 086 000 - 10432
10 Spin_Retry_Count -O--CK 100 253 000 - 0
11 Calibration_Retry_Count -O--CK 100 253 000 - 0
12 Power_Cycle_Count -O--CK 100 100 000 - 11
192 Power-Off_Retract_Count -O--CK 200 200 000 - 10
193 Load_Cycle_Count -O--CK 200 200 000 - 1
194 Temperature_Celsius -O---K 112 106 000 - 31
196 Reallocated_Event_Count -O--CK 200 200 000 - 0
197 Current_Pending_Sector -O--CK 200 200 000 - 0
198 Offline_Uncorrectable ----CK 200 200 000 - 0
199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0
200 Multi_Zone_Error_Rate ---R-- 200 198 000 - 3
Et lecteur 1 (le lecteur qui a été signalé comme sain par le contrôleur jusqu'à ce que la reconstruction soit tentée)
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-K 200 200 051 - 35
3 Spin_Up_Time POS--K 143 143 021 - 3841
4 Start_Stop_Count -O--CK 100 100 000 - 12
5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0
7 Seek_Error_Rate -OSR-K 200 200 000 - 0
9 Power_On_Hours -O--CK 086 086 000 - 10455
10 Spin_Retry_Count -O--CK 100 253 000 - 0
11 Calibration_Retry_Count -O--CK 100 253 000 - 0
12 Power_Cycle_Count -O--CK 100 100 000 - 11
192 Power-Off_Retract_Count -O--CK 200 200 000 - 10
193 Load_Cycle_Count -O--CK 200 200 000 - 1
194 Temperature_Celsius -O---K 114 105 000 - 29
196 Reallocated_Event_Count -O--CK 200 200 000 - 0
197 Current_Pending_Sector -O--CK 200 200 000 - 3
198 Offline_Uncorrectable ----CK 100 253 000 - 0
199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0
200 Multi_Zone_Error_Rate ---R-- 100 253 000 - 0
Dans les journaux d'erreurs étendus de SMART, j'ai trouvé :
Le lecteur 0 n'a qu'une seule erreur
Error 1 [0] occurred at disk power-on lifetime: 10282 hours (428 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER -- ST COUNT LBA_48 LH LM LL DV DC
-- -- -- == -- == == == -- -- -- -- --
10 -- 51 00 18 00 00 00 6a 24 20 40 00 Error: IDNF at LBA = 0x006a2420 = 6956064
Commands leading to the command that caused the error were:
CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name
-- == -- == -- == == == -- -- -- -- -- --------------- --------------------
61 00 60 00 f8 00 00 00 6a 24 20 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 18 00 60 00 00 00 6a 24 00 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 80 00 58 00 00 00 6a 23 80 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 68 00 50 00 00 00 6a 23 18 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 10 00 10 00 00 00 6a 23 00 40 00 17d+20:25:18.104 WRITE FPDMA QUEUED
Mais le lecteur 1 a 883 erreurs. Je ne vois que quelques dernières et toutes les erreurs que je peux voir ressemblent à ceci :
Error 883 [18] occurred at disk power-on lifetime: 10454 hours (435 days + 14 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER -- ST COUNT LBA_48 LH LM LL DV DC
-- -- -- == -- == == == -- -- -- -- --
01 -- 51 00 80 00 00 39 97 19 c2 40 00 Error: AMNF at LBA = 0x399719c2 = 966203842
Commands leading to the command that caused the error were:
CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name
-- == -- == -- == == == -- -- -- -- -- --------------- --------------------
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:57.802 READ FPDMA QUEUED
2f 00 00 00 01 00 00 00 00 00 10 40 00 1d+00:25:57.779 READ LOG EXT
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:55.704 READ FPDMA QUEUED
2f 00 00 00 01 00 00 00 00 00 10 40 00 1d+00:25:55.681 READ LOG EXT
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:53.606 READ FPDMA QUEUED
Compte tenu de ces erreurs, y a-t-il un moyen de reconstruire le RAID, ou dois-je faire une sauvegarde, arrêter le serveur, remplacer les disques par de nouveaux et le restaurer ? Qu'en est-il si je dd le disque défectueux vers le nouveau à partir de linux fonctionnant sur USB/CD ?
Par ailleurs, si quelqu'un a plus d'expérience, quelles pourraient être les causes de ces erreurs ? Un contrôleur ou des disques défectueux ? Les disques ont environ un an, mais il est assez incroyable pour moi que les deux meurent en si peu de temps.
0 votes
Le moment de faire une sauvegarde est antes de vos disques tombent en panne. D'après votre description, il est fort probable que vous ayez perdu des données.
1 votes
Qui a dit qu'il n'y avait pas de sauvegarde ? Le disque fonctionne toujours et les sauvegardes du dernier mois sont stockées sur le NAS. Je me demandais simplement s'il y avait un moyen de reconstruire le RAID même avec un disque défectueux. J'ai tenté une autre reconstruction après la mise à jour du firmware, mais elle a échoué à 98%, donc je suppose que je vais devoir réinstaller le système et restaurer à partir de la sauvegarde.
0 votes
Vous ne pouvez pas reconstruire lorsque les deux disques sont défectueux.