2 votes

La reconstruction du RAID1 échoue à cause d'erreurs de disque

Infos rapides : Dell R410 avec 2x500GB disques en RAID1 sur adaptateur H700

Récemment, l'un des disques de la matrice RAID1 du serveur est tombé en panne, appelons-le disque 0. Le contrôleur RAID l'a marqué comme défectueux et l'a mis hors ligne. J'ai remplacé le disque défectueux par un nouveau (même série et fabricant, juste plus grand) et j'ai configuré le nouveau disque comme disque de secours.

La reconstruction à partir du disque 1 a commencé immédiatement et après une heure et demie, j'ai reçu un message indiquant que le disque 1 avait échoué. Le serveur ne répondait plus (panique du noyau) et a dû être redémarré. Étant donné qu'une demi-heure avant cette erreur, la reconstruction était à environ 40%, j'ai estimé que le nouveau disque n'était pas encore synchronisé et j'ai essayé de redémarrer uniquement avec le disque 1.

Le contrôleur RAID s'est plaint un peu des tableaux RAID manquants, mais il a trouvé un tableau RAID étranger sur le lecteur 1 et je l'ai importé. Le serveur a démarré et il fonctionne (à partir d'un RAID dégradé).

Voici les données SMART pour les disques. Lecteur 0 (celui qui a échoué en premier)

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    1
  3 Spin_Up_Time            POS--K   142   142   021    -    3866
  4 Start_Stop_Count        -O--CK   100   100   000    -    12
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    10432
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
192 Power-Off_Retract_Count -O--CK   200   200   000    -    10
193 Load_Cycle_Count        -O--CK   200   200   000    -    1
194 Temperature_Celsius     -O---K   112   106   000    -    31
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   200   200   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   200   198   000    -    3

Et lecteur 1 (le lecteur qui a été signalé comme sain par le contrôleur jusqu'à ce que la reconstruction soit tentée)

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    35
  3 Spin_Up_Time            POS--K   143   143   021    -    3841
  4 Start_Stop_Count        -O--CK   100   100   000    -    12
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    10455
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
192 Power-Off_Retract_Count -O--CK   200   200   000    -    10
193 Load_Cycle_Count        -O--CK   200   200   000    -    1
194 Temperature_Celsius     -O---K   114   105   000    -    29
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    3
198 Offline_Uncorrectable   ----CK   100   253   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   100   253   000    -    0

Dans les journaux d'erreurs étendus de SMART, j'ai trouvé :

Le lecteur 0 n'a qu'une seule erreur

Error 1 [0] occurred at disk power-on lifetime: 10282 hours (428 days + 10 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  10 -- 51 00 18 00 00 00 6a 24 20 40 00  Error: IDNF at LBA = 0x006a2420 = 6956064

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  61 00 60 00 f8 00 00 00 6a 24 20 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 18 00 60 00 00 00 6a 24 00 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 80 00 58 00 00 00 6a 23 80 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 68 00 50 00 00 00 6a 23 18 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 10 00 10 00 00 00 6a 23 00 40 00 17d+20:25:18.104  WRITE FPDMA QUEUED

Mais le lecteur 1 a 883 erreurs. Je ne vois que quelques dernières et toutes les erreurs que je peux voir ressemblent à ceci :

Error 883 [18] occurred at disk power-on lifetime: 10454 hours (435 days + 14 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  01 -- 51 00 80 00 00 39 97 19 c2 40 00  Error: AMNF at LBA = 0x399719c2 = 966203842

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:57.802  READ FPDMA QUEUED
  2f 00 00 00 01 00 00 00 00 00 10 40 00  1d+00:25:57.779  READ LOG EXT
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:55.704  READ FPDMA QUEUED
  2f 00 00 00 01 00 00 00 00 00 10 40 00  1d+00:25:55.681  READ LOG EXT
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:53.606  READ FPDMA QUEUED

Compte tenu de ces erreurs, y a-t-il un moyen de reconstruire le RAID, ou dois-je faire une sauvegarde, arrêter le serveur, remplacer les disques par de nouveaux et le restaurer ? Qu'en est-il si je dd le disque défectueux vers le nouveau à partir de linux fonctionnant sur USB/CD ?

Par ailleurs, si quelqu'un a plus d'expérience, quelles pourraient être les causes de ces erreurs ? Un contrôleur ou des disques défectueux ? Les disques ont environ un an, mais il est assez incroyable pour moi que les deux meurent en si peu de temps.

0 votes

Le moment de faire une sauvegarde est antes de vos disques tombent en panne. D'après votre description, il est fort probable que vous ayez perdu des données.

1 votes

Qui a dit qu'il n'y avait pas de sauvegarde ? Le disque fonctionne toujours et les sauvegardes du dernier mois sont stockées sur le NAS. Je me demandais simplement s'il y avait un moyen de reconstruire le RAID même avec un disque défectueux. J'ai tenté une autre reconstruction après la mise à jour du firmware, mais elle a échoué à 98%, donc je suppose que je vais devoir réinstaller le système et restaurer à partir de la sauvegarde.

0 votes

Vous ne pouvez pas reconstruire lorsque les deux disques sont défectueux.

2voto

Magellan Points 4431

En fait, si les disques proviennent du même lot du fabricant, il n'est pas si surprenant qu'ils tombent en panne à peu près au même moment.

Ils ont eu le même processus de fabrication, le même environnement et les mêmes habitudes d'utilisation. C'est pourquoi j'essaie généralement de commander des modèles de disques identiques auprès de différents fournisseurs.

Je préfère contacter le fabricant, remplacer par des disques de meilleure qualité et restaurer à partir de la sauvegarde.

Il n'y a rien de mal à faire du DD'ing non plus, mais j'ai généralement besoin d'une mise en service rapide.

À l'époque du fiasco des Deskstars d'IBM, j'ai eu un jeu complet de 8 disques qui ont été endommagés en 6 semaines après 4 ans d'utilisation. J'ai eu du mal à m'en sortir avec mes données intactes.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X