42 votes

Est-ce que mon disque dur est en train de tomber en panne?

J'ai juste essayé de lancer un test sur mon disque dur et il ne veut pas terminer un auto-test. Voici le résultat:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (compilation locale)

=== DÉBUT DE LA SECTION DES DONNÉES ATTRIBUTS SMART ===
Structure des données des attributs SMART révision: 16
Attributs SMART spécifiques au vendeur avec seuils:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pré-échec Toujours       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pré-échec Toujours       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Ancien âge Toujours       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pré-échec Toujours       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Ancien âge Toujours       -       28
  9 Power_On_Hours          0x0032   090   090   000    Ancien âge Toujours       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Ancien âge Toujours       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Ancien âge Toujours       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Ancien âge Toujours       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Ancien âge Toujours       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Ancien âge Toujours       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Ancien âge Toujours       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Ancien âge Toujours       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Ancien âge Toujours       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Ancien âge Toujours       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Ancien âge Uniquement à l'arrêt       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Ancien âge Toujours       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Ancien âge Uniquement à l'arrêt       -       0

Structure de journal d'auto-test SMART révision numéro 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Terminé: échec de lecture       90%      7432         92290592
# 2  Conveyance offline  Terminé: échec de lecture       90%      7432         92290596
# 3  Conveyance offline  Terminé: échec de lecture       90%      7432         92290592
# 4  Short offline       Terminé: échec de lecture       90%      7431         92290596
# 5  Extended offline    Terminé: échec de lecture       90%      7431         92290592

Alors est-ce que ce disque est en train de tomber en panne?

44voto

MadHatter Points 77602

Votre disque dur est très heureux de faire un auto-test; selon le résumé, il en a fait plus de cinq au cours de la dernière heure. Et tous ont échoué, très tôt dans le test, avec des erreurs de lecture.

Oui, ce disque dur est en train de tomber en panne. Comme l'a dit le célèbre rapport de Google Labs (bien que je ne puisse pas mettre la main sur un lien pour le moment), si smartctl indique que votre disque dur est en train de tomber en panne, c'est probablement le cas (je paraphrase).

Éditer: ne pas essayer de le sauver. Récupérez toutes les données et remplacez-le.

10voto

user76226 Points 121

Pour répondre à votre question, un test SMART échoué est une indication évidente d'une défaillance imminente du disque. Vous devriez sauvegarder vos données et remplacer le disque dès que possible pour éviter toute perte éventuelle de données.

@sj0h a mentionné le Compteur de cycles de chargement, qui est très élevé à 447 630. (La plupart des disques durs modernes sont conçus pour résister à 600 000 cycles de chargement/déchargement.) Cela est généralement causé par la fonction de gestion avancée de l'alimentation (APM), qui cherche à économiser de l'énergie en mettant en veille les têtes (les déchargeant des plateaux) après plusieurs secondes d'inactivité. Les têtes sont remises sur les plateaux en cas de besoin. Sur la plupart des systèmes, où les disques durs ont une activité intermittente, cela peut entraîner de nombreux cycles de chargement/déchargement. Pour désactiver l'APM, exécutez la commande suivante en tant que root :

smartctl -s apm,off /dev/sda

Cette commande devra être exécutée chaque fois que le système est redémarré ou mis en veille ou que le disque est éteint, car ce paramètre n'est pas conservé lorsque le disque est éteint.

D'après mon expérience, cela réduira considérablement le nombre de cycles de chargement/déchargement et par conséquent les chances que vous rencontriez ce type de défaillance à l'avenir. Notez cependant que cela augmente la consommation d'énergie et la température du disque. Si le disque fonctionne constamment à des températures supérieures à 50 °C, le risque de défaillance prématurée est accru, vous voudrez peut-être laisser l'APM activé (ou l'activer s'il est désactivé) pendant les mois les plus chauds.

2voto

Luis Medel Points 293

En plus des échecs de lecture, considérez également le compteur de cycles de charge. À près de 500 000, cela peut indiquer une raison de panne, ou du moins une usure élevée des cycles de charge. Il y a un cycle de charge pour chaque minute de mise sous tension. Après avoir remplacé le lecteur, assurez-vous que le nouveau lecteur ne fait pas la même chose.

2voto

Jorge Nerín Points 1118

Oui, vous avez 16 secteurs illisibles, vous avez essayé de faire plusieurs tests qui ont tous échoué dans à peu près la même zone du disque, donc, sauvegardez vite, mais gardez à l'esprit que vous avez déjà des données inaccessibles maintenant qui se trouvent aux alentours des secteurs 92290592, 92290596.

Vous pourriez avoir d'autres zones problématiques, vous ne savez toujours pas si ces 16 secteurs sont consécutifs ou dispersés, si vous voulez jouer après la sauvegarde, vous pouvez faire un test sélectif avec -t select, startlba-endlba.

Current_Pending_Sector signifie que le firmware du disque dur a tenté de le lire, mais n'a pas réussi, il essaiera quelques fois de plus (chaque fois que le système d'exploitation le demandera) jusqu'à ce qu'il échoue et le marque comme Offline_Uncorrectable, ou il substituera le secteur endommagé par un autre secteur de rechange si le système d'exploitation écrit dedans (augmentant ainsi le Reallocated_Sector_Ct lorsqu'il le fait).

1voto

Je remplacerais personnellement le disque. Si, pour une raison quelconque, vous ne souhaitez pas le faire encore, mais préférez continuer à utiliser le disque pendant un certain temps, vous devez trouver un moyen de vous assurer de ne pas utiliser accidentellement les zones défectueuses pour de nouveaux fichiers.

J'ai eu un tel disque sur un ancien Mac qui enregistrait simplement des vidéos, et j'ai décidé que je ne voulais pas le remplacer tout de suite, car les vidéos étaient simplement agréables à avoir. Alors j'ai dû isoler les erreurs. D'abord, j'ai créé un dossier vide uniquement pour les fichiers défectueux, puis j'ai essayé de lire tous les fichiers existants sur le disque et ceux avec des erreurs ont été déplacés vers le dossier des fichiers défectueux (espérons-le seulement des fichiers non importants).

Ensuite, j'ai créé beaucoup de fichiers d'un mégaoctet portant des noms uniques pour remplir le disque dur (de sorte que tout l'espace vide se retrouve dans l'un de ces fichiers de 1 Mo) et j'ai répété la procédure. Tous les fichiers comportant des erreurs ont été déplacés vers le dossier des fichiers défectueux, et ceux qui restaient étaient bons et pouvaient être supprimés afin de récupérer l'espace défectueux.

Vous pouvez maintenant utiliser le disque un peu plus longtemps, mais ne l'utilisez pas pour des choses importantes. Il va finir par tomber en panne davantage et ce sera probablement gênant quand cela se produira.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X