45 votes

Comment dois-je graver des disques durs?

Google a réalisé une étude très approfondie sur les défaillances des disques durs qui a révélé qu'une partie importante des disques durs tombent en panne dans les premiers 3 mois d'utilisation intensive.

Mes collègues et moi envisageons de mettre en place un processus de préchauffage pour tous nos nouveaux disques durs qui pourrait potentiellement nous éviter bien des tracas en évitant de perdre du temps sur de nouveaux disques non testés. Avant de mettre en place un processus de préchauffage, nous aimerions obtenir des avis de personnes plus expérimentées :

  • À quel point est-il important de préchauffer un disque dur avant de commencer à l'utiliser ?
  • Comment mettez-vous en place un processus de préchauffage ?
    • Combien de temps faites-vous préchauffer un disque dur ?
    • Quel logiciel utilisez-vous pour préchauffer les disques ?
  • Combien de stress est trop pour un processus de préchauffage ?

ÉDIT : En raison de la nature de l'activité, les RAIDs sont impossibles à utiliser la plupart du temps. Nous devons nous appuyer sur des disques uniques qui sont souvent envoyés à travers le pays. Nous sauvegardons les disques dès que possible, mais nous rencontrons quand même des pannes de temps en temps avant d'avoir une chance de sauvegarder les données.

MISE À JOUR

Ma société a mis en place un processus de préchauffage depuis un moment maintenant, et il s'est avéré extrêmement utile. Nous préchauffons immédiatement tous les nouveaux disques que nous recevons en stock, ce qui nous permet de trouver de nombreuses erreurs avant l'expiration de la garantie et avant de les installer dans de nouveaux systèmes informatiques. Il s'est également avéré utile pour vérifier qu'un disque est défectueux. Lorsqu'un de nos ordinateurs commence à rencontrer des erreurs et qu'un disque dur est le principal suspect, nous relançons le processus de préchauffage sur ce disque et examinons les erreurs pour nous assurer que le disque était effectivement le problème avant de commencer le processus de RMA ou de le jeter à la poubelle.

Notre processus de préchauffage est simple. Nous avons un système Ubuntu désigné avec de nombreux ports SATA, et nous exécutons badblocks en mode lecture/écriture avec 4 passes sur chaque disque. Pour simplifier les choses, nous avons écrit un script qui affiche un avertissement "LES DONNÉES SERONT EFFACÉES DE TOUS VOS DISQUES" puis lance badblocks sur chaque disque, sauf le disque système.

15 votes

Curieusement, pourquoi envoyez-vous les disques à travers le pays? Il semble que vous avez plus de chances de rencontrer une défaillance de disque en raison d'une perte de choc et de manipulation générale par le service postal que pour des raisons qu'un burn-in détecterait.

0 votes

Est-ce que ces disques finissent dans des serveurs ou des ordinateurs de bureau ?

0 votes

Pourquoi ne pas opter pour une paire de connexions Internet très haut débit et un outil de duplication des données (par exemple, rsync) ? Si vous avez besoin de sécurité, SSH fera l'affaire. Et pourquoi ne pas opter pour un ensemble de disques Blu-ray quad-couche de 128 Go ou des SSD ? Je pense juste que vous pourriez utiliser un processus non optimal en premier lieu si vous avez vraiment besoin d'envoyer fréquemment des disques durs par la poste. Je ne trouve pas de cas d'utilisation valide où l'envoi de disques durs est la solution optimale. Et l'étude de Google serait trompeuse dans votre cas d'utilisation, car leur étude ne concernait pas les cas où les disques sont fréquemment envoyés par la poste.

49voto

MikeyB Points 38317

À mon avis, vous ne devriez pas vous fier à un processus de rodage pour éliminer les mauvais disques et "protéger" vos données. Développer cette procédure et la mettre en œuvre prendra du temps qui pourrait être mieux utilisé ailleurs et même si un disque passe le rodage, il pourrait quand même échouer des mois plus tard.

Vous devriez utiliser le RAID et les sauvegardes pour protéger vos données. Une fois que c'est en place, laissez-le s'occuper des disques. Les bons contrôleurs RAID et sous-systèmes de stockage auront des processus de "scrubbing" qui passent régulièrement sur les données et s'assurent que tout va bien.

Une fois que tout cela est pris en charge, il n'est pas nécessaire de faire du scrubbing de disque, bien que comme d'autres l'ont mentionné, il ne fait pas de mal de faire un test de charge du système pour vous assurer que tout fonctionne comme prévu. Je ne me soucierais pas du tout des disques individuels.


Comme cela a été mentionné dans les commentaires, il n'est pas très logique d'utiliser des disques durs pour votre cas d'utilisation particulier. Les expédier est beaucoup plus susceptible de causer des erreurs de données qui n'étaient pas présentes lors du rodage.

Les supports de bande sont conçus pour être expédiés. Vous pouvez obtenir 250MBps (ou jusqu'à 650MBps compressés) avec un seul lecteur IBM TS1140, ce qui devrait être plus rapide que votre disque dur. Et plus grand aussi - une seule cartouche peut vous donner jusqu'à 4 To (non compressé).

Si vous ne voulez pas utiliser de bande, utilisez des SSD. Ils peuvent être traités beaucoup plus rudement que les disques durs et répondre à toutes les exigences que vous avez données jusqu'à présent.


Après tout cela, voici mes réponses à vos questions :

  • Quelle est l'importance de roder un disque dur avant de commencer à l'utiliser ?
    Pas du tout.
  • Comment mettez-vous en œuvre un processus de rodage ?
    • Pendant combien de temps roder un disque dur ?
      Une ou deux séances.
    • Quel logiciel utilisez-vous pour roder des disques ?
      Une simple exécution de, disons, shred et badblocks fera l'affaire. Vérifiez les données SMART par la suite.
  • Quel est le niveau de stress acceptable pour un processus de rodage ?
    Aucun niveau de stress n'est trop élevé. Vous devriez pouvoir lancer n'importe quoi sur un disque sans qu'il explose.

1 votes

Mon seul regret à propos de ce post, c'est que je ne peux le voter qu'une seule fois. @Phil, tu réinventes la roue là. La façon de vous assurer de ne pas perdre de données à cause de défaillances de disque aléatoires (ou autres matériels connexes) sont les sauvegardes et les baies RAID.

9 votes

Je suis d'accord que vous ne devriez pas vous fier uniquement à cela, mais l'exécution d'une analyse sur un system avant sa mise en production a identifié un problème potentiel pour moi à quelques reprises. Si vous n'êtes pas pressé, laisser un ordinateur s'analyser lui-même pendant un jour ou deux ne nuit généralement pas à grand-chose.

8 votes

Cette réponse a le plus de votes, mais n'a en réalité pas répondu à la question de manière satisfaisante. Le demandeur a affirmé que les RAIDs sont impossibles. Si des "disques individuels sont envoyés par courrier à travers le pays", alors un raid ne peut pas être construit. Un processus de sauvegarde est en place, mais il semble que le demandeur cherche tout et n'importe quoi pour gagner du temps en cas de défaillance d'un disque. (Note : Je travaille pour la même entreprise que le demandeur, donc je connais la situation, les données sont copiées sur un RAID une fois qu'elles sont livrées) Si vous DEVIEZ graver des disques, hypothétiquement, comment le feriez-vous ?

38voto

jammus Points 1796

Quelle est l'importance de graver un disque dur avant de commencer à l'utiliser?

Si vous avez une bonne sauvegarde et de bons systèmes haute disponibilité, alors pas vraiment. Puisque la restauration après une défaillance devrait être assez facile.

Comment mettez-vous en œuvre un processus de gravure? Quel logiciel utilisez-vous pour graver des disques? Quel niveau de stress est trop élevé pour un processus de gravure?

Je lance généralement badblocks contre un disque ou un nouveau système lorsque je l'obtiens. Je le lance chaque fois que je ressuscite un ordinateur du tas de pièces détachées. Une commande comme celle-ci (badblocks -c 2048 -sw /dev/sde) écrira en fait sur chaque bloc 4 fois à chaque fois avec un motif différent (0xaa, 0x55, 0xff, 0x00). Ce test ne fait rien pour tester de nombreuses lectures/écritures aléatoires, mais il devrait prouver que chaque bloc peut être écrit et lu.

Vous pourriez également exécuter bonnie++, ou iometer qui sont des outils de test de performance. Ceux-ci devraient essayer de stresser un peu vos disques. Les disques ne devraient pas échouer même si vous essayez de les solliciter au maximum. Autant essayer de voir ce qu'ils peuvent faire. Je ne le fais pas cependant. Obtenir une mesure de performance d'E/S de votre système de stockage dès l'installation/mise en place peut être très utile à l'avenir lorsque vous rencontrez des problèmes de performance.

Combien de temps gravez-vous un disque dur?

Une seule exécution de badblocks suffit à mon avis, mais je crois avoir un très bon système de sauvegarde et mes besoins en haute disponibilité ne sont pas si élevés. Je peux me permettre un peu de temps d'arrêt pour restaurer le service sur la plupart des systèmes que je prends en charge. Si vous êtes tellement inquiet que vous pensez qu'une configuration multi-passes pourrait être nécessaire, alors vous devriez probablement avoir un RAID, de bonnes sauvegardes et une bonne configuration de haute disponibilité de toute façon.

Si je suis pressé, je peux sauter l'étape de gravure. Mes sauvegardes et mon RAID devraient aller.

8voto

tylerl Points 14785

Compte tenu de votre clarification, il ne semble pas qu'un processus de rodage vous soit utile. Les lecteurs tombent en panne principalement en raison de facteurs mécaniques, généralement la chaleur et les vibrations ; pas à cause d'une sorte de bombe à retardement cachée. Un processus de "rodage" teste l'environnement d'installation autant que tout autre chose. Une fois que vous déplacez la chose, vous revenez à votre point de départ.

Mais voici quelques conseils qui pourraient vous aider :

Les disques durs d'ordinateur portable sont généralement conçus pour résister à plus de secousses et de vibrations que les disques durs de bureau. Mes amis qui travaillent dans des magasins de récupération de données envoient toujours des données à des clients sur des disques durs d'ordinateur portable pour cette raison. Je n'ai jamais testé ce fait, mais il semble être une "connaissance commune" dans certaines industries.

Les clés USB (par exemple, les clés USB) sont parmi les supports les plus résistants aux chocs que vous trouverez. Il devrait être encore moins probable que vous perdiez des données en transit si vous utilisez des supports Flash.

Si vous expédiez un disque Winchester, effectuez un balayage de surface avant de le mettre en service. Ou mieux encore, ne l'utilisez tout simplement pas. Au lieu de cela, vous pouvez désigner certains lecteurs comme des lecteurs "d'expédition", qui subissent tous les mauvais traitements, mais sur lesquels vous ne comptez pas pour l'intégrité des données. (c'est-à-dire : copiez les données sur le lecteur pour l'expédition, copiez-les après l'expédition, vérifiez les sommes de contrôle des deux côtés, ce genre de choses).

0 votes

"Une fois que vous déplacez la chose, vous revenez à votre point de départ." - pas vrai. Voici à quoi ressemble un graphique MTTF pour un disque : cs.cmu.edu/~bianca/fast/img13.png cs.ucla.edu/classes/spring09/cs111/scribe/16/… tester pendant la période initiale peut éliminer de nombreux disques problématiques, les fabricants réalisent en fait ces tests de stress pour fabriquer des produits plus fiables mais bien sûr il n'est pas économique de faire le test jusqu'à ce que le graphique se stabilise.

3 votes

@yi_H: Je pense que tylerl implique que probablement la cause de l'échec précoce est due au processus d'expédition lui-même (ce qui n'est pas improbable, j'aimerais voir un graphique traçant la défaillance des disques par rapport à la fréquence d'envoi), donc si vous expédiez un disque dur à travers le pays, alors le MTTF sera réinitialisé; donc si vous envoyez un disque tous les trois mois, vous êtes toujours dans la zone de défaillance précoce.

7voto

Aaron C. de Bruyn Points 579

Je ne suis pas d'accord avec toutes les réponses qui suggèrent essentiellement "Ne vous embêtez pas avec le burn-in, ayez de bonnes sauvegardes".

Alors que vous devriez toujours avoir des sauvegardes, j'ai passé 9 heures hier (en plus de mon service habituel de 10 heures) à restaurer à partir des sauvegardes parce que le système fonctionnait avec des disques qui n'avaient pas été rodés.

Il y avait 6 disques dans une configuration RAIDZ2 (équivalent ZFS à RAID-6) et nous avons eu 3 disques qui sont morts dans un délai de 18 heures sur une machine qui tournait depuis environ 45 jours.

La meilleure solution que j'ai trouvée est d'acheter des disques d'un fabricant particulier (ne pas mélanger), puis d'exécuter leur outil fourni pour exercer les disques.

Dans notre cas, nous achetons Western Digital et utilisons leurs diagnostics de disque basés sur DOS à partir d'un ISO bootable. Nous le lançons, exécutons l'option d'écriture de données aléatoires sur tout le disque, puis exécutons le test SMART court suivi du test SMART long. C'est généralement suffisant pour détecter tous les secteurs défectueux, les réallouements de lecture/écriture, etc...

J'essaie encore de trouver un moyen décent de le faire en 'batch' pour pouvoir l'exécuter sur 8 disques à la fois. Je pourrais simplement utiliser 'dd if=/dev/urandom of=/dev/whatever' sous Linux ou 'badblocks'.

EDIT : J'ai trouvé une manière plus agréable de le faire en 'batch'. J'ai enfin mis en place un serveur de démarrage PXE sur notre réseau pour répondre à un besoin particulier, et j'ai remarqué que l'Ultimate Boot CD peut être démarré en PXE. Nous avons maintenant quelques machines obsolètes qui traînent et peuvent démarrer en PXE pour exécuter des diagnostics de disque.

3 votes

Qu'est-ce que tu sais? Une réponse qui répond à la question sans prêcher à l'OP. +1

3 votes

Si vous voulez des données aléatoires à écrire sur le lecteur, ne lisez pas à partir de /dev/urandom ; ce n'est pas aussi lent que son cousin bloquant /dev/random, mais c'est quand même lent, et cela ne vous apporte pas grand chose. Au lieu de cela, configurez un simple mappage dm-crypt avec une clé aléatoire (que vous pouvez obtenir à partir de /dev/urandom ou /dev/random) et ensuite utilisez simplement dd /dev/zero dans le périphérique mappé. Il sera probablement deux fois plus rapide et même à l'ordre de grandeur plus rapide. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentlyAskedQuesti‌​ons "Comment puis-je effacer un dispositif avec de l'aléatoire de qualité cryptographique?" a un exemple de comment faire cela.

0 votes

Excellente suggestion @MichaelKjörling

5voto

David Schlosnagle Points 2113

Votre processus est incorrect. Vous devriez utiliser des arrays RAID. Là où je travaille, nous avons fabriqué des arrays RAID renforcés conçus pour être transportés. Ce n'est pas de la physique nucléaire.

Le montage antichoc des disques dans des boîtiers surdimensionnés avec de gros isolateurs de vibration en caoutchouc améliorera considérablement la fiabilité. (Les disques Seagate constellation-es, par exemple, sont conçus pour des chocs de 300G mais seulement 2G de vibration, non en fonctionnement : donc le boîtier d'expédition doit isoler les vibrations du disque. http://www.novibes.com/Products&productID=62 ou http://www.novibes.com/Products&productId=49 [référence #50178])


Cependant, si vous voulez vraiment tester les disques durs en burn-in, voici ce qu'il faut faire.

J'ai travaillé sur des systèmes comme des disques durs et j'ai trouvé des problèmes mais...

Pour des tests accélérés du cycle de vie des PCB pour révéler les défauts, rien ne vaut quelques cycles chauds/froids. (les cycles chauds-froids en fonctionnement fonctionnent encore mieux... mais c'est plus difficile à réaliser pour vous, surtout avec des banques de disques durs)

Procurez-vous une chambre environnementale suffisamment grande pour le nombre de disques que vous acquérez à la fois. (Ces équipements sont assez chers, il serait moins cher de transporter des arrays RAID) Vous ne pouvez pas lésiner sur les chambres de test, vous aurez besoin de contrôle de l'humidité et de rampes programmables.

Programmez deux rampes de température répétées, descendez jusqu'à la température de stockage minimale, montez jusqu'à la température de stockage maximale, faites en sorte que les rampes soient assez raides pour déstabiliser l'ingénieur d'application de votre fabricant de disques durs. 3 cycles froids-chauds en 12 heures devraient faire échouer les disques assez rapidement. Faites fonctionner les disques au moins 12 heures de cette manière. Si l'un d'entre eux fonctionne ensuite, je serai surpris.

Je n'ai pas inventé ça : Dans un endroit où j'ai travaillé, un ingénieur de production a fait cela pour expédier plus de produits avec le même équipement de test, il y a eu un énorme pic de défauts en test, mais le taux de mort à l'arrivée est pratiquement tombé à zéro.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X