98 votes

Est-il préférable d'acheter les disques RAID à l'unité ou en vrac ?

Cette question peut sembler étrange, mais elle a suscité des discussions animées avec certains de mes collègues. Prenons l'exemple d'une matrice RAID de taille moyenne composée de huit ou douze disques. Lors de l'achat du lot initial de disques, ou de l'achat de disques de remplacement pour agrandir la matrice ou rafraîchir le matériel, il existe deux grandes approches possibles :

  1. Achetez tous les disques en une seule commande auprès d'un seul fournisseur, et recevez une grande boîte contenant tous les disques.
  2. Commandez un disque à l'unité auprès de plusieurs fournisseurs et/ou répartissez (sur plusieurs jours ou semaines) plusieurs commandes d'un disque à l'unité.

Il y a évidemment un terrain d'entente, mais ce sont les principales mentalités qui s'opposent. Je suis sincèrement curieux de savoir quelle approche est la plus raisonnable en termes de réduction du risque de défaillance catastrophique de la matrice. (Définissons cela comme "25% des disques tombent en panne dans une fenêtre de temps égale au temps qu'il faut pour réarmer la matrice une fois"). La logique étant que, si tous les disques proviennent du même endroit, ils pourraient tous avoir les mêmes défauts sous-jacents attendant de frapper. La même bombe à retardement avec le même compte à rebours initial sur l'horloge, si vous voulez.

J'ai rassemblé quelques-uns des avantages et des inconvénients les plus courants de chaque approche, mais certains d'entre eux relèvent de la conjecture et de l'instinct au lieu de données concrètes fondées sur des preuves.

Achetez tout en une fois, les pros

  • Moins de temps passé dans la phase de recherche/de commande.
  • Minimise les frais d'expédition si le vendeur les prend en charge.
  • Les disques sont pratiquement garantis d'avoir la même version de firmware et les mêmes "bizarreries" dans leurs caractéristiques opérationnelles (température, vibration, etc.).
  • Les augmentations de prix/les ruptures de stock risquent de bloquer le projet à mi-chemin.
  • Chaque disque suivant est disponible au moment où il doit être installé.
  • Les numéros de série sont tous connus à l'avance, les disques peuvent être installés dans le boîtier par ordre croissant de numéro de série. Cela semble trop compliqué, mais certaines personnes semblent y attacher de l'importance. (Je suppose que leur interface de gestion trie les disques par numéro de série au lieu de l'ordre des ports matériels...).

Achetez tout en une fois, contre

  • Tous les disques proviennent (probablement) de la même usine, ont été fabriqués au même moment, avec les mêmes matériaux. Ils ont été stockés dans le même environnement, et soumis aux mêmes abus potentiels pendant le transit. Tout défaut ou dommage présent sur un disque est probablement présent sur tous.
  • Si les disques sont remplacés un par un dans une matrice existante et que chaque nouveau disque doit être réarticulé individuellement, il peut s'écouler des semaines avant que le dernier disque de la commande soit installé et qu'on découvre qu'il est défectueux. La fenêtre de retour/remplacement avec le fournisseur peut expirer pendant cette période.
  • Impossible de profiter des baisses de prix à court terme qui pourraient survenir pendant le projet.

Achetez à l'unité, pros

  • Si un disque tombe en panne, il partage très peu d'historique de fabrication/transit avec les autres disques. Si la défaillance a été causée par quelque chose au cours de la fabrication ou du transport, la cause première ne s'est probablement pas produite sur un autre disque.
  • Si un disque est mort à l'arrivée ou tombe en panne pendant les premières heures d'utilisation, cela sera détecté peu après l'arrivée de l'envoi et le processus de retour pourra se dérouler plus facilement.

Acheter à l'unité, contre

  • Il faut beaucoup de temps pour trouver suffisamment de vendeurs à des prix acceptables. Le suivi des commandes, les échecs de livraison, les retours d'articles endommagés et d'autres problèmes peuvent prendre beaucoup de temps à résoudre.
  • Des frais d'expédition potentiellement plus élevés.
  • Il est fort possible qu'un nouveau disque soit nécessaire mais qu'aucun ne soit disponible, ce qui bloque le projet.
  • Avantage imaginé. Indépendamment du vendeur ou de la date d'achat, tous les disques proviennent du même endroit et sont réellement les mêmes. Les défauts de fabrication auraient été détectés par le contrôle de la qualité et les disques de qualité inférieure n'auraient pas été vendus. Les dommages liés à l'expédition doivent être si importants (et visibles à l'œil nu) que les disques endommagés sont évidents dès le déballage.

Si l'on s'en tient au nombre de points, "acheter en gros" l'emporte assez nettement. Mais certains des avantages sont faibles, et certains des inconvénients sont forts. De nombreux points ne font qu'énoncer l'inverse logique de certains autres. Certaines de ces choses peuvent être des superstitions absurdes. Mais si la superstition permet de mieux maintenir l'intégrité du tableau, je suppose que je suis prêt à l'accepter.

Quel groupe est le plus sensé ici ?

UPDATE J'ai des données pertinentes pour cette discussion. La dernière matrice que j'ai personnellement construite (il y a environ quatre ans) comportait huit disques. J'ai commandé auprès d'un seul fournisseur, mais j'ai divisé l'achat en deux commandes de quatre disques chacune, à environ un mois d'intervalle. Un disque de la matrice est tombé en panne dès les premières heures de fonctionnement. Il faisait partie du premier lot, et la fenêtre de retour pour cette commande s'était refermée le temps de tout faire tourner.

Quatre ans plus tard, les sept disques d'origine plus un de remplacement fonctionnent toujours sans erreur. (on touche du bois.)

7 votes

+1 de ma part pour la question, car je voulais moi-même la connaître depuis un certain temps. J'ai définitivement J'ai vu le phénomène des disques durs des gros serveurs de fichiers qui arrivent tous à la fin de la courbe de la baignoire à peu près en même temps, mais souvent le nombre de fournisseurs agréés pour ces serveurs est assez faible, donc l'approche "acheter à plusieurs endroits" est assez difficile. Je suis impatient de voir les réponses avec données réelles en eux.

0 votes

@MadHatter : Je suis avec vous sur ce point, mais je ne suis pas au courant de données concrètes concernant cette question et jusqu'à ce que nous obtenions cela, ce n'est que spéculation malheureusement. Personnellement, tous les cas que je connais où un groupe de disques similaires ont commencé à mourir ensemble, c'était quand ils ont été utilisés trop longtemps et ont commencé à mourir de vieillesse.

2 votes

Re. votre mise à jour : C'est un point de données unique. Il faut le répéter pour des milliers de disques pour obtenir une mesure utile. C'est difficile à faire, surtout avec les cycles de production très courts des disques, ce qui entraîne un manque de ce type de données.

57voto

ewwhite Points 193555

En pratique, les personnes qui achètent auprès des fournisseurs d'entreprise (HPE, Dell, etc.) ne t'inquiète pas pour ça .

Les lecteurs fournis par ces vendeurs sont déjà répartis entre plusieurs fabricants sous le même numéro de pièce.

Un disque HP sous une UGS particulière peut être HGST ou Seagate ou Western Digital.

Même numéro de pièce HP, variation selon le fabricant, le numéro de lot et le micrologiciel. enter image description here

Vous ne devriez pas essayer de surpasser la probabilité d'échec du lot, cependant. Vous pouvez essayer si cela vous rassure, mais cela ne vaut peut-être pas la peine.

Les bonnes pratiques telles que la mise en grappe, la réplication et les sauvegardes solides constituent la véritable protection contre les pannes de lot. Ajoutez des pièces de rechange à chaud et à froid. Surveillez vos systèmes de près. Tirez parti des systèmes de fichiers intelligents comme ZFS :)

Et n'oubliez pas que les pannes de disque dur ne sont pas toujours mécaniques...

13 votes

L'aspect stockage/expédition est cependant toujours en jeu. Si quelqu'un dans un entrepôt HP ou FedEx laisse tomber une boîte pleine de disques, cela peut affecter l'ensemble du lot reçu.

6 votes

@smitelli Okay. Sauvegardes, RAID, réplication, DR, spares. La probabilité que tous vos disques tombent en panne en même temps est suffisamment faible pour que ce ne soit pas un problème que la plupart des gens doivent se préparer à rencontrer.

1 votes

Un exemple, sur HP, lorsque vous personnalisez votre serveur et que vous le recevez, dans 99,9% des cas, le numéro de série du disque dur suit. Si l'usure/utilisation est la même, comme dans un raid 1, je ne remets jamais le disque sain après une panne d'un autre disque, j'ai eu trop de mauvaises expériences.

44voto

Wolfish Points 539

Par respect pour la réponse de ewwhite, certains administrateurs système commandent par lots. Je ne commanderais jamais, moi-même, des disques sur une base individuelle, mais les opérations standard du dernier endroit où j'ai travaillé dans une telle capacité étaient de commander des disques par lots. Pour une machine à douze disques, la procédure standard exigeait que les disques soient divisés en trois lots, donnant à la machine un profil de redondance à trois niveaux.

Cependant, d'autres petites entreprises que j'ai consultées ont suivi des protocoles différents, certaines ne se préoccupant pas du lot, et d'autres divisant les lots en deux ou quatre réseaux. En résumé, la réponse est la suivante faites ce qui vous semble approprié pour le niveau de service que vous devez atteindre.

Note complémentaire : le dernier endroit où j'ai travaillé faisait certainement ce qu'il fallait. La machine de stockage d'applications a décidé de tomber en panne sur un lot entier de disques, et nous avons découvert que ce lot particulier avait tous le même défaut. Si nous n'avions pas suivi un protocole de lot, nous aurions subi une perte catastrophique de données.

8 votes

J'envisagerais de faire cette remarque dès le départ !

40voto

Kaithar Points 1025

Réponse honnête de quelqu'un qui a passé beaucoup de temps à s'occuper de matrices Raid mourantes et de disques difficiles : N'ayez pas tous vos disques du même lot si vous pouvez l'éviter.

Mon expérience ne s'applique qu'aux disques rotatifs, les disques SSD ont leurs propres problèmes et avantages à prendre en compte lors d'une commande groupée.

La meilleure façon de gérer les choses dépend principalement de la taille de la matrice sur laquelle vous travaillez. Si vous travaillez avec quelque chose comme des matrices de 6 disques avec une redondance de 2 disques, vous pouvez probablement acheter en toute sécurité des disques similaires de 3 fabricants et diviser la matrice de cette façon.

Si vous utilisez un disque étrange ou si vous travaillez avec des matrices qui ne peuvent pas être facilement partitionnées de cette manière, vous pouvez essayer d'autres approches, comme acheter le même disque auprès de différents fournisseurs, ou si vous achetez en gros, vous pouvez regarder et essayer de séparer les disques en fonction de la probabilité qu'ils soient fabriqués ensemble.

Si vous exploitez une matrice suffisamment petite avec la bonne technologie sous-jacente, cela peut même valoir la peine de la construire progressivement à partir de disques hétérogènes. Commencez avec le nombre minimum de disques dont vous pouvez vous passer et achetez l'approvisionnement suivant un ou deux mois plus tard, ou lorsque vous remplissez le système. Cela vous permet également de vous faire une idée des problèmes que peuvent poser les modèles que vous avez choisis.

La raison de ce conseil est la combinaison de deux particularités des lecteurs.

  1. Le MTBF est remarquablement cassé lorsque vous avez beaucoup de disques ayant des origines similaires. En statistiques, nous appellerions cela un biais d'échantillonnage, en raison de la similarité de vos échantillons, les effets de moyenne auront tendance à être moins utiles. S'il y a un défaut dans le lot ou même dans la conception elle-même, et que cela se produit plus souvent qu'on ne le pense, les disques de ce lot tomberont en panne plus tôt que le MTBF ne le suggère.

    Si les disques sont répartis, vous pouvez obtenir [50 %, 90 %, 120 %, 200 %] de MTBF, mais si tous les disques proviennent de ce lot de 50 %, vous avez un problème sur les bras.

  2. Le réassemblage d'une matrice Raid tue les disques. Non, vraiment. Si vous avez une défaillance de disque et que la matrice se reconstruit, cela va mettre une charge supplémentaire sur les autres disques pendant qu'ils analysent les données. Si vous avez un disque proche de la défaillance, la reconstruction peut très bien le supprimer, ou il peut déjà avoir un emplacement de défaillance dont vous n'étiez pas conscient parce que cette section n'avait pas été lue récemment.

    Si vous avez beaucoup de disques durs du même lot, les chances que ce type de panne en cascade se produise sont beaucoup plus élevées que si elles sont différentes. Vous pouvez atténuer ce risque en effectuant régulièrement des scans de patrouille, des nettoyages, des resilverings, selon les pratiques recommandées pour le type de baie que vous utilisez, mais l'inconvénient est que cela aura un impact sur les performances et peut prendre des heures.

Pour avoir une idée de l'ampleur des variations de la longévité des disques, Backblaze publie régulièrement un rapport sur les défaillances des disques... Je ne suis pas affilié à la société de quelque manière que ce soit, mais ils devraient savoir de quoi ils parlent au sujet de la fiabilité des disques. Voici un exemple https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... votre ensemble d'échantillons sera probablement plus petit, de sorte que les données aberrantes peuvent perturber votre propre expérience, mais cela reste une bonne référence.

2 votes

Les raids avec des disques similaires (provenant du même firmware/lot, ou achetés ensemble et maltraités à un moment donné) ont un risque beaucoup plus élevé de défaillance catastrophique.

0 votes

@OlivierDulac et si le disque a un défaut de conception catastrophique aussi, votre vie devient vraiment douloureuse. Les disques 300GB/600GB/900GB 2.5" WD Raptor series ont/avaient un taux de défaillance qui doit être expérimenté pour être cru.

0 votes

Le référencement de Backblaze... excellent.

9voto

pcalcao Points 10302

J'ai dû examiner cette question pour un client il y a quelques années. Je dispose d'une combinaison d'expériences pratiques et de recherches pour étayer la recommandation de recourir au multisource.

En mettant de côté vos avantages et inconvénients pour le moment, ainsi que L'excellente réponse de ewwhite Par prudence, si vous achetez les disques vous-même, vous devriez les acheter en plusieurs fois. Un rapide coup d'œil à la discussion de Wikipedia sur les faiblesses du RAID permet de trouver deux références intéressantes.

La première référence est le document ACM RAID : stockage secondaire fiable et à haute performance (Chen, Lee, Gibson, Katz et Patterson. ACM Computing Surveys. 26:145-185). Dans la section 3.4.4, les auteurs soulignent que les défaillances matérielles ne sont pas toujours des événements statistiquement indépendants, et en donnent les raisons. Au moment où j'écris cette réponse, l'article est disponible en ligne ; les pages 19 à 22 traitent de la fiabilité ( http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889 ).

La deuxième référence est Les défaillances de disque dans le monde réel : Que signifie pour vous un MTTF de 1 000 000 d'heures ? (Schroeder, Gibson. 5th USENIX Conference on File and Storage Technologies.) Les auteurs présentent des données statistiques pour étayer l'affirmation selon laquelle les pannes de disque peuvent être regroupées dans le temps à un taux supérieur à celui prévu pour des événements indépendants. Au moment où j'écris cette réponse, cet article est également disponible en ligne ( https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html ).

En 2012, Dell a explicitement déconseillé le système RAID 5 en raison de la corrélation des pannes de disque dans les environnements de gros disques. Selon les prévisions, le système RAID 6 ne sera plus fiable pour des raisons similaires aux alentours de 2019 (article de ZDNet intitulé "why-raid-6-stops-working-in-2019" : http://www.zdnet.com/article/why-raid-6-stops-working-in-2019/ ). Bien que la taille des disques et les temps de reconstruction soient des éléments clés de ces deux types d'applications, les disques de plus petite taille et les temps de reconstruction plus longs sont plus efficaces. multisourcing avait été recommandé comme moyen d'atténuer le problème du RAID 5.

Donc oui, achetez les disques en plusieurs exemplaires si vous le pouvez ; si vous achetez auprès d'un fournisseur d'entreprise comme décrit dans le document La réponse de ewwhite cela peut se produire pour vous de manière transparente. Cependant... mon client a acheté 16 disques de 2 To à un fournisseur d'entreprise. Il se trouve qu'ils provenaient du même fabricant et semblaient avoir été fabriqués en même temps. Deux des disques sont tombés en panne dans les deux semaines qui ont suivi la configuration des matrices RAID01. Vérifiez donc les disques lorsque vous les recevez. (Vous les vérifiez déjà de toute façon, non ?)

1 votes

Je ne comprends vraiment pas leur argument en faveur de la disparition du RAID6 en raison de l'augmentation de la capacité de stockage. Toute matrice RAID dépend d'une bonne maintenance pour fonctionner correctement. Nous avons de très grandes matrices fonctionnant en RAID6 et nous n'avons jamais rencontré d'URE lors d'une reconstruction ayant entraîné une perte de données. Effectuez simplement des vérifications de volume programmées, comme le recommande chaque fabricant, et tout ira bien.

5voto

Peter Green Points 3844

L'emballage et la manutention constituent un autre inconvénient potentiel de la commande de disques individuels.

Les disques durs ne sont presque jamais fournis dans un emballage de détail. Si vous les achetez un par un, ils seront presque certainement reconditionnés par le vendeur. J'ai constaté que ce reconditionnement est très variable. Parfois, vous obtenez une belle boîte avec beaucoup de rembourrage, mais d'autres fois, vous n'obtenez pratiquement aucun rembourrage.

Une boîte plus petite est également plus vulnérable au fait d'être ballottée par les transporteurs sans dommage extérieur évident.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X