Vendredi, j'ai vécu un véritable désastre. Je me suis rendu au centre de données pour installer un nouveau serveur et, en même temps, j'ai emporté un nouveau disque pour remplacer un disque qui était tombé en panne il y a quelques semaines dans une baie iSCSI HP P2000 G3 10Gbit.
Le P2000 est équipé de 12 disques SAS 2TB 7.2k MDL et configuré comme 2 matrices RAID10, chacune avec 4 disques + 2 hot spares. J'avais déjà retiré le disque défectueux une semaine auparavant, sa place dans la matrice avait été prise automatiquement par l'un des disques de secours, comme prévu.
La tâche à accomplir était donc un simple remplacement de disque pour me redonner un disque de secours chaud. Simple, n'est-ce pas ? Insérer le disque, s'assurer qu'il est visible dans l'interface graphique et le configurer comme hot spare....
Non...
J'ai sorti le disque tout neuf de son emballage et je l'ai mis en place, et instantanément tous les lecteurs de la matrice sont devenus orange. J'ai vérifié l'interface graphique et chaque disque affichait " métadonnées non valides ". Une vérification rapide des services en cours d'exécution utilisant les deux matrices a confirmé que tout avait perdu la visibilité des LUN.
J'ai rescanné les canaux, redémarré les contrôleurs, sans résultat. Les lecteurs ont commencé à disparaître de l'interface graphique et mes VD (LUN) ont également disparu de l'interface graphique. J'ai également supprimé le nouveau disque, toujours rien.
Dans un acte de désespoir et de confusion, j'ai coupé l'alimentation du P2000 et l'ai laissé redémarrer complètement. Il est revenu en ligne et j'ai pu voir mes VD à nouveau... Cependant, les deux matrices avaient perdu toute redondance, comme si chaque moitié des 2 RAID10 avait perdu ses disques miroirs.
Tous les autres disques qui faisaient partie de la matrice sont maintenant affichés comme étant disponibles. J'ai pu les configurer comme hot spares et les 2 RAID10 ont commencé à se reconstruire. Le système fonctionne à nouveau, mais sans mon nouveau disque, car j'ai trop peur de le remettre en place.
Quelqu'un a-t-il une idée de ce qui s'est passé ici ?
La seule chose à laquelle je peux penser est que le nouveau disque a dû contenir ses propres métadonnées et a dérouté le P2000. Cependant, il s'agissait d'un nouveau disque scellé provenant de notre fournisseur habituel. Cependant, même si c'était le cas, je ne m'attendrais pas à ce que la matrice fasse quoi que ce soit avec ce disque qui affecte la configuration RAID existante !
Aidez-nous !