5 votes

2 disques "défaillants" sur un RAID 5 à 3 disques

Mais je ne le crois pas.

Il s'agit d'un serveur Dell PowerEdge 2600 fonctionnant sous Windows Server 2008 trial 32bit (ouais, il n'est pas censé le faire... mais ça marche [enfin, ça marchait]).

Pour éviter toute confusion, les lecteurs sont numérotés 0, 1 et 2.

J'étais en train de coder comme d'habitude quand j'ai remarqué que le logo Dell sur le devant du boîtier était orange. J'ai donc ouvert la porte du boîtier et j'ai vu que les évents du disque dur étaient complètement couverts de poussière (je sais que ce n'est pas lié à la lumière orange... mais je déteste la poussière). Comme les disques sont remplaçables à chaud, j'ai sorti le disque 2, nettoyé la poussière et l'ai remis en place. J'ai ensuite retiré le disque 1, nettoyé la poussière sur celui-ci et l'ai remis en place. Quelqu'un m'a demandé d'aider à configurer une imprimante sur sa machine, je me suis donc levé et 20 minutes plus tard, je suis revenu pour voir 'No boot device available - strike F1 to retry boot, F2 for setup utility' affiché sur le moniteur du serveur. Je regarde les lecteurs et les lecteurs 1 et 2 ont des lumières orange au lieu des vertes !

Depuis lors, voici ce que j'ai essayé :

  • Installation de disques dans un Dell PowerEdge 2500. Les disques ont été détectés bien. J'ai reçu un message indiquant Missing operating system.
  • Réinitialisation du bios sur le PowerEdge 2600 d'origine (retrait de la batterie du bios). Tous les disques semblent en bon état. Obtenez le Missing operating system lors du démarrage. Les voyants d'un lecteur sont verts.
  • J'ai démarré Ubuntu depuis un CD pour inspecter les lecteurs. 2 des lecteurs sont affichés en Computer. Puisque les données sont réparties en bandes, les fichiers/dossiers sur les disques sont du charabia.
  • J'ai démarré Ubuntu et ouvert Terminal et exécuté sudo fdisk -l qui listait les 3 lecteurs. Sur le troisième lecteur listé, il est écrit Disk identifier: 0x00000000 Disk /dev/sdb doesn't contain a valid partition table

Pensez-vous que les disques sont réellement grillés ?
Pourrait-il s'agir d'un SCSI ou d'une autre défaillance matérielle ?
Serait-ce dû à des paramètres système incorrects ? Y a-t-il un moyen de créer un RAID virtuel dans Ubuntu sur les 2 disques qui sont "valides" afin que je puisse copier les données sur un partage réseau ?
Dois-je essayer de réinstaller le système d'exploitation Windows Server (aïe !) ? Avez-vous des suggestions que je peux essayer ?


UPDATE

Après avoir fait beaucoup de recherches sur Google, je suis tombé sur Reconstructeur de raid . J'ai essayé ce programme sur mon Dell PowerEdge 2600 en utilisant un CD amorçable de Windows XP mais cela n'a pas fonctionné (aucun disque n'a été détecté). J'ai ensuite installé deux des disques dans le PowerEdge 2500 à côté du RAID 0 à un seul disque existant du 2500 qui exécute Microsoft Server 2003. J'ai ensuite installé et activé Raid Reconstructor, qui a créé une image virtuelle de la matrice RAID-5. Capitaine Nemo et j'ai sauvegardé mon répertoire C:/Websites sur un autre ordinateur...avec TOUS les fichiers sont intacts (jusqu'à présent) ! !!

J'espère pouvoir restaurer les disques à 100%.

Les leçons apprises :

  • Je me fiche de savoir si le serveur puede des lecteurs "hot-swap". NE LE FAITES PAS, BON SANG !
  • Sauvegardez vos données, imbécile !

Merci pour toute votre aide, vos réponses et vos commentaires (et pour avoir eu tort au sujet de la perte de données. haha) !

10 votes

Bien sûr, vous pouvez remplacer des disques à chaud sans problème, à condition de le faire correctement. Vous ne pouvez pas simplement retirer un disque, le remettre en place et retirer immédiatement un autre disque. Les matrices doivent se reconstruire après une panne, et le retrait d'un disque est traité comme une panne. Ce n'est pas parce que vous ne le saviez pas qu'il y a un problème avec le remplacement à chaud des disques.

0 votes

J'ai parlé à d'autres personnes qui ont eu de mauvaises expériences avec le remplacement à chaud de disques dans des machines Dell x9xx. Sur les machines Dell 2950 et 1950, nous avons rencontré un certain nombre de problèmes lors du remplacement à chaud d'un disque (disques SAS et SATA). Cela devrait fonctionner, mais j'ai vu quelques échecs assez graves, mais pour nous la plupart des échecs étaient récupérables.

4 votes

@Stefan : Le problème n'est pas du tout l'échange à chaud. Le problème est que lorsque le lecteur 2 a été retiré, le tableau serait passé à Dégradé alors, quand le disque 1 a été retiré, la matrice aurait disparu. Échoué et comme le dit si bien Chopper3 - est grillé.

24voto

Chopper3 Points 99341

Le plus gros "Doh !" de la semaine je pense - désolé mec.

Les disques eux-mêmes ne seront pas physiquement cassés, c'est simplement que vous avez tué la matrice en retirant un deuxième disque avant que le premier ne se soit reconstruit - je suis >90% sûr que votre matrice est grillée. En fait, vous n'auriez pas dû les retirer du tout pendant qu'ils étaient sous tension, si vous deviez absolument le faire, vous auriez dû attendre que la matrice se reconstruise avant de retirer le deuxième disque.

C'est l'heure de la réinstallation/restauration, j'en ai peur - vos données sont perdues.

0 votes

On dirait que c'est exactement ce qui s'est passé.

0 votes

Yah. C'est ce dont j'avais peur aussi.

1 votes

Ne retirez jamais, au grand jamais, un disque en état de marche sur un serveur en direct, à moins que vous n'ayez absolument pas le choix (comme si quelqu'un avait un pistolet sur votre tête). Arrêtez le serveur (ou arrachez les câbles d'alimentation) avant de toucher à du matériel en état de marche.

2voto

William Points 1

Après avoir récupéré mes données avec Raid Reconstructor, je suis allé reconfigurer mon raid et réinstaller le système d'exploitation.

Lorsque j'ai obtenu l'invite d'installation du système d'exploitation, j'ai décidé une dernière fois d'essayer de réparer manuellement les fichiers de démarrage du système d'exploitation à partir de l'invite CMD.....

Ça a marché.

L'ordinateur est de nouveau opérationnel (en boitant). Je dois encore effectuer une installation de réparation complète car certains fichiers système sont signalés comme étant corrompus.

0 votes

Excellentes nouvelles, mais chanceux ;), merci de nous avoir fait découvrir ces outils de récupération.

0 votes

Je ne ferais pas du tout confiance à ce système de fichiers. Il est probablement corrompu de plusieurs façons subtiles.

0voto

tony roth Points 3814

La plupart du temps, c'est le fond de panier ou le contrôleur Scsi qui est défectueux, si c'était un problème de fond de panier, dans mon cas, 9 fois sur 10, c'était un problème de firmware.

Sur le 2500, avez-vous fait en sorte qu'il reconstruise la matrice ou avez-vous simplement inséré les disques et trouvé la matrice ?

éditer :
J'aurais dû mieux lire votre question ! Chopper3 a raison.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X