J'ai un cluster Hyper-V Server 2008R2 avec 2 nœuds. Ils utilisent un CSV sur un SAN. J'utilise SCVMM pour les gérer. Nous avons récemment eu plusieurs pannes qui ont provoqué un basculement, faisant mourir les machines virtuelles et les faisant démarrer sur l'autre nœud. La plupart du temps, cela a bien fonctionné. À un moment donné, lors d'une panne de courant, les deux nœuds ont été incapables d'accéder au SAN pendant un moment, et le CSV a été mis hors ligne. La mise en ligne dans Failover Cluster Manager a fonctionné et la plupart des machines virtuelles ont démarré sans problème.
Cependant, une machine virtuelle ne démarre pas.
- Dans SCVMM, il apparaît comme manquant.
- Dans Failover Cluster Manager, il apparaît comme étant hors ligne, et la ressource "SCVMM hostname Configuration" a échoué.
- Toute tentative de démarrage de la ressource de configuration défaillante ou de déplacement de la machine virtuelle vers l'autre nœud entraîne une attente de 5 minutes, suivie de l'erreur "Error Code : 0x80071714 Le groupe n'est pas en mesure d'accepter la demande car il se déplace vers un autre nœud".
Outre l'erreur ci-dessus, il ne semble pas y avoir de journaux pertinents récents dans le cluster de basculement ou dans les journaux d'événements Windows sur l'un ou l'autre des nœuds. Il y a quelques événements critiques que je peux voir dans le gestionnaire de cluster de basculement à partir du moment où les défaillances se sont produites la semaine dernière :
- ID d'événement 21502 : "Configuration du nom d'hôte SCVMM" n'a pas réussi à enregistrer la machine virtuelle auprès du service de gestion des machines virtuelles.
- 25 minutes plus tard, ID de l'événement 1230 : La ressource de cluster 'SCVMM hostname Configuration' (type de ressource '', DLL 'vmclusres.dll') s'est écrasée ou a été bloquée. Le processus Resource Hosting Subsystem (RHS) va maintenant tenter de se terminer, et la ressource sera marquée pour être exécutée dans un moniteur séparé.
- Cette opération a été répétée trois fois de plus, à 5 minutes d'intervalle.
- Aucun journal depuis lors.
J'ai consulté des fichiers sur le SAN. Ils semblent tous intacts. Le fichier de configuration XML semble être valide (certaines recherches ont montré que cela pouvait se produire si le fichier XML était corrompu).
Modification : j'ai également exécuté le rapport de validation de la grappe. En dehors de la ressource échouée et de quelques erreurs attendues indiquant qu'il n'a pas pu tester les disques alors qu'ils sont en ligne, tout semble aller bien.
Comment faire pour que cette machine virtuelle fonctionne à nouveau ?