45 votes

HP ProLiant DL360 G7 se fige à l'écran "Calibration de l'alimentation et de la thermique"

Je dispose d'un nouveau système HP ProLiant DL360 G7 qui présente un problème difficile à reproduire. Le serveur se bloque aléatoirement à l'écran "Calibrage de l'alimentation et thermique en cours..." pendant le processus POST. Cela suit généralement un redémarrage à chaud à partir du système d'exploitation installé.

description de l'image ici

Le système reste bloqué indéfiniment à ce stade. Procéder à une réinitialisation ou à un démarrage à froid via les commandes d'alimentation de l'ILO 3 permet au système de démarrer normalement sans incident.

Lorsque le système est dans cet état, l'interface ILO 3 est entièrement accessible et tous les indicateurs de santé du système sont bons (tous en vert). Le serveur se trouve dans un centre de données climatisé avec des connexions électriques à un PDU. La température ambiante est de 64°F/17°C. Le système a été soumis à une boucle de test de composants de 24 heures avant le déploiement sans échec.

Le système d'exploitation principal pour ce serveur est VMWare ESXi 5. Nous avons d'abord essayé avec la version 5.0 puis avec une version 5.1. Les deux ont été déployés via un démarrage PXE et kickstart. De plus, nous testons avec des installations Windows et Red Hat Linux en baremetal.

Les systèmes HP ProLiant disposent d'un ensemble complet d'options BIOS. Nous avons essayé les paramètres par défaut en plus du profil Static high-performance. J'ai désactivé l'écran de démarrage splash screen et j'obtiens juste un curseur clignotant à ce stade au lieu de la capture d'écran ci-dessus. Nous avons également essayé certaines "meilleures pratiques" VMWare pour la configuration du BIOS. Nous avons vu un avis de HP qui semble décrire un problème similaire, mais qui n'a pas résolu notre problème spécifique.

Soupçonnant un problème matériel, j'ai demandé au fournisseur d'envoyer un système identique pour une livraison le jour même. Le nouveau serveur était une configuration entièrement identique à l'exception des disques. Nous avons transféré les disques du vieux serveur sur le nouveau. Nous avons rencontré le même problème aléatoire de démarrage sur le matériel de remplacement.

J'ai maintenant les deux serveurs qui tournent en parallèle. Le problème survient de manière aléatoire sur les redémarrages à chaud. Les démarrages à froid ne semblent pas rencontrer le problème. J'étudie certains paramètres BIOS plus ésotériques comme la désactivation du Turbo Boost ou la désactivation complète de la fonction de calibrage de l'alimentation. Je pourrais essayer ces options, mais elles ne devraient pas être nécessaires.

Des idées ?

--édition--

Détails du système :

  • DL360 G7 - 2 x X5670 processeurs hexacœurs
  • 96 Go de RAM (12 x 8 Go DIMMs à basse tension)
  • 2 x 146 Go 15k disques durs SAS
  • 2 x 750W alimentations électriques redondantes

Tous les firmwares sont à jour par rapport à la dernière version du DVD HP Service Pack for ProLiant.

Après avoir contacté HP et parcouru l'interwebz, j'ai vu des mentions d'une mauvaise interaction avec l'ILO 3, mais cela se produit également avec le serveur sur une console physique. HP a également suggéré une source d'alimentation, mais il s'agit d'une baie de centre de données qui alimente avec succès d'autres systèmes de production.

Est-il possible qu'il s'agisse d'une mauvaise interaction entre les DIMMs à basse tension et les alimentations électriques de 750W ? Ce serveur devrait être une configuration prise en charge.

49voto

ewwhite Points 193555

Alors, après avoir introduit un troisième système dans l'équation, et avoir rencontré le même problème, nous avons commencé à remettre en question l'environnement. J'ai trouvé une copie du Guide de dépannage des serveurs HP ProLiant et trouvé le schéma de dépannage des problèmes POST ci-dessous.

entrer la description de l'image ici

En suivant attentivement les étapes du schéma, nous avons réalisé que la constante sur tous les serveurs était un commutateur KVM connecté au chariot de panne du centre de données. Il s'agissait d'un commutateur KVM USB de classe grand public. Comme indiqué dans le nœud en surbrillance du schéma, Avez-vous un bon KVM connu ?, je n'ai pas pu répondre de manière concluante.

Alors, nous avons débranché les serveurs du commutateur KVM et exécuté un démarrage automatisé, la séquence de sleep 300; reboot dans rc.local. Les serveurs n'ont rencontré aucun problème avec cela, quel que soit le DIMM normal, les DIMM basse tension, la puissance du PSU, etc.

Tout cela était le résultat d'une mauvaise interaction avec un commutateur KVM USB. Du fait que c'était la console, cela garantissait que nous verrions l'échec si nous le cherchions. Auto-réalisatrice...

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X