Je dispose d'un nouveau système HP ProLiant DL360 G7 qui présente un problème difficile à reproduire. Le serveur se bloque aléatoirement à l'écran "Calibrage de l'alimentation et thermique en cours..." pendant le processus POST. Cela suit généralement un redémarrage à chaud à partir du système d'exploitation installé.
Le système reste bloqué indéfiniment à ce stade. Procéder à une réinitialisation ou à un démarrage à froid via les commandes d'alimentation de l'ILO 3 permet au système de démarrer normalement sans incident.
Lorsque le système est dans cet état, l'interface ILO 3 est entièrement accessible et tous les indicateurs de santé du système sont bons (tous en vert). Le serveur se trouve dans un centre de données climatisé avec des connexions électriques à un PDU. La température ambiante est de 64°F/17°C. Le système a été soumis à une boucle de test de composants de 24 heures avant le déploiement sans échec.
Le système d'exploitation principal pour ce serveur est VMWare ESXi 5. Nous avons d'abord essayé avec la version 5.0 puis avec une version 5.1. Les deux ont été déployés via un démarrage PXE et kickstart. De plus, nous testons avec des installations Windows et Red Hat Linux en baremetal.
Les systèmes HP ProLiant disposent d'un ensemble complet d'options BIOS. Nous avons essayé les paramètres par défaut en plus du profil Static high-performance. J'ai désactivé l'écran de démarrage splash screen et j'obtiens juste un curseur clignotant à ce stade au lieu de la capture d'écran ci-dessus. Nous avons également essayé certaines "meilleures pratiques" VMWare pour la configuration du BIOS. Nous avons vu un avis de HP qui semble décrire un problème similaire, mais qui n'a pas résolu notre problème spécifique.
Soupçonnant un problème matériel, j'ai demandé au fournisseur d'envoyer un système identique pour une livraison le jour même. Le nouveau serveur était une configuration entièrement identique à l'exception des disques. Nous avons transféré les disques du vieux serveur sur le nouveau. Nous avons rencontré le même problème aléatoire de démarrage sur le matériel de remplacement.
J'ai maintenant les deux serveurs qui tournent en parallèle. Le problème survient de manière aléatoire sur les redémarrages à chaud. Les démarrages à froid ne semblent pas rencontrer le problème. J'étudie certains paramètres BIOS plus ésotériques comme la désactivation du Turbo Boost ou la désactivation complète de la fonction de calibrage de l'alimentation. Je pourrais essayer ces options, mais elles ne devraient pas être nécessaires.
Des idées ?
--édition--
Détails du système :
- DL360 G7 - 2 x X5670 processeurs hexacœurs
- 96 Go de RAM (12 x 8 Go DIMMs à basse tension)
- 2 x 146 Go 15k disques durs SAS
- 2 x 750W alimentations électriques redondantes
Tous les firmwares sont à jour par rapport à la dernière version du DVD HP Service Pack for ProLiant.
Après avoir contacté HP et parcouru l'interwebz, j'ai vu des mentions d'une mauvaise interaction avec l'ILO 3, mais cela se produit également avec le serveur sur une console physique. HP a également suggéré une source d'alimentation, mais il s'agit d'une baie de centre de données qui alimente avec succès d'autres systèmes de production.
Est-il possible qu'il s'agisse d'une mauvaise interaction entre les DIMMs à basse tension et les alimentations électriques de 750W ? Ce serveur devrait être une configuration prise en charge.