Existe-t-il des outils autres que ceux fournis par HP pour surveiller les défaillances des composants de ces serveurs de RHEL5 ?
Réponses
Trop de publicités?Les outils HP ASM et les OID SNMP sont ceux que nous utilisons principalement pour la surveillance générale des composants.....
Alternativement, vous pouvez aussi utiliser smartmontools pour surveiller les disques durs et la plupart des capteurs devraient apparaître dans le tableau de bord. lm_sensors
Vous devez installer l'ensemble des outils HP, les paquets hpasm/hprsm, etc. Ce sont littéralement les paquets les plus difficiles à installer que j'ai jamais vus. On dirait qu'ils ont été écrits par des gens qui ne se soucient pas de la facilité de déploiement. Ils fournissent un Shell Shell que vous pouvez exécuter à la main, utilisez cela au début jusqu'à ce que vous compreniez comment pirater ce Shell, écrire un wrapper, installer les RPM individuellement, ou se pencher ou le vendeur pour se comporter raisonnablement.
Vous devez surveiller le syslog pour les erreurs de ces outils.
Vous devez analyser la sortie de hpasmcli (show server, show dimm) et hpacucli (controller all show, puis pour chaque contrôleur slot=X pd all show) pour identifier les défaillances. Si vous vous fiez aux rapports syslog, vous manquerez des défaillances et vous aurez des désastres embarrassants.
Vous devriez également analyser la sortie hplog, et effacer la sortie après l'avoir vérifiée, en archivant cette sortie quelque part. Considérez ceci comme une vérification redondante de la vérification de hpasmcli/hpacucli.
Vous devriez utiliser hponcfg pour vous assurer que le BIT est configuré, et vous y connecter pour vous assurer qu'il répond effectivement.
Assurez-vous que vous pouvez mettre à jour le micrologiciel, et faites-le régulièrement. HP publie des mises à jour de microprogrammes critiques, qui transforment par exemple un plantage dû à une erreur de mémoire mineure sans identification du DIMM défectueux en un voyant de défaut. HP a changé mon opinion sur la mise à jour du micrologiciel lorsque cela n'est pas absolument nécessaire. (En fait, c'est absolument nécessaire, mais personne ne vous le dit).
Abandonnez le SNMP. Vous avez beaucoup de travail à faire, ce n'est qu'un travail supplémentaire qui ne vous donnera pas la fonctionnalité complète dont vous avez besoin, de sorte que vous devrez toujours faire le reste du travail.
Les serveurs HP sont toujours les meilleurs serveurs Intel en ce qui concerne le signalement et la gestion des problèmes matériels. Ils ont juste certains problèmes extrêmement ennuyeux. Peut-être que si chaque client se plaint au moins une fois, ils rendront le déploiement plus facile. Il n'y a tout simplement aucune excuse pour cela.
Un DL3[68]0 G5 exécutant RHEL5 et surveillé en permanence par des outils de gestion HP, avec des tests de stress occasionnels du disque et de la mémoire, sera la solution Intel la plus fiable du marché. Il vous suffit de faire preuve de diligence pour vous assurer que vous en avez pour votre argent. HP vous fournit les outils, mais ils ne les rendent pas aussi faciles à utiliser qu'ils le devraient.
N'utilisez que de la RAM HP. Sinon, cela ne vaut pas la peine. Vous n'avez pas besoin de vendeurs qui se montrent du doigt quand un DIMM a un voyant de défaut qui s'allume.
Faites régulièrement un tour du datacenter pour repérer les voyants de défaillance et utilisez-les pour corriger les défaillances dans vos scripts de surveillance. C'est ainsi que j'ai appris que syslog est à peine utile et que vous devez vérifier hpasmcli/hpacucli régulièrement.