Je suis en train de mettre en place un système de surveillance pour un déploiement de centre de données de taille modeste existant.
Jusqu'à présent, je suis seulement arrivé du côté hôte/application de l'équation de surveillance, mais je remarque ce que je considère être un nombre alarmant d'erreurs Ethernet sur divers hôtes. Pour moi, alarmant signifie 3 ou 4 par jour par hôte (certains n'en ont aucun). Lorsque je regarde les compteurs SNMP des commutateurs, je vois à nouveau beaucoup d'erreurs sur les compteurs, mais je ne graphique pas encore ces erreurs.
Dans mes environnements précédents avec beaucoup plus de ports, mon taux d'erreur était approximativement nul, sauf pour ces hôtes qui avaient des problèmes réels comme des incompatibilités de duplex.
Aucune de ces interfaces n'est saturée; elles transmettent environ 40-50 mégaoctets/s sur des liens gigabit.
J'ai le sentiment que s'il fonctionne correctement, il ne devrait y avoir aucune erreur sur quelque interface que ce soit, mais j'ai peur que si je me bats pour résoudre ces problèmes, je n'aliénerai que les autres qui pensent que "ça fonctionne très bien, ça fonctionne comme ça depuis des années".
Quelqu'un a-t-il de bonnes histoires/études/statistiques pour savoir quand s'alarmer des erreurs Ethernet? Ou quelque chose pour indiquer comment un petit volume d'erreurs pourrait affecter, par exemple, un volume iSCSI?
Merci!