Les mesures habituelles qui indiquent des problèmes sont l'utilisation du processeur, l'utilisation de la mémoire, la moyenne de charge et l'utilisation du disque. Pour les serveurs de messagerie, la taille de la file d'attente est un indicateur important. Pour les serveurs web, le nombre de serveurs occupés est une mesure importante. Un débit excessif du réseau est également source de problèmes. Si vous avez des processus qui doivent vérifier l'heure, NTP peut être un outil important pour maintenir les horloges synchronisées.
Les niveaux d'alerte standard que j'ai utilisés sont les suivants (alerte, critique). Il se peut que vous souhaitiez ajuster vos valeurs en fonction d'un certain nombre de facteurs. Des valeurs plus élevées réduisent le nombre d'alertes, tandis que des valeurs plus basses vous donnent plus de temps pour réagir aux problèmes qui se développent. Ceci pourrait constituer un point de départ approprié pour un modèle.
- Utilisation soutenue du processeur (80 %, 100 %). Ne pas tenir compte du temps consacré aux processus en cours.
- Charge moyenne par CPU (2, 5).
- Utilisation du disque par partition (80 %, 90 %).
- File d'attente du courrier (10, 50). Utilisez des valeurs inférieures sur les serveurs autres que les serveurs de messagerie.
- Serveurs web occupés (10, 25).
- Débit du réseau (80 %, 100 %). Les sauvegardes du réseau et d'autres processus de ce type peuvent dépasser les valeurs. J'utiliserais les paramètres d'étranglement s'ils sont disponibles.
- Décalage NTP en secondes ( 0.2, 1).
Munin fait un bon travail en rassemblant ces statistiques et d'autres. Il est également capable de déclencher des alarmes lorsque des seuils sont dépassés. Ses capacités d'alerte ne sont pas aussi bonnes que celles de Nagios. La collecte et l'affichage de données historiques en font un bon choix pour vérifier si les valeurs actuelles diffèrent de manière significative des valeurs passées. Il est facile à configurer et peut être exécuté sans générer d'avertissements. Le principal problème est le volume de données capturées et la fréquence fixe de collecte des informations. Il se peut que vous souhaitiez générer des graphiques à la demande. Munin fournit un grand nombre de statistiques que je vérifierais à l'aide de sar
lorsqu'un système est en difficulté. Sa page de présentation est utile pour identifier les problèmes éventuels.
Nagios est très bon pour les alertes, mais n'a jamais été très bon pour rassembler les données historiques d'une manière qui permette de les comparer aux valeurs actuelles. Il semble que cela soit en train de changer et que la nouvelle version soit bien meilleure pour collecter ces données. C'est un bon choix pour générer des alertes en cas de problèmes et programmer des arrêts pendant lesquels les alertes ne sont pas générées. Nagios est très bon pour alerter lorsque les services s'arrêtent. Il est particulièrement adapté aux serveurs et services critiques.