Duplicata possible :
Comment comprendre l'utilisation de la mémoire et la charge moyenne d'un serveur linux ?
Je ne suis pas sûr que cela soit mieux intitulé "Pourquoi Nagios aurait-il besoin de surveiller une charge atteignant 30".
Situation : Je suis en train de configurer Nagios pour notre réseau et j'ai atteint le stade de la configuration de NRPE sur les boîtes *nix. J'avais déjà (sur papier) une idée approximative de l'endroit où je voulais installer les notifications. Pour un serveur particulier, à titre d'exemple, cela ressemble à ceci : 1 minute : avertissement à 90%, évaluation à 100%. 5 minutes : avertissement à 80%, évaluation à 90%. 15 minutes : avertissement à 60 %, évaluation à 70 %.
Le serveur utilise deux cpus virtuels et je prévois d'utiliser le paramètre -r pour obtenir un résultat par cpu (oui, je sais que ce n'est pas vraiment par cpu, c'est la charge pour tous les cpus divisée par le nombre de cpus et cela me convient).
J'étais donc absolument prêt à le mettre en place, quand j'ai vu les valeurs par défaut du fichier de configuration NRPE :
command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20
Cela m'a mis hors de moi. J'ai commencé à me demander si je comprenais vraiment les moyennes de charge. Je vois que le paramètre -r n'est pas utilisé et que les moyennes de charge supérieures à 1 sont normales, mais cela suggère-t-il que la valeur par défaut est celle d'un système à 30 processeurs ? J'ai vu cette question pour lequel la réponse suggère d'utiliser [nombre de processeurs] * 10 pour la notification critique de 5 minutes (une minute peut-être ?), ce qui confirme l'utilisation de valeurs bien plus élevées que celles que j'avais prévues. Je veux dire, sans voir les valeurs par défaut, j'aurais opté pour
command[check_load]=/usr/lib/nagios/plugins/check_load -r -w 0.9,0.8,0.6 -c 1.0,0.9,0.7
mais maintenant j'ai des doutes. Je sais que personne sur Internet ne peut me dire quelles sont les valeurs correctes à utiliser pour notre situation et je ne m'attends pas à ce que quelqu'un le fasse. Je serais très reconnaissant si quelqu'un pouvait me dire si oui ou non je comprends mal la charge et si je dois recommencer mon travail de détective sur les valeurs utiles. Pour ce que ça vaut, j'ai obtenu ces valeurs en me basant simplement sur le fait que j'ai exécuté top
de temps en temps au cours des 6 derniers mois sur le serveur en question. Habituellement, il se situe entre .4 par cpu (.8) et .55 par cpu (1.1) pour une moyenne de 1 minute.