1 votes

Qu'est-ce qui causerait une charge moyenne de 10-30 (plutôt que 10-30%)

Duplicata possible :
Comment comprendre l'utilisation de la mémoire et la charge moyenne d'un serveur linux ?

Je ne suis pas sûr que cela soit mieux intitulé "Pourquoi Nagios aurait-il besoin de surveiller une charge atteignant 30".

Situation : Je suis en train de configurer Nagios pour notre réseau et j'ai atteint le stade de la configuration de NRPE sur les boîtes *nix. J'avais déjà (sur papier) une idée approximative de l'endroit où je voulais installer les notifications. Pour un serveur particulier, à titre d'exemple, cela ressemble à ceci : 1 minute : avertissement à 90%, évaluation à 100%. 5 minutes : avertissement à 80%, évaluation à 90%. 15 minutes : avertissement à 60 %, évaluation à 70 %.

Le serveur utilise deux cpus virtuels et je prévois d'utiliser le paramètre -r pour obtenir un résultat par cpu (oui, je sais que ce n'est pas vraiment par cpu, c'est la charge pour tous les cpus divisée par le nombre de cpus et cela me convient).

J'étais donc absolument prêt à le mettre en place, quand j'ai vu les valeurs par défaut du fichier de configuration NRPE :

command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20

Cela m'a mis hors de moi. J'ai commencé à me demander si je comprenais vraiment les moyennes de charge. Je vois que le paramètre -r n'est pas utilisé et que les moyennes de charge supérieures à 1 sont normales, mais cela suggère-t-il que la valeur par défaut est celle d'un système à 30 processeurs ? J'ai vu cette question pour lequel la réponse suggère d'utiliser [nombre de processeurs] * 10 pour la notification critique de 5 minutes (une minute peut-être ?), ce qui confirme l'utilisation de valeurs bien plus élevées que celles que j'avais prévues. Je veux dire, sans voir les valeurs par défaut, j'aurais opté pour

command[check_load]=/usr/lib/nagios/plugins/check_load -r -w 0.9,0.8,0.6 -c 1.0,0.9,0.7

mais maintenant j'ai des doutes. Je sais que personne sur Internet ne peut me dire quelles sont les valeurs correctes à utiliser pour notre situation et je ne m'attends pas à ce que quelqu'un le fasse. Je serais très reconnaissant si quelqu'un pouvait me dire si oui ou non je comprends mal la charge et si je dois recommencer mon travail de détective sur les valeurs utiles. Pour ce que ça vaut, j'ai obtenu ces valeurs en me basant simplement sur le fait que j'ai exécuté top de temps en temps au cours des 6 derniers mois sur le serveur en question. Habituellement, il se situe entre .4 par cpu (.8) et .55 par cpu (1.1) pour une moyenne de 1 minute.

0voto

mr.spuratic Points 3330

Les chiffres bruts de la moyenne de charge ne sont que des chiffres, et non un pourcentage d'un absolu. La moyenne de charge et l'utilisation du CPU (qui est généralement exprimée en pourcentage) ne sont pas la même chose. Vous devez surveiller les deux.

Une description approximative de la moyenne de charge (sous Linux au moins) est "le nombre de processus qui pourraient tourner", cela dépend beaucoup de ce que font vos systèmes. La règle empirique est qu'une unité de charge par CPU est "occupée", ce qui explique l'expression check_load -r paramètre. Les E/S élevées et les processus à courte durée de vie peuvent vraiment tout gâcher. Vous pouvez trouver de meilleures descriptions ailleurs.

Pour répondre à votre question : Une charge de 30 pourrait être causée par 30 processus ou threads prêts à faire tourner vos processeurs à fond, sans sleep/polls.

Bon travail pour la course top et avoir une idée de votre charge, ce sont les chiffres avec lesquels vous devriez commencer, et les ajuster au fil du temps pour minimiser les fausses alertes, bien que je suggère de doubler vos seuils critiques.

Je pense que les valeurs d'échantillon de nrpe.cfg sont trop élevées pour une charge de travail typique d'un serveur. Je pense qu'elles sont suffisamment élevées pour ne pas provoquer un flux constant de questions du type "NRPE me dit que la moyenne de charge est trop élevée en permanence". Bizarrement, check_load a lui-même des valeurs par défaut de 0,0,0 et 0,0,0.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X