2 votes

Identification de la cause de l'avertissement "nombre de processus" de Nagios sous Linux

Je viens de commencer à recevoir un avertissement Nagios de notre serveur de construction, indiquant que le nombre de processus a dépassé la limite. En regardant nos graphiques Munin, je peux voir que le nombre de processus a augmenté régulièrement de 280 en décembre à la valeur actuelle de 430.

Je me demande comment je peux m'y prendre pour identifier les causes de l'augmentation du nombre de processus, afin de pouvoir redémarrer les services ou ajuster leur configuration si nécessaire.

Détails du serveur : CentOS 5.1, les principales choses qui fonctionnent sont notre serveur de construction Hudson qui tourne sous Tomcat, et un serveur Apache httpd qui est principalement juste un proxy pour Hudson. J'ai essayé de redémarrer httpd et Tomcat, mais le nombre de processus est resté le même. "top" indique que seul un des processus est actif ; les autres sont en sommeil.

4voto

tovare Points 583

Essayez ceci régulièrement pour voir comment le nombre de processus augmente et diminue pour un "certain" processus nommé. Il ne tient pas compte du PID et regarde simplement la fin de la ligne au-delà du temps cpu.

ps -ef | perl -a -F'\d+:\d+:\d+ ' -n -e 'print @F[1]' -- | sort | uniq -c | sort -n

Cela fonctionne sur une boîte RHEL. Vous pouvez le mettre dans cron après avoir obtenu une base de référence de ce à quoi ressemble la liste des processus de démarrage.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X