- shinken 2.0.3
- nrpe 2.15
Nous utilisons nsca pour effectuer des contrôles passifs.
define service {
name salt-service
register 0
active_checks_enabled 0
passive_checks_enabled 1
check_freshness 1
freshness_threshold 600
max_check_attempts 2
check_interval 5
retry_interval 3
}
define service {
use salt-service
service_description syncthing_procs-2
host_name x
check_command check_nrpe!syncthing_procs!10
display_name Syncthing Procs
}
Bien que le freshness_threshold
est de 10 minutes, il y a un cas où les contrôles passifs sont périmés :
Oct 6 09:52:36 x shinken : [Tue Oct 6 09:52:35 2015] Warning : The résultats du service 'syncthing_procs-2' sur l'hôte 'x' sont périmés de 0d 0h 10m 16s (threshold=16714d 9h 42m 35s). Je force un contrôle immédiat du service.
Oh, où est le threshold=16714d 9h 42m 35s
alors que je l'ai réglé sur 10 minutes dans le fichier de configuration ? Bien sûr, l'heure du système sur la VM Shinken et l'hôte 'x' est la même.
Il y a beaucoup de services qui sont périmés comme ça. Comme vous pouvez le voir, après qu'un contrôle passif est périmé, nous utilisons check_nrpe
pour effectuer un contrôle actif. Et le problème, c'est que nous avons maintenant beaucoup de processus NRPE qui semblent suspendus :
nagios 31404 1 0 Sep18 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 31727 1 0 Oct01 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 31732 1 0 Oct01 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 32148 1 0 Sep30 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 32157 1 0 Sep30 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
Je viens d'en coller quelques-uns. En fait, il y a > 200 processus.
Donc, outre le mauvais seuil, j'ai aussi une autre question : pourquoi y a-t-il autant de processus nrpe après cela ? Je sais qu'un nouveau processus est créé lors d'une vérification active. Mais il devrait disparaître une fois la vérification terminée, non ?
Ah, je connais la réponse à la première question.
Oh, d'où vient le threshold=16714d 9h 42m 35s alors que je l'ai fixé à 10 minutes dans le fichier de configuration ?
Il semble qu'il y ait une légère différence entre Shinken et Nagios. Il s'agit du temps de l'époque en jours/heures/minutes/secondes.
expr $(date +%s) / 3600 / 24
16714
0 votes
Quel est l'état de chaque
nrpe
processus ? Il semble que des erreurs se produisent et que lenrpe
est devenu un processus enfant de init.