1 votes

NSCA passive stale --> plusieurs processus nrpe suspendus ?

  • shinken 2.0.3
  • nrpe 2.15

Nous utilisons nsca pour effectuer des contrôles passifs.

define service {
    name salt-service
    register 0

    active_checks_enabled 0
    passive_checks_enabled 1
    check_freshness 1
    freshness_threshold 600
    max_check_attempts 2
    check_interval 5
    retry_interval 3
}

define service {
    use salt-service
    service_description syncthing_procs-2
    host_name x
    check_command check_nrpe!syncthing_procs!10
    display_name Syncthing Procs
}

Bien que le freshness_threshold est de 10 minutes, il y a un cas où les contrôles passifs sont périmés :

Oct 6 09:52:36 x shinken : [Tue Oct 6 09:52:35 2015] Warning : The résultats du service 'syncthing_procs-2' sur l'hôte 'x' sont périmés de 0d 0h 10m 16s (threshold=16714d 9h 42m 35s). Je force un contrôle immédiat du service.

Oh, où est le threshold=16714d 9h 42m 35s alors que je l'ai réglé sur 10 minutes dans le fichier de configuration ? Bien sûr, l'heure du système sur la VM Shinken et l'hôte 'x' est la même.

Il y a beaucoup de services qui sont périmés comme ça. Comme vous pouvez le voir, après qu'un contrôle passif est périmé, nous utilisons check_nrpe pour effectuer un contrôle actif. Et le problème, c'est que nous avons maintenant beaucoup de processus NRPE qui semblent suspendus :

nagios   31404     1  0 Sep18 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   31727     1  0 Oct01 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   31732     1  0 Oct01 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   32148     1  0 Sep30 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   32157     1  0 Sep30 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d

Je viens d'en coller quelques-uns. En fait, il y a > 200 processus.

Donc, outre le mauvais seuil, j'ai aussi une autre question : pourquoi y a-t-il autant de processus nrpe après cela ? Je sais qu'un nouveau processus est créé lors d'une vérification active. Mais il devrait disparaître une fois la vérification terminée, non ?


Ah, je connais la réponse à la première question.

Oh, d'où vient le threshold=16714d 9h 42m 35s alors que je l'ai fixé à 10 minutes dans le fichier de configuration ?

Il semble qu'il y ait une légère différence entre Shinken et Nagios. Il s'agit du temps de l'époque en jours/heures/minutes/secondes.

expr $(date +%s) / 3600 / 24
16714

0 votes

Quel est l'état de chaque nrpe processus ? Il semble que des erreurs se produisent et que le nrpe est devenu un processus enfant de init.

0voto

HVNSweeting Points 494

Il n'est pas possible de dire ce qui a exactement mal tourné dans votre cas. Voici donc quelques réflexions :

Nous utilisons nsca pour effectuer des contrôles passifs. Pourquoi y a-t-il autant de processus NRPE après cela ? Je sais qu'un nouveau processus sera créé lors d'une vérification active. Mais il devrait disparaître une fois la vérification terminée, non ?

Cela semble que nsca ne fonctionne pas correctement, alors des vérifications actives ont été effectuées. Assurez-vous que nsca fonctionne.

Bien que le seuil de fraîcheur soit de 10 minutes, il arrive que les contrôles passifs soient périmés.

ou nsca n'est pas configuré pour envoyer le résultat passif à shinken

Je sais qu'un nouveau processus sera bifurqué lors d'une vérification active. Mais il devrait disparaître une fois la vérification terminée, non ?

Peut-être que les vérifications n'ont pas été faites et que les connexions sont gardées par l'autre côté (Shinken).

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X