Nous avons un serveur Graphite pour collecter des données via collectd, statsd, JMXTrans ... Depuis quelques jours, nous avons fréquemment des trous dans nos données. En fouillant dans les données que nous avons encore, nous pouvons constater une augmentation de la taille du cache carbone (de 50K à 4M). Nous ne voyons pas d'augmentation du nombre de métriques collectées (metricsReceived est stable à environ 300K). Nous constatons une augmentation du nombre de requêtes, qui passe de 1000 à 1500 en moyenne.
Étrangement, le cpuUsage diminue légèrement de 100% (nous avons 4 CPU) à 50% lorsque la taille du cache augmente.
Étrangement, nous constatons à nouveau une augmentation du nombre d'octets lus sur le disque, et une diminution du nombre d'octets écrits.
Nous avons configuré le carbone principalement avec des valeurs par défaut :
- MAX_CACHE_SIZE = inf.
- MAX_UPDATES_PAR_SECONDE = 5000
- MAX_CRÉATIONS_PAR_MINUTE = 2000
Il est évident que quelque chose a changé dans notre système, mais nous ne comprenons pas quoi, ni comment nous pouvons trouver cette cause ...
Une aide ?