Nous avons surveillé l'utilisation de la RAM de nos serveurs Debian afin de recevoir des alertes lorsque l'utilisation de la RAM dépasse un certain seuil de pourcentage.
Cependant, un pourcentage élevé d'utilisation de la mémoire vive n'est pas nécessairement un problème et peut même être souhaitable car il suggère que la mémoire vive fait son travail de mise en cache et d'accélération (il y a beaucoup de questions sur les défauts de serveur à ce sujet). Le résultat est que je ne suis pas sûr que nous puissions dire définitivement "< 30% de ram disponible est une mauvaise chose" et je veux dire mauvaise dans le sens de - envoyer un message texte à quelqu'un et le réveiller.
Nous pouvons prendre en compte des éléments tels que le cache du disque lors du calcul de la RAM disponible, mais le même problème persiste : parfois, nous veulent Beaucoup de mémoire vive à utiliser. Nous pouvons aussi surveiller des choses comme swapio pour identifier les niveaux élevés de swapping, mais encore une fois, ce n'est pas nécessairement une mauvaise chose en soi. Cela peut indiquer une occupé et non un serveur défaillant.
Quelqu'un peut-il suggérer une métrique que nous pourrions mesurer et déclarer définitivement "telle quantité de ceci est un problème que quelqu'un doit aller voir" ? Cela pourrait être aussi simple que de dire "aucun serveur ne devrait jamais avoir moins de 10% de RAM libre".
Ou alors, sommes-nous en train d'aboyer sur le mauvais arbre ? Devrions-nous nous contenter de surveiller les services eux-mêmes (par exemple, les pages se chargent-elles rapidement) et conserver le niveau de ram enregistré et représenté graphiquement au cas où nous aurions besoin de l'examiner ?