6 votes

Quelles mesures dois-je surveiller sur mon serveur Linux ?

J'ai été chargé de mettre en place la surveillance de 300 serveurs, en faisant différentes choses. J'ai étudié différents outils, tels que Nagios, Munin, et d'autres, ce qui m'a permis d'avoir une idée assez précise de la manière dont je peux mettre en place un système de surveillance.

Ce que je me demande, c'est quelles sont les mesures habituelles à surveiller par défaut dans le cas où je n'en sais pas beaucoup sur le serveur ? Et quelles sont les "valeurs par défaut saines" en ce qui concerne les alertes ?

J'ai l'intention de déployer un système de surveillance avec des valeurs par défaut saines pour commencer, tout en définissant les rôles des différents systèmes - ce qui devrait prendre un certain temps.

Cette question peut également être posée d'une autre manière :

Si vous deviez concevoir un dispositif de surveillance, que devrait contenir son modèle de surveillance Linux par défaut ?

6voto

BillThor Points 27096

Les mesures habituelles qui indiquent des problèmes sont l'utilisation du processeur, l'utilisation de la mémoire, la moyenne de charge et l'utilisation du disque. Pour les serveurs de messagerie, la taille de la file d'attente est un indicateur important. Pour les serveurs web, le nombre de serveurs occupés est une mesure importante. Un débit excessif du réseau est également source de problèmes. Si vous avez des processus qui doivent vérifier l'heure, NTP peut être un outil important pour maintenir les horloges synchronisées.

Les niveaux d'alerte standard que j'ai utilisés sont les suivants (alerte, critique). Il se peut que vous souhaitiez ajuster vos valeurs en fonction d'un certain nombre de facteurs. Des valeurs plus élevées réduisent le nombre d'alertes, tandis que des valeurs plus basses vous donnent plus de temps pour réagir aux problèmes qui se développent. Ceci pourrait constituer un point de départ approprié pour un modèle.

  • Utilisation soutenue du processeur (80 %, 100 %). Ne pas tenir compte du temps consacré aux processus en cours.
  • Charge moyenne par CPU (2, 5).
  • Utilisation du disque par partition (80 %, 90 %).
  • File d'attente du courrier (10, 50). Utilisez des valeurs inférieures sur les serveurs autres que les serveurs de messagerie.
  • Serveurs web occupés (10, 25).
  • Débit du réseau (80 %, 100 %). Les sauvegardes du réseau et d'autres processus de ce type peuvent dépasser les valeurs. J'utiliserais les paramètres d'étranglement s'ils sont disponibles.
  • Décalage NTP en secondes ( 0.2, 1).

Munin fait un bon travail en rassemblant ces statistiques et d'autres. Il est également capable de déclencher des alarmes lorsque des seuils sont dépassés. Ses capacités d'alerte ne sont pas aussi bonnes que celles de Nagios. La collecte et l'affichage de données historiques en font un bon choix pour vérifier si les valeurs actuelles diffèrent de manière significative des valeurs passées. Il est facile à configurer et peut être exécuté sans générer d'avertissements. Le principal problème est le volume de données capturées et la fréquence fixe de collecte des informations. Il se peut que vous souhaitiez générer des graphiques à la demande. Munin fournit un grand nombre de statistiques que je vérifierais à l'aide de sar lorsqu'un système est en difficulté. Sa page de présentation est utile pour identifier les problèmes éventuels.

Nagios est très bon pour les alertes, mais n'a jamais été très bon pour rassembler les données historiques d'une manière qui permette de les comparer aux valeurs actuelles. Il semble que cela soit en train de changer et que la nouvelle version soit bien meilleure pour collecter ces données. C'est un bon choix pour générer des alertes en cas de problèmes et programmer des arrêts pendant lesquels les alertes ne sont pas générées. Nagios est très bon pour alerter lorsque les services s'arrêtent. Il est particulièrement adapté aux serveurs et services critiques.

2voto

David W Points 3365

À votre place, j'utiliserais Nagios pour un certain nombre de raisons (en voici deux) :

  1. Vous pouvez utiliser des "modèles" et créer des groupes de serveurs, et surveiller différents "groupes" avec différentes mesures. différents "groupes" avec différentes mesures. Par exemple, placez tous vos serveurs web dans un groupe, tous les serveurs de base de données dans un autre groupe, etc. dans un autre groupe, etc...
  2. Il est très facile d'automatiser les alertes pour qu'elles soient envoyées par courrier électronique, etc. créer une escalade d'alertes au cas où le premier répondant d'astreinte ne répond pas à l'alerte dans un certain délai).

Une troisième raison est que Nagios est déjà livré avec un schéma de supervision par défaut, qui prend en charge la plupart des choses que vous voudriez superviser - vous n'auriez donc pas besoin de mettre en place vos propres "métriques" de supervision pour commencer.

Mais si je devais mettre en place mes propres mesures, je surveillerais sur tous les serveurs des éléments tels que : La charge du serveur, l'espace disque libre, la mémoire libre, l'utilisation de l'espace d'échange, et puis je ferais aussi une surveillance externe avec des pings ICMP, etc...

1voto

Khaled Points 35208

Vous pouvez d'abord surveiller les ressources du système, telles que le processeur et la mémoire.

Vous pouvez ensuite contrôler les ressources spécifiques au service. Par exemple, vous pouvez surveiller le temps de réponse et le nombre de connexions actives.

En ce qui concerne les valeurs de surveillance par défaut, je pense qu'elles devraient être liées au modèle d'utilisation prévu et au degré d'occupation du serveur.

1voto

Gaumire Points 825

En général, pour commencer, je surveillerais la charge du serveur, l'utilisation du processeur, la mémoire, l'espace disque, les entrées/sorties et le trafic réseau. Ensuite, en fonction du type de serveur (web/mail/base de données/NIS), je surveille les statistiques spécifiques à l'application et d'autres éléments vitaux tels que les erreurs d'interface, les latences et les temps de réponse, etc.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X