Cela dépend de la taille de votre réseau et de ce que vous essayez de surveiller. Pour les réseaux petits à moyens, Nagios semble être la plate-forme de choix.
Cependant, à partir d'une certaine taille, le "contrôle" est divisé en une variété de fonctions différentes, qui peuvent ou non être gérées par les mêmes outils. Les trois que l'on m'a enseignées sont :
- Gestion des pannes
- Gestion des performances
- Criminalistique/corrélation
Gestion des pannes attrape tout événement dans l'environnement qui nécessite une action immédiate pour le réparer. Pannes de liaison, pannes de matériel, perte de circuits WAN, etc. Ceci est normalement lié à votre système d'alerte. J'ai entendu dire que Nagios fait cela très bien.
Gestion des performances couvre les choses qui ne sont pas un problème immédiat, mais qui pourraient le devenir si on n'y prête pas attention. Il s'agit essentiellement de tout ce qui a trait à la surveillance de l'utilisation et à l'établissement de tendances. Bande passante LAN/WAN, CPU des routeurs/switchs, compteurs d'erreurs et de rejets sur les interfaces. C'est le genre de choses que vous regardez lorsque vous planifiez vos achats et vos projets pour l'année à venir ; cela vous indique quelles parties du réseau ont besoin d'attention, et lesquelles se portent bien. Je suis un fan de Cactus Il gère l'ensemble de la collecte et de la présentation des données en un seul produit, avec une prise en charge intégrée de l'interrogation SNMP des appareils.
Criminalistique/corrélation est destiné aux cas où un incident ponctuel s'est produit et a été résolu, et où vous devez examiner les données historiques. Il s'agit soit de se faire une meilleure idée de ce qui s'est réellement passé et des conséquences, soit de rechercher des exemples de défaillances similaires dans le passé. Dans un cas comme dans l'autre, il faut généralement disposer d'un référentiel unique contenant autant de données de journal que possible, indexé et facilement consultable. Splunk est absolument fantastique à cet égard, même l'édition gratuite ; en outre, vous pouvez même obtenir les journaux de votre serveur dans Splunk. Tant que tout est synchronisé par NTP, vous disposez d'un référentiel unique qui vous montre ce que vos applications, vos serveurs et votre infrastructure réseau ont vu à différents moments d'un incident.
Les autres éléments que vous cherchez à auditer sont davantage couverts en termes de sécurité du réseau que de surveillance du réseau. Par exemple, la surveillance/restriction de la navigation des utilisateurs est facilement réalisable grâce à l'utilisation d'un proxy correctement configuré. Les utilisateurs qui tentent de se connecter à des services de messagerie instantanée externes doivent être bloqués par votre pare-feu Internet ; là encore, les journaux du pare-feu peuvent être exportés vers un analyseur et des rapports peuvent être générés pour rechercher des modèles de trafic suspects. En fait, si vous le pouvez, essayez d'éviter que les postes de travail de vos utilisateurs accèdent directement à l'Internet, en vous assurant que l'Internet ne peut pas être routé depuis l'intérieur de votre réseau local. Cela oblige tout le trafic Internet à passer par un proxy de votre choix, ce qui vous assure un contrôle total de tout le trafic entrant et sortant.