J'ai essayé le meilleur plugin pour nagios pour la surveillance SMART. Il y en a quelques-uns, mais ils ne surveillent que la température. Mais avec smartctl nous pouvons trouver plus de données. Est-ce que vous avez de meilleurs plugins avec toutes les données de smart ?
Réponses
Trop de publicités?Les plugin check_ide_smart fait partie du groupe standard des plugins nagios. Malgré la partie "ide" de son nom, il utilise smartctl pour vérifier tous les lecteurs pris en charge par smartctl.
Il peut renvoyer des résultats adaptés à nagios, par exemple
$ ./check_ide_smart -n -d /dev/sda
OK - Operational (17/17 tests passed)
Ou le statut SMART complet :
$ ./check_ide_smart -d /dev/sda
Id= 1, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 16, Passed
Id= 2, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 50, Passed
Id= 3, Status= 7 {PreFailure , OnLine }, Value=120, Threshold= 24, Passed
Id= 4, Status=18 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id= 5, Status=51 {PreFailure , OnLine }, Value=100, Threshold= 5, Passed
Id= 7, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 67, Passed
Id= 8, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 20, Passed
Id= 9, Status=18 {Advisory , OnLine }, Value= 96, Threshold= 0, Passed
Id= 10, Status=19 {PreFailure , OnLine }, Value=100, Threshold= 60, Passed
Id= 12, Status=50 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=192, Status=50 {Advisory , OnLine }, Value= 99, Threshold= 50, Passed
Id=193, Status=18 {Advisory , OnLine }, Value= 99, Threshold= 50, Passed
Id=194, Status= 2 {Advisory , OnLine }, Value=144, Threshold= 0, Passed
Id=196, Status=50 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=197, Status=34 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=198, Status= 8 {Advisory , OffLine}, Value=100, Threshold= 0, Passed
Id=199, Status=10 {Advisory , OnLine }, Value=200, Threshold= 0, Passed
OffLineStatus=0 {NeverStarted}, AutoOffLine=No, OffLineTimeout=30 minutes
OffLineCapability=91 {Immediate Auto SuspendOnCmd}
SmartRevision=16, CheckSum=23, SmartCapability=3 {SaveOnStandBy AutoSave}
J'ai utilisé le plugin : check_ide_smart ; cependant, j'ai fini par découvrir qu'il ne me notifiait pas les erreurs dans le smart log sur le disque.
Le problème est apparemment toujours d'actualité après 5 ans ?
473 check_ide_smart ignore les erreurs SMART ! http://sourceforge.net/p/nagiosplug/bugs/473/
J'active maintenant un démon smartd plus détaillé sur chaque système. Je demanderai ensuite à nagios de m'avertir si ce processus s'arrête. Je pourrais avoir une autre vérification et un redémarrage si ce n'est pas en cours d'exécution dans le cron.
Dans le fichier smartd.conf :
Premier disque dur ATA/IDE (primaire). Surveiller tous les attributs, activer la collecte automatique de données en ligne, la sauvegarde automatique des attributs, et lancez un autotest court tous les jours entre 2 et 3 heures du matin, et un autotest long le samedi entre 3 et 4 heures du matin. le samedi entre 3 et 4 heures du matin. signaler les changements de température bruts >= 5 Celsius
smartd.conf
DEVICESCAN -H -m root -a -o on -S on -s (S/../.././02|L/../../6/03) -W 5