J'ai deux serveurs frontaux Exchange 2003, les deux sont des VM, et les deux sont sur des boîtes physiques Linux différentes exécutant vmware server dans mon dmz.
Il y a quelques jours, toutes mes alertes Nagios se sont arrêtées pour l'un d'entre eux, et les vérifications ping avaient un taux d'erreur élevé. Sur ce vm d'échange frontal, j'ai vu ce qui suit, ce qui semble indiquer des délais/problèmes de disque pendant cette période dans la section système de l'observateur d'événements (les autres sections ne remontent pas très loin en arrière en raison des notifications de spam, je vais devoir corriger cela) :
Event Type: Error
Event Source: vmscsi
Event Category: None
Event ID: 9
Date: 12/12/2009
Time: 9:25:19 AM
User: N/A
Computer: FOO
Description:
The device, \Device\Scsi\vmscsi1, did not respond within the timeout period.
Sur l'hôte Linux, je ne vois rien dans /var/log/messages ou /var/log/vmware (ou quoi que ce soit d'autre en fait) qui me donne des indices. Dans le journal sar, je vois un IOWait ~22 plus élevé à ce moment-là que ce que j'ai vu ailleurs, normalement il ne monte à environ 11 que lorsque les sauvegardes sont exécutées, ce qui n'était pas le cas pendant ce temps. Cela pourrait-il être dû à un disque qui tombe de la matrice ? Quelqu'un sait-il comment vérifier cela sur le Poweredge 2950 (en utilisant dset ?).
Sur l'autre VM frontale, j'ai obtenu ce qui suit (ceci, je ne sais pas vraiment ce que cela signifie, navigateur maître ?) :
Event Type: Error
Event Source: MRxSmb
Event Category: None
Event ID: 8003
Date: 12/12/2009
Time: 9:33:16 AM
User: N/A
Computer: FOO
Description:
The master browser has received a server announcement from the computer FOO02 that believes that it is the master browser for the domain on transport NetBT_Tcpip_{..... The master browser is stopping or an election is being forced.
En plus des questions ci-dessus, j'essaie vraiment de comprendre ce qui s'est passé puisque tout semble s'être rétabli tout seul, des idées ?
Mise à jour :
J'ai trouvé cet utilitaire megacli qui est nouveau pour moi, mais à partir du lendemain de cet événement, j'en vois beaucoup :
Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 03(e1/s3), CDB: 28 00 0a 8c 60 5d 00 00 08 00, Sense: f0 00 03 0a 8c 60 5d 0a 00 00 00 00 11 00 00 00 00 0
Event Data:
===========
Device ID: 3
Enclosure Index: 1
Slot Number: 3
De /opt/MegaRAID/MegaCli/MegaCli -AdpEventLog -GetEvents -f events.log -aALL && cat events.log
. Cela ne semble pas bon, quelqu'un sait-il ce que cela signifie spécifiquement ?