1 votes

Délais d'attente des disques sur un serveur Exchange 2003 frontal en DMZ

J'ai deux serveurs frontaux Exchange 2003, les deux sont des VM, et les deux sont sur des boîtes physiques Linux différentes exécutant vmware server dans mon dmz.

Il y a quelques jours, toutes mes alertes Nagios se sont arrêtées pour l'un d'entre eux, et les vérifications ping avaient un taux d'erreur élevé. Sur ce vm d'échange frontal, j'ai vu ce qui suit, ce qui semble indiquer des délais/problèmes de disque pendant cette période dans la section système de l'observateur d'événements (les autres sections ne remontent pas très loin en arrière en raison des notifications de spam, je vais devoir corriger cela) :

Event Type: Error
Event Source:   vmscsi
Event Category: None
Event ID:   9
Date:       12/12/2009
Time:       9:25:19 AM
User:       N/A
Computer:   FOO
Description:
The device, \Device\Scsi\vmscsi1, did not respond within the timeout period.

Sur l'hôte Linux, je ne vois rien dans /var/log/messages ou /var/log/vmware (ou quoi que ce soit d'autre en fait) qui me donne des indices. Dans le journal sar, je vois un IOWait ~22 plus élevé à ce moment-là que ce que j'ai vu ailleurs, normalement il ne monte à environ 11 que lorsque les sauvegardes sont exécutées, ce qui n'était pas le cas pendant ce temps. Cela pourrait-il être dû à un disque qui tombe de la matrice ? Quelqu'un sait-il comment vérifier cela sur le Poweredge 2950 (en utilisant dset ?).

Sur l'autre VM frontale, j'ai obtenu ce qui suit (ceci, je ne sais pas vraiment ce que cela signifie, navigateur maître ?) :

Event Type: Error
Event Source:   MRxSmb
Event Category: None
Event ID:   8003
Date:       12/12/2009
Time:       9:33:16 AM
User:       N/A
Computer:   FOO
Description:
The master browser has received a server announcement from the computer FOO02 that believes that it is the master browser for the domain on transport NetBT_Tcpip_{..... The master browser is stopping or an election is being forced.

En plus des questions ci-dessus, j'essaie vraiment de comprendre ce qui s'est passé puisque tout semble s'être rétabli tout seul, des idées ?

Mise à jour :
J'ai trouvé cet utilitaire megacli qui est nouveau pour moi, mais à partir du lendemain de cet événement, j'en vois beaucoup :

Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 03(e1/s3), CDB: 28 00 0a 8c 60 5d 00 00 08 00, Sense: f0 00 03 0a 8c 60 5d 0a 00 00 00 00 11 00 00 00 00 0
Event Data:
===========
Device ID: 3
Enclosure Index: 1
Slot Number: 3

De /opt/MegaRAID/MegaCli/MegaCli -AdpEventLog -GetEvents -f events.log -aALL && cat events.log . Cela ne semble pas bon, quelqu'un sait-il ce que cela signifie spécifiquement ?

2voto

Ed Fries Points 1611

L'événement du navigateur principal est normal et non lié, il peut être ignoré.

Le journal du RAID est cryptique mais puisqu'il liste l'emplacement 3, je suppose qu'il n'y a pas de problème avec le disque de l'emplacement 3. Il devrait y avoir une documentation pour cet événement quelque part sur le site de Dell ou de LSI.

Vous pouvez tester le tableau en effectuant une vérification du tableau. Je ne suis pas sûr que vous puissiez le faire à partir de cet utilitaire dans le système d'exploitation, il peut être exécuté à partir de l'utilitaire de configuration RAID qui est accessible au démarrage.

Si vous disposez d'un emplacement et d'un disque de rechange, vous pouvez installer un nouveau disque, en faire un disque de rechange global, retirer le disque de l'emplacement 3 et laisser tout basculer sur le disque de rechange. Vous pouvez alors tester/remplacer le lecteur de l'emplacement 3 sans contrainte de temps.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X