3 votes

Dépannage du redoutable BSOD 0x9C

Nous avons un Dell PowerEdge 2950 fonctionnant sous Windows Server 2003 R2, Enterprise x64 avec le Service Pack 2 installé.

Récemment, nous avons rencontré de multiples erreurs STOP sur ce serveur. Heureusement, il est en place en tant que machine de secours et n'affecte donc pas actuellement notre environnement de production. L'erreur qui apparaît dans le journal du serveur est la suivante :

Event Type: Error
Event Source:   System Error
Event Category: (102)
Event ID:   1003
Description:
Error code 000000000000009c, parameter1 0000000000000004, 
parameter2 fffffadf90881240, parameter3 00000000f2000000, 
parameter4 0000000000060151.

Jusqu'à présent, le mieux que j'ai pu trouver est que l'erreur 9C est une sorte de problème matériel générique. Les autres paramètres n'ont été d'aucune utilité pour réduire ce problème.

Il n'y a pas eu de changement de matériel depuis la mise en service de la machine l'année dernière. Il y a un boîtier jumeau identique (le boîtier principal pour lequel celui-ci sert de basculement) qui ne présente pas ce comportement. Le dernier changement de logiciel a eu lieu le 16 avril 2009, lorsque plusieurs mises à jour de sécurité ont été appliquées. Les écrans bleus ont commencé à apparaître le 9 mai 2009.

Existe-t-il des diagnostics qui peuvent aider à résoudre ce problème ?

2voto

username Points 4705

Voir la réponse de Kazna3 à l'adresse http://www.d-a-l.com/archive/index.php/t-49205.html Il/elle écrit :

Mais d'abord, le BSOD est assez vieux. Le site 0x9C BUGCHECK est lié au matériel, bien connu. Le reste concerne le processeur, c'est un défaut du processeur ou juste le pilote du processeur. :(

Jetez un coup d'œil ici pour l'explication : 0x9C : MACHINE_CHECK_EXCEPTION ( http://msdn2.microsoft.com/en-us/library/ms795775.aspx )

Microsoft avait l'habitude de conseiller cela quand nous l'avons eu avec les P4 :

Étape 1) Mettez à jour votre BIOS (matériel correctifs appelés mises à jour du microcode roulent ici, si votre processeur ou votre AMLI a un errata, il sera corrigé ici).

Étape 2) Appelez immédiatement le fournisseur de matériel comme car il s'agit d'une erreur matérielle stricte.

Étape 3) Remplacer le matériel, en commençant par L'UNITÉ CENTRALE.

En d'autres termes, votre matériel est probablement défectueux. Peut-être une panne de courant, ou une chaleur élevée. Ce n'est pas parce qu'un composant est à l'état solide qu'il ne peut pas tomber en panne. Par exemple : La RAM tombe en panne tout le temps - il y a une raison pour laquelle elle est livrée dans des sacs résistant à l'électricité statique.

0voto

sh-beta Points 6736

Avez-vous un accès physique à la machine ? L'écran LCD d'état affiche-t-il un code d'erreur lorsque cela se produit, ou semble-t-il ne pas s'en rendre compte ?

Si vous avez installé OpenManage, vous avez déjà une longueur d'avance. Vérifiez les journaux d'OpenManage pour voir s'ils ont enregistré des erreurs matérielles. OpenManage comprend également une suite de diagnostics assez complète. Consultez http://www.dell.com/downloads/global/power/ps1q06-20050259-Thathireddy.pdf pour une explication sur son utilisation. Le support Dell vous demande généralement d'exécuter quelques tests de diagnostic CLI, il est donc préférable de prendre contact avec eux.

À titre d'étape générique (et pour éviter que le support ne vous demande de le faire), mettez à jour votre BIOS et le micrologiciel de la BMC de gestion de serveur embarqué. .

Remplacez votre CPU si vous en avez une de rechange.

De plus, cela peut paraître étrange mais si vous avez installé un DRAC, supprimez-le. J'avais un 2850 qui donnait des codes d'erreur CPU (E07F0), gelait de façon aléatoire, et parfois ne démarrait pas. Le remplacement du DRAC a corrigé le problème et il n'y a plus eu de problème depuis.

Si rien de tout cela ne fonctionne, il est temps d'appeler Dell. Ceci est 100% en dessous de la couche de l'OS.

0voto

Voir Microsoft KB 939315 - le pilote storport peut provoquer ce problème...... L'erreur s'est-elle produite au redémarrage, à l'arrêt ou simplement pendant le fonctionnement ?

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X