3 votes

Des serveurs aléatoires dans une ferme Citrix font soudainement écran bleu (principalement 0x0000008e et 0x0000007e).

Je suis responsable d'une ferme Citrix Presentation Server 4.5. A partir du vendredi 30. novembre, mes serveurs ont commencé à tomber en panne de manière aléatoire. Jusqu'à présent, nous avons connu 80 pannes, ce qui est manifestement un problème de plus en plus important pour nous. J'ai plus de 12 ans d'expérience en informatique et je sais donc faire la différence entre 0 et 1, mais j'ai du mal à résoudre ce problème.

Nous avons annulé tous les changements récents auxquels je peux penser pour différents groupes de serveurs, mais tous les groupes semblent toujours se planter. Je n'ai pas les compétences nécessaires pour interpréter les vidages de mémoire afin de trouver le coupable.

  • Quelqu'un a-t-il rencontré le même problème ou un problème similaire ? - Il pourrait s'agir d'un problème générique lié à Windows.
  • À part exécuter "analyze -v" dans WinDbg, comment puis-je me frayer un chemin à travers les vidages de mémoire pour voir ce qui a réellement déclenché la BSOD ?
  • Quelles sont les étapes à suivre pour résoudre ce problème ?

Toute aide est la bienvenue. Je peux également fournir des liens vers des vidages de mémoire du noyau ou des sorties WinDbg si nécessaire.

Merci de votre attention !

Description du problème

La majorité des erreurs STOP que nous rencontrons sont :

  • 0x0000008e KERNEL_MODE_EXCEPTION_NOT_HANDLED (50%)
  • 0x0000007e EXCEPTION_SYSTÈME_THREAD_NOT_HANDLED (26%)
  • 0x00000050 PAGE_FAULT_IN_NONPAGED_AREA (21%)

Nous voyons également quelques 0x0000000a IRQL_NOT_LESS_OR_EQUAL (3%).

Pour les contrôles de bogues 0x0000008e et 0x0000007e, le code d'exception est le suivant 0xc0000005 (Violation de l'accès). Lorsque l'on ouvre les fichiers dump dans WinDbg, la plupart des détails sont exactement les mêmes, pour tous les contrôles de bogues 0x0000008e et 0x0000007e respectivement :

0x0000008e

  • Adresse d'exception : 0x808bc9e3
  • Cadre du piège : [varie]
  • FAILURE_BUCKET_ID : 0x8E_nt!HvpGetCellMapped+97
  • Probablement causé par (IMAGE_NAME) : ntkrpamp.exe

0x0000007e

  • Adresse d'exception : 0x808369b6
  • Adresse de l'enregistrement d'exception : 0xf70d3be0
  • Adresse de l'enregistrement du contexte : 0xf70d38dc
  • FAILURE_BUCKET_ID : 0x7E_nt!MmPurgeSection+14
  • Probablement causée par : memory_corruption

Environ 30 % des pannes se produisent entre 17 et 19 heures, ce qui m'amène à penser qu'elles se produisent plus souvent lors des déconnexions. Mais encore une fois, seulement ~15% se produisent entre 15:00 et 17:00.

Résumé de l'exploitation

  • Citrix Presentation Server 4.5 R06 sur Windows Server 2003 R2 SP2
  • Tous les correctifs hautement prioritaires, au moins à partir d'octobre installés
  • Virtualisé à l'aide de VMWare ESX/vSphere 4.1 sur des serveurs lames HP Proliant BL460c G6
  • Environ 53 serveurs de présentation en production, répartis en trois silos - dont un seul, le plus grand, est affecté.
  • 2 vCPU (5 GHz réservés), 8 GB RAM (tous réservés) pour chaque Presentation Server
  • Beaucoup d'espace disque disponible
  • Très peu de pilotes d'imprimantes - suppression automatique des pilotes non approuvés chaque nuit
  • ~1.000 utilisateurs simultanés en période de pointe, ce qui est atteint vers 10h30 (en semaine)
  • Le nombre de sessions diminue régulièrement entre 15:00 et 19:00 pour atteindre ~230

2voto

user114106 Points 141

Nous avons eu un problème similaire sur une ancienne version de Citrix (PS4) qui était dû aux pilotes d'impression HP. J'ai dû effacer tout le lot avant de réinstaller les pilotes appropriés et cela a semblé résoudre le problème de l'écran bleu. Je suis également curieux au sujet de la "suppression automatique des pilotes non approuvés chaque nuit". Si vous supprimez les pilotes non approuvés chaque nuit, pourquoi autorisez-vous leur installation ? Vous pouvez empêcher leur installation dans les politiques de Citrix. Je pense que c'est sous Printing -> Drivers -> Native printer driver auto-install (set to do not automatically install).

0voto

abstrask Points 1668

Nous avons fini par appliquer le roll-up pack 7 de PS 4.5 (qui n'a pas été installé parce qu'il avait déjà brisé la fiabilité de la session pour nous) et un certain nombre de correctifs postérieurs à R07.

En outre, nous avons remplacé la dernière version bêta de UPHClean 2.0, que Microsoft a depuis abandonné en tant que composant séparé (toujours intégré aux versions ultérieures de Windows), par la version plus récente UPHClean 1.6g.

L'exploitation est restée stable depuis, mais on ne sait toujours pas pourquoi l'enfer s'est soudainement déchaîné, sans qu'aucun changement majeur n'ait été apporté.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X