Je suis responsable d'une ferme Citrix Presentation Server 4.5. A partir du vendredi 30. novembre, mes serveurs ont commencé à tomber en panne de manière aléatoire. Jusqu'à présent, nous avons connu 80 pannes, ce qui est manifestement un problème de plus en plus important pour nous. J'ai plus de 12 ans d'expérience en informatique et je sais donc faire la différence entre 0 et 1, mais j'ai du mal à résoudre ce problème.
Nous avons annulé tous les changements récents auxquels je peux penser pour différents groupes de serveurs, mais tous les groupes semblent toujours se planter. Je n'ai pas les compétences nécessaires pour interpréter les vidages de mémoire afin de trouver le coupable.
- Quelqu'un a-t-il rencontré le même problème ou un problème similaire ? - Il pourrait s'agir d'un problème générique lié à Windows.
- À part exécuter "analyze -v" dans WinDbg, comment puis-je me frayer un chemin à travers les vidages de mémoire pour voir ce qui a réellement déclenché la BSOD ?
- Quelles sont les étapes à suivre pour résoudre ce problème ?
Toute aide est la bienvenue. Je peux également fournir des liens vers des vidages de mémoire du noyau ou des sorties WinDbg si nécessaire.
Merci de votre attention !
Description du problème
La majorité des erreurs STOP que nous rencontrons sont :
- 0x0000008e KERNEL_MODE_EXCEPTION_NOT_HANDLED (50%)
- 0x0000007e EXCEPTION_SYSTÈME_THREAD_NOT_HANDLED (26%)
- 0x00000050 PAGE_FAULT_IN_NONPAGED_AREA (21%)
Nous voyons également quelques 0x0000000a IRQL_NOT_LESS_OR_EQUAL (3%).
Pour les contrôles de bogues 0x0000008e et 0x0000007e, le code d'exception est le suivant 0xc0000005 (Violation de l'accès). Lorsque l'on ouvre les fichiers dump dans WinDbg, la plupart des détails sont exactement les mêmes, pour tous les contrôles de bogues 0x0000008e et 0x0000007e respectivement :
0x0000008e
- Adresse d'exception : 0x808bc9e3
- Cadre du piège : [varie]
- FAILURE_BUCKET_ID : 0x8E_nt!HvpGetCellMapped+97
- Probablement causé par (IMAGE_NAME) : ntkrpamp.exe
0x0000007e
- Adresse d'exception : 0x808369b6
- Adresse de l'enregistrement d'exception : 0xf70d3be0
- Adresse de l'enregistrement du contexte : 0xf70d38dc
- FAILURE_BUCKET_ID : 0x7E_nt!MmPurgeSection+14
- Probablement causée par : memory_corruption
Environ 30 % des pannes se produisent entre 17 et 19 heures, ce qui m'amène à penser qu'elles se produisent plus souvent lors des déconnexions. Mais encore une fois, seulement ~15% se produisent entre 15:00 et 17:00.
Résumé de l'exploitation
- Citrix Presentation Server 4.5 R06 sur Windows Server 2003 R2 SP2
- Tous les correctifs hautement prioritaires, au moins à partir d'octobre installés
- Virtualisé à l'aide de VMWare ESX/vSphere 4.1 sur des serveurs lames HP Proliant BL460c G6
- Environ 53 serveurs de présentation en production, répartis en trois silos - dont un seul, le plus grand, est affecté.
- 2 vCPU (5 GHz réservés), 8 GB RAM (tous réservés) pour chaque Presentation Server
- Beaucoup d'espace disque disponible
- Très peu de pilotes d'imprimantes - suppression automatique des pilotes non approuvés chaque nuit
- ~1.000 utilisateurs simultanés en période de pointe, ce qui est atteint vers 10h30 (en semaine)
- Le nombre de sessions diminue régulièrement entre 15:00 et 19:00 pour atteindre ~230