J'ai un Dell PowerEdge 2850 fonctionnant sous Windows Server 2003. C'est le serveur de fichiers principal d'un de mes clients. J'ai un autre serveur fonctionnant également sous Windows Server 2003 qui fait office de serveur de médias principal pour Symantec Backup Exec 12.
J'ai récemment effectué une mise à niveau de Backup Exec 11d vers 12. Cette mise à niveau était nécessaire car nous venions également de passer d'Exchange 2003 à Exchange 2007. Après la mise à niveau, j'ai dû pousser l'installation de la nouvelle version 12 des agents distants Backup Exec sur chacun des serveurs que je sauvegarde (environ 6 au total). Cinq de mes serveurs fonctionnent très bien, effectuant fidèlement les sauvegardes chaque nuit. Mon serveur de fichiers tombe régulièrement en panne.
Observations :
- Lorsque le serveur tombe en panne, il ne fait pas d'écran bleu, il se bloque complètement. Même la souris ne répond plus. Si vous laissez le serveur bloqué suffisamment longtemps, il finira par redémarrer et s'arrêtera sur l'écran d'accueil de Windows.
- Il n'y a absolument aucune preuve utile d'un problème dans l'observateur d'événements. Les journaux passent d'un enregistrement de routine à un événement d'arrêt inexpliqué le lendemain matin, lorsque je dois réinitialiser le serveur pour qu'il démarre.
- Dans 90% des cas, le serveur ne démarre pas proprement, il se bloque sur l'écran d'accueil de Windows. Je n'ai pas de lumière à apporter ici. Lorsque le serveur se bloque, tout ce que je peux faire est de le réinitialiser et de réessayer. Même après un démarrage réussi et une opération chkdsk /r, si vous redémarrez la machine, vous avez 90 % de chances qu'elle ne se remette pas en marche proprement.
L'histoire :
Ce serveur a commencé à tomber en panne pendant les sauvegardes nocturnes il y a environ un mois. J'ai essayé tout ce que je pouvais imaginer pour résoudre le problème et j'ai fini par abandonner parce que je ne pouvais pas continuer à venir au bureau à 4 heures du matin pour essayer de remettre le serveur en ligne. Un vendredi, j'ai eu de la chance et le serveur est resté en ligne pendant toute la durée de sa sauvegarde complète. J'en ai profité pour restaurer la sauvegarde complète sur un serveur temporaire que j'ai mis en place et j'ai transféré tous mes utilisateurs sur ce serveur temporaire. Puis j'ai rechargé le serveur de fichiers en difficulté.
J'ai gardé tous mes utilisateurs sur le serveur de fichiers temporaire pendant environ 3 semaines. J'ai installé le même agent distant Backup Exec et le même client Trend Micro A/V sur le serveur temporaire que sur le serveur de fichiers normal. Pendant cette période, je n'ai eu absolument aucun problème pour sauvegarder le serveur temporaire.
J'ai testé le serveur de fichiers rechargé de manière approfondie. J'ai redémarré le serveur une fois par heure tous les jours pendant 3 semaines en essayant de le faire échouer. Il ne l'a jamais fait. J'étais convaincu que le rechargement était la réponse à mes problèmes. J'ai déplacé toutes les données du serveur temporaire vers le serveur normal. J'ai effectué 3 sauvegardes nocturnes avant qu'il ne se bloque à nouveau et qu'il ne recommence à ne pas démarrer proprement.
Ce week-end, j'ai décidé de surveiller le serveur de fichiers pendant toute la durée de la sauvegarde. Je me suis connecté par RDP au serveur de fichiers et également au serveur exécutant Backup Exec. Sur le serveur de fichiers, j'ai ouvert le gestionnaire de tâches afin de pouvoir visualiser les processus et surveiller l'utilisation du CPU et de la mémoire. Tout se déroulait sans problème pour une sauvegarde d'environ 60 Go. Puis j'ai remarqué que le nombre d'octets de la tâche de sauvegarde dans Backup Exec avait cessé de progresser. J'ai jeté un coup d'œil à ma session RDP sur le serveur de fichiers, et j'ai reçu des mises à jour en temps réel de l'utilisation du CPU et de la mémoire - toutes deux proches de 0 %, ce qui est inhabituel. Les sauvegardes tournent habituellement autour de 40 % d'utilisation pendant la durée de la tâche de sauvegarde.
Permettez-moi de réitérer ce point : L'écran se rafraîchissait et j'obtenais des mises à jour du gestionnaire de tâches en temps réel. - jusqu'à ce que je clique sur le menu Démarrer. L'écran est devenu noir et le serveur s'est verrouillé. En vérité, je pense que le serveur s'était déjà bloqué, la carte vidéo n'avait pas encore compris.
Je suis retourné dans mon sac à malice : je me suis rendu au bureau et j'ai réinitialisé le serveur à plusieurs reprises lorsqu'il s'est arrêté à l'écran d'accueil de Windows. J'ai fait cela pendant 2 heures sans obtenir un démarrage réussi. J'ai commencé à paniquer parce que je n'avais pas de sauvegarde décente à utiliser pour tout remettre sur le serveur de fichiers temporaire qui fonctionnait.
Après avoir épuisé tout ce que je savais faire, j'ai pris une grande respiration, j'ai démarré sur le CD de Windows Server 2003 et j'ai effectué une installation de réparation de Windows. Le serveur s'est remis en marche sans problème, avec toutes mes données intactes. Je peux maintenant redémarrer le serveur à volonté et il se remet en marche proprement. Le problème est que j'ai peur de revenir à la case départ dès que j'essaierai de sauvegarder à nouveau ces données.
Alors laissez-moi résumer les choses :
Voici ce que j'ai fait jusqu'à présent pour dépanner ce serveur :
- Suppression et recréation des ensembles RAID 5. Initialisé les disques. Rechargez le serveur avec une nouvelle installation de Server 2003.
- J'ai confirmé avec Dell que j'ai installé les derniers BIOS et pilotes NIC approuvés par Dell.
- Désinstallation / réinstallation de l'agent distant Backup Exec.
- Désinstaller le client A/V de Trend Micro.
- Configuration du serveur no pour se redémarrer après un écran bleu afin que je puisse voir toute erreur d'arrêt. Je pensais que le serveur faisait un écran bleu, mais depuis que j'ai activé ce paramètre, je sais maintenant que le serveur se bloque complètement.
- Exécutez chkdsk /r à partir de la console de récupération Windows. Plusieurs erreurs ont été trouvées et corrigées, mais n'ont pas aidé mon problème.
Aidez-nous à confirmer ou infirmer les hypothèses suivantes :
- Il y a deux problèmes à l'œuvre ici. La raison pour laquelle le serveur se bloque en premier lieu, et la raison pour laquelle le serveur ne démarre pas proprement après un blocage.
- Il s'agit en définitive d'un problème de logiciel. Le serveur fonctionne bien et peut être redémarré proprement toute la journée - jusqu'au premier blocage - après un nouveau chargement du système d'exploitation ou même une installation de réparation.
- Ce n'est pas un problème avec Backup Exec en général. Tous mes autres serveurs se sauvegardent très bien. Pour information, tous les autres serveurs fonctionnent sous Server 2003, et certains d'entre eux contiennent plus de données que le serveur de fichiers en question ici.
Toute aide est appréciée. L'ironie est presque trop difficile à supporter. La sauvegarde de mes données est ce qui les met en danger.