4 votes

La sauvegarde de mes données provoque le crash de mon serveur avec Symantec Backup Exec 12, ou comment j'ai appris à détester l'ironie.

J'ai un Dell PowerEdge 2850 fonctionnant sous Windows Server 2003. C'est le serveur de fichiers principal d'un de mes clients. J'ai un autre serveur fonctionnant également sous Windows Server 2003 qui fait office de serveur de médias principal pour Symantec Backup Exec 12.

J'ai récemment effectué une mise à niveau de Backup Exec 11d vers 12. Cette mise à niveau était nécessaire car nous venions également de passer d'Exchange 2003 à Exchange 2007. Après la mise à niveau, j'ai dû pousser l'installation de la nouvelle version 12 des agents distants Backup Exec sur chacun des serveurs que je sauvegarde (environ 6 au total). Cinq de mes serveurs fonctionnent très bien, effectuant fidèlement les sauvegardes chaque nuit. Mon serveur de fichiers tombe régulièrement en panne.

Observations :

  • Lorsque le serveur tombe en panne, il ne fait pas d'écran bleu, il se bloque complètement. Même la souris ne répond plus. Si vous laissez le serveur bloqué suffisamment longtemps, il finira par redémarrer et s'arrêtera sur l'écran d'accueil de Windows.
  • Il n'y a absolument aucune preuve utile d'un problème dans l'observateur d'événements. Les journaux passent d'un enregistrement de routine à un événement d'arrêt inexpliqué le lendemain matin, lorsque je dois réinitialiser le serveur pour qu'il démarre.
  • Dans 90% des cas, le serveur ne démarre pas proprement, il se bloque sur l'écran d'accueil de Windows. Je n'ai pas de lumière à apporter ici. Lorsque le serveur se bloque, tout ce que je peux faire est de le réinitialiser et de réessayer. Même après un démarrage réussi et une opération chkdsk /r, si vous redémarrez la machine, vous avez 90 % de chances qu'elle ne se remette pas en marche proprement.

L'histoire :

Ce serveur a commencé à tomber en panne pendant les sauvegardes nocturnes il y a environ un mois. J'ai essayé tout ce que je pouvais imaginer pour résoudre le problème et j'ai fini par abandonner parce que je ne pouvais pas continuer à venir au bureau à 4 heures du matin pour essayer de remettre le serveur en ligne. Un vendredi, j'ai eu de la chance et le serveur est resté en ligne pendant toute la durée de sa sauvegarde complète. J'en ai profité pour restaurer la sauvegarde complète sur un serveur temporaire que j'ai mis en place et j'ai transféré tous mes utilisateurs sur ce serveur temporaire. Puis j'ai rechargé le serveur de fichiers en difficulté.

J'ai gardé tous mes utilisateurs sur le serveur de fichiers temporaire pendant environ 3 semaines. J'ai installé le même agent distant Backup Exec et le même client Trend Micro A/V sur le serveur temporaire que sur le serveur de fichiers normal. Pendant cette période, je n'ai eu absolument aucun problème pour sauvegarder le serveur temporaire.

J'ai testé le serveur de fichiers rechargé de manière approfondie. J'ai redémarré le serveur une fois par heure tous les jours pendant 3 semaines en essayant de le faire échouer. Il ne l'a jamais fait. J'étais convaincu que le rechargement était la réponse à mes problèmes. J'ai déplacé toutes les données du serveur temporaire vers le serveur normal. J'ai effectué 3 sauvegardes nocturnes avant qu'il ne se bloque à nouveau et qu'il ne recommence à ne pas démarrer proprement.

Ce week-end, j'ai décidé de surveiller le serveur de fichiers pendant toute la durée de la sauvegarde. Je me suis connecté par RDP au serveur de fichiers et également au serveur exécutant Backup Exec. Sur le serveur de fichiers, j'ai ouvert le gestionnaire de tâches afin de pouvoir visualiser les processus et surveiller l'utilisation du CPU et de la mémoire. Tout se déroulait sans problème pour une sauvegarde d'environ 60 Go. Puis j'ai remarqué que le nombre d'octets de la tâche de sauvegarde dans Backup Exec avait cessé de progresser. J'ai jeté un coup d'œil à ma session RDP sur le serveur de fichiers, et j'ai reçu des mises à jour en temps réel de l'utilisation du CPU et de la mémoire - toutes deux proches de 0 %, ce qui est inhabituel. Les sauvegardes tournent habituellement autour de 40 % d'utilisation pendant la durée de la tâche de sauvegarde.

Permettez-moi de réitérer ce point : L'écran se rafraîchissait et j'obtenais des mises à jour du gestionnaire de tâches en temps réel. - jusqu'à ce que je clique sur le menu Démarrer. L'écran est devenu noir et le serveur s'est verrouillé. En vérité, je pense que le serveur s'était déjà bloqué, la carte vidéo n'avait pas encore compris.

Je suis retourné dans mon sac à malice : je me suis rendu au bureau et j'ai réinitialisé le serveur à plusieurs reprises lorsqu'il s'est arrêté à l'écran d'accueil de Windows. J'ai fait cela pendant 2 heures sans obtenir un démarrage réussi. J'ai commencé à paniquer parce que je n'avais pas de sauvegarde décente à utiliser pour tout remettre sur le serveur de fichiers temporaire qui fonctionnait.

Après avoir épuisé tout ce que je savais faire, j'ai pris une grande respiration, j'ai démarré sur le CD de Windows Server 2003 et j'ai effectué une installation de réparation de Windows. Le serveur s'est remis en marche sans problème, avec toutes mes données intactes. Je peux maintenant redémarrer le serveur à volonté et il se remet en marche proprement. Le problème est que j'ai peur de revenir à la case départ dès que j'essaierai de sauvegarder à nouveau ces données.

Alors laissez-moi résumer les choses :

Voici ce que j'ai fait jusqu'à présent pour dépanner ce serveur :

  1. Suppression et recréation des ensembles RAID 5. Initialisé les disques. Rechargez le serveur avec une nouvelle installation de Server 2003.
  2. J'ai confirmé avec Dell que j'ai installé les derniers BIOS et pilotes NIC approuvés par Dell.
  3. Désinstallation / réinstallation de l'agent distant Backup Exec.
  4. Désinstaller le client A/V de Trend Micro.
  5. Configuration du serveur no pour se redémarrer après un écran bleu afin que je puisse voir toute erreur d'arrêt. Je pensais que le serveur faisait un écran bleu, mais depuis que j'ai activé ce paramètre, je sais maintenant que le serveur se bloque complètement.
  6. Exécutez chkdsk /r à partir de la console de récupération Windows. Plusieurs erreurs ont été trouvées et corrigées, mais n'ont pas aidé mon problème.

Aidez-nous à confirmer ou infirmer les hypothèses suivantes :

  1. Il y a deux problèmes à l'œuvre ici. La raison pour laquelle le serveur se bloque en premier lieu, et la raison pour laquelle le serveur ne démarre pas proprement après un blocage.
  2. Il s'agit en définitive d'un problème de logiciel. Le serveur fonctionne bien et peut être redémarré proprement toute la journée - jusqu'au premier blocage - après un nouveau chargement du système d'exploitation ou même une installation de réparation.
  3. Ce n'est pas un problème avec Backup Exec en général. Tous mes autres serveurs se sauvegardent très bien. Pour information, tous les autres serveurs fonctionnent sous Server 2003, et certains d'entre eux contiennent plus de données que le serveur de fichiers en question ici.

Toute aide est appréciée. L'ironie est presque trop difficile à supporter. La sauvegarde de mes données est ce qui les met en danger.

2voto

Evan Anderson Points 140581

L'accrochage à l'écran d'accueil de Windows me fait suspecter le firmware ou les pilotes de votre contrôleur RAID. S'agit-il d'un Dell PERC ? Le micrologiciel et les pilotes sont-ils à jour ?

Y a-t-il quelque chose de spécial dans les derniers fichiers et répertoires qui sont sauvegardés avec succès (c'est-à-dire quelque chose de non caractéristique des fichiers jusqu'à ce point de la sauvegarde) ?

Vous pouvez activer la journalisation de débogage dans l'agent distant Backup Exec sur le serveur de fichiers, mais si le système de fichiers ou le pilote de disque tombe en panne, vous n'obtiendrez probablement pas de journal de débogage. Arrêtez le service de l'agent distant et démarrez-le avec le paramètre "-debug" spécifié dans la zone de texte "Paramètres de démarrage" des propriétés du service (en supposant que vous utilisez le snap-in MMC "Services" pour effectuer ce démarrage/arrêt). Si vous préférez que le paramètre "-debug" soit permanent, ajoutez-le à la valeur ImagePath dans "HKEY_LOCAL_MACHINE \SYSTEM\CurrentControlSet\Services\BackupExecAgentAccelerator ".

0 votes

Le contrôleur RAID est un Adaptec 2120s dans une configuration RAID 5 à 6 lecteurs. Le serveur se bloque à des moments aléatoires de la sauvegarde, je ne pense donc pas que cela ait un rapport avec les fichiers. De plus, mon serveur temporaire a bien sauvegardé pendant des semaines. Je vais activer le débogage et voir si je peux capturer quelque chose d'utile.

0 votes

En creusant un peu, j'ai trouvé quelques problèmes de Linux et BSD avec les 2120, mais la plupart ne sont pas d'actualité. Un élément matériel mentionné était les problèmes de terminaison, ainsi qu'une note indiquant que les contrôleurs 2120/2200 s'efforcent de dissimuler ces problèmes. Je ne suis pas sûr que cela n'apparaisse que de façon sporadique ou que le contrôleur puisse se bloquer en emportant le système avec lui.

0 votes

Votre serveur temporaire possède la même version de micrologiciel de contrôleur RAID, la même version de pilote et des disques avec les mêmes versions de micrologiciel ? Le fait que votre serveur temporaire ait bien fonctionné pendant des semaines avec la même configuration de système d'exploitation Windows et de logiciel d'application me fait penser que vous avez un problème de matériel ou de micrologiciel avec ce serveur de production.

2voto

Paulie D Points 21

Publié en novembre 2011 - Essayez ceci :

1) Cliquez avec le bouton droit de la souris sur le fichier C:\program fichiers \symantec\SYMEVENT.SYS et choisissez Propriétés > Version (onglet) et notez l'info sur la version.

2) Téléchargez le programme d'installation / de mise à jour de SymEvent : ftp://ftp.symantec.com/public/english_us_canada/symevnt/Sevinst.exe

3) Mettez à jour SymEvent, comme indiqué dans l'article suivant : http://www.symantec.com/business/support/index?page=content&id=TECH98521

Extrait :
Pour mettre à jour les fichiers Symevent sous Windows 2003/XP/2000/NT (y compris les versions serveur) :
A. Téléchargez Sevinst.exe depuis le site FTP de Symantec. Enregistrez le fichier dans un dossier du disque dur.
B. Ouvrez une invite de commande, et passez au dossier dans lequel vous avez téléchargé le fichier Sevinst.exe.
C. Selon la version du programme, effectuez l'une des opérations suivantes :

  • Sur les ordinateurs qui exécutent Symantec AntiVirus 9.x ou plus tard , tapez le commande suivante :
    sevinst.exe /log SAVCE

  • Sur les ordinateurs qui exécutent Symantec AntiVirus 8.x ou plus tôt tapez la commande suivante :
    sevinst.exe /log NAVNT

D. Redémarrez l'ordinateur

0voto

fencepost Points 972

Les seules choses qui me viennent à l'esprit et que vous n'avez pas mentionné de tester sont la RAM et les niveaux de charge du système.

La RAM devrait être facile, mais je ne suis pas sûr qu'il y ait quoi que ce soit dans la sauvegarde qui causerait l'utilisation d'une mauvaise zone qui ne serait pas déclenchée dans une utilisation régulière - ça ne colle pas.

L'autre élément est le niveau de charge du matériel. Lors d'une sauvegarde, il va falloir déplacer beaucoup d'informations à partir du disque et par le biais de la carte réseau.

  • Vous avez déjà suggéré de vérifier le contrôleur RAID ; j'ajouterais qu'il faut le vérifier en effectuant des transferts de gros volumes pour tenter de simuler la charge de la sauvegarde. De plus, le contrôleur s'arrête-t-il au début de la sauvegarde ou après une période de débit soutenu ?

  • Pour la charge de la NIC, j'essaierais plusieurs choses - une autre NIC, en la forçant à 100MBit, en poussant de grandes quantités de données à travers elle (encore une fois, pour simuler la charge de sauvegarde).

Le plus gros casse-tête pour les tester pourrait être de les tester indépendamment. Je commencerais par la ou les cartes réseau, qui sont les plus faciles à tester. Si vous pouvez introduire un ou plusieurs disques supplémentaires dans le système indépendamment du contrôleur RAID, cela peut vous donner un bon moyen d'isoler si le contrôleur RAID lui-même est la source du problème - copiez tout sur les disques non-RAID et voyez si vous pouvez les sauvegarder proprement.

Pour les blocages continus/répétitifs après le premier, est-ce que le fait de couper complètement l'alimentation du système résout le problème ? Rappelez-vous qu'un serveur mis hors tension n'est pas complètement éteint - en particulier, l'interface réseau peut rester active pour le wake-on-LAN. Si un état interne du matériel est incorrect, le simple redémarrage peut ne pas le supprimer.

0 votes

Les diagnostics de la mémoire passent tous. La sauvegarde peut échouer après 5 Go de transfert ou 180 Go, mais ce n'est jamais une défaillance instantanée. Le fait de tirer le cordon d'alimentation et de décharger toute l'énergie n'a aucun effet.

0 votes

Vous pouvez probablement obtenir une charge de sauvegarde simulée en exécutant NTBackup localement sur l'ordinateur du serveur de fichiers et en transférant les données vers une machine de secours. Il serait intéressant de voir comment la machine se comporte en essayant cela.

0 votes

J'ai essayé une fois. La machine s'est bloquée après quelques minutes seulement. Au début, j'ai pointé du doigt le service VSS comme étant le coupable et j'ai donc désactivé l'ouverture avancée de fichiers dans Backup Exec, mais cela n'a pas aidé.

0voto

Vitaliy Points 512

J'ai eu un problème similaire avec Backup Exec (bien que la version 10 soit beaucoup plus ancienne). J'ai installé la dernière mise à jour et mon serveur a commencé à faire un BSOD de façon aléatoire au moment de la sauvegarde programmée ou peu après. Je n'ai jamais déterminé la cause exacte du problème, mais il semble que tout soit lié d'une manière ou d'une autre à TrendMicro également et que tous ensemble, ils ont causé des défauts de protection de la mémoire.

Ma solution a été de revenir à la version précédente de Backup Exec et de mettre à jour mon TrendMicro (si vous utilisez OfficeCane, une nouvelle version majeure est sortie récemment).

0 votes

J'ai plusieurs clients qui utilisent la suite Trend Micro "Worry Free" avec Backup Exec (versions 10, 11 et 12.5) et nous ne rencontrons pas ce genre de problèmes.

0 votes

J'utilise également la suite Worry Free Business Security Standard.

0voto

tal Points 2231

Je soupçonnerais un problème de conducteur. Une expérience similaire. Une ancienne application utilise un modem RNIS. Je l'ai déplacée sur un nouvel ordinateur et j'ai téléchargé les derniers pilotes de modem.

La connexion RNIS n'arrêtait pas de tomber et je pensais que c'était le modem/la ligne... mais après avoir cherché, j'ai remplacé les pilotes les plus récents par des pilotes vieux de 6( !) ans et depuis, ça fonctionne sans problème. Donc les derniers pilotes ne sont pas toujours les meilleurs - ne réparez pas ce qui n'est pas cassé.

Bonne chance !

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X