28 votes

Cliffhanger: les sauvegardes sont bonnes... ici... non?

À mon travail, les sauvegardes ont une priorité étonnamment basse. La stratégie de sauvegarde a été mise en place il y a un moment, et depuis lors, on suppose simplement que les sauvegardes sont bonnes. Si vous demandez aux administrateurs système, ils diront que tout est sauvegardé.

Mais alors, quand vous demandez une sauvegarde SPÉCIFIQUE, la moitié du temps elles ne sont pas là :

  • Le disque était plein
  • La bande a échoué
  • Il semble que quelqu'un ait désactivé le travail de sauvegarde
  • La connexion réseau était en panne
  • Nous avons commandé ce disque il y a des années, mais les finances n'ont pas approuvé le bon de commande
  • Les fichiers sont corrompus
  • Le fichier contient une base de données incorrecte
  • Seules les sauvegardes du journal des transactions (inutiles sans une sauvegarde complète).

Il y a quelques semaines, le désastre s'est rapproché alors qu'un des serveurs a perdu un trop grand nombre de disques RAID. Heureusement, un disque a bien voulu copier les données, si vous avez essayé plusieurs fois.

Mais même après ce quasi-désastre, je n'arrive pas à convaincre les administrateurs système d'améliorer la situation. Alors je me demande, avez-vous des conseils pour ouvrir les yeux des gens ? Il me semble que nous marchons sur le bord d'une falaise.

24voto

Guy Points 16718

Vous devez toujours faire réparer ces choses depuis le sommet.

La stratégie de sauvegarde actuelle est-elle soutenue et comprise par la direction ? Sinon, elle est inutile.

La direction exécutive doit être informée des problèmes et des risques encourus (la perte de données financières nécessaires pour survivre légalement, ou la perte de données client qui ont pris des années à collecter) et prendre cela en compte pour décider des actions à entreprendre, ou décider de laisser quelqu'un (comme vous) agir.

Si vous ne pouvez pas approcher la direction, essayez les contrôleurs de gestion ou d'autres postes financiers où la récupération des données et leur intégrité sont importantes pour les rapports de l'entreprise. Eux-mêmes peuvent "déclencher la tempête" si nécessaire...

14voto

amp108 Points 1971

Par où commencer ? C'est un désastre qui attend de se produire. La fonction principale d'un administrateur système est de s'assurer que les données sont sauvegardées et récupérables. Tout le reste est secondaire. Pas de si, pas de mais.

Voici quelques choses que vous pouvez faire :

  1. Suivez les KPI pour les restaurations. Il devrait être possible de produire un rapport montrant combien de demandes de restauration ont été réussies. Toute valeur inférieure à 100% devrait être investiguée minutieusement. La direction adore les rapports et c'est une preuve solide.

  2. Il devrait y avoir des procédures documentées pour toutes les opérations de sauvegarde et de restauration, y compris tous les systèmes et leur stratégie de sauvegarde, les rotations de bandes, les horaires, les chemins d'escalade, les tests de restauration, etc. Demandez à les voir.

  3. Parlez au manager des administrateurs système et exprimez vos préoccupations. Allez armé de preuves que les restaurations ne fonctionnent pas. Si vous n'obtenez pas satisfaction, adressez-vous à des personnes plus haut placées.

Sérieusement - faites du bruit. Des problèmes comme celui-ci peuvent détruire une entreprise.

5voto

aharden Points 1450

Proposer (au minimum) des tests annuels de récupération après sinistre. Le travail nécessaire pour exécuter avec succès le test devrait révéler les lacunes.

5voto

gbjbaanb Points 3822

Où je travaille, nous avons un département informatique vraiment compétent, chaque année ils se réunissent de tous les bureaux à travers l'Europe et organisent un 'restore fest' sur des serveurs loués dans un centre de données, simulant efficacement ce qui se passerait si le personnel venait travailler un jour et découvrait que le bureau avait brûlé pendant la nuit.

Impliquez le grand patron, rappelez-lui que en cas de catastrophe, il risquerait de ne pas toucher de bonus cette année (ou pire!) et donc peut-être serait-il prudent d'organiser un exercice similaire de récupération après sinistre. Cela ne devrait pas prendre beaucoup de temps ou coûter cher - les administrateurs partent avec leurs bandes de sauvegarde hors site et leur demandent de recréer un environnement de bureau identique à partir d'elles.

Ensuite, asseyez-vous et observez l'amélioration de l'informatique - une fois que la direction réalise que les données de l'entreprise sont dangereusement proches d'être perdues définitivement, les étincelles vont voler (à partir des fusées qui seront stratégiquement placées chez lesdits administrateurs).

4voto

David Mackintosh Points 14093

Il est facile de blâmer les administrateurs - cependant, Oskar a raison: ces choses sont pilotées par le haut. Si la direction refuse de dépenser de l'argent pour faire des sauvegardes une priorité, alors les administrateurs système sont généralement perdants et font de leur mieux avec les ressources dont ils disposent.

La clé, si vous faites partie de ces administrateurs malchanceux - et j'ai été dans cette situation pour certains projets clients - est de vous assurer que la direction est informée, de manière répétée et d'une manière confirmable par écrit, que c'est un risque pour l'entreprise.

Ma stratégie est de marteler constamment les problèmes. Si vous faites cela, parfois les problèmes seront résolus, mais c'est principalement pour que celui à qui je fais rapport ne puisse pas se cacher derrière l'excuse "Je n'ai jamais été informé". En tant que consultant, je peux généralement faire mieux. Je peux amener mes supérieurs à informer une hiérarchie plus élevée que je ne le peux qu'il y a une vulnérabilité. Cela répartit les blâmes, ou du moins les concentre à un niveau plus élevé que le mien.

En même temps, vous devez être inventif et travailler dur pour minimiser les risques avec les ressources que le client peut fournir.

Alors que dans certains cas les administrateurs peuvent être coupables, la direction est toujours responsable : soit de connaître le risque et de ne pas faire assez pour le mitigé, soit d'embaucher des personnes qui ne les alertent pas sur ces risques.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X