L'un des sites de mon client a reçu une frappe directe de la foudre la semaine dernière (coïncidence un vendredi 13!).
J'étais à distance du site, mais en travaillant avec quelqu'un sur place, j'ai découvert un motif étrange de dommages. Les deux liens Internet étaient hors service, la plupart des serveurs étaient inaccessibles. Une grande partie des dégâts s'est produite dans le MDF, mais un IDF connecté par fibre a également perdu 90% des ports sur un membre de la pile de commutation. Assez de ports de commutateur de rechange étaient disponibles pour redistribuer le câblage ailleurs et reprogrammer, mais il y a eu un temps d'arrêt pendant que nous traquions les appareils affectés.
Il s'agissait d'une nouvelle installation / entrepôt et beaucoup de planification a été faite pour la conception de la salle serveurs. La salle serveurs principale est alimentée par un APC SmartUPS RT 8000VA UPS en ligne à double conversion, sauvegardé par un générateur. Il y avait une distribution électrique correcte à tous les équipements connectés. La réplication des données hors site et les sauvegardes des systèmes étaient en place.
En tout, les dommages (dont je suis au courant) étaient les suivants:
- Carte ligne 48 ports défectueuse sur un commutateur châssis Cisco 4507R-E.
Communtateur Cisco 2960 défectueux dans une pile de 4 membres.(oops... câble de stack mal connecté)- Plusieurs ports instables sur un commutateur Cisco 2960.
- Carte mère et alimentation HP ProLiant DL360 G7.
- Elfiq équilibreur de charge de lien WAN.
- Un modem fax Multitech.
- Antenne internet WiMax/Fixed-wireless et injecteur de courant.
- Nombreux périphériques connectés via PoE (téléphones VoIP, points d'accès Cisco Aironet, caméras de sécurité IP)
La plupart des problèmes étaient liés à la perte d'une lame de commutation entière dans le Cisco 4507R-E. Cela contenait une partie du réseau NFS VMware et le lien montant vers le pare-feu du site. Un hôte VMWare a échoué, mais la HA s'est occupée des VM une fois que la connectivité de stockage en réseau a été rétablie. J'ai été contraint de redémarrer / mettre sous tension un certain nombre d'appareils pour effacer des états de veille aberrants. Le temps de récupération a donc été court, mais je suis curieux de savoir quelles leçons devraient être tirées...
- Quelles protections supplémentaires devraient être mises en place pour protéger l'équipement à l'avenir?
- Comment devrais-je approcher la garantie et le remplacement? Cisco et HP remplacent les éléments sous contrat. L'équilibreur de charge de lien WAN Elfiq coûte cher et a une note sur leur site Web qui dit essentiellement "trop mal, utilisez un protecteur de réseau contre les surtensions". (il semble qu'ils s'attendent à ce type de panne)
- J'ai été dans l'informatique assez longtemps pour avoir déjà rencontré des dommages causés par des orages électriques dans le passé, mais avec un impact très limité; par exemple, une interface réseau de PC bon marché ou la destruction de mini commutateurs.
- Puis-je faire quelque chose d'autre pour détecter des appareils instables potentiellement, ou dois-je simplement attendre que des comportements bizarres se manifestent?
- Était-ce simplement de la malchance, ou quelque chose qui devrait vraiment être pris en compte dans la reprise après sinistre?
Avec assez d'argent, il est possible d'ajouter toutes sortes de redondances dans un environnement, mais quel équilibre raisonnable entre conception préventive/réfléchie et utilisation efficace des ressources doit être trouvé ici?
3 votes
Voici quelques bonnes réponses techniques ci-dessous, mais dans mon expérience, rien ne vaut une bonne police d'assurance. Littéralement, une police d'assurance. Bien sûr, cela n'aide pas à éviter le problème et ne empêche pas les clients de crier contre vous, mais cela aide à remplacer l'équipement défaillant que le vendeur ne veut pas toucher.
0 votes
@MarkHenderson L'assurance arrive... mais ça fait 6 semaines, et quelques petits problèmes commencent à apparaître maintenant.