56 votes

Évaluation des dommages aux équipements suite à une frappe de foudre - Aurais-je dû mieux planifier ?

L'un des sites de mon client a reçu une frappe directe de la foudre la semaine dernière (coïncidence un vendredi 13!).

J'étais à distance du site, mais en travaillant avec quelqu'un sur place, j'ai découvert un motif étrange de dommages. Les deux liens Internet étaient hors service, la plupart des serveurs étaient inaccessibles. Une grande partie des dégâts s'est produite dans le MDF, mais un IDF connecté par fibre a également perdu 90% des ports sur un membre de la pile de commutation. Assez de ports de commutateur de rechange étaient disponibles pour redistribuer le câblage ailleurs et reprogrammer, mais il y a eu un temps d'arrêt pendant que nous traquions les appareils affectés.

Il s'agissait d'une nouvelle installation / entrepôt et beaucoup de planification a été faite pour la conception de la salle serveurs. La salle serveurs principale est alimentée par un APC SmartUPS RT 8000VA UPS en ligne à double conversion, sauvegardé par un générateur. Il y avait une distribution électrique correcte à tous les équipements connectés. La réplication des données hors site et les sauvegardes des systèmes étaient en place.

En tout, les dommages (dont je suis au courant) étaient les suivants:

  • Carte ligne 48 ports défectueuse sur un commutateur châssis Cisco 4507R-E.
  • Communtateur Cisco 2960 défectueux dans une pile de 4 membres. (oops... câble de stack mal connecté)
  • Plusieurs ports instables sur un commutateur Cisco 2960.
  • Carte mère et alimentation HP ProLiant DL360 G7.
  • Elfiq équilibreur de charge de lien WAN.
  • Un modem fax Multitech.
  • Antenne internet WiMax/Fixed-wireless et injecteur de courant.
  • Nombreux périphériques connectés via PoE (téléphones VoIP, points d'accès Cisco Aironet, caméras de sécurité IP)

La plupart des problèmes étaient liés à la perte d'une lame de commutation entière dans le Cisco 4507R-E. Cela contenait une partie du réseau NFS VMware et le lien montant vers le pare-feu du site. Un hôte VMWare a échoué, mais la HA s'est occupée des VM une fois que la connectivité de stockage en réseau a été rétablie. J'ai été contraint de redémarrer / mettre sous tension un certain nombre d'appareils pour effacer des états de veille aberrants. Le temps de récupération a donc été court, mais je suis curieux de savoir quelles leçons devraient être tirées...

  • Quelles protections supplémentaires devraient être mises en place pour protéger l'équipement à l'avenir?
  • Comment devrais-je approcher la garantie et le remplacement? Cisco et HP remplacent les éléments sous contrat. L'équilibreur de charge de lien WAN Elfiq coûte cher et a une note sur leur site Web qui dit essentiellement "trop mal, utilisez un protecteur de réseau contre les surtensions". (il semble qu'ils s'attendent à ce type de panne)
  • J'ai été dans l'informatique assez longtemps pour avoir déjà rencontré des dommages causés par des orages électriques dans le passé, mais avec un impact très limité; par exemple, une interface réseau de PC bon marché ou la destruction de mini commutateurs.
  • Puis-je faire quelque chose d'autre pour détecter des appareils instables potentiellement, ou dois-je simplement attendre que des comportements bizarres se manifestent?
  • Était-ce simplement de la malchance, ou quelque chose qui devrait vraiment être pris en compte dans la reprise après sinistre?

Avec assez d'argent, il est possible d'ajouter toutes sortes de redondances dans un environnement, mais quel équilibre raisonnable entre conception préventive/réfléchie et utilisation efficace des ressources doit être trouvé ici?

3 votes

Voici quelques bonnes réponses techniques ci-dessous, mais dans mon expérience, rien ne vaut une bonne police d'assurance. Littéralement, une police d'assurance. Bien sûr, cela n'aide pas à éviter le problème et ne empêche pas les clients de crier contre vous, mais cela aide à remplacer l'équipement défaillant que le vendeur ne veut pas toucher.

0 votes

@MarkHenderson L'assurance arrive... mais ça fait 6 semaines, et quelques petits problèmes commencent à apparaître maintenant.

23voto

sysadmin1138 Points 129885

Il y a quelques emplois, l'un des datacenters pour le lieu où je travaillais était un étage en dessous d'une antenne très grande. Cet objet métallique, grand, mince, était la chose la plus haute de la région et était frappé par la foudre tous les 18 mois environ. Le datacenter lui-même a été construit vers 1980, donc je ne dirais pas que c'était la chose la plus moderne autour, mais ils avaient une longue expérience de la gestion des dommages causés par la foudre (les cartes de communication série devaient être remplacées à chaque fois, ce qui est un essai si les cartes de communication sont dans un système qui n'a pas eu de nouvelles pièces fabriquées depuis 10 ans).

Une chose mentionnée par les anciens est que tout ce courant parasite peut contourner n'importe quoi, et peut se propager dans une masse commune une fois qu'il fait la jonction. Et peut faire la jonction à partir d'espaces d'air. La foudre est un cas exceptionnel, où les normes de sécurité normales ne sont pas suffisantes pour éviter les arcs et iront aussi loin qu'elle a de l'énergie. Et elle en a beaucoup. S'il y a assez d'énergie, elle peut provoquer un arc entre un plafond suspendu (peut-être l'un des fils de suspension est suspendu à une boucle reliée à une poutre du bâtiment dans le ciment) et le haut d'une étagère à 2 montants et de là dans les gadgets de mise en réseau.

Comme les hackers, il y a seulement tant que vous pouvez faire. Vos alimentations ont toutes des disjoncteurs qui bloquent les tensions parasites, mais votre équipement de mise en réseau basse tension presque jamais et représente un chemin commun pour un courant extrêmement énergique à router.


Détecter un équipement potentiellement défectueux est quelque chose que je sais comment faire en théorie, mais pas en réalité. Probablement votre meilleure option est de placer l'équipement suspect dans une zone et délibérément élever la température dans la pièce jusqu'à la limite la plus élevée de la plage de fonctionnement et voir ce qui se passe. Faites quelques tests, chargez-le à fond. Laissez-le là pendant quelques jours. Le stress thermique supplémentaire par rapport à tout dommage électrique préexistant peut éliminer certains pièges à retardement.

Cela a certainement raccourci la durée de vie de certains de vos appareils, mais trouver lesquels est difficile. Les circuits de conditionnement d'énergie à l'intérieur des alimentations peuvent avoir des composants compromis et fournir une alimentation électrique sale au serveur, quelque chose que vous ne pourriez détecter qu'à l'aide de dispositifs spécialisés conçus pour tester les alimentations.


Les coups de foudre ne sont pas quelque chose que j'ai envisagée pour la reprise après sinistre en dehors d'avoir un centre de données dans une installation avec une grosse tige de paratonnerre sur le toit. Génériquement, un coup de foudre est l'une de ces choses qui se produisent si rarement qu'elle est classée sous 'acte de dieu' et mise de côté.

Mais... vous en avez eu un maintenant. Cela montre que votre installation avait au moins une fois les bonnes conditions. Il est temps d'évaluer à quel point votre installation est sujette aux bonnes conditions et de planifier en conséquence. Si vous ne pensez qu'aux impacts de la foudre sur la reprise après sinistre maintenant, je pense que c'est approprié.

1 votes

Je suis allé sur site hier pour évaluer. Désordonné. J'ai réparé le commutateur de châssis et vérifié les dégâts de certains des serveurs. Y a-t-il une chance que l'antenne WiMax/Fixed-Wireless sur le toit était le point d'entrée? Tout sur son passage a été affecté : Antenne->Injecteur PoE->Équilibreur de lien WAN->Firewall->Carte ligne Cisco 4507 en panne

1 votes

Cela semble ... assez probable.

1 votes

@ewwhite Cela semble très probable. Les dégâts lors de la frappe de ce vieux DC étaient très similaires.

8voto

MadHatter Points 77602

J'ai réfléchi à cette question depuis qu'elle a récemment été rééditée en haut de la page d'accueil.

Je stipule librement que, pour des personnes comme sysadmin1138 qui doivent gérer des installations très attirantes pour de gros coups de foudre sur le toit du centre de données, une planification de contingence spécifique pour un gros coup de foudre a du sens. Mais pour la plupart d'entre nous, il s'agit d'une circonstance unique, et j'ai pensé qu'une réponse plus adaptée au reste d'entre nous pourrait avoir de la valeur.

Il est possible d'imaginer toutes sortes de menaces type scénario de film; des scénarios qui pourraient certainement se produire, prendraient incontestablement votre entreprise si elles se produisaient, mais pour lesquelles il n'y a aucune raison de penser qu'elles ont une probabilité élevée de se produire. Vous connaissez le genre de choses; frappe d'avion / éclair / explosion d'un dépôt de pétrole à proximité / tout autre scénario plausible mais à risque en arrière-plan.

Chacun de ces scénarios a un plan d'atténuation spécifique qui pourrait être mis en place, mais je suggérerais que - en tenant compte de ma stipulation ci-dessus - cela n'a pas de sens commercial de le faire. Comme Schneier tente de le souligner dans le concours lié ci-dessus, le simple fait que vous puissiez imaginer quelque chose de terrible ne fait pas de cela une menace contre laquelle une planification spécifique serait utile, voire souhaitable. Ce qui fait sens sur le plan commercial, c'est un plan généraliste de continuité des activités bien documenté et testé.

Vous devez vous demander quelles sont les coûts pour l'entreprise d'une perte totale de site pour différentes périodes de temps (par ex. 24h, 96h, une semaine, un mois) et essayer de quantifier la probabilité de chaque occurrence. Il doit s'agir d'une analyse honnête des coûts pour l'entreprise, impliquant tous les niveaux de l'entreprise. J'ai travaillé sur un site où le chiffre généralement accepté pour le temps d'arrêt était de 5,5 millions de livres par heure (et c'était il y a 20 ans, quand cinq millions de livres étaient beaucoup d'argent); avoir ce chiffre généralement accepté a rendu tellement de décisions tellement plus faciles, car elles sont devenues simplement une question de calculs simples.

Votre budget est la perte projetée multipliée par la chance annuelle de cette perte; maintenant voyez ce que vous pouvez faire pour atténuer cette menace avec le budget alloué.

Dans certains cas, cela peut nécessiter un centre de données de secours complet, avec un équipement inactif, prêt à fonctionner 24h/24 et 7j/7. Cela peut signifier un petit centre de données de secours, de sorte que l'interaction avec les clients puisse continuer avec un nombre très réduit d'opérateurs téléphoniques, et un site Web de remplacement avertissant de perturbations. Cela peut signifier une deuxième connexion Internet avec routage redondant sur votre site principal, en attente d'utilisation. Cela peut signifier, comme le note Mark Henderson ci-dessus, une assurance (mais une assurance qui couvre les pertes commerciales ainsi que les coûts réels de récupération); si vous pouvez dépenser votre budget de BC pour un simple document qui couvrira tous vos coûts prévus en cas de catastrophe, il peut être judicieux d'acheter ce document - mais n'oubliez pas de prendre en compte le risque de défaillance de l'assureur dans votre plan de gestion des risques commerciaux. Cela peut signifier la mise à niveau des contrats de maintenance sur certains équipements centraux pour des contrats extrêmement coûteux de réparation en quatre heures maximum. Seul vous pouvez savoir ce qui est logique pour votre entreprise.

Et une fois que vous avez ce plan, vous devez vraiment le tester (à l'exception éventuelle de ceux basés sur l'assurance). J'ai travaillé sur un site où nous avions un petit site d'exploitation à petite échelle complet, prêt à être transféré, à 45 minutes de route de notre installation principale. Lorsque nous avons eu un problème qui a arrêté le réseau central, nous avons fini par essayer de le réparer en direct au lieu de transférer vers le site d'urgence et ensuite réparer le réseau central et revenir au site principal. Une des raisons de l'échec du transfert était que nous n'avions pas réellement idée de combien de temps le transfert prendrait et pour revenir en arrière. Par conséquent, personne ne savait vraiment combien de temps les choses devaient fonctionner sans transfert avant de prendre la décision de transférer, donc - tout à fait compréhensible -, il y avait hésitation à décider de transférer. Des têtes sont tombées après notre rétablissement, 14 heures plus tard; non pas en raison de l'arrêt per se, mais parce qu'une somme d'argent considérable avait été dépensée pour une installation destinée à atténuer un arrêt d'un jour ou plus qui était restée inutilisée pendant un tel arrêt.

Enfin, notez que les composants externalisés de votre plan d'entreprise ne sont pas garantis de fonctionner. Votre direction supérieure pourrait se dire "si nous mettons les serveurs dans le cloud, ils seront simplement toujours là, et nous pourrons licencier les administrateurs système". Ce n'est pas le cas. Les clouds peuvent échouer comme tout le reste; si vous avez externalisé des composants critiques à un prestataire, vous avez simplement supprimé votre capacité à estimer les chances de défaillance de ces composants. Les SLA sont très bien, mais sauf s'ils sont accompagnés de pénalités substantielles en cas de non-performance, ils sont insignifiants - pourquoi votre fournisseur dépenserait-il plus d'argent pour rester disponible s'il pouvait simplement garder l'argent et rembourser vos frais de service pour la période d'inaccessibilité? Pour être fiables, vos SLA doivent être assortis de pénalités qui approchent les coûts pour votre entreprise de l'arrêt. Oui, cela augmentera considérablement les coûts de l'externalisation; et oui, cela est tout à fait attendu.

2 votes

Je devrais ajouter... ce site a été frappé par la foudre trois fois depuis la première publication. La raison a été retracée à un mauvais/absence de mise à la terre électrique dans plusieurs zones de l'installation. Nous avons poursuivi les entrepreneurs et l'assurance a pris en charge la majeure partie des remplacements.

2 votes

Désolé, ewwhite, ma stipulation initiale aurait dû s'appliquer plus clairement à vous aussi; dans les sites où tout risque est supérieur à l'arrière-plan, il me semble logique de considérer au moins l'atténuation spécifiquement dirigée contre ce risque. Ma réponse était davantage pour tout le monde, qui pourrait lire votre question et commencer à penser "eh bien, je n'ai pas non plus de plan contre la foudre; peut-être que je devrais aussi en avoir un".

6voto

mfinni Points 35332

Cela dépend toujours de combien vous êtes prêt à dépenser. Je n'ai pas assez de connaissances approfondies pour parler longuement de cela, mais j'ai été dans un grand centre de données pharmaceutiques qui a été frappé par la foudre et a traversé quelque chose qui était censé être un parafoudre à redondance multiple (et qui était conçu correctement, mais a été mis en œuvre de manière incorrecte, donc quelque chose est passé à travers).

Quelle était la plus grande pointe que votre UPS aurait pu éviter? Il devrait avoir une cote. Apparemment, la frappe était assez directe pour dépasser cela, ou quelque chose a fui autour de l'alimentation UPS, comme une mauvaise mise à la terre. Donc, peut-être que vous examinez votre conception de l'alimentation, déterminez à quel point une autre frappe est probable, comparez le coût de l'arrêt X probabilité par rapport à la remédiation, et peut-être demandez à un électricien de réaliser un bon survey de l'installation pour s'assurer que tout est correctement mis à la terre - et une lecture rapide montre que la mise à la terre pour la sécurité/codes n'est pas aussi intensive que la mise à la terre pour la prévention des dommages dus à la foudre.

0 votes

L'UPS semble être en bon état. Il y avait des problèmes dans plusieurs parties du bâtiment, mais les spécifications techniques de l'UPS indiquent "Filtrage du bruit multipolaire à plein temps : 0,3% de série d'ondulation IEEE laissant passer : temps de réponse au serrage zéro : conforme à la norme UL 1449"

0 votes

D'accord, cela semble bien. Ensuite, cela a probablement réussi à s'infiltrer par d'autres moyens, si votre alimentation principale est solide.

0voto

Lam Points 33

Je ne suis pas certain si cela est mis en œuvre dans l'un des scénarios ci-dessus mais,... Aucune salle MDF ou IDF ne devrait avoir une source de mise à la terre qui se connecte au cadre structurel des bâtiments ou au circuit de mise à la terre de l'équipement. Cela inclut l'alimentation du panneau électrique, du rack, et tous les boîtiers de l'équipement. Ils devraient avoir ce qu'on appelle une Terre Propre qui remonte jusqu'au point de mise à la terre d'origine sur l'alimentation entrant dans le bâtiment. En ce qui concerne l'arc électrique à travers l'air, vous êtes un peu coincé sur ce point. Voici les normes à suivre : ANSI/TIA-942, J-STD-607-A-2002, et les normes IEEE 1100. J'espère que cela vous sera utile.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X