466 votes

Quelque chose brûle dans la salle des serveurs; comment puis-je identifier rapidement ce que c'est?

Un autre jour, nous avons remarqué une terrible odeur de brûlé sortant de la salle serveur. En résumé, il s'est avéré qu'un des modules de batterie brûlait dans l'unité UPS, mais il nous a fallu plusieurs heures avant de parvenir à le découvrir. La principale raison pour laquelle nous avons pu le découvrir est que l'affichage de l'UPS a finalement montré que le module devait être remplacé.

Le problème était le suivant : toute la salle était imprégnée de cette odeur. Faire un test olfactif était très difficile car l'odeur s'était infiltrée partout (sans compter qu'elle nous rendait un peu étourdis). Nous avons presque par erreur arrêté notre serveur de base de données de production car c'est là que l'odeur était la plus forte. Les données vitaux semblaient être correctes (les températures du processeur montraient 60 degrés Celsius et les vitesses des ventilateurs étaient correctes), mais nous n'étions pas sûrs. Le module de batterie qui avait brûlé était presque à la même hauteur que le serveur sur le rack et à seulement 3 pieds de distance. Si cela avait été une véritable urgence, nous aurions lamentablement échoué.

De manière réaliste, il est assez rare que du matériel serveur réel brûle, la plupart du temps nous devrons regarder du côté de l'UPS comme coupable. Mais avec plusieurs racks contenant plusieurs équipements, cela peut rapidement devenir un jeu de devinette. Comment déterminer rapidement et avec précision quel équipement est en train de brûler? Je réalise que cette question dépend fortement des variables environnementales telles que la taille de la salle, la ventilation, l'emplacement, etc., mais toute contribution serait appréciée.

34 votes

@DeerHunter Eh bien, merci que ce soit la fin de la journée et qu'il y ait très peu de personnes dans le bâtiment. Merci pour vos critiques constructives, et je vais certainement informer mon superviseur des vies qu'elle a risquées en décidant de maintenir le système en marche.

12 votes

@hydroparadise - quelqu'un doit avoir le courage de dire "STOP Nous ne faisons pas les choses correctement". Si votre superviseur ne comprend pas les règles de sécurité, il n'y a pas vraiment grand-chose à faire, à part se montrer courageux et ne pas succomber à la tentation de prendre des raccourcis.

114 votes

@DeerHunter: Quelle serait la réponse appropriée lorsque vous sentez une odeur de brûlé? Il n'y a pas de fumée visible, juste une odeur de brûlé. Est-ce que vous éteignez l'ensemble du datacenter, le ventilez pendant quelques heures, puis rallumez les serveurs un par un jusqu'à ce que l'odeur revienne? Un petit datacenter de 25 racks pourrait compter jusqu'à 1 000 serveurs à vérifier, c'est beaucoup de temps d'arrêt pour une "odeur" - l'utilisateur initial n'a pas signalé de fumée ou de feu visible.

391voto

voretaq7 Points 78924

Le consensus général semble être que la réponse à votre question se décompose en deux parties :

Comment trouver la source de l'odeur de brûlé amusante ?

Vous avez assez bien perçu le "Comment" :

  • Le "Test de l'Odeur"
  • Recherchez de la fumée/brume visible
  • Parcourez la pièce avec une caméra thermique pour trouver les points chauds
  • Vérifiez les alertes des panneaux de surveillance et des dispositifs

Vous pouvez améliorer vos chances de trouver le problème rapidement de plusieurs manières - une surveillance améliorée est souvent la plus simple. Quelques questions à se poser :

  • Recevez-vous des alertes de température et de santé de votre équipement ?
  • Vos systèmes d'alimentation sans interruption rapportent-ils des défauts à votre système de surveillance ?
  • Recevez-vous des alertes de consommation actuelle de votre équipement de distribution d'énergie ?
  • Les détecteurs de fumée de la salle sont-ils signalés au système de surveillance ? (et le peuvent-ils ?)

Quand devrions-nous dépanner par rapport à appuyer sur le Gros Bouton Rouge ?

C'est une question plus intéressante.
Appuyer sur le gros bouton rouge peut coûter très cher à votre entreprise en peu de temps : les libérations d'agent d'extinction peuvent atteindre des dizaines de milliers de dollars, et les coûts d'arrêt / de récupération après une coupure d'urgence (EPO, "couper la salle") peuvent être dévastateurs.
Vous ne voulez pas arrêter un centre de données parce qu'un condensateur dans une alimentation a explosé et a provoqué une odeur dans la pièce.

À l'inverse, un incendie dans une salle serveur peut coûter à votre entreprise ses données/équipements, et plus important encore, la vie de votre personnel.
Le dépannage de "cette odeur de brûlé amusante" ne doit jamais prendre le pas sur la sécurité, il est donc important d'avoir quelques règles claires en matière de dépannage des conditions "pré-incendie".

Les lignes directrices qui suivent sont mes propres limitations que j'applique en l'absence de (ou en plus) de toute autre procédure/règles clairement définie - elles m'ont bien servi et peuvent vous être utiles, mais elles pourraient tout aussi bien me tuer ou me faire licencier demain, alors appliquez-les à vos propres risques.

  1. Si vous voyez de la fumée ou du feu, coupez la salle
    Cela devrait être évident mais disons-le quand même : s'il y a un incendie actif (ou de la fumée indiquant qu'il y en aura bientôt), évacuez la salle, coupez l'alimentation et déclenchez le système d'extinction d'incendie.
    Des exceptions peuvent exister (faites preuve de bon sens), mais c'est presque toujours la bonne action.

  2. Si vous vous lancez dans le dépannage, ayez toujours au moins une autre personne impliquée
    Cela pour deux raisons. Premièrement, vous ne voulez pas vous promener dans un centre de données et soudainement avoir une baie s'enflammer dans la rangée que vous parcourez sans que personne ne sache que vous êtes là. Deuxièmement, l'autre personne est votre garantie pour le dépannage par rapport à couper la salle, et si vous décidez d'appuyer sur le Gros Bouton Rouge, vous bénéficiez de l'accord d'une deuxième personne (ce qui évite les aspects limitant la carrière d'une telle décision si quelqu'un la remet en question plus tard).

  3. Adoptez des mesures de sécurité prudentes lors du dépannage
    Assurez-vous d'avoir toujours un chemin de sortie (une extrémité ouverte d'une rangée et un chemin clair vers une sortie).
    Maintenez quelqu'un posté au niveau de l'EPO / déclenchement de l'extinction d'incendie.
    Emportez un extincteur avec vous (Halon ou autre agent propre, s'il vous plaît).
    Rappelez-vous de la règle n°1 ci-dessus.
    En cas de doute, quittez la pièce. Faites attention à votre respiration : utilisez un respirateur ou un masque à oxygène. Cela pourrait sauver votre santé en cas d'incendie chimique.

  4. Fixez une limite et tenez-vous y
    Plus précisément, fixez deux limites :

    • Condition ("Jusqu'où vais-je laisser les choses empirer ?"), et
    • Temps ("Combien de temps vais-je essayer de trouver le problème avant que cela soit trop risqué ?").

    Les limites que vous fixez peuvent également être utilisées pour permettre à votre équipe de commencer un arrêt ordonné de la zone affectée, de sorte que lorsque vous COUPEZ l'alimentation vous ne faites pas planter une série de machines actives, et votre temps de récupération sera beaucoup plus court, mais rappelez-vous que si l'arrêt ordonné prend trop de temps, vous devrez peut-être laisser quelques systèmes planter au nom de la sécurité.

  5. Faites confiance à votre instinct
    Si vous vous préoccupez de la sécurité à n'importe quel moment, annulez le dépannage et évacuez la salle.
    Vous pouvez ou non couper la salle en fonction d'un pressentiment, mais reprendre des forces à l'extérieur de la salle en (relative) sécurité est prudent.

S'il n'y a pas de danger imminent, vous pouvez décider de faire venir le service d'incendie local avant de prendre des mesures drastiques comme un EPO ou une libération d'agent propre. (Ils peuvent vous dire de le faire de toute façon : Leur mission est de protéger les personnes, puis les biens, mais ce sont évidemment les experts en matière de lutte contre les incendies donc vous devriez suivre leurs directives !)

Nous avons abordé cela dans les commentaires, mais cela pourrait aussi bien être résumé dans une réponse - @DeerHunter, @Chris, @Sirex, et de nombreux autres ont contribué à la discussion

30 votes

L'université où je suis allé a installé un nouveau centre de données. Ils ont mis en place un système d'extinction d'incendie EPO/hautement sophistiqué. L'équipement qu'il protégeait valait des millions de dollars et il était également utilisé pour des millions de dollars de recherche médicale pour la partie médicale de l'école. Évidemment, si nécessaire, le bouton rouge serait enfoncé mais, cela étant dit si le bouton rouge était enfoncé, le simple fait de le réinitialiser coûterait près de 200 000 dollars américains. Dollars du Contribuable vous pouvez parier que si le commutateur était enfoncé quand ce n'était pas nécessaire, le type qui l'a enfoncé n'aurait plus de travail.

28 votes

+1 pour le système de buddy. Je trouve un peu dingue qu'il y ait des CD qui utilisent l'EPO pour aussi déverser la suppression d'incendie. Il y a plein de situations où vous voudriez utiliser l'EPO sans avoir à déverser du halotron sur le gars qui se fait électrocuter. Un EPO est une affaire sérieuse mais ce n'est pas un "détruire tout dans le CD genre d'affaire" ou du moins ne devrait pas l'être. Les gars dans le CD devraient espérons-le comprendre le gros bouton rouge et le système de suppression d'incendie assez bien pour peser les effets de l'appui sur le bouton. Un EPO pourrait effectivement arrêter un incendie et sauver le CD, par exemple.

13 votes

Une note importante que je n'ai pas vue mentionnée est que la majorité du temps, lorsque quelque chose échoue de manière à dégager une odeur de brûlé, ce qui est en train de brûler s'éteindra avant que l'odeur ne soit détectée et sans brûler quoi que ce soit en dehors de l'équipement défaillant. Parfois, un équipement continuera à couver tant qu'il aura de l'électricité, mais s'il y a de la fumée, il devrait être possible d'identifier l'équipement, de couper l'alimentation juste pour lui, et de voir si la fumée se dissipe bientôt ou empire continuellement.

186voto

ddalcero Points 1164

Une caméra d'imagerie thermique pourrait faire le travail et vous permettre d'identifier où se situe la surchauffe. Un appareil de ce type vous permettrait également d'identifier l'origine d'un incendie ou d'une combustion dans une pièce remplie de fumée.

31 votes

Les caméras thermiques se vendent désormais pour moins d'un millier de dollars, et si vous exploitez une grande salle de serveurs, elles sont un outil qui vaut vraiment la peine d'avoir.

17 votes

Un T.I.C. n'est pas si coûteux et est très utile dans un centre de données ou une grande salle de serveurs. Non seulement en cas de problèmes tels que des câbles ou équipements surchauffés, mais aussi en tant que mesure préventive ou pour détecter rapidement un problème, optimiser la réfrigération, le flux d'air, etc.

42 votes

Un pistolet de température laser, comme celui-ci, est une alternative bon marché

144voto

Tom Points 720

Vous ne faites aucune de ces choses qui ont été dites. Vous quittez l'environnement dangereux car tout ce qui est pompé dans la pièce entière est dangereux pour votre santé et peut vraiment affecter vos poumons. S'il y a une odeur âcre de quelque chose qui brûle dans la pièce que vous ne pouvez pas trouver, appelez le (911|112|999|quel que soit le numéro d'urgence correspondant à votre juridiction) et laissez les pompiers (l'entreprise|le département|la brigade) régler le problème tandis qu'ils sont sous air en bouteille.

Les composants informatiques contiennent toutes sortes de produits chimiques intéressants, y compris le mercure, le cadmium, le plomb, et beaucoup de plastiques dans les boîtiers. Remarquez que tous les liens que j'ai faits expliquent comment les expositions à faible niveau peuvent causer des dommages durables ou même la mort rapide. Il s'agit d'un environnement qui peut être immédiatement dangereux pour la vie et la santé.

... donc vraiment, si quelque chose brûle, ne passez pas des heures à renifler les fumées. Si vous ne pouvez pas l'identifier et agir immédiatement pour le contenir, sortez.

18 votes

Il convient d'ajouter que si cela s'était produit dans un centre de données "réel" équipé de détecteurs de fumée intégrés à la climatisation et d'un système d'extinction automatique, les alarmes incendie se seraient déclenchées et la salle aurait été scellée et inondée d'argon ou de CO2 automatiquement, de sorte qu'il n'aurait même pas été envisageable de courir et sentir l'équipement.

8 votes

@syneticon-dj Cela dépend du type de détecteurs installés. Les détecteurs d'ionisation pourraient avoir déclenché la suppression d'incendie, mais j'ai travaillé dans des endroits (et héberge actuellement du matériel à) qui ont des détecteurs de fumée optiques - ceux-ci nécessitent de la fumée visible (ou du moins une bonne brume) avant de se déclencher.

0 votes

Cent fois oui @JeffFerland Le nombre de produits chimiques toxiques dans les pièces d'ordinateur qui, même à des niveaux d'exposition faibles, peuvent causer de graves dommages à long terme ne doit pas être pris à la légère!!!

76voto

mfinni Points 35332

Si vous aviez une surveillance appropriée sur l'UPS (généralement via SNMP), l'unité aurait dû déclencher une alerte sur votre système de surveillance. Si ce n'est pas le cas, parlez à votre fournisseur à ce sujet. Soit il a mal fonctionné, soit votre système de surveillance n'est pas correctement configuré.

Si quelque chose est réellement en train de brûler, il devrait se plaindre d'une manière ou d'une autre, ou simplement être hors du réseau, ce qui devrait également déclencher une alarme.

S'il s'agit de quelque chose comme un rail d'alimentation en train de brûler à travers l'isolation, et que ce n'est pas sur un PDU intelligent, alors nous revenons à votre question initiale, qui est "comment trouver une chose en train de brûler ?" Et je pense que la réponse appropriée est "Appuyez sur le bouton d'arrêt d'urgence et trouvez une solution. Vos serveurs de production ne sont probablement pas suffisamment importants pour risquer des vies humaines."

1 votes

Je pense qu'il est sûr de supposer qu'il existe toute une série de modes de défaillance possibles "halt and catch fire" qui pourraient se produire mais qui échapperaient à la "visibilité" du système de surveillance intégré d'un appareil. Je me demande quelles idées existent pour détecter ce type de défaillances.

13 votes

Que signifie EPO ?

39 votes

Arrêt d'urgence de l'alimentation...le gros bouton rouge qui coupe toute l'alimentation de la salle. Principalement en cas d'incendie.

44voto

user9517 Points 113163

C'est l'une de ces situations où

XKCD Die Hard sysadmin

ne s'applique pas, vous devriez appeler un professionnel

Pompier en tenue de protection

Tout le reste est simplement stupide.

0 votes

@Navin Non vous ne le faites pas, c'est aux gars du service d'incendie de le faire.

0 votes

Certain commentaires ont été supprimés là-bas, mais comme indiqué, la réponse est directe. Si quelque chose brûle, il est possible de s'intoxiquer par la fumée ou de provoquer d'autres accidents. Ne tentez pas d'entrer pour voir ce qui brûle car c'est dangereux, surtout dans une salle serveur isolée.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X