48 votes

Probabilité de défaillance du châssis de lames

Dans mon entreprise, nous envisageons d'acheter des serveurs lames au lieu de serveurs en rack. Bien entendu, les vendeurs de technologie les présentent comme très attrayants. Une préoccupation, que je lis très souvent dans différents forums, est qu'il existe une possibilité théorique que le châssis du serveur tombe en panne - ce qui aurait pour conséquence de mettre toutes les lames hors service. Cela est dû au partage de l'infrastructure.

Ma réaction face à cette probabilité serait d'avoir une redondance et d'utiliser deux châssis au lieu d'un (très coûteux bien sûr).

Certaines personnes (y compris les vendeurs HP) essaient de nous convaincre que le châssis a très peu de chances de tomber en panne, en raison des nombreuses redondances (alimentation redondante, etc.).

Je crains également qu'en cas de panne, des pièces de rechange ne soient nécessaires, ce qui est difficile dans notre pays (l'Éthiopie).

Je m'adresse donc à des administrateurs expérimentés, qui ont géré des serveurs lames : Quelle est votre expérience ? Est-ce qu'ils tombent en panne dans leur ensemble - et quelle est l'infrastructure partagée raisonnable qui pourrait tomber en panne ?

Cette question pourrait être étendue au stockage partagé. Là encore, je dirais que nous avons besoin de deux unités de stockage au lieu d'une seule - et là encore, les vendeurs affirment que ces choses sont tellement solides qu'aucune défaillance n'est à craindre.

J'ai du mal à croire qu'une infrastructure aussi critique puisse être très fiable sans redondance - mais peut-être pouvez-vous me dire si vous avez des projets réussis basés sur des lames, qui fonctionnent sans redondance dans leurs parties essentielles (châssis, stockage...).

Pour l'instant, nous nous tournons vers HP, car IBM semble beaucoup trop cher.

49voto

ewwhite Points 193555

La probabilité d'une défaillance complète du châssis est faible...

Vous rencontrerez probablement des problèmes dans votre établissement avant de subir un sinistre. complet défaillance d'un boîtier de lame.

Mon expérience porte principalement sur HP C7000 y HP C3000 les boîtiers de lames. J'ai également géré des solutions de lames Dell et Supermicro. Le fournisseur compte un peu. Mais pour résumer, le matériel HP est excellent, Dell est très bien, et Supermicro manque de qualité, de résilience et est tout simplement mal conçu. Je n'ai jamais connu de défaillance du côté de HP et de Dell. Le Supermicro a connu de graves pannes, ce qui nous a obligés à abandonner la plateforme. Sur les HP et les Dell, je n'ai jamais rencontré de défaillance de châssis complet.

  • J'ai connu des événements thermiques. La climatisation est tombée en panne dans une installation de colocalisation, faisant grimper la température à 115°F/46°C pendant 10 heures.
  • Les surtensions et les pannes de courant : Perte d'un côté d'une alimentation A/B. Défaillances individuelles de l'alimentation électrique. Il y a généralement six blocs d'alimentation dans mes configurations de lames, de sorte qu'il y a suffisamment d'avertissement et de redondance.
  • Défaillances de serveurs lames individuels. Les problèmes d'un serveur n'affectent pas les autres dans le boîtier.
  • Un système incendie ...

J'ai vu une grande variété d'environnements et j'ai eu l'avantage d'installer dans des conditions idéales de centre de données, ainsi que dans des endroits plus difficiles. En ce qui concerne les HP C7000 et C3000, la principale chose à prendre en compte est que le châssis est entièrement modulaire. Les composants sont conçus pour minimiser l'impact de la défaillance d'un composant sur l'ensemble de l'unité.

Pensez-y comme suit... Le châssis principal du C7000 est composé d'assemblages de cartes avant, de cartes intermédiaires (passives) et de cartes arrières. Le boîtier structurel maintient simplement les composants avant et arrière ensemble et supporte le poids des systèmes. Presque toutes les pièces peuvent être remplacées... croyez-moi, j'en ai démonté beaucoup. Les principales redondances se situent au niveau du ventilateur/refroidissement, de l'alimentation et de la gestion du réseau. Les processeurs de gestion ( L'administrateur embarqué de HP ) peuvent être jumelés à des fins de redondance, mais les serveurs peuvent fonctionner sans eux.

enter image description here

Enceinte entièrement peuplée - vue de face. Les six blocs d'alimentation situés en bas couvrent toute la profondeur du châssis et se connectent à une carte-mère modulaire située à l'arrière de l'armoire. Les modes d'alimentation sont configurables : par exemple 3+3 ou n+1. Le boîtier dispose donc bien d'une redondance d'alimentation. enter image description here

Enceinte entièrement peuplée - vue arrière. Les modules de mise en réseau Virtual Connect à l'arrière disposent d'une connexion croisée interne, de sorte que je peux perdre un côté ou l'autre et maintenir la connectivité réseau avec les serveurs. Il y a six blocs d'alimentation remplaçables à chaud et dix ventilateurs remplaçables à chaud. enter image description here

Enceinte vide - vue de face. Notez qu'il n'y a rien à faire dans cette partie de l'enceinte. Toutes les connexions passent par le midplane modulaire. enter image description here

Démontage de l'assemblage du fond de panier. Notez les six alimentations électriques de l'assemblage du fond de panier dans la partie inférieure. enter image description here

Assemblage du plan médian. C'est ici que la magie opère. Notez les 16 connexions séparées du fond de panier : une pour chacun des serveurs lames. Il m'est arrivé que des prises/baies de serveurs individuels tombent en panne sans que l'ensemble du boîtier ne soit endommagé ou que les autres serveurs ne soient affectés. enter image description here

Carte(s) mère(s) d'alimentation. Unité 3ø en dessous du module monophasé standard. J'ai modifié la distribution d'énergie dans mon centre de données et j'ai simplement échangé le fond de panier d'alimentation pour tenir compte de la nouvelle méthode de distribution d'énergie. enter image description here

Endommagement du connecteur du châssis. Ce boîtier particulier est tombé pendant l'assemblage, brisant les broches d'un connecteur de ruban. Cela est passé inaperçu pendant des jours, ce qui a eu pour conséquence que le châssis de la lame en fonctionnement a pris feu... enter image description here

Voici les restes carbonisés du câble plat du plan intermédiaire. Ce câble contrôlait une partie de la température du châssis et de la surveillance de l'environnement. Les serveurs lames à l'intérieur ont continué à fonctionner sans incident. Les pièces concernées ont été remplacées à ma guise pendant les temps d'arrêt prévus, et tout s'est bien passé. enter image description here

20voto

sysadmin1138 Points 129885

Cela fait maintenant huit ans que je gère un petit nombre de serveurs lames, et je n'ai encore jamais eu à déplorer une défaillance de l'ensemble du système qui ait mis hors ligne un certain nombre de serveurs lames. J'ai failli le faire en raison de problèmes d'alimentation, mais je n'ai encore jamais eu de défaillance au niveau du châssis qui ne soit pas imputable à des sources extérieures.

Votre observation selon laquelle le châssis représente un point de défaillance unique est correcte, bien qu'ils soient aujourd'hui dotés d'un grand nombre de redondances. Tous les systèmes à lames que j'ai utilisés disposaient d'alimentations parallèles pour les lames, de plusieurs prises réseau passant par des chemins distincts et, dans le cas du canal à fibres optiques, de plusieurs chemins entre la lame et les ports optiques de l'arrière-bâtiment. Même le système d'information du châssis avait des chemins multiples.

Avec une ingénierie de réseau appropriée (utilisation de NIC redondants, MPIO pour le stockage), il est tout à fait possible de survivre à un seul problème. Depuis que j'utilise ces systèmes, j'ai rencontré les problèmes suivants, dont aucun n'a affecté plus d'une lame :

  • Deux blocs d'alimentation tombent en panne dans le rack de lames. Il y avait suffisamment de redondance dans les 4 autres pour supporter la charge.
  • Perte d'une phase pour une alimentation triphasée. Ces alimentations sont rares de nos jours, mais les deux autres phases avaient une capacité suffisante pour supporter la charge.
  • Perte d'une boucle de gestion inter-châssis. Il en a été ainsi pendant des années avant qu'un technicien du fournisseur, lors d'un autre appel, ne le remarque.
  • Perte totale des boucles de gestion inter-châssis. Nous avons perdu l'accès à la console de gestion, mais les serveurs ont continué à fonctionner comme si de rien n'était.
  • Quelqu'un a accidentellement redémarré le fond de panier du réseau d'arrière-plan. Tout ce qui se trouvait dans ce châssis utilisait des cartes réseau redondantes et n'a donc subi aucune interruption de service ; tout le trafic s'est déplacé vers l'autre fond de panier.

L'argument de TomTom concernant le coût est cependant tout à fait exact. Pour obtenir une parité totale des coûts, votre châssis de lames devra être entièrement chargé et il est probable qu'il n'utilisera pas d'éléments spéciaux tels que des commutateurs de back-of-rack. Les châssis à lames sont utiles dans les domaines où la densité est vraiment nécessaire en raison du manque d'espace.

14voto

TomTom Points 50635

Cette question pourrait être étendue au stockage partagé. Là encore, je dirais que nous avons besoin de deux unités de stockage au lieu d'une seule - et là encore, les vendeurs affirment que ces choses sont si solides qu'aucune défaillance n'est possible. qu'aucune défaillance n'est à craindre.

En fait, non. Jusqu'à présent, vos préoccupations étaient logiques, mais cette phrase les place dans la catégorie "lisez ce que vous avez sous les yeux". HA avec réplication complète est une fonctionnalité connue des entreprises pour les unités de stockage. Le fait est qu'un SAN (unité de stockage) est beaucoup plus complexe qu'un châssis de lames qui, au bout du compte, n'est que du "métal stupide". Tout ce qui se trouve dans un châssis de lames, à l'exception de certains fonds de panier, est remplaçable - tous les modules, etc. sont remplaçables, et les lames individuelles sont autorisées à tomber en panne. Personne ne dit que le centre de lames en lui-même donne aux lames une haute disponibilité.

C'est très différent d'un SAN qui est censé être opérationnel 100 % du temps - dans un état cohérent - et qui comporte donc des éléments tels que la réplication, etc.

Cela dit, surveillez vos chiffres. J'ai envisagé d'acheter des lames pendant un certain temps, mais cela n'a JAMAIS eu de sens sur le plan financier. Les châssis sont tout simplement trop chers et les lames ne sont pas vraiment moins chères que les ordinateurs normaux. Je suggérerais de considérer l'architecture SuperMicro Twin comme une alternative.

4voto

hookenz Points 13952

Les serveurs lames avec lesquels j'ai eu l'occasion de travailler sont ceux d'IBM. Ils sont totalement modulaires et intègrent une grande part de redondance. Ainsi, si quelque chose doit tomber en panne, ce sera l'un des composants, comme un bloc d'alimentation ou un commutateur modulaire, etc. Mais encore une fois, il y a une redondance même dans ces cas-là.

Depuis que je m'occupe des lames IBM, je n'ai jamais vu de défaillance complète.

Pour les autres marques, je suppose qu'elles seraient construites de la même manière.
Il serait bon de s'adresser à un vendeur et de lire beaucoup de documents.
Il s'agit d'un investissement important.

1voto

mpez0 Points 1492

Les défaillances entraînant des pannes de plusieurs serveurs lames dans le même boîtier sont comparables (en termes de probabilité et de cause) aux défaillances entraînant des pannes de plusieurs serveurs dans le même rack.

Mise en place initiale pour minimiser les points de défaillance uniques (deux séparer des sources d'alimentation en courant alternatif, chacune pouvant supporter la totalité de la charge, reliées à des alimentations en courant continu séparées, de sorte que chaque moitié puisse supporter la totalité de la charge ; deux sources d'alimentation en courant alternatif, chacune pouvant supporter la totalité de la charge. séparer ) et la différence entre quelque chose qui supprime toutes les lames d'un châssis ou tous les serveurs 2U d'un rack est très faible.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X