8 votes

Hôte de rechange chaud ou hôte de rechange froid ?

Nous avons plusieurs hôtes où nous avons un hôte de secours identique, qui est corrigé et mis à jour de sorte qu'il est très proche d'avoir le même logiciel et la même configuration. En cas de panne, le câble réseau est échangé et le serveur DHCP est mis à jour avec la nouvelle adresse MAC. C'est le meilleur cas, car il y a généralement un peu plus de choses à modifier.

Je pense que c'est un gaspillage d'électricité d'avoir un hôte de secours à chaud et une perte de temps pour le maintenir, et comme des modifications de configuration sont nécessaires en cas de basculement, j'aimerais poser la question suivante :

Les hôtes de hot spare sont-ils de la vieille école et y a-t-il de meilleures méthodes aujourd'hui ?

Au lieu d'avoir un hôte de rechange à chaud, serait-il judicieux d'en faire un hôte de rechange à froid, de prendre les disques durs et de les mettre dans l'hôte principal et de changer le RAID de 1 à 1+1. En cas de défaillance, tout ce que j'aurais à faire serait de changer les câbles réseau, de mettre à jour le serveur DHCP, de prendre les disques durs et de les insérer dans l'hôte de secours froid et de mettre sous tension. L'avantage, tel que je le vois, est que les disques 2x2 sont toujours synchronisés, donc un seul hôte à maintenir et aucun changement de configuration n'est nécessaire lors du basculement.

C'est une bonne idée ?

11voto

ewwhite Points 193555

Oui, c'est un peu de la vieille école. Le matériel moderne ne juste échouer si souvent. Concentrez-vous soit sur l'amélioration de la disponibilité de vos applications (pas toujours possible), soit sur les éléments nécessaires pour rendre vos hôtes individuels plus résistants...

Pour les hôtes :

  • Achetez du meilleur matériel.
  • Assurez-vous que vous disposez de contrats d'assistance.
  • ENREGISTRER les contrats de support de vos serveurs (les pièces de rechange sont stockées localement sur la base des données d'enregistrement !)
  • Utilisez des alimentations redondantes, le RAID (matériel ?), des ventilateurs redondants.
  • Si le serveur n'est pas capable d'accueillir les fonctions redondantes ci-dessus, gardez un châssis ou des composants de rechange à portée de main pour pouvoir s'auto-réparer en cas de panne.

Dans l'ordre décroissant de la fréquence des pannes, je vois : les disques, la RAM, les alimentations, les ventilateurs le plus souvent... Parfois la carte système ou le CPU. Mais c'est sur ces deux derniers points que votre contrat d'assistance devrait intervenir.

9voto

Sobrique Points 3695

C'est plutôt inefficace, notamment en raison de la dépendance à l'égard d'une intervention manuelle pour effectuer le changement.

J'ai travaillé dans des endroits qui géraient un site DR chaud - littéralement, des serveurs identiques au primaire, prêts à fonctionner instantanément. Cependant, le basculement en DR est un processus automatisé - nous ne parlons pas de câblage, d'un peu de bricolage et d'un commutateur, mais d'un processus qui, lorsque nous appuyons sur le bouton, bascule tout d'un site à l'autre.

Cette approche est excessivement coûteuse, mais c'est une décision commerciale - risque acceptable par rapport à l'argent nécessaire pour atteindre l'objectif. En règle générale, il y a une courbe exponentielle sur l'objectif de temps de récupération - plus il se rapproche de zéro, plus il coûte cher.

Mais c'est le sujet de votre question, vraiment. Qu'est-ce que est votre objectif de temps de récupération, et quel est le moyen le plus efficace de l'atteindre. Attendre le démarrage d'un serveur prend quelques minutes. Combien de temps faut-il à quelqu'un pour effectuer les réglages et les "tâches de récupération" lorsque le serveur s'éteint à 4 heures du matin ?

Et quelle est la durée d'une panne acceptable ?

Je dirais que si vous faites de la "récupération à chaud", vous devez penser à la mise en grappe. Vous pouvez être assez bon marché sur le clustering avec une bonne utilisation de VMWare - "échouer" à une VM - même à partir d'un physique - signifie que vous n'exécutez pas de matériel redondant. (Enfin, N+1 plutôt que 2N).

Si votre RTO est suffisamment long, alors éteignez le boîtier. Vous constaterez peut-être que le RTO est suffisant pour qu'une reconstruction à froid à partir de la sauvegarde soit acceptable.

6voto

user Points 4207

Sobrique explique comment l'intervention manuelle fait que la solution proposée est sur-optimale. y ewwhite parle de la probabilité de défaillance de divers composants . Ces deux points sont très pertinents et devraient être pris en considération.

Il y a cependant une question que personne ne semble avoir commentée jusqu'à présent, ce qui me surprend un peu. Vous proposez de :

faire de [l'hôte de secours actuel] un hôte de secours froid, prendre les disques durs et les mettre dans l'hôte principal et changer le RAID de 1 à 1+1.

Cela ne vous protège pas contre ce que le système d'exploitation fait sur le disque.

Il ne vous protège réellement que contre les pannes de disque, dont vous réduisez considérablement l'impact en passant des miroirs (RAID 1) aux miroirs de miroirs (RAID 1+1). Vous pouvez obtenir le même résultat en augmentant le nombre de disques dans chaque jeu de miroirs (passez de RAID 1 à 2 disques à RAID 1 à 4 disques, par exemple), tout en améliorant probablement les performances de lecture lors d'opérations ordinaires.

Alors, regardons comment cela peut se faire échouer .

  • Disons que vous êtes en train d'installer des mises à jour du système, et que quelque chose fait échouer le processus à mi-chemin ; peut-être y a-t-il un problème de sécurité ? panne d'alimentation et d'ASI Ou peut-être avez-vous un accident bizarre et rencontrez un bogue invalidant dans le noyau (Linux est assez fiable de nos jours, mais le risque existe toujours).
  • Peut-être qu'une mise à jour introduit un problème que vous n'avez pas détecté lors des tests (vous testez les mises à jour du système, n'est-ce pas ?), ce qui nécessite un basculement sur le système secondaire pendant que vous réparez le système primaire.
  • Peut-être qu'un bogue dans le code du système de fichiers provoque des écritures erronées et invalides sur le disque.
  • Peut-être qu'un administrateur aux gros doigts (ou même malveillant) fait rm -rf ../* o rm -rf /* 代わりに rm -rf ./* .
  • Peut-être qu'un bug dans votre propre logiciel corrompt massivement le contenu de la base de données.
  • Peut-être qu'un virus a réussi à s'infiltrer.

Peut-être, peut-être, peut-être... (et je suis sûr qu'il y a beaucoup d'autres façons dont votre approche proposée pourrait échouer.) Cependant, en fin de compte, cela se résume à votre "avantage" "les deux ensembles sont toujours synchronisés". Parfois, vous ne les veulent pas pour être parfaitement synchrone.

En fonction de ce qui s'est passé, vous avez besoin d'un système de secours à chaud ou à froid, prêt à être activé, ou de sauvegardes appropriées. Dans tous les cas, les miroirs RAID de miroirs (ou les miroirs RAID) ne vous aideront pas si le mode de défaillance implique autre chose qu'une défaillance du périphérique de stockage matériel (crash du disque). Quelque chose comme raidzN de ZFS peut probablement faire un peu mieux à certains égards, mais pas du tout mieux à d'autres.

Pour moi, cela signifie que l'approche que vous proposez est à proscrire dès le départ si l'intention est de mettre en place une sorte de basculement en cas de catastrophe.

5voto

snowdude Points 2790

Le fait qu'il s'agisse d'une vieille école ne fait pas nécessairement de l'utilisation d'une pièce de rechange chaude une mauvaise idée.

Votre principale préoccupation devrait être le raisonnement, quels sont les risques que vous courez, et comment l'utilisation d'un hot spare les atténue. En effet, selon moi, le remplacement à chaud ne concerne que les pannes matérielles, qui, bien qu'elles ne soient pas rares, ne constituent pas le seul risque opérationnel que vous courez, ni le plus probable. La deuxième préoccupation est de savoir si les stratégies alternatives permettent de réduire davantage les risques ou de réaliser des économies significatives.

L'exécution d'un hot spare avec de multiples étapes de basculement manuel prendra beaucoup de temps et risque de mal tourner, mais j'ai aussi vu des basculements automatisés avec des suites de clusters HA se transformer en de gros f*cks de clusters.

Par ailleurs, le fait de disposer d'une réserve chaude ou froide au même endroit n'assure pas la continuité des activités en cas de catastrophe locale.

2voto

NotMe Points 3732

Le concept d'avoir une réserve chaude ou même froide est dépendant comment l'application ou les applications sont construites en premier lieu.

Ce que je veux dire, c'est que si l'application a été construite de manière à ce que la charge des données et des services soit répartie sur plusieurs machines, l'idée qu'une seule machine puisse mettre le système hors service devrait disparaître. Dans cette situation, vous n'avez pas besoin d'une machine de secours. Vous avez plutôt besoin d'une capacité excédentaire suffisante pour faire face à l'arrêt d'une machine ou d'un composant individuel.

Par exemple, une application web standard nécessite généralement un serveur web et un serveur de base de données. Pour les serveurs web, il suffit d'équilibrer la charge de 2 ou plus. Si l'un d'eux meurt, ce n'est pas grave. La base de données est généralement plus difficile car elle doit être conçue pour être multi-maîtres avec toutes les données synchronisées entre les machines participantes. Ainsi, au lieu d'un seul serveur de base de données, vous vous retrouvez avec deux (ou plus) qui répondent tous deux à vos besoins en matière de données. Les grands fournisseurs de services tels que Google, Amazon, Facebook, etc. ont choisi cette voie. Les coûts initiaux sont plus élevés en termes de temps de développement, mais ils sont payants si vous devez passer à l'échelle supérieure.

Maintenant, si votre application n'est pas structurée de cette manière ou s'il est simplement prohibitif de la réadapter, alors oui, vous aurez probablement besoin d'une réserve chaude.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X