Ce que je voulais faire, c'était créer une copie du disque d'une machine sur une machine de secours de manière à ce que, en cas de panne de la machine principale, je n'avais qu'à redémarrer la machine de secours, choisir une partition racine différente et être prêt à repartir.
Je l'ai configuré de la manière suivante :
- Une machine principale et une machine de secours.
- Les deux machines ont une partition RAID définie.
- La machine de secours sert sa partition RAID via nbd-server.
- La machine principale monte la partition RAID de la machine de secours via nbd-client.
- Sur la machine principale, les deux partitions RAID sont combinées via mdadm en un seul périphérique RAID avec le drapeau
--write-mostly
défini pour la partition distante.
J'ai écrit quelques scripts pour tout démarrer automatiquement, configuré grub sur la machine de secours pour avoir les bonnes options vous permettant de démarrer à partir d'une petite partition en miroir ou de la partition de secours. J'ai testé et ça fonctionne.
Le problème que j'ai rencontré, c'est qu'environ une fois par semaine, la machine principale semble se bloquer complètement. Vous ne pouvez pas vous connecter en ssh, la console ne répond pas et, après avoir redémarré la machine, les entrées du journal s'arrêtent à un certain moment et rien dans le journal n'indique une erreur.
J'ai déconnecté la partition NBD et exécuté tout avec seulement le disque local dans le groupe RAID et cela fonctionne depuis un mois sans aucun problème.
Est-ce que le NBD est instable? RAID pourrait-il décider de déconnecter la partition locale et de fonctionner à partir de la partition nbd au moment où le réseau échoue de toute façon? Est-ce simplement la mauvaise approche?
Merci.