15 votes

Suppression des instantanés incroyablement lente

J'ai une boîte ESXi avec un stockage HP LeftHand exposé via iSCSI.

J'ai une machine virtuelle avec un disque de 1 To, dont 800 Go sont consommés. Le disque est "thick provisioned" sur le stockage LeftHand.

Un snapshot a été ouvert sur la VM (pour que Veeam Backup and Recovery puisse faire son travail), et est resté ouvert pendant environ 6 heures. Un disque delta d'environ 5 Go a été créé pendant cette période.

La suppression de l'instantané a maintenant pris plus de 5 heures, et n'est toujours pas terminée. La matrice de stockage ne signale pratiquement aucun IOPS sur cette matrice (environ 600, ce qui est un bruit de fond), aucun débit (environ 8 Mo/sec, ce qui est également un bruit de fond), une profondeur de file d'attente moyenne de 9.

En d'autres termes, le processus de consolidation des instantanés ne semble pas être lié aux entrées/sorties, je ne vois pas ce qui rend la suppression des instantanés si lente. C'est est qui fonctionne, à en juger par l'observation des fichiers delta.

Y a-t-il autre chose que je devrais examiner pour expliquer pourquoi cet instantané (relativement petit) est si lent à être supprimé ?


Conformément à la Documentation VMWare Je regarde. ls -lh | grep -E "delta|flat|sesparse" en ce moment, et je vois deux fichiers delta qui changent :

-rw-------    1 root     root      194.0M Jun 15 01:28 EXAMPLE-000001-delta.vmdk
-rw-------    1 root     root      274.0M Jun 15 01:27 EXAMPLE-000002-delta.vmdk

J'en déduis qu'un fichier d'instantanés est consolidé tandis que l'autre collecte les deltas pendant le processus de consolidation. Ensuite, le nouveau fichier est consolidé, et un autre delta est créé pendant ce processus.

La taille des fichiers sont diminue à chaque itération (enfin, la plupart des itérations), donc je suppose que cette procédure de consolidation finira par s'achever (peut-être devrai-je retirer la VM du réseau pendant 30 minutes pour laisser cette procédure se terminer sans générer de changements).

Il faut environ 2 minutes par centaine de mégas de delta pour consolider. Cela ne s'est certainement jamais produit auparavant. La suppression d'un snapshot dans le cadre d'une sauvegarde Veeam normale prend environ 40 minutes (donc certainement pas rapide, mais pas aussi lente).


Après 6 heures et 2 minutes, l'instantané est finalement retiré. Cependant, j'aimerais savoir si vous avez une méthode pour résoudre ce genre de problème (en dehors des performances de stockage).

0 votes

Je ne peux m'empêcher de remarquer que 8Mbit/seconde est assez proche d'un réseau de 10Mbit/seconde, moins quelques frais généraux. Est-il possible qu'il s'agisse d'un problème lié au réseau sur la liaison iSCSI - un câble de raccordement défectueux qui commence à tomber en panne ? S'agit-il d'une seule liaison, d'un seul hôte, l'hôte fonctionne-t-il correctement pour des lectures/écritures soutenues ? Pouvez-vous vérifier l'absence d'erreurs sur le port du commutateur ?

0 votes

@TessellatingHeckler Je viens de faire quelques tests et je peux toujours obtenir environ 1,5Gbit/sec séquentiel de la matrice, ce qui est ce que je m'attendais à obtenir dans des circonstances normales. La nuit dernière, la suppression du snapshot a pris trois minutes ce qui est de loin le plus rapide que j'ai jamais vu (normalement, c'est environ 10x plus long, mais il y avait un grand match de football ici la nuit dernière, donc je soupçonne que personne n'utilisait les systèmes après les heures où les sauvegardes sont exécutées, d'où le delta minuscule et le petit temps commit). Donc, il peut le faire rapidement, mais cette fois-ci, ça n'a pas marché.

0 votes

Hmm. Avez-vous VMware Storage IO Control en cours d'exécution, et le datastore est-il partagé avec d'autres VM ? Est-il possible qu'il y ait eu un étranglement ou une limite souple, sans que le matériel de l'hôte ou du SAN ne soit sollicité ?

2voto

Andrew Meyer Points 253

Je crois savoir que la suppression d'un snapshot ESXI peut prendre (et prend généralement) beaucoup de temps. Avant que le snapshot puisse être supprimé, les changements de l'ancien snapshot doivent être écrits dans l'ordre sur le snapshot suivant. On m'a appris à toujours supprimer les snapshots du plus ancien au plus récent pour que ce processus se déroule aussi rapidement et efficacement que possible.

Naturellement, plus il y a de changements entre les instantanés, plus la fusion prendra du temps.

2 votes

C'est vrai, sauf que 6 heures pour supprimer un snapshot de 5GB est absurde. Comme je l'ai mentionné, il faut normalement environ 40 minutes pour supprimer le snapshot, et je pense même que 40 minutes, c'est beaucoup trop lent. Il s'agissait du seul snapshot sur cette VM, et la suppression des snapshots a changé dans les versions ultérieures d'ESXi, de sorte que l'ordre dans lequel ils sont supprimés n'a pas trop d'importance.

2 votes

J'ai déjà vu le comportement lent des instantanés avec peu d'E/S sur le stockage, mais je n'en ai jamais trouvé la cause. J'ai toujours supposé que l'hyperviseur mâchait les deltas en mémoire. (Les machines en question utilisaient un stockage à connexion directe, sinon j'aurais pu examiner les problèmes de SAN également, mais j'ai toujours attribué ce problème à de gros deltas ou à un code non optimisé dans le sous-système d'instantané de VMWare).

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X