4 votes

Le redimensionnement des volumes utilisés comme datastores VMWare NFS cause des problèmes aux VM Linux

Nous avons dû effectuer un redimensionnement de volume en direct d'un datastore NFS que VMWare utilise sur notre Netapp. Toutes nos machines virtuelles Windows se sont bien comportées après le redimensionnement. Cependant, certaines de nos VM Linux ont eu des problèmes.

Certaines VM Linux ne répondent plus. Après avoir redémarré ces VM, je n'ai rien trouvé dans les journaux indiquant un problème.

J'ai cependant trouvé ce genre de messages de journal sur certaines des VM :

May 29 14:56:02 rhel6-server-1314 kernel: INFO: task jbd2/dm-0-8:382 blocked for more than 120 seconds.
May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 29 14:56:02 rhel6-server-1314 kernel: jbd2/dm-0-8   D 0000000000000000     0   382      2 0x00000000
May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce9c20 0000000000000046 ffff880037ce9be0 ffffffffa00041fc
May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce9b90 ffffffff81012b59 ffff880037ce9bd0 ffffffff8109b809
May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce1af8 ffff880037ce9fd8 000000000000f4e8 ffff880037ce1af8
May 29 14:56:02 rhel6-server-1314 kernel: Call Trace:
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod]
...             rhel6-server-1314
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100c140>] ? child_rip+0x0/0x20
May 29 14:56:02 rhel6-server-1314 kernel: INFO: task master:1674 blocked for more than 120 seconds.
May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 29 14:56:02 rhel6-server-1314 kernel: master        D 0000000000000000     0  1674      1 0x00000080
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003d669958 0000000000000086 ffff88003d669918 ffffffffa00041fc
May 29 14:56:02 rhel6-server-1314 kernel: 0000000000000000 ffff880002216028 ffff880002215fc0 ffff88003fac2b78
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003fac30f8 ffff88003d669fd8 000000000000f4e8 ffff88003fac30f8
May 29 14:56:02 rhel6-server-1314 kernel: Call Trace:
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod]
...             rhel6-server-1314
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100b0f2>] system_call_fastpath+0x16/0x1b
May 29 14:56:02 rhel6-server-1314 kernel: INFO: task pickup:6197 blocked for more than 120 seconds.
May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 29 14:56:02 rhel6-server-1314 kernel: pickup        D 0000000000000000     0  6197   1674 0x00000080
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003da95968 0000000000000086 ffff88003da95928 ffffffffa00041fc
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003da95938 ffff8800022128a0 ffff88003da95908 ffffffff81127ed0
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003d90da78 ffff88003da95fd8 000000000000f4e8 ffff88003d90da78
May 29 14:56:02 rhel6-server-1314 kernel: Call Trace:
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod]
...             rhel6-server-1314
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100b0f2>] system_call_fastpath+0x16/0x1b
May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff880037bfd280)
May 29 14:56:02 rhel6-server-1314 kernel: sd 2:0:0:0: [sda] CDB: Write(10): 2a 00 03 14 e8 d0 00 00 18 00
May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: WARNING - Issuing Reset from mptscsih_IssueTaskMgmt!! doorbell=0x24000000
May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff880037bfd280)
May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Beginning Domain Validation
May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Domain Validation skipping write tests
May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Ending Domain Validation
May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: FAST-40 WIDE SCSI 80.0 MB/s ST (25 ns, offset 127)

Mes questions :

  1. Quelqu'un sait-il quelle en est la cause ?
  2. Sinon, où devons-nous chercher des indices ?
  3. Enfin, quelqu'un sait-il comment atténuer ce problème la prochaine fois que nous devrons redimensionner un volume ?

4voto

suther Points 121

Je pense que c'était juste un délai d'attente d'E/S.

J'ai eu ce genre de problèmes avec des VMs Linux sur un datastore NFS distant. NFS était tout simplement trop lent, et certaines de nos VM Linux ont mis leurs disques en mode lecture seule (et ont donc cessé de répondre). Il est probable qu'au cours du redimensionnement, votre datastore NFS a été surchargé et que cela a causé des problèmes. Les VM Linux fonctionnent-elles bien après le redémarrage ?

Pour éviter de tels problèmes et améliorer légèrement les performances d'E/S pour les invités Linux, vous pouvez essayer de passer le planificateur d'E/S à "noop" ou "deadline" pour tous les invités :

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2011861

Dans mon cas, nous avions de tels problèmes de dépassement de délai environ une fois par semaine sur les invités Linux les plus chargés, même avec "scheduler fix". Pour résoudre ce problème, nous sommes passés de NFS à iSCSI (vous pouvez également essayer d'optimiser vos paramètres NFS tels que "rsize", "wsize", MTU et ainsi de suite, mais ce n'était toujours pas suffisant dans mon cas) et nous avons essayé de réduire les opérations d'E/S sur les invités chaque fois que cela était possible.

1voto

ewwhite Points 193555

S'il s'agit d'un appareil NetApp ( ou tout autre serveur NFS ), assurez-vous que le Meilleures pratiques NFS pour les configurations d'hôtes ESXi sont en place.

Pour les déploiements NFS, j'apporte toujours quelques ajustements aux paramètres NFS heartbeat et timeout. Cela peut s'appliquer dans votre cas. Vérifiez auprès de votre ingénieur de stockage quelles sont les recommandations spécifiques pour votre unité.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X