1 votes

Mise en réseau / Déclenchement multivoie

J'ai des problèmes avec quelques boîtes linux qui utilisent xen. Ils agissent en tant qu'hyperviseurs et sont connectés au SAN en utilisant une configuration multipath pour fournir du stockage aux vms invités.

De temps en temps, l'un des deux chemins échoue, mais il peut être rapidement rétabli en courant :

multipath
multipath -ll

Je dois aller au fond du problème et trouver pourquoi cela se produit. J'ai remarqué que cela ne se produit pas lorsque l'hyperviseur n'est pas trop occupé (au niveau du réseau et des E/S). J'ai également éliminé un éventuel problème matériel en déplaçant tous les services sur un nouveau châssis identique. J'ai recueilli quelques journaux système qui peuvent indiquer un problème de module NIC ou un problème de noyau et l'échec du multipath pourrait n'être qu'un résultat de ceci ! !!?? Voici un extrait du journal qui apparaît toujours lorsque le multipath tombe en panne :

kernel: BUG: soft lockup - CPU#0 stuck for 60s! [swapper:0]
kernel: BUG: soft lockup - CPU#2 stuck for 60s! [events/2:76]

Je vais coller les logs complets à la fin de ce post pour en faciliter la lecture. Maintenant, un peu plus sur mon installation :

  • L'accès à l'Internet est configuré sur eth0 et eth2 (bonded).
  • L'accès SAN multipath est configuré sur eth1 et eth3.

Serveur :

  • Supermicro SuperServer 6016T-NTRF

  • Processeur Intel(R) Xeon(R) E5645

  • Intel Corporation 82576 Gigabit Network

  • CentOS version 5.7 (Final) 2.6.18-274.18.1.el5xen

  • le nom du fichier : /lib/modules/2.6.18-274.18.1.el5xen/kernel/drivers/net/igb/igb.ko

  • version : 3.0.6-k2-1

  • Journal 01

  • Journal 02

Si vous avez besoin de plus de détails, n'hésitez pas à nous contacter. Toute aide sera très appréciée.

2voto

sysadmin1138 Points 129885

Puisqu'il semble s'agir d'une configuration iSCSI, il y a quelques zones où des pannes de chemin peuvent se produire.

  • Fragilité de l'Ethernet simple . Un paquet a été abandonné, ce qui a déclenché le basculement vers l'autre chemin plutôt que d'attendre la retransmission et le réassemblage.
  • Des problèmes Ethernet moins simples . Un port de commutation s'est brièvement retourné, déclenchant un basculement.
  • Quelque chose dans la pile Multipath a déclenché un basculement. . Multipath est plus sensible aux bizarreries du réseau que le bon vieux TCP/IP, et n'attendra donc pas aussi longtemps pour rétablir les connexions ; il basculera plutôt.
  • Quelque chose dans la pile réseau a mal tourné . Il y a plusieurs possibilités, mais d'après votre message d'erreur, c'est probablement le problème.

Les configurations à trajets multiples sont très sensibles à la latence sur le fil, et iSCSI + Ethernet en aura davantage qu'un environnement Fibre Channel. Un certain battement est normal.

Comme cela semble se produire lorsque le HVM est occupé, cela suggère que les chemins des NIC du noyau sont soit encombrés de données, soit privés de CPU (peut-être les deux), ce qui déclenche le basculement multivoie. Il n'y a pas grand chose que vous puissiez faire à ce sujet, mais vous pouvez restreindre les choses afin de mieux expliquer. por qué il fait ce qu'il fait.

Le chargement du serveur est assez facile, et il semble que vous l'ayez déjà fait.

Le diagnostic de la congestion est plus difficile. Si les moniteurs de bande passante de vos ports réseau n'indiquent pas un trafic important, mais que les entrées de journal que vous avez postées se produisent quand même, c'est un signe que le serveur est encombré en interne. Si vous pouvez saisir une capture de paquets pendant l'un de ces événements, le nombre de paquets horodatés vous dira si le trafic passé est vraiment interrompu pendant 10 secondes, ce qui est un signe certain que le serveur est encombré en interne.

Correction de le problème est probablement spécifique au pilote, avec la possibilité d'un certain réglage des paramètres de la pile TCP/IP.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X