2 votes

Le serveur devient inaccessible et se remet en marche tout seul (probablement un problème de réseau).

J'ai un problème étrange avec un serveur qui se trouve sur mon lieu de travail (il est derrière un NAT, si c'est important). Le problème est le suivant : à certains moments, il devient inaccessible puis se remet en marche, généralement en quelques secondes, mais parfois jusqu'à une minute. Il ne redémarre pas, il ne se plante pas. Il devient simplement inaccessible. Pendant ce temps, je ne peux pas m'y connecter par ssh, ni accéder à aucune application en cours d'exécution sur la machine (elle exécute quelques applications Rails, qui deviennent également inaccessibles). J'ai vérifié dmesg et j'ai vu ces lignes -

[    4.958074] ADDRCONF(NETDEV_UP): eth0: link is not ready
[    5.040476] ADDRCONF(NETDEV_UP): eth1: link is not ready
[    5.175624] igb: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX/TX
[    5.177207] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready

Quelques lignes plus loin, je vois quelque chose de similaire concernant les interfaces réseau -

[1195777.544167] igb: eth0 NIC Link is Down
[1195780.962943] igb: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX/TX

Ça ressemble à un problème de réseau. Le fichier /var/log/messages ne montre rien d'intéressant. Je ne sais pas comment déboguer cela. Un indice sur ce que cela pourrait être ? Et quelles sont les choses que je dois vérifier ici ? Merci !

7voto

BillThor Points 27096

Ce type de problème ne génère généralement pas beaucoup de messages de journal. Vous avez découvert les deux messages importants qui montrent que les interfaces sont descendues et montées. Ils peuvent être générés en débranchant le câble Ethernet et en le rebranchant.

Il peut s'agir d'un mauvais câble entre la carte réseau et le routeur. Mes premières mesures (faites une à la fois) seraient :

  • Remplacez le câble connecté à eth0 et voyez si cela résout le problème.
  • Reconfigurez les interfaces réseau pour que le trafic actuellement sur eth0 soit sur eth1 et vice versa. (Nécessite un redémarrage du réseau et un échange de câbles.) Si le problème se déplace, il s'agit alors d'une carte réseau défaillante.
  • Vérifiez l'état du périphérique en amont et son alimentation. S'il perd son alimentation ou s'il est défaillant, vous pouvez observer ce type de comportement.
  • Exécuter netstat -i o ifconfig et examinez le nombre d'erreurs. Normalement, ils doivent être égaux à 0 ou à un seul chiffre. Un nombre élevé d'erreurs de porteuse ou de trame peut indiquer une mauvaise adaptation duplex. Le décalage duplex peut être vérifié en chargeant puis en téléchargeant un gros fichier. De grandes différences de vitesse accompagnées d'un nombre croissant d'erreurs indiquent une désynchronisation de la liaison. Les modems-câbles ont généralement des largeurs de bande différentes pour le chargement et le déchargement, de sorte que les transferts locaux fonctionnent mieux pour ce test.

Un outil que j'utilise est mtr . J'utilise une commande comme mtr -i 15 -n google.com pour surveiller la connectivité. Envisagez d'utiliser l'un des serveurs de votre FAI au lieu de google.com. Il peut être exécuté en mode rapport par lot. Si le problème se situe en amont du serveur, la sortie devrait aider à identifier où le problème se produit.

3voto

Jim G. Points 2592

BillThor a d'excellentes suggestions. Si aucune de ses solutions ne résout le problème, l'auto-négociation pourrait être en cause (bien que cela soit peu probable). Essayez de forcer la vitesse et le duplex de la connexion (instructions pour RedHat, mais les autres distros sont similaires)

Editez /etc/sysconfig/network-scripts/ifcfg-eth0 :

ETHTOOL_OPTS="speed 100 duplex full autoneg off"

Puis redémarrez l'interface :

/etc/init.d/network restart

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X