3 votes

Désespéré : le délai d'attente de l'état a expiré, lockd ne peut pas surveiller / annuler la surveillance

Depuis cet après-midi, quelque chose ne va pas avec le serveur. Du côté du serveur, je vois des messages dans dmesg comme suit :

statd: server rpc.statd not responding, timed out
lockd: cannot unmonitor <client>
statd: server rpc.statd not responding, timed out
lockd: cannot monitor <client>

Côté client, je vois dans dmesg :

lockd: server <server> not responding, still trying
lockd: server <server> OK

Cela paralyse tout le réseau ! J'ai essayé ceci solution suggéré par Xian, mais cela ne fait aucune différence.

Serveur, Debian Linux, Squeeze 64-bit :

>> uname -a
Linux <server> 2.6.32-5-amd64 #1 SMP Fri May 10 08:43:19 UTC 2013 x86_64 GNU/Linux

Clients, Linux Mint 13-64bit :

>> uname -a
Linux <client> 3.2.0-49-generic #75-Ubuntu SMP Tue Jun 18 17:39:32 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

Je n'ai pas effectué de mise à jour sur le serveur, je ne sais donc pas ce qui a pu changer. J'ai mis à jour l'une de nos machines clientes, mais je ne vois pas pourquoi cela perturberait le serveur, puisque toutes les machines semblent affectées. Je ne vois pas pourquoi cela perturberait le serveur, puisque toutes les machines semblent affectées.

MISE À JOUR 1

Le serveur se bloque pendant un certain temps à

Starting portmap deamon
Starting NFS common utilities: statd idmapd

Cela prend environ 2 minutes jusqu'à ce que le démarrage se poursuive...

MISE À JOUR 2

C'est en effet la machine cliente qui a été mise à niveau qui est à l'origine de ce problème. Il semble qu'il y ait eu un blocage statd sur le serveur, ce qui entraîne des problèmes sur toutes les autres machines. J'ai redémarré l'ensemble du réseau en laissant cette machine éteinte et je n'ai rencontré aucun problème. Ce n'est pas vraiment une solution, mais j'ai depuis rétrogradé cette machine et tout semble stable.

2voto

Janne Pikkarainen Points 31244

Voici quelques suggestions :

J'ai réussi une fois à casser l'interface de bouclage ( lo ) et grâce à lui, plusieurs services, tels que NFS, ont cessé de fonctionner correctement. Voir avec ifconfig si vous avez encore votre bien-aimé lo est opérationnelle. Si ce n'est pas le cas, consultez /etc/network/interfaces et voir ce qui se passe.

Par ailleurs, comme certains l'ont déjà mentionné, vérifiez les commandes suivantes pgrep -v statd y netstat -tlnpu pour voir si statd est en cours d'exécution.

Ou peut-être quelqu'un a-t-il modifié quelque chose sous /etc du côté du serveur ? Si vous n'avez pas /etc sous contrôle de version, pour voir si des fichiers ont été récemment modifiés : find /etc -mtime -14 affichera les fichiers modifiés au cours des 14 derniers jours, par exemple.

1voto

dubst3p_lov3r Points 11

Jetez un coup d'œil ici : http://sophiedogg.com/lockd-and-statd-nfs-errors/

Essayez :

# /etc/init.d/nfs-common stop
# /etc/init.d/nfs-kernel-server stop
# rm -rf /var/lib/nfs/statd/sm/*
# rm -rf /var/lib/nfs/statd/sm.bak/*
# /etc/init.d/nfs-common start
# /etc/init.d/nfs-kernel-server start

J'ai eu le même problème, et cela l'a résolu... mais pour un mois seulement. Je ne sais pas pourquoi pour l'instant. J'ai dû à nouveau supprimer les fichiers aujourd'hui.

0voto

Andy Points 1

J'ai eu le même problème sur un serveur nfs debian squeeze, et il semblait être déclenché par de nouveaux clients également (Fedora 20). Le déclassement des clients n'était pas une option pour moi, après un long, pénible et infructueux débogage, j'ai fini par découvrir un bug de boucle readdir (différent et probablement sans rapport) sur un système de fichiers ext4 exporté par nfs avec beaucoup de fichiers dedans, similaire à : https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1240143

(Je peux me tromper, d'après le peu que j'ai compris cela a été corrigé sur des noyaux récents, donc debian squeeze peut être affecté).

pour faire court, pour me débarrasser au moins de CE bug, j'ai mis à jour mon serveur nfs vers debian wheezy (en forçant la version nfs à 3) et maintenant (avec le même système de fichiers et les mêmes clients) cela fait une semaine qu'il n'y a plus de problème "cannot monitor"/"not responding" (avant la mise à jour c'était quotidien).

0voto

dubst3p_lov3r Points 11

Cela a fonctionné dans mon cas :

https://lists.debian.org/debian-user/2004/10/msg00932.html

Il suffit d'éditer le fichier /etc/init.d/halt script, à la fin il devrait y avoir la ligne

halt -d -f -i $poweroff $hddown

L'option "-i" permet d'éteindre toutes les interfaces réseau, mais cela >semble être trop tôt pour les clients sans disque, essayez donc de supprimer cette option.

halt -d -f $poweroff $hddown

Notez que mon problème concernait NFS sur un client avec disque.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X