2 votes

"show_signal_msg : N callbacks supprimés" puis plafonné à 100% et machine non réactive

Cela s'est produit sur un Droplet DigitalOcean Ubuntu 14.04 64-bit :

Apr 22 02:17:02 localhost CRON[32514]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) 
Apr 22 03:16:59 localhost kernel: [211877.884132] show_signal_msg: 12 callbacks suppressed 
Apr 22 03:16:59 localhost kernel: [211877.884140] python[2376]: segfault at 24 ip 00000000004c278f sp 00007fbad163caa0 error 6 in python2.7[400000+2bd000]

Vers 3h16 du matin, le processeur est monté en flèche jusqu'à 100% et la machine ne répond plus aux ping, SSH et à la console (à distance) :

http://imgur.com/hMSH5SV.png

Comment l'étranglement "callback supprimé" a-t-il pu apparaître ? avant le premier défaut de fonctionnement ?

http://lxr.free-electrons.com/source/arch/x86/mm/fault.c#L727

D'une manière générale, comment quelques segfaults peuvent-ils provoquer le blocage du noyau ? Le processus incriminé était dans 'while : ; do Python script.py ; sleep 1 ; done' (NOTE sleep), tournait avec 'nice 10' et avait un oom_adj augmenté pour que le noyau le tue en premier :

open('/proc/self/oom_adj', 'w').write('10')
os.nice(10)

0 votes

Si 12 rappels de show_signal_msg ont été supprimées, cela signifie que quelque chose a fait défaut 13 fois de suite. Les coredumps sont-ils activés sur cette boîte ?

0 votes

ulimit -c est égal à 0. Il est conseillé de le régler sur unlimited ? Comment puis-je utiliser les vidages de noyau pour comprendre pourquoi la machine se bloque ?

0 votes

Non, j'ai juste suggéré que la "non-réactivité" peut être liée à l'écriture des codes sur le disque.

-1voto

Michael Points 11

Jusqu'à présent, il semble que ce soit un bug du noyau :

http://blog.nitrous.io/2014/03/10/stability-and-a-linux-oom-killer-bug.html

1 votes

C'est la raison pour laquelle il ne faut pas répondre aux questions par des liens. Maintenant, je n'ai aucune idée de ce qu'est ce bug mortel :(

1 votes

@douglaslps : Heureusement, nous avons l'Internet Archive de notre côté ! web.archive.org/web/20160310202252/https://community.nitrous.io/

0 votes

Désolé pour cela @douglaslps.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X