Cela s'est produit sur un Droplet DigitalOcean Ubuntu 14.04 64-bit :
Apr 22 02:17:02 localhost CRON[32514]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Apr 22 03:16:59 localhost kernel: [211877.884132] show_signal_msg: 12 callbacks suppressed
Apr 22 03:16:59 localhost kernel: [211877.884140] python[2376]: segfault at 24 ip 00000000004c278f sp 00007fbad163caa0 error 6 in python2.7[400000+2bd000]
Vers 3h16 du matin, le processeur est monté en flèche jusqu'à 100% et la machine ne répond plus aux ping, SSH et à la console (à distance) :
Comment l'étranglement "callback supprimé" a-t-il pu apparaître ? avant le premier défaut de fonctionnement ?
http://lxr.free-electrons.com/source/arch/x86/mm/fault.c#L727
D'une manière générale, comment quelques segfaults peuvent-ils provoquer le blocage du noyau ? Le processus incriminé était dans 'while : ; do Python script.py ; sleep 1 ; done' (NOTE sleep), tournait avec 'nice 10' et avait un oom_adj augmenté pour que le noyau le tue en premier :
open('/proc/self/oom_adj', 'w').write('10')
os.nice(10)
0 votes
Si 12 rappels de
show_signal_msg
ont été supprimées, cela signifie que quelque chose a fait défaut 13 fois de suite. Les coredumps sont-ils activés sur cette boîte ?0 votes
ulimit -c
est égal à 0. Il est conseillé de le régler surunlimited
? Comment puis-je utiliser les vidages de noyau pour comprendre pourquoi la machine se bloque ?0 votes
Non, j'ai juste suggéré que la "non-réactivité" peut être liée à l'écriture des codes sur le disque.
0 votes
Ah, j'en doute - le CPU a été bloqué à 100% pendant plusieurs heures : imgur.com/hMSH5SV.png