La configuration J'ai un tas d'instances t2.small EC2 en cours d'exécution hébergeant la bibliothèque de traitement d'images appelée thumbor pour le redimensionnement d'images dynamique. Les originaux sont chargés depuis S3. En face des instances, j'ai un répartiteur de charge EC. J'ai installé le monitoring des serveurs New Relic sur les serveurs.
Le problème À des moments aléatoires, mes serveurs commencent soudainement à connaître des temps de réponse moyens extrêmement élevés. Si je regarde les statistiques dans New Relic, la seule chose que je vois, c'est que les serveurs subissent des pics de CPU de manière constante en signalant "stolen" CPU.
Il semble que mes serveurs aient une capacité suffisamment élevée et ce n'est PAS comme s'il y avait des pics extrêmes de débit pendant ce temps.
J'ai remarqué que si j'arrête et redémarre les serveurs. Alors, le CPU volé disparaît, et ils fonctionnent à nouveau correctement - jusqu'à la prochaine fois - cela peut prendre des heures ou des jours entre les deux.
Pourquoi cela se produit-il, et que puis-je faire à ce sujet?