Nous avons un nouveau serveur Supermicro AS-4124GS-TNR équipé de huit NVIDIA RTX A6000. Le système d'exploitation est Ubuntu 20.04.2, la version du pilote NVIDIA est 460.73.01 (aucun pilote Nouveau utilisé), la version de CUDA est 11.2.
Nous avons effectué quelques tests de longue durée sur les GPU et le système était stable. Cependant, après une période d'inactivité des GPU, le système a cessé de fonctionner de manière répétée.
Nous supposons que GpuPowerMizerMode
doit être réglé sur 1 pour éviter les plantages pendant l'inactivité des GPU (une supposition étayée par d'autres rapports d'utilisateurs trouvés sur Internet).
La seule façon de faire cela que nous connaissons est de démarrer X (par exemple en démarrant gdm) puis de régler la valeur en conséquence via nvidia-settings
(lancer nvidia-settings
sans X/gdm entraîne "Impossible d'initialiser le serveur : Connexion refusée."). Mais lorsque X/gdm est arrêté, la valeur de GpuPowerMizerMode
est automatiquement réinitialisée à 2. Malheureusement, laisser X/gdm fonctionner en permanence n'est pas une option car cela entraîne également une instabilité du système.
Ainsi, notre problème semble être le suivant :
- L'inactivité des GPU +
GpuPowerMizerMode
différent de 1 peut entraîner un gel du système.GpuPowerMizerMode
ne peut être défini que vianvidia-settings
connecté à un X/dm en cours d'exécution (?). Pour définir de manière persistante la valeur sur 1, X/dm(?) doit rester en cours d'exécution. - Un X/gdm en cours d'exécution peut provoquer un plantage du système.
Nos suppositions sont-elles exactes ? / D'autres rencontrent-ils également ces problèmes spécifiques ?
Comment pouvons-nous résoudre le problème du gel pendant l'inactivité des GPU ?