1 votes

Problèmes persistants avec NVidia. Cassé en s'endormant pendant la nuit

Existe-t-il un moyen garanti à 100% de configurer sa NVidia 4090 pour faire de l'IA et ne pas l'utiliser pour les graphiques ou le bureau ? De façon à ce qu'il survive aux mises à jour mineures des pilotes, aux mises à jour CUDA et aux mises à jour mineures du système d'exploitation, ou simplement en l'éteignant pour la nuit, en dormant et en redémarrant le matin ?

Hier, j'ai effectué une mise à niveau vers CUDA 12.0 qui a également mis à niveau le pilote NVidia vers 525.60.13. sudo sh cuda_12.0.0_525.60.13_linux.run .

La mise à jour a échoué sur la 525.60.13, j'ai donc exécuté l'exécution du script à partir du mode utilisateur unique d'urgence sans bureau. Cela a fonctionné mais ensuite je n'avais pas d'audio. C'est censé être piloté par mon moniteur via le GPU intégré d'Intel. Cela fonctionnait juste avant que je mette à jour le matériel NVidia. J'ai fait quelques travaux d'inférence pendant un certain temps sans musique. Juste avant de m'éteindre, j'ai redémarré et l'audio a fonctionné. J'ai fait plus d'inférences. J'ai éteint, je me suis endormi, je me suis réveillé, j'ai redémarré mon système et j'ai eu.. :

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

5.17.0-1019-oem #20-Ubuntu SMP PREEMPT

J'ai évidemment le dernier pilote, car je l'ai mis à jour quelques heures auparavant. Oui, je viens de redémarrer à nouveau. Oui, j'ai passé des heures à chercher sur Google. Veuillez essayer de m'aider sans trouver à redire à la perfection de ma question. lshw voit l'appareil. J'ai essayé tellement de choses.

sudo modprobe -a nvidia
modprobe: ERROR: ../libkmod/libkmod-module.c:838 kmod_module_insert_module() could not find module by name='off'
modprobe: ERROR: could not insert 'off': Unknown symbol in module, or unknown parameter (see dmesg)

Hier soir, ce n'était pas un problème :-(

1voto

Dan Wood Points 21

Ma configuration consiste à utiliser le GPU intégré de mon CPU Intel pour faire fonctionner mon moniteur, laissant mon NVidia 4090 à 100% pour AI/DNN/Stable Diffusion. Il semble que parfois, lors de la mise à jour des pilotes NVidia ou CUDA, le système prenne le dessus, pensant que je suis un joueur typique qui veut que le NVidia gère ma vidéo/son.

Pour réparer, je courrais : prime-select intel ce qui semble réparer mon audio.

Le problème est qu'il désactive AUSSI les 3 modules NVidia du noyau en les mettant sur liste noire dans le fichier /lib/modprobe.d/blacklist-nvidia.conf .

Si le nvidia n'est pas chargé, le 4090 ne fonctionne pas. Avec la façon dont la liste noire fonctionne, l'erreur que vous obtenez lorsque vous essayez de charger manuellement le module du noyau est déroutante.

La solution consistait à mettre en commentaire le blacklist nvidia y alias nvidia off lignes du fichier conf ci-dessus. Ensuite, vous pouvez charger nvidia con modprobe et ça marche.

Comme je n'utilise pas le 4090 comme périphérique d'affichage, j'ai laissé les deux autres modules sur liste noire dans le fichier.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X