1 votes

lspci renvoie "Cannot open /sys/bus/pci/devices/xxxxx/resource : No such file or directory"

Ma VM de serveur Ubuntu 16.10 dans MS Azure (série NV6) a soudainement eu un problème pour des raisons inconnues (dont je ne suis pas responsable), j'ai dû la redémarrer et lorsqu'elle a été remise en ligne, je n'étais plus en mesure d'utiliser le GPU de la machine.

L'application nvidia-smi se fige.

La commande lspci donne

lspci: Cannot open /sys/bus/pci/devices/7ec1:00:00.0/resource: No such file or directory

Et bien sûr, ce chemin n'existe (plus ?). Ce qui existe, c'est,

$: ls /sys/bus/pci/devices/
0000:00:00.0/    0000:00:07.0/    0000:00:07.1/    0000:00:07.3/    0000:00:08.0/    b717ec1:00:00.0/

Une recherche sur Google a permis de trouver quelques questions similaires à la mienne, dont beaucoup ont été posées au cours des dernières 24 heures, par exemple celui-ci .

Cela peut être dû à Ubuntu ou Azure, je n'ai aucune idée de la source de ce problème ou de la façon de le résoudre.

Quelqu'un a une idée ?

1voto

Mike Points 320

J'ai eu le même problème (en utilisant des instances Azure NC24) et après avoir travaillé pendant quelques heures, j'ai trouvé ce post et j'ai décidé de soumettre une demande de support à Microsoft. Voici ce qu'ils m'ont répondu :

Canonical semble avoir récemment publié le noyau 4.4.0-75 pour Ubuntu 16.04 et cela a un effet négatif sur les GPU Tesla dans les VM de la série NC. L'installation de la version 4.4.0-75 casse la version 8.0.61-1 du pilote NVIDIA CUDA qui est actuellement recommandée pour ces systèmes, ce qui fait que nvidia-smi ne montre pas les adaptateurs et que lspci renvoie une erreur similaire à la suivante :

root@pd-nvtest2:~# lspci lspci: Cannot open /sys/bus/pci/devices/2baf:00:00.0/resource: No such file or directory

Ils suggèrent de sauvegarder le disque de l'OS, d'exécuter

apt-get remove linux-image-4.4.0-75-generic

et ensuite

update-grub

Redémarrez et ça devrait marcher ! Au moins, en faisant cela, j'ai résolu le problème de la sortie lspci, j'avais encore besoin de résoudre quelques problèmes avec CUDA, mais cela date de mes tentatives de débogage précédentes.

0voto

Evan Points 1

Peut-être est-ce dû au fait que vous avez arrêté (désalloué) la VM Azure, puis relancé la VM. Selon [1], l'IP du matériel (comme le gpu, le cpu) a changé lorsque vous avez arrêté (désalloué) puis relancé la VM. Mais le système Ubuntu n'a pas été mis à jour pour les nouvelles adresses IP matérielles (comme gpu, cpu). Par conséquent, lspci vous dira que vous ne pouvez pas ouvrir certains dossiers relatifs à l'adresse IP du matériel.

[1] https://blogs.technet.microsoft.com/gbanin/2015/04/22/difference-between-the-states-of-azure-virtual-machines-stopped-and-stopped-deallocated/

-1voto

Sham SV Points 1

Sur une VM Azure, cela semble être un problème avec LIS sur RedHat 7.5. Mettez à jour Azure LIS pour la VM et cela devrait résoudre le problème.

wget https://aka.ms/lis
tar xvzf lis
cd LISISO
sudo ./install.sh
sudo reboot

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X