3 votes

Comment résoudre un problème matériel sur linux ?

Juste pour préciser, je n'ai pas de problème en ce moment, mais j'en ai eu auparavant, ce qui a éveillé ma curiosité...

Lorsqu'un ordinateur se bloque soudainement avec le voyant de verrouillage des majuscules qui clignote sans arrêt et que la seule possibilité est de redémarrer... comment diagnostiquer la cause du problème? Sous Windows, il y aurait des erreurs dans le journal des événements... mais sous Linux, il semble qu'il n'y ait pas d'opportunité pour écrire quoi que ce soit dans le journal, ce qui rend le dépannage difficile...

Dans ce cas, comment diagnostiqueriez-vous le problème sous Linux?

4voto

dequin Points 113

Essayez de démarrer memtest86+ à partir d'un support bootable et voyez ce qu'il dit de votre mémoire et de l'intégrité du sous-système de mémoire.

De plus, le dernier travail commencé peut être enregistré dans Cron sous /var/log/syslog ou /var/log/messages.

Si ce n'est pas le cas et que vous déboguez ce problème de manière continue, vous pourriez configurer auditd et un cron job avec ps pour enregistrer l'activité système et les travaux en cours de manière continue.

3voto

Adam Wright Points 31715

Les appareils Kernel signaleront les problèmes à dmesg, qui peuvent également être enregistrés séparément, ou dans kern.log.

Pour les problèmes graves, une carte de diagnostic POST peut être utilisée.

2voto

Stefan Schweizer Points 151

Les journaux sont le premier endroit à regarder, comme le dit kmarsh, mais si les journaux ne disent pas grand-chose en cas de grave panne matérielle, alors peu importe quel système d'exploitation vous utilisez, cela nécessite juste un peu d'essais et d'erreurs à l'ancienne.

Déterminez s'il s'agit d'un problème matériel en exécutant un CD en direct, sinon cela pourrait être un problème de pilote diagnostiqué à tort comme une panne matérielle.

Les blocages matériels sont aléatoires, mais fréquents. Je commencerais par retirer les cartes graphiques (utilisez la carte intégrée ou de sauvegarde), les cartes réseau ou (horreur) les modems si vous en avez, un par un jusqu'à ce que vous trouviez le coupable. Exécutez avec une barrette de mémoire à la fois (si vous en avez x2) ou échangez-les pendant les tests.

Votre alimentation pourrait également être défaillante, parfois l'ajout d'une nouvelle carte consomme vos watts, affamant le CPU si votre alimentation n'est pas assez puissante, provoquant des pannes aléatoires.

Si rien d'autre ne donne d'indication, cela pourrait être votre carte mère (généralement de la corrosion si elle a plus de 2 ans en fonction de l'humidité là où vous vivez) ou le CPU.

Utilisez un logiciel pour surveiller la température du CPU, une surchauffe peut également provoquer des blocages.

Après avoir tout essayé sous le soleil, sans succès, il est peut-être temps pour un nouveau PC ;)

2voto

Ritesh M Nayak Points 2660

Sur la plupart des systèmes Linux aujourd'hui, vous devriez pouvoir consulter un journal des exceptions de vérification de machine (Machine Check Exception ou MCE) qui peut être décrypté pour trouver les erreurs matérielles réelles (http://freshmeat.net/projects/mcelog/). De plus, vous pouvez exécuter un vidage de plantage du noyau, un noyau qui lance le noyau Linux que vous utilisez quotidiennement, et avec cela, enregistrer l'incident et déboguer la cause.

0voto

Janne Pikkarainen Points 7357

De nos jours, chaque fois qu'une configuration qui fonctionnait auparavant commence à mal se comporter, je ne prends même pas la peine de lire les journaux ou quoi que ce soit en premier. La qualité des pilotes, etc. est si bonne aujourd'hui que la plupart des bugs de type arrêt brutal ont été corrigés et un problème matériel est plus probable qu'un bug logiciel. Et même le code le plus parfait ne peut lutter contre les problèmes physiques.

Il y a quelque temps, mon ordinateur portable a commencé à agir étrangement. En regardant un film ou en compilant du code ou en faisant quoi que ce soit un peu intensif pour le CPU, tout ralentissait soudainement. Le déplacement des fenêtres prenait entre 1 et 15 secondes. La fréquence du CPU est passée de 2 GHz à 800 MHz et a décidé de rester là. Même la température au repos était d'environ +60C. De temps en temps, le tout se figeait complètement.

Après avoir nettoyé la poussière à l'intérieur de l'ordinateur portable, les choses sont revenues à la normale. Température au repos de +35-40C, pas de ralentissements.

D'accord, celle-ci était assez facile à suivre en raison de la chaleur et de la quantité excessive de poussière à l'intérieur de l'ordinateur portable. :-)

Si quelque chose de plus difficile apparaît, je laisse généralement memtest86 tourner toute la nuit et je vois si cela me donne des résultats. Si ce n'est pas le cas, j'allume cpuburn ou un programme similaire et je vois si cela fait planter mon ordinateur. Si cela ne fonctionne pas, je passe à torturer le disque dur avec bonnie++ ou iozone pour voir si quelque chose plante. Ensuite, je passe aux tests 3D, comme jouer à PPRacer.

Si je ne parviens pas à provoquer un crash contrôlé après tous ces tests, je passe à l'examen de choses plus obscures. Peut-être que la mise en veille automatique USB est à blâmer? Ou quelque chose de plus bizarre encore.

Dans un cas, l'ordinateur se bloquait à chaque fois qu'un logiciel de webcam était lancé. Après avoir passé beaucoup trop de temps à configurer les paramètres du noyau et ainsi de suite, lsusb a révélé quelque chose d'embarrassant. La webcam était connectée à un port USB 1.1 au lieu d'un port USB 2.0. Après avoir connecté la caméra à un port USB 2.0, elle a commencé à fonctionner.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X