1 votes

linux freeze - comment savoir si le matériel ou le logiciel en est la cause ?

Il y a quelques semaines, mon serveur linux (kubuntu 10.04) a commencé à me poser des problèmes.

il se bloque après un certain temps de fonctionnement, apparemment entre quelques minutes et quelques heures - l'interface graphique ne répond pas, aucune réaction à la souris ou au clavier (même pas à l'écran). REISUB ), top dans une session ssh cesse de se mettre à jour et la session elle-même est interrompue après un délai d'attente :

Read from remote host 10.1.1.9: Operation timed out
Connection to 10.1.1.9 closed.

à l'époque, j'ai supposé qu'il s'agissait d'un problème matériel, alors j'ai commencé à remplacer de plus en plus de matériel - carte graphique, carte mère, processeur, mémoire vive, disques durs, alimentation. maintenant, j'ai remplacé toute la machine et elle se bloque toujours.

J'ai vérifié /var/log/messages et d'autres journaux - il n'y a aucun indice dans ces journaux. un problème matériel semble peu probable étant donné que tout a été remplacé, mais c'est toujours possible.

j'ai réduit la machine au strict minimum. je démarre un système live kubuntu à partir d'une clé usb, je monte deux disques durs en lecture seule et je commence à différencier les dossiers sur ceux-ci. cela semble produire le gel de manière assez fiable. jusqu'à présent, je n'ai pas dépassé quelques heures de fonctionnement.

mon serveur est en panne, cela dure depuis des semaines maintenant. je suis au bout de ma sagesse et je me raccroche à n'importe quoi.

comment puis-je déterminer de manière fiable s'il s'agit d'un problème matériel ou logiciel ? Comment aborder un tel problème ?

2voto

Janne Pikkarainen Points 31244

Comme vous avez remplacé une grande partie du matériel, je suppose que vous vous êtes déjà assuré que votre problème n'est pas lié à des problèmes de température.

Et si vous essayiez une distro complètement différente au lieu de Kubuntu 10.04 ? Téléchargez une autre distribution vivante, par exemple openSUSE ou même une version BSD, et voyez si elle reproduit également le blocage. De cette façon, vous pouvez être sûr qu'il ne s'agit pas d'une sorte de bogue dans Kubuntu 10.04.

Combien de données avez-vous sous les arborescences de répertoires que vous différez ? Et plus important encore, y a-t-il seulement quelques gros fichiers ou un grand nombre de petits fichiers ?

Lorsque vous avez remplacé les disques durs, comment avez-vous copié les données de l'ancien disque vers l'autre ? dd_rescue ou un programme d'imagerie ? Juste le bon vieux cp ? Si vous avez utilisé une sorte de programme d'imagerie ou dd_rescue et que le système de fichiers d'origine contenait une corruption étrange, peut-être que le diffing touche la zone corrompue et provoque un crash ? C'est rare et peu probable, mais certainement possible. Tout comme il est possible qu'un éclair vous frappe dans la nature.

0 votes

Merci pour votre réponse ! :-) il est toujours possible que la température contribue au problème, mais il y a beaucoup de ventilateurs dans la machine, le boîtier est ouvert, aucun matériel ne dépasse la température de la main, aucune erreur de flux d'air dans les données hd smart et je m'attendrais plutôt à ce que la machine s'arrête au lieu de geler - ou au moins à ce qu'elle enregistre des erreurs.

0 votes

J'ai pensé à démarrer freebsd avant, mais il ne semble pas y avoir de système live prêt à l'emploi que je puisse démarrer à partir d'une clé usb, donc je pourrais aller avec opensuse comme vous l'avez suggéré ou centos. une distribution différente utilisera probablement les mêmes pilotes de système de fichiers, donc un peu de bsd pourrait être nécessaire à la fin après tout. je diffère deux dossiers d'environ 500GB chacun. malheureusement, ils sont sur des disques ntfs et hfs+ ce qui rend les choses plus complexes.

0 votes

Les données n'étaient pas sur cette machine lorsque le problème a commencé, j'utilise ces disques depuis un certain temps maintenant et je n'ai jamais eu de problèmes, donc il y a des raisons de croire qu'ils sont corrects. je n'ai rien copié.

2voto

Pontus Points 730

Il faut que tu récupères un fichier d'erreur et que tu y jettes un coup d'oeil. Regarder dans les journaux ne vous aidera pas, car rien n'y sera écrit en cas de panique ou d'erreur du noyau. Si vous avez accès à la console, vous pouvez voir s'il y a un message de panique. Un crash dump aura le contenu du kernel ring buffer (ce que vous voyez dans dmesg s'il est écrit sur le disque). Si cela ne vous aide pas, vous devez commencer à faire une analyse complète du dump.

https://wiki.ubuntu.com/Kernel/CrashdumpRecipe?action=show&redirect=KernelTeam%2FCrashdumpRecipe

semble être un début pour ubuntu. La recherche sur Google de "redhat crash whitepaper" vous donnera également quelques indications.

0voto

Paul Roub Points 11185

Pour ce qui est de la température, essayez de lancer un logiciel de surveillance des capteurs et voyez ce qu'il montre au moment du gel.

Pour KDE (comme vous utilisez Kubuntu : http://kde-look.org/content/show.php/Sensors-Monitor

0 votes

Je reçois le message "Content not found" sur votre lien. kde-look.org/content/show.php/Sensors-Monitor?content=111150 ?

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X