4 votes

Un grand pourcentage de systèmes identiques se bloquent lors d'un redémarrage progressif.

Je suis à la recherche de toute autre idée après m'être cogné la tête contre ce problème pendant une semaine.

Nous avons environ 100 systèmes identiques utilisant la carte mère AAEON PICO-ITX BT01 avec le processeur J1900 Celeron.

Chaque système fonctionne sous Debian Jessie avec le noyau 3.16.0-0-686. Chaque système est imagé en utilisant la même image clonezilla de la même manière.

Nous rencontrons un mode de défaillance intermittent qui se manifeste de l'une des trois manières suivantes (bien que je pense que les trois soient la même cause fondamentale)

1) A la toute fin de l'affichage du BIOS, il se fige et ne se rétablit pas. Bien qu'il affiche le code d'erreur 99, ce code est toujours affiché dans l'instant qui précède le démarrage du noyau. J'ai donc le sentiment que ce code BIOS n'est pas un diagnostic (c'est juste la dernière chose qui apparaît à l'écran). La désactivation du splash du bios ne montre rien d'utile, juste la version du bios et le code d'erreur.

http://imgur.com/ifse045

2) Dans les toutes premières étapes du démarrage du noyau, il signale que les cœurs du processeur ne peuvent pas être réveillés. Le système se bloque alors et ne se rétablit pas.

http://imgur.com/hZdzq74

3) Immédiatement après le splash du BIOS, la sortie de l'écran s'arrête et le système se bloque et ne se rétablit pas.

Cela ne se produit PAS avec toutes les cartes, bien qu'elles soient toutes issues de la même production et utilisent le même matériel (ceci dit, nous avons échangé des SSD et constaté le même problème, donc je ne pense pas que ce soit le module SSD).

Après avoir constaté ce problème sur le terrain, j'ai instauré une procédure de test consistant à prendre une image d'un système, puis à configurer une tâche de redémarrage 60 secondes après le démarrage. Nous gravions les systèmes de cette manière et, comme ils ne se rétablissaient pas en cas de défaillance, après 24 heures, nous voyions quels systèmes redémarraient encore et lesquels ne passaient pas le test.

Je demande ici pour voir si quelqu'un a d'autres idées, essentiellement. J'ai été en contact permanent avec le fabricant de la carte et ils ont deux systèmes affectés qu'ils testent, pas encore de résultats. Je peux effectuer tous les tests nécessaires sur les systèmes que j'ai ici, à la fois les cartes qui ont réussi et celles qui ont échoué.

Il y a encore une chose importante. Un redémarrage brutal (une coupure de courant) permet TOUJOURS au système de démarrer. Un système identifié comme défectueux ne démarrera pas dans la plupart des cas lors du premier redémarrage progressif après la remise sous tension de la carte mère. Je n'ai jamais vu ce mode de défaillance que lors d'un soft reboot.

C'est un vrai mystère, mais à part cela, j'adore le matériel et j'aimerais continuer à l'acheter.

Merci les gars et les filles.

0voto

Dave Points 41

La cause de ce défaut a été trouvée en travaillant avec le fabricant, il s'est avéré être une révision défectueuse du BIOS. Nous avons tous deux testé le retour en arrière du BIOS et le problème a disparu.

Cela aurait dû être une étape de diagnostic précoce, mais il faut savoir vivre et apprendre !

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X