44 votes

Les erreurs SATA sont-elles dangereuses?

Je reçois ces erreurs de manière aléatoire, et je ne sais pas si c'est normal ou non.

[39441.061856] ata3.00: échec de la lecture de SCR 1 (Emask=0x40)
[39441.061866] ata3.01: échec de la lecture de SCR 1 (Emask=0x40)
[39441.061892] ata3.15: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6 gelé
[39441.061897] ata3.15: irq_stat 0x08000000, erreur fatale de l'interface
[39441.061904] ata3.15: SError: { UnrecovData 10B8B BadCRC }
[39441.061910] ata3.00: exception Emask 0x100 SAct 0x0 SErr 0x0 action 0x6 gelé
[39441.061917] ata3.01: exception Emask 0x100 SAct 0xe SErr 0x0 action 0x6 gelé
[39441.061923] ata3.01: commande échouée: READ FPDMA QUEUED
[39441.061933] ata3.01: cmd 60/a8:08:b0:48:62/00:00:00:00:00/40 tag 1 ncq 86016 in
[39441.061940] ata3.01: statut: { DRDY }
[39441.061944] ata3.01: commande échouée: READ FPDMA QUEUED
[39441.061953] ata3.01: cmd 60/a8:10:b0:49:62/00:00:00:00:00/40 tag 2 ncq 86016 in
[39441.061959] ata3.01: statut: { DRDY }
[39441.061963] ata3.01: commande échouée: READ FPDMA QUEUED
[39441.061972] ata3.01: cmd 60/58:18:58:4a:62/00:00:00:00:00/40 tag 3 ncq 45056 in
[39441.061978] ata3.01: statut: { DRDY }
[39441.061987] ata3.15: réinitialisation dure du lien
[39441.608302] ata3.15: Liaison SATA active à 3.0 Gbps (SStatus 123 SControl 300)
[39441.609090] ata3.00: réinitialisation dure du lien
[39441.929246] ata3.00: Liaison SATA active à 3.0 Gbps (SStatus 123 SControl 320)
[39441.929333] ata3.01: réinitialisation dure du lien
[39442.249184] ata3.01: Liaison SATA active à 3.0 Gbps (SStatus 123 SControl 320)
[39442.263242] ata3.00: configuré pour UDMA/133
[39442.277570] ata3.01: configuré pour UDMA/133
[39442.277725] ata3: EH complet

Je colle également smartctl -a pour sda, sdb et sdc.

Merci d'avance pour votre aide.

22voto

Kthevar Points 686

Alors que je suis essentiellement d'accord avec la réponse de Geppettvs D'Constanzo, je suggérerais également que certaines des premières choses que vous pourriez essayer sont

  1. Vérifier que votre câble SATA est solidement attaché et branché dans les prises de la carte mère et du disque dur.

  2. Remplacer votre câble SATA. Les câbles SATA sont (relativement) peu coûteux et il arrive parfois que vous en obteniez un "mauvais". Souvent, simplement remplacer le câble est le moyen le plus facile de diagnostiquer et de résoudre un problème comme celui-ci.

(Bien qu'il soit quelque peu inattendu que deux câbles soient mauvais en même temps. Néanmoins, c'est une chose facile à vérifier donc selon moi probablement utile de le faire.)

Je viens de voir vos pastbins contenant les données SMART pour vos disques. Remarquez le nombre inattendu élevé d'erreurs CRC pour les disques sdb et sdc. Je vous suggère de commencer par vérifier les câbles et les connexions de ces disques.

junior@mediacenter:/$ sudo smartctl -a /dev/sda
...
Model Family:     SAMSUNG SpinPoint M7E (AFT)
Device Model:     SAMSUNG HM321HI
...
199 UDMA_CRC_Error_Count    0x0036   200   200   000   Old_age  Always -    0

junior@mediacenter:/$ sudo smartctl -a /dev/sdb
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  -  57

junior@mediacenter:/$ sudo smartctl -a /dev/sdc
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  - 398

D'accord. Donc ce n'est pas un ordinateur portable alors. ;-)
Bien sûr, si cela se produit sur un ordinateur portable, alors rien de ce qui précède ne s'applique et je ne sais pas quel conseil offrir. Peut-être retirer et réinstaller le disque dur? Peut-être a-t-il simplement besoin d'être réinséré dans sa prise pour améliorer la connexion?


sbd et sdc sont connectés sur le même câble e-sata externe (Thermaltake Duo HDD Dock). Je vais remplacer mon câble e-sata.

Cela pourrait être dû à un câble défectueux ou de faible qualité. Il se peut également que le câble soit d'une manière ou d'une autre déplacé, heurté ou secoué pendant que le disque est utilisé.

12voto

Il semble que vous ayez un câble d'alimentation/données SATA de mauvaise qualité/endommagé. Ce qui pourrait causer des CRC incorrects. Ils ne sont pas du tout nuisibles et vous pouvez vivre avec eux mais vous allez bientôt perdre beaucoup de données.

Le rapport SMART de vos disques durs semble sain, donc je penche pour des problèmes d'alimentation en fonction de mon expérience en installant 5 disques durs dans le même boîtier/source d'alimentation. J'ai fini par utiliser une source d'alimentation externe (475W) pour 2 disques et les 600W du boîtier pour l'ensemble du boîtier, y compris la carte graphique, les lecteurs optiques et les disques durs.

Quoi qu'il en soit, je vous suggère de faire une sauvegarde complète avant de faire quoi que ce soit. Si possible, clonez votre disque dur, après quoi vous devriez vérifier vos câbles et les tensions de l'alimentation.

6voto

jap1968 Points 384

Il semble y avoir un problème entre certaines versions de noyau et certains contrôleurs SATA.

J'ai récemment commencé à rencontrer un problème très similaire (pas sûr que ce soit exactement le même) sur un serveur web fonctionnant sous Scientific Linux.

Les informations les plus précises et complètes que j'ai trouvées sur un tel problème se trouvent sur ce bug de launchpad.

En résumé: Désactiver NCQ semble être la meilleure solution de contournement pour les utilisateurs ayant ce problème.

3voto

Andrei Pokrovsky Points 131

J'ai eu le même problème - dans mon cas, cela était dû au fait que l'adaptateur d'alimentation 4 broches vers SATA n'était pas branché fermement.

3voto

Elder Geek Points 34144

Cette erreur est peu probable de endommager votre disque dur mais il est très probable de corrompre votre(s) système(s) de fichiers. Commencez par déterminer quel disque est à l'origine des erreurs. Cela peut généralement être déterminé facilement par un certain nombre d'approches telles que:

1) En lançant la commande dmesg | grep ata3 et chercher la marque et le modèle du disque dur. (comme ata3 est le port générant l'erreur dans votre situation. Ajustez en conséquence) cela fournira une sortie similaire à ceci:

dmesg | grep ata3
[    4.756081] ata3: SATA max UDMA/133 abar m2048@0xf7f26000 port 0xf7f26200 irq 135
[    5.071981] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    5.077850] ata3.00: HPA détecté : actuel 1953523055, natif 1953525168
[    5.077959] ata3.00: ATA-8: SAMSUNG HD103SJ, 1AJ10001, max UDMA/133
[    5.077960] ata3.00: 1953523055 secteurs, multi 16: LBA48 NCQ (profondeur 32), AA
[    5.084057] ata3.00: configuré pour UDMA/133

Un rapide coup d'œil indique que le disque connecté à ata3 est le SAMSUNG HD103SJ

2) Lancez la commande suivante:

find -L /sys/bus/pci/devices/*/ata*/host*/target* -maxdepth 3 -name "sd*" 2>/dev/null | egrep block |egrep --colour '(ata[0-9]*)|(sd.*)'

Cela fournira à la fois les ports et les noms des périphériques mis en évidence sur la même ligne comme vu ci-dessous:

output

Il est facile de voir que le périphérique connecté à ata3 a été assigné le nom de périphérique sdb

3) installez lsscsi avec sudo apt install lsscsi et lancez la commande lsscsi

$ lsscsi
[0:0:0:0]    cd/dvd  ATAPI    iHAS124   F      CL9M  /dev/sr0 
[1:0:0:0]    disk    ATA      WDC WD2003FZEX-0 1A01  /dev/sda 
[2:0:0:0]    disk    ATA      SAMSUNG HD103SJ  0001  /dev/sdb 
[3:0:0:0]    disk    ATA      ST6000VN0033-2EE SC60  /dev/sdc 

Notez que la première entrée sur chaque ligne ci-dessus est le scsi_host, le canal, le numéro de cible et LUN. Il est placé entre crochets et chaque élément est séparé par des deux-points. Lorsqu'il y a plusieurs périphériques SCSI, leurs entrées sont triées par ordre croissant.

Ajouter simplement 1 au premier nombre de chaque ligne de sortie vous donne le port ATA. Vous pouvez trouver plus de détails sur lsscsi ici et ici.

Puisque dans votre cas, nous voyons des erreurs générées à la fois sur 3.00 et 3.01 vous avez plus d'un disque connecté au même port ATA. Vous allez vouloir vérifier soigneusement la connectivité à la fois à ata3.00 et ata3.01. Il pourrait s'agir d'un boîtier de disque multi-baies connecté au même câble. Étant donné que les deux disques génèrent des erreurs, remplacer le câble pour le boîtier multi-disques susmentionné devrait éliminer le problème pour les deux disques. Ces appareils ont généralement une source d'alimentation externe qui pourrait également être la source du problème et doit être remplacée, mais le câble (étant le maillon le plus faible) est de loin la cause la plus probable du problème.

Sources:

Experience

https://linux.die.net/man/8/lsscsi

http://sg.danny.cz/scsi/lsscsi.html

https://serverfault.com/questions/244944/linux-ata-errors-translating-to-a-device-name/868943#868943

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X