1 votes

zfs pool status unstable

J'utilise le pool zfs sur ubuntu sans problème depuis des années. Actuellement sur 20.04

Depuis le début de l'année, j'ai dû remplacer 2 disques sur 4 et même les disques neufs ont commencé à présenter des erreurs.

j'ai commencé à le frotter chaque semaine et les choses sont restées stables. 20-50 erreurs de lecture et/ou d'écriture apparaissaient sur certains disques et le scrub les réparait.

il y a quelques jours, un disque est tombé en panne à cause d'un trop grand nombre d'erreurs. puis le second s'est dégradé. l'exécution de scrub a empiré les choses.

J'ai déclenché le scrub aujourd'hui puis j'ai réalisé que les disques étaient peut-être trop chauds, j'ai éteint le PC pour régler les ventilateurs, j'ai redémarré et le statut de zpool montre ceci :

 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
    continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Sat Jun 19 18:44:07 2021
    1.51T scanned at 2.74G/s, 1.29T issued at 2.35G/s, 3.04T total
    2.76G resilvered, 42.42% done, 0 days 00:12:44 to go
config:

    NAME                                           STATE     READ WRITE CKSUM
    ztank                                          DEGRADED     0     0     0
      mirror-0                                     DEGRADED     0     0     0
        ata-ST2000LM003_HN-M201RAD_S34RJ9AFB25570  DEGRADED     0     0     0  too many errors
        ata-ST2000LM003_HN-M201RAD_S362J9EGB75740  ONLINE       0     0     0  (resilvering)
      mirror-1                                     ONLINE       0     0     0
        ata-ST2000DM008-2FR102_ZFL3P2SZ            ONLINE       0     0     0
        ata-TOSHIBA_HDWL120_807APRBUT              ONLINE       0     0     0  (resilvering)
    logs
      zfs_slog                                     ONLINE       0     0     0
    cache
      zfs_l2arc                                    ONLINE       0     0     0

errors: No known data errors

Je suis vraiment choqué par ce qui se passe.

1voto

saXh26Ql0zkF Points 11

On dirait que vous avez répondu à votre question : les disques étaient trop chauds et ont commencé à tomber en panne. Voyez si vous pouvez récupérer de cet état dégradé.

Vérifiez également votre RAM. Faites un memtest complet. S'ils sont corrects, vérifiez aussi les câbles SATA. Vérifiez toutes les statistiques SMART et faites un test=long sur chacune d'entre elles via smartctl. Et ne surchauffez jamais vos disques durs.

0voto

Samir Sadek Points 258

Il s'avère que le problème venait de la façon dont j'alimentais mes disques. J'ai, sans m'en rendre compte, mis trop de disques sur un seul rail d'alimentation. Une fois que je les ai répartis de manière égale sur les rails d'alimentation, tout est revenu à la normale.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X