44 votes

Samsung SSD "Wear_Leveling_Count" signifie

J'ai des SSD Samsung sur mon propre ordinateur portable et sur certains serveurs.

Lorsque je fais :

smartctl -a /dev/sda | grep 177

Je reçois des résultats que je ne peux pas comprendre. Voici quelques exemples :

# mon ordinateur portable Samsung SSD 850 EVO 500GB (neuf)
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
177 Wear_Leveling_Count     0x0013   100   100   000    Pré-échec  Toujours       -       0

# serveur 256 Go, SAMSUNG MZ7TE256HMHP-00000
177 Wear_Leveling_Count     0x0013   095   095   000    Pré-échec  Toujours       -       95

# serveur 512 Go, SAMSUNG MZ7TE512HMHP-00000 (1 an)
177 Wear_Leveling_Count     0x0013   099   099   000    Pré-échec  Toujours       -       99

# serveur 512 Go, SAMSUNG MZ7TE512HMHP-00000 (censé être neuf)
177 Wear_Leveling_Count     0x0013   099   099   000    Pré-échec  Toujours       -       99

# serveur 480 Go, SAMSUNG MZ7KM480HAHP-0E005
177 Wear_Leveling_Count     0x0013   099   099   005    Pré-échec  Toujours       -       3

# serveur 240 Go, SAMSUNG MZ7KM240HAGR-0E005
177 Wear_Leveling_Count     0x0013   099   099   005    Pré-échec  Toujours       -       11

Une idée de comment lire Wear_Leveling_Count ?

Certaines valeurs sont au minimum, d'autres au maximum.

En considérant le SSD "ordinateur portable" Samsung 850 EVO 500GB, il est à 0 et va probablement passer à 100, puis échouer.

En considérant le premier "serveur" 256 Go, SAMSUNG MZ7TE256HMHP-00000, est-il déjà au maximum ? Va-t-il descendre à zéro ?

56voto

Jonno Points 20324

Kingston décrit cet attribut SMART comme suit:

Nombre de cycles d'effacement / programmation par bloc en moyenne. Cet attribut est destiné à être un indicateur d'usure imminente. Équation normalisée: 100 - (100 * Nombre moyen d'effacements / cycles d'effacement max notés pour le NAND)

Ignorez les Données brutes dans ces cas (elles peuvent être manipulées par les fabricants pour fonctionner de différentes manières), et regardez la colonne Valeur actuelle.

Cette source de Anandtech nous donne une bonne indication de comment utiliser ce chiffre:

La valeur SMART du compteur d'équilibrage de l'usure (WLC) nous donne toutes les données nécessaires. La valeur actuelle représente l'endurance restante du disque en pourcentage, ce qui signifie qu'elle démarre à 100 et diminue linéairement au fur et à mesure que le disque est écrit. La valeur brute WLC compte les cycles P/E consommés, donc si ces deux valeurs sont surveillées lors de l'écriture sur le disque, plus tôt que tard nous trouverons le point où la valeur normalisée diminue de un.

Tous vos disques sont entre 95 et 100, et finiront par tomber à 0. C'est une estimation de combien de cycles de écriture, effacement, réécriture, etc. chaque bloc peut traverser avant de tomber en panne, et pour le moment, l'un de vos disques est estimé avoir utilisé 5% de sa durée de vie attendue actuelle. Encore une fois, le mot clé ici est estimé.

Notez également que vos disques peuvent utiliser différentes technologies NAND, d'où les différences de durée de vie perçue. Certaines technologies NAND s'attendent à ce que les blocs durent environ 1000 cycles PE chacun, d'autres peuvent être notés pour autant que 30,000.

4voto

rtfmpliz Points 1

SMART signale une condition PRÉDÉFAILLANCE pour mon Samsung SM951 (AHCI) 128 Go, signalé sous Linux comme SAMSUNG MZHPV128HDGM-00000 (BXW2500Q).

Mais dans mon cas, je pense qu'il s'agit d'un bogue de micrologiciel du disque,

  • parce que la propriété total-bytes-written est signalée comme étant de 1,1 To alors que le disque a une capacité d'écriture totale spécifiée (TBW) de 75 To! Ce qui est probablement du côté (très) conservateur, car des disques similaires (NAND MLC) ont tous atteint une multiplicité de celui-ci (600 To) dans un véritable test d'endurance,
  • et mis à part l'avertissement de wear_level_count aucun autre pré échec ou avertissement lié à l'âge n'est signalé,
  • alors que le reallocated-sector-count, qui selon ce test est un bon indicateur de pré-faille, est toujours à 0.

Donc, je vous conseille d'examiner ces valeurs pour votre disque/système et de baser vos conclusions là-dessus.

Je préfère l'utilitaire de bas niveau skdump fourni avec libatasmart, la même bibliothèque utilisée par Gnome Disks.

Utilisez la commande suivante, en remplaçant /dev/sdc par le chemin de votre périphérique de bloc :

sudo skdump /dev/sdc

2voto

Arunas Bartisius Points 1312

Brève note sur les SSD Samsung EVO et PRO :

smartctl -a /dev/sda

smartctl 6.4 2014-10-07 r4002 [x86_64-linux-4.9.0-0.bpo.6-amd64] (compilation locale)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== DÉBUT DE LA SECTION D'INFORMATIONS ===
Modèle du périphérique :     Samsung SSD 860 PRO 1TB
Numéro de série :    S42NNF0K000000
LU WWN Numéro du périphérique : 5 002538 e405145c6
Version du micrologiciel : RVM01B6Q
Capacité de l'utilisateur :    1,024,209,543,168 octets [1,02 To]
Taille du secteur :      512 octets logiques/physiques
Vitesse de rotation :    Dispositif à circuits intégrés
Facteur de forme :      2,5 pouces
Le périphérique est :        Pas dans la base de données de smartctl [pour plus de détails, utilisez : -P showall]
La version ATA est :   Inconnue (0x09fc) (code de révision mineur inconnu : 0x005e)
La version SATA est :  SATA 3.1, 6,0 Gb/s (actuel : 6,0 Gb/s)
L'heure locale est :    ven. janv.  8 11:53:56 2021 EET
La prise en charge SMART est : Disponible - le périphérique a la capacité SMART.
La prise en charge SMART est : Activée

=== DÉBUT DE LA SECTION DE LECTURE DES DONNÉES SMART ===
Résultat du test d'auto-évaluation globale SMART : RÉUSSI

Valeurs SMART générales :
Statut de la collection des données hors ligne :  (0x00) L'activité de collection des données hors ligne
                    n'a jamais été démarrée.
                    La collecte automatique des données hors ligne : Désactivée.
Statut d'exécution du test automatique :      (   0) La routine de test automatique précédente s'est terminée
                    sans erreur ou aucun test automatique n'a jamais 
                    été exécuté.
Temps total pour terminer la collecte des données hors ligne :        (    0) secondes.
Capacités de la collecte des données hors ligne :
                    SMART exécuter la collecte hors ligne immédiatement.
                    Prise en charge de la collecte de données hors ligne automatique activée/désactivée.
                    Suspendre la collection hors ligne en cas de nouvelle
                    commande.
                    Aucune analyse de surface hors ligne prise en charge.
                    Test de soi pris en charge.
                    Aucun test de soi de transport pris en charge.
                    Test de soi sélectif pris en charge.
Capacités SMART :            (0x0003) Enregistre les données SMART avant d'entrer
                    en mode d'économie d'énergie.
                    Prend en charge le minuteur d'enregistrement automatique SMART.
Capacité de journalisation des erreurs :        (0x01) Journalisation des erreurs prise en charge.
                    Journalisation générale prise en charge.
Routine de test de soi courte recommandée
temps de sondage :    (   2) minutes.
Routine de test de soi étendue
temps de sondage recommandé :    (  85) minutes.
Capacités SCT :          (0x003d) Prise en charge de l'état SCT.
                    Prise en charge du contrôle de récupération des erreurs SCT.
                    Prise en charge du contrôle des fonctionnalités SCT.
                    Table de données SCT prise en charge.

Structure de données des attributs SMART numéro de révision : 1
Attributs SMART spécifiques au fournisseur avec seuils :
ID# ATTRIBUT_NOM          DRAPEAU     VALEUR PIREFOND SEUIL TYPE      MISE À JOUR  EN CAS D'ÉCHEC VALEUR_BRUTE
  5 Secteur_Realloué_Count   0x0033   100   100   010    Pre-échec  Toujours       -       0
  9 Heures_d'alimentation          0x0032   097   097   000    Ancien    Toujours       -       14689
 12 Compteur_de_cycle_d'alimentation       0x0032   099   099   000    Ancien    Toujours       -       122
177 Usure_Nivelant_Count     0x0013   098   098   000    Pre-échec  Toujours       -       25
179 Utilisé_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-échec  Toujours       -       0
181 Compteur_de_échec_de_programme_total  0x0032   100   100   010    Ancien    Toujours       -       0
182 Compteur_d'échec_d'effacement_total  0x0032   100   100   010    Ancien    Toujours       -       0
183 Bloc_Défectueux_Runtime       0x0013   100   100   010    Pre-échec  Toujours       -       0
187 Rapporté_Non_corrigé      0x0032   100   100   000    Ancien    Toujours       -       0
190 Température_de_circulation_d'air 0x0032   067   056   000    Ancien    Toujours       -       33
195 ECC_hardware_rcupéré  0x001a   200   200   000    Ancien    Toujours       -       0
199 UDMA_CRC_Compte_d'erreurs    0x003e   099   099   000    Ancien    Toujours       -       23
235 Attribut_Inconnu       0x0012   099   099   000    Ancien    Toujours       -       58
241 Total_LBAs_Écrits      0x0032   099   099   000    Ancien    Toujours       -       29068641040

Donc la partie la plus intéressante de l'indicateur de durée de vie est :

ID# ATTRIBUT_NOM          DRAPEAU     VALEUR PIREFOND SEUIL TYPE      MISE À JOUR  EN CAS D'ÉCHEC VALEUR_BRUTE
177 Usure_Nivelant_Count     0x0013   098   098   000    Pre-échec  Toujours       -       25

25 pour la VALEUR BRUTE ??? Est-ce que cela signifie que j'ai consommé 25 pourcent de la durée de vie?

Pas vraiment. S'il vous plaît, consultez ce que Samsung a écrit :

Attribut SMART 177 (Usure Nivelant Count)

Cet attribut représente le nombre d'opérations de programmation et d'effacement sur les supports (le nombre de fois qu'un bloc a été effacé). Cette valeur est directement liée à la durée de vie du SSD. La valeur brute de cet attribut montre le nombre total de cycles de P/E.

Cela signifie que dans mon SSD particulier, la VALEUR 98 montre encore 98 pourcent de la durée de vie restante, mais en moyenne le nombre de cycles Programme/Effacement par bloc est de 25 fois.

Une autre chose intéressante :

241 Total_LBAs_Écrits      0x0032   099   099   000    Ancien    Toujours       -       29068641040

Quelle est cette taille en Go ? To ?

Très simple. Utilisez l'information SMART pour obtenir la taille du secteur :

Taille du secteur :      **512** octets logiques/physiques

Total d'octets écrits en Go ou To :

29068641040/2/1024/1024 = 13861 Go / 1024 = 13,536 To

Explication : divisez le nombre de LBA par 2, car 1 Ko est composé de 2 secteurs de 512 octets. Puis divisez par 1024 pour obtenir Mo, Go et To.

J'espère que cela aide.

0voto

Jw P. Points 1

J'ai toujours planifié une image de mes disques quotidiennement. Certains utilisent Veem, d'autres StorageCraft. Avec des restaurations/montages métalliques nus et de VM en moins de 5 minutes pour les montages, je n'ai encore jamais été pris au dépourvu.

De plus, si vous voulez vraiment avoir un plan en place, prévoyez de remplacer tous les disques dans les 30 jours suivant l'expiration de la garantie.

Je respecte les mathématiques et le désir de connaître les détails sur la manière/dans quelles circonstances une panne de disque peut être surveillée ou prédite et je salue tous ceux du côté technique qui trouvent des solutions aux problèmes de calculs !!

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X