62 votes

Qu'est-il arrivé à la RAM ECC ?

Il y a dix ou vingt ans, je pouvais acheter de la RAM ECC (Error Correction Code) pour les PC que j'assemblais. La RAM ECC fournissait SEC-DED, je suppose contre les inversions de bits causées par les radiations ionisantes (je ne sais pas ce qui pourrait causer d'autres erreurs de bits transitoires dans la RAM ou les bus E/S).

Cela fait des années que je ne vois plus de RAM ECC proposée pour les PC. Comment cela se fait-il ?

Si la mémoire ECC était utile il y a vingt ans, elle serait probablement plus utile maintenant que les PC fonctionnent avec 1 à 2 ordres de grandeur de plus de mémoire, à des tensions inférieures et avec des caractéristiques physiques plus petites qui sont (vraisemblablement) plus susceptibles d'être corrompues par des radiations parasites. Certaines de ces hypothèses sont-elles incorrectes ?

Par exemple, si la mémoire vive ECC était considérée comme une fonctionnalité utile il y a dix ans, les raisons pour lesquelles elle était utile ne s'appliquent-elles plus aux ordinateurs personnels et aux serveurs actuels ? Ou bien pense-t-on aujourd'hui que la RAM ECC n'a jamais été réellement utile ?

2voto

Muhammad Tariq Points 143

Lorsque l'on parle d'ECC ou non, les discussions se concentrent principalement sur le problème du bit flip. Mais au cours de mes 15 années d'expérience avec plus de 40 serveurs de centres de données et/ou NAS domestiques, le bit flip n'était pas le plus gros problème que l'ECC aurait résolu.

J'ai eu deux gros problèmes de corruption de données possible ou réelle, les deux étaient un module SIM RAM totalement défectueux.

Dans le premier cas, avec un module de RAM ECC, le serveur HP Proliant s'est simplement arrêté en disant quelque chose comme "ECC error, please replace the faulty module". Aucune donnée n'a été corrompue, malgré l'arrêt inattendu du système de 8 machines virtuelles fonctionnant sur celui-ci.

Dans le second cas, après la défaillance du module RAM sur un NAS non-ECC, le NAS a continué à écrire des données inutiles sur les disques pendant quelques heures avant de planter le système d'exploitation. Aucune donnée n'était récupérable pour les dernières 24 heures de travail. Une machine virtuelle entière fonctionnant dans ce NAS a été corrompue, ainsi que d'autres fichiers aléatoires. Tout doit être restauré à partir de la sauvegarde précédente.

ECC est important. Il ne vous évite pas seulement un petit problème de flip, mais il vous évite aussi un Défaut du module RAM complet ce qui peut détruire la plupart de vos données. Je veux de l'ECC là où je stocke des données.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X