8 votes

Stockage efficace des fichiers dupliqués sur linux

J'héberge de nombreux sites web et notre système permet de dupliquer facilement les éléments de ces sites, ce qui est pratique, mais conduit à de nombreux fichiers dupliqués (et potentiellement très volumineux). Je me demandais s'il existait un mécanisme sous Linux (plus précisément Ubuntu) permettant au système de fichiers de ne stocker le fichier qu'une seule fois mais de le lier à partir de tous ses emplacements.

J'ai besoin que cela soit transparent et que cela gère également le cas où, si un utilisateur modifie l'un des fichiers, cela ne modifie pas le contenu du fichier principal mais crée un nouveau fichier pour cette instance particulière du fichier.

Le but de l'exercice est de réduire l'espace gaspillé par les fichiers dupliqués.

6voto

cyphun Points 53

J'aurais besoin que ce soit transparent

ZFS-on-Linux × fonction appelée "déduplication en ligne".

UPD. : J'ai relu votre question une fois de plus et maintenant il semble que Aufs peut vous être utile. C'est une solution très populaire pour les environnements d'hébergement. En fait, je peux aussi mentionner Btrfs - le modèle est que vous avez un sous-volume modèle que vous photographiez à chaque fois que vous avez besoin d'une autre instance. C'est COW, donc seuls les blocs de fichiers modifiés ont besoin de plus d'espace. Mais gardez à l'esprit que Btrfs est, ergh eh bien, pas très stable de toute façon. Je ne l'utiliserais en production que si les données qui s'y trouvent ne risquent absolument pas de disparaître.

0 votes

Il semble que ce soit la meilleure solution pour la déduplication en ligne. J'ai décidé d'abandonner cette solution au profit de disques durs plus grands. L'espace est moins cher que la mémoire vive nécessaire pour que cela fonctionne.

1 votes

Eh bien, oui, ZFS est une chose plutôt gourmande en RAM. Mais il peut être contrôlé, donc en fait, comme toujours, cela dépend de la tâche. Des gens l'utilisent sous FreeBSD, certains prétendent qu'ils sont satisfaits sous Linux également, et je pense qu'il est tout à fait raisonnable de l'utiliser avec 16 Go.

0 votes

Hehe, j'ai environ 6GB et Rails veut en mâcher une bonne partie ! :) Merci d'avoir révisé votre question. J'espère que cela aidera toute autre personne qui se trouve confrontée à cette exigence et qui ne sait pas par où commencer.

1voto

Nathan Neulinger Points 577

Il existe un système de fichiers linux user space/fuse qui effectue cette déduplication.

http://sourceforge.net/p/lessfs/wiki/Home/

Le Linux Journal publie un bon article à ce sujet dans son édition d'août 2011. Il existe également diverses options spécifiques aux systèmes de fichiers avec btrfs et zfs.

0 votes

"Il existe également diverses options spécifiques aux systèmes de fichiers avec btrfs" - ORLY ?

0 votes

btrfs.wiki.kernel.org/index.php/Deduplication y sdteffen.blogspot.com/2013/10/ sont de bons endroits pour commencer à lire sur la déduplication de btrfs.

0 votes

Et est-ce que l'un d'entre eux mentionne que vous pouvez avoir une déduplication en ligne avec Btrfs ? Je ne pense pas, donc, quel est le meilleur endroit pour commencer alors ? )

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X