le tri est très lent pour les gros fichiers

Question

le tri est très lent pour les gros fichiers

Demandé el 28 de Août, 2019: Quand la question a-t-elle été
1225 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je souhaite trier un fichier (en supprimant les doublons) qui contient une liste de mots d'une taille de près de 25 Go. J'utilise sort dans le terminal Ubuntu mais il faut des heures pour sortir un fichier trié, la commande est :

sort -u input.txt>output.txt

Existe-t-il un moyen alternatif et efficace de procéder de la même manière ?

Demandé el 28 de Août, 2019 par abbasi_ahsan

Answer 1

2 Réponses

Answer 2

4voto

Rinzwind Points 270388

D'après mon expérience personnelle, si vous voulez des lignes uniques, assurez-vous d'utiliser également

LC_ALL=C sort -u

Je constate une amélioration de la vitesse d'un facteur 10, mais cela dépend probablement des caractères contenus dans le fichier (je dois souvent l'utiliser pour des traductions et j'ai donc des caractères accentués dans le fichier).

Répondu el 28 de Août, 2019 par Rinzwind (270388 Points )

Answer 3

0voto

aborruso Points 504

Un outil vraiment incroyable est xsv ( https://github.com/BurntSushi/xsv ). L'exécuter pour un fichier de 3173959 lignes

xsv sort input.txt >output.csv

J'obtiens le résultat en 3 secondes

Répondu el 28 de Août, 2019 par aborruso (504 Points )

le tri est très lent pour les gros fichiers

Réponses

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

le tri est très lent pour les gros fichiers

Réponses

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: