1 votes

Ré-encodage et nettoyage des fichiers texte en Terminal

J'ai un lot de fichiers texte d'un encodage indéterminé que je dois nettoyer des caractères inhabituels. J'ai utilisé la fonction bibliothèque chadet pour établir qu'ils sont conformes à 87 % à la norme ISO-8859-2, mais qu'ils contiennent encore des caractères non conformes qui empêchent leur lecture dans R - . décrite dans ce billet de SO . Je me demande s'il existe un moyen - de préférence une méthode en ligne de commande - de les nettoyer par lots et de les convertir en UTF-8, en remplaçant tous les caractères non confirmés par quelque chose comme '~'. Merci beaucoup pour votre aide.

3voto

Yogesh Dhamija Points 53

Avez-vous essayé avec iconv ? Je ne sais pas si OSX contient cette commande mais voici un exemple :

iconv -t UTF-8 myfile.txt

Si cela échoue, essayez de le translittérer :

iconv -t UTF-8//TRANSLIT myfile.txt

Mise à jour (à partir des commentaires) :

Après un peu d'expérimentation iconv -t UTF-8//TRANSLIT -c infile > outfile.txt a fait le travail. Merci les gars.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X