J'ai un lot de fichiers texte d'un encodage indéterminé que je dois nettoyer des caractères inhabituels. J'ai utilisé la fonction bibliothèque chadet pour établir qu'ils sont conformes à 87 % à la norme ISO-8859-2, mais qu'ils contiennent encore des caractères non conformes qui empêchent leur lecture dans R - . décrite dans ce billet de SO . Je me demande s'il existe un moyen - de préférence une méthode en ligne de commande - de les nettoyer par lots et de les convertir en UTF-8, en remplaçant tous les caractères non confirmés par quelque chose comme '~'. Merci beaucoup pour votre aide.
Réponse
Trop de publicités?Avez-vous essayé avec iconv
? Je ne sais pas si OSX contient cette commande mais voici un exemple :
iconv -t UTF-8 myfile.txt
Si cela échoue, essayez de le translittérer :
iconv -t UTF-8//TRANSLIT myfile.txt
Mise à jour (à partir des commentaires) :
Après un peu d'expérimentation
iconv -t UTF-8//TRANSLIT -c infile > outfile.txt
a fait le travail. Merci les gars.