C'est quelque chose qui ne ressemble ni à utf-8 ni à iso-8859-1. Ça pourrait être n'importe quoi d'autre. Ça pourrait même ne pas être un texte du tout. Ce type est une sorte de description de secours pour tout ce qui ne contient pas d'octets nuls.
Même s'il s'agit en réalité d'un fichier texte (l'extension suggère que c'est le cas), il n'y a malheureusement aucun moyen automatique de découvrir l'encodage, car la plupart des encodages ont la même plage de codes valides. L'utf-8 peut être distingué avec une très grande confiance, mais au-delà, il nécessite une vérification manuelle.
Tout d'abord, vous devez déterminer dans quelle langue se trouve le fichier pour avoir une idée du contenu correct et du contenu corrompu, ainsi qu'une liste des encodages possibles. Car il existe des milliards d'encodages, mais seulement quelques-uns ont été utilisés pour une langue particulière.
Ensuite, vous devez essayer de convertir le fichier à partir de chaque encodage possible, et pour chaque conversion qui réussit techniquement (ce qui malheureusement sera la plup des cas), visualisez le résultat et vérifiez s'il est correct ou non.
Un correcteur orthographique peut vous aider lors de la révision, car des conversions incorrectes entraîneront plus d'erreurs de vérification orthographique.
Pour la conversion, vous pouvez utiliser iconv
(1), qui est installé à partir du paquet libc sur GNU/Linux ou recode
. recode
a plus d'options et une meilleure gestion des erreurs.