Comment extraire du texte d'un PDF qui n'a pas été construit avec un index ? Il n'y a que du texte, mais je ne peux pas faire de recherche ni sélectionner quoi que ce soit. J'utilise Kubuntu, et Okular n'a pas cette fonctionnalité.
Réponse
Trop de publicités?
Andrew
Points
415
La solution la plus simple et la plus efficace a travaillé pour moi :
pdftoppm in.pdf image
tesseract image-1.ppm text
Cela produira un fichier text.txt contenant le contenu textuel d'un PDF. (J'ai essayé avec un PDF d'une seule page contenu de l'image PDF.)
Note : Ces deux commandes n'aiment pas que vous ajoutiez/supprimiez des extensions de fichiers, pour quelque raison que ce soit ; entrez-les exactement de la manière que j'ai montrée ci-dessus. De plus, pour une raison quelconque, la commande image-1.ppm
au lieu de image.ppm`.
- Réponses précédentes
- Plus de réponses