47 votes

Comment extraire du texte avec OCR à partir d'un PDF sous Linux ?

Comment extraire du texte d'un PDF qui n'a pas été construit avec un index ? Il n'y a que du texte, mais je ne peux pas faire de recherche ni sélectionner quoi que ce soit. J'utilise Kubuntu, et Okular n'a pas cette fonctionnalité.

0voto

Andrew Points 415

La solution la plus simple et la plus efficace a travaillé pour moi :

pdftoppm in.pdf image
tesseract image-1.ppm text

Cela produira un fichier text.txt contenant le contenu textuel d'un PDF. (J'ai essayé avec un PDF d'une seule page contenu de l'image PDF.)

Note : Ces deux commandes n'aiment pas que vous ajoutiez/supprimiez des extensions de fichiers, pour quelque raison que ce soit ; entrez-les exactement de la manière que j'ai montrée ci-dessus. De plus, pour une raison quelconque, la commande image-1.ppm au lieu de image.ppm`.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X