Comment extraire du texte avec OCR à partir d'un PDF sous Linux ?

Question

Comment extraire du texte avec OCR à partir d'un PDF sous Linux ?

Demandé el 24 de Août, 2009: Quand la question a-t-elle été
63135 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Comment extraire du texte d'un PDF qui n'a pas été construit avec un index ? Il n'y a que du texte, mais je ne peux pas faire de recherche ni sélectionner quoi que ce soit. J'utilise Kubuntu, et Okular n'a pas cette fonctionnalité.

Demandé el 24 de Août, 2009 par Szymon Rozga

Answer 1

1 Réponses

Answer 2

0voto

Andrew Points 415

La solution la plus simple et la plus efficace a travaillé pour moi :

pdftoppm in.pdf image
tesseract image-1.ppm text

Cela produira un fichier text.txt contenant le contenu textuel d'un PDF. (J'ai essayé avec un PDF d'une seule page contenu de l'image PDF.)

Note : Ces deux commandes n'aiment pas que vous ajoutiez/supprimiez des extensions de fichiers, pour quelque raison que ce soit ; entrez-les exactement de la manière que j'ai montrée ci-dessus. De plus, pour une raison quelconque, la commande image-1.ppm au lieu de image.ppm`.

Répondu el 16 de Novembre, 2021 par Andrew (415 Points )

Comment extraire du texte avec OCR à partir d'un PDF sous Linux ?

Réponse

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Comment extraire du texte avec OCR à partir d'un PDF sous Linux ?

Réponse

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: