43 votes

Comment convertir un PDF scanné en un PDF avec du texte

J'ai numérisé environ 80 pages en format PDF en niveaux de gris (format image). La taille finale du fichier est d'environ 70 Mo, ce qui est très gros.

Maintenant, je cherche une méthode pour convertir le fichier PDF basé sur des images en niveaux de gris en un fichier PDF simple en noir et blanc basé sur du texte.

J'ai essayé plusieurs fois avec gs mais sans succès (seulement quelques pour cent de récupération). Si un expert a une idée, veuillez me le faire savoir.

31voto

A.B. Points 84870

GImageReader est une interface graphique GTK+ simple pour tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

désolé pour le texte en allemand

10voto

rafmunozf Points 187

Vous pouvez essayer pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Pour exécuter la syntaxe, utilisez

 pdfocr -i input.pdf -o output.pdf

input.pdf est le nom du fichier d'entrée et output.pdf le fichier de sortie.

Par défaut, pdfocr utilise Tesseract. Pour l'installer:

 sudo apt-get install tesseract-ocr

pdfocr crée une couche de texte intégrée.

4voto

aggsol Points 203

Jetez un coup d'œil à OCRmyPDF qui fonctionne bien.

3voto

camous Points 80
pdfsandwich

Il charge tesseract et d'autres lors de l'installation. C'est une solution facile en une seule étape et peut être scriptée. Il peut utiliser hocr2pdf pour créer un PDF en texte brut, mais ce n'est pas encore prêt pour le grand public. Par défaut, il utilise tesseract et crée un PDF "sandwiché" : image + texte en dessous.

L'image intégrée peut être retirée avec des commandes comme :

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

Mais le texte est caché, donc cela ressemble à une page blanche.

Charger le PDF dans LibreOffice Draw expose le texte et l'image peut être supprimée manuellement.

2voto

student Points 2222

Vous pouvez essayer shrinkpdf pour réduire la taille du fichier, puis ocr.sh pour ajouter la couche de texte.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X