43 votes

Comment convertir un PDF scanné en un PDF avec du texte

J'ai numérisé environ 80 pages en format PDF en niveaux de gris (format image). La taille finale du fichier est d'environ 70 Mo, ce qui est très gros.

Maintenant, je cherche une méthode pour convertir le fichier PDF basé sur des images en niveaux de gris en un fichier PDF simple en noir et blanc basé sur du texte.

J'ai essayé plusieurs fois avec gs mais sans succès (seulement quelques pour cent de récupération). Si un expert a une idée, veuillez me le faire savoir.

1voto

michel.iamit Points 139

Pour l'interface graphique suggérée par @A.B. sur ubuntu 14.04, vous devez suivre :

ocr tesseract sur ubuntu 14.04

ou de toute façon, ajoutez à la liste des dépôts :

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

avant que cela fonctionne :

sudo apt-get install gimagereader

0voto

Mark Points 416

J'ai trouvé cette question en cherchant à convertir un PDF scanné en PDF sélectionnable par du texte. J'ai ensuite découvert pdfsandwich avec lequel j'ai eu de très bons résultats et je suis surpris qu'il ne soit pas détaillé dans les réponses jusqu'à présent.

Plus d'informations sont disponibles ici : http://www.tobias-elze.de/pdfsandwich/

Il utilise la bibliothèque de reconnaissance optique de caractères tesseract sponsorisée par Google en coulisse mais simplifie les étapes de traitement et de création de PDF.

À partir de décembre 2020, il est inclus dans les dépôts officiels d'Ubuntu. Pour l'installer :

sudo apt update && sudo apt install pdfsandwich

Pour traiter un PDF appelé input.pdf :

pdfsandwich input.pdf

Par défaut, votre sortie apparaîtra sous la forme de quelque chose comme input_ocr.pdf

Sous Ubuntu 20.04, cela n'a pas fonctionné initialement en raison d'un problème de permissions de Ghostscript. Cela peut être contourné en ajoutant des commentaires XML () autour des lignes suivantes dans /etc/ImageMagick-6/policy.xml (dans mon fichier, il s'agissait des lignes 90 à 95) :

Référence pour cette correction : https://www.itechlounge.net/2020/09/web-imagickexception-attempt-to-perform-an-operation-not-allowed-by-the-security-policy-pdf/

Pour lire la documentation :

man pdfsandwich

0voto

Vlax Points 121

En fait, le meilleur que j'ai trouvé est la commande pdftotext

sudo apt install poppler-utils

assez élégant et simple si vous faites pdftotext -layout xxx.pdf vous obtenez même la mise en page d'origine préservée en tant que texte.

-1voto

atmelino Points 163

Dans votre fichier pdf, faites un clic droit et enregistrez chaque page en tant qu'image (ou trouvez un outil qui le fait automatiquement pour toutes les pages)

Ouvrez le centre de logiciels Ubuntu. Recherchez tesseract. Cela vous permettra de trouver YAGF que vous devriez installer. Dans YAGF, cliquez sur Fichier -> Ouvrir une image et chargez votre image. Ensuite, cliquez sur Fichier -> Reconnaître.

J'ai obtenu une précision de 100% lors de mon premier test.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X