Comment convertir un PDF scanné en un PDF avec du texte

Question

Comment convertir un PDF scanné en un PDF avec du texte

Demandé el 14 de Mars, 2013: Quand la question a-t-elle été
45770 affichage: Nombre de visites la question a
4 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai numérisé environ 80 pages en format PDF en niveaux de gris (format image). La taille finale du fichier est d'environ 70 Mo, ce qui est très gros.

Maintenant, je cherche une méthode pour convertir le fichier PDF basé sur des images en niveaux de gris en un fichier PDF simple en noir et blanc basé sur du texte.

J'ai essayé plusieurs fois avec gs mais sans succès (seulement quelques pour cent de récupération). Si un expert a une idée, veuillez me le faire savoir.

Demandé el 14 de Mars, 2013 par tschaible

Answer 1

4 Réponses

Answer 2

1voto

michel.iamit Points 139

Pour l'interface graphique suggérée par @A.B. sur ubuntu 14.04, vous devez suivre :

ocr tesseract sur ubuntu 14.04

ou de toute façon, ajoutez à la liste des dépôts :

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

avant que cela fonctionne :

sudo apt-get install gimagereader

Répondu el 18 de Février, 2016 par michel.iamit (139 Points )

Answer 3

0voto

Mark Points 416

J'ai trouvé cette question en cherchant à convertir un PDF scanné en PDF sélectionnable par du texte. J'ai ensuite découvert pdfsandwich avec lequel j'ai eu de très bons résultats et je suis surpris qu'il ne soit pas détaillé dans les réponses jusqu'à présent.

Plus d'informations sont disponibles ici : http://www.tobias-elze.de/pdfsandwich/

Il utilise la bibliothèque de reconnaissance optique de caractères tesseract sponsorisée par Google en coulisse mais simplifie les étapes de traitement et de création de PDF.

À partir de décembre 2020, il est inclus dans les dépôts officiels d'Ubuntu. Pour l'installer :

sudo apt update && sudo apt install pdfsandwich

Pour traiter un PDF appelé input.pdf :

pdfsandwich input.pdf

Par défaut, votre sortie apparaîtra sous la forme de quelque chose comme input_ocr.pdf

Sous Ubuntu 20.04, cela n'a pas fonctionné initialement en raison d'un problème de permissions de Ghostscript. Cela peut être contourné en ajoutant des commentaires XML () autour des lignes suivantes dans /etc/ImageMagick-6/policy.xml (dans mon fichier, il s'agissait des lignes 90 à 95) :

Référence pour cette correction : https://www.itechlounge.net/2020/09/web-imagickexception-attempt-to-perform-an-operation-not-allowed-by-the-security-policy-pdf/

Pour lire la documentation :

man pdfsandwich

Répondu el 31 de Décembre, 2020 par Mark (416 Points )

Answer 4

0voto

Vlax Points 121

En fait, le meilleur que j'ai trouvé est la commande pdftotext

sudo apt install poppler-utils

assez élégant et simple si vous faites pdftotext -layout xxx.pdf vous obtenez même la mise en page d'origine préservée en tant que texte.

Répondu el 10 de Avril, 2021 par Vlax (121 Points )

Answer 5

-1voto

atmelino Points 163

Dans votre fichier pdf, faites un clic droit et enregistrez chaque page en tant qu'image (ou trouvez un outil qui le fait automatiquement pour toutes les pages)

Ouvrez le centre de logiciels Ubuntu. Recherchez tesseract. Cela vous permettra de trouver YAGF que vous devriez installer. Dans YAGF, cliquez sur Fichier -> Ouvrir une image et chargez votre image. Ensuite, cliquez sur Fichier -> Reconnaître.

J'ai obtenu une précision de 100% lors de mon premier test.

Répondu el 21 de Avril, 2015 par atmelino (163 Points )

Comment convertir un PDF scanné en un PDF avec du texte

Réponses

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Comment convertir un PDF scanné en un PDF avec du texte

Réponses

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: