Voici une façon de procéder, qui nécessite quelques outils peu courants :
- ocrodjvu
-
perles pdf Il a ses propres exigences, que l'on peut trouver sur Google.
Nous pouvons utiliser djvu2hocr
(à partir de ocrodjvu
) pour extraire la couche de texte caché d'un fichier DjVu (il ne fait pas d'OCR ou similaire, il extrait juste la couche de texte avec la géométrie), c'est-à-dire :
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
l'intervention corrige les noms de classe dans le fichier de sortie hOCR (qui n'est qu'un simple fichier HTML)
Nous extrayons maintenant les pages DjVu au format TIFF avec :
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
afin que nous terminions avec ces fichiers dans notre dossier de travail :
sample.djvu
pg10.html
pg10.tif
C'est ici que pdfbeads
entre en jeu, et nous nous contentons de l'exécuter :
pdfbeads -o pg10.pdf
ce programme astucieux prend en charge tout ce qui se trouve dans ce dossier (fichiers HTML et TIFF portant le même nom de base) et produit un fichier PDF de sortie avec quelques sous-produits :
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
qui est identique au fichier DjVu d'entrée et contient une couche de texte :
![enter image description here]()
Résumé des commentaires :
Les longs commentaires ci-dessous traitent de la représentation des petites images de la page du document DjVu en tant qu'objets distincts, ce qui n'est pas facilement possible parce que la page du document DjVu n'est elle-même qu'une seule image avec une couche de texte optionnelle, sans aucune "information" sur les petites images en tant qu'objets distincts. Si le document DjVu contient des images en couleur, elles seront généralement placées sur la couche d'arrière-plan ; dans ce cas, l'utilisateur peut tirer parti d'outils tels que ddjvu
(extrait uniquement la couche d'arrière-plan) et imagemagick
(recadrage automatique) pour produire uniquement des images au lieu d'un canevas entier, mais il n'est pas possible de l'automatiser pour créer une sortie PDF.
Une autre approche plus saine, mais plus lente, consiste à utiliser des outils GUI d'OCR classiques. gscan2pdf
(> 1.0) est suggéré comme candidat possible pour Linux PC