49 votes

Conversion de DJVU en PDF

Je souhaite convertir un document DJVU en un document PDF, en séparant et en préservant les éléments suivants couche de texte et le images tout en maintien de la structure du DJVU. Comment puis-je faire cela dans Ubuntu ?

(J'utiliserai alors Calibre à convertir en ePub/Mobi, donc s'il y avait un plug-in Calibre pour tout ce processus, ce serait parfait pour moi !)

Note1 : Imprimer à partir d'Evince, exporter à partir de DJview, ou tout ce qui utilise le package ddjvu sont no solutions adéquates, car elles éliminent la couche de texte et ne conservent que les images.

Note2 : L'utilisation de DJVULibre semble n'extrait que la couche de texte et les images ne sont pas extraites . De même, la copie "manuelle" du texte fait perdre la structure du document et les images.

45voto

Ashu Points 9008

Méthode 1

Il suffit d'utiliser DJView et d'exporter au format PDF

  1. Aller au gestionnaire de paquets Synaptic
  2. Installer DJview4
  3. Lancer DJview (Applications - Graphiques - DJView4)
  4. Ouvrez votre document .djvu
  5. : Menu - Exporter sous : PDF

Méthode 2

Ouvrir le fichier djvu dans evince
Sélectionner l'impression ----> imprimer dans un fichier
transformer .ps en .pdf et cliquer sur imprimer

Méthode 3

  1. Aller au gestionnaire de paquets Synaptic

  2. Installer

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Allez dans le terminal et écrivez

     sudo apt-get install libtiff-tools
  4. Aller dans le répertoire où se trouve le fichier djvu. Cliquez sur le bouton droit de la souris. Choisissez l'option "Ouvrir dans le terminal". Cliquez dessus. Un terminal s'ouvre.

  5. Dans ce terminal, écrivez

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff

Méthode 4

Il existe également un convertisseur en ligne Convertisseur DjVu en PDF

21voto

Scott Noyes Points 1596

Voici une façon de procéder, qui nécessite quelques outils peu courants :

  1. ocrodjvu
  2. perles pdf Il a ses propres exigences, que l'on peut trouver sur Google.

Nous pouvons utiliser djvu2hocr (à partir de ocrodjvu ) pour extraire la couche de texte caché d'un fichier DjVu (il ne fait pas d'OCR ou similaire, il extrait juste la couche de texte avec la géométrie), c'est-à-dire :

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed l'intervention corrige les noms de classe dans le fichier de sortie hOCR (qui n'est qu'un simple fichier HTML)

Nous extrayons maintenant les pages DjVu au format TIFF avec :

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

afin que nous terminions avec ces fichiers dans notre dossier de travail :

sample.djvu
pg10.html
pg10.tif

C'est ici que pdfbeads entre en jeu, et nous nous contentons de l'exécuter :

pdfbeads -o pg10.pdf

ce programme astucieux prend en charge tout ce qui se trouve dans ce dossier (fichiers HTML et TIFF portant le même nom de base) et produit un fichier PDF de sortie avec quelques sous-produits :

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

qui est identique au fichier DjVu d'entrée et contient une couche de texte :

enter image description here

Résumé des commentaires :

Les longs commentaires ci-dessous traitent de la représentation des petites images de la page du document DjVu en tant qu'objets distincts, ce qui n'est pas facilement possible parce que la page du document DjVu n'est elle-même qu'une seule image avec une couche de texte optionnelle, sans aucune "information" sur les petites images en tant qu'objets distincts. Si le document DjVu contient des images en couleur, elles seront généralement placées sur la couche d'arrière-plan ; dans ce cas, l'utilisateur peut tirer parti d'outils tels que ddjvu (extrait uniquement la couche d'arrière-plan) et imagemagick (recadrage automatique) pour produire uniquement des images au lieu d'un canevas entier, mais il n'est pas possible de l'automatiser pour créer une sortie PDF.

Une autre approche plus saine, mais plus lente, consiste à utiliser des outils GUI d'OCR classiques. gscan2pdf (> 1.0) est suggéré comme candidat possible pour Linux PC

5voto

Mufaka Points 54

Il y a djvu2pdf mais il s'appuie sur ghostscript, il pourrait donc s'agir d'une autre option d'impression. Je vous suggère tout de même d'y jeter un coup d'œil, juste au cas où il serait plus intelligent que je ne le pense.

Il n'est pas dans les dépôts mais vous pouvez télécharger une version deb sur le site du fabricant : http://0x2a.at/s/projects/djvu2pdf

** Insérer un avis obligatoire sur le téléchargement/installation de choses en dehors des dépôts ici **

4voto

Torlack Points 2910

Utilisation DJVULibre Il est possible d'extraire la couche de texte à l'aide de la fonction terminal commande :

djvutxt myfile.djvu > myfile-ocr.txt o djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(les deux font la même chose, et ont été trouvés aquí )

Le formatage demande un certain effort (car de nombreux symboles ne sont pas convertis correctement) et les images ne sont pas récupérées .

1voto

matthieu Points 400

J'ai fait un script de la réponse de @zetah.

Il est disponible ici : https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X