4 votes

Conversion sémantique de PDF en HTML

Je voudrais convertir un document PDF en une collection de pages HTML qui présentent un balisage "propre", et génèrent/gèrent des informations sémantiques (chapitres, sections...), tout en effectuant des tâches de nettoyage (par exemple, je ne suis pas intéressé par les numéros de page, ou la répétition du titre du chapitre/document sur chaque page).

Existe-t-il un tel programme ?

Cheers

0voto

Samuel Points 1

Calibre permet la conversion d'un pdf au format htlmz qui est un fichier unique de page html avec des données. Si vous souhaitez l'utiliser pour créer une collection de pages html, vous devrez d'abord diviser le pdf en fonction de votre système d'exploitation. Calibre fonctionne sur tous les principaux systèmes d'exploitation, installez le programme à partir de http://calibre-ebook.com importez le pdf, puis utilisez l'option "convertir les livres" de l'interface et choisissez le format htmlz. Il existe plusieurs pages de paramètres qui peuvent être modifiées pour obtenir le résultat final.

Il existe également une interface de ligne de commande si vous souhaitez script.

0voto

flaps Points 26

J'en ai écrit un, parce que j'en avais besoin pour mon site web. schooletc.co.uk transcrire des centaines de milliers de PDF en HTML sémantique sans faire un énorme gâchis.

Voici mon dépôt Github https://github.com/fmalina/transcript

Il s'agit d'un processus en deux étapes : les PDF sont d'abord traités à l'aide de PDFtoHTML(Ex) qui produit un balisage HTML de présentation, puis les documents sont traités à l'aide de transcript.py qui produit un HTML sémantique comprenant des titres, des paragraphes, des listes et des tableaux de données.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X