Conversion sémantique de PDF en HTML

Question

Conversion sémantique de PDF en HTML

Demandé el 1 de Septembre, 2012: Quand la question a-t-elle été
680 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Je voudrais convertir un document PDF en une collection de pages HTML qui présentent un balisage "propre", et génèrent/gèrent des informations sémantiques (chapitres, sections...), tout en effectuant des tâches de nettoyage (par exemple, je ne suis pas intéressé par les numéros de page, ou la répétition du titre du chapitre/document sur chaque page).

Existe-t-il un tel programme ?

Cheers

Demandé el 1 de Septembre, 2012 par John Beckett

Answer 1

2 Réponses

Answer 2

0voto

Samuel Points 1

Calibre permet la conversion d'un pdf au format htlmz qui est un fichier unique de page html avec des données. Si vous souhaitez l'utiliser pour créer une collection de pages html, vous devrez d'abord diviser le pdf en fonction de votre système d'exploitation. Calibre fonctionne sur tous les principaux systèmes d'exploitation, installez le programme à partir de http://calibre-ebook.com importez le pdf, puis utilisez l'option "convertir les livres" de l'interface et choisissez le format htmlz. Il existe plusieurs pages de paramètres qui peuvent être modifiées pour obtenir le résultat final.

Il existe également une interface de ligne de commande si vous souhaitez script.

Répondu el 22 de Août, 2013 par Samuel (1 Points )

Answer 3

0voto

flaps Points 26

J'en ai écrit un, parce que j'en avais besoin pour mon site web. schooletc.co.uk transcrire des centaines de milliers de PDF en HTML sémantique sans faire un énorme gâchis.

Voici mon dépôt Github https://github.com/fmalina/transcript

Il s'agit d'un processus en deux étapes : les PDF sont d'abord traités à l'aide de PDFtoHTML(Ex) qui produit un balisage HTML de présentation, puis les documents sont traités à l'aide de transcript.py qui produit un HTML sémantique comprenant des titres, des paragraphes, des listes et des tableaux de données.

Répondu el 20 de Décembre, 2015 par flaps (26 Points )

Conversion sémantique de PDF en HTML

Réponses

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Conversion sémantique de PDF en HTML

Réponses

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: