Je voudrais convertir un document PDF en une collection de pages HTML qui présentent un balisage "propre", et génèrent/gèrent des informations sémantiques (chapitres, sections...), tout en effectuant des tâches de nettoyage (par exemple, je ne suis pas intéressé par les numéros de page, ou la répétition du titre du chapitre/document sur chaque page).
Existe-t-il un tel programme ?
Cheers