En tant qu'adepte de l'open source (et de l'automatisation), je déteste dire cela, mais les meilleurs résultats que je viens d'obtenir (sur un PDF complexe et assez volumineux) ont été obtenus en l'ouvrant dans Adobe Reader, puis en choisissant Fichier|Enregistrer sous texte.
(Je fais du prétraitement pour des expériences d'analyse de texte, pas en tant que lecteur, mais je pense que mon premier et deuxième choix seraient les mêmes).
J'ai comparé les résultats côte à côte. Mon deuxième choix est ebook-convert.
Adobe Il n'a pas converti les titres/paragraphes en lignes simples, mais il a corrigé les traits d'union. Les déchets qui étaient cachés dans le PDF ne sont pas sortis. A correctement obtenu les grandes capitales au début des sections, par exemple "The", pas "T he" ou même "T he".
ebook-convert : A laissé les numéros de page, et quelques cochonneries cachées dans l'en-tête/le pied de page (mais pas de FF). Convertit la plupart des paragraphes en lignes simples. Ceux qu'il a manqués sont cependant à double interligne ! Les puces ne sont pas toujours alignées avec le texte. A correctement obtenu "Le" au début du chapitre.
pdftotext (sans --layout) : Pas mal, les balles s'alignent, mais bruit d'en-tête/pied de page. Les FF sont là. Les traits d'union ont été supprimés. Pire pour les grandes lettres de début de chapitre : "T \n\nhe ".
pdftotext (avec --layout) : Similaire, mais avec plus d'indentations. "T he" pour début de chapitre.
pdftohtml >> pdfreflow >> htmltotext : Il a supprimé les numéros de page, mais il reste des déchets dans l'en-tête et le pied de page. "T he" pour le début du chapitre. Les traits d'union ont été supprimés. (Elle utilise plusieurs lignes par paragraphe, mais ce ne sont pas les mêmes sauts de ligne que dans les autres versions).