74 votes

Existe-t-il un meilleur convertisseur de pdf en texte que pdftotext ?

J'utilise pdftotext (qui fait partie de poppler-utils) pour convertir des documents PDF en texte. Cela fonctionne, en grande partie, mais j'aurais aimé qu'il insère des lignes vides entre les paragraphes séparés au lieu de les écraser ensemble.

Y a-t-il un moyen de faire en sorte que pdftotext le fasse ? Et sinon, existe-t-il un autre utilitaire de conversion de pdf en texte qui puisse le faire ?

127voto

Noah Points 1371

Si vous utilisez pdftotext vous pouvez utiliser le -layout pour préserver la disposition du texte sur les pages de votre fichier pdf d'entrée :

pdftotext -layout input.pdf output.txt

26voto

frabjous Points 5842

Vous pouvez essayer ebook-convert de Calibre.

Je dirais plutôt qu'il fait une erreur dans l'autre sens : trop de sauts de ligne.

Une autre chose que j'envisagerais certainement est de convertir en HTML en utilisant pdfreflow et ensuite convertir le HTML en TXT.

14voto

Technowise Points 475

En tant qu'adepte de l'open source (et de l'automatisation), je déteste dire cela, mais les meilleurs résultats que je viens d'obtenir (sur un PDF complexe et assez volumineux) ont été obtenus en l'ouvrant dans Adobe Reader, puis en choisissant Fichier|Enregistrer sous texte.

(Je fais du prétraitement pour des expériences d'analyse de texte, pas en tant que lecteur, mais je pense que mon premier et deuxième choix seraient les mêmes).

J'ai comparé les résultats côte à côte. Mon deuxième choix est ebook-convert.

Adobe Il n'a pas converti les titres/paragraphes en lignes simples, mais il a corrigé les traits d'union. Les déchets qui étaient cachés dans le PDF ne sont pas sortis. A correctement obtenu les grandes capitales au début des sections, par exemple "The", pas "T he" ou même "T he".

ebook-convert : A laissé les numéros de page, et quelques cochonneries cachées dans l'en-tête/le pied de page (mais pas de FF). Convertit la plupart des paragraphes en lignes simples. Ceux qu'il a manqués sont cependant à double interligne ! Les puces ne sont pas toujours alignées avec le texte. A correctement obtenu "Le" au début du chapitre.

pdftotext (sans --layout) : Pas mal, les balles s'alignent, mais bruit d'en-tête/pied de page. Les FF sont là. Les traits d'union ont été supprimés. Pire pour les grandes lettres de début de chapitre : "T \n\nhe ".

pdftotext (avec --layout) : Similaire, mais avec plus d'indentations. "T he" pour début de chapitre.

pdftohtml >> pdfreflow >> htmltotext : Il a supprimé les numéros de page, mais il reste des déchets dans l'en-tête et le pied de page. "T he" pour le début du chapitre. Les traits d'union ont été supprimés. (Elle utilise plusieurs lignes par paragraphe, mais ce ne sont pas les mêmes sauts de ligne que dans les autres versions).

6voto

xangua Points 7118

Si vous avez un compte Google, vous pouvez utiliser Google Docs pour télécharger le PDF et le transformer en texte éditable.

1voto

Max Points 191

J'ai également essayé pypdf et l'ai comparé à pdftotext sur deux documents. Il avait plus de sauts de ligne et divisait certains noms de sections (REFERENCES était R E F E R E N C E S).

pdf2txt a produit des déchets complets.

J'utilise souvent pdfBox (java) si pdftotext gâche la sortie. Vous pouvez l'essayer.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X