Existe-t-il un meilleur convertisseur de pdf en texte que pdftotext ?

Question

Existe-t-il un meilleur convertisseur de pdf en texte que pdftotext ?

Demandé el 6 de Juillet, 2011: Quand la question a-t-elle été
113030 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'utilise pdftotext (qui fait partie de poppler-utils) pour convertir des documents PDF en texte. Cela fonctionne, en grande partie, mais j'aurais aimé qu'il insère des lignes vides entre les paragraphes séparés au lieu de les écraser ensemble.

Y a-t-il un moyen de faire en sorte que pdftotext le fasse ? Et sinon, existe-t-il un autre utilitaire de conversion de pdf en texte qui puisse le faire ?

Demandé el 6 de Juillet, 2011 par Juve

Answer 1

5 Réponses

Answer 2

127voto

Noah Points 1371

Si vous utilisez pdftotext vous pouvez utiliser le -layout pour préserver la disposition du texte sur les pages de votre fichier pdf d'entrée :

pdftotext -layout input.pdf output.txt

Répondu el 13 de Juin, 2013 par Noah (1371 Points )

Answer 3

26voto

frabjous Points 5842

Vous pouvez essayer ebook-convert de Calibre.

Je dirais plutôt qu'il fait une erreur dans l'autre sens : trop de sauts de ligne.

Une autre chose que j'envisagerais certainement est de convertir en HTML en utilisant pdfreflow et ensuite convertir le HTML en TXT.

Répondu el 9 de Août, 2011 par frabjous (5842 Points )

Answer 4

14voto

Technowise Points 475

En tant qu'adepte de l'open source (et de l'automatisation), je déteste dire cela, mais les meilleurs résultats que je viens d'obtenir (sur un PDF complexe et assez volumineux) ont été obtenus en l'ouvrant dans Adobe Reader, puis en choisissant Fichier|Enregistrer sous texte.

(Je fais du prétraitement pour des expériences d'analyse de texte, pas en tant que lecteur, mais je pense que mon premier et deuxième choix seraient les mêmes).

J'ai comparé les résultats côte à côte. Mon deuxième choix est ebook-convert.

Adobe Il n'a pas converti les titres/paragraphes en lignes simples, mais il a corrigé les traits d'union. Les déchets qui étaient cachés dans le PDF ne sont pas sortis. A correctement obtenu les grandes capitales au début des sections, par exemple "The", pas "T he" ou même "T he".

ebook-convert : A laissé les numéros de page, et quelques cochonneries cachées dans l'en-tête/le pied de page (mais pas de FF). Convertit la plupart des paragraphes en lignes simples. Ceux qu'il a manqués sont cependant à double interligne ! Les puces ne sont pas toujours alignées avec le texte. A correctement obtenu "Le" au début du chapitre.

pdftotext (sans --layout) : Pas mal, les balles s'alignent, mais bruit d'en-tête/pied de page. Les FF sont là. Les traits d'union ont été supprimés. Pire pour les grandes lettres de début de chapitre : "T \n\nhe ".

pdftotext (avec --layout) : Similaire, mais avec plus d'indentations. "T he" pour début de chapitre.

pdftohtml >> pdfreflow >> htmltotext : Il a supprimé les numéros de page, mais il reste des déchets dans l'en-tête et le pied de page. "T he" pour le début du chapitre. Les traits d'union ont été supprimés. (Elle utilise plusieurs lignes par paragraphe, mais ce ne sont pas les mêmes sauts de ligne que dans les autres versions).

Répondu el 11 de Septembre, 2013 par Technowise (475 Points )

Answer 5

6voto

xangua Points 7118

Si vous avez un compte Google, vous pouvez utiliser Google Docs pour télécharger le PDF et le transformer en texte éditable.

Répondu el 6 de Juillet, 2011 par xangua (7118 Points )

Answer 6

1voto

Max Points 191

J'ai également essayé pypdf et l'ai comparé à pdftotext sur deux documents. Il avait plus de sauts de ligne et divisait certains noms de sections (REFERENCES était R E F E R E N C E S).

pdf2txt a produit des déchets complets.

J'utilise souvent pdfBox (java) si pdftotext gâche la sortie. Vous pouvez l'essayer.

Répondu el 4 de Octobre, 2013 par Max (191 Points )

Existe-t-il un meilleur convertisseur de pdf en texte que pdftotext ?

Réponses

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Existe-t-il un meilleur convertisseur de pdf en texte que pdftotext ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: