50 votes

Comment copier du texte à partir d'un PDF sans perdre le formatage ?

Lorsque je copie du texte d'un fichier PDF dans un éditeur de texte, il finit par s'abîmer de diverses manières. Le formatage, comme le gras et l'italique, est perdu ; les sauts de ligne souples dans un paragraphe sont convertis en sauts de ligne durs ; les tirets qui séparent un mot sur deux lignes sont conservés même s'ils ne devraient pas l'être ; et les guillemets simples et doubles sont remplacés par des signes " ".

Idéalement, j'aimerais pouvoir copier du texte à partir d'un PDF et que le formatage soit converti en codes HTML, que les "guillemets intelligents" soient convertis en " et ', et que les sauts de ligne soient effectués correctement. Existe-t-il un moyen de faire cela ?

61voto

Brian Frost Points 6544

Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée, et ils sont conçus pour seulement Un PDF est essentiellement une carte contenant l'emplacement exact de caractères (lettres individuelles ou ponctuation, etc.) ou d'images. Dans la plupart des cas Un PDF ne contient même pas d'informations sur l'endroit où l'on se trouve. mot se termine et un autre commence, et encore moins des choses comme les pauses douces ou les pauses dures pour les fins de paragraphe.

(Quelques PDF récents stockent des informations à ce sujet, mais il s'agit d'une nouvelle technologie et vous auriez de la chance de trouver des PDF de ce type. Et même si c'était le cas, votre lecteur de PDF ne le saurait peut-être pas).

Quoi qu'il en soit, c'est à votre logiciel de mettre en œuvre une sorte d'"intelligence artificielle" pour extraire, simplement à partir de l'emplacement des caractères individuels, ce qui constitue un mot, un paragraphe, etc. Différents logiciels y parviendront mieux que d'autres, et cela dépendra également de la manière dont le PDF a été créé. Dans tous les cas, vous devez jamais s'attendre à des résultats parfaits. Avoir le PDF de sortie n'est pas la même chose que d'avoir le document source. Il est préférable d'essayer de l'obtenir si vous le pouvez.

La solution standard à ce type de problème est d'utiliser Adobe Acrobat Professional (le logiciel coûteux, pas le lecteur gratuit) pour convertir le PDF en HTML. Même cette méthode ne permet pas d'obtenir des résultats parfaits.

Il existe des logiciels gratuits qui permettent d'extraire du texte des PDF en conservant une partie du formatage, mais là encore, il ne faut pas s'attendre à des résultats parfaits. Voir par exemple calibre (qui peut convertir au format RTF), pdftohtml/pdfreflow ou le Traitement de texte AbiWord (avec tous les plugins d'importation/exportation activés). Il existe également un plugin d'importation PDF pour OpenOffice.

Mais ne vous attendez pas à ce que ces résultats soient parfaits. Vous allez à contre-courant. Le format PDF n'est pas conçu comme un format d'entrée modifiable.

11voto

Mohammed Haider Points 11

Une autre option consiste à télécharger et à commencer à utiliser le logiciel gratuit de visualisation de fichiers PDF, Foxit (il est bon). Vous pouvez ensuite "Enregistrer sous" et choisir .txt pour le convertir en fichier texte. Le formatage sera ainsi préservé. Je ne sais pas si vous pouvez faire la même chose avec Adobe, car j'ai cessé de l'utiliser il y a un certain temps lorsque je me suis converti à Foxit.

9voto

Simon Points 4389

Il existe un très bon outil en ligne appelé Sej-da . Il traite de la manipulation avancée des PDF. Il n'y a pas de logiciel à télécharger. Comme il s'agit d'un nouveau Il s'agit d'un outil en ligne qui est actuellement encore en version bêta. Il vous permet d'extraire du texte d'un PDF, tout en offrant une myriade d'autres fonctionnalités PDF.

http://www.sejda.com/

Une brève vidéo des fonctions de sejda a été réalisée le 14 novembre 2012 par Revision 3 et peut être consultée ici :

http://revision3.com/tzdaily/sejda-online-pdf

6voto

Mike Mytkowski Points 541

Ouvrez votre fichier PDF avec un navigateur (Google chrome et firefox sont testés) et copiez votre texte.

4voto

Evan Kroske Points 1454

Vous pouvez utiliser Adobe Acrobat Pro pour ce faire.

Pour les tables : Dans Acrobat 9/10, il existait une fonction de sélection des tableaux. Avec Acrobat X, il suffit de cliquer sur Enregistrer sous > Feuille de calcul > Excel. Cette fonction permet même de concaténer des pages en une longue feuille de calcul. Une fonction géniale.

Pour le texte : Une fonction similaire existe pour l'exportation vers MS Word. Enregistrer sous > Word > Word Doc.

Sources :

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X