Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée, et ils sont conçus pour seulement Un PDF est essentiellement une carte contenant l'emplacement exact de caractères (lettres individuelles ou ponctuation, etc.) ou d'images. Dans la plupart des cas Un PDF ne contient même pas d'informations sur l'endroit où l'on se trouve. mot se termine et un autre commence, et encore moins des choses comme les pauses douces ou les pauses dures pour les fins de paragraphe.
(Quelques PDF récents stockent des informations à ce sujet, mais il s'agit d'une nouvelle technologie et vous auriez de la chance de trouver des PDF de ce type. Et même si c'était le cas, votre lecteur de PDF ne le saurait peut-être pas).
Quoi qu'il en soit, c'est à votre logiciel de mettre en œuvre une sorte d'"intelligence artificielle" pour extraire, simplement à partir de l'emplacement des caractères individuels, ce qui constitue un mot, un paragraphe, etc. Différents logiciels y parviendront mieux que d'autres, et cela dépendra également de la manière dont le PDF a été créé. Dans tous les cas, vous devez jamais s'attendre à des résultats parfaits. Avoir le PDF de sortie n'est pas la même chose que d'avoir le document source. Il est préférable d'essayer de l'obtenir si vous le pouvez.
La solution standard à ce type de problème est d'utiliser Adobe Acrobat Professional (le logiciel coûteux, pas le lecteur gratuit) pour convertir le PDF en HTML. Même cette méthode ne permet pas d'obtenir des résultats parfaits.
Il existe des logiciels gratuits qui permettent d'extraire du texte des PDF en conservant une partie du formatage, mais là encore, il ne faut pas s'attendre à des résultats parfaits. Voir par exemple calibre (qui peut convertir au format RTF), pdftohtml/pdfreflow ou le Traitement de texte AbiWord (avec tous les plugins d'importation/exportation activés). Il existe également un plugin d'importation PDF pour OpenOffice.
Mais ne vous attendez pas à ce que ces résultats soient parfaits. Vous allez à contre-courant. Le format PDF n'est pas conçu comme un format d'entrée modifiable.