Je possède de nombreux PDF et j'ai besoin de télécharger tous les hyperliens qu'ils contiennent. J'ai essayé d'ouvrir le PDF dans Firefox et d'utiliser l'option "Télécharger tout", mais il arrive souvent qu'ils ne soient pas tous téléchargés. Alors, comment puis-je y parvenir ?
Réponse
Trop de publicités?Question intéressante ! Je suis partisan des utilitaires en ligne de commande lorsqu'ils sont disponibles, donc dans ce cas, j'utilise ce qui suit :
Les deux sont portables (PDFtk n'est disponible qu'en tant qu'installateur mais vous pouvez copier pdftk.exe et libiconv2.dll ailleurs et le désinstaller si vous voulez). Vous pouvez bien sûr remplacer Wget par cURL ou ce que vous voulez.
La commande suivante, exécutée à partir de la ligne de commande Windows, téléchargera tous les documents/pages liés à un PDF :
for /f "tokens=2" %l in ('pdftk Test.pdf dump_data_annots ^| find "AnnotActionURI"') do wget "%l"
Utilisez la commande suivante pour plusieurs PDF :
for %f in (*.pdf) do for /f "tokens=2" %l in ('pdftk "%~f" dump_data_annots ^| find "AnnotActionURI"') do wget "%l"