51 votes

Comment convertir une page web en PDF en préservant son aspect (exactement comme dans le navigateur web) et le texte/les liens ?

Je cherche un moyen de convertir une page web en PDF, tout en préservant l'aspect de la page web. Je cherche un moyen de convertir une page web en PDF, en conservant l'aspect de la page web et en préservant le texte de la page web (sélectionnable) et la possibilité d'effectuer des recherches [la génération d'une capture d'écran de la page web rendrait le texte non sélectionnable et non consultable].

Je cherche à imprimer la page web en PDF telle quelle (comme sur le navigateur web) sans aucune manipulation sur le style ou l'alignement, ni perte des composants statiques de la page web.

Cela permettrait de conserver des copies hors ligne de pages web facilement lisibles, annotables et consultables.


Il n'est pas nécessaire de lire ce qui suit (la question ne porte que sur la section ci-dessus). pour répondre à ma question. La section suivante n'est qu'une liste de ce que j'ai obtenu par le biais de recherches ou de réponses d'autres personnes, de manière imbriquée, afin de parvenir à une réponse à la question.

Résultats de la recherche (suggestions qui n'ont pas résolu mon problème)

Résultats obtenus jusqu'à présent en essayant de trouver une solution (Tout ne fonctionne toujours pas comme solution pour cette question)

J'ai essayé ces moteurs d'impression web PDF mais tous manipulent l'aspect des pages, plus même dommageables et rendant certaines difficilement lisibles : ( Exemple de page les captures d'écran sont incluses entre crochets)

  • Chrome [ Original Styles d'impression ( Handicapés non désactivé )]
  • Firefox [ Original Styles d'impression (désactivés) p1 , p2 | non désactivé p1 , p2 )]
  • Lisibilité
    • Il simplifie la page web (ce qui est une bonne chose pour une lecture ciblée - cependant, ce n'est pas ce que je recherche). Je cherche à conserver toutes les propriétés de positions/styles de la page web telles qu'elles sont vues sur le navigateur web dans un format PDF sans aucune manipulation.
  • Foxit Reader
  • NovaPDF
  • CutyCapt [ Original , Facteur de zoom : 0,4 : Captures d'écran, PDF de sortie]
    • J'ajouterai des liens lorsque j'aurai résolu les problèmes de fonctionnement du programme sous Windows".
  • wkhtmltopdf [ Original , Facteur de zoom : 0,4 : Captures d'écran , PDF édité ]
    • Il ne supporte pas le CSS3.

Tous les plugins de capture d'écran de page web (par ex. Enlèvement , Capture d'écran impressionnante , Coup de feu , Outil de développement de captures d'écran pour Firefox , Capture d'écran pleine page , Page2Images , capture web ...) ne répondent pas à ma question, parce qu'ils n'ont pas préserver le texte et les liens .

Scrible est un excellent moyen de préserver les pages web en l'état en vue d'annotations et de recherches ultérieures, mais il est malheureusement toujours en ligne et n'est pas converti au format PDF.

Il y a deux autres questions sur la communauté qui sont en quelque sorte similaires à la mienne, mais celle-ci est un peu différente, mais avec ces distinctions importantes :

Plus Questions similaires où la préservation du texte et des liens n'est pas obligatoire (les pages sont capturées en tant que captures d'écran d'images pour la plupart) :


Notes

OS : Windows 10

11voto

sebisnow Points 217

Nous avons été confrontés au même problème dans le cadre d'un projet universitaire et nous avons pu le résoudre grâce à

wkhtmltopdf

Nous avons beaucoup apprécié les capacités de cet outil en ligne de commande. Nous l'avons également appelé en utilisant du code Python pour rendre l'état actuel des pages web. Il a l'option de livrer la page web au format pdf, qui n'est généralement pas parfait pour préserver la vue du site web en raison du formatage de la page (A4 par exemple), ou au format png (qui préserve la vue de la page mais pas les liens).

Il y a aussi le projet readability(for Python:pypi.Python.org/pypi/readability-lxml) que nous avons utilisé et qui fait la suppression des publicités et la détection du contenu assez bien (par exemple pour les articles de journaux et autres). Si vous souhaitez simplement un addon ou une extension pour votre navigateur, l'implémentation suivante de readability pourrait répondre à vos besoins :

Hors ligne maintenant : https://www.readability.com/addons/

Lien WaybackMachine : https://web.archive.org/web/20160308192045/https://readability.com/addons

6voto

Sassy Llama Points 46

J'ai vraiment eu du mal avec cette question et j'ai essayé la plupart des outils mentionnés jusqu'à présent. J'ai obtenu les meilleurs résultats en utilisant le mode "headless" de Chrome. La commande sur MacOS ressemblerait à ceci :

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080

La meilleure liste d'options de ligne de commande que j'ai trouvée est la suivante aquí .

Toutefois, cela n'a pas été sans poser de problèmes. En particulier, mes pages sont très chargées en javascript et je ne pouvais pas faire en sorte que la fonction d'impression attende la fin de l'exécution du javascript. l'exécution. Ma sortie ne contenait donc pas les images.

La solution que j'ai trouvée est un paquet nodeJS : chrome-headless-render-pdf . Le peu de documentation dont il dispose est aquí . Il fonctionne et il est facilement scriptable.

6voto

nmhung1985 Points 71

Apporter une autre réponse pour les utilisateurs potentiels. Dans Firefox, il y avait un addon "Imprimer les pages en PDF". Vous pouvez rechercher sa dernière version 0.1.9.3 (fonctionne sur les versions pré-Quantum uniquement).

Il existe actuellement un addon pour Chrome et Firefox qui fonctionne très bien : PDFMage

  • Enregistrer toutes les images dans la page
  • Le texte est généré en tant que texte et non en tant qu'image, ce qui vous permet de rechercher du texte dans le PDF généré.
  • Préserver les hyperliens
  • Possibilité d'enregistrer une longue page web en tant que PDF d'une page (afin que les images ne soient pas réparties entre les pages).

3voto

user726167 Points 31

J'ai eu le même problème et je l'ai résolu avec Chrome et un pilote d'imprimante gratuit appelé PDF995. Il fait partie d'une suite d'utilitaires PDF ; le site web de l'éditeur est le suivant http://www.pdf995.com/ .

Cependant, je pense que n'importe quel navigateur web et n'importe quel convertisseur pdf suffiront. Quoi qu'il en soit, voici ce que j'ai fait :

  1. sélectionner tout ou surligner tout.

  2. Cliquez avec le bouton droit de la souris sur la sélection mise en évidence ou appuyez sur Ctrl+P (les deux options donnent des résultats légèrement différents, mais vous obtenez le même résultat une fois l'opération terminée).

  3. Si vous avez fait un clic droit sur 2. la sélection (raccourci), cliquez sur "imprimer" et seul ce que vous avez sélectionné apparaîtra dans l'aperçu avant impression. Veillez à modifier la destination de votre imprimante en fonction du convertisseur PDF que vous décidez d'utiliser (PDF995 ou autre).

  4. Cliquez sur "imprimer" et le document est enregistré au format pdf.

  5. Si vous avez appuyé sur Ctrl+P en 2. (la méthode un peu plus longue), cliquez sur "Plus de paramètres" et descendez jusqu'à "Options".

  6. Cliquez sur la case "Sélection uniquement" et tout ce que j'ai décrit dans le raccourci suivra.

  7. N'oubliez pas de modifier la destination de votre imprimante en fonction du convertisseur pdf que vous avez choisi (PDF995 ou autre).

  8. Cliquez sur "imprimer".

2voto

mcxiaoke Points 98

Si vous êtes sous Linux, essayez ce petit outil en ligne de commande CutyCapt qui ne dépend que de Qt et de QtWebkit, et qui exporte au format PDF.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X