Comment extraire tous les liens PDF d'un site web ?

Question

Comment extraire tous les liens PDF d'un site web ?

Demandé el 24 de Décembre, 2013: Quand la question a-t-elle été
20896 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

C'est un peu hors sujet, mais j'espère que vous allez m'aider. J'ai trouvé un site web rempli d'articles dont j'ai besoin, mais ceux-ci sont mélangés avec beaucoup de fichiers inutiles (principalement des jpgs).

J'aimerais savoir s'il existe un moyen de trouver ( ne pas télécharger ) tous les PDFs sur le serveur pour faire une liste de liens. En gros, je voudrais simplement filtrer tout ce qui n'est pas un PDF, afin d'avoir une meilleure vue sur ce qu'il faut télécharger ou non.

Demandé el 24 de Décembre, 2013 par Jesko Hüttenhain

Answer 1

2 Réponses

Answer 2

15voto

Glutanimate Points 20429

Vue d'ensemble

Ok, c'est parti. Il s'agit d'une solution programmatique sous la forme d'un script :

#!/bin/bash

# NAME:         pdflinkextractor
# AUTHOR:       Glutanimate (http://askubuntu.com/users/81372/), 2013
# LICENSE:      GNU GPL v2
# DEPENDENCIES: wget lynx
# DESCRIPTION:  extracts PDF links from websites and dumps them to the stdout and as a textfile
#               only works for links pointing to files with the ".pdf" extension
#
# USAGE:        pdflinkextractor "www.website.com"

WEBSITE="$1"

echo "Getting link list..."

lynx -cache=0 -dump -listonly "$WEBSITE" | grep ".*\.pdf$" | awk '{print $2}' | tee pdflinks.txt

# OPTIONAL
#
# DOWNLOAD PDF FILES
#
#echo "Downloading..."    
#wget -P pdflinkextractor_files/ -i pdflinks.txt

Installation

Vous devez avoir wget y lynx installé :

sudo apt-get install wget lynx

Utilisation

Le script obtiendra une liste de toutes les .pdf sur le site web et de le transmettre à la sortie de la ligne de commande et à un fichier texte dans le répertoire de travail. Si vous commentez l'option "facultative" wget le script procédera au téléchargement de tous les fichiers dans un nouveau répertoire.

Exemple

$ ./pdflinkextractor http://www.pdfscripting.com/public/Free-Sample-PDF-Files-with-scripts.cfm
Getting link list...
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/JSPopupCalendar.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/ModifySubmit_Example.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/DynamicEmail_XFAForm_V2.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/AcquireMenuItemNames.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/BouncingButton.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/JavaScriptClock.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/Matrix2DOperations.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/RobotArm_3Ddemo2.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/SimpleFormCalculations.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/TheFlyv3_EN4Rdr.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/ImExportAttachSample.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/AcroForm_BasicToggle.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/AcroForm_ToggleButton_Sample.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/AcorXFA_BasicToggle.pdf
http://www.pdfscripting.com/public/FreeStuff/PDFSamples/ConditionalCalcScripts.pdf
Downloading...
--2013-12-24 13:31:25--  http://www.pdfscripting.com/public/FreeStuff/PDFSamples/JSPopupCalendar.pdf
Resolving www.pdfscripting.com (www.pdfscripting.com)... 74.200.211.194
Connecting to www.pdfscripting.com (www.pdfscripting.com)|74.200.211.194|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 176008 (172K) [application/pdf]
Saving to: `/Downloads/pdflinkextractor_files/JSPopupCalendar.pdf'

100%[===========================================================================================================================================================================>] 176.008      120K/s   in 1,4s    

2013-12-24 13:31:29 (120 KB/s) - `/Downloads/pdflinkextractor_files/JSPopupCalendar.pdf' saved [176008/176008]

...

Répondu el 24 de Décembre, 2013 par Glutanimate (20429 Points )

Answer 3

6voto

sgx1 Points 902

Un simple extrait de javascript peut résoudre ce problème : (NOTE : je suppose que tous les fichiers pdf se terminent par .pdf dans le lien).

ouvrez la console javascript de votre navigateur, copiez le code suivant et collez-le dans la console js, terminé !

//get all link elements
var link_elements = document.querySelectorAll(":link");

//extract out all uris.
var link_uris = [];
for (var i=0; i < link_elements.length; i++)
{
    //remove duplicated links
    if (link_elements[i].href in link_uris)
        continue;

    link_uris.push (link_elements[i].href);
}

//filter out all links containing ".pdf" string
var link_pdfs = link_uris.filter (function (lu) { return lu.indexOf (".pdf") != -1});

//print all pdf links
for (var i=0; i < link_pdfs.length; i++)
    console.log (link_pdfs[i]);

Répondu el 24 de Décembre, 2013 par sgx1 (902 Points )

Comment extraire tous les liens PDF d'un site web ?

Réponses

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Comment extraire tous les liens PDF d'un site web ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: