Je ne sais pas comment votre site est structuré, mais en effet wget
Vous pouvez le faire, il y a des tonnes d'exemples pour le faire dans le manuel. Il y a une petite note sur --requisite
Cela dépend donc de la structure de votre site web. Je n'ai jamais eu de problème d'aspiration et je peux difficilement indiquer le "correctif".
D'habitude, je fais quelque chose comme ça :
wget \
--recursive \
--no-clobber \
--page-requisites \
--adjust-extension \
--convert-links \
--restrict-file-names=unix \
--domains <DOMAIN> \
--no-parent \
<URL>
Vous pouvez également essayer avec --mirror
:
wget \
--mirror \
--no-clobber \
--page-requisites \
--adjust-extension \
--convert-links \
--restrict-file-names=unix \
--domains <DOMAIN> \
--no-parent \
<URL>
Pour finir, si vous avez des fichiers dont le nom se trouve dans les en-têtes "Content-Disposable". (domaine.com/something_that_returns_a_file.php par exemple). Vous pouvez essayer de les utiliser si votre version le permet. Vous pouvez les utiliser en même temps.
--content-disposition
--metalink-over-http
--trust-server-names
Si certaines redirections vous posent problème, par exemple en vous ramenant à la page d'accueil et en lançant ensuite le téléchargement, vous pouvez définir l'option --max-redirect=0
.
La note du manuel est un peu longue à mettre ici entièrement mais elle commence comme ça :
Normalement, lors du téléchargement d'une seule page HTML, tous les documents nécessaires à l'exécution de l'opération. documents nécessaires pour l'afficher correctement ne sont pas téléchargés. L'utilisation de -r avec -l peut aider, mais comme Wget ne fait pas habituellement la distinction entre les documents externes et les documents intégrés, on se retrouve généralement avec des "documents feuilles" auxquels il manque les documents requis.
Par exemple, disons que le document 1.html contient une balise "". faisant référence à 1.gif et une balise "" pointant vers le document externe 2.html. Disons que le document 2.html est similaire mais que son image est 2.gif et qu'il est lié à 3.html. Disons que cela continue jusqu'à jusqu'à un nombre arbitrairement élevé.