4 votes

Comment sauvegarder un blog en cours d'exécution sur posterous.com

Je voudrais sauvegarder le contenu de mon blog qui est alimenté par posterous.com. J'aimerais sauvegarder tous les textes et images sur le disque local. La possibilité de naviguer hors ligne est un plus.

Ce que j'ai déjà essayé :

wget

wget -mk http://myblogurl

Il télécharge la première page avec la liste des messages, puis s'arrête avec " 20 redirections exceeded " message.

WinHttpTrack

Il télécharge la première page en redirigeant vers la page www.posterous.com la page d'accueil au lieu du contenu réel de la page.

Edita: L'url du site que j'essaie de sauvegarder est la suivante blog.safabyte.net

1voto

Jason Pearce Points 216

Posterous.com dispose d'une API qui peut vous aider. En particulier, leur http://posterous.com/api/reading API pourrait être utile. Vous pouvez l'utiliser pour obtenir un fichier XML contenant tous vos messages et leur contenu.

Par exemple, http://posterous.com/api/readposts?hostname=jasonpearce récupère les 12 messages que j'ai postés sur Posterous.

1voto

UncleZeiv Points 9033

Cela a fonctionné pour moi :

wget -r -l inf -k -E -p -nc http://blog.safabyte.net/

Il semble que l'utilisation de -m s'allume -N (horodatage) et posterous n'envoie pas les en-têtes last modified qui dérangent wget, donc à la place j'ai juste utilisé -r -l inf directement.

Les options utilisées sont les suivantes :

-r récursif
-l inf profondeur infinie
-k suffixe des fichiers html avec .html
-E mettre à jour les fichiers enregistrés avec des liens vers des fichiers locaux
-p page de téléchargement ressources
-nc ne pas retélécharger les urls plus d'une fois

Cette commande ne télécharge toujours pas les ressources d'autres domaines, ce qui signifie qu'elle ne récupère pas les images car elles sont hébergées sur un CDN différent.

0voto

kylex Points 1291

J'ai réussi à télécharger au moins tout le contenu html. Le code suivant semble télécharger toutes les pages du blog (en utilisant Wget 1.11.3 sur Windows XP) :

wget -mk http://blog.safabyte.net/*

Les images des postes ne sont toujours pas téléchargées. Il semble que ce soit probablement parce qu'elles sont stockées sur des domaines différents.

Le contenu html se trouve sur blog.safabyte.com/* tandis que les images se trouvent sur http://posterous.com/getfile/files.posterous.com/cheated-by-safabyte/ * et files.posterous.com

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X