2 votes

De combien d'espace disque aurais-je besoin pour mettre le web en cache tout en respectant robot.txts ?

Je veux expérimenter la création d'un robot d'exploration du Web. Je vais commencer par indexer quelques sites de taille moyenne comme Stack Overflow ou Smashing Magazine. Si cela fonctionne, j'aimerais commencer à explorer le web entier. Je respecterai robot.txts. Je sauvegarde tous les documents html, pdf, word, excel, powerpoint, keynote, etc... (pas les exes, dmgs etc, juste les documents) dans une base de données MySQL. A côté de cela, j'ai une deuxième table contenant tous les résultats et les descriptions, et une table avec les mots et sur quelle page trouver ces mots (aka un index).

De combien d'espace disque pensez-vous que j'ai besoin pour sauvegarder toutes les pages ? Est-ce que c'est aussi bas que 1 TB ou est-ce que c'est environ 10 TB, 20 ? Peut-être 30 ? 1000 ?

Gracias

3voto

softcr Points 101

L'internet achive indexe le web comme vous l'avez mentionné, mais ne conserve que les sites web, pas les documents pour autant que je sache. Ils gardent les anciennes versions des sites indexés, donc leur besoin d'espace pourrait être beaucoup plus grand. Dans leur FAQ, ils parlent de 2 pétaoctets d'espace nécessaire pour cette tâche ( http://www.archive.org/about/faqs.php#9 ) et des centaines de serveurs linux, chacun contenant environ 1 To de données. Voilà quelques chiffres qui devraient vous donner une première impression.

0voto

radius Points 9485

En 2008, Google indexait 1 000 000 000 000 de pages. Si une page web est, en moyenne, 1Ko, cela fait 1000To.
Une moyenne de 1ko par page est juste une estimation très basse... il y a des PDF qui font des tailles énormes...

Bonne chance

-1voto

Rob Moir Points 31534

Je pense qu'un index seul va vous coûter en moyenne un KiloByte par page, en incluant la description, etc. Il y a beaucoup de pages là-dedans...

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X