Je veux expérimenter la création d'un robot d'exploration du Web. Je vais commencer par indexer quelques sites de taille moyenne comme Stack Overflow ou Smashing Magazine. Si cela fonctionne, j'aimerais commencer à explorer le web entier. Je respecterai robot.txts. Je sauvegarde tous les documents html, pdf, word, excel, powerpoint, keynote, etc... (pas les exes, dmgs etc, juste les documents) dans une base de données MySQL. A côté de cela, j'ai une deuxième table contenant tous les résultats et les descriptions, et une table avec les mots et sur quelle page trouver ces mots (aka un index).
De combien d'espace disque pensez-vous que j'ai besoin pour sauvegarder toutes les pages ? Est-ce que c'est aussi bas que 1 TB ou est-ce que c'est environ 10 TB, 20 ? Peut-être 30 ? 1000 ?
Gracias