6 votes

Que se passe-t-il si un site web n'a pas de fichier robots.txt ?

Si le robots.txt est manquant dans le répertoire racine d'un site web, comment les choses sont-elles traitées comme :

  1. le site n'est pas du tout indexé
  2. le site est indexé sans aucune restriction

Il devrait logiquement être le deuxième selon moi. Je pose la question en référence à cette question .

8voto

tim Points 828

L'objectif d'un robots.txt est de garder les robots d'indexation sortir de certaines parties de votre site web. Si vous n'en avez pas, tout votre contenu sera indexé.

Le premier commentaire sur cette question Meta laissait entendre que la robots.txt existait mais était inaccessible (pour une raison quelconque), plutôt que de ne pas exister du tout. Il s'agit d'un pourrait causer des problèmes aux robots d'indexation, mais ce n'est qu'une spéculation.

Je n'ai pas de robots.txt sur mon blog (installation Wordpress auto-hébergée) et il est indexé.

7voto

BMDan Points 7059

Robots.txt est une convention strictement volontaire entre les moteurs de recherche ; ils sont libres de l'ignorer ou de l'appliquer comme ils l'entendent. Ils sont libres de l'ignorer ou de l'appliquer comme ils l'entendent. Cela dit, à l'exception de l'occasionnel spider qui cherche des adresses électroniques ou autres, ils le respectent pratiquement tous. Son format et sa logique sont très, très simples, et la règle par défaut est allow (puisque vous ne pouvez que dis permettre). Un site qui n'a pas de fichier robots.txt sera entièrement indexé.

2voto

weeheavy Points 4019

Le fichier robots.txt est totalement facultatif. Si vous en avez un, les robots d'indexation respectant les normes le respecteront, si vous n'en avez pas, tout ce qui n'est pas interdit dans les éléments HTML-META ( Wikipedia (en anglais) ) est explorable.

1voto

karmawhore Points 3865

Je n'ai pas eu de robots.txt sur des dizaines de domaines que j'ai fait enregistrer, certains depuis 1994, et je n'ai jamais eu de problème pour qu'ils soient placés dans google/yahoo, etc.

Même mon site personnel reçoit 150-200 utilisateurs par jour de Google, et n'a pas de fichier robots.txt.

(J'adore l'exigence des trois minutes de pause entre les réponses aux questions. Prochainement, j'aurai le robot captcha. Parfois, cela ne vaut pas la peine d'essayer d'être utile).

1voto

KristoferA Points 8036

Le site sera indexé sans limites. Les spiders suivront tout ce qu'ils trouveront. Je ne pense pas que vous souhaitiez cela. Certains robots, comme Baidu, peuvent être très agressifs à cet égard. Ils peuvent même évaluer les urls dans les codes javascript.

Voici des informations détaillées. http://www.robotstxt.org/orig.html

ps. vous aurez aussi beaucoup de logs 404 dans votre serveur web. c'est aussi un inconvénient lors de la lecture des logs. & n'oubliez pas de mettre le fichier favicon.ico. C'est un autre fichier stupide que tous les navigateurs exigent sur chaque page.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X