3 votes

Que faire face aux agents utilisateurs usurpés ? Scrapers se faisant passer pour des araignées

J'ai suivi quelques araignées dans nos journaux et j'ai fait un traceroute sur leur ip pour découvrir qu'il s'agit en fait d'instances EC2. Les agents utilisateurs sont répertoriés comme Google bot et msnbot mais ce ne sont pas les ip de Google ou MS. Y a-t-il quelque chose que je puisse faire ? L'usurpation d'agents utilisateurs est-elle une pratique courante ? Je suppose que si je bannis leur IP (ce que j'ai fait), ils vont simplement créer une nouvelle instance et continuer. Mais je ne veux pas interdire toutes les instances EC2.

5voto

Shane Madden Points 112034

Si vous commencez vraiment à fouiller dans les journaux, vous constaterez qu'un grand nombre de robots usurpent l'en-tête, la plupart d'entre eux se faisant passer pour IE (parfois sans succès ; les fautes de frappe font vite repérer votre chaîne d'agents !)

Une expérience intéressante de l'EFF porte sur l'identification unique des utilisateurs à l'aide des données présentées par le navigateur : Panopticlick . Recueillir plus d'informations au niveau de l'application pour tenter de la bloquer pourrait vous permettre d'avancer, car les nœuds qui ne sont pas des navigateurs ne renverront pas certains de ces champs.

Mais, de la même manière que le blocage de leurs IP a peu de chances de fonctionner longtemps, tenter de bloquer en fonction de l'agent utilisateur (ou de tout autre critère unique) a peu de chances de fonctionner longtemps s'ils sont déterminés à vous pirater. En fin de compte, il ne vaut pas la peine de consacrer du temps ou de l'énergie à essayer de bloquer tous les robots malveillants sur le net ; il suffit de configurer votre fichier robots.txt, de garder un œil sur les méchants qui tentent de vous attaquer avec une injection SQL ou autre, et de vous reposer sur vos lauriers.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X