Google veut rendre open source les robots d’indexation Web

par Yohann Poiron le 04/07/2019

Dans un effort pour faire pression en faveur d’une norme officielle pour les robots d’exploration (crawlers) Web, Google a rendu open source sa bibliothèque robots.txt d’analyse et de rapprochement avec l’espoir que les développeurs Web seront bientôt en mesure de s’entendre sur une norme pour la façon dont les crawlers Web fonctionnent en ligne.

La bibliothèque C++ est responsable de l’alimentation du propre moteur de recherche Googlebot de l’entreprise qui est utilisé pour l’indexation des sites Web en conformité avec le protocole d’exclusion des robots (REP). Grâce à REP, les propriétaires de sites Web peuvent dicter le comportement des robots d’indexation qui visitent leurs sites pour les indexer. À l’aide d’un fichier texte appelé robots.txt, les robots d’exploration Web tels que Googlebot savent quelles ressources du site Web peuvent être visitées et lesquelles peuvent être indexées.

Les règles REP ont été rédigées par le créateur du premier moteur de recherche, Martijn Koster, il y a 25 ans et depuis lors, REP a été largement adopté par les éditeurs Web, mais n’est jamais devenu une norme officielle sur Internet. Google cherche à changer cela et espère le faire en rendant l’analyseur utilisé pour décoder son fichier robots.txt open source.

Dans un billet de blog, Henner Zeller, Lizzi Harvey et Gary Illyes ont expliqué comment le fait que REP qui n’est pas une norme officielle de l’Internet a conduit à la confusion sur la façon de l’appliquer parmi les développeurs Web, en mentionnant : « Le REP n’a jamais été transformé en une norme Internet officielle, ce qui signifie que les développeurs ont interprété le protocole quelque peu différemment au fil des ans. Et depuis sa création, le REP n’a pas été mis à jour pour couvrir les cas d’utilisation d’aujourd’hui. C’est un problème difficile à résoudre pour les propriétaires de sites Web parce que la norme ambiguë de facto rendait difficile la rédaction correcte des règles ».

Faire du REP une norme

Pour aider à rendre les implémentations REP plus cohérentes à travers le Web, Google fait maintenant pression pour faire du REP une norme de l’Internet Engineering Task Force, et le géant de la recherche a même publié un projet de proposition pour aider ses efforts.

Le brouillon du projet propose d’étendre le fichier robots.txt de HTTP à n’importe quel protocole de transfert basé sur l’URI (comme le FTP et le CoAP), exigeant que les développeurs analysent au moins 500 ko d’un fichier robots.txt et un nouveau temps maximum de mise en cache de 24 heures.

« RFC signifie Request for Comments, et nous le pensons vraiment : nous avons téléchargé le projet vers l’IETF pour obtenir les réactions des développeurs qui se soucient des éléments de base de l’Internet. Alors que nous nous efforçons de donner aux créateurs Web les contrôles dont ils ont besoin pour nous dire combien d’informations ils veulent mettre à la disposition de Googlebot, et par extension, éligible pour apparaître dans Recherche, nous devons nous assurer que nous faisons bien cela », ont ajouté Zeller, Harvey et Illyes.