Le secret des algorithmes de Google est l’un des mieux gardés sur Web. Cependant, une récente fuite de données serait sur le point de mettre à mal le mystère que l’entreprise laisse planer sur son moteur de recherche.
Depuis 1998, Google est une pointure incontestée de la recherche sur Internet. En moins de 30 ans, la firme de Mountain View s’est imposée comme une référence en la matière, et aujourd’hui, des millions d’entreprises à travers le monde dépendent des résultats qui s’affichent au sein de son moteur. Cela donne à Google un grand pouvoir et l’entreprise ne se justifie quasiment jamais sur ses choix en matière de critères de référencement.
Les mystères de Google bientôt révélés ?
L’algorithme du moteur de recherche de Google est au cœur de nombreuses convoitises, car en percer les mystères pourrait bien aider les experts SEO à mieux contrôler le référencement de leurs sites. Et malheureusement pour Google, il semblerait que son algorithme soit actuellement en danger.
En effet, Rand Fishkin, un expert reconnu dans le domaine du référencement, a récemment annoncé que des milliers de documents de Google en lien avec la division Recherche de l’entreprise avaient fuité ces dernières semaines.
Fishkin a révélé cette information cette semaine, expliquant avoir reçu un mail le 5 mai dernier, venant d’une personne « qui prétendait avoir accès à une énorme fuite de documentation API de l’intérieur de la division Search de Google », explique-t-il sur son site.
Les documents en question auraient même été authentifiés par d’anciens employés de Google, qui en auraient même profité pour fournir des informations supplémentaires sur les opérations de recherche de l’entreprise. Puis, le 28 mai, dernier, l’auteur du leak a décidé de se présenter publiquement : il s’agit d’Erfan Azimi, le fondateur d’EA Eagle Digital, lui aussi expert SEO.
Une fuite venant d’une erreur de Google
Les documents en question contiennent notamment une liste de 14 000 de critères de référencement appliqués par Google. Cela permettrait à l’entreprise de déterminer quels sites ont le droit d’apparaître dans les premières pages de résultats.
Mais ce n’est pas tout : on y apprend aussi que NavBoost, un système de re-ranking basé sur les clics des internautes, est présenté comme étant déterminant dans l’établissement du classement. Google utilise aussi des listes blanches pour les sites Web traitant de sujets sensibles, une démarche que l’entreprise aurait mise en place pendant la pandémie de Covid-19.
Par ailleurs, c’est une publication réalisée par Google, par erreur, sur la plateforme GitHub qui serait à l’origine de la fuite. 2500 pages de documentation API qui seraient restées en ligne entre le 27 mars et le 7 mai, mais qui n’auraient pas beaucoup attiré l’attention à part celle d’Erfan Azimi.
La réponse de Google minimise la fuite
Google aura mis quelques jours avant de répondre à ce que beaucoup appellent le « Google Leak ». C’est auprès du média américain The Verge que l’entreprise a confirmé la fuite de données. Elle considère que la majorité des documents qui ont fuité sont « obsolètes » et « manquent de contexte », et qu’il ne faut donc pas les prendre comme pertinents aujourd’hui.
La communauté du SEO est aujourd’hui très divisée concernant l’utilité des informations divulguées, et la manière dont elles pourraient influencer le référencement sur Google à l’avenir. Beaucoup d’experts jugent les documents fuités potentiellement instructifs concernant les méthodes mises en place par l’entreprise, mais l’impact réel sur les résultats de recherche au sein du moteur de Google reste encore clairement à déterminer.