Paume faciale : En tant que quatrième moteur de recherche au monde, Yandex est un véritable géant de la technologie proposant de nombreux services numériques ou augmentés numériquement. La société a été impliquée dans un incident de sécurité récent, qui fournira des résultats intéressants pour le marché du référencement au moins.

Près de 50 gigaoctets de données volées des services Yandex ont récemment été partagées en ligne. La société essaie de minimiser la fuite, mais le code source partagé via torrent peut révéler de nombreuses informations utiles sur le fonctionnement réel de ses services – et du moteur de recherche Web en particulier.

La fuite s’est produite le 25 janvier et concernait un liste de fichiers qui ont apparemment été volés en juillet 2022 dans un dépôt datant de février 2022 – le mois où la Russie a commencé son invasion à grande échelle de l’Ukraine. Le torrent ne semble pas contenir de données (ou de binaires prédéfinis), à l’exception du code source de tous les principaux services Yandex, y compris le moteur de recherche avec son robot d’indexation, Maps (la version russe de Google Maps et Street View), Uber- comme le service Taxi, Mail, Market (alternative Amazon), la plateforme cloud et bien plus encore.

Selon l’ingénieur logiciel Arseniy Shestakov, la fuite est un gros problème. “Imaginez une entreprise” capable de remplacer à la fois Google, Uber, Amazon, Netflix et Spotify, le codeur m’a dit. La fuite est également légitime, car Shestakov s’est entretenu avec différentes personnes qui travaillaient dans l’entreprise (ou y travaillent encore) et a déclaré que certaines des archives contiennent du “code source moderne” pour les services Yandex et de la documentation pointant vers de véritables URL intranet.

2023 01 31 image 10

L’une des facettes les plus intéressantes – et potentiellement dommageables – de la fuite est le code source du moteur de recherche Yandex, à savoir les facteurs de classement utilisés par l’algorithme pour fournir des résultats aux requêtes de recherche des utilisateurs. Les listes de fuites 1 922 facteurs de classement uniquesdont la majorité sont marquées comme “obsolètes” et ont probablement été remplacées dans les versions les plus récentes du code Yandex.

Le premier facteur de classement utilisé par le moteur de recherche russe est “PAGE_RANK”, qui est une référence claire à l’algorithme le plus important utilisé par Google pour classer les pages Web. En ce qui concerne la propre recherche Web de Yandex, l’algorithme divulgué semble favoriser les pages qui ne sont pas trop anciennes, ont beaucoup de trafic organique (c’est-à-dire des visiteurs uniques), sont optimisées pour le code et sont hébergées sur des serveurs fiables ou sont des pages Wikipedia.

La fuite de Yandex offre sûrement beaucoup d’informations aux professionnels du référencement sur le fonctionnement réel d’un moteur de recherche de classe mondiale, même si les implications en matière de sécurité ne devraient pas être si intéressantes. Shestakov a déclaré qu’aucune donnée personnelle n’était impliquée et que les quelques clés API n’avaient probablement été utilisées que pour les tests.

de Yandex communiqué de presse officiel à propos de l’incident a déclaré que les fragments de code divulgués sont “obsolètes et diffèrent de la version actuellement utilisée” par ses services, tandis que certains des fragments publiés “n’ont jamais été réellement utilisés dans les opérations”.

La société enquête toujours sur l’incident apparemment politiquement motivé et prendra toutes les mesures possibles pour améliorer sa surveillance de la gestion afin qu’il n’y ait plus de fuites à l’avenir.