Pasar al contenido principal
13.02

Filtran el código fuente de Yandex, la comunidad SEO se recrea

leak_yandex

Apenas comienza el año 2023 y un hecho agita al mundo del SEO: el descubrimiento de una falla en Yandex, el famoso buscador ruso. Os ofrecemos una mirada retrospectiva sobre una oportunidad excepcional para la comunidad SEO, llena de apasionados debates y áreas grises y contradictorias.

La filtración

BreachForums, 25 de enero de 2023. Un día como otro cualquiera para el foro de discusión, famoso por sus diversas filtraciones de información confidencial y contenidos ilegales. Sin embargo, la plataforma está a punto de recibir la contribución de un usuario anónimo que creará una expectación pocas veces igualada en el mundo del SEO.

Apareció un nuevo hilo con el título "yandex git sources". La descripción se resumía en tres breves líneas y un misterioso enlace a lo que aparentemente era el código fuente del buscador Yandex.

Algunos expertos en SEO arriesgan y se lanzan de cabeza al enlace. Descubren un código voluminoso y poco a poco van descifrando sus líneas. El análisis da como resultado una biblioteca vertiginosa de criterios de relevancia utilizados por el algoritmo de Yandex. Lo que originalmente parecía un cutre clickbait se convierte en un caso que ya se considera como el mayor avance en la comprensión de los algoritmos de los motores de búsqueda.

¿Qué es Yandex ?

Creado en Moscú en 1997 (un año antes que Google) como uno de los primeros buscadores adaptados al idioma cirílico, Yandex cuenta históricamente con una cuota de mercado mayoritaria en el país donde nació (Rusia) y en determinados países miembros de la antigua URSS (CEI). Como motor de búsqueda mejor equipado para comprender las especificidades de la lengua y la cultura eslavas, el buque insignia de la tecnología rusa está aprovechando su influencia local para ascender al tercer lugar en el ranking de participación de mercado mundial después de Google (91,88 %) y Bing (3,19 %) (StatCounter, junio de 2022).

distribución mundial Google Yandex

Google y Yandex tienen muchas cosas en común. Ambas son el orgullo nacional de sus respectivos países, y esto no es un eufemismo. Se encuentran entre las entidades de medios más grandes del mundo por las herramientas que ofrecen, como mensajería instantánea, aplicaciones de mapas, almacenamiento, fotos, videoconferencias y muchas otras. Yandex llega incluso a explotar mercados adaptados a sus usuarios locales, como cuando se asoció con Uber para fundar Yandex.Taxi en 2017. Otro ejemplo es el servicio de pago en línea Yandex.Money, cuyo objetivo es jugar con la proximidad para minimizar la influencia de competidores internacionales como PayPal.

Yandex está jugando con la veteranía y el acercamiento cultural con sus usuarios de habla rusa para hacer frente a la competencia extranjera. Y esta estrategia está dando sus frutos, ya que entre febrero de 2021 y febrero de 2022, Yandex ha gestionado el 45% de las solicitudes procesadas en el país (frente al 52% del gigante americano) (StatCounter, 2022). Pero la invasión rusa de Ucrania a principios de 2022 pone en entredicho el futuro de la sociedad desde un punto de vista ético, político y económico.

Hipótesis sobre las causas de la filtración

El exilio de muchos talentos tecnológicos rusos y las sanciones económicas están golpeando duramente a Yandex, hasta el punto de que su fundador Arkady Volozh (también condenado económicamente a nivel internacional) abandonó oficialmente el barco el 30 de diciembre de 2022. Será reemplazado por alguien cercano al Kremlin, Alexei Kudrin. Parece que un ex empleado anónimo, con intención de protesta, habría hecho pública esta filtración. Esta versión se ve alentada por la declaración oficial de Yandex: "Yandex no ha sido pirateado. Nuestro servicio de seguridad ha encontrado fragmentos de código de un depósito interno de dominio público […] Estamos realizando una investigación interna sobre los motivos de la publicación de fragmentos de código fuente, pero no vemos ninguna amenaza para los datos de los usuarios o el rendimiento de la plataforma".

¿En qué ha consistido el leak ?

La filtración incluye un documento de 44,70 GB que no es más que un gran fragmento de código perteneciente a varios servicios gigantes como Yandex.Search (motor de búsqueda), Yandex.Maps, Alice (AI), Yandex.Taxi, Yandex.Direct (publicidad en la red), Yandex.Mail, Yandex.Disk (almacenamiento de datos en línea), Yandex.Market (mercado), Yandex.Travel (plataforma de viajes), Yandex360 (servicio de espacios de trabajo), Yandex Cloud, Yandex Pay (pago en línea) y Yandex Metrika (análisis y visualización de datos).

Infografía sobre los servicios de Yandex

A pesar de su tamaño, el archivo data de julio de 2022 y está lejos de estar completo debido a la ausencia de reglas antispam. Sin embargo, enumera una biblioteca impresionante de 1922 criterios para calificar la relevancia de una página para una consulta determinada, incluyendo:

• Antigüedad de los backlinks

• Tráfico y cuota de tráfico orgánico

• Presencia de números en las URLs

• Número de subdirectorios en terminaciones de URL

• Optimización de código

• Calidad del rastreo (número de errores 40x y 50x)

• Antigüedad de la página y fecha de actualización

• Nivel de profundidad (hasta 3)

• Páginas huérfanas de menor rango

• Enlaces desde la página de inicio más fuertes que desde otras páginas

• Porcentaje de letras mayúsculas en una etiqueta de título

• La calidad del texto del sitio (las páginas de mala calidad tienen impacto en todo el sitio)

Y muchas referencias más.

Cabe señalar que a pesar de que la primera cifra transmitida por la comunidad de SEO es de 1922 factores descubiertos, en realidad estos solo representan una fracción real de lo que está presente en el leak. De hecho, el origen de este número proviene de las primeras estimaciones hechas públicas por Martin MacDonald a partir de un único archivo web_factors_info/factors_gen.in. Una exploración más profunda de todo el directorio revela una gran cantidad de archivos adicionales con otros subconjuntos y factores de clasificación SEO. Actualmente, el total es de 17.854 factores identificables en torno a métricas amplias, como clics, tiempo de permanencia (tiempo que un usuario pasa en una página determinada antes de regresar a la SERP) o incluso datos de Yandex.Metrica.


Una bendición para la comprensión general de los motores de búsqueda

A diferencia de los motores de búsqueda como Qwant, que necesita tecnologías de Microsoft/Bing para alimentar sus resultados, Yandex puede presumir de tener sus propias tecnologías, bases de datos y algoritmos. Pero el descubrimiento de esta filtración es una gran ayuda para comprender otros motores de búsqueda como el de Google.

Google y Yandex han sido dos mastodontes en competencia durante casi 15 años. Ambas entidades están a la vanguardia de la innovación y no es raro que algunos de sus empleados más importantes hayan tenido experiencia en ambas empresas. Además, el mundo del SEO es pequeño. Sus respectivos ingenieros se conocen y discuten sus prácticas en conferencias internacionales. Finalmente, Yandex utiliza abiertamente tecnologías de código abierto de Google que han contribuido al desarrollo de muchas innovaciones algorítmicas como BERT (Performance in Natural Language Processing).

Estos intercambios se reflejan en la arquitectura del motor de búsqueda de Yandex, que finalmente comparte una serie de puntos en común con Google, hasta el punto de que algunos expertos avanzan una estadística no verificable con una tasa del 70% de SERP similares entre los dos motores de búsqueda.

dos gigantes de los motores de búsqueda

Poniendo la filtración en perspectiva

A pesar de sus similitudes y de la emulación que suscita esta competencia, es importante tener en cuenta que Yandex no es Google. La razón principal sigue siendo la dimensión local del motor de búsqueda ruso, cuyo objetivo sigue siendo fortalecer su notoriedad entre los usuarios de habla rusa. Este desfase con la influencia global de Google conlleva una adaptación de los criterios de referenciación y por tanto una diferenciación por defecto.

Además, la comparación de los dos gigantes sigue siendo por el momento un espejismo porque Google no ha publicado ninguna información sobre sus propios criterios de referencia o sobre sus niveles de importancia. Por lo tanto, establecer paralelismos significa comparar datos concretos con hipótesis establecidas a lo largo de los años por la comunidad de SEO y destiladas por los ingenieros de Google. Y al no tener ninguna información sobre el corazón de cada motor (es decir, el algoritmo), equivale a comparar ingredientes sin aplicar la receta. (Ver Olivier Andrieux)

También es necesario tener en cuenta la creciente influencia política del Kremlin dentro de la sociedad que incrementa cada vez más los factores que pueden sesgar los resultados de la SERP con fines propagandísticos. Más allá del nombramiento de un nuevo CEO cercano al poder en la persona de Alexei Kudrin, podemos identificar criterios específicos para Ucrania (sitio en .ua, solicitud en idioma ucraniano, rango de página específico). Asimismo, según una encuesta emitida por el medio Meduza en mayo de 2022, Yandex favorecería en sus resultados y sus noticias una lista secreta de medios pro-Kremlin, aprobada por la administración presidencial de Rusia.

Kremlin

Finalmente, un último detalle también puede inclinar la balanza para la comparación imposible: la antigüedad de los datos filtrados, que datan de julio de 2022. De hecho, mientras Google actualiza regularmente su motor de búsqueda varias veces al año, lo mismo ocurre con Yandex, que dijo tras la filtración: "Nuestro servicio de seguridad ha encontrado fragmentos de código de un repositorio interno en el dominio público, pero el contenido difiere de la versión actual del repositorio utilizado en los servicios de Yandex".

Para concluir más allá de recordar que las mayores brechas de seguridad cibernética son provocadas sobre todo por el comportamiento humano, lo mismo ocurre con la interpretación de cualquier forma de datos. Querer comparar Yandex y Google a través de una fuga sin la intervención de un ingeniero de Google/Yandex no puede dar resultados concluyentes.

Sin embargo, este análisis ofrece interesantes oportunidades para la reflexión sobre nuestra forma de diseñar criterios de referencia. Asimismo, abren interesantes perspectivas sobre futuras pruebas que podrán ser medidas y, si es necesario, incluidas en la mejora continua de nuestra comprensión de los motores de búsqueda.

Eventos de alto impacto como este sin duda darán forma a las acciones de SEO del mañana. ¿Quieres implementar o actualizar tu estrategia SEO en consecuencia? Entonces tenemos que hablar.

By Stéphane Auroux, Consultor SEO

Creamos experiencias 

que fortalecen tu marca 

y hacen crecer tu negocio.​

¡Conócenos​!