5/27/2008

Para curiosos de Google: algo más que PageRank

Una de las muchas "leyenditas" alrededor de Google es que, en toda conferencia de búsqueda, siempre hay alguien que intenta explicar "cómo funciona Google": que si realmente el algoritmo PageRank funciona así, que si además utilizan tal técnica de NLP, clasificación, ... y mientras, entre los asistentes a la charla, alguien de Google escucha, y sonríe...

En el blog oficial de Google su Vice Presidente del área de calidad de búsqueda ha decidido contar un poco (casi nada, no os emocionéis) cuáles son las áreas de interés de Google en el core de su plataforma (que no de su negocio: eso es AdWords, claro :) ). Sin sorprender en absoluto, es interesante que Google por fin se abra un poquito. PageRank sigue estando en el centro de todo, pero sin duda no se parece mucho al presentado por Page y Brin en su paper académico. Además, ha sido enriquecido con toda clase de técnicas y algoritmos que ofrecen un mayor servicio al usuario final. El número de 450 "mejoras" al año no me queda muy claro: ¿450 mejoras, o 450 arreglos y mejoras? Venga, que es Google, aceptamos "mejora" como animal de compañía...

Relacionado con este post (esto es como las caras B de los antiguos singles de rock: la cara A era la canción popera y comercial, mientras que la cara B era la canción que realmente le gustaba al autor), os recomiendo la lectura de este post sobre cómo la utilización de datos masivos y/o complementarios ofrece mejores resultados que la utilización de complejos algoritmos; el autor comenta cómo, realmente, PageRank como tal no aporta tanto ante tal cantidad de datos, sino el hecho mismo de utilizar más tipos de datos (los enlaces a otras páginas). O, visto desde otro punto de vista, las técnicas para la gestión masiva de datos poco tiene que ver con la gestión "quirúrgica" (como le gusta decir a un comercial de mi empresa) de datos.

2 comentarios:

Alberto dijo...

Hola Justo,
Debuto como comentarista en tu blog :-).

Tengo que discrepar con una cosa del post que citas :-).
Prácticamente todos los buscadores utilizaron el texto de los enlaces y el número de enlaces como parte de su estrategia de ranking desde el principio (mucho antes de Google). Otra cosa hubiese sido bastante sorprendente porque es una idea bastante obvia, la verdad. Lo que ocurre es que sus algoritmos no tenían la naturaleza iterativa de PageRank: el hecho de que un enlace desde una página con un pagerank alto cuente más que un enlace desde una página con pagerank bajo fue la verdadera clave.
En lo de que sin suficientes datos, en data mining no hay nada que hacer, pues sin duda tiene razón (aunque no es exactamente una idea original :-) )

Saludos,

Alberto

Justo dijo...

Hola Alberto,

pues teniendo en cuenta que eres un lector fiel, se agradece que también participes :)

Gracias por el comentario, tienes razón en que no describí adecuadamente la verdadera aportación de Google a ese respecto.

El artículo no ofrece ninguna idea impresionante, pero espero que, más allá de potenciar desde un punto de vista de marketing su "Don't be evil", sea el comienzo de una apertura de información sobre las tecnologías y técnicas subyacentes de "nuestro buscador" :)