domingo, 25 de mayo de 2008

Matemáticas detrás de Google

Motor de búsqueda de Google
Los fundadores de Google Sergey Brin y Larry Page se conocieron en 1995 cuando Page visitó el Departamento de Informática de la Universidad de Stanford durante un fin de semana de reclutamiento [1]. Brin, a la sazón estudiante de doctorado, sirvió como guía de un grupo de potenciales estudiantes de doctorado del que Page era parte. Ellos discutieron de muchos asuntos durante su primer encuentro y discreparon sobre casi cada cuestión. Poco después de iniciar los estudios en Stanford, Page comenzó a trabajar sobre un proyecto de Web, al principio llamado BackRub, que explotaba la estructura de los enlaces en la Web. Brin encontró interesante el trabajo de Page sobre BackRube, y comenzaron a trabajar juntos sobre un proyecto que cambiaría drásticamente la búsqueda en la Web. Brin y Page se dieron cuenta que estaban creando un motor de búsqueda que se adaptaba al continuo incremento del tamaño Web, así que reemplazaron el nombre BackRub por Google (una escritura incorrecta común de googol, el número ). Incapaces de convencer a las empresas existentes de motores de búsqueda para adoptar la tecnología que habían desarrollado, pero con la certeza de que su tecnología era superior a cualquiera de las que se usaban entonces, Brin y Page decidieron iniciar su propia empresa. Con la ayuda financiera de un pequeño grupo de inversionistas iniciales, Brin y la Page fundaron la empresa de Web de búsqueda de motor Google S.A. en septiembre de 1998.
Casi inmediatamente, el público en general notó lo que Brin, Page, y otros en la comunidad académica sobre búsqueda en la Web ya sabían – el motor de búsqueda Google producía resultados de más alta calidad que aquellos producidos por otros motores de búsqueda en la Web. Otros motores de búsqueda confiaban completamente en el contenido de página web para determinar la clasificación de resultados, y Brin y Page comprendieron que los realizadores de páginas web fácilmente podrían manipular el ordenamiento de resultados de búsqueda colocando información oculta en las páginas web. Brin y Page desarrollaron un algoritmo de clasificación, llamado PageRank, que usa la estructura de los enlaces de la Web para determinar la importancia de las páginas web. Durante el proceso de búsqueda, el algoritmo de Google combina “pesos” previamente calculados por PageRank con valores del texto buscado para obtener un peso o valor total para cada página web.
Aunque muchos factores determinan los resultados de la clasificación general que hace el motor de búsqueda de Google, sus autores mantienen que el corazón de su motor de búsqueda es el software PageRank [2]. Tanto la comunidad académica como la empresarial tienen en gran estima a Google. El empresariado sabe que PageRank juega un papel sustancial en la orden en el cual las páginas web son mostradas. El maximizar el peso o valor que PageRank asigna a una página web se ha convertido es un componente importante de las estrategias de marketing de las compañías. La comunidad académica reconoce que PageRank tiene conexiones con numerosas áreas de matemáticas e informática como teoría de matrices, análisis numérico, recuperación de información y teoría de grafos. Por consiguiente, mucha investigación sigue siendo dedicada a la explicación y el mejoramiento de PageRank.
Las Matemáticas de PageRank
El algoritmo PageRank asigna un valor a cada una de las más de 25 mil millones de páginas web [3]. El algoritmo modela el comportamiento de un “navegador” idealizado arbitrario dentro de la Web [4, 5]. Este usuario de Internet escoge aleatoriamente de una lista de páginas web disponibles, una de ellas para verla. Luego, el usuario continúa el proceso de seleccionar enlaces aleatoriamente de sucesivas páginas web hasta decidir moverse a otra página web por algún otro medio diferente al de seleccionar un enlace. La elección de cuál página web visitar después no depende de las páginas web antes visitadas, y el usuario “idealizado” de Web nunca se “cansa” de visitar a páginas web. Así, el peso PageRank de una página web representa la probabilidad que un usuario arbitrario de Web escogería ver la página web.
En un próximo post presentaré un resumen de los detalles matemáticos de PageRank, así como de algunos aspectos teóricos de relevancia [6].

REFERENCIAS
[1] http://www.google.com/corporate/history.html

[2] http://www.google.com/technology/index.html

[3]http://www.webrankinfo.com/english/seo-news/topic-16388.htm, Increased Google Index Size?

[4] Sergey Brin and Lawrence Page, The anatomy of a large-scale hypertextual Web search engine, Computer Networks and ISDN Systems 33 (1998), 107–117.

[5] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd, The PageRank citation ranking: Bringing order to the web, Tech. report, Stanford University, 1998.

[6] Carlos Ferreiro, Matemáticas detrás de Google, en preparación.

No hay comentarios: