Vous êtes sur la page 1sur 7

Abstracto

En este artculo, presentamos Google, un prototipo de un motor de bsqueda a


gran escala que hace un gran uso de la estructura presente en el hipertexto.
Google est diseado para rastrear e indexar la Web de manera eficiente y
producir resultados de bsqueda mucho ms satisfactorios que los sistemas
existentes. El prototipo con una base de datos de texto completo y de
hipervnculo de al menos 24 millones de pginas est disponible en
http://google.stanford.edu/

Ingeniera de un motor de bsqueda es una tarea difcil. Los motores de


bsqueda decan a cientos de millones de pginas web que involucran un
nmero comparable de trminos distintos. Responden a decenas de millones
de consultas cada da. A pesar de la importancia de los motores de bsqueda a
gran escala en la web, muy poca investigacin acadmica se ha hecho sobre
ellos. Adems, debido al rpido avance en la tecnologa y la proliferacin de la
web, la creacin de un motor de bsqueda web hoy es muy diferente de hace
tres aos. Este documento proporciona una descripcin en profundidad de
nuestro motor de bsqueda a gran escala en la web, la primera descripcin
pblica detallada que conocemos hasta la fecha. Aparte de los problemas de
escalado

Las tcnicas tradicionales de bsqueda de datos de esta magnitud, hay nuevos


retos tcnicos involucrados con el uso de la informacin adicional presente en
el hipertexto para producir mejores resultados de bsqueda. Este trabajo
aborda esta cuestin de cmo construir un sistema prctico a gran escala que
pueda explotar la informacin adicional presente en hipertexto. Tambin
miramos el problema de cmo tratar con eficacia las colecciones incontroladas
del hipertexto donde cualquier persona puede publicar cualquier cosa que
desean.

Palabras claves

World Wide Web, motores de bsqueda, recuperacin de la informacin,


PageRank, Google

1. Introduccin

Nota: Existen dos versiones de este documento: una versin completa ms


larga y una versin impresa ms corta, la versin completa est disponible en
la web y en el CD-ROM de la conferencia).

La web crea nuevos retos para la recuperacin de la informacin. La cantidad


de informacin en la web est creciendo rpidamente, as como el nmero de
nuevos usuarios inexpertos en el arte de la investigacin en la web. Es
probable que las personas naveguen por la web utilizando su grfico de
enlaces, a menudo comenzando con ndices humanos de alta calidad
mantenidos como Yahoo! o con motores de bsqueda. Las listas mantenidas
por el ser humano cubren temas populares con eficacia, pero son subjetivas,
caras de construir y mantener, de mejorar lentamente y no pueden cubrir
todos los temas esotricos. Los motores de bsqueda automatizados que
dependen de la coincidencia de palabras clave suelen devolver demasiados
resultados de baja calidad.

Para empeorar las cosas, algunos anunciantes tratan de ganar la atencin de la


gente mediante la adopcin de medidas destinadas a engaar a los motores de
bsqueda automatizados. Hemos construido un motor de bsqueda a gran
escala que aborda muchos de los problemas de los sistemas existentes. Hace
un uso especialmente intenso de la estructura adicional presente en el
hipertexto para proporcionar resultados de bsqueda de calidad mucho ms
alta. Elegimos nuestro nombre de sistema, Google, porque es una ortografa
comn de googol, o 10 100 y encaja bien con nuestro objetivo de construir
motores de bsqueda de gran escala.

1.1. Motores de bsqueda web - Ampliacin: 1994 - 2000

La tecnologa de los motores de bsqueda ha tenido que escalar


dramticamente para mantenerse al da con el crecimiento de la web. En 1994,
uno de los primeros motores de bsqueda web, el World Wide Web Worm
(WWWW) [McBryan 94] tena un ndice de 110.000 pginas web y documentos
accesibles en la web. A partir de noviembre de 1997, los principales motores
de bsqueda afirman que el ndice de 2 millones (WebCrawler) a 100 millones
de documentos web (de Search Engine Watch). Es previsible que para el ao
2000, un ndice completo de la Web contenga ms de mil millones de
documentos. Al mismo tiempo, el nmero de consultas de motores de
bsqueda de manejar ha crecido increblemente tambin. En marzo y abril de
1994, el gusano de la World Wide Web recibi un promedio de
aproximadamente 1500 consultas por da. En noviembre de 1997, Altavista
afirm que manejaba aproximadamente 20 millones de consultas por da. Con
el creciente nmero de usuarios en la web, y los sistemas automatizados que
consultan los motores de bsqueda, es probable

Que los motores de bsqueda principales manejarn cientos de millones de


consultas por da para el ao 2000. El objetivo de nuestro sistema es abordar
muchos de los problemas, tanto en calidad y escalabilidad, introducido por la
tecnologa de motores de bsqueda de escala a nmeros tan extraordinarios.

1.2. Google: Escala con la Web

La creacin de un motor de bsqueda que escalas incluso a la web de hoy


presenta muchos desafos. Se necesita una tecnologa de rastreo rpido para
recopilar los documentos web y mantenerlos actualizados. El espacio de
almacenamiento se debe utilizar eficientemente para almacenar ndices y,
opcionalmente, los propios documentos. El sistema de indexacin debe
procesar

Cientos de gigabytes de datos de manera eficiente. Las consultas deben


tratarse rpidamente, a una velocidad de cientos a miles por segundo.

Estas tareas son cada vez ms difciles a medida que crece la Web. Sin
embargo, el rendimiento del hardware y el costo han mejorado
dramticamente para compensar parcialmente la dificultad. Hay, sin embargo,
varias excepciones notables a este progreso como el tiempo de bsqueda de
disco y la robustez del sistema operativo. Al disear Google, hemos
considerado tanto la tasa de crecimiento de la Web como los cambios
tecnolgicos. Google est diseado para adaptarse a conjuntos de datos
extremadamente grandes. Hace un uso eficiente del espacio de
almacenamiento para almacenar el ndice. Sus estructuras de datos estn
optimizadas para un acceso rpido y eficiente (ver seccin 4.2). Adems,
esperamos que el costo de indexar y almacenar texto o HTML eventualmente
disminuya en relacin con la cantidad que estar disponible (ver Apndice B).
Esto resultar en propiedades de escala favorables para sistemas centralizados
como Google.

1.3. Objetivos del diseo

1.3.1 Calidad de bsqueda mejorada

Nuestro principal objetivo es mejorar la calidad de los motores de bsqueda


web. En 1994, algunas personas crean que un ndice de bsqueda completo
hara posible encontrar algo fcilmente. De acuerdo con Best of the Web 1994 -
Navigators, "El mejor servicio de navegacin debera hacer que sea fcil
encontrar casi cualquier cosa en la Web (una vez que todos los datos son
ingresados)". Sin embargo, la web de 1997 es bastante diferente. Cualquier
persona que ha utilizado un motor de bsqueda recientemente, puede
fcilmente testificar que la integridad del ndice no es el nico factor en la
calidad de los resultados de bsqueda. De hecho, a partir de noviembre de
1997, slo uno de los cuatro principales motores de bsqueda comercial se
encuentra (devuelve su propia pgina de bsqueda en respuesta a su nombre
en el top ten Resultados). Una de las principales causas de este problema es
que

El nmero de documentos en los ndices ha aumentado en muchos rdenes de


magnitud, pero la capacidad del usuario para mirar los documentos no lo ha
hecho. La gente todava est dispuesta a mirar las primeras decenas de
resultados.
Debido a esto, a medida que crece el tamao de la coleccin, necesitamos
herramientas que tengan una precisin muy alta (nmero de documentos
relevantes devueltos, digamos en las decenas de resultados). De hecho,
queremos que nuestra nocin de "relevante" incluya slo los mejores
documentos, ya que puede haber decenas de miles de documentos
ligeramente relevantes. Esta precisin muy alta es importante incluso a
expensas de la memoria (el nmero total de documentos relevantes que el
sistema puede devolver). Hay un poco de optimismo reciente de que el uso de
ms informacin hipertextual puede ayudar a mejorar la bsqueda y otras
aplicaciones [Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]. En
particular, la estructura del enlace [Page 98] y el texto del enlace proporcionan
mucha informacin para hacer juicios de pertinencia y filtrar la calidad. Google
hace uso tanto de la estructura de enlaces como del texto de anclaje (ver
Secciones 2.1 y 2.2).

1.3.2 Investigacin acadmica de motores de bsqueda

Aparte de un tremendo crecimiento, la Web tambin se ha vuelto cada vez ms


comercial a travs del tiempo. En 1993, el 1,5% de los servidores web estaban
en dominios .com. Este nmero creci a sobre 60% en 1997. Al mismo tiempo,
los motores de bsqueda han emigrado del dominio acadmico al comercial.
Hasta ahora la mayora del desarrollo del Search Engine ha continuado en las
compaas con poca publicacin de detalles tcnicos. Esto hace que la
tecnologa de los motores de bsqueda permanezca en gran parte un arte
negro y sea orientada a la publicidad (ver Apndice A).

Con Google, tenemos un fuerte objetivo de impulsar ms desarrollo y


comprensin en el mbito acadmico.

Otra meta importante del diseo era construir los sistemas que un nmero
razonable de gente pueda utilizar realmente.

El uso era importante para nosotros porque creemos que algunas de las
investigaciones ms interesantes involucrarn la gran cantidad de datos de uso
que estn disponibles en los sistemas web modernos. Por ejemplo, hay muchas
decenas de millones de bsquedas realizadas todos los das. Sin embargo, es
muy difcil obtener estos datos, principalmente porque se considera
comercialmente valioso.

Nuestro objetivo final de diseo era construir una arquitectura que pudiera
respaldar las nuevas actividades de investigacin sobre datos web a gran
escala. Para apoyar los nuevos usos de la investigacin, Google almacena
todos los documentos reales que se arrastra en forma comprimida. Uno de
nuestros principales objetivos en el diseo de Google fue establecer un entorno
en el que otros investigadores puedan entrar rpidamente, procesar grandes
trozos de la web y producir resultados interesantes que hubieran sido muy
difciles de producir de otra manera. En el corto tiempo que el sistema ha
estado en marcha, ya ha habido varios documentos utilizando bases de datos
generadas por Google, y muchos otros estn en marcha.

Otra meta que tenemos es crear un entorno tipo Spacelab donde


investigadores o incluso estudiantes puedan proponer y hacer experimentos
interesantes en nuestros datos web a gran escala.

2. Caractersticas del sistema

El motor de bsqueda de Google tiene dos caractersticas importantes que le


ayudan a producir resultados de alta precisin. En primer lugar, hace uso de la
estructura de enlaces de la Web para calcular un ranking de calidad para cada
pgina web. Esta clasificacin se llama PageRank y se describe en detalle en
[Pgina 98]. En segundo lugar, Google utiliza el enlace para mejorar los
resultados de bsqueda.

2.1 PageRank: Traer orden a la Web

El grfico de la cita (enlace) de la web es un recurso importante que ha ido en


gran medida no utilizados en los motores de bsqueda existentes en la web.
Hemos creado mapas que contienen hasta 518 millones de estos hipervnculos,
una muestra significativa del total. Estos mapas permiten un clculo rpido del
"PageRank" de una pgina web, una medida objetiva de su importancia de
citacin que corresponde bien a la idea subjetiva de importancia de la gente.
Debido a esta correspondencia, PageRank es una excelente manera de
priorizar los resultados de las bsquedas de palabras clave web. Para la
mayora de los temas populares, una bsqueda simple de concordancia de
texto que est restringida a ttulos de pginas web realiza admirablemente
cuando PageRank prioriza los resultados (demo disponible en
google.stanford.edu). Para el tipo de bsqueda de texto completo en el sistema
principal de Google, PageRank tambin ayuda mucho.

2.1.1 Descripcin del clculo del PageRank

La literatura acadmica de la citacin se ha aplicado a la tela, en gran parte


contando citas o backlinks a una pgina dada. Esto da una aproximacin de la
importancia o calidad de una pgina. PageRank extiende esta idea al no contar
los enlaces de todas las pginas por igual, y por la normalizacin por el nmero
de enlaces en una pgina.
PageRank se define de la siguiente manera: Suponemos que la pgina A tiene
las pginas T1 ... Tn que apuntan a ella (es decir, son citas). El parmetro d es
un factor de amortiguacin que se puede establecer entre 0 y 1. Por lo general,
fijamos d a 0.85. Hay ms detalles acerca de d en la siguiente seccin. Tambin
C (A) se define como el nmero de enlaces que salen de la pgina A. El
PageRank de una pgina A se da como sigue:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Tenga en cuenta que los PageRanks forman una distribucin de probabilidad


sobre pginas web, por lo que la suma de todas las pginas web de PageRank
ser uno.

PageRank o PR (A) se puede calcular utilizando un simple algoritmo iterativo, y


corresponde al vector propio principal de la matriz de enlace normalizado de la
red. Adems, un PageRank para 26 millones de pginas web se puede calcular
en pocas horas en una estacin de trabajo de tamao medio. Hay muchos otros
detalles

Que estn fuera del alcance de este documento.

2.1.2 Justificacin Intuitiva

PageRank puede ser pensado como un modelo de comportamiento del usuario.


Asumimos que hay un "surfista aleatorio" a quien se le da una pgina web al
azar y sigue haciendo clic en los enlaces, nunca golpeando "atrs", pero
finalmente se aburre y empieza en otra pgina aleatoria. La probabilidad de
que la persona que practica surf al azar visite una pgina es su PageRank.

Y, el factor d amortiguacin es la probabilidad de que en cada pgina el


"surfista aleatorio" se aburrir y solicitar otra pgina aleatoria. Una variacin
importante es slo aadir el factor de amortiguacin d a una sola pgina, o un
grupo de pginas. Esto permite la personalizacin y puede hacer casi imposible
engaar deliberadamente el sistema con el fin de obtener una mayor
clasificacin. Tenemos varias otras extensiones a PageRank,

Ver de nuevo [Pgina 98].

Otra justificacin intuitiva es que una pgina puede tener un PageRank alto si
hay muchas pginas que apuntan a ella, o si hay algunas pginas que apuntan
a ella y tienen un PageRank alto. Intuitivamente, las pginas que se citan bien
de muchos lugares alrededor de la web vale la pena mirar. Tambin, las
pginas que tienen tal vez slo una citacin de algo as como la pgina
principal de Yahoo! tambin son generalmente vale la pena mirar. Si una
pgina no era de alta calidad, o era un enlace roto, es muy probable que la
pgina principal de Yahoo no se vinculara a ella.
PageRank maneja ambos casos y todo lo dems mediante la propagacin
recursiva de pesos a travs de la estructura de enlace de la web.

Vous aimerez peut-être aussi