Académique Documents
Professionnel Documents
Culture Documents
Palabras claves
1. Introduccin
Estas tareas son cada vez ms difciles a medida que crece la Web. Sin
embargo, el rendimiento del hardware y el costo han mejorado
dramticamente para compensar parcialmente la dificultad. Hay, sin embargo,
varias excepciones notables a este progreso como el tiempo de bsqueda de
disco y la robustez del sistema operativo. Al disear Google, hemos
considerado tanto la tasa de crecimiento de la Web como los cambios
tecnolgicos. Google est diseado para adaptarse a conjuntos de datos
extremadamente grandes. Hace un uso eficiente del espacio de
almacenamiento para almacenar el ndice. Sus estructuras de datos estn
optimizadas para un acceso rpido y eficiente (ver seccin 4.2). Adems,
esperamos que el costo de indexar y almacenar texto o HTML eventualmente
disminuya en relacin con la cantidad que estar disponible (ver Apndice B).
Esto resultar en propiedades de escala favorables para sistemas centralizados
como Google.
Otra meta importante del diseo era construir los sistemas que un nmero
razonable de gente pueda utilizar realmente.
El uso era importante para nosotros porque creemos que algunas de las
investigaciones ms interesantes involucrarn la gran cantidad de datos de uso
que estn disponibles en los sistemas web modernos. Por ejemplo, hay muchas
decenas de millones de bsquedas realizadas todos los das. Sin embargo, es
muy difcil obtener estos datos, principalmente porque se considera
comercialmente valioso.
Nuestro objetivo final de diseo era construir una arquitectura que pudiera
respaldar las nuevas actividades de investigacin sobre datos web a gran
escala. Para apoyar los nuevos usos de la investigacin, Google almacena
todos los documentos reales que se arrastra en forma comprimida. Uno de
nuestros principales objetivos en el diseo de Google fue establecer un entorno
en el que otros investigadores puedan entrar rpidamente, procesar grandes
trozos de la web y producir resultados interesantes que hubieran sido muy
difciles de producir de otra manera. En el corto tiempo que el sistema ha
estado en marcha, ya ha habido varios documentos utilizando bases de datos
generadas por Google, y muchos otros estn en marcha.
Otra justificacin intuitiva es que una pgina puede tener un PageRank alto si
hay muchas pginas que apuntan a ella, o si hay algunas pginas que apuntan
a ella y tienen un PageRank alto. Intuitivamente, las pginas que se citan bien
de muchos lugares alrededor de la web vale la pena mirar. Tambin, las
pginas que tienen tal vez slo una citacin de algo as como la pgina
principal de Yahoo! tambin son generalmente vale la pena mirar. Si una
pgina no era de alta calidad, o era un enlace roto, es muy probable que la
pgina principal de Yahoo no se vinculara a ella.
PageRank maneja ambos casos y todo lo dems mediante la propagacin
recursiva de pesos a travs de la estructura de enlace de la web.