Clase 2-Busqueda

INDEXACIÓN PARA MOTORES
DE BÚSQUEDA EN LA WEB
Buscadores Web
Buscadores
The Top 100 Alternative

Search Engines
Página 2 07/03/2008
Buscadores
Zettair Search Engine
Justin Zobel, Hugh Williams, Falk Scholer, John Yiannis, Steffen Heinz,
Nicholas Lester, William Webber, Alistair Moffat and Anh Vo
Página 3 07/03/2008
Arquitectura
Página 4 07/03/2008
Arquitectura
Máquina de Base de
Búsqueda Datos
+
índice
Interfáz
Indexador
Usuarios
Crawler
Web
Página 5 07/03/2008
Problemas (librería)
Espacio
Tiempo de búsqueda
Es posible obtener un índice comprimido que

generalmente es menor que la mitad del tamaño del
texto original
Página 6 07/03/2008
Cómo Trabaja?
• Operaciones básicas:
– Buscan en la Web en base a palabras
relevantes
– Mantienen un índice de las palabras
encontradas y dónde fueron encontradas
– Permiten que los usuarios realicen
búsquedas de palabras o conjuntos de
palabras
Página 7 07/03/2008
Cómo Trabaja?
– Crawler = spider Web Crawling

– Indexación:
– Normalizar los documentos a un formato predefinido
Pre-procesamiento
– Romper el documento en unidades recuperables
– Identificar elementos a ser indexados
– Eliminar stopwords
– Calcular pesos
– Crear y actualizar el índice invertido
Página 8 07/03/2008
Case folding, stemming
and stopwords
• ACT = Act = act

1- Simplifica la construcción
– General AND Motors / Bell? de consultas
• Camina Caminaba..Caminábamos 2- Reduce el espacio
• Stopwords: efecto reducido sobre la colección
Página 9 07/03/2008
Como Evaluar
• Número de documentos en la BD
• Flexibilidad y calidad del lenguaje de
consulta
• Pertinencia de los resultados
• Periodicidad de actualización de la BD
• Velocidad de recuperación y dificultades
de conexión
Página 10 07/03/2008
Eficiencia
La eficiencia y escalabilidad de los

motores de búsqueda están directamente
relacionados con los “crawlers”, los cuales
mantienen actualizado el índice sobre el
cual trabaja la máquina de búsqueda.
Página 11 07/03/2008
Algoritmos de Crawling
• Se comienza desde un conjunto de URL’s muy populares, y se siguen

los enlaces evitando repeticiones.
• El recorrido puede ser breadth-first (cobertura amplia pero no
profunda) o depth-first (cobertura vertical).
• Es complicado coordinar varios crawlers para que no repitan trabajo.
Una alternativa utilizada es que se repartan los dominios.
• Las páginas suelen tener entre 1 día y 2 meses de antigüedad, 2 %-
9% de los enlaces almacenados son inválidos.
• Los mejores crawlers recorren decenas de millones de páginas por día.
Requerirían meses para recorrer todo la Web en el mejor caso. En la
práctica ni siquiera alcanzan a indexar gran parte de ella.
• Para complicar las cosas, existen protocolos de buen comportamiento
para crawlers, de modo que no saturen a los servidores Web: cumplir
las normas de cortesía
Página 12 07/03/2008
Consultas
• El 25% de los usuarios usa normalmente una sola palabra en su

consulta
• En promedio usan 2 o 3 términos
• Un 80% no modifica la consulta
• El 80% de las consultas no usa ningún tipo de operador.
• En promedio se navegan dos páginas de los resultados.
• Un 65% de las consultas son únicas
• Mantener el índice en memoria
Publicidad
– Búsqueda gratis
– Doble ejecución de la consulta (índice Web e índice de
publicidades)
Página 13 07/03/2008
Colecciones Dinámicas
• Agregar nuevos documentos
• Actualizar un documento
Las páginas dinámicas son actualmente uno de

los mayores problemas para los crawlers.
Página 14 07/03/2008
La Web
cómo adivinar, y rápido,

lo que la mitad del planeta
quiere decir
y lo que la otra mitad
quiere saber.
2004: www.chacobo.com/arxius/000019.html
Página 15 07/03/2008
Google
1996 Java y Python

Sun Ultra II con 28GB de disco duro
1997 googol
10 Discos de 4 Gb
para 24 millones de
páginas
Página 16 07/03/2008
Google
Headquarter
*California, USA
*Dublin, Irlanda
*Bs. As., Argentina
Centros de Ingeniería
*Bello Horizonte, Brazil
*Japón
*Sydney
*India
*Suiza
Página 17 07/03/2008
Google
Arquitectura
The Anatomy of a Large-Scale

Hypertextual Web
Search Engine
Página 18 07/03/2008
Google
Crawling
distribuido
Estado de la conexión:
*buscando DNS
*Conectándose a un host Páginas
*Enviando requerimiento o Comprimidas
recibiendo respuesta con identificador
docID
Página 19 07/03/2008
Descomprime
Indexación: +
Indexer + sorter Parser (con manejo de errores)
Información sobre los links
hit
word position size Mayuscula
Índice parcialmente
Ordenado por docID
Página 20 07/03/2008
Indexación:
Indexer + sorter
* Paralelo en distintas máquinas
*Reordena por wordID

*Genera un conjunto
de palabras y desplazamientos
Página 21 07/03/2008
Búsqueda
www.google.com/search?q=unsl+cursos
1- Mapear www.google .com a una dirección IP particular
2- Un sistema de balance de carga selecciona el cluster más cercano

físicamente
3- El browser del usuario envía la consulta
4- Un balanceador de carga local a cada cluster coordina la

resolución de la consulta
Página 22 07/03/2008
Búsqueda: Ejecución de consultas
1- Buscar en el índice cada palabra de la consulta y

obtener el documento donde aparece
salida: lista de docID
2- Rankear el conjunto de documentos encontrados

Salida: lista ORDNADA de docID
3- Buscar en el disco cada documento para recuperar el

título y las palabra s de importancia.
Salida: documento en formato html
Página 23 07/03/2008
Búsqueda: Operaciones adicionales
1- Corrección de ortografía
2- Resolución de búsqueda en paralelo
3- Consultas de sólo lectura
Página 24 07/03/2008
David Filo and Jerry Yang Stanford University
1994
Página 25 07/03/2008
Cosas que se pueden hacer en
Google, Yahoo!, y Ask.com
• Phrase Searching colocando los términos entre comillas
• OR búsqueda con OR en mayúscula
• - excludes, + requires forma exacta de un término (Insertar +

después de un término para limitar la búsqueda a documentos que
contienen el término. Insertar – después del término para excluirlo.
• Case sensitivity mayúsculas no interesan
• Truncation
Femini* feminism
Página 26 07/03/2008
Google Yahoo! Ask.com
www.google Search www.ask.com
search.yahoo.com
Tamaño de ENORME. No 20 billones de 2 billones de

la BD revelada "objetos web“ páginas
completamente
indexadas.
Caracte_ PageRank Shortcuts acceso Ranking popularTM

rápido a
rísticas y
diccionarios,
Limitacion
sinónimos, etc
es
Lógica Se asume el AND Acepta AND, OR, Asume AND
Booleana OR en mayúscula NOT o AND NOT, OR en mayúscula
- excludes deben ser términos - excludes
unidos por OR entre
paréntesis
Página 27 07/03/2008
Google Yahoo! Ask.com
www.google Search www.ask.com
search.yahoo.com
+Requires - excludes - excludes - excludes
-Excludes + Permite + Permite buscar + Permite
recuperar "stop palabras en común recuperar "stop
words "(e.j., words" (e.j., +en)
:"+en verdad"
+en)
Resultado PageRank, valor Automatic Fuzzy Utiliza links a una
de alto si otras AND página a través de
Ranking páginas apuntan
páginas similares
a ella
Truncation No No Utiliza búsqueda

Stemming avanzada para
aplicar límites
Translation Sí Sí No
Página 28 07/03/2008
Investigación Actual
• Sist. Distribuidos
– Zookeeper
• Machine Learning
– One Fast Wabbit
• Microeconomics and Social Systems
– Bracketology
Página 29 07/03/2008
Investigación Actual
• Computational Advances
– Query the Obscure
• Community Sistems
– PNUTS
Página 30 07/03/2008
Bibliografía
• WorldWideWeb: Proposal for a Hypertext Project. Tim Berners-
Lee, Robert Cailliau. Communications of the ACM, Vol. 37 Num.
8, pag. 76-82. 1994.
• The anatomy of a large-scale hypertextual web search engine.

S. Brin and L. Page. Proc. Seventh word wide web conference
(WWW) pag. 107-117. 1998
• The PageRanke citation Ranking: bringing order to the web.

Motwani R, Page L., Brin S and Winogrand T. Technical report,
Computer Science Department , Stanford University, 1998.
Página 31 07/03/2008

Clase 2-Busqueda

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Clase 2-Busqueda

Transféré par

Droits d'auteur :

Formats disponibles

INDEXACIÓN PARA MOTORES

The Top 100 Alternative

Es posible obtener un índice comprimido que

– Crawler = spider Web Crawling

• ACT = Act = act

• Stopwords: efecto reducido sobre la colección

La eficiencia y escalabilidad de los

• Se comienza desde un conjunto de URL’s muy populares, y se siguen

• El 25% de los usuarios usa normalmente una sola palabra en su

• Agregar nuevos documentos

Las páginas dinámicas son actualmente uno de

cómo adivinar, y rápido,

1996 Java y Python

The Anatomy of a Large-Scale

Información sobre los links

* Paralelo en distintas máquinas

*Reordena por wordID

1- Mapear www.google .com a una dirección IP particular

2- Un sistema de balance de carga selecciona el cluster más cercano

3- El browser del usuario envía la consulta

4- Un balanceador de carga local a cada cluster coordina la

1- Buscar en el índice cada palabra de la consulta y

2- Rankear el conjunto de documentos encontrados

3- Buscar en el disco cada documento para recuperar el

2- Resolución de búsqueda en paralelo

3- Consultas de sólo lectura

• OR búsqueda con OR en mayúscula

• - excludes, + requires forma exacta de un término (Insertar +

• Case sensitivity mayúsculas no interesan

Tamaño de ENORME. No 20 billones de 2 billones de

Caracte_ PageRank Shortcuts acceso Ranking popularTM

Truncation No No Utiliza búsqueda

• The anatomy of a large-scale hypertextual web search engine.

• The PageRanke citation Ranking: bringing order to the web.

Vous aimerez peut-être aussi