Vous êtes sur la page 1sur 31

INDEXACIÓN PARA MOTORES

DE BÚSQUEDA EN LA WEB

Buscadores Web
Buscadores

The Top 100 Alternative


Search Engines

Página 2 07/03/2008
Buscadores
Zettair Search Engine
Justin Zobel, Hugh Williams, Falk Scholer, John Yiannis, Steffen Heinz,
Nicholas Lester, William Webber, Alistair Moffat and Anh Vo

Página 3 07/03/2008
Arquitectura

Página 4 07/03/2008
Arquitectura

Máquina de Base de
Búsqueda Datos
+
índice

Interfáz
Indexador
Usuarios

Crawler

Web

Página 5 07/03/2008
Problemas (librería)

Espacio

Tiempo de búsqueda

Es posible obtener un índice comprimido que


generalmente es menor que la mitad del tamaño del
texto original

Página 6 07/03/2008
Cómo Trabaja?

• Operaciones básicas:
– Buscan en la Web en base a palabras
relevantes
– Mantienen un índice de las palabras
encontradas y dónde fueron encontradas
– Permiten que los usuarios realicen
búsquedas de palabras o conjuntos de
palabras

Página 7 07/03/2008
Cómo Trabaja?

– Crawler = spider  Web Crawling


– Indexación:
– Normalizar los documentos a un formato predefinido
Pre-procesamiento
– Romper el documento en unidades recuperables
– Identificar elementos a ser indexados
– Eliminar stopwords
– Calcular pesos
– Crear y actualizar el índice invertido

Página 8 07/03/2008
Case folding, stemming
and stopwords

• ACT = Act = act


1- Simplifica la construcción
– General AND Motors / Bell? de consultas
• Camina  Caminaba..Caminábamos 2- Reduce el espacio

• Stopwords: efecto reducido sobre la colección

Página 9 07/03/2008
Como Evaluar

• Número de documentos en la BD
• Flexibilidad y calidad del lenguaje de
consulta
• Pertinencia de los resultados
• Periodicidad de actualización de la BD
• Velocidad de recuperación y dificultades
de conexión

Página 10 07/03/2008
Eficiencia

La eficiencia y escalabilidad de los


motores de búsqueda están directamente
relacionados con los “crawlers”, los cuales
mantienen actualizado el índice sobre el
cual trabaja la máquina de búsqueda.

Página 11 07/03/2008
Algoritmos de Crawling

• Se comienza desde un conjunto de URL’s muy populares, y se siguen


los enlaces evitando repeticiones.
• El recorrido puede ser breadth-first (cobertura amplia pero no
profunda) o depth-first (cobertura vertical).
• Es complicado coordinar varios crawlers para que no repitan trabajo.
Una alternativa utilizada es que se repartan los dominios.
• Las páginas suelen tener entre 1 día y 2 meses de antigüedad, 2 %-
9% de los enlaces almacenados son inválidos.
• Los mejores crawlers recorren decenas de millones de páginas por día.
Requerirían meses para recorrer todo la Web en el mejor caso. En la
práctica ni siquiera alcanzan a indexar gran parte de ella.
• Para complicar las cosas, existen protocolos de buen comportamiento
para crawlers, de modo que no saturen a los servidores Web: cumplir
las normas de cortesía

Página 12 07/03/2008
Consultas

• El 25% de los usuarios usa normalmente una sola palabra en su


consulta
• En promedio usan 2 o 3 términos
• Un 80% no modifica la consulta
• El 80% de las consultas no usa ningún tipo de operador.
• En promedio se navegan dos páginas de los resultados.
• Un 65% de las consultas son únicas
• Mantener el índice en memoria

Publicidad
– Búsqueda gratis
– Doble ejecución de la consulta (índice Web e índice de
publicidades)

Página 13 07/03/2008
Colecciones Dinámicas

• Agregar nuevos documentos

• Actualizar un documento

Las páginas dinámicas son actualmente uno de


los mayores problemas para los crawlers.

Página 14 07/03/2008
La Web

cómo adivinar, y rápido,


lo que la mitad del planeta
quiere decir
y lo que la otra mitad
quiere saber.

2004: www.chacobo.com/arxius/000019.html

Página 15 07/03/2008
Google

1996  Java y Python


Sun Ultra II con 28GB de disco duro

1997  googol

10 Discos de 4 Gb
para 24 millones de
páginas

Página 16 07/03/2008
Google

Headquarter
*California, USA
*Dublin, Irlanda
*Bs. As., Argentina

Centros de Ingeniería
*Bello Horizonte, Brazil
*Japón
*Sydney
*India
*Suiza

Página 17 07/03/2008
Google

Arquitectura

The Anatomy of a Large-Scale


Hypertextual Web
Search Engine

Página 18 07/03/2008
Google

Crawling
distribuido

Estado de la conexión:
*buscando DNS
*Conectándose a un host Páginas
*Enviando requerimiento o Comprimidas
recibiendo respuesta con identificador
docID
Página 19 07/03/2008
Descomprime
Indexación: +
Indexer + sorter Parser (con manejo de errores)

Información sobre los links

hit
word position size Mayuscula

Índice parcialmente
Ordenado por docID

Página 20 07/03/2008
Indexación:
Indexer + sorter

* Paralelo en distintas máquinas

*Reordena por wordID


*Genera un conjunto
de palabras y desplazamientos

Página 21 07/03/2008
Búsqueda
www.google.com/search?q=unsl+cursos

1- Mapear www.google .com a una dirección IP particular

2- Un sistema de balance de carga selecciona el cluster más cercano


físicamente

3- El browser del usuario envía la consulta

4- Un balanceador de carga local a cada cluster coordina la


resolución de la consulta

Página 22 07/03/2008
Búsqueda: Ejecución de consultas

1- Buscar en el índice cada palabra de la consulta y


obtener el documento donde aparece
salida: lista de docID

2- Rankear el conjunto de documentos encontrados


Salida: lista ORDNADA de docID

3- Buscar en el disco cada documento para recuperar el


título y las palabra s de importancia.
Salida: documento en formato html

Página 23 07/03/2008
Búsqueda: Operaciones adicionales

1- Corrección de ortografía

2- Resolución de búsqueda en paralelo

3- Consultas de sólo lectura

Página 24 07/03/2008
David Filo and Jerry Yang  Stanford University
1994

Página 25 07/03/2008
Cosas que se pueden hacer en
Google, Yahoo!, y Ask.com
• Phrase Searching colocando los términos entre comillas

• OR búsqueda con OR en mayúscula

• - excludes, + requires forma exacta de un término (Insertar +


después de un término para limitar la búsqueda a documentos que
contienen el término. Insertar – después del término para excluirlo.

• Case sensitivity mayúsculas no interesan

• Truncation
Femini*  feminism

Página 26 07/03/2008
Google Yahoo! Ask.com
www.google Search www.ask.com
search.yahoo.com

Tamaño de ENORME. No 20 billones de 2 billones de


la BD revelada "objetos web“ páginas
completamente
indexadas.

Caracte_ PageRank Shortcuts acceso Ranking popularTM


rápido a
rísticas y
diccionarios,
Limitacion
sinónimos, etc
es
Lógica Se asume el AND Acepta AND, OR, Asume AND
Booleana OR en mayúscula NOT o AND NOT, OR en mayúscula
- excludes deben ser términos - excludes
unidos por OR entre
paréntesis

Página 27 07/03/2008
Google Yahoo! Ask.com
www.google Search www.ask.com
search.yahoo.com
+Requires - excludes - excludes - excludes
-Excludes + Permite + Permite buscar + Permite
recuperar "stop palabras en común recuperar "stop
words "(e.j., words" (e.j., +en)
:"+en verdad"
+en)
Resultado PageRank, valor Automatic Fuzzy Utiliza links a una
de alto si otras AND página a través de
Ranking páginas apuntan
páginas similares
a ella

Truncation No No Utiliza búsqueda


Stemming avanzada para
aplicar límites
Translation Sí Sí No

Página 28 07/03/2008
Investigación Actual

• Sist. Distribuidos
– Zookeeper
• Machine Learning
– One Fast Wabbit
• Microeconomics and Social Systems
– Bracketology

Página 29 07/03/2008
Investigación Actual

• Computational Advances
– Query the Obscure

• Community Sistems
– PNUTS

Página 30 07/03/2008
Bibliografía
• WorldWideWeb: Proposal for a Hypertext Project. Tim Berners-
Lee, Robert Cailliau. Communications of the ACM, Vol. 37 Num.
8, pag. 76-82. 1994.

• The anatomy of a large-scale hypertextual web search engine.


S. Brin and L. Page. Proc. Seventh word wide web conference
(WWW) pag. 107-117. 1998

• The PageRanke citation Ranking: bringing order to the web.


Motwani R, Page L., Brin S and Winogrand T. Technical report,
Computer Science Department , Stanford University, 1998.

Página 31 07/03/2008

Vous aimerez peut-être aussi