Académique Documents
Professionnel Documents
Culture Documents
DE BÚSQUEDA EN LA WEB
Buscadores Web
Buscadores
Página 2 07/03/2008
Buscadores
Zettair Search Engine
Justin Zobel, Hugh Williams, Falk Scholer, John Yiannis, Steffen Heinz,
Nicholas Lester, William Webber, Alistair Moffat and Anh Vo
Página 3 07/03/2008
Arquitectura
Página 4 07/03/2008
Arquitectura
Máquina de Base de
Búsqueda Datos
+
índice
Interfáz
Indexador
Usuarios
Crawler
Web
Página 5 07/03/2008
Problemas (librería)
Espacio
Tiempo de búsqueda
Página 6 07/03/2008
Cómo Trabaja?
• Operaciones básicas:
– Buscan en la Web en base a palabras
relevantes
– Mantienen un índice de las palabras
encontradas y dónde fueron encontradas
– Permiten que los usuarios realicen
búsquedas de palabras o conjuntos de
palabras
Página 7 07/03/2008
Cómo Trabaja?
Página 8 07/03/2008
Case folding, stemming
and stopwords
Página 9 07/03/2008
Como Evaluar
• Número de documentos en la BD
• Flexibilidad y calidad del lenguaje de
consulta
• Pertinencia de los resultados
• Periodicidad de actualización de la BD
• Velocidad de recuperación y dificultades
de conexión
Página 10 07/03/2008
Eficiencia
Página 11 07/03/2008
Algoritmos de Crawling
Página 12 07/03/2008
Consultas
Publicidad
– Búsqueda gratis
– Doble ejecución de la consulta (índice Web e índice de
publicidades)
Página 13 07/03/2008
Colecciones Dinámicas
• Actualizar un documento
Página 14 07/03/2008
La Web
2004: www.chacobo.com/arxius/000019.html
Página 15 07/03/2008
Google
1997 googol
10 Discos de 4 Gb
para 24 millones de
páginas
Página 16 07/03/2008
Google
Headquarter
*California, USA
*Dublin, Irlanda
*Bs. As., Argentina
Centros de Ingeniería
*Bello Horizonte, Brazil
*Japón
*Sydney
*India
*Suiza
Página 17 07/03/2008
Google
Arquitectura
Página 18 07/03/2008
Google
Crawling
distribuido
Estado de la conexión:
*buscando DNS
*Conectándose a un host Páginas
*Enviando requerimiento o Comprimidas
recibiendo respuesta con identificador
docID
Página 19 07/03/2008
Descomprime
Indexación: +
Indexer + sorter Parser (con manejo de errores)
hit
word position size Mayuscula
Índice parcialmente
Ordenado por docID
Página 20 07/03/2008
Indexación:
Indexer + sorter
Página 21 07/03/2008
Búsqueda
www.google.com/search?q=unsl+cursos
Página 22 07/03/2008
Búsqueda: Ejecución de consultas
Página 23 07/03/2008
Búsqueda: Operaciones adicionales
1- Corrección de ortografía
Página 24 07/03/2008
David Filo and Jerry Yang Stanford University
1994
Página 25 07/03/2008
Cosas que se pueden hacer en
Google, Yahoo!, y Ask.com
• Phrase Searching colocando los términos entre comillas
• Truncation
Femini* feminism
Página 26 07/03/2008
Google Yahoo! Ask.com
www.google Search www.ask.com
search.yahoo.com
Página 27 07/03/2008
Google Yahoo! Ask.com
www.google Search www.ask.com
search.yahoo.com
+Requires - excludes - excludes - excludes
-Excludes + Permite + Permite buscar + Permite
recuperar "stop palabras en común recuperar "stop
words "(e.j., words" (e.j., +en)
:"+en verdad"
+en)
Resultado PageRank, valor Automatic Fuzzy Utiliza links a una
de alto si otras AND página a través de
Ranking páginas apuntan
páginas similares
a ella
Página 28 07/03/2008
Investigación Actual
• Sist. Distribuidos
– Zookeeper
• Machine Learning
– One Fast Wabbit
• Microeconomics and Social Systems
– Bracketology
Página 29 07/03/2008
Investigación Actual
• Computational Advances
– Query the Obscure
• Community Sistems
– PNUTS
Página 30 07/03/2008
Bibliografía
• WorldWideWeb: Proposal for a Hypertext Project. Tim Berners-
Lee, Robert Cailliau. Communications of the ACM, Vol. 37 Num.
8, pag. 76-82. 1994.
Página 31 07/03/2008