Vous êtes sur la page 1sur 14

Segn [Navarra, 2006], [Shneiderman, 1997], los buscadores son base de datos creadas por indexacin automtica.

La arquitectura y los componentes de un buscador simple [Chau et al, 2003]: 1. Araa. Se refiere a robots, crawlers, worms, o wanderers, son programas detrs del buscador que devuelven pginas Web de acuerdo a la consulta, almacena en la lista. 2. Repositorio de pgina Web. Documentos Web almacenados en un repositorio hasta que la araa termine de buscar y encontrar todas las pginas. 3. Indexador. Procesa la pgina en el repositorio y construye un ndice. 4. Indexador invertido. Realiza un ndice invertido para mostrar ms rpido los resultados. 5. Motor de consulta. Acepta las consultas de bsqueda de los usuarios y los ejecuta. Y es responsable de generar el resumen para cada resultado, y enviarlo a la interface del usuario. 6. Interface de usuario de una Web. Permite al usuario ver los resultados de la bsqueda.

2.3.1. Pagerank.
Asume que el nmero de enlaces que una pgina proporciona tiene mucho que ver con la calidad de la misma, es por ello que este algoritmo se puede resumir asi: Una pgina P tiene P1...Pn pginas que apuntan a ella por medio de algn enlace (es decir citas). El parmetro que es un factor de salto aleatorio que se puede fijar entre 0 y 1 (generalmente es 0.85). [Page L, 1998] Este clculo puede realizarse por medio de un algoritmo iterativo y corresponde al vector propio de una matriz normalizada de enlaces en la Web. Pagerank est concebido como un modelo del comportamiento del usuario: si se asume que hay un navegante aleatorio que pasa de una pgina a otra sin presionar el botn retroceder. Otra justificacin intuitiva de Pagerank es que una pgina puede tener un alto coeficiente de Pagerank si existen muchas pginas que apuntan a ella, o si hay un nmero algo menor de pginas que apuntan a ella pero que posean un alto nivel de Pagerank.

Figura 2: Algoritmo Pagerank [Mendoza, 2003].

El Pagerank (Brin and Page 1998) es una parte importante de la funcin de ranking del motor de bsqueda de Google. El PR (pagerank) de una pgina p es la probabilidad de visitar a page.

2.3.3. Algoritmo de Relevancia


Frecuencia de aparicin y posicin del trmino de bsqueda. Este algoritmo tiene en cuenta los siguientes factores: Relevancia de la palabra en el contexto general de pginas indexadas: en cuantas pginas de nuestra web, aparece esta palabra (en forma de densidad: nm/total pg.); Relevancia de la palabra en cada una de las pginas. Tiene en cuenta la densidad de los caracteres que caracteres que forman esa palabra, en las diferentes partes de una pgina web: Densidad en la URL Densidad en el Titulo de la pgina (<title>)(<title>) Densidad en la descripcin Densidad en cabeceras (H1,H2, etc...) Densidad en el nombre de enlaces Densidad en palabras en negrita Densidad en textos alternativos (ALT)

4.1. Google El proyecto Google comenz a desarrollarse en enero de 1996 por Sergey Brin y Larry Page en la Universidad de Stanford, llamndose BackRub debido a la tecnologa que utilizaba, que calculaba la importancia de un sitio Web en base a los enlaces que reciba. Google! es el primer buscador ms popular. Mantiene todas las ventajas de un robot de bsqueda automtica, pues consigue rastreos amplios, y elimina el problema de la informacin de baja calidad y atrasada. Este avance lo logra gracias a que Google! aplica como criterio principal para ordenar los resultados el nmero de enlaces que se dirigen desde los millones de pginas rastreadas hacia otras webs y no, como el resto de los buscadores automticos, el nmero de veces que una palabra clave se repite en una pgina. Hay dos razones por las que Google se hizo muy interesante: una interfaz muy clara y sencilla y resultados muy relevantes. El secreto de los resultados, la tecnologa PageRank (patentada el 4 de septiembre de 2001) hizo que el mundo de los motores de bsqueda cambiase completamente dando un gran giro. Page lo que implement fue un sistema mediante el cul no slo se tenan en cuenta los factores de la propia pgina en la que se buscaba informacin, sino que se tenan en cuenta otros factores externos. Google posee diversos criterios de bsquedas, buscadores de acuerdo a temas especficos y aplicaciones [Google, 2006]. Existen dos algoritmos: algoritmo de pagerank y relevancia. El algoritmo pagerank se basa en la funcin de: El nmero de pginas relacionadas con lo que busca el usuario que linkean o enlazan con la nuestra. Cada link es un voto; el contenido de una pgina, de acuerdo a la densidad de palabras claves, ttulo de la pgina, comparando la bsqueda del usuario. Es debido a esto que Google combina PageRank con tcnicas texto, que emparejan las pginas del hallazgo que son importantes y las relevantes a su bsqueda. Este buscador va ms all de las veces que un trmino aparece en un sitio y examina todos los aspectos del contenido del mismo (y del contenido de las pginas que se ligan a l). Segn www.haaretz.com, Google habra adquirido un "avanzado algoritmo de bsquedas de texto", llamado 'Orion', creado por Ori Alon, un estudiante israel de 27 aos. Orion es un algoritmo para realizar bsquedas de palabras clave dentro de documentos. Adems devolver pequeos fragmentos (snippets) del documento web relacionados con las palabras claves.

[Bird, 2006] Steven Bird, Curran James R.. Building a Search Engine to Drive ProblemBased Learning. University of Melbourne. University of Sydney. Australia. ACM SIGCSE Bulletin, Proceedings of the 11th annual SIGCSE conference on Innovation and technology in computer science education ITICSE '06, Volume 38 Issue 3. Publisher: ACM Press. June 2006. [Brin, 1998] Brin, S. y Page, L.. The Anatomy of a Large-Scale Hypertextual Web Search Engine. WWW7 / Computer Networks 30(1-7): 107-117 (1998). [Chau et al, 2003] Chau Michael, Huang Zan and Chen Hsinchun. Teaching Key Topics in Computer Science and Information Systems through a Web Search Engine Project. The University of Hong Kong, ACM Journal of Educational Resources in Computing, Vol. 3, No. 3, September 2003. [Delgado, 1998] Delgado Domnguez, A. Mecanismos de recuperacin de informacin en la WWW. Palma de Mallorca, Universidad de les Illes Ballears, 1998. [Eastman, 2003] Caroline M. Eastman, Bernard J. Jansen. Impact of query operators on Web search engine results. October 2003. Transactions on Information Systems (TOIS), Volume 21. ACM. [Etzioni et al, 1995] Etzioni Oren & Daniel S. Weld. Intelligent agents on the internet: Fact, Fiction, and Forecast. University of Washington, Seattle, WA 98195-2350, Department of Computer Science and Engineering, May 30, 1995. [Godoy et al] Godoy Daniela, Anala Amandi. Agentes inteligentes para bsqueda de informacin.

ISISTAN - Facultad de Ciencias Exactas - UNICEN. Facultad de Ingeniera, Universidad Nacional de La Pampa.Argentina. [Google, 2006] Factoria de ideas. 24/06/2006

http://zabalnet.diocesanas.org/google/google.pdf [Gulli, 2005] A Gulli, A Signorini. The indexable Web is more than 11.5 billion pages Proceedings of the 14th international conference on World Wide Web. ACM 2005 [Heflin, 2001] Heflin Jeff. Towards the Semantic Web: Knowledge Representation in a Dynamic, Distributed Environment. Ph.D. Thesis, University of Maryland, College Park, 2001. [Jansen, 2007] Bernard J. Jansen, Mimi Zhang, Ying Zhang . Work-in-progress: The effect of brand awareness on the evaluation of search engine results. April 2007 . CHI '07 extended abstracts on Human factors in computing systems CHI '07. ACM Press [Khemakhem, 2006] Khemakhem Sofien, Drira Khalil, Jmaiel Mohamed. Software engineering: sound solutions for the 21st century: SEC: A Search Engine for component based software development. Proceedings of the 2006 ACM symposium on Applied computing SAC '06. Publisher: ACM Press. April 2006 [Kuklinski] Kuklinski Hugo Pardo. Un Modelo de aplicacin WEB Institucional Universitaria. El caso de los WEBCOM: Webs de Facultades de Comunicacin de IBEROAMERICA. Tesis

Doctoral. Universidad Autnoma de Barcelona. [Labrou, 1999] Yannis Labrou, Tim Finin . Yahoo! as an ontology: using Yahoo! categories to describe documents. ACM Press, November 1999. [Leiner, 1997] Barry M. Leiner, Vinton G. Cerf, David D. Clark, Robert E. Kahn, Leonard Kleinrock, Daniel C. Lynch, Jon Postel, Lawrence G. Roberts, Stephen S. Wolff. The past and future history of the Internet. February 1997. Communications of the ACM, Volume 40 Issue 2 [Li et al, 2004] Li Ding, Tim Finin, and Anupam Joshi. Swoogle: A search and metadata engine for the semantic Web. In Proceedings of the Thirteenth ACM Conference on Information and Knowledge Management, pages 5861, Washington DC, November 2004 [Mandl, 2006] Mandl, Thomas. Implementation and Evaluation of a Quality-Based Search Engine. Information Science, University of Hildesheim, Germany. Copyright 2006 ACM 1-59593-4170 [Martinez, 2002] Martnez Mndez, Francisco Javier. Propuesta y desarrollo de un Modelo para la evaluacin de la recuperacin de informacin en Internet. Tesis Doctoral. UNIVERSIDAD DE MURCIA, Facultad de Ciencias de la Documentacin, 2002 [Mendoza, 2003] Mendoza, Marcelo. Jerarquizacin de Pginas Web basada en preferencias de

usuarios. Facultad de Ciencias, Universidad de Valparaso, Chile,2003. [Navarra, 2006] Lara Navarra Pablo, Jos Angel Martnez Usero. Agentes inteligentes en la bsqueda y recuperacin de informacin. Segunda edicin, revisada y ampliada: julio 2006. Planeta- UOC, S.L ISBN 84-9707-571-4 [Navarro, 1999] Navarro-Prieto, R., Scaife, M., & Rogers, Y. Cognitive Strategies in Web Searching. Proceedings of the 5th Conference on Human Factors & the Web, 1999. http://zing.ncsl.nist.gov/hfWeb/proceedings/navarro-prieto/index.html [Nielsen, 2000] NIELSEN, J. (2000), Usabilidad. Diseo de sitios Web, Madrid, Prentice Hall. [Page L, 1998] Page, L., Brin, S., Motwani, R. y Winograd, T., The PageRank Citation Ranking: Bringing Order to the Web. 1998. [Schwartz, 1998] C Schwartz. Web search engines. - Journal of the American Society for Information Science 49(11), 1998 [Shneiderman, 1997] Shneiderman Ben, Don Byrd and W. Bruce Croft. Clarifying Search. A UserInterface Framework for Text Searches. Univ. of Massachussets. D-Lib. 1997. ISSN 10829873.

Funcionamiento Podemos dividir la operacin de los motores de bsqueda en 3 etapas: Web Crawling,

Indexado y la bsqueda en s. Los motores de bsqueda funcionan recopilando informacin sobre las pginas web, que adquieren de su cdigo HTML. Esta informacin es obtenida mediante el uso de programas robot llamados araas, los que, cada cierto tiempo, recorren la web abriendo las pginas como lo hara un browser, descargando todo o parte de su cdigo, comprimindolo y siguiendo cada uno de sus links hacia otras pginas, repitiendo el proceso. Posteriormente, se indexan y se clasifican los contenidos de las pginas para determinar como deben ser organizadas. A cada pgina se le asigna un nmero que la identifica. Luego, estas se dividen en sus componentes lxicos: las palabras (tokens), se indexan (indexado directo) para saber que palabras aparecen en cada pgina y guardar algunos datos adicionales sobre los caracteres que all aparecen. Tambin se le asigna un nmero de identificacin a cada palabra. Finalmente, se reordenan para saber qu pginas o documentos contienen cada palabra (indexado indirecto). A partir de este ndice invertido, se obtienen las pginas que se aparecern cuando se entreguen los resultados de la bsqueda. Cuando el usuario ingresa el texto con la informacin que desea buscar (query), el buscador divide el texto en palabras y les asigna a cada palabra el nmero de identificacin que le

corresponde, posteriormente, va recorriendo el ndice inverso para ver que documentos contienen cada palabra del texto ingresado, hasta que encuentre alguna que los contenga todos. Evala la relevancia del documento respecto a la de los otros documentos encontrados anteriormente y entrega una lista con los k documentos ms relevantes de la lista. vDificultades y desafos implicados: Por su inmenso volumen, solo una fraccin de la red puede ser descargada por las araas de cada buscador, por lo que se deben priorizar aquellas pginas cuyo contenido pueda ser ms relevante para los usuarios. Para hacer esto, cada motor de bsqueda emplea sus propios algoritmos. Tambin se debe considerar que continuamente aparecen y desaparecen pginas de internet, por lo que la informacin almacenada en el ndice puede quedar desactualizada rpidamente. Adems, se debe coordinar el funcionamiento simultneo de varias araas recorriendo zonas distintas de la red y limitar el ancho de banda que utilizan, ya que cada pgina enva mltiples peticiones de pginas por segundo y es probable que coincidan mltiples araas descargando contenidos de un mismo servidor. Para paliar en algo este problema, se ha implementado un protocolo de exclusin de

robots, tambin conocido como robots.txt. Este le indica a la araa que partes del servidor pueden o no ser accedidas por las araas. Actualmente, las araas de numerosos buscadores incluyen una poltica de demoras que establece un tiempo de espera entre peticiones consecutivas de pginas, con el fin de limitar el uso del ancho de banda y no saturar el servidor. En cuanto al ndice, la creacin de este debe considerar varios factores como la integracin de nuevos datos: saber si est agregando nuevos datos, o si simplemente est actualizando los que ya tiene y mantener la disponibilidad de la informacin, al tiempo que la actualiza. Tambin se deben comprimir los datos y organizar la informacin de forma de poder encontrar la informacin en el menor tiempo posible, utilizar la menor cantidad de recursos, poder hacerle mantencin al servidor. Para que la bsqueda pueda llevarse a cabo, deben poder identificarse las palabras que se desea encontrar, para esto se debe separar los documentos en las palabras que las componen lo que requiere poder identificar el tipo de archivo, el tipo de caracteres y el idioma en el que est escrito el documento e incluso, e algunos motores de bsqueda, la categora lxica a la que pertenece la palabra.

Rankeo de pginas Web: Existen distintos mtodos para evaluar la relevancia de los documentos en internet: El primero fue, Hyper Search, de Massimo Marchiori, otros algoritmos usados son el HITS (Hyperlink-Induced Topic Search), desarrollado por John Kleinberg y el Pagerank, desarrollado por Larry Page y Sergei Brin. A modo de ejemplo explicaremos el funcionamiento de Pagerank, el algoritmo utilizado por Google: Este algoritmo intenta simular el comportamiento de un usuario que va clickeando links aleatoriamente hasta que se aburre y deja de hacerlo en una pgina. Esto se puede modelar mediante una cadena de Markov, en la que cada estado representa una pgina y la probabilidad de que el usuario termine en ella viene dada por el nmero de enlaces que la apuntan y por el pagerank de las pginas que la enlazan. El Pagerank, al igual que otros algoritmos basados en el nmero de enlaces, es un algoritmo iterativo: Supongamos un universo de slo 4 pginas: A, B, C y D, donde la probabilidad inicial de estar en cada pgina es la misma y que las pginas B, C y D enlazan a la pgina A. Sea Pr(A) la probabilidad de llegar a la pgina A (Pagerank) y L(A) el nmero de links que salen de la pgina A, si consideramos slo un enlace por pgina tenemos:

Algoritmos de posicionamiento en Google Principalmente existen dos algoritmos utilizados por Google a la hora de indexar los resultados de las bsquedas: Algoritmo de Relevancia Algoritmo de PageRank

Algoritmo de Relevancia La lgica de este algoritmo es la siguiente: Google desea saber si realmente tu pgina tiene la informacin que el usuario est buscando. Para ello comprueba si la palabra buscada aparece en tu pgina y en qu partes de ella lo hace. De este modo, no puedes desatender la organizacin de la informacin de tu pgina, porque sino el el buscador no procedar a su recuperacin en la bsqueda.

Google considera que, por ejemplo, si la palabra est en el ttulo principal de la pgina, seguramente tu pgina s est dedicada al tema que est buscando el usuario. Si la palabra adems aparece varias veces en el texto de la pgina en cuestin, y en muchas otras pginas de esa web, aun con ms razn esa pgina estar dedicada al tema que busca el usuario, por lo que le otorgar un mejor posicionamiento.

Para representar todo esto de forma matemtica Google utiliza el Algoritmo de Relevancia. Dicho algoritmo tiene en cuenta los siguientes factores: Relevancia de la palabra en el contexto general de pginas indexadas: en cuantas pginas de nuestra web, aparece esta palabra (en forma de densidad: nm/total pg.) La relevancia de las palabras que otras webs han utilizado para realizar los enlaces a la nuestra. Relevancia de la palabra en cada una de las pginas.

Orden de importancia de los factores

El orden de importancia(aproximado) de cada una de las localizaciones es el siguiente: Densidad en la URL Densidad en el Titulo de la pgina (tag "title") Densidad en la descripcin (Google no lo tiene en cuenta, para buscadores que no son Google s es importante) Densidad en cabeceras (H1,H2, etc...) Densidad en el nombre de enlaces Densidad en palabras en negrita Densidad en textos alternativos (ALT)

De esto se deduce que, para que nuestra pgina aparezca en las primeras posiciones de una bsqueda, debemos conseguir que la palabra que el usuario busca, aparezca en nuestra URL (en forma de subdominio, de directorio o de nombre de fichero), en el ttulo de nuestra pgina, en la descripcin y en las cabeceras. Algoritmo de PageRank El principal algoritmo de recuperacion de Google se llama PageRank y consiste en la creacin de un sistema de clasificacin de pginas webs en funcin de: El nmero de pginas relacionadas con lo que busca el usuario que linkean o enlazan con la nuestra. Cada pgina que nos enlaza nos est dando 1 voto desde el punto de vista de Google. El contenido e informacin de nuestra pgina. Para evaluarlo mira la densidad de palabras clave, ttulo de la pgina, etc. y la compara con la bsqueda del usuario. Qu es el PageRank

El PageRank es un valor numrico que representa la importancia que una pgina web tiene en Internet. Google se hace la idea de que cuando una pgina coloca un enlace (link) a otra, es de hecho un voto para esta ltima.

Cuantos ms votos tenga una pgina, ser considerada ms importante por Google. Adems, la importancia de la pgina que emite su voto tambin determina el peso de este voto. De esta manera, Google calcula la importancia de una pgina gracias a todos los votos que reciba, teniendo en cuenta tambin la importancia de cada pgina que lo emite.

De este modo, el PageRank es la manera que tiene Google de decidir la importancia de una pgina. Es un dato valioso, porque es uno de los factores que determinan la posicin que va a tener una pgina dentro de los resultados de la bsqueda. No es el nico factor que Google utiliza para clasificar las pginas y realizar su recuperacin, pero s es uno de los ms importantes. La frmula del PageRank La frmula del Page Rank es la siguiente: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Siendo: PR(A) es el PageRank de la pgina que tomamos como referencia. d es el factor de debilitacin. (1-d) asegura que cualquier pgina indexada por Google, aunque no reciba ningn enlace, tendr un PR mnimo de 0'15. PR(T1)/C(T1) ser el PageRank (PR) de una de las pginas que nos enlaza, (T1), dividido por todos los enlaces (C) que tambin salen de esa pgina T1, es decir, el PR que nos transmite. ... + PR(Tn)/C(Tn) lo mismo que el punto anterior, repetido por cada pgina que nos enlace.

Vous aimerez peut-être aussi