Vous êtes sur la page 1sur 26

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Sistemas de busca da web: diretrios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Co lho de Moura Pesquisa personalizada em Quatrocantos.com

Esta srie de artigos apresenta os sistemas de busca da web: os diretrios e os mecanismos de busca, o que so, para que servem e como us-los. Sumrio Considera es gerais acerca da web Introduo aos sistemas de busca Mecanismos de busca Diretrios
Sumrio

Mecanismos de busca e diretrios: caractersticas e diferenas Utilizando os sistemas de busca: modos de pesquisa Operadores booleanos Pesquisa em um diretrio ltima atualizao: 01 de janeiro de 2001 (*) Administrador de empresas; ex-professor da Universidade Federal de Pernambuco. Todos os Direitos Reservados. Copyright 1999, 2000, 2001, 2002. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No permitida a reproduo e a manuteno deste artigo em sites, pginas da web e assemelhados.
MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.
An ncios Google Busca Busca De Sites De Busca Pesquisa
Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Consideraes Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

An ncios Googl

B B

ca ca De

Si e De B

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

An ncios Google Busca Busca De Sites De Busca Pesquisa

www.quatrocantos.com/tec_web/sist_busca/SB_SUM.HTM

1/1

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Sistemas de busca da web: diret rios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Colho de Moura Pesquisa personalizada em Quatrocantos.com

Considera es gerais acerca da web A primeira vez que uma pessoa faz, ou tenta fazer, uma pesquisa na web , quase sempre, uma experincia frustrante. O nefito j ouviu falar por a que na Internet existe de tudo, inclusive informaes valiosas sobre o tema que lhe desperta a vontade de navegar pela rede. A o nosso nefito se prepara em frente ao monitor, faz a conexo, v o Netscape ou o Internet Explorer ali na telinha do computador e... E agora? Como comear? E o nosso amigo nem sai do lugar, no acha nada. Na verdade, nem sabe como procurar. E a razo dessa frustrao muito simples. A web a entidade mais desorganizada e catica do planeta. (Todo mundo est cansado de saber que vai uma boa dose de exagero nessa afirmao. Tem muita repartio por a que ganha de lambuja. Mas isso outra histria.)
Sumrio

As normas e leis que vigem na web se resumem a padres de linguagem, de protocolos de comunicao, de registro de domnios. Coisas meramente tcnicas. Aos mais desavisados, a web parece uma imensa livraria completamente desorganizada. Mas muito pior. Apesar disso, possvel achar as informaes que se procuram, desde que, evidentemente, elas estejam por l... (Um pouco de sorte tambm ajuda.) Uma ressalva Pode-se encontrar, mas necessrio que alm de a pgina que aborda o assunto estar l, que essa pgina tambm tenha sido catalogada por uma entidade chamada sistema de busca. Ou ento que o autor da pgina tenha tido uma considerao toda especial com voc e tenha lhe passado o endereo da pgina, o URL - Uniform Resource Locator. Quer dizer: algum pode ter elaborado uma pgina maravilhosa sobre... sobre... vamos ver... selos. Isso a: selos. Esse algum criou a pgina com belas reprodues de selos raros, histrias curiosas, catlogos de preos. Mas o autor da pgina nem se lembrou de avisar aos filatelistas nem tampouco avisou aos sistemas de busca para catalogarem sua obra prima: A Pgina. Resultado: ningum vai tomar conhecimento dela. Seria a web uma imensa livraria? Agora, imagine voc o que procurar alguma coisa numa imensa livraria totalmente desorganizada, catica e sem vendedores a quem pedir alguma informao. Uma livraria normal, quer dizer, razoavelmente organizada, por maior que ela seja, ela tem seus livros, revistas e publicaes em geral dispostos segundo algumas normas ou critrios. Podem estar dispostos segundo a editora, o assunto ou o gnero literrio, segundo a ordem alfabtica dos autores. Existe um padro de organizao. Qualquer pessoa, conhecendo essa forma de organizao, capaz de achar qualquer livro ou publicao. Na web, no bem assim. A web uma imensa base de dados, uma formidvel coleo de textos, livros, artigos, revistas, jornais, e-zines, catlogos de produtos e de servios, msicas, sons, imagens, fotografias, programas de computador, vdeos, filmes, peas publicitrias. Tudo isso encontra-se por l. E est ao seu alcance, desde que voc saiba como encontrar o que lhe interessa utilizando os sistemas de busca. ( bom lembrar que na web tambm existe muito lixo e coisas sem qualquer utilidade. Pra quem gosta do gnero "coisas inteis" sugiro uma visita a http://www.go2net.com/internet/useless/ )
www.quatrocantos.com/tec_web/sist_busca/10CONSID.HTM

Consideraes Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

An ncios Googl

B sca Do Goo

B sca No Goo

B sca Google

1/3

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Esta srie de artigos sobre os sistemas de busca baseada na premissa de que voc, usurio recm chegado ao mundo da Internet e ainda em incio de carreira, est interessado em usar a web para realizar pesquisas e obter informaes a respeito de determinado assunto. Qual o assunto? Qualquer um. O tamanho da web Qualquer assunto que voc imaginar voc encontra na web, pois nessa imensa e catica livraria, ou biblioteca, como preferir, tem de tudo. O que pode acontecer que a pgina que contm o tal assunto no esteja em portugus, mas em outro idioma, provavelmente em ingls. Segundo a empresa Inktomi (http://www.inktomi.com/webmap/) 86.55 % das pginas da web esto em ingls. Considerando que o nmero de habitantes dos pases de lngua inglesa corresponde a uns 6,8 % da populao mundial constata-se a predominncia desse idioma na web. Em fevereiro de 1999, o nmero de documentos (ou pginas) existentes na web era estimado em cerca de 800 milhes (LAWRENCE e GILES) e, segundo clculos, esse nmero deveria dobrar a pelo comeo do ano 2000. Duas empresaas americanas, a NEC e a Inktomi estimaram que havia, no incio de fevereiro deste ano de 2000, cerca de 1 bilho de pginas indexveis na web (Veja http://www.inktomi. com/webmap/ . Levando em conta que a por volta do carnaval do ano 2000 a populao mundial era um pouco mais de 6 bilhes de pessoas e dividindo essa populao pelo nmero de pginas existentes na web, cerca de 1 bilho de pginas, tem-se que para cada seis habitantes do planeta existiria uma pgina. Mas essa mdia, como qualquer outra mdia, pouco expressa em termos de realidade, pois o grau de pobreza da maior parte dos habitantes da terra impede essa grande maioria de ter acesso Internet. Na verdade impede essa grande maioria de ter acesso at mesmo aos itens mais bsicos de cidadania: comida, educao, trabalho, sade e moradia, por exemplo. Em Pindorama tambm assim. A web no Brasil Para uma populao de cerca de 160 milhes de pessoas, existem, no Brasil, de 3 a 8 milhes de usurios da Internet, dependendo de quem faz a estimativa. Os critrios ou metodologias de clculo so os mais diversos. Se existem vrios nmeros diferentes para quantitificar o nmero de usurios, bem mais fcil saber quantos domnios registrados existem no Brasil. Segundo a Fapesp, havia, em 31 de dezembro de 2000, 359.630 domnios registrados. Alm dos domnios registrados no Brasil, h, ainda, um nmero no contabilizado, e difcil de se determinar, de domnios que esto sob a responsabilidade de brasileiros residentes no Brasil mas que so registrados noutros pases, principalmente nos Estados Unidos. As razes dessa migrao virtual so diversas, mas a principal , certamente, o menor custo de manuteno de um site nos Estados Unidos. L, as empresas de hospedagem de sites cobram a partir de dez centavos de dlar por um megabyte de espao em disco. Aqui no Brasil, as empresas cobram muito mais. Alm disso, l existem, h vrios anos, as empresas de hospedagem gratuita de sites. Aqui no Brasil, agora que comeam a surgir empresas desse tipo. Quanto taxa de registro de um domnio nos Estados Unidos, a Network Solutions e empresas credenciadas cobram U$ 70 para o registro e a manuteno de um domnio durante o perodo de dois anos. Nos anos subseqentes, a taxa de 35 dlares por ano. Aqui no Brasil, para o mesmo registro, a Fapesp cobra R$ 50 de inscrio mais R$ 50 por ano.

Mas j est na hora de comear a falar sobre os sistemas de busca: o que um sistema de busca? Clique aqui para ver a segunda parte: Introduo aos sistemas de busca. LAWRENCE, Steve e GILES, C. Lee. Accessibility of information on the web. Nature, vol. 400. July 1999. Pag. 107 - 109. (Reprint desse artigo pode ser solicitado atravs da pgina http://www.neci.nj.nec.com/ ~giles/html/ new.stuff.html)

MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na www.quatrocantos.com/tec_web/sist_busca/10CONSID.HTM

2/3

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.
An ncios Google Busca Do Google Busca No Google Busca Google Registro De Dominio
Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

An ncios Google Busca Do Google Busca No Google Busca Google Registro De Dominio

www.quatrocantos.com/tec_web/sist_busca/10CONSID.HTM

3/3

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Sistemas de busca da web: diretrios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Co lho de Moura Pesquisa personalizada em Quatrocantos.com

Introduo aos sistemas de busca No captulo anterior, foram apresentadas algumas idias gerais acerca da web. Aqui neste captulo ser feita uma primeira abordagem sobre os sistemas de busca. Muito bem: o que um sistema de busca? Um sistema de busca um conjunto organizado constitudo de computadores, ndices, bases de dados e algoritmos tudo isso reunido com a misso de: analisar e indexar as pginas da web, armazenar os resultados dessa anlise e indexao numa base de dados e mais: quando de uma consulta de um usurio, o sistema de busca vai pesquisar a sua base de dados e fornecer os resultados da pesquisa ao usurio. Todas essas funes realizam-se em um site da web cuja pgina de abertura , geralmente, um portal. Classes de sistemas de busca Existem duas classes de sistemas de busca: os diretrios e os mecanismos de busca e ambos tm a mesma finalidade: do ponto de vista do usurio-consulente-internauta: possibilitar a localizao de sites e pginas (home pages) que contm um determinado assunto ou aborda um determinado aspecto de um assunto; do ponto de vista do proprietrio-dono-autor de uma pgina: fazer com que o seu site seja localizado, da maneira mais fcil possvel, pelo usurio-consulente-internauta, eventualmente um consumidor do produto divulgado no site. Essas denominaes, diretrios e mecanismos de busca, no esto devidamente consolidadas em lngua portuguesa, pelo menos no Brasil, pois encontram-se variadas denominaes para eles. Em outras lnguas parece j ter havido um acordo a esse respeito. (Clique aqui para ver o quadro com as denominaes dos sistemas de busca em alguns idiomas.)
Sumrio Consideraes Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

An ncios Googl

B sca Do Goo B sca

B sca No Goo

Terminologia dos sistemas de busca Para no ficar misturando as coisas, ser adotada aqui a seguinte terminologia: sistema de busca o termo genrico que engloba as duas categorias: os mecanismos de busca e os diretrios; mecanismos de busca so os sistemas de busca baseados no uso exclusivo de
www.quatrocantos.com/tec_web/sist_busca/11INTROD.HTM 1/2

18/03/12

mecanismos de busca so os sistemas de busca baseados no uso exclusivo de programas de computador para a indexao das pginas da web; diretrios so os sistemas de busca nos quais a indexao das pginas da web realizada por humanos. Vale destacar que ao realizar uma pesquisa, quer seja atravs de um mecanismo de busca quer seja atravs de um diretrio, voc no est pesquisando diretamente a web. Voc est pesquisando uma base de dados localizada num site da web. Nessa base de dados, encontra-se uma cpia, uma fotografia ou, fazendo uma analogia, s vezes uma simples foto 3 x 4 dos sites e pginas existentes na web. E mais: nenhum sistema de busca tem em sua base de dados toda a web catalogada, todo o universo de 1 bilho de pginas. Segundo Search Engine Watch, o maior dos sistemas de busca, o Fast Search (All The Web) tem cerca de 38 % da web indexada em sua base de dados. O segundo maior sistema de busca, o Alta Vista, tem cerca de 31% da web em sua base de dados. (Dados de fevereiro de 2000.) Agora, ao que interessa: o que essas entidades significam. O que um diretrio? O que uma ferramenta de busca? O que um mecanismo de busca? Clique aqui para ver a terceira parte: Mecanismos de busca. Denomina es dos sistemas de busca em alguns idiomas Idioma Espanhol Francs Ingls Italiano Portugus - Brasil Denomina es Motor de bsqueda, directorio. Moteur de recherche, engin de recherche, outils de recherche. Search engine, directory, search tool, key word index. Motore di ricerca. Sistema de busca, ferramenta de busca, ferramenta de procura, mecanismo de busca, motor de busca, motor de procura, diretrio, indexador, catlogo, site de busca, programa de busca, servio de busca, engenho de busca Portugus - Portugal Motor de busca, motor de pesquisa, apontador, directrio.

Sistemas de busca da web: diret rios e mecanismos de busca

Volta

MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.
An ncios Google Busca Do Google Busca Busca No Google Busca De
Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

An ncios Google Busca Do Google Busca Busca No Google Busca De

www.quatrocantos.com/tec_web/sist_busca/11INTROD.HTM

2/2

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Ganhe Cupom de R$ 100,00


Anuncie Hoje no Google AdWords E Fa a De Cada Visita Um Novo Cliente
www.cupomgoogleadwords.com.br

Sistemas de busca da web: diretrios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Co lho de Moura Pesquisa personalizada em Quatrocantos.com

Mecanismos de busca No captulo anterior (Introduo aos sistemas de busca) foi apresentada uma idia geral dos sistemas de busca, dos mecanismos de busca e dos diretrios. Neste captulo, essas entidades sero apresentados com maior detalhamento. Vistos de uma forma simplificada, os mecanismos de busca tm trs componentes principais: um programa de computador denominado robot, spider, cra ler, anderer, kno bot, orm ou eb-bot. Aqui, vamos cham-los indistintamente de rob. Esse programa "visita" os sites ou pginas armazenadas na web. Ao chegar em cada site, o programa rob "pra" em cada pgina dele e cria uma cpia ou rplica do texto contido na pgina visitada e guarda essa cpia para si. Essa cpia ou rplica vai compor a sua base de dados. o segundo componente a base de dados constituda das cpias efetuadas pelo rob. Essa base de dados, s vezes tambm denominada ndice ou catlogo, fica armazenada no computador, tambm chamado servidor do mecanismo de busca. o terceiro componente o programa de busca propriamente dito. Esse programa de busca acionado cada vez que algum realiza uma pesquisa. Nesse instante, o programa sai percorrendo a base de dados do mecanismo em busca dos endereos - os URL - das pginas que contm as palavras, expresses ou frases informadas na consulta. Em seguida, os endereos encontrados so apresentados ao usurio.

Sumrio Consideraes Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

Fun es bsicas de um sistema de busca. Esses trs componentes esto estreitamente associados s trs funes bsicas de um sistema de busca: a anlise e a indexao (ou "cpia") das pginas da web, o armazenamento das "cpias" efetuadas e a recuperao das pginas que preenchem os requisitos indicados pelo usurio por ocasio da consulta. Para criar a base de dados de um mecanismo de busca, o programa rob sai visitando os sites da web. Ao passar pelas pginas de cada site, o rob anota os URL existentes nelas para depois ir visitar cada um desses URL. Visitar as pginas, fazer as cpias e repetir a mesma operao: cpia e armazenamento, na base de dados, do que ele encontrar nesses sites. Essa uma das formas de um mecanismo de busca encontrar os sites na web. A outra maneira de o mecanismo de busca encontrar os sites na web o "dono" do site informar, ao mecanismo de busca, qual o endereo, o URL, do site. Todos os mecanismos de buscas tm um quadro reservado para o cadastramento, submisso ou inscrio de novas pginas. um hiperlink que recebe diversas denominaes conforme o sistema de busca. Veja alguns exemplos. Nome do hiperlink Acrescente uma URL
www.quatrocantos.com/tec_web/sist_busca/12MECBUS.HTM

Mecanismos de busca RadarUol


1/2

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Cadastre a sua pgina no Radix Inserir site

Radix Zeek

Nos sites de lngua inglesa, usam-se, geralmente, hiperlinks denominados List our site, Add URL ou Add a site. Resumindo: num mecanismo de busca, um programa de computador visita as pginas da web e cria cpias dessas pginas para si. Essas cpias vo formar a sua base de dados que ser pesquisada por ocasio de uma consulta. Alguns mecanismos de busca: Radix AltaVista Excite HotBot Lycos Northern Light RadarUol Fast Search (All the Web) Snap InfoSeek Aol.Com WebCrawler

Clique aqui para ver prximo captulo. Ele aborda os diretrios.


MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.

Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

www.quatrocantos.com/tec_web/sist_busca/12MECBUS.HTM

2/2

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Sistemas de busca da web: diret rios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Colho de Moura Pesquisa personalizada em Quatrocantos.com

Diret rios No captulo anterior, foram abordados os mecanismos de busca. Agora a vez dos diretrios. Um diretrio tem dois componentes principais: uma base de dados, tambm chamada de ndice ou catlogo e um programa de computador que faz a pesquisa na base de dados. A montagem ou criao da base de dados de um diretrio realizada por humanos. So eles, os humanos, que fazem a anlise e a indexao dos sites da web. Nos diretrios, no existem robs para a catalogao e a indexao da web: quem faz isso so humanos. Enquanto os mecanismos de busca copiam todo o contedo das pginas que encontram pela frente e mantm tudo isso em suas bases de dados, os diretrios mantm em suas bases de dados apenas um resumo do contudo dos sites por ele catalogados (1). Muitas vezes esse resumo que fica na base de dados do diretrio contm, apenas, o ttulo do site mais duas ou trs frases sobre o assunto nele contido. Esse resumo tanto pode ser elaborado pelo autor da pgina ou por quem a submete como por um editor, dependendo do diretrio. Conforme j se falou anteriormente, o diret rio tem a mesma finalidade dos mecanismos de busca: a indexao e a recuperao de pginas da web. Eles tm a mesma finalidade, mas existem duas diferenas fundamentais entre os diretrios e os mecanismos de busca. Duas diferenas A primeira diferena o modo de o diretrio encontrar na web os sites a serem por ele indexados. Enquanto o programa rob do mecanismo de busca toma, ou pode tomar, a iniciativa de sair visitando os sites e suas pginas pelo mundo afora, o diretrio fica l "na dele" esperando que voc, o dono do site e das pginas, tome a iniciativa de apresent-los a ele. A segunda diferena: o diretrio classifica o contedo dos sites segundo categorias e subcategorias, setores de atividade econmica ou ramos do conhecimento. Quando voc for informar o URL de seu site para que o diretrio faa a indexao dele, voc tambm deve dizer a ele a qual dessas categorias sua pgina pertence. ( bom lembrar que alguns mecanismos de busca tambm solicitam que voc informe o assunto ou a categoria do seu site.) Pois bem, mas a diferena mais significativa mesmo fica por conta de quem faz a indexao das pginas da web. Enquanto nos mecanismos de busca quem realiza essa atividade uma mquina, um programa de computador, nos diretrios quem faz a anlise e a indexao dos sites so humanos. claro que os humanos que trabalham na construo e na montagem dos diretrios tambm usam programas de computador para criar a sua (deles...) base de dados. Mas so eles, os humanos, que fazem a anlise dos sites apresentados. E a que se encontra a diferena fundamental entre os mecanismos de busca e os diretrios: a participao dos humanos na construo da base de dados. Os humanos Agora, me permitam abrir um parntese. uma observao sobre humanos. Seguinte: geralmente fala-se que o homem isso, que o homem faz aquilo, que o homem descobriu ou que inventou alguma coisa usando esse termo, homem, como uma referncia ao gnero humano. Ao verem isso, muitas mulheres se irritam e reclamam porque sentem-se excludas.

Sumrio Consideraes Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

An ncios Googl

B sca Do Goo B sca

B sca No Goo

www.quatrocantos.com/tec_web/sist_busca/13DIRET.HTM

1/4

18/03/12

humano. Ao verem isso, muitas mulheres se irritam e reclamam porque sentem-se excludas. E com justa razo. Como no pretendo ferir as susceptibilidades femininas por no serem clara e explicitamente citadas, eu decidi usar a palavra humanos = mulheres + homens. Est explicado e fecho o parntese. :) Continuando... Sim, a interferncia dos humanos. Pois , enquanto na criao da base de dados dos mecanismos de busca os humanos no interferem (ou pouco interferem, na verdade), para a criao da base de dados dos diretrios os humanos so essenciais. E voc quem deve tomar a iniciativa. Sempre. Voc informa ao diretrio o ttulo, o URL, a descrio do contedo, a categoria a que o site pertence e mais algumas informaes complementares, como no caso do Yahoo!. Caso o diretrio disponha de uma equipe de editores, eles iro at o site e faro uma "vistoria" nele. Uma vez aprovada a incluso, o site inscrito no ndice dele. Mas tambm existem os diretrios sem editores. Eles aceitam as informaes do jeito que voc mandar e a arquivam l no ndice deles. Entre os diretrios com editores destacam-se o Yahoo! e o LookSmart. O Yahoo! dos Estados Unidos dispe de uma equipe de de mais de 100 editores. O LookSmart tem cerca de 200 editores. Quando ocorre de o diretrio s fazer a incluso de um site aps a conferncia do pessoal de l, trs coisas podem acontecer: talvez seu site demore bastante tempo para aparecer na base de dados deles. Alguns diretrios prometem fazer a incluso de um site no prazo de duas semanas. Outros diretrios do um prazo de at seis semanas; talvez sua pgina jamais aparea por l ou talvez sua pgina seja logo logo indexada e saia passeando pelo mundo afora. (Passear fora de expresso, pois ela no vai a lugar algum...) Talvez!? Uma pessoa mais curiosa pode interromper essa conversa toda e perguntar: "Que histria essa de tanto talvez? Afinal de contas, que garantia eu vou ter de que minha pgina vai ser analisada e indexada por um diretrio?" Calma. A vai a resposta: voc, nem ningum, jamais vai ter a menor garantia de que sua pgina vai aparecer indexada num diretrio que tem editores para analisar as pginas submetidas. Jamais. "E por que no?" A j vem outra histria... Os humanos, ao contrrio dos programas de computador, so cheios de preferncias pessoais e usam aquilo que eles chamam de critrios de relevncia. segundo esses critrios de relevncia que os editores vo avaliar se sua pgina merece ou no freqentar os ndices deles. Subjetividade na avaliao? Certamente. "E se eles rejeitarem minha pgina, o que que eu fao?" Que tal cantar um tango argentino? No sabe cantar um tango argentino? Cante um baio, uai!... Na verdade voc no pode fazer nada. A-bi-sso-lu-ta-men-te-na-da. Mas o que pode parecer um defeito , sem dvida, uma das qualidades mais marcantes dos diretrios que tm equipe de editores. A anlise dos editores tem por finalidade evitar que se faa a indexao de coisa imprestvel, lixo que jamais vai ser procurado por um consulente. Se voc visitar um diretrio e procurar pela palavra gato, o feldeo, dificilmente voc vai deparar com uma pgina pessoal (epa!) de um ronronante gatinho homenageado pelo(a) feliz proprietrio(a)... Nos (bons) diretrios, dificilmente voc vai encontrar uma pgina do tipo: Eu (uma foto); Eu passeando (outra foto); Eu estudando (outra foto)... Eu me chamo Fulan... No se deve pensar em mecanismos de busca e em diretrios como duas entidades que se contrapem e se excluem. Eles se complementam. Veja o caso do AltaVista, um mecanismo de busca. Ele

Sistemas de busca da web: diret rios e mecanismos de busca

www.quatrocantos.com/tec_web/sist_busca/13DIRET.HTM

2/4

18/03/12

e se excluem. Eles se complementam. Veja o caso do AltaVista, um mecanismo de busca. Ele apresenta na pgina de abertura uma coleo de categorias. Neste caso, voc tem duas alternativas de pesquisa: voc pode pesquisar atravs das categorias ou fazer a pesquisa atravs de palavras chave. Ao clicar numa das categorias, o programa transfere o controle para o LookSmart, um diretrio, e nele que a pesquisa realizada. Caso anlogo ocorre com o Yahoo!. Se o assunto indicado no quadro de pesquisa no for encontrado na base de dados dele, o Yahoo! vai fazer a pesquisa na base de dados do Inktomi. O Inktomi no um sistema de busca que se encontra ao alcance do usurio comum. Essa empresa mantm uma base de dados accessvel, apenas, aos sistemas de busca.

Sistemas de busca da web: diret rios e mecanismos de busca

Quem paga a conta? S mais uma coisinha: a maioria dos sistemas de busca presta um servio gratuito, o de divulgao do seu site ou de ajuda numa pesquisa. Nos servios gratuitos, a remunerao deles vem da publicidade inserida, por exemplo, no topo da pgina. Outra propaganda, mais insidiosa, aquela apresentada quando da resposta a uma consulta e que lhe mostra um produto que, "por acaso", tem a ver com a sua consulta. A vo alguns dos sistemas de busca que cobram para a insero ou quando do fornecimento de informaes ou artigos. So eles:o GoTo.Com, o Galaxy, o NorthernLight, o Matilda, o Yahoo! e o Excite.. O GoTo.Com diz que voc seleciona os termos mais relevantes para o seu site. Depois, diz ele, voc determina quanto quer pagar pela posio do seu site nas respostas. Para aparecer nos primeiros lugares, voc paga mais. O Galaxy, um diretrio e, segundo eles, o primeiro sistema de busca da web, lanado em 1994, cobra pelo cadastramento de um site da seguinte maneira: os donos do Galaxy dizem no garantir que os sites submetidos sejam analisados e indexados em um tempo razovel. Para assegurar uma rpida incluso do site no ndice deles, voc deve pagar uma taxa de U$ 25. Outro servio pago o da NorthernLight, um mecanismo de busca. Ele cobra de um a quatro dlares por documento fornecido de sua "Special Collection". Um detalhe: se o usurio no ficar satisfeito com o documento obtido, mesmo depois de t-lo baixado, impresso e lido, a NorthernLight se compromete a devolver o dinheiro recebido por ele. Matilda, um site australiano , cobra a taxa anual, que eles chamam de "voluntary fee", no valor de U$ 29. Instituies educacionais, sites pessoais e entidades sem fins lucrativos so isentos da taxa desde que esses sites faam a insero de um link para o Matilda. Cento e noventa e nove dlares quanto o Excite cobra para inserir uma pgina na base de dados deles dentro de 48 horas (http://www.excite.com/info/add_url/) O Yahoo cobra U$ 199 pela garantia de inserir um site dentro de sete dias. A pgina http://docs.yahoo.com/info/ suggest/busexpress.html descreve essa opo denominada Business Express. (No sei se a verso brasileira do Yahoo! j dispe de um "servio" equivalente.. Algum que j tenha tendado submeter um site ao Yahoo!, de l ou daqui, deve ter percebido que o tempo normal de insero de um site nele bastante dilatado...) Exemplos de diretrios A vo alguns diretrios: Aonde Cad?
www.quatrocantos.com/tec_web/sist_busca/13DIRET.HTM

www.aonde.com www.cade.com.br
3/4

18/03/12

Cad?

Sistemas de busca da web: diret rios e mecanismos de busca

www.cade.com.br

Bookmarks Yahoo! Aeiou Sapo

www.bookmarks.com.br www.yahoo.com.br www.aeiou.pt www.sapo.pt

E quais as diferenas entre os mecanismos de busca e os diretrios? Clique aqui para saber.

(1) Na verdade, h mecanismos de busca que, de fato, copiam todo o contedo das pginas da web como o AltaVista, o Northern Light e o Inktomi. Mas h, tambm, mecanismos de busca que coletam, apenas, algumas informaes das pginas catalogadas. Volta
MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.
An ncios Google Busca Do Google Busca Busca No Google Busca De
Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

An ncios Google Busca Do Google Busca Busca No Google Busca De

www.quatrocantos.com/tec_web/sist_busca/13DIRET.HTM

4/4

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Sistemas de busca da web: diretrios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Colho de Moura Pesquisa personalizada em Quatrocantos.com

Mecanismos de busca e diret rios: caractersticas e diferenas J que os sistemas de busca foram devidamente apresentados nos captulos anteriores, agora voc vai ver alguns aspectos que distinguem os diretrios dos mecanismos de busca. Os mecanismos de busca e os diretrios diferem entre si em vrios aspectos: tamanho, modo de cadastramento e de atualizao, atualidade.
Sumrio Consideraes

Tamanho Os mecanismos de busca so, de uma maneira geral, enormes... Veja alguns nmeros em julho de 2001: Mecanismos de busca Google Fast Search All the Web Webtop.com Inktomi AltaVista Northern Light Excite N mero de pginas (em milhes) 1.347 575 500 500 550 350 250

Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

An ncios Googl

B sca Do Goo B sca

B sca No Goo

Fonte: http://searchenginewatch.internet.com/ reports/sizes.html Sobre nmeros e estatsticas sobre a Internet vale a pena consultar a pgina intitulada Irresponsible Internet Statistics Generator em http://www.anamorph.com/docs/ stats/stats.html . Tamanhos de alguns diretrios Diretrios Yahoo! USA Open Directory Looksmart Snap N mero de sites indexados 1,5 a 1,8 milho 2.714.693 2.000.000 1.500.000 Data da estimativa ago.00 jul.01 (01) ago.00 dez.00
1/3

Fonte: http://searchenginewatch.internet.com/ reports/directories.html www.quatrocantos.com/tec_web/sist_busca/14CARAC.HTM

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Fonte: http://searchenginewatch.internet.com/ reports/directories.html (1) Fonte: Open Directory http://dmoz.org/ No Brasil, o RadarUol, um mecanismo de busca, "...realiza a procura no texto integral de mais de 110 milhes de documentos em seu banco de dados...." (V. o texto Introduo ao uso do Radar UOL em http://www.uol.com.br/radaruol/ ajuda_introducao.htm ). Dados de maro de 2000 e ainda constantes dessa pgina em 11.jul.2001. O Yahoo! do Brasil, um diretrio, possua cerca de 13 mil pginas indexadas ao iniciar os servios em 1999. O Radix informava possuir mais de 5 milhes de pginas catalogadas em maro de 2000. Em 01 de janeiro de 2001, o Cad possuia mais de 300 mil endereos cadastrados. Os diretrios geralmente tm uma base de dados de menor tamanho que os mecanismos de busca. Mas isso no significa que eles produzam, necessariamente, resultados inferiores. Muito pelo contrrio. Devido ao modo de criao de sua base de dados, geralmente eles tm um ndice de relevncia bem maior. Modos de cadastramento e de atualizao Nos mecanismos de busca, h duas possibilidades de sua pgina ser cadastrada: 1. um programa de computador se encarrega de encontrar sua pgina. (Isto apenas uma probabilidade terica); 2. voc informa ao mecanismo de busca o URL (endereo) de sua pgina. A os robs vo chegar por l mais cedo do que se deixados por conta prpria. Quer que sua pgina aparea num diretrio? S tem um jeito: ir at a pgina de cadastramento (submisso ou inscrio) e apresent-la. Voc vai ter de informar, alm do URL (o endereo do site), a categoria a que o seu site pertence e mais um resumo do contedo dele, alm do seu e-mail. Cada diretrio possui o seu prprio sistema de classificao ou de definio de categorias. Segundo Search Engine Watch, o Open Directory tem 361 mil categorias, o LookSmart 200 mil e o Snap tem 80 mil. Veja um exemplo de classificao. Ao procurar no Yahoo! Brasil por Chico Science, saudoso criador do movimento Mangue Beat no Recife, voc vai ach-lo em: Entretenimento > Msica > Artistas > Por Gnero > Rock e Pop Nacional > Mangue Beat > Nao Zumbi (Curiosidade: um dos sites mencionados, o Chico Science & Nao Zumbi, encontra-se hospedado no Reino de Tonga: http://welcome.to/csnz :) Mais um aspecto a considerar: enquanto um mecanismo de busca pode cadastrar todas as pginas de um site uma a uma, um diretrio cadastra todo um site. (Lembre-se de que um site pode conter vrias pginas.) No raro encontrar-se, nos resultados de uma pesquisa num mecanismo de busca, vrias pginas de um mesmo site abordando um mesmo assunto. Isto no ocorre num diretrio. Exemplo bem interessante (?!) dessa diferena - cadastramento de site e de pginas - entre os diretrios e mecanismos de busca, voc encontra ao pesquisar "carnaval" e "olinda" no Cad e no RadarUol. O Cad apresenta 18 ocorrncias. Todas relevantes. O RadarUol mostra 394 resultados. Dos 50 primeiros resultados, 34 so sobre um tal de webcast que no se pode dizer que tenham qualquer relevncia... (Pesquisa realizada em julho de 2001).

Atualidade
www.quatrocantos.com/tec_web/sist_busca/14CARAC.HTM

As bases de dados dos mecanismos de busca so (ou deveriam ser...), de uma maneira geral, mais

2/3

18/03/12

As bases de dados dos mecanismos de busca so (ou deveriam ser...), de uma maneira geral, mais atualizadas do que as bases de dados dos diretrios. A razo dessa maior atualidade dos mecanismos de busca muito simples. Os seus robs no dependem dos humanos para a atividade de catalogao da web. J os diretrios, eles dependem totalmente dos humanos para essa catalogao. O tempo de espera, desde a apresentao de um site (ou URL) a um mecanismo de busca, at que ele venha a surgir nas pesquisas pode ser de um dia a trs semanas. Nos diretrios, esse tempo de espera geralmente muito maior. No que se refere ao modo de pesquisa, os diretrios permitem as duas formas de pesquisa: atravs de palavras chave e atravs de diretrio ou ndice hierrquico. Dos mecanismos de busca mais conhecidos, apenas o All the Web e o Google.com no dispe de ndice hierrquico disponvel em sua pgina de abertura. O AltaVista tem a opo de busca atravs de ndice hierrquico, mas esse ndice pertence ao LookSmart. Fica difcil, portanto, estabelecer uma diferena entre os sistemas de busca baseada exclusivamente no modo de pesquisa. Enfim, as distines As distines entre os dois sistemas de busca se resumem aos seguintes aspectos: 1. a existncia dos robs nos mecanismos de busca. Nos diretrios, eles inexistem; 2. a exigncia de apresentao de um site ao diretrio, pois, sem sua apresentao o diretrio jamais vai tomar conhecimento dele. Num mecanismo de busca, um site pode ser descoberto devido a um link existente em outra pgina, muito embora isso seja apenas um probabilidade remota; 3. o nmero de sites catalogados. Os mecanismos de busca so bem maiores; 4. atualidade dos mecanismos de busca. Devido velocidade com que os robs varrem a rede, os mecanismos de busca conseguem catalogar mais rapidamente uma nova pgina. O prximo captulo trata dos modos de pesquisa nos sistemas de busca.

Sistemas de busca da web: diret rios e mecanismos de busca

MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.
An ncios Google Busca Do Google Busca Busca No Google Busca Google
Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

An ncios Google Busca Do Google Busca Busca No Google Busca Google

www.quatrocantos.com/tec_web/sist_busca/14CARAC.HTM

3/3

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Sistemas de busca da web: diretrios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Co lho de Moura Pesquisa personalizada em Quatrocantos.com

Utilizando os sistemas de busca: modos de pesquisa Conforme j foi dito noutro artigo, o nmero estimado de pginas da web no incio de 2000 era de cerca de 1 bilho de pginas. Para algum localizar, nesse universo, uma pgina que contenha um determinado assunto necessrio que se usem alguns recursos dos sistemas de busca. No basta, simplesmente, indicar a palavra e esperar o resultado. H quem use um lugar comum ao falar das dificuldades de pesquisa na web: o mesmo achar uma agulha num palheiro, dizem. (A propsito: jamais encontrei essa palavra palheiro que no fosse associada a uma agulha que se pretende encontrar. Acho, mesmo, que jamais algum conseguiu encontrar tal objeto em tal local...:) Suponho que voc se interesse por futebol. (Eu no me interesso nem um pouco, diga-se de passagem.) Por acaso, acabei de pesquisar a palavra futebol e obtive os seguintes resultados (julho de 2001): Sistemas de busca Google AltaVista Radix NorthernLight RadarUol Yahoo! Brasil (1) (1) 68 categorias e 641 sites para futebol. E agora? Por onde comear a seleo das pginas? Tem mais: qual delas contm o aspecto que interessa? Dificilmente algum realiza uma pesquisa assim, sem mais nem menos, indicando uma s palavra. A pessoa interessada na pesquisa sempre delimita de alguma maneira o campo de busca, seja indicando o idioma (restrio permitida no AltaVista, Google, Hot Bot e Excite) seja indicando um intervalo no calendrio, ou informando mais de uma palavra. Sempre se deve usar algum recurso de modo que haja uma reduo do universo ou do alcance da busca. Quer dizer, o pesquisador sempre tem em mente alguma coisa mais ou menos especfica. Talvez ele queira saber algo acerca de um time de futebol como, por exemplo, o bis Sport Clube, conhecido como o pior time de futebol do mundo. O que o nosso pesquisador deve fazer? Ele vai at a pgina de pesquisa do Radix e escreve ibis . Resultado: 2.447 links. bis pior futebol mundo com a opo "Todas as palavras acima". E a resposta vem logo, logo. O URL do glorioso bis Sport Clube (http://members.nbci.com/IbisSC/), o Pior Time do Mundo, ttulo que ele ostenta com muito orgulho, aparece logo na primeira pgina de resultados junto a notcias sobre o glorioso time N mero de pginas encontradas (julho de 2001) 531.000 504.415 328.180 124.770 23.198 641

Sumrio Consideraes Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

www.quatrocantos.com/tec_web/sist_busca/15MODOS.HTM

1/5

18/03/12

notcias sobre o glorioso time

Sistemas de busca da web: diret rios e mecanismos de busca

Um pequeno parntese: na pgina do bis voc encontra a seguinte informao: "O nome bis foi tirado de uma ave negra, pernalta, que voa pelos cus da Europa e frica. Reza a lenda que essa ave, que enfeita o escudo do pior time do mundo, transmite azar." Eu acrescento: no acreditem no azar supostamente trazido por essa ave ao time pernambucano. O que falta ao bis apenas uma oportunidade de mostrar o seu futebol. E mais onze jogadores. De futebol, claro...

Se voc tentou fazer essa pesquisa percebeu que no nada disso, pois esse exemplo no funciona mais. Quem escrever a palavra bis na janela de busca do Radix vai receber 2.752 resultados e o primeiro deles o stio do bis. Portanto, vamos a um exemplo Como realizar uma pesquisa? Existem duas maneiras de realizar pesquisas na web: atravs de palavras-chave e atravs do diretrio. A maior parte dos sistemas de busca possibilita essas duas modalidades de pesquisa. Usando palavras-chave para pesquisar na web Para realizar uma pesquisa atravs de palavra-chave, o usurio escreve a palavra no quadro de busca (ou de pesquisa) e clica no cone ou boto de busca que fica ao lado do quadro. Esse cone ou boto recebe variadas denominaes conforme o sistema de busca. Veja alguns: Sistemas de busca Cad? Miner Ondeir Radix Sapo Grippo Uruguay Total Altavista EuroSeek Infoseek Lycos GoTo.com LookSmart Voila cone ou boto Busca Buscar Procurar Ache Pesquisar Buscar Haz clic aqui Search Search Find Go get it! Find it! Search Voila!

Ento, o pesquisador digita a palavra no quadro de pesquisa, clica no boto, o programa de busca acionado e vai pesquisar sua base de dados. Aps a pesquisa, o programa indica os endereos das pginas que contm a palavra, termos ou expresses digitadas. Se nada for localizado, surge mensagem com essa informao. Ao realizar uma busca, preciso estar atento a alguns problemas que podem surgir. Esses problemas, na maioria das vezes, podem ser resolvidos selecionando melhor a palavra chave a ser pesquisada, utilizando mais de uma palavra ou utilizando uma frase.
www.quatrocantos.com/tec_web/sist_busca/15MODOS.HTM 2/5

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Quando voc informa um conjunto de palavras no quadro de pesquisa do AltaVista, a primeira coisa que ele faz verificar se as palavras digitadas formam uma frase. que esse mecanismo de busca tem um enorme dicionrio das frases mais comuns. Pena que o AltaVista s entenda ingls...(a verso em portugus ainda no est disponvel). Uma pequena interrupo para uma prola do Altavista. Segundo a sua pgina de ajuda, podem ser apresentadas perguntas em linguagem natural. Se voc no tiver nada melhor a fazer, faa a pergunta que ele apresenta como exemplo: "Where can I find a schedule for women's basketball?" Ao fazer a pesquisa, surgem 9 resultados. Oito deles para a prpria pgina de Help do Altavista. O nono resultado indica uma pgima inexistente. Brilhante!

Cuidado com o que escreve! Alguns problemas surgem quando se usam palavras homgrafas, aquelas que tm a mesma grafia e significados diferentes conforme o contexto em que se apresentam. Veja o caso da palavra perua. Procurei no Radix a palavra perua e forma encontrados 4689 documentos. Vrias pginas sobre o veculo, especialmente sobre transporte escolar. Uma sobre comportamento na empresa: um artigo comentando o comportamento de uma jovem que assumiu o lado "perua". Mais uma pgina falando sobre a virada da perua. No um acidente de trnsito. Essa perua a no um veculo. uma personagem de novela. Certa vez procurei a palavra besta, no RadarUol. Eu esperava receber como resultados apenas lojas ou fabricantes de carros, alguma referncia ao quadrpede ruminante e, quem sabe, a algum sujeito meio pedante e metido a prpria. Mas me apareceu tambm uma pgina sobre o 666, o nmero da besta do Apocalipse. Fui at l conferir essa pgina e, pasmem: os autores falam dos anos fatdicos de 666 e mais os seus mltiplos: 1332 (2 x 666 = 1332) e 1998 (3 x 666 = 1998). Dos anos de 666 e 1332 no me lembro de quais desastres se abateram sobre a terra, mas de 1998 me recordo pelo menos de um deles que se abateu sobre o Brasil: uma certa reeleio... Mas, esquece. Deixa pra l que o assunto aqui outro.

Ao realizar essa mesma pesquisa em maro de 2000 no RadarUol surgiram 394 resultados. Vieram muitas pginas sobre essa besta a, a do Apocalipse. Um dos sites bestial: ele apresenta fotos do prprio Apocalipse. Outro site comenta as profecias de Nostradamus. (Profecias do passado, sobre o passado, para o passado :-) Sobre a espalhafatosa madame nada apareceu ;-( Quase que me esqueo: veio uma pgina sobre uma besta medieval do sec. xvi, uma arma italiana muito bem feita, por sinal. Agora, uma pesquisa mais amena. Pesquisando a palavra corao no RadarUol obtive vrias pginas sobre cardiologia, Instituto do Corao, o poema Sossega Corao de Fernando Pessoa, referncia msica Chora Corao de Tom Jobim, a uma casa funerria e a uma churrascaria, dentre outras coisas. A propsito: a pesquisa palavra corao, com cedilha e til, trouxe 6.815 pginas. J a palavra coracao, sem o cedilha e o til, trouxe 249 pginas. A soluo para reduzir o nmero de respostas sem maior interesse e, por via de conseqncia (como diria uma ilustre deputada do PT), aumentar o ndice de relevncia usar duas ou mais palavras, uma frase ou usar os operadores booleanos, quando o sistema de busca o permitir. (Clique aqui para ver o artigo sobre operadores booleanos.) Com isso, aumenta-se a compreenso do conceito pesquisado, trazendo, por conseguinte, uma reduo da extenso do universo a que o conceito se aplica. a velha dualidade entre a extenso e a compreenso dos conceitos. Voltando ao corao. Devido sua ambigidade, o pesquisador deve adicionar uma ou mais palavras a fim de obter maior preciso nos resultados. Buscar por dores do corao talvez no seja uma boa idia para um interessado em coisas da medicina, pois os poetas costumam usar essa expresso, embora profissionais da medicina tambm possam passar por momentos de dores e sofrimentos nesse rgo no exatamente por razes fisiolgicas... Por outro lado, nenhum poeta que eu conhea escreveu um poema falando de cardiologia e cardiopatias. (Epa! Acabo de me lembrar do poeta paraibano

www.quatrocantos.com/tec_web/sist_busca/15MODOS.HTM

3/5

18/03/12

um poema falando de cardiologia e cardiopatias. (Epa! Acabo de me lembrar do poeta paraibano Augusto dos Anjos. Um de seus sonetos intitula-se "Corao frio", mas tal poema no pertence ao conjunto de suas obras plenas de "cientificismos e exotismos estapafrdios".) Relevncia Veja agora a busca s palavras guimares e rosa. no RadarUol: opo frase exata: 374 ocorrncias; opo Qualquer uma das palavras: 12.238 ocorrncias; Uma pesquisa com a opo "qualquer das palavras" vai trazer pginas sobre flores, Chapada dos Guimares, e outras amenidades. Pesquisando essas palavras no AltaVista obtive 2.410 pginas na opo todos os idiomas. Na opo em Portugus, foram obtidas 1.811 pginas. Das 20 primeiras, 14 foram consideradas relevantes. Logo a em cima falei que algumas pginas apresentadas eram relevantes. Essa avaliao de relevncia foi feita apenas nas 10 ou 20 primeiras pginas apresentadas.

Sistemas de busca da web: diret rios e mecanismos de busca

Ateno: no confundir pgina com tela, pois so duas coisas bem diferentes. Uma pgina corresponde a uma "web page", uma pgina da web, um endereo, um URL encontrado e mostrado, enquanto uma tela com resultados de uma pesquisa pode mostrar vrios endereos. A razo de avaliar apenas as 10 ou 20 primeiras pginas a seguinte: ningum perde tempo visitando todas as 100 ou duzentas e tantas pginas mostradas. Geralmente so visitadas as primeiras 10 ou 20 pginas ou URL apresentados. Eventualmente se vai um pouco alm. E por que no visitar todas as pginas apresentadas? Primeiramente, porque em alguns casos isso pode tomar muito tempo, mas nada lhe impede visitar todas elas. Em segundo lugar: os sistemas de busca usam alguns critrios para ordenar os URL selecionados. Se, numa pesquisa, voc apresentar trs palavras, h sistemas de busca que ordenam os URL de tal modo que aqueles correspondentes s pginas que contm todas as trs palavras apaream nos primeiros lugares. Existem vrias formas de os sistemas de busca ordenar os URL encontrados e cada sistema de busca usa um algoritmo prprio. Veja alguns critrios adotados por sistemas de busca para ordenar as aparies dos URL. Nmero de pginas que contm links para uma dada pgina. Quanto mais links uma pgina receber, maior a importncia atribuda a ela. Nmero de vezes em que as palavras-chave usadas na pesquisa surgem ao longo da pgina. Quanto mais vezes aparecerem, maior relevncia atribuida pgina. (At certo limite, pois alguns sistemas de busca penalizam as pginas em que h uma excessiva repetio de uma mesma palavra. Eles chama isso de pamming.) Proximidade entre as palavras pesquisadas. Quanto mais prximas as palavras estiverem entre si, maior relevncia atribuida pgina. Nmero de vezes em que as palavras-chave aparecem nos ttulos, subttulos e nas primeiras linhas da pgina. Quanto mais vezes aparecerem nesses lugares, maior relevncia atribuida a ela. H sistemas de busca que mantm esses critrios como um segredo e no os revela a ningum. A razo desse sigilo fcil de entender. Uma empresa que descobrir o segredo dos grandes sistemas de busca vai conseguir que seus produtos sejam sempre mostrados na primeira tela, nos primeiros lugares. Por consequncia, um dos esperados atributos dos sistemas de busca vai por gua abaixo: o da imparcialidade na apresentao dos resultados. Mas, por que os primeiros 10 ou 20 URL so os mais importantes? Me diga uma coisa: ao receber 1.811 pginas como resposta uma consulta, voc perderia o seu tempo visitando todas as pginas? Considere que este um resultado at modesto, pois a pesquisa corao (assim, com cedilha e til) no

www.quatrocantos.com/tec_web/sist_busca/15MODOS.HTM

4/5

18/03/12

Considere que este um resultado at modesto, pois a pesquisa corao (assim, com cedilha e til) no AltaVista produziu 74.905 pginas Uma pesquisa feita dessa forma, com um termo genrico, pode facilmente ultrapassar um milho de resultados. A palavra weather, pesquisada no Altavista, me trouxe 8.212.900 documentos. Ningum, acredito, jamais visitaria todas eles.

Sistemas de busca da web: diret rios e mecanismos de busca

Pra quem gosta de clculos inteis e nmeros ociosos: algum que se dispusesse a visitar todas essas pginas e levasse um minuto olhando cada uma delas levaria 5.703 dias se permanecesse acordado, sem comer nem nada e todo esse tempo conectado Internet. Um recorde totalmente intil e desnecessrio. Como muitos outros. O sistema de busca ideal o que apresenta ao pesquisador apenas as pginas que contm exatamente aquilo que o pesquisador espera receber. Mas esse sistema no existe. Ento, para melhorar a vida do pesquisador usam-se alguns recursos, s vezes chamados de avanados e que correspondem aos operadores booleanos. E o que so operadores booleanos? Esse o assunto do artigo Operadores booleanos.
MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.

Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

www.quatrocantos.com/tec_web/sist_busca/15MODOS.HTM

5/5

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Sistemas de busca da web: diretrios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Co lho de Moura Pesquisa personalizada em Quatrocantos.com

Operadores booleanos Neste captulo apresenta-se uma introduo aos operadores booleanos. Primeiramente, Boole e lgebra de Boole. Segundo o dicionrio do Aurlio, bule um frasquinho de loua da ndia, de gargalo estreito... No. No nada disso. Tente outra vez. George BOOLE foi um matemtico ingls que viveu no sculo XIX. Ele criou um sistema de lgebra e foi um dos precursores da lgica moderna. (Assim est melhor.) Mas o que interessa mesmo o fato de ele haver criado um modo de conduzir o raciocnio utilizando algumas expresses simples e monossilbicas que ficaram conhecidas como operadores booleanos. O quadro abaixo mostra os operadores booleanos aceitos pela maioria dos sistemas de busca. A vo eles em portugus, os equivalentes em ingls e mais os sinais grficos correspondentes aceitos por alguns sistemas de busca. Operadores booleanos Portugus E N O OU Ingls AND NOT OR | Sinais grficos + ! &
Sumrio Consideraes Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

An ncios Googl

Pe

i a

Si ema B

ca

Ho el Pa a Ca

E como funciona uma pesquisa com esses operadores? Seguinte. Considere dois animais muito chegados entre si: cachorro e pulga. Voc quer fazer uma pesquisa de pginas da web que contenham informaes sobre esses dois bichos. Antes de iniciar a pesquisa, veja o que lhe interessa de fato: Cachorro E pulga. Indica que voc quer a presena dos dois animais, cachorro e pulga, numa mesma pgina da web. Cachorro sem pulga, melhor dizendo: cachorro N O pulga. Indica que voc busca as pginas da web em que h referncia ao cachorro, mas no pulga. Qualquer dos dois animais: cachorro OU pulga. Neste caso, voc procura as pginas da web que contiverem referncias a um ou ao outro animal. Veja que a terceira alternativa mais abrangente e trar uma quantidade bem maior de resultados. As representaes grficas das vrias alternativas facilitam a compreenso dessas modalidades de busca.
www.quatrocantos.com/tec_web/sist_busca/16BOOL.HTM 1/4

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Um elemento

cachorro Outro elemento

pulga Operadores booleanos

cachorro E pulga A regio azul representa as pginas da web que contm a palavra cachorro. A regio amarela representa as pginas da web que contm a palavra pulga. O verde a "mistura" dos dois. Representa as pginas da web que contm as duas palavras: cachorro E pulga. Operadores booleanos

cachorro N O pulga Nesta outra representao, tem-se cachorro sem pulga, isto , somente interessa o que contiver cachorro, regio azul. As pulgas no interessam: a regio amarela. Operadores booleanos

pulga N O cachorro Tambm se pode pensar em pulga sem cachorro, uma alternativa vlida mostrada nesta outra figura: pulga N O cachorro. As pulgas sem cachorro esto representadas pela regio amarela e os cachorros (com e sem pulgas) pela regio azul.

cachorro OU pulga

Outra possibilidade de busca corresponde a qualquer dos bichos: cachorro ou pulga. As pginas que contiverem um ou outro animal sero listadas e, na figura, correspondem regio verde. Com esses operadores booleanos podem ser criadas pesquisas mais complexas. Veja s como fica ao acrescentar, por exemplo, um gato a essa pesquisa.
www.quatrocantos.com/tec_web/sist_busca/16BOOL.HTM

Agora as atenes se voltam para cachorros, gatos e pulgas.

2/4

18/03/12

Agora as atenes se voltam para cachorros, gatos e pulgas.

Sistemas de busca da web: diret rios e mecanismos de busca

Primeira pesquisa: gatos, pulgas e cachorros. Devem ser mostradas as pginas que contiverem as trs palavras. Na figura, o resultado corresponde regio branca, a interseco dos trs crculos.

gato E pulga E cachorro

Segunda pesquisa: pulgas ou gatos, mas sem cachorros no meio.

(pulga OU gato) N O cachorro Fica assim: (pulga OU gato) N O cachorro e corresponde a toda a regio verde. Preste ateno nos parnteses. Eles servem para informar ao sistema de busca que primeiro ele deve selecionar todas as pginas que tm pulga ou gato e depois ir procurar, nas pginas selecionadas, as que tambm tm cachorro e exclui-las. (Acho que j est na hora de parar com essas pulgas, voc no acha...Argh!) H sistemas de busca que somente reconhecem os operadores AND, NOT e OR, assim em ingls e com letras maisculas. Outros sistemas somente reconhecem os operadores em sua forma grfica, os sinais grficos. E h, tambm os sistemas que reconhecem os operadores em portugus. Para ter certeza da forma correta de realizar a pesquisa, consulte a pgina de ajuda do sistema de busca que estiver utilizando. Operadores implcitos Falta falar sobre os operadores implcitos: voc no os pe l, mas o sistema de busca interpreta como se eles l estivessem. Quase todos os sistemas de busca os reconhece. Como? Mudando de assunto, quer dizer, saindo do reino animal e mudando de tema a ser pesquisado. Agora as palavras so: hotel, praia e Recife. Se voc puser essas trs palavras no quadro de busca, uma ao lado da outra (mesmo porque no pode ser de outra maneira), cada sistema vai interpretar a pesquisa de uma forma diferente: O AltaVista interpreta como se existisse o operador OR entre elas: hotel OR praia OR Recife. o HotBot interpreta como se houvesse o operador AND entre elas: hotel AND praia AND Recife. no RadarUol, voc tem uma caixa de onde pode ser selecionada uma das seguintes alternativas disponveis:
www.quatrocantos.com/tec_web/sist_busca/16BOOL.HTM 3/4

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

todas as palavras. Equivalente ao operador E; qualquer uma das palavras. Equivalente ao operador OU; a frase exata. O RadarUol ir procurar pela frase hotel praia Recife, ou seja, um hotel com esse nome. a expresso booleana. Neste caso, os operadores booleanos devem ser indicados entre as palavras. As pesquisas realizadas com as palavras hotel, praia e Recife produziram os seguintes resultados: AltaVista: operador implcito OR entre as palavras: 5.552.489 HotBot: operador implcito AND entre as palavras: fe er than 500. Feita essa apresentao geral acerca dos operadores booleanos, o prximo captulo trata da pesquisa atravs de um diretrio. Clique aqui para ver Pesquisa atravs de um diretrio.
MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.
An ncios Google Pesquisa Sistema Busca Hotel Para Cachorro Hotel Cachorro
Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

An ncios Google Pesquisa Sistema Busca Hotel Para Cachorro Hotel Cachorro

www.quatrocantos.com/tec_web/sist_busca/16BOOL.HTM

4/4

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

Sistemas de busca da web: diret rios e mecanismos de busca


Pesquisar
Gev ilacio Aguiar Co lho de Moura Pesquisa personalizada em Quatrocantos.com

Pesquisa em um diret rio A maior parte dos sistemas de busca permite as duas modalidades de pesquisa: atravs de palavraschave e atravs dos diretrios. Ao realizar uma pesquisa num diretrio, voc vai navegando ou passeando, como preferir, desde um termo genrico, como Entretenimento, por exemplo, at chegar a um termo mais especfico. Veja alguns termos da classificao do Yahoo! Brasil para a categoria entretenimento. Entretenimento apresenta as seguintes alternativas: Entretenimento Sites Legais, Cinema, Msica, Humor... Ao clicar em Msica, apresentam-se mais opes, tais como: Artistas Bate-Papo e Fruns Composies Concursos e Votaes Diretrios Web DJs Educao e Formao Empresas Eventos Fontes de Referncia Gneros .... Selecionando a opo Gneros surgem novas opes. A vo trs delas: Blues Caipira Clssicos .... Ao selecionar Clssicos, surgem novas opes: Artistas Compositores pera Clicando em Compositores surgem os hiperlinks com os nomes de vrios compositores como Beethoven, Ludwig van Garcia, Jos Mauricio Nunes Mozart, Wolfgang Amadeus Finalmente, ao clicar em Mozart, tem-se acesso a uma pgina com trs links contendo informaes sobre esse compositor. Voc chegaria a essas mesmas pginas se tivesse digitado o nome do compositor no quadro de pesquisa da pgina de abertura do Yahoo. E chegaria l bem mais depressa.
www.quatrocantos.com/tec_web/sist_busca/17PQDIR.HTM 1/2
Sumrio Consideraes Introduo aos

Mecanismos de bu Diretrios

Mecanismos de bu

Utilizando os sistem

Operadores boolea

Pesquisa em um d

An ncios Googl

B sca Do Goo B sca

B sca No Goo

18/03/12

Sistemas de busca da web: diret rios e mecanismos de busca

O Radix, um mecanismo de busca. tem um sistema de classificao diferente. Veja alguns termos: Casa e Jardim Servios financeiros Diverso Futebol .... Os sistemas be busca so instrumentos indispensveis para a pesquisa de pginas da web. Na verdade, hoje seria impensvel uma web sem os mecanismos de busca e os diretrios, mesmo considerando que apenas uma frao do universo de pginas da web encontra-se devidamente indexada. (Acredita-se que algo em torno de 50 % da web esteja indexada nos diversos sistemas de busca.) Procurar e encontrar sites que abordam um determinado assunto pode ser uma tarefa frustante se no se tiver em mente alguns cuidados. Descreva com preciso o assunto a ser pesquisado. Escreva uma frase sem preocupar-se com o tamanho dela. E lembre-se: se voc no souber o que est procurando, ento qualquer coisa que encontrar serve... Das palavras que voc usou para construir a frase de busca, selecione as que so mais significativas. Geralmente sero substantivos como um animal, uma cidade, um pas, uma pessoa, um ramo do conhecimento. Veja as possveis relaes existentes entre as palavras e utilize os operadores booleanos.

MOURA, Gevilacio Aguiar Colho de. Sistemas de busca da web: diretrios e mecanismos de busca. [online] Disponvel na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. ltima atualizao em 01 de janeiro de 2001.
An ncios Google Busca Do Google Busca Busca No Google Busca Google
Todos os Direitos Reserv ados. Copyright 1999 - 2011. Gevilacio Aguiar Colho de Moura. vedado o uso comercial deste artigo e sua reproduo, no todo ou em parte, s permitida mediante autorizao expressa do autor. No so permitidas a reproduo nem a manuteno deste artigo em sites, pginas da web e assemelhados. Veja tambm Citaes e Referncias a Documentos Eletrnicos

Fale conosco.
Antispam Arquitetura on-line Barcos venda Bandeiras dos estados brasileiros Brases dos estados do Brasil Campo Formoso, terra de esmeraldas Carnaval de Olinda Jias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vdeos Home Todos os Direitos Reservados. Copyright 1999 - 2011. Quatrocantos.com.

An ncios Google Busca Do Google Busca Busca No Google Busca Google

www.quatrocantos.com/tec_web/sist_busca/17PQDIR.HTM

2/2

Vous aimerez peut-être aussi