Académique Documents
Professionnel Documents
Culture Documents
V
!"!!
#$ %!!#!
#!$!$&#'''
()!"
*!)"#+,!$-!-".$&#'
+, !)$!
+$)/0'
|
V Introdução
Obter a informação.
Anarquia da internet (DNS).
Conceito: Search Engine.
1990: Archie by Alan Emtage, McGill University em
Montreal (FTP).
1993: Wandex by Matthew Gray, MIT.
Lucros: Yahoo, Google, Microsoft etc.
Lider: Google: Googlebot e PageRank.
Os Webmasters.
|
V Objetivos:
Identificação dos catalogadores.
Empresas conceituadas.
Técnicas de manipulações.
O que catalogar.
As buscas hoje.
O futuro das buscas.
Agentes autônomos.
Pesquisa à base de dados.
Estudo de ferramentas open-source.
Viabilidade
Tirar proveito das tecnologias atuais.
Web-semântica.
Demonstrar a aplicação prática.
|
V Metodologia:
Informações que devem ser catalogadas;
Algoritmos de classificação de textos;
Agentes autônomos;
Agentes e ferramentas open-souce e estudo de
códigos fontes funcionais;
Consulta, ordenação e ranking;
Infra-estrutura e custos;
Casos de sucesso;
Que proveito se tira atualmente das buscas virtuais;
Pesquisa de informações no mundo contemporâneo;
A estrutura e proposta da ³web-semântica´.
|
V Classificação de Textos
Sebastiani: Construção automática de
classificadores pelo uso de processos
indutivos(learner).
Para tal, o aprendizado de máquina
depende préviamente de um treino.
|
V Agentes autônomos
Software capaz de executar uma tarefa complexa em
nome de um usuário.
Classificação das funcionalidade dos agentes por
Franklin e Graesser:
Reativo;
Autônomo;
Orientado a metas;
Contínuo;
Comunicativo;
Inteligente;
Móvel;
Flexível;
Caráter.
|
V Agentes autônomos
Classificação dos tipos (by Nwana):
Mobilidade: estáticos ou móveis;
Funcionamento: deliberativo ou reativo;
Propriedades: autonomia, aprendizagem
e cooperação;
Papel: sua função, seu objetivo;
Híbridos: Se combina duas ou mais das
outras dimensões citadas;
|
V Ferramentas Open-Source:
WebSPHINX (Java)
|
V Ferramentas Open-Source:
WebCrawlerCS (C#.NET)
|
V Infra-Estrutura:
Exemplos citados: cache de site.
Abrodagem profissiona:
Banco de dados:
Estruturação: backend e frontend.
Backend: disponibilidade, cluster, SO, SGBD,
Aplicação, ex: Google.
Frontend: interface, opções, agilidade.
³Estudo de caso´.
|
V Casos de Sucesso:
Google
Concepção: 1995
BackRub: 1996
Empresa: 1998
500mil acessos dia: 1999
1 bilhão de sites no índice: 2000
Lucro: AdWords, AdSense
Tecnologia: PageRank
|
V Casos de Sucesso:
Microsoft
Historia: Dispensável
11% do mercado de buscas
Nova perspectiva: Live Search
Lucro: AdCenter
Estratégia: Agregar-se ao Protal MSN.
Base de dados: 20 Bilhões de páginas.
Envolvidos: Steve Berkowitz (Ask) e Ray Ozzie
(IBM)
Tecnologia: IA
|
V Casos de Sucesso:
Yahoo!
Fundação: por David Filo e Jerry Yang
em 1995
Detém 23% das buscas
Tecnologia: Search Assist (sugestão em
tempo real)
Um dos pioneiros
Comprou a empresa Brasileira Cadê? (13
Milhões de dólares) em 2002.
|
V Casos de Sucesso:
Faturamento do Google cresceu mais de
cinco vezes sua receita anual em quatro
anos.
Yahoo de US$ 1,7 bilhão em 2004 para US$
3,6 bilhões em 2007
AOL, salta de US$ 655 milhões em 2004
para US$ 1,7 bilhão em 2007
MSN, saiu de US$ 906 milhões em 2004
para chegar a US$ 1,3 bilhão em 2007.
|
V Curiosidade:
Como uma pessoa pode lucrar facilmente,
diante das gigantes de software? R: Um
Israelita, Ori Alon, estudante da
universidade de m
(Australia), em seu projeto de mestrado
criou um algoritmo de pesquisa com novos
conceitos de relevância de resultados. O
Google o comprou e contratou-o.
Minerar dados ainda é um negócio viável
para mentes inovadoras.
|
V Web Semântica
Tim Berners-Lee propôs uma re-
estruturação dos meta dados, para
que ³a máquina pode-se compreender
a informação também´. Ex:
dependendo do contexto da palavra
Banco, pode-se distinguir se é um
assento ou uma empresa.
|
V Web Semântica
|
V Web Semântica
UNICODE (via HTTP): fluxo de dados, imagens,
textos etc.
URI: endereço global para acessar os dados.
XML, m
e XML Definem a
estrutura hierarquica de documentos atraves de tags
e estilos.
RDF: estrutura os meta dados
Ontology: Domínio para dados conexos se
relacionarem.
Logic: inferência.
Proof: Prova das informações trafegadas entre
agente e máquina.
Trust: Assinatura digital.
|
V Conclusões:
A tecnologia atual de hipertexto (HTML)
apresenta valiasas informações para
orientar os agentes de busca.
Para tal os agentes devem dispor de
tecnologia de processamento de textos
A busca faz muita gente rica ao redor do
mundo, e não é preciso re-inventar a roda
para se dar bem com a mesma.
As aplicações estudadas e implementadas
desmistificam o funcionamento dos
WebCrawlers
|
V Conclusões:
Fatos importantes:
Busca de imagens;
Ori Alon, Israelita, Mestre pela
Universidade de m
(Austrália), Contratado pelo Google;
Web Semântica;
|
V Aplicação prática!!!