Vous êtes sur la page 1sur 29

|   


 
    
› ›

Eduardo Spaki ± 04.4158-2 ± 4º SIS


|    
 
    › ›

V 


 !"!!
#$ %!!#!
#!$!$&#'''
()!"
*!)"#+,!$-!-".$&#'
+, !)$!
+$)/0'
|    
 
    › ›

V Introdução
Obter a informação.
Anarquia da internet (DNS).
Conceito: Search Engine.
1990: Archie by Alan Emtage, McGill University em
Montreal (FTP).
1993: Wandex by Matthew Gray, MIT.
Lucros: Yahoo, Google, Microsoft etc.
Lider: Google: Googlebot e PageRank.
Os Webmasters.
|    
 
    › ›

V Objetivos:
Identificação dos catalogadores.
Empresas conceituadas.
Técnicas de manipulações.
O que catalogar.
As buscas hoje.
O futuro das buscas.
Agentes autônomos.
Pesquisa à base de dados.
Estudo de ferramentas open-source.
Viabilidade
Tirar proveito das tecnologias atuais.
Web-semântica.
Demonstrar a aplicação prática.
|    
 
    › ›

V Metodologia:
Informações que devem ser catalogadas;
Algoritmos de classificação de textos;
Agentes autônomos;
Agentes e ferramentas open-souce e estudo de
códigos fontes funcionais;
Consulta, ordenação e ranking;
Infra-estrutura e custos;
Casos de sucesso;
Que proveito se tira atualmente das buscas virtuais;
Pesquisa de informações no mundo contemporâneo;
A estrutura e proposta da ³web-semântica´.
|    
 
    › ›

V Informações a serem catalogadas:


Links.
Meta dados.
O controle dos robôs pelos meta.
dados.
Proveitos do webmaster.
|    
 
    › ›

V Informações a serem catalogadas:


Imagens:
‡ Tag de Imagens.
‡ Textos ao redor.
|    
 
    › ›

V Classificação de Textos
Sebastiani: Construção automática de
classificadores pelo uso de processos
indutivos(learner).
Para tal, o aprendizado de máquina
depende préviamente de um treino.
|    
 
    › ›

V Métodos de classificação de textos por


Monard:
Simbólico: aprendizado simbolicamente
representado por expressão lógica, árvore
de decisão, regras de produção ou rede
semântica;
Estatístico: ordinal e paramétrico;
Instance-based: Assitente aos demais
citados;
Conexionista: aplicação de redes neurais.
|    
 
    › ›

V Processo geral da ³Classificação Textos´


(metodologia)
Paralelo com o Data-Mining: Text-Mining.
Imamura descreve a Metodologia do Text-
Mining:
‡ Obtenção de documentos;
‡ Pré-processamento dos documentos;
‡ Extração do conhecimento;
‡ Avaliação do conhecimento.
|    
 
    › ›

V Agentes autônomos
Software capaz de executar uma tarefa complexa em
nome de um usuário.
Classificação das funcionalidade dos agentes por
Franklin e Graesser:
‡ Reativo;
‡ Autônomo;
‡ Orientado a metas;
‡ Contínuo;
‡ Comunicativo;
‡ Inteligente;
‡ Móvel;
‡ Flexível;
‡ Caráter.
|    
 
    › ›

V Agentes autônomos
Classificação dos tipos (by Nwana):
‡ Mobilidade: estáticos ou móveis;
‡ Funcionamento: deliberativo ou reativo;
‡ Propriedades: autonomia, aprendizagem
e cooperação;
‡ Papel: sua função, seu objetivo;
‡ Híbridos: Se combina duas ou mais das
outras dimensões citadas;
|    
 
    › ›

V Ferramentas Open-Source:
WebSPHINX (Java)
|    
 
    › ›

V Ferramentas Open-Source:
WebCrawlerCS (C#.NET)
|    
 
    › ›

V Ferramentas Open-Source: JoBo


(Java)
|    
 
    › ›

V Infra-Estrutura:
Exemplos citados: cache de site.
Abrodagem profissiona:
‡ Banco de dados:
‡ Estruturação: backend e frontend.
‡ Backend: disponibilidade, cluster, SO, SGBD,
Aplicação, ex: Google.
‡ Frontend: interface, opções, agilidade.
‡ ³Estudo de caso´.
|    
 
    › ›

V Casos de Sucesso:
Google
‡ Concepção: 1995
‡ BackRub: 1996
‡ Empresa: 1998
‡ 500mil acessos dia: 1999
‡ 1 bilhão de sites no índice: 2000
‡ Lucro: AdWords, AdSense
‡ Tecnologia: PageRank
|    
 
    › ›

V Casos de Sucesso:
Microsoft
‡ Historia: Dispensável
‡ 11% do mercado de buscas
‡ Nova perspectiva: Live Search
‡ Lucro: AdCenter
‡ Estratégia: Agregar-se ao Protal MSN.
‡ Base de dados: 20 Bilhões de páginas.
‡ Envolvidos: Steve Berkowitz (Ask) e Ray Ozzie
(IBM)
‡ Tecnologia: IA
|    
 
    › ›

V Casos de Sucesso:
Yahoo!
‡ Fundação: por David Filo e Jerry Yang
em 1995
‡ Detém 23% das buscas
‡ Tecnologia: Search Assist (sugestão em
tempo real)
‡ Um dos pioneiros
‡ Comprou a empresa Brasileira Cadê? (13
Milhões de dólares) em 2002.
|    
 
    › ›

V Casos de Sucesso:
Faturamento do Google cresceu mais de
cinco vezes sua receita anual em quatro
anos.
Yahoo de US$ 1,7 bilhão em 2004 para US$
3,6 bilhões em 2007
AOL, salta de US$ 655 milhões em 2004
para US$ 1,7 bilhão em 2007
MSN, saiu de US$ 906 milhões em 2004
para chegar a US$ 1,3 bilhão em 2007.
|    
 
    › ›

V Curiosidade:
Como uma pessoa pode lucrar facilmente,
diante das gigantes de software? R: Um
Israelita, Ori Alon, estudante da
universidade de m 

(Australia), em seu projeto de mestrado
criou um algoritmo de pesquisa com novos
conceitos de relevância de resultados. O
Google o comprou e contratou-o.
Minerar dados ainda é um negócio viável
para mentes inovadoras.
|    
 
    › ›

V Pesquisas de informações na Internet


no mundo contemporâneo
Tendências: especialização, ex:
buscadores de códigos fontes
(http://www.krugle.com), blogs,
imagens, produtos, mapas.
Buscas internas (site pessoal ou
intranet) através de APIs.
Mapas através de APIs.
|    
 
    › ›

V Web Semântica
Tim Berners-Lee propôs uma re-
estruturação dos meta dados, para
que ³a máquina pode-se compreender
a informação também´. Ex:
dependendo do contexto da palavra
Banco, pode-se distinguir se é um
assento ou uma empresa.
|    
 
    › ›

V Web Semântica
|    
 
    › ›

V Web Semântica
UNICODE (via HTTP): fluxo de dados, imagens,
textos etc.
URI: endereço global para acessar os dados.
XML, m  e XML   Definem a
estrutura hierarquica de documentos atraves de tags
e estilos.
RDF: estrutura os meta dados
Ontology: Domínio para dados conexos se
relacionarem.
Logic: inferência.
Proof: Prova das informações trafegadas entre
agente e máquina.
Trust: Assinatura digital.
|    
 
    › ›

V Conclusões:
A tecnologia atual de hipertexto (HTML)
apresenta valiasas informações para
orientar os agentes de busca.
Para tal os agentes devem dispor de
tecnologia de processamento de textos
A busca faz muita gente rica ao redor do
mundo, e não é preciso re-inventar a roda
para se dar bem com a mesma.
As aplicações estudadas e implementadas
desmistificam o funcionamento dos
WebCrawlers
|    
 
    › ›

V Conclusões:
Fatos importantes:
‡ Busca de imagens;
‡ Ori Alon, Israelita, Mestre pela
Universidade de m 

(Austrália), Contratado pelo Google;
‡ Web Semântica;
|    
 
    › ›

V Conclusões: A pesquisa atingiu seus


objetivos e desmistificou muitas das
tecnologias por vasculham pela
Internet em busca de sua
organização.
|    
 
    › ›

V Aplicação prática!!!

Vous aimerez peut-être aussi