Vous êtes sur la page 1sur 5

Panorama des outils

de veille

Aujourdhui
z
z

Joumana Boustany
Matre de confrences
Universit Paris 5 Ren Descartes
Institut Universitaire de Technologie
z

Information abondante et diversifie


Le domaine mdical
z vocabulaire spcifique
z sources informelles limites malgr un
dveloppement des sources purement Web : portails,
newsletters, fils RSS
z Le Web invisible (bases de donnes structures :
articles de presse, brevets, thses) reste
incontournable
Le domaine administratif franais et europen
z Administration trs prsente sur le Web
Chaque domaine ses spcificits

19e journe RNDH - 21/09/2006

Les agents intelligents


z
z
z

Automatisation des requtes rcurrentes


Autonomie
Auto-apprentissage

19e journe RNDH - 21/09/2006

Panorama des outils (1)


z

Outils daide au sourcing (social bookmarking)


z

Outils de collecte :
z

Actuellement peu dagents intelligents


rpondent ces diffrents critres

19e journe RNDH - 21/09/2006

Panorama des outils (2)


z

Outils danalyse et de traitement de linformation


z
z

z
z

Copernic summerizer
Pertinence summarizer

19e journe RNDH - 21/09/2006

Agents de recherche (Copernic Agent)


Agents de surveillance (KB-Crawl, Website
watcher, Copernic Tracker)
Aspirateurs de sites (MemoWeb)
19e journe RNDH - 21/09/2006

Panorama des outils (3)


z

Techniques linguistiques (calcul des occurrences)


Syntaxiques et morphosyntaxiques (dcomposition du
texte et lemmatisation)
Smantiques (associations de sens)

Outils de rsum de linformation

http://del.icio.us/

Outils de classification et catgorisation


z
z
z

Reconnaissance et identification de concepts


Gnration automatique de plans de classement
(a posteriori)
Catgorisation selon un plan prtabli (a priori)

Outils dextraction de connaissances (data ou


text mining)
z

Permettent didentifier les concepts et dtablir


des relations entre ces lments
19e journe RNDH - 21/09/2006

Panorama des outils (4)


z

Outils de cartographie
z

Pour visualiser les rsultats dun corpus et faire merger


des liens, des rseaux

Solutions intgres qui traitent de tous les


processus de veille :
z
z
z
z

collecte multi-sources et multi-bases


surveillance
catgorisation automatique
publication

Quelques solutions
z
z
z

Arisem, Autonomy, Intuition, Go Albert


LexiQuest, Lingway, Temis
etc.

Ces outils sont payants


Pour choisir :
Faire une analyse approfondie des besoins

Les frontires entre ces diffrents types doutils ne sont


pas bien dlimites
19e journe RNDH - 21/09/2006

Faire de la veille moindre cot


z

z
z
z
z

Les moteurs de recherche (Exalead, Google,


Windows Live Search, Yahoo, etc.)
Les mtachercheurs (Copernic, Vivisimo,
etc.)
Les agents dalerte
Les desktops
Les outils spcialiss
Les blogs et les fils RSS

19e journe RNDH - 21/09/2006

Pratiques et usages
z

En novembre 2002, 48% des internautes


s'arrtaient la premire page de rsultats

En avril 2006, ils seraient 62%, soit une


augmentation de 14% !

Seuls 10% des internautes vont au-del de la 3e


page alors qu'ils taient 19% il y a quatre ans...
Source : Jupiter Research / iProspect

19e journe RNDH - 21/09/2006

Google (1)

19e journe RNDH - 21/09/2006

Google (2)

Or blanc => Google ne verra que du blanc

Livret A => o est le A ?

Jeux de ds => mais o sont les ds ???

evenement = vnement = vnement ?

Le titre
z
z
z

LURL
z
z

publicit publicits ?
19e journe RNDH - 21/09/2006

intitle:drogue
intitle:drogue jeunes
allintitle: drogue jeunes

inurl:drogue
inurl:drogue jeunes
allinurl: drogue jeunes
19e journe RNDH - 21/09/2006

Google (3)
z

Un diaporama
z

Exalead
z

filetype:ppt dpenses sant France

Un document Word
z

Moteur de recherche francophone


Pas la mme puissance que Google, mais
des fonctionnalits spcifiques
z
z

drogue jeunes filetype:doc

Un domaine et ou nom de domaine


z
z

site:gouv.fr
site:gouv.fr "sant publique"
site:europa.eu
site:europa.eu sant

Approximation phontique
Lemmatisation
Troncature
Clustering : se fait par analyse statistique des
termes les plus frquemment associs la
requte

Phase de transition => nouvelle version

19e journe RNDH - 21/09/2006

Les mtachercheurs clients


z

Recherche simultane sur plusieurs outils de


recherche (annuaires, moteurs, portails, bases de
donnes)
Paramtrage plus avanc que sur les
mtachercheurs en ligne

19e journe RNDH - 21/09/2006

Les agents dalerte


z

z
z

vrification des liens,


tlchargement des rsultats,
la version payante propose :
z
z

des fonctions de veille sur les pages et sur les mots-cls


des rsums automatiques

Agents dalerte en ligne


Infominder http://www.infominder.com

Agents dalerte clients


z

Copernic Agent :
z

Signalent les modifications lintrieur dune page

Website Watcher http://aignes.com


Kbcrawl http://www.beaconseil.com

Certains aspirateurs de sites font office dagents


dalerte
z

Wysigot http://www.wysigot.com

19e journe RNDH - 21/09/2006

Les agents dalerte :


fonctions avances
z
z

Limitation des alertes non pertinentes


Critres de modification avancs
z
z
z
z
z

nombre de phrases modifies,


lien(s) modifi(s),
pourcentage de contenu modifi,
images,
page disparue

Extraction des modifications de donnes

19e journe RNDH - 21/09/2006

Alertes rcurrentes
z

z
z
z
z

z
z

z
z
z

19e journe RNDH - 21/09/2006

Google alertes
z Service du moteur de recherche Google (bta)
z Permet deffectuer une veille sur 4 critres:
Actualits
Web
Actualits & Web
Groupes

Envoie un mail chaque fois quil y a une nouveaut


Ncessite la cration dun compte et dune identification
Googlealert (indpendant de Google)
Yahoo alerts
etc.
19e journe RNDH - 21/09/2006

Les desktops
z
z

Linformation produite en interne nest pas


ngliger dans un processus de veille
Les desktops sont des moteurs de recherche qui
indexent le contenu de votre ordinateur
z
z
z
z
z

Exalead one desktop


Google desktop
Windows Desktop Search
Yahoo desktop
etc.

Pour des applications professionnelles (rseau) =>


Solutions payantes

Les outils spcialiss


z

ChemFinder : chimie
z

z
z
z
z
z

Interroge des bases de donnes gratuites et


payantes

Medhunt de Health on the net : permet de


trouver des sites Web mdicaux
Scirus : moteur de recherche scientifique
Sciseek : moteur de recherche scientifique
Google scholar : articles, confrences, etc.
Yahoo! Education : ouvrages de rfrences

19e journe RNDH - 21/09/2006

Les blogs : un outil pour la veille ?


z
z

z
z

Journal en ligne sur Internet ou Intranet


tenu par une ou plusieurs personnes
Possibilit dinsrer des liens, dajouter ses
commentaires, ses points de vue, ses
activits
Suivi de l'volution d'une ide, d'un thme de
projet
Estimation : 40 60 millions de blogs dans le
monde

19e journe RNDH - 21/09/2006

Intrt des blogs


z
z
z
z

z
z
z
z

Collecte dinformation sur des sujets mergents :


R&D
Identification dexperts, de passionns dun sujet
Exploitation des commentaires
Trackbacks (permet de relier des articles sur le
mme sujet posts dans des blogs diffrents) et
permaliens (url permanente dun billet sur le site)
Exploitation des blogrolls
Information catgorise
Information date
Accs aux archives

19e journe RNDH - 21/09/2006

Outils de recherche de blogs


z

Annuaire
z
z

19e journe RNDH - 21/09/2006

Syndication de contenu : les fils RSS


z

1001rss.com
RSS Network

z
z

Moteurs
z
z

RSS : Really Simple Syndication ou Rich Site


Summary
Format dchange (XML)
Mode de diffusion
z

Les moteurs gnralistes : Google, Live.com, etc.


Les moteurs spcialiss : Icerocket, Technorati,
etc.

Agent dalerte
z

19e journe RNDH - 21/09/2006

permet de publier des titres de nouvelles ou d'articles,


exploitables dynamiquement par d'autres sites ou par des
agrgateurs
permet dtre alert en permanence sur un domaine
dactualit ou sur les nouveauts apparaissant sur un site
prcis
ncessite un lecteur de fils RSS
19e journe RNDH - 21/09/2006

Les lecteurs de fils RSS


z

Lecteurs en ligne
z
z
z

Fils RSS
z

Bloglines
Netvibes
etc.

Lecteurs clients
z
z
z
z

Feedreader
RSS bandit
Thunderbird
etc.

z
z

Dans les deux cas, ncessit de sabonner

Actualits
z Le Figaro
z Le monde
z Libration
Administration (concours, etc.)
z Service-public.fr
z etc.
Europe
z Europa
Lgislation
z Assemble nationale
z Senat
Veille juridique
z Droit Zoom

19e journe RNDH - 21/09/2006

Avantages et inconvnients
des fils RSS

Fils RSS
z

Brevets
z

Fresh Patents (catgorie mdecine)

Revues scientifiques (anglais)

Mdecine

z
z

19e journe RNDH - 21/09/2006

Avantages
z
z

Electronic Journals
z

Environmental Health Perspectives


PubMed => hubmed

19e journe RNDH - 21/09/2006

Gain de temps
Segmentation :
possibilit de sabonner
une rubrique spcifique
dun journal
Anonymat :
contrairement une liste
de diffusion, il nest pas
ncessaire de sidentifier
Consultation aise :
identique aux mails

Inconvnients
z

Perte de temps si on ne
slectionne pas
correctement nos
sources
Redondance de
linformation : cherchez
la source
Validit de
linformation :
publication plus aise,
nimporte qui peut publier
nimporte quoi

19e journe RNDH - 21/09/2006

Et demain ?
z

Lavenir des agents dalerte : leur intgration dans


des solutions logicielles

Les choix : agent logiciel ou plate-forme Web ?

Lvolution des normes et standards

Laccs aux contenus valeur ajoute : grer la


redondance et les cots dabonnement
19e journe RNDH - 21/09/2006

Contact
Tl. : 06 80 74 41 62
j.boustany@laposte.net
http://www.docinfos.com
http://search.docinfos.com
19e journe RNDH - 21/09/2006