Veille Stratégique, Détection de Signaux Faibles, Due Diligence Et Recherche D'informations PDF

I LCE I nst i t ut de l ut t e cont re l a cri mi nal i t conomi que : Etudes postgrades HES
Travai l de mmoi re f i n de cycl e : Haut e col e de gest i on de Neuchtel

Matriser la Socit de lInformation
Veille stratgique, dtection de signaux faibles, due
diligence et recherche dinformations en vue de la
mise en place de systmes de prvention contre
les nouveaux risques lis la criminalit
conomique et au blanchiment dargent
Auteur : Stphane Koch
stephane@rumeurs.org
Tel : +41 79 607 57 33

Aut eur : St phane koch - Tr avai l de mmoi r e f i n de cycl e : Haut e col e de gest i on de Neucht el
I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que, Et udes post gr ades HES Page I sur II

Chapitre Titre Page
1... Introduction 1
2... Socit de linformation, une nouvelle donne pour les entreprises
connectes
2
3... Nouvelles technologies de linformation et de la communication (NTIC) :
quels impacts pour les entreprises ?
3
4... L'information aujourdhui : Internet et le Web, catgorisation et dfinition 5
5... L'aspect multicouche de l'information 6
5.1) Laspect multicouche de linformation: Les paquets IP 6
5.2) Laspect multicouche de linformation: Le Web 7
5.3) Laspect multicouche de linformation : ladresse IP 7
5.4) Exemple de redirection dun site Web dans le but de commettre une fraude 8
6.. La recherche d'information sur le WEB 9
6.1) Les principales sources dinformation 9
6.2) Cartographie de linformation disponible sur le Web 9
6.3) Les types doutils et leurs fonctions 10
6.4) Les diffrents outils de recherches de linformation 11
6.5) Autres outils de recherches et traitement de linformation 12
6.6) La dfinition des zones et primtres de recherches 12
6.7) Principes de bases pour tablir une recherche 13

6.8) Utilisation des fonctionnalits avances des moteurs de recherches : les
principaux Oprateurs Boolens :
14
7.. L'analyse et la crdibilit de l'information (inclus traabilit et
identification)
15
7.1) Crdibilit de linformation, prsentation de deux cas cole 15
7.2) Crdibilit de linformation : les dmarches de validation logiques 16
7.3) Crdibilit de linformation : les dmarches de validation techniques 17
7.4) Remarque concernant lidentification des dtenteurs d'un site Internet 19
8... Analyse de lenvironnement et de la survenance de linformation par
linterprtation des signaux faibles
20
8.1) Modle danalyse de lenvironnement de linformation 20
8.2) Deuxime axe danalyse du fait 20
8.3) Utilit et comprhension du modle danalyse des signaux faibles 21
8.4) La mthode PUZZLE danalyse des signaux faibles 22
8.5) Traitement de linformation : P Pr ri in nc ci ip pe es s d de e l l i in nt te el ll li ig ge en nc ce e c co ol ll la ab bo or ra at ti iv ve e 24
8.6) Exemples dutilisation des mthodes traits dans le chapitre 8 24
Table des matires

Aut eur : St phane koch - Tr avai l de mmoi r e f i n de cycl e : Haut e col e de gest i on de Neucht el
I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que, Et udes post gr ades HES Page II sur II
9.. Stratgies visant la matrise des Flux informationnels 26
9.1) La veille stratgique: principes de bases et possibilits d'utilisations 26
9.2) Philosophie pour la mise en place d'une structure de veille 26
9.3) Etapes du cadre mthodologique dune surveillance lectronique: 27
9.4) Actions dfensives et prventives 27
10. Conclusions 30
Bibliographie 31

I. Glossaire des Termes Internet
II.... Noms de domaine et glossaire des Acronymes
III... Text Mining & Intelligence Economique: Aujourdhui et demain
IV. La rpartition go-stratgique de lInternet

Annexes
St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,

1

Objectif du travail :
Offrir des outils ainsi que les bases dune mthodologie de prvention et de gestion des risques (lis la
criminalit conomique et au risque de blanchiment dargent) par une perception et une comprhension
des enjeux de la socit de linformation - que lon pourrait dfinir par une modlisation et une
formalisation des courants tacites
1
de la socit actuelle vers lInternet et les consquences induites par
lutilisation des nouvelles technologies pour ce qui touche la criminalit conomique et celles,
indirectes, lies au blanchiment dargent. Une connaissance et une utilisation adquates des moyens
disponibles pour la gestion de son environnement informationnel pourront permettre aux diffrents
acteurs dapprhender : le risque technologique et humain, les mthodes de recherche dinformations et
la "consistance" mme de celle-ci, lidentification des diffrents intermdiaires et propritaires de sites
Internet, les flux informationnels prsents dans lenvironnement des entreprises, le risque limage,
lusurpation didentit, la traabilit gographique des informations.

Publics viss et considrations dordre gnral :
Ce document sadresse plus particulirement aux petites et moyennes entreprises. Pour les structures plus
importantes il pourra servir de base de rflexion llaboration de la stratgie de gestion de linformation
et du risque dans les dpartements ad hoc (management, compliance, communication). Les aspects
dordre technique abords dans ce document sont considrs comme les bases indispensables la
comprhension et la gestion des problmes abords. Les diffrents termes techniques ainsi que les
acronymes figurant dans ce mmoire sont documents dans les annexes mentionnes dans la table des
matires.

a socit de linformation ne peut tre aborde sans une connaissance de ses principales
composantes. A cet effet, ce document traitera de trois volets essentiels la comprhension des
rpercussions de lutilisation des NTIC (Nouvelles technologies de linformation et de la
communication). Le premier volet parlera plus spcifiquement des aspects lis aux systmes
dinformation (SI) et leur interconnexion. Le deuxime volet sera consacr la consistance mme de
linformation numrise ; son analyse, sa crdibilit et aux diverses possibilits de recherche et
didentification et dinterprtation des donnes prsentes au sein des sources disponibles sur le Net. Pour
terminer, ce document traitera de la matrise des flux informationnels et la mise en place dune structure
prventive de gestion et de surveillance de linfosphre. Lanticipation des risques linformation, les
mthodes dfensives et mesures durgence pour lutter contre des "frappes informationnelles
2
". Cette
notion danticipation est dcisive dans les domaines lis la prvention de la criminalit conomique et
du risque de blanchiment dargent. Avec lmergence de la socit numrique, il est devenu vital davoir
la capacit de surveiller un environnement de plus en plus complexe, ainsi que de dvelopper des
mthodologies de recherche, didentification et de traitement de linformation plus performantes.

Pour arriver ce rsultat, il est donc ncessaire de connatre les diffrents outils et sources dinformation
disponibles sur le Web. Ces connaissances pourront ainsi permettrent didentifier, entre autres, les
ayants-droit conomiques de sites Web ; de trouver de linformation sur les personnages politiquement
exposs et de dtecter, de manire anticipative, les risques inhrents une situation donne. La notion
dintelligence conomique dans le traitement de linformation, ainsi collecte, permet de produire un
support daide la dcision pour la prise en compte des problmes de criminalit conomique et la
gestion du risque en ce qui concerne le traitement des flux financiers (blanchiment dargent).

1) On pourrait aborder le courant tacite de la socit comme un comportement ou une connaissance, qui ne provient pas directement dun
apprentissage mais dune relation entre des connaissances acquises et lexercice de celles-ci, ce qui gnrerait le dveloppement dun
nouveau savoir (qui nest inscrit nulle part, qui nest pas prsent sur un quelconque support, mode de croyances sociales)
2) Terme dont la paternit revient Christian Harbulot, Directeur de lEcole de Guerre Economique www.ege.eslsca.fr (Paris)
L
1) Introduction

2

La premire consquence de lutilisation des ordinateurs et de lInternet est la ncessit dune
dmatrialisation de linformation amene par la numrisation des changes. La typologie mme du
rseau mondial a apport des changements majeurs dans la dfinition du primtre de lentreprise. Les
frontires gographiques classiques ont laiss la place des territoires virtuels dont la dlimitation plus
floue - peut ds lors se reprsenter en termes de segments de march et de secteurs dactivit.
Linterconnexion croissante de la sphre professionnelle et la vitesse de propagation des NTIC ont
gnr de nouveaux risques pour les entreprises utilisant des SI.

Les dveloppements actuels de la socit de linformation ont rendu les aspects sociologiques
indissociables des aspects technologiques ; crant une interdpendance entre des spcifications dordre
purement technique et leurs rpercussions sur notre mode de socit. Cela a une influence sur notre
raction envers les SI et ceux-ci sont tributaires de notre comportement dans leur mode de
fonctionnement. Lcart intellectuel qui se crer de jour en jour en ce qui concerne la "comprhension
des impacts dun SI dans une entreprise vis--vis de son secteur dactivit professionnelle" est d la
vitesse de lavance technologique et la multiplication des facteurs de risques induits par les nouvelles
mthodes de traitement de linformation. Il en rsulte que les dirigeants dentreprises continuent de
penser que les machines connectes en rseau sont encore des outils de travail que lon peut dissocier de
la vision stratgique du fonctionnement de lentreprise.

Source : www.mi2g.com
Le graphique ci-dessus illustre bien la palette des risques inhrents lutilisation dun SI. La notion de
dpendance technologique revt une importance considrable dans le prsent document

2) Socit de linformation, une nouvelle donne pour les entreprises connectes

3

Typologie des cinq catgories des risques lis aux NTIC:

Le tableau ci-dessous dmontre les relations directes entre lutilisation de systmes dinformation
et lactivit mme de lentreprise :

2001 2002
Pertes dclares % Pertes dclares %
Vol dinformation 161M$ 43% 189 M$ 42%
Fraude conomique 102M$ 27% 116 M$ 25%
Intrusion 60 M$ 16% 68 M$ 15%
Sabotage 55 M$ 14% 83 M$ 18%
Total 378 M$ 100% 456 M$ 100%
Impact conomique des attaques subies source : CSI / FBI 2002

La couche matrielle (hardware) : le manque de fiabilit du matriel et ses diverses possibilits de
disfonctionnements (coupure lectrique, dommage matriel, malveillance, dfaut de fabrication)
apportent une contrainte supplmentaire dans la gestion stratgique de lentreprise. Cet aspect du
problme dimportance vitale est souvent nglig en raison des surcots quil entrane au niveau de la
maintenance et de la mise en place de solutions de secours (back up matriel et logiciel, scurisation de
lapprovisionnement en lectricit, protection des locaux contre le vol et le feu).

Le risque logiciel : les modles conomiques actuels poussent les fabricants de logiciels une course
la nouveaut, ce qui les conduit diffuser des produits inaboutis sur le march. La plupart des
programmes disponibles ce jour comportent un nombre lev de possibilits de disfonctionnement ainsi
que de srieux manquements au niveau de la scurit. En dehors de laspect thique de la question, cela
reprsente un risque de fuite dinformation, despionnage industriel ou de perte de donnes (voir le
tableau ci-dessus : "Impact conomique des attaques subies"). La complexit mme des programmes
utiliss par les entreprises "autorise" aussi des exploitations dtournes de ceux-ci par des personnes au
bnfice dune ducation technique de base . Des facteurs extrieurs tels que la ncessit constante de
mises jour du systme par le biais dInternet, avec des donnes qui ne peuvent pas tre contrles,
reprsentent des risques de discontinuit de fonctionnement supplmentaires (ou un risque stratgique
pour les tats ou pour les socits multinationales).

Le risque rseau : linterconnexion des SI a permis non seulement une augmentation de la vitesse des
changes mais aussi du volume de ceux-ci. La capacit des SI traiter un grand nombre de donnes, ainsi
que la possibilit de traiter des informations de type htrognes de manire dlocalise ; a modifi non
seulement le comportement de lentreprise, mais aussi le type de donnes qui transitent au travers des
rseaux informatiques. En effet, pour rester concurrentiel et profiter pleinement des capacits offertes par
les SI, on a commenc formaliser (transformer en un format numrique comprhensible par les
machines) le savoir tacite (la connaissance stratgique de lentreprise). Ces donnes qui, classiquement,
taient difficiles daccs car elles se trouvaient rparties dans diffrents dossiers et dans les cerveaux des
dirigeants, ont t regroupes et standardises dans un langage dchanges unique (TCP/IP).

Le risque humain : la complexit des SI a provoqu la ncessit daccder des comptences
diffrentes de celles en relation avec le secteur correspondant lactivit professionnelle des entreprises
concernes. Lvaluation mme des connaissances ncessaires la gestion et la maintenance dun SI
n'est rendue que plus difficile. Cette situation et le manque de comprhension de limportance des
donnes qui transitent au sein du rseau, ont cr, dans la plupart des entreprises, la croyance que la
3) Nouvelles technologies de linformation et de la communication (NTIC) : quels
impacts pour les entreprises ?

4
gestion du S.I. est uniquement un problme dordre technique. Le risque "humain" a t nglig par des
dirigeants qui ont donn des pouvoirs exceptionnels aux administrateurs de leurs rseaux. Il est dune
importance capitale de considrer que lon dlgue des droits dadministration son administrateur
rseau et non qu'on lui donne les pleins pouvoirs sur ce que lon peut considrer comme le savoir
stratgique de lentreprise (le systme dinformation et les donnes de lentreprise). Il est tout aussi
important dinclure dans le cahier des charges de ladministrateur rseau lobligation formelle de
documenter tous changements effectus sur le S.I. ainsi que les diffrents vnements inhrents son
fonctionnement. De plus, il est recommand davoir une liste de spcialistes pouvant intervenir la
demande au cas o la personne en charge du S.I. de lentreprise ne serait subitement plus en mesure de le
faire. Il devrait tre acquis que les personnes exerant de telles charges (administrateurs rseaux et
supplants) doivent faire lobjet dune enqute approfondie avant davoir accs au S.I. de lentreprise.

Le risque informationnel : la socit de linformation a boulevers les rapports de force
classiquement prsents dans notre socit (du fort au faible), par lmergence dun rapport de force
asymtrique (du faible au fort). A lheure actuelle, la capacit de nuisance ne se dfinit plus en termes de
puissance daction et de mise en uvre, mais plutt en termes de mthodologie et de comprhension des
flux informationnels. La vitesse croissante des changes (au sein des modles conomiques en vigueur,
entre autres) et la facilit crer, publier et faire circuler linformation, de mme que laspect " de
standardisation " de la mise en rseau de donnes htrognes de mme que la monte en puissance des
outils de traitement de linformation (data mining
1
et texte mining
2
), permettent, aujourdhui, de nuire
la plupart des entits conomiques et politiques. De plus, la situation conomique et une certaine
difficult de comprhension (ou manque de perception) de ces nouveaux modles dchanges ont rduit
dautant la marge danticipation et la dfinition mme des risques. Linformation elle-mme sest
dgrade dans sa substance ; elle ne bnficie plus, lheure actuelle, des filtres classiquement
reprsents par la latence due au temps de traitement ou par laspect "litiste" de sa diffusion - car
payante auparavant. La gratuit de lchange a cr le volume par la multiplication des acteurs. Ds lors,
le modle chaotique qui en a rsult ne comporte plus de phase de validation de linformation. Les
groupes de presse ont aussi t pris dans la tourmente en pousant un modle dconomie de march dont
la principale finalit est le rendement. Cette contrainte conomique a eu pour consquence - pour les
professionnels de la presse - de diminuer le temps de traitement de linformation, alors que dans le mme
intervalle elle poussait une professionnalisation des sources ainsi qu une rduction de leur nombre.
Les rpercussions des ces changements nont pas encore influ sur les croyances de socit qui font que
lon considre encore que "ce qui est crit est vrai" (par les voies classiques ou lectroniques) ou que les
images sont des lments reprsentatifs de la ralit. Comme on la vu rcemment dans laffaire
"Thomas Borer" ou dans lactualit des attentats du 11 septembre, limage est un lment qui a gard sa
capacit dinfluence, mais perdu sa crdibilit. De mme quil est facile de crer de linformation et des
lments de preuve.

1) Processus d'aide la dcision o les utilisateurs cherchent des modles d'interprtation dans les donnes. Un DataMining permet
d'analyser les donnes d'un datawarehouse afin d'extraire des informations originales et des corrlations pertinentes d'un grand volume de
donnes brutes. On parle mme de "Dcouverte de Connaissances dans les Donnes".
2) Le text mining se distingue du data mining galement par les moyens techniques spcifiques qu'il faut employer pour traiter les donnes
textuelles et non structures.

Une dfinition gnrale du text mining est la suivante : l'extraction d'informations partir des formes ou patrons non manifestes (au sens de
hidden patterns) dans des grands corpus de textes. Autrement dit, l'objectif est le traitement de grandes quantits d'information qui sont
disponibles sous une forme textuelle et non structure. (Feldman et al., 1998a ; Landau et al.,1998).

Le point N2 est tir du document suivant, ce document figure dans les annexes :
TEXT MINING ET INTELLIGENCE ECONOMIQUE : AUJOURDHUI ET DEMAIN Xavier Polanco Unit de Recherche et Innovation Institut de
lInformation Scientifique et Technique Centre National de la Recherche Scientifique


5

Pour bien comprendre et afin de vulgariser la notion de circulation de linformation on va sparer, de
manire trs basique, en deux entits distinctes, les principales composantes de la socit de
linformation :
Internet est le contenant de toutes les informations qui circulent sur le rseau mondial. Sa
particularit premire est ce que lon pourrait dfinir comme son mode de langage et dinterprtation : le
protocole IP, respectivement TCP/IP (change par paquet IP). Internet nest pas le Web (www / World
Wide Web), mais linformation relative au Web circule travers Internet. Le principe de fonctionnement
de lInternet est un mode dcentralis et redondant dchange dinformations par paquets, dans le but que
si lun des segments du rseau vienne cesser de fonctionner, les segments restants prendraient le relais
pour lacheminement des paquets dinformation. Cependant, il faut noter que 80 90% de ces paquets
dinformation qui transitent sur Internet passent par les Etats-Unis. Les noms de domaine et les serveurs
qui les grent sont les seules ressources qui soient entirement centralises. Il y a treize serveurs-racine
rpartis dans le monde, mais seulement trois qui ne sont pas aux Etats-Unis (les trois autres se situent en
Island, en Angleterre et en Sude, voir annexe : "Rpartition gostratgique de lInternet"). Ces serveurs
sont de niveau quivalent, mais lun de ces serveurs, appel serveur primaire a une position
hirarchique plus importante du sa fonction de duplication des tables de correspondance entre les
adresses IP et les noms de domaine. Pour dmontrer les possibilits de "cause effet" de cette rpartition
des "serveurs racine" sur le fonctionnement des entreprises; on peut prendre comme rfrence lexemple
suivant : entre le 21 et le 22 octobre 2002, les 13 serveurs racine ont subi une attaque simultane
1
(deny
of service attaque par de multiples requtes qui engorgent les serveurs). Bien que le fonctionnement
mme de lInternet nait pas t mis en danger, on a pu constater une diminution de la capacit traiter
le volume des changes habituels; ce qui eu pour consquences de ralentir lactivit conomique dun
certain nombre de socits. Les auteurs de cette attaque nont pas t, jusqu ce jour, identifis;
cependant de nombreux spcialistes pensent quil faut trouver la cause dune telle action dans
lexpression actuelle de la politique trangre amricaine.

On peut donc constater que ce type de risque
(continuit dans laccs linformation) est dordre nouveau et dpasse compltement le "primtre"
habituel de surveillance de lentreprise.
Le protocole (TCP/IP) ne peut pas tre considr comme fiable dans sa version actuelle (IPv4). Celle-ci
permet, entre autres, les usurpations didentit et dorigine gographique (pour les adresses e-mail ou les
sites Web par exemple). Il faut prendre en compte que pour changer cette situation, une version
amliore du protocole IP (Ipv6) va tre prochainement implmente. Lorganisme de standardisation du
protocole IP est lIETF.
Le Web gre les changes conventionnels dinformations auxquels nous sommes habitus accder
par le biais dun navigateur (Browser). La particularit du Web est sa fonction "hypertexte" qui offre la
possibilit de lier un document, un mot ou un lment un autre, quel que soit son emplacement
gographique. Ses principaux modes de transports de linformation sont le protocole "http" et le langage
de description de document "html" (ces lments et les risques encourus au niveau de linformation sont
traits spcifiquement dans la partie "aspects multicouches de linformation"). Les principales failles de
scurit prsentes au niveau du Web sont dues un manque de suivi des standards en place par les
concepteurs de logiciels, ainsi qu la ncessit et le manque de fiabilit des mises jour des SI et
programmes associs. Il en rsulte quil est possible dexcuter des scripts

malveillants par le biais des
navigateurs Web.
Intgrs dans lenvironnement direct du Web on peut noter une srie de protocoles : lemail (SMTP.
POP, IMAP), le tlchargement de fichiers (FTP), les groupes de news (USENET) les forums de
discussion et messagerie instantanes (IRC / ICQ / Messenger / Chat), les systmes de messages BBS
(Bulletin Board System), ou encore la connexion une autre machine (TELNET).
1) Journal du Net : http://solutions.journaldunet.com/0210/021024_rootserver.shtml
4) L'information aujourdhui : Internet et le Web, catgorisation et dfinition

6

5.1) L'aspect multicouche de l'information : les paquets IP
Une des problmatiques au niveau dInternet et du Web concerne les possibilits multiples de fraudes au
niveau de la diffusion de fausses informations, dusurpation didentit ou de la publication de faux sites
Web. Une des facilits de mise en uvre de ce type de fraude est la mconnaissance de certains aspects
techniques par les utilisateurs. De manire gnrale ladage " je crois ce que je vois " fonctionnait trs
bien dans notre socit classique, mais malheureusement avec lavnement du Net les choses ont chang.
Lexemple ci-dessous a pour but de dmontrer la diffrence entre le contenu auquel ont accde et
linformation qui est rellement transporte dans les paquets IP.

Pour capturer ces informations il est ncessaire daccder au rseau de lentreprise, mais dans le cas dun
systme sans fils type Wireless lan (802.11), cette opration sera aise dans des confrences ou des lieux
publics ou ce genre de systme est gnralement configur sans restriction daccs.

Si lon effectue une capture des
paquets dinformation qui transitent
sur le rseau (sniffing du protocole
TCP/IP), on ralise alors que
linformation que lon pensait
protge, circule de manire
lisible au sein des paquets IP
Lors de configuration de laccs au
compte email dans un programme
(Outlook pour cet exemple), Les
donnes confidentielles, tel que le
mot de passe, sont masques par
une srie dtoile afin den prserver
lanonymat. Pour la plupart des
utilisateurs cela signifie que ces
donnes ne seront pas lues par un
tiers.
5) L'aspect multicouche de l'information

7
5.2) Laspect multicouche de linformation: Le Web (et quelques protocoles associs)

En ce qui concerne le Web, la fraude ou la tromperie se fait gnralement au niveau du langage "html" ne
demandant pas un haut niveau de connaissances techniques de la part du fraudeur pour leur ralisation.
Cependant, pour les mme raisons que celles cites prcdemment, elles ont toutes les chances daboutir
avec des utilisateurs "non-duqus".
Le protocole utilis pour l'accs un document rvle la nature de ce dernier. Par exemple, sur un
serveur FTP (file transfer protocole), les ressources proposes sont destines au tlchargement. Ces
protocoles ne nous apportent pas d'information concernant le contenu du document, mais ils donnent une
information sur la nature, la forme, le format lectronique du document disponible en ligne.
Voici les principaux protocoles auxquels on peut tre confront sur le www ainsi qu lintrieur des
pages HTML, par lintermdiaire des liens hypertexte :

http:// Hypertext Transfer Protocol : protocole de communication utilis pour les changes de
donnes entre les clients et les serveurs " www "
ftp:// File Transfer Protocol : protocole de transfert de fichiers entre deux machines sur Internet
gopher:// Protocole aujourd'hui supplant par le "http:// ", systme d'information distribu; l'accs
l'information est structur selon un rseau de menus multi-niveaux
telnet:// Protocole d'application dfinissant l'mulation d'un terminal sur Internet
mailto: Protocole d'accs d'un e-mail

HTML
14
(HyperText Markup Language) n'est pas un langage de programmation ! Ce n'est qu'un langage
de description de documents, il est utilis pour crire les pages standards du Web).
En d'autres termes, HTML est un ensemble (rduit) de balises (ou styles ou "tags") utiliss pour dfinir
les diffrents composants d'un document.
L'accs au document et la dfinition de son emplacement se fait grce un URL (Uniform Ressource
Locator). Le nom du document est prcd par son chemin d'accs, le point de dpart de celui-ci tant
reprsent par un nom de domaine [ex: http://www.switch.ch/] ou le numro IP d'un domaine [ex:
192.247.93.18] en ce qui concerne un document online.

Le plus souvent un URL sera de la forme : http://nom_de_domaine/nom_de_document

5.3) Laspect multicouche de linformation : ladresse IP

Ladresse IP sous sa forme chiffre ou le nom de domaine Internet (domain names system, DNS), qui
servent identifier un site Internet, peuvent tre utiliss indiffremment pour accder au site en question,
on les considre comme des adresses. C'est la raison pour laquelle le terme " adresse Internet / URL " est
largement utilis pour dsigner ces deux notions.

titre d'exemple,

8
l'adresse IP 212.109.69.120 peut se lire ainsi : l'ordinateur 120 situ sur le 69e rseau, du rseau 109 qui,
lui, se trouve dans le rseau global 212 (ou par exemple : lordinateur qui se trouve rue de la Gare 10
[120], Genve [69], une ville qui se trouve en Suisse [109], un pays qui se situe en Europe [212]). Ce
type d'adressage constitue la base du protocole de communication TCP-IP. Il permet aussi la localisation
de la machine qui hberge le nom de domaine et gnralement le contenu du site Internet. Normalement
des sries dadresses sont attribues par pays, mais il est extrmement difficile de localiser
gographiquement, de manire prcise, une adresse IP (ce sujet sera abord dans le chapitre sur la
recherche dinformation).

5.4) Exemple de redirection dun site Web dans le but de commettre une fraude :

CNN a rcemment t victime de ce type de fraude : " Les fausses pages gnres ressemblaient s'y se
mprendre celle du site de CNN. Le logo, les liens vers les rubriques et les derniers articles, tout y
tait. Y compris l'adresse de la fausse page, qui commenait par http://www.cnn.com, suivi d'une
arobase et d'une adresse IP. Le nophyte n'y voyait que du feu. Et beaucoup ont cru aux fausses infos. "
15
Pour illustrer cet exemple, je vais publier le document: [offshore.htm] sur le Net et le lier ensuite avec la
page d'un site Web [www.vosplacements.ch]:

Voici la page telle quelle apparatrait dans un navigateur :

Voici la page telle quelle est en ralit :
Dmarche pour afficher le code source de la page " offshore.htm " : Dans Internet Explorer :
slectionner le menu " Affichage", ensuite slectionner dans larborescence : " Source") :

15) Source: TF1 : www.tf1.fr/news/multimedia/0,,986128,00.htm
Emplacement du fichier sur le serveur
qui hberge vosplacements.ch
Lien hypertexte avec le site mentionn : partie visible de la
page web ce niveau le code HTML nest pas affich
Elments invisibles : adresse du site Web (ou de la page) sur lequel on va tre redirig. Dans ce
cas ladresse de redirection www.ofshore.com diffre lgrement de ladresse publie sur le
document offshore.htm qui tait www.offshore.com. Il sera donc facile de tromper lattention
du visiteur.
Elment visible sur la page web
intitule www.offshore.htm
nom de domaine du propritaire du
site (www.vosplacements.ch)

9

6.1) Les principales sources dinformation :
Sources blanches : base essentiellement sur des sources ouvertes et libres daccs, cette catgorie a
connu un grand essor avec le dveloppement de lInternet. On peut trouver un grand nombre
dinformations sur les socits, les individus, le savoir acadmique et le contenu des mdias
lectroniques. Le nombre de sources et labsence de contrle de celle-ci implicite une utilisation prudente
des rsultats des recherches effectues.
Sources professionnelles : cest une sous-catgorie des sources ouvertes, elles ne sont accessibles
que contre paiement ( linformation ou la quantit), cependant au contraire des sources libres daccs,
elles font, dans la majorit des cas, lobjet dun contrle au niveau de la qualit et de la crdibilit de
linformation stocke ou traite. Le principal problme des sources professionnelles cest quelles ne
rfrencent que les publications officielles. Cest pour cette raison quil est ncessaire de sintresser
lensemble des sources potentiellement disponibles.
Sources grises : cest le cot non formalis et non explicite de linformation. Cela pourrait tre ce que
lon va recueillir lors dun sminaire ou dune conversation. Ou cela peut aussi tre reprsent par des
sources dinformation inaccessibles aux diffrents types de moteurs de recherches ou encore par des
socits de conseil qui en plus de procder la recherche, font passer les rsultats par un rseau dexperts
ou de consultants qui valorisent linformation en fonction de leurs propres connaissances.
Sources noires : Ce type dinformation est, dans la majorit des cas, obtenue de manire illgale ou
daccs ferm. Dans cette catgorie on range linformation collecte de manire indue, telle que lachat
de renseignements concernant une entreprise (espionnage conomique).

6.2) Cartographie de linformation disponible sur le Web :

Les moteurs de recherches conventionnels ne trouvent que 20 25% du contenu prsent sur le Web. Le
graphique ci-dessous montre que linformation nest pas rpartie ou accessible de manire homogne : le
"Noyau" reprsente les sites Web et bases de donnes interconnectes (par des liens hypertextes).
Certains sites sont connects ce "Noyau" depuis lextrieur (IN), dautres sites sont connects du
"Noyau" vers lextrieur (OUT). Des sites sont connects aux lments extrieurs sans tre en liaison
avec le "Noyau" (Tubes). Et finalement, certains sites ne sont pas du tout connects dautres.

Source: IBM: Graph structure in the web
16

16) IBM : Graph structure in the web
:
http://www.almaden.ibm.com/cs/k53/www9.final/
Noyau
Tubes
Satellites
6) La recherche d'information sur le WEB

10
Les 75 80% de linformation restante (celle que les moteurs de recherches narrivent pas indexer)
reprsentent ce que lon appelle "le Web invisible". Celui-ci est principalement compos de bases de
donnes universitaires, de sites "satellites", ainsi que de sites "dynamiques" (dont le contenu est gnr
la demande). Pour les recherches dinformation dans ces deux parties (visible et invisible) la
mthodologie reste la mme, seuls les outils varient quelque peu.
La dure limite dans le temps de la prsence de certaines informations sur le Web peut rendre
lexercice fastidieux. Pour cette raison, il est souvent utile de conserver une copie des informations utiles
au moyen doutils appropris (Acrobat Exchange, pour fabriquer des documents PDF ou un aspirateur
de site pour conserver une copie du site dsir)
Estimation de la taille du Web (mars 2002)
- 13 milliards de documents
- 7,5 millions de nouvelles pages par jour
- 50 75 terabytes d information
- 600 milliards de pages dans lensemble des sites intranet

Rpartition des Noms de domaine Langues des documents
".com" : 54,68% - ".org" : 4,35% - 56,6% des pages sont en Anglais
".net" : 7,82% - ".gov" : 1,15% - 2,4% en franais,
- ".edu" : 6,69% - 0,5% en allemand.

Source : Recherche dinformation et veille sur Internet (www.enpc.fr/enseignements/Legait/projet/victor/chercher/sources.html)

6.3) Les types doutils et leurs fonctions :
Il existe des milliers doutils de recherche, dans les exemples qui seront prsents, on va se concentrer
sur un choix non-exhaustif des moteurs et outils de recherche les plus performants dans le contexte de ce
travail. Il faut nanmoins garder lesprit que le choix du moteur de recherche fait partie de la "stratgie
de recherche". Pour arriver des rsultats probants, il faut en premier lieu faire des "recherches sur les
outils de recherche", celles-ci peuvent seffectuer par lintermdiaire des moteurs conventionnels au
moyen dune requte adquate : par exemple : [moteur de recherches des adresses email / email address
search engine]. Cela dit, le meilleur moyen reste lutilisation des annuaires ou portails thmatiques qui
contiennent dj toute larborescence des outils de recherche :

Les principaux annuaire thmatiques sur les moteurs de recherches (MR)
http://outils.abondance.com/
http://c.asselin.free.fr/french/moteurs.htm
http://www.adbs.fr/site/repertoires/sites/lardy/outils.htm
http://www.liensutiles.org/rechspec.htm
http://www.searchenginewatch.com/links
http://www.searchtools.com/
Les principaux annuaire thmatiques concernant le Web invisible
http://c.asselin.free.fr/french/webinvisible2.htm
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
http://www.invisible-web.net/

11
6.4) Les diffrents outils de recherches de linformation:
Les annuaires : leur particularit est de regrouper thmatiquement des sites Web dans des rpertoires
ad hoc. Dans la majorit des cas, le catalogage et lindexage des sites se font par des personnes (au
contraire de lindexation des sites faite par des programmes automatiques pour les MR par mots-cl).
Les avantages de ce type doutil sont une bonne pertinence des rsultats obtenus ainsi quune meilleure
matrise de lenvironnement de recherche (on accde un nombre de rsultats limits, mais trs cibls).
Les inconvnients de la recherche par navigation sont des champs limits par le contenu des rpertoires
auxquels on accde, ce qui ncessite de savoir trs prcisment ce que lon cherche. [par exemple :
http://dmoz.org/]
Les mtas-moteurs : leur particularit est deffectuer les dites recherches au travers dautres MR.
Les requtes sont bases sur des mots-cl (une requte sera transmise plusieurs moteurs de recherches
en mme temps). Lavantagede ce type de recherche est de couvrir un champ trs large et de pouvoir
utiliser un nombre important doutils lors de la mme requte. Linconvnient de ces mtas-moteurs se
situe au niveau du rsultat des requtes : il y non seulement une redondance dinformation, mais en plus
la pertinence des rsultats obtenus laisse dsirer. On les utilisera pour des recherches gnralistes. [par
exemple : http://www.37.com/]
Les moteurs de recherches par mots-cl : ils sont composs dun ensemble de bases de donnes
cres de manire automatique par des programmes spcialiss (crawlers ou robots, qui parcourent le Web
la recherche de nouveaux sites). La frquence de mise jour de lindex dpend de la taille de la base de
donnes et de la politique du MR. Ces MR utiliss tels quels, ont les mmes avantages et inconvnients
que les mtas moteurs. Leurs atouts sont les fonctionnalits avances que lon peut exploiter dans les
requtes, chaque MR possde une page spcifique pour ces fonctionnalits (ainsi que pour les oprateurs
" type Boolens " de recherches disponibles tels que " and ", " or ", " near " etc. voir liste au point 6.8),
qui bien utilises permettent dobtenir des rsultats trs pertinents. Par contre, dans leurs fonctions de
bases ils ne sont pas trs performants (si lon nutilise pas les oprateurs de recherches dcrits sous
rubrique daide du MR). [par exemple : http://www.google.com/]
Les moteurs de recherches spcialiss : quils se prsentent sous formes dannuaires ou de
recherches par mots-cls, ils ne couvrent quun seul domaine (par exemple pour les recherches de
socits, demails, de documents PDF, dimages, etc.). Ils permettent une meilleure qualit dans les
rsultats des requtes. [par exemple : http://www.societes.com/, pour les entreprises, ou encore
http://www.phonenumbers.net/ pour les numros de tlphone dans le monde ]
Les moteurs de recherches de cartographie de linformation : ces MR qui fonctionnent par mots-
cls, naffichent pas une liste de rsultats lorsque lon fait une requte, mais ils affichent une carte de
linformation obtenue, le schma auquel lon va accder est une reprsentation graphique de la requte,
de son rsultat et de lenvironnement de linformation en relation avec ladite requte. Ces outils de
nouvelle gnration apportent une convivialit dans la recherche ainsi quune reprsentation visuelle qui
permet damliorer son approche de linformation (dautres outils dinterprtation et de visualisation de
linformation seront prsents dans la partie 6.5). [par exemple : http://www.kartoo.com/ ou
http://maps.map.net/ (qui permet de cartographier un annuaire tel que dmoz.org)]
Les outils humains de recherches : ces MR sont bass sur une aide humaine. Les questions
parviennent une quipe de spcialistes des outils de recherches qui formulent, la demande, les
requtes de recherches les plus adquates. Ce genre dinitiative permet au non-initi de trouver des
informations plus facilement, et elle permet aussi au spcialiste dlargir sa palette doutils (et de
comptences). Certains de ces sites sont gratuits [par exemple : http://www.webhelp.fr/]
Les rseaux experts : ces rseaux ne se composent pas proprement parler dun moteur de
recherches, ils se servent plutt du Web comme dune plate-forme daccueil pour rceptionner les
requtes de leurs clients. Ils ont un rseau de spcialistes de la recherche et ils croisent les rsultats avec

12
des rseaux dexperts (consultants spcialiss dans des secteurs dactivits distincts) pour crer une
information valeur ajoute. Ce type de rseau, que lon peut assimiler lintelligence conomique au
niveau du traitement de linformation, permet daccder une catgorie dinformation " grise " et
" professionnelle ". Des socits de services comme SVP Conseil sont abonnes une multitude de bases
de donnes professionnelles telles que, par exemple, Factiva, Lexis-Nexis, Dialog, etc Elles vendent
aussi la possibilit daccder celles-ci par mois ou par zone nationale. Le type dinformation que lon
peut obtenir par le biais de ce type de rseau dexperts reprsente une haute valeur ajoute par rapport
lutilisation simple des sources ouvertes. [par exemple : http://www.svp.fr/, http://www.egideria.fr/,
http://www.world-check.com/, http://www.insideco.net/, http://www.krollworldwide.com/]
On fera une petite parenthse pour les rseaux experts et bases de donnes telles que www.world-
check.com et www.insideco.net, ces bases servent surtout des aspects de Due Diligence sur des
personnes (politiquement exposes, entre autres) ou sur des socits considres comme douteuses. Il
faut tenir compte que ce type dinformation ne peut pas tre considr comme une information de
premire main (le contrle des sources est extrmement difficile), de plus, suivant le cadre lgislatif du
pays ou lon dsire exploiter les donnes fournies par ces organismes, on peut se trouver confront un
risque juridique (cadre lgal sur la protection des donnes personnelles) lorsque lon voudra utiliser ces
donnes. Il est recommand, pour des cas sensibles, de faire appel du conseil spcialis (rapport de
renseignements par des professionnels qualifis), ce titre, il ne faudra pas ngliger de faire appel aux
structures administratives existantes (police, renseignement, ambassades, etc.).

6.5) Autres outils de recherches et traitement de linformation :
Source et url de rfrence : http://www.enpc.fr/enseignements/Legait/projet/victor/chercher/Outils.html

les outils de surveillance " tracking " et dalerte "cyberalert " : Ils sont des fonctions de
recherche, de prsentation et de distribution de linformation. Il y a deux options pour faire la
surveillance: par abonnement gratuit un site de surveillance ou bien par un logiciel de surveillance
les outils "agents intelligents" : ils remplissent plus ou moins en profondeur les sept fonctions :
Rechercher, Indexer, Filtrer, Sauvegarder, Prsenter, Distribuer, Aider la dcision. Pour une
surveillance optimale sur Internet
les outils daspiration "mirroring" : ils remplissent les fonctions de sauvegarde (recopie),
dindexation et de filtrage pour certains dentre eux. Ils dupliquent tout ou partie dun site en recopiant
les pages, les rpertoires et larborescence du site sur le poste informatique local
les outils de gestion intelligente " Information mining " : ils ralisent les fonctions : Rechercher,
Indexer, Filtrer, Sauvegarder, Prsenter, Distribuer, Aider la dcision. Ils sont centrs sur la gestion
intelligente de linformation mme sils intgrent de plus en plus des fonctions de recherche sur le web
les outils danalyse et de reprsentation de linformation: ils ont les fonctions : Indexer, Filtrer,
Sauvegarder, Prsenter, aide la lecture dun ensemble de documents sur le web sous forme de
reprsentation graphique, qui fournissent une meilleure comprhension rapide de grand volume
dinformation. [voir aussi : http://c.asselin.free.fr/french/carto.htm]
NdL : Pour accder la liste des diffrentes catgories "doutils de recherches et traitement de
linformation " disponibles veuillez consulter lurl de rfrence (source). Certains de ces outils peuvent
ne plus tres accessibles en raison de considrations dordre conomiques.

6.6) La dfinition des zones et primtres de recherche :
Le mode demploi des fonctionnalits qui figurent ci-dessous apparat gnralement sous la rubrique
"recherches avances" des MR, il faut aussi noter que les MR comportent une rubrique daide qui dcrit
leur mode de fonctionnement.
On peut effectuer des recherches lintrieur dun site complet ou uniquement dans une page Web. Il est

13
possible de ne sintresser quaux liens visibles sur la page Web ou la linformation quils contiennent
dans la description des liens qui figure dans les balises html. On peut effectuer une recherche par rapport
au nom de domaine (par pays ou par un gnrique, tel que .com) ou par rapport au nom dun site. On
peut aussi chercher par le type et format de linformation dsire (image, vido, document Word, PDF,
Excel, etc). Certains MR, tel que Google [http://www.google.com/], possdent une fonction " cache" qui
permet daccder une version enregistre du document, mme sil nest plus disponible sur le serveur
dorigine. Cette fonction est aussi disponible avec " the Wayback Machine [http://www.archive.org/]"
qui intgre, depuis 1996, plus de 10 milliards de pages darchives. Il est aussi possible de chercher au
travers des " en-ttes Meta " par les " keywords " ou les " descriptions ". On peut aussi faire des
recherches centres sur des lments spcifiques tels que les carnets dadresses prsents sur les pages de
liens des sites Web [exemple de formulation de requte : url:bookmark].

6.7) Principes de bases pour tablir une recherche :

Il faut tre conscient que le fait de rechercher une information donne dj une information (vers
lextrieur) sur nos centres dintrts. Ce problme sera abord dans la troisime partie : les mthodes
de protection lors du traitement dinformations sensibles.
Dans un premier temps on va aborder la recherche sous langle logique (il faut souvrir lesprit et non
sarrter la perception technique des outils) et tablir une stratgie de recherche : nature de
linformation recherche, le type concern, objectif de la recherche, type de rsultat souhait, temps
disposition. On va commencer dlimiter lenvironnement de sa recherche : que cherche-t-on
exactement (une personne, un document, un format spcifique, un email) ? Est-ce que le type
dinformation recherch est ancien ou rcent, plutt dordre acadmique, professionnel ou priv, est-il
en relation avec les sources blanches ou grises ? Quels sont les lments utiles en relation avec la requte
(est-ce lon dispose dautres lments " dinformation indirecte " qui permettraient deffectuer une
recherche en parallle afin de trouver des relations avec la recherche principale et dterminer les
ressources les plus pertinentes ) ? Quel est lventail des outils dont on peut disposer (selon la nature de
la requte, quel est loutil le plus appropri : un mta-moteur, un annuaire, un newsgroup, une base de
donne professionnelle) ? Combien de temps est-ce que je peux consacrer ma recherche, est-ce que les
cots sont en rapport avec les rsultats ?
Exemple de deux approches logiques :

Il faut ensuite interprter le mode de fonctionnement de loutil choisi, pour comprendre sa manire
deffectuer une recherche. On va donner du sens sa requte (expression) et utiliser un maximum de
mots en relation avec ladite requte, de cette manire le nombre rsultats filtrer sera rduit au
minimum : dfinir les lments qui vont composer la requte en partant du gnral au particulier. Ceci va
amliorer la pertinence des rsultats et diminuer au maximum "le bruit". Il est parfois utile dutiliser
plusieurs moteurs en parallle (suivant leurs spcificits et efficacits). A lobtention des rsultats des

14
recherches il sera ncessaire de faire un travail de slection et de hirarchisation de linformation ainsi
obtenue. Par la suite il faudra nouveau structurer sa requte (title, host, url ) et redfinir ses besoins
en information par rapport aux recherches prcdentes (est-ce que des lments utiles peuvent venir se
greffer dans les prochaines requtes, est-ce que ma manire de prsenter ma requte est adquate ou est-
ce que je dois changer lorientation de celle-ci au vu des rsultats obtenus ?).

6.8) Utilisation des fonctionnalits avances des moteurs de recherches : les principaux
Oprateurs Boolens :

ADJ ct de Utilisez ADJ pour retrouver deux mots cte cte dans lordre.
AND - et Utilisez AND pour retrouver des notices qui contiennent deux termes.
IN dans Utilisez IN pour rechercher un mot champ particulier dans un champ
spcifique.
NEAR proximit
de
Utilisez NEAR pour retrouver les enregistrements qui contiennent les deux
termes dans la mme phrase.
NOT pas de Utilisez NOT pour rechercher des enregistrements qui contiennent l'un des
termes seulement.
OR ou.

Utilisez OR pour rechercher des enregistrements qui contiennent l'un,
lautre, ou les deux termes.
WITH - avec Utilisez WITH pour rechercher des enregistrements qui contiennent les
deux termes dans le mme champ.
WILDCARD
troncature lintrieur
du mot
Sert remplacer une lettre ou reprsente l'absence dune lettre (quand on a
un doute de lpellation). Ex. m?cdonald retrouve la fois mcdonald et
macdonald; p??re retrouve pre et paire.
Troncature Vous pouvez utiliser le symbole de troncature (*) pour remplacer un
caractre ou une chane de caractres. Ex. cat* retrouve les mots
catgorie, catatonie, cats, etc

15

La libert et la facilit de publication de documents lectroniques sur le Web sont significatives de la
difficult reprsente par lidentification de la source des informations auxquelles on peut accder. Cest
pour cette raison, quen plus des dmarches "logiques" de contrle (date de linformation, date de mise
jour, notorit et fiabilit de la source, possibilit de contacter son metteur, qualit de lurl), il faudra
entamer des dmarches "techniques" lies lidentification de la provenance de linformation
(gographique, technique/rseaux, source et traabilit dun email ou dun site Web), ltude de la
structure de linformation (code html dune page Web, dun email html), lidentification de layant
droit conomique (dtenteur dun site Web) ou encore pour dterminer le prestataire de service qui
hberge le nom de domaine, ainsi que le contenu dun site Web. Ces dmarches font appel une
complmentarit des connaissances abordes prcdemment (aspects multicouches de linformation,
notion dadressage IP, url, code html, Meta tag).

7.1) Crdibilit de linformation, prsentation de deux cas d'cole

a) Le cas Emulex : cette socit active dans le domaine de la fibre optique a t victime en aot
2000 de la propagation dune srie de fausses informations la concernant. Alors que le march
boursier du Nasdaq ouvrait peine ses portes, l'action de la socit Emulex s'effondrait
brutalement, projetant le cours de l'action de 103 45 dollars en l'espace de quelques minutes,
ce qui a provoqu une perte estime ( au niveau du capitale action) 200 millions de dollars ! A
l'origine de cette baisse notable se trouve un communiqu, repris par Bloomberg et Dow J ones
(deux des trois plus importants brokers dinformations financires au monde). Ce communiqu
affirmait le plus srieusement du monde que les rsultats escompts ne seraient pas l'ordre du
jour, que Paul Folino, patron de la firme, dmissionnait et, qui plus est, les autorits boursires
avaient lanc une srie d'enqutes sur les comptes de la socit. Ces informations taient
totalement errones, cette fraude avait t organise par un ancien employ de Dow Jones, lequel
a nourri les deux services susmentionns avec des fausses donnes. Seul Reuter, grce des
mthodes de validation des sources en amont (seule la rception de la validation de linformation
par une source tierce permet la " news " daller plus loin) russi " filtrer " ces fausses
informations.

b) Le cas CNN : (exemple abord la page 8 pour ce qui est de la redirection dun site Web vers
une copie illgale de celui-ci). Cette affaire regroupe les aspects techniques lis la
mconnaissance des utilisateurs, ainsi que les aspects de crdibilit du au rapport de confiance
induit par le fait que lon pensait se trouver sur le site de CNN, et donc que linformation ne
ncessitait pas de contrle supplmentaire. Le type durl utilis permet de rediriger ladresse
dorigine du site Internet cible sur le site contenant les fausses informations. La charte graphique
tant reproduite lidentique, la plupart des gens se sont faire prendre en dfaut. Les
professionnels de la presse eux-mmes nont pas russi dtecter la fraude, un nombre
considrable de nouvelles ont t reprises in extenso sur des sites officiels tiers. Crdibilisant
des informations dj fausses lorigine. Donc les personnes qui ont accd aux sites web qui
avaient repris linformation leur compte navaient que des signaux trs faibles de remise en
cause de linformation

7) L'analyse et la crdibilit de l'information (inclus traabilit et identification)

16
Exemple de lurl utilise dans le cas CNN :
http://cnn.com:443@212.190.116.226/news.php?y2JEHUDv

le :443@ permet une redirection depuis nimporte quel site Web. Il suffit donc dimiter la charte
graphique du site cible, et ensuite dobtenir ladresse IP de son propre domaine [212.190.116.226], (voir
page 7, " laspect multicouche de linformation "), linclure la suite de larobase avec le chemin
jusquau document dsir [/news.php?y2JEHUDv] [ http://212.190.116.226/news.php?y2JEHUDv ]

Ces deux cas illustrent aussi trs bien le concept de "rapport de force asymtrique" Pour chacun dentre
eux, une seule personne a uvr et a russi compromettre la vie dune entreprise cote en bourse pour
le premier et a dstabilis une chane dinformation telle que CNN. La diffrence entre les moyens
engags et la puissance des entreprises attaques est la reprsentation de ce rapport asymtrique.

7.2) Crdibilit de linformation : les dmarches de validation logiques

date de linformation : quand est-ce que linformation a t publie, est-ce que la date de
publication correspond aux autres dates prsentes dans le site ? quand disponible [Information
quantitative]
date de mise jour : est-ce que le site fait luvre dune politique de mise jour de linformation,
est-ce que celle-ci semble homogne sur lensemble du site ? [Information quantitative]
notorit et fiabilit de la source : est-ce que le site est connu, de quelle notorit bnficiait-il,
quels sont les rsultats que jobtiens quand je le soumets des MR (ce type de contrle est possible avec
des outils spcialiss tel que : www.linkpopularity.com) [Information quantitative]
possibilit de contacter son metteur : est-ce que linformation laquelle jaccde est signe ou
lgende, est-ce que les coordonnes de lauteur figurent sur le site, est-ce que les informations de
contacts sont composes demail, dadresse postale, dun numro tlphone ou de fax ? Quels sont les
rsultats lors de recherches daprs les informations de contact figurant sur le site (prenez les noms
"personnes ou socits" et avec un moteur de recherche ou un meta-moteur, essayez de trouver des "
traces" de celles-ci) [Information qualitative]
structure de lurl : (selon lexemple de CNN) est-ce que le nom de domaine est la proprit de
lditeur ou est-ce que lon a affaire un site qui offre des espaces dexpression gratuite, est-ce que la
dnomination des liens correspond bien la structure des url, est-ce que lextension du nom de domaine
est connue et en relation avec lemplacement gographique suppos de linformation, ou est-ce que lon

17
a affaire un nom exotique (par exemple un www.nom.fr.st pour un article en franais) ? [Information
qualitative].
rfrencement de linformation contenue dans le document : est-ce que toutes les informations en
relation avec le document auquel on accde sont bien documentes, les sources cites et vrifiables (lien
avec la source) est-ce que les personnes cites figurent sur le Web (prenez le nom et prnom et avec un
moteur de recherche ou un meta-moteur, trouvez les "traces" de cette personne) ? [Information
qualitative].
possibilit de croiser linformation avec dautres sources dinformation : est-ce que lon peut
trouver trace de linformation laquelle on accde dans dautres sources, le message est-il homogne ?
[Information quantitative].

7.3) Crdibilit de linformation : les dmarches de validation techniques

provenance de linformation : quel est le nom de domaine du site vis, est-ce un nom courant,
provient-il dun pays au bnfice dune lgislation permissive, quels sont les pr-requis pour
lenregistrement dun nom de domaine (dans le cas dun nom par pays) ? On peut vrifier les diffrentes
procdures ladresse suivante : www.iana.org/cctld/cctld-whois.htm. Pour les noms de domaines
gnriques se rendre sur : www.iana.org/gtld/gtld.htm)Pour vrifier lexistence dun nom au niveau
mondial se rendre sur : www.uwhois.com/cgi/domains.cgi?User=NoAds
source, hbergement et traabilit dun site Web : les autorits de rgulation pour la distribution
rgionale des adresses IP sont listes ladresse suivante www.iana.org/ipaddress/ip-addresses.htm, de
mme que lon pourra sintresser lattribution des classes dadresses IP sur ce lien :
www.iana.org/assignments/ipv4-address-space. Des produits logiciels tels que " Visualroute " de la
maison " Visulaware " peuvent apporter une aide prcieuse au non-technicien pour la traabilit dun
site et lidentit de lhbergeur :

lidentification de layant droit conomique (dtenteur dun site Web) : pour identifier le
dtenteur dun site web on va devoir, dans un premier temps, se rendre sur :
http://www.internic.org/whois.html afin de savoir auprs de quelle socit le nom de domaine a t lou.
En effet, depuis la libration la concurrence de la location des noms de domaines un certain nombre de
socits denregistrement (Registrars) ont vu le jour. Lurl susmentionne va nous permettre de trouver
Dans ce cas on a trac le chemin
depuis lordinateur sur lequel on
se trouve jusqu lendroit ou le
site est hberg (avec les
adresses IP respectives)
On aura ici le nom de la socit
dhbergement ainsi que du
fournisseur de service tlcoms
par lequel on transit

18
le Registrar concern, ainsi nous pourrons nous rendre sur le site de celui-ci et utiliser loutil (Whois)
prvu cet effet pour identifier le dtenteur de nom de domaine faisant lobjet de notre recherche. On
peut donc constater qu'il ny a pas de relation entre les diffrents " Whois " qui pourtant enregistrent le
mme type dextensions (.biz, .com, .org, .info, etc : voir annexe pour accder toutes les extensions). Le
fait que lon ait identifi le dtenteur du site ne signifie pas que lon ait les informations sur lhbergeur
du contenu du site (celui-ce sera trouv au moyen de visualroute, tel que dmontr dans lexemple
figurant au paragraphe prcdent)
source et traabilit dun email: " email tracker pro " de la maison " Visulaware "

code html dune page Web : Dans lexemple ci-contre, lon peut remarquer que CONTENT= -
Intrusion par Kain- figure dans les en-ttes mta de la page web. Ce qui signifie quil ne sera pas
visible lorsque lon visitera la page en question avec son navigateur. Certains moteurs de recherches sont
capables de faire des requtes dans la zone des mtas (par exemple www.voila.fr, avec les recherches
approfondies)

Dans cet exemple lexpditrice affirme tre la veuve de
Mobutu, et le nom affich la rception de lemail est bien:
Mme Mariam Mobutu , mais ds que lon trace lorigine
de cet email et que lon en affiche le code source, on se
rend compte que le pays de provenance de lemail est le
Nigeria, et que lexpditrice utilise en fait une adresse email
avec un nom de domaine @yahoo.com ce qui peut tre
un lment de dcrdibilisation ; cet email est en fait un
des documents envoys par la filire nigrienne .

19
7.4) Remarque concernant lidentification des dtenteurs d'un site Internet
Quelle est la problmatique au niveau lgale ?
Le principal problme que lon rencontre se situe au niveau de la ncessit de lentraide judiciaire et du
manque de contrle de la crdibilit des informations fournie par les ADE (ayants droits conomiques),
de plus la possibilit de sparer les diffrentes informations en relation avec les dtenteurs de sites (au
niveau gographique humain et des prestataires de services), par exemple rcemment un cas
descroquerie avait pour contexte un nom de domaine thalandais, un contenu hberg en Californie et
ladresse du dtenteur situe en Espagne.

Exemple didentification transnationale :

Propritaire du nom de domaine SXXXXXX-
XXXXX.COM

Adresse postale:

1) Rxxxxx Mxxxxx & Co Limited

Rxxxxx Mxxxxxx & Co Limited
Mr Rxxxxx Mxxxxxx
Kxxxxx Gxxxx Road
LE2 2LF
Leicester
GB
Location du nom de domaine SXXXXXX-XXXXX.COM

2) Schlund + Partner AG

Cest la socit denregistrement [Registrar] par
laquelle M. XXXXX est pass pour enregistrer le nom
de domaine SXXXXXXX-XXXXX.COM.

Adresse postale :

Schlund + Partner AG
Erbprinzenstrae 4 12
76133 Karlsruhe
Germany
Hbergement du contenu en relation avec
SXXXXXX-XXXXX.COM

3) Cyberporte

Cyberporte hberge le site, ou contenu du nom de
domaine SXXXXXX-XXXXX.COM, elle loue lespace
(hbergement des donnes) ncessaire fournir ses
prestations de service chez la socit anglaise
WEBFUSION, elle-mme filiale de la socit
HOSTEUROPE, celle-ci a aussi la gestion des
serveurs de nom qui hbergent le nom de domaine
SXXXXXX-XXXXX.COM

Adresse postale :

Hxxxx, Mxxxx
2 mxxxxx des Cxxxxxx
Lauris, 84360
FR
Hbergement du nom de domaine SXXXXXX-
XXXXX.COM par lintermdiaire de CYBERPORTE

4) hosteurope.com

Cest la socit [Registration Service Provider] qui
mis disposition les serveurs de noms [voir ci-
dessous : nserver] ncessaires la prise en charge du
nom de domaine SXXXXXX-XXXXX.COM sur
lInternet.
HOSTEUROPE, par lintermdiaire de lune de ses
filiales anglaises : WEBFUSION
[http://www.webfusion.co.uk/corpinfo.shtml], ntant
que le prestataire de service de CYBERPORTE et na
pas pour client direct MXXXXX & CO LIMITED

Adresse postale :

Host Europe PLC
Kendal Avenue
London W3 0XA
GB

20

La notion de lenvironnement de linformation peut se rfrer la vrification du contexte dans lequel
une information est diffuse (contexte alarmiste, tendu, favorable ou dfavorable) est-ce que la teneur de
linformation a une influence concrte sur une situation actuelle. La survenance quant elle fait rfrence
au moment o linformation apparat et linfluence quelle a sur les lments prsents et venir, ainsi que
les facteurs de concidence informationnelle que lon peut discerner.
Pour amliorer lefficacit de cette technique on utilisera la mthode " PUZZLE " (dveloppe par le
professeur Humbert Lesca de lUniversit de Grenoble. Elle est base sur lanalyse des signaux faibles).
Il sagit de puiser dans diverses sources des lments dinformation de type heuristiques (des brides
dinformations) pour ensuite les regrouper sur un mme niveau danalyse afin dtablir les " liens
relationnels " qui seraient susceptibles dexister entre les diffrents lments pr-slectionns (de
causalit ou de contradiction par exemple).

8.1) Modle danalyse de lenvironnement de linformation.

a) Quel est le fait ?
b) Identifier la source (notion denvironnement de linformation) :
- Crdibilit (mdia, auteur);
- Environnement (politique, sociale);
- Localisation (pays).
c) Les 5Questions en relation avec la source :
- Qui ?
- Quand ?
- Quoi ?
- A quel moment ?
- Pourquoi ?
d) Les 5Questions en relation avec le fait :
- Qui ?
- Pourquoi ?
- Contexte ?
- Impact ?
- Incidence ?

8.2) Deuxime axe danalyse du fait:

Les sources : indpendance vis vis du journal ou dautres acteurs impliqus. Couleur politique.
Prcision.
Les faits : distinguer les faits, des opinions, des suppositions, des commentaires, des hypothses, des
supputations
Les contradictions : recoupement, correspondance entre les infos. Dtection des indices de
contradiction entre les diffrents vecteurs de linformation en question
Le dbat : qui est-ce que l'on donne la parole, qui est concern, qui manque lappel
Les mots : quelle est la dialectique, comment sont employs les mots, charge motionnelle, double
sens.
8) Analyse de lenvironnement et de la survenance de linformation par linterprtation
des signaux faibles

21
Le titre : reflte-t-il vraiment le contenu de larticle ou les faits annoncs, induit-il une interprtation
errone du contenu
Les chiffres : sont-ils prcis, les sources sont-elles fiables, le contexte dans lequel ils sont utiliss
correspond-t-il.

8.3) Utilit et comprhension du modle danalyse des signaux faibles

Dans un contexte de surabondance de l'information, l'enjeu est de pouvoir distinguer parmi le "bruit"
(masse dinformations) l'information qui sera utile l'entreprise. Il s'agit donc de dtecter les faibles
occurrences, c'est--dire les "signaux faibles* " L'ide de "signaux faibles" peut tre dfinie partir de la
notion de "signaux d'alerte" (encore dnomme "signaux prcoces") qui dsigne le plus souvent des
signaux de faible intensit. *I. Ansoff

Au niveau de lanalyse, on peut considrer les signaux faibles comme des bribes dinformations, qui
analyses sparment, ne signifient pas concrtement un vnement venir mais plutt lindice dune
situation potentiellement possible. Cest lutilisation de faisceaux dindices (htrognes) qui permettra
de dfinir la probabilit du degr de ralisation de lvnement venir. Cette approche " logique "
danticipation peut-tre formalise et optimise par le biais de lintelligence collaborative..

source : Humbert Lesca

A l'instant T, l'vnement E est totalement ralis. Le signal S qui lui correspond est un "signal fort"
donc facilement perceptible. A ce moment l, le dlai pour ragir l'vnement est nul, il n'y a aucune
marge de manuvre possible.

A l'instant T', l'vnement ( l'tat E') est juste amorc. Le signal qui lui correspond est un signal faible,
difficilement perceptible. L'effort raliser pour dtecter ce signal est donc plus important. En
revanche, la marge de manuvre, mesure par l'cart entre T' et T, est alors suffisante pour faire face
la survenance de l'vnement.


22
8.4) La mthode PUZZLE danalyse des signaux faibles

Source : Humbert LESCA ( www.esa.upmf-grenoble.fr/etudiants/veille/INDEX.HTM)

Mthode Puzzle: le processus

1. Catgorisation des informations
2. Numrotation des informations
3. Dfinition des relations entre les informations, selon les liens de:
- Causalit;
- Confirmation;
- Contradiction;
- Hypothse;
- Frquence.

Les programmes tels que I2(analyser : http://www.i2.co.uk/) Watson (http://www.xanalys.com) ou
Mind Map (http://www.mindmap.com/), permettent aussi, diffrents niveaux, de travailler sur une
approche qui regroupe : lanalyse de lenvironnement de linformation, lanalyse des signaux faibles et la
mthode PUZZLE. Pour pouvoir " fusionner les mthodes susmentionnes on va partir du principe de
fonctionnement du " data mining ". On va donc collecter un maximum dinformations denvironnement
htrogne tant au niveau de leurs sources, de leurs catgories, que de leur crdibilit ( ce titre on
annotera les informations selon un facteur de crdibilit situ entre 1 et 10 par exemple). Au final on va
essayer de procder lagrgation et la consolidation des lments prsents afin de procder au
traitement mthodologique des donnes


23
Rappel des dmarches de bases

1) Collecte

Identifier la source (notion
environnement de
linformation)
Analyser la source:
Crdibilit (mdia, auteur);
Environnement (politique,
sociale);
Localisation (pays).
Croisement des sources
2) Observation

Observer le texte
Sortir les lments dintrt
Chercher des informations complmentaires
dans les sources blanches ou grises
Numroter les lments dfinitifs selon deux
mthodes: chiffres pour les lments du texte,
alphabet pour les lments des sources.
Croisement de linformation
3) Qualification et consolidation de linformation

Principes de lintelligence collaborative:
Profils: cognitifs heuristiques et analytiques
Groupe compos de savoirs htrognes
Mise en circulation de linformation au sein du groupe
validation des informations par sa confrontation aux
diffrentes connaissances prsentes au sein du groupe
Cration de rapports dtonnements
4) Schmatisation :

Dvelopper les lments selon la
relation quil est possible de dfinir
entre les diffrentes informations
prsentes;
Analyse des signaux faibles
Schmatiser les diffrentes relations
identifies par un graphique;
Dvelopper des hypothses selon des
scnarios exploratoires (identiques
ceux que lon utilise pour dfinir sa
stratgie de recherche).
Dtection des indices dtonnement
Cration de savoirs

24
8.5) Traitement de linformation : Principes de lintelligence collaborative:

Profils: cognitifs, heuristiques et analytiques. Il est important de tenir compte des profils psychologiques
prsents dans la chane de traitement de linformation. Si lon ne place pas les personnes au bon endroit
(que cela soit en ce qui concerne la mise en place dune structure de veille ou lors dun travail danalyse
de groupe). Un profil cognitif inductif sera plus mme de travailler avec des informations incompltes
et donc aura plus de chance de trouver des indices lors dune approche de dtection des signaux faibles.
Le profil cognitif analytique ne se contente pas dinformations tronques, il lui faut des donnes prcises,
on le placera donc en aval de la chane de traitement de linformation (en partant de la collecte, par
rapport au profil inductif).
Groupe compos de savoirs htrognes : dans le concept de lintelligence collaborative il est important
de bnficier dune diversit de savoirs. De mme quil est positif davoir des savoirs atypiques au sein
du groupe. Dans la phase de mise en circulation de linformation, la validation des informations par sa
confrontation aux diffrentes connaissances prsentes au sein du groupe. Lintelligence collaborative est
dautant plus efficace quand elle sappuie sur des modles tels que ceux abords aux points 8.1 8.4.

8.6) Exemples dutilisation des mthodes traits dans le chapitre 8

Premier cas : analyse de lactualit : le "sniper" de Washington, on avait fortement suggr
lpoque des faits (octobre 2002) que ce tueur pouvait avoir une relation avec le groupe terroriste dAl
Qaida. Dans un premier temps lorsque le tireur est apparu, on a trait le premier meurtre comme un fait
divers. Par la suite, avec la multiplication des homicides on a parl dun tueur en srie. Le climat de
psychose qui a commenc sinstaller et le fait que les autorits taient impuissantes face ce criminel a
pouss celles-ci chercher un bouc missaire. Cest ce moment que lanalyse de lenvironnement de
linformation et de la survenance de linformation peut tre exemplifie.
Premier lment : les autorits ont subitement demand lautorisation Donald Rumsfeld demployer
des moyens militaires pour combattre "cet ennemi" lorigine de la psychose de la population de tout un
tat (il sagissait demployer des drones ainsi que des satellites).
Deuxime lment : les tlvisions ont commenc diffuser des reportages sur les effets
psychologiques du terrorisme (documentaire sur les victimes dattentats en Isral, etc)
Troisime lment : le conseiller du prsident pour la politique de scurit intrieure a affirm quil
envisageait dinterroger les prisonniers de Guantanamo afin de vrifier sil existait un lien entre le
" sniper " et les terroristes
On peut dterminer la volont de cration dun lien implicite entre un vnement dactualit et
lutilisation de la psychose terroriste du moment par lanalyse de ces lments de dissonances dans le
contexte informationnel

Deuxime cas : les images montrant des Palestiniens en liesse aprs les attentats du 11 septembre.
Cet exemple peut permettre dtudier, les aspects de concidence informationnelle ainsi que de
survenance de lvnement. Si on analyse le contexte dans lequel ces images sont apparues sur les
chanes de tlvisions, on constate que, dans un premier temps, elles avaient "leur place" dans la chane
(contexte) dinformation; tandis que pour ce qui est de la concidence et de la survenance on avait l les
premiers signaux faibles
Premier lment : alors que le monde est occup, New York, par la chute des tours, une quipe de
cameramen a russi se trouver au bon endroit au "mauvais moment".

25
Deuxime lment : le groupe de palestiniens film na jamais fait lobjet de plans reculs, les
cameramen sont en fait rests concentrs sur un petit groupe de personnes la situation ntait donc pas
reprsentative dun mouvement gnral.
Troisime lment : les images sont " arrives " trs vite sur les chanes de tlvision et dans la
majeur partie des diffusions, elles nont pas t accompagnes dun commentaire explicatif.
Quatrime lment : il y a un peu plus de 18 mois, un journal isralien (Haaretz) proche de larme
avait fait paratre un article sur la volont de larme de se doter " dune force dintervention mdiatique
rapide " dont le but tait de mettre en place un " outil " pour tre plus mme de se battre sur le terrain
de linformation.
Cinquime lment : les images ont t filmes par lantenne isralienne dun rseau de broadcast
international
Tous ces points permettent de remettre en cause linformation reue et de mieux dtecter les messages
induits (les Palestiniens se rjouissent de lattentat, Les Palestiniens ne sont peut-tre pas trangers
cet attentat Les Palestiniens sont des terroristes). Ce qui fait que, par exemple, quand le Premier
ministre isralien a ordonn aux chars de pntrer dans les territoires occups, le taux de protestations est
rest trs faible.

Ces diffrentes mthodes danalyse (chapitre 8) sont les seules parades cet aspect moderne de gestion
de linformation. Pour un cas tels que ceux du type CNN (chapitre 7.1), cela peut permettre de fournir
les lments ncessaires une dtection approprie des informations errones


26

Le dveloppement de structures ou cellules de veille stratgique est intgr dans la stratgie de
management de linformation. Les divers lments prsents au chapitre 3 dans le paragraphe "Le risque
informationnel ", sont reprsentatifs de la ncessit de dlimitation du primtre informationnel de
lentreprise.

Le principal instrument de travail est linformation et la tche est de grer le flux de cette information
selon des principes de : rception; interprtation; dissmination; action. .
De plus en plus le management de linformation en entreprise devient une ncessit, car il faut
grer :

Le flux des informations produites par lentreprise pour elle-mme
Le flux des informations prleves sur lextrieur et utilise par lentreprise
Le flux des informations produites par lentreprise destination de lextrieur

Ces diffrents flux se dpartagent en deux catgories :
Les informations dactivits, utiles lentreprise pour assurer son bon fonctionnement,
Les informations de convivialits, permettent de vivre ensemble et en relation avec les autres et
dinfluer sur leurs comportements.

" On peut considrer par exemple quune campagne de dsinformation agit selon le mme principe
quun virus informatique: une information errone qui sappuie sur les ressources dun systme
organis dans le but de le dstabiliser. "
9.1) La veille stratgique: principes de base et possibilits d'utilisation
On va inclure dans la gestion de son primtre informationnel la palette des risques et vulnrabilits en
relation avec lactivit professionnelle de lentreprise. Pour une banque par exemple on va inclure le nom
des personnages politiquement exposs dans le primtre de surveillance. A ce titre, il faut prter
attention au fait quinclure un risque dans le primtre informationnel de son entreprise ne signifie par
forcment traiter ce risque depuis son entreprise :
Considrant que chaque recherche dinformation est une information, il faudrait, pour le secteur
bancaire, passer par des sortes de " proxy humain " et donc ne pas traiter la recherche dinformation
directement au sein de lentreprise, mais passer par une entreprise tierce, bnficiant de toutes les
garanties de confidentialit, afin de rduire le risque au minimum. On peut trs bien imaginer crer une
structure indpendante de sa propre entreprise, mais sous le contrle de celle-ci, ddie la gestion du
risque.

9.2) Philosophie pour la mise en place d'une structure de veille

Pour mettre en place cette structure de veille on va en calquer le principe de fonctionnement au niveau
humain sur " lintelligence collaborative (chapitre 8.5) ". Ensuite on va essayer de rpartir le travail en
rapport avec les comptences des collaborateurs de lentreprise concerne. De manire gnrale, la veille
nest pas une occupation temps plein. Une fois que lon a pris en compte les aspects de personnalit, il
est indispensable dy marier les comptences ncessaires la dtection des signaux (domaine
professionnel). On essayera autant que possible dautomatiser par secteur la collecte dinformations, le
premier tri devant tre fait par les ressources du secteur concern.
9) Stratgies visant la matrise des Flux informationnels

27
9.3) tapes du cadre mthodologique dune surveillance lectronique:
Construire la liste des mots-cl qui dlimitent le primtre de surveillance : en fonction des thmes de
surveillance, il est capital de construire une liste de mots-cl en plusieurs langues qui sera la base des
premires recherches manuelles.
Tester ses mots-cl sur les moteurs de recherche : valuer le volume dinformations existant sur le
sujet et dfinir plus prcisment les expressions (bouts de phrase) qui donneront les rsultats les plus
prcis.
Les recherches effectues en texte intgral, si tous les mots-cl ne sont pas utiliss dans les
recherches, on risque de passer cot de documents pertinents et qui contiennent dautres mots-cl que
ceux de notre liste. Attention la construction de la liste des mots-cl et des expressions de recherche ("
style Internet ").
Construire un carnet dadresses des sites ou des pages surveiller. En compltant les recherches sur
les moteurs.
Hirarchiser les sites surveiller. Les sites ne sont pas surveiller avec la mme frquence.
Slectionner les outils ncessaires (logiciels, outils en ligne, dlgation de services) afin de pouvoir
automatiser le maximum de points surveiller pour tre capable de consacrer toute lattention ncessaire
aux indices dinformation.
Une petite parenthse sur Factiva : ce type de base de donnes professionnelles comporte un
ensemble de systmes dalertes et doptions de configuration trs utiles. Il faut tre conscient que cela ne
suffit pas. Bien que linformation de Factiva soit qualifie et provienne de plusieurs milliers de sources
officielles, elle ne permet pas daccder tout le primtre des informations non officielles au sein
desquelles on a un fort potentiel de dtection de signaux faibles et autres indices dinformation. De plus,
les forums de discussions ne sont pas non plus pris en compte.

9.4) Actions dfensives et prventives

La protection de l'image, exemple : On peut estimer le prjudice limage caus par le dtournement de
sa page daccueil (appel " defacement " ou " dfacement ") entre le moment " T " o linfraction a t
commise et le moment " T1 " qui correspond au retour la normalit. Lespace temps compris entre "T"
et "T1", multipli par le nombre de visiteurs qui habituellement frquentent le site dans cette tranche
horaire, donne le potentiel de prjudice (ci-dessous : exemple concernant la socit Pfizer).


28
En effet, si lon a mille visiteurs dans la tranche horaire en question cela signifie quun millier de
personnes aurait t en mesure de faire une capture de la page Web dtourne et lenvoyer au travers de
forums de discussions, aux concurrents ou aux reprsentants de la presse. Il faut aussi imaginer que la
"dimension" de lentreprise sur le Web correspond la taille de son cran. De ce fait, si lon " tag " la
page en question, cest comme si on arrivait " taguer " tout le btiment dans la ralit. Pour pouvoir
rpondre ce risque on mettra en place une solution de veille automatique sur linformation de son
propre site Web, de la sorte que si elle venait changer, le responsable en serait alert dans les plus
brefs dlais (une solution produit performante est WebSite Watcher : www. aignes.com/)

Les personnages politiquement exposs : en prenant en compte les ncessits de scurit abordes au
chapitre 9.1 ainsi que les aspects techniques du chapitre 9.4, on va utiliser le principe de veille sur un
certain nombre de sites et de portail dinformations. On peut aussi faire une recherche des interlocuteurs
potentiels dans les rgions o le Web ne recense pas encore les sources dinformation (presse locale,
rumeurs)

Les contres sites : par rapport au nom et au domaine dactivit de son entreprise il serait judicieux de
faire une tude de risque afin de savoir quel est le danger dune exploitation mauvais escient dun nom
de domaine en relation avec son activit professionnelle. Il est en effet moins coteux de louer une srie
de noms de domaine (en moyenne CHF 18.- / an) que de devoir intervenir par lintermdiaire dun
avocat. Pour palier ce risque, il faudra non seulement prter attention aux diffrentes extensions (pays ou
autres domaines gnriques tels que les .biz ou .info) mais aussi aux contre-sites potentiellement
utilisables (www.jeboycottedanone.com/, syz.com, www.bcgefraude.ch)

La marque : la marque peut tre susceptible dtre attaque par le biais des mta-tags ou au niveau du
" positionsquatting " (pour ce qui est du cybersquatting ou utilisation indue dun nom de domaine dans
un but spculatif, lOMPI a mis en place une procdure darbitrage).

Le positionsquatting est le fait de payer pour apparatre dans les premiers rsultats lors dune recherche
sur une marque dont on ne dtient pas les droits. Des recherches sur plus de 60% des entreprises du CAC
40 amnent vers des sites non officiels, qui ne dtiennent aucun droit sur la marque. Dans ce cadre, on
observe de nombreux cas de parasitisme car les entreprises les moins scrupuleuses ont achet des
positionnements sur les recherches sur des entreprises concurrentes pour dtourner leur trafic. (source :
Raphal Richard CVFM).

29
Les Meta-tags : grce aux fonctions avances de certains MR tel que "Voila :
http://options.ke.voila.fr/plus_voila.php (voir exemple en bas de page)" on peut faire des recherches afin
de savoir si sa marque figure dans les Meta-tags dun concurrent ou dun contre-site

exemple des possibilits de recherches approfondies de www.voila.fr

Les rumeurs : comme cela a souvent t soulign dans ce mmoire, les fausses informations sont
prsentes en masse sur le Web. Un des vecteurs la mode est lemail, il sert de support tous types de
fausses nouvelles avec plus ou moins de succs, profitant et l de la crdulit des internautes pour une
part et de lutilisation de la connaissance du comportement humain pour lautre. Cest ce dernier point
qui va tre abord dans lexemple de la page suivante :

30

Ce message est trs bien construit, car si lon suit la dmarche dcrite ci-dessus la lettre on obtiendra en
toute logique le rsultat annonc. Le seul problme est que le fichier qui est mis en cause et accus dtre
un virus destructeur, nest que lun des nombreux fichiers utiles au fonctionnement de lordinateur. Il
tait donc normal que les programmes anti-virus ny prtent aucune attention

Linformation, en tant quentit proprement parler, a pris, dans un espace temps restreint, une
importance croissante en ce qui concerne sa capacit de nuisance. Les nouvelle contraintes engendres
par cet tat de fait ne peuvent plus tres ngliges. On a pu constater que la survie dune entreprise peut
tre menace par un nombre important des cas prsents dans ce mmoire et que leur mise en uvre ne
ncessite pas lengagement de beaucoup de moyens. La dlimitation "des frontires du risque" sest aussi
tendue de manire considrable alors que les protections lgales ont t rendues plus difficiles daccs
et plus coteuses. Les entreprises en phase avec des ralits court terme ont de la peine prendre en
compte ce type de risque, la notion dincertitude les pousse faire le minimum pour assurer la prennit
de leur activit professionnelle. Les donnes actuelles dmontrent que, malgr une fragilisation de
fonctionnement due lutilisation des SI et un " turn over " important, elles prfrent continuer
naviguer vue. Il est vraisemblable que larrive dune responsabilisation pnale des dirigeants
insouciants remettra au got du jour la culture de la prvention du risque.

- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -

10) Conclusions

1. Matriser et pratiquer la veille stratgique AFNOR
2. Recherche et veille sur le Web visible et invisible TEC & DOC
3. La recherche intelligente sur Internet, Outils et mthodes HERMES
4. Lintelligence conomique au service de lentreprise Edition PUBLISUD
5. De la guerre conomique PUF
6. Guerre conomique et information, les stratgies de subversion ELLIPSES
7. Larme de la dsinformation - GRASSET
8. La veille stratgique (E. Pateyron, Economica)
9. Le Guide du Knowledge management (J-Y Prax, Dunod)
10. Savoir anticiper (Philippe Gabilliet - Collection formation permanente, Sminaires mucchielli
11. Professeur Humbert Lesca : http://www.esa.upmf-grenoble.fr/contenu_professeurs_lesca.html
12. Cours du Professeur Humbert Lesca (http://imatis.unige.ch/iMatis/iMatis.nsf/lesca2001?OpenPage)
Bibliographie

Annexe I
A
n
n
e
x
e

I

1

Adresse IP(Adresse Internet Protocol)
Adresse unique permettant d'identifier un ordinateur sur l'Internet.
Applet
Une "applet" est un petit programme crit en Java qui s'insre dans les pages HTML. Ce programme est ensuite interprt et
excut par le navigateur.
Archie
Systme qui permet de localiser un nom de fichier dans les sites FTP anonymes. Les serveurs Archie rpertorient des millions
de fichiers qui se trouvent dans quelques milliers de sites FTP anonymes dans le monde.
ARP (Address Resolution Protocol)
Protocole de Rsolution d'Adresse. Messages et procdures utilis par tout protocole de communication pour retrouver partir
des adresses locales, les adresses rseau. Dans TCP/IP, le protocole pour convertir les adresses IP rseau et les adresses
physiques.
ARPANET (Advanced Research Project Agency Network)
Rseau Communication par paquets qui constitua la base du rseau Internet. Ce rseau a vu le jour en 1969
Authentification
Vrification de l'identit prtendue d'un ordinateur ou de l'utilisateur d'un rseau informatique.
ASCII (American Standard Code for Information Interchange)
Code binaire permettant de reprsenter les diffrents caractres. C'est le mode utilis par presque tous les micro-ordinateurs
pour coder les caractres saisis.
Autoroutes de l'information
Rseaux de tlcommunications permettant la diffusion d'informations en mode numrique de faon aussi accessible que le
tlphone ou la tlvision, c'est--dire autant partir des habitations que des lieux de travail. L 'autoroute de l'information (ou
les autoroutes...) implique la convergence de l'informatique et des tlcommunications sur les plans techniques et
conomiques et de grandes possibilits de diffusion d'informations varies, en mode texte, graphique, vido et son..
Bande passante
Gamme de frquences qu'un instrument peut produire ou qu'un canal peut transmettre sans affaiblissement du signal. La
largeur de bande s'exprime en Hertz. Plus la Bande Passante d'un rseau est leve, plus grande est son aptitude transmettre
un flot important d'informations.
Backbone
Epine dorsale d'un rseau et point de concentration de celui ci. Ce terme peut tre employ pour l'infrastructure ou pour les
services (comme la diffusion de News) Il dsigne une ligne haute vitesse ou un ensemble de lignes haute vitesse qui constitue
un point de passage important dans un rseau. Ce peut tre galement une machine servant de point de concentration. C'est en
fait un nud de communication..
BBS (Bulletin Board System)
Messagerie entre micro-ordinateurs abonns, permettant la mise en place de forums et de dialogues en direct. A une chelle
plus grande les BBS sont appels "services en ligne" ("On Line Services'? Parmi les exemples de "services en ligne" citons
Compuserve, America On Line(AOL).
CACHE
Dispositif matriel ventuellement associ un composant logiciel dont l'objectif est de stocker localement des ressources afin
de diminuer le dlai de mise disposition de ces ressources. Il peut s'agir de mmoire dite "mmoire cache" associ un
microprocesseur et dont l'objectif est de stocker dans le microprocesseur des donnes afin d'viter une perte de temps aller
chercher ses donnes sur un support extrieur (mmoire ou disque). On parle alors d'antmmoire.
Le mcanisme de cache peut-tre aussi mis en oeuvre sur un serveur pour stocker temporairement des donnes frquemment
utilises et se trouvant sur un site distant (Proxy Server). C'est aussi un mcanisme utilis par certains protocoles comme le
DNS ou ARP.
Chiffrement
Mthode de protection des donnes. Lorsqu'on accde ces donnes, elle empche de les comprendre sans le recours d'une cl
de chiffrement permettant d'afficher "en clair".
Cl publique
Cl utilise dans un systme de chiffrement dans lequel la cl de chiffrement est diffrente de la cl de dchiffrement. Ce
systme repose sur le caractre secret d'une cl dite prive mme en connaissant la cl publique (c'est--dire diffuse
publiquement). Un modle de chiffrement double cl est celui de POP ("Pretty Good Privacy").
Client-serveur
ANNEXE I : Glossaire des Termes Internet
2
Mode de fonctionnement d'un programme informatique qui rpartit la charge de travail d'une application entre deux logiciels:
le client et le serveur. Le client assume les changes avec l'utilisateur, la prparation des requtes, l'affichage des rsultats, etc.
Le logiciel serveur assume la gestion des bases de donnes et effectue les traitements, les recherches, et traite tout type de
requtes que lui adresse le logiciel client.
Commutation par paquet
Mode de transmission des informations sur l'Internet: les donnes transmettre sont dcoupes en plusieurs paquets et chaque
paquet est envoy de manire indpendante. Ce mode est distinguer de la commutation de circuit qui est utilise pour le
tlphone.
Compression
Traitement des donnes numriques qui rduit leur volume. Ds lors que des informations sont numrises (converties en
sries de bits), elles peuvent tre compresses afin d'occuper moins de place. Les techniques de compression impliquent un
codage par algorithmes mathmatiques. La dcompression est ensuite effectue grce aux formules inverses. Ces techniques
ont tant progress que l'on peut prsent compresser des donnes, et les restituer sans perte de qualit, dans un rapport de 1
20.
Cookies
Fichier de type texte (.txt), qui s'inscrit sur le disque dur l'aide de certaines pages Web, dans le but
d'tre rutilis plus tard par d'autres pages Web.
Cryptage
Mthode qui assure la confidentialit et la scurit de l'information vhicule sur l'Internet. Les donnes sont brouilles, et
donc illisibles, puis dbrouilles l'aide de la mme mthode. Certains navigateurs Web, comme Netscape. Possdent de
telles fonctions.
Cybercaf
Caf dans lequel on peut se connecter l'Internet . Les premiers cafs de ce type sont apparus en 1992 San Francisco.
Cyberspace
Terme de William Gibson, romancier, dsignant les mondes virtuels constitus par les rseaux informatiques
Dbit
Mesure la quantit d'informations que peut transmettre un canal de transmission pendant un temps donn Gnralement en
bits par seconde pour les transmissions numriques.
DNS (Domain Name System)
Base de donnes distribue permettant de faire la correspondance entre nom de machine logique et l'adresse IP
E-mail (Electronic Mail)
Application qui permet un utilisateur d'changer des messages avec d'autres utilisateurs dots d'une adresse Internet,
communment appele adresse de courrier lectronique. L'Office de la langue franaise du Qubec recommande l'usage du
terme "messagerie". En France on prconise aujourd'hui l'usage de "Ml". Certains utilisent le terme plus heureux de "courriel
". On peut aussi entendre le terme BAL (boite aux lettres). La messagerie lectronique fut l'un des tous premiers services du
rseau Internet mis en place partir de 1971. Comme la plupart des services dvelopps sur Internet la messagerie
lectronique utilise un mcanisme client-serveur. Pour pouvoir envoyer un message, l'utilisateur doit disposer d'une boite aux
lettres lectronique (souvent lie un compte sur une machine), comprenant gnralement son nom et celui de la machine sur
laquelle il est enregistr. L'adresse a la forme nom@machine, cette boite aux lettres lui est rserve. Le protocole utilis sur
Internet est SMTP.
Ethernet
Norme d'quipement utilise dans les rseaux locaux. Ce type de rseau peut supporter le protocole TCP/IP utilis par
l'Internet un dbit nominal de 10 Mbps, trs rpandu dans le monde de la micro-informatique.
Forums de discussion ("news group")
Espaces de rencontre et de dialogue sur le Web. Ils sont classs par thmes et par pays (donc par langue). Les sujets de
conversation sont trs varis, de l'aquariophilie au cinma d'art et d'essai, en passant par la bande dessine et la psychanalyse.
Le principe de ces dialogues est simple et se rapproche de celui des Listes de Diffusion. Ils peuvent tre modrs ou non.
Lorsqu'ils le sont, les interventions des abonns sont values et dposes sur le forum, uniquement si elles sont effectivement
en rapport avec le thme de celui-ci.
Fournisseur d'accs Internet
Socit qui loue des connexions l'Internet et fournit les services associs ncessaires. On trouve galement souvent
l'appellation ISP (Internet Service Provider).
FTP (File Transfer Protocol)
Ce service de !'Internet permet de tlcharger des fichiers. Il permet aussi de dposer (tl verser) des fichiers dans un site
donn.
Gopher
3
Systme distribu d'accs l'information conu l'Universit du Minnesota en 1991. Trs simple, on l'utilise surtout pour
diffuser et consulter des documents. La prsentation et la navigation s'effectuent l'aide de menus. Il tend disparatre au
profit du Web. .
GUI
Graphical User Interface - Interface utilisateur graphique.
Home Page ou Page d'accueil
Nom donn au document principal d'un site Web. Ce document constitue le document racine de l'arborescence de la base de
donne du site. C'est aussi le nom donn au document de prsentation d'un utilisateur. En gnral ce document prsente le site,
la socit ou la personne. C'est le point de dpart de la navigation dans la base de donnes du site.
Hte (Host, Host computer, Host system)
Ordinateur hbergeant un service Internet, dont un ordinateur client peut importer les donnes et les informations en s'y
connectant. Plusieurs services peuvent rsider sur la mme machine hte (un serveur de courrier lectronique et un serveur
Web par exemple). Inversement, plusieurs htes peuvent se partager l'hbergement d'un mme service, ncessitant
d'importantes ressources machines. Tout ordinateur d'un rseau mettant des services la disposition des autres systmes du
rseau. Il propose notamment les services de messagerie et un serveur Web. Dans !' Internet, il supporte les protocoles TCP/IP
et possde une adresse Internet.
HTML (HyperText Markup Language)
Langage de marquage de documents. Ce langage offre une prsentation de l'information qui permet une lecture non linaire
grce la prsence de liens smantiques activables dans les documents. C'est un sous-ensemble de SGML.
HTTP (HyperText Transport Protocol)
Protocole de transmission de documents hypermdias. Il est utilis pour transfrer des documents hypertextes ou des
documents hypermdias entre un serveur et un client W3.
Hypermdia
Ce mot est form partir de "hypertexte" et de " multimdia". Il caractrise l'ensemble des techniques offrant la possibilit de
lire ou produire des documents numriques contenant du texte, de l'image ou du son en passant de l'un l'autre par des liens
hypertextes. Dans le W3, il s'agit de plus en plus d'hypermdia, bien que l'on parle souvent d'hypertexte.
Hypertexte
Prsentation de l'information permettant une lecture non linaire grce des liens smantiques activables dans les documents.
Hytelnet
Base de donnes mise jour rgulirement et constitue principalement de rfrences des sites Telnet et d'autres sites
Internet.
IMAP (Internet Message Access Protocol)
Protocole d'accs aux messages Internet permettant l'accs aux messages E-mail et BBS se trouvant sur un Serveur de
messagerie. Le protocole IMAP est un protocole d'accs concurrent au protocole POP. Ces deux protocoles sont
particulirement utiles pour la lecture de son courrier partir d'un poste nomade connect au serveur par le biais d'un rseau
public de transmission. Contrairement POP, IMAP permet de ne transfrer que les enttes des messages lors de la lecture de
la boite aux lettres, tandis que POP transfre la totalit du contenu sur le poste local.
Interface
Dsigne la frontire travers laquelle deux systmes communiquent. Une interface peut-tre un connecteur matriel reliant
deux quipements ou un ensemble de conventions utilises par deux systmes logiciels pour communiquer entre eux.
ISP (Internet Service Provider.)
Voir Fournisseur d'accs Internet
INTERNET
Rseau constitu par un ensemble de rseaux tlmatiques qui interconnectent la plupart des pays du monde. L'apport
d'Internet par rapport d'autres rseaux est d'tre bas sur un protocole de communication TCP/IP indpendant du type de
machine (Mac, PC, Unix,...), du systme d'exploitation et du support de transport physique utilis. De plus, Internet fonctionne
de manire dcentralise: Son fonctionnement ne dpend ni d'administration ni d'ordinateur central. Un paquet d'informations
peut aller d'un point un autre en empruntant potentiellement plusieurs chemins.
Intranet
Ce terme reprsente l'utilisation des protocoles et services Internet dans les rseaux internes des entreprises.
IP (Internet Protocol, protocole Internet).
Le protocole rseau que toute machine sur l'Internet utilise pour communiquer avec une autre.
IRC (Internet Relay Chat)
Service disponible sur l'Internet permettant la discussion plusieurs en temps rel avec d'autres personnes par change de
messages textuels (de l'anglais "to chat", bavarder).
LAN (Local Area Network)
4
Voir RESEAU LOCAL
Lien hypertexte
Zone activable d'un document hyper textuel permettant d'tablir une connexion entre des donnes ayant une relation de
complmentarit entre elles, et ce, o qu'elles se trouvent dans l'Internet. Les termes " pointeur" et "marqueur" indiquent
respectivement le lien hypertexte (pointeur) et la zone activable (marqueur).
Listes de diffusion
Appeles aussi listes de distribution : Ce sont des listes auxquelles on peut s'abonner gratuitement et qui vhiculent des
informations par thme.
Listserv
Application qui supporte les changes entre un groupe de personnes qui possdent une adresse lectronique. Une liste peut
tre prive ou publique, modre (i.e. tre "gre" par un modrateur ) ou non modre. Elle est utilise pour les discussions,
mais aussi pour la livraison de journaux lectroniques. Majordomo est une application quivalente.
Login
Nom de connexion. Code d'accs unique qui identifie un utilisateur lorsqu'il accde un ordinateur. C'est aussi l'opration qui
permet cet accs un ordinateur.
MAN (Metropolitan Area Network)
Rseau mtropolitain dont la taille est situe entre celle d'un rseau local LAN et celle d'un rseau longue distance WAN. Ce
peut tre un rseau l'chelle d'un campus ou d'une ville.
Mime (Multipurpose Internet Mail Extension)
Standard utilis par la messagerie pour coder des fichiers binaires (son, images, programmes). L 'apport principal de MIME
est le support du format 8 bits permettant l'envoi direct de tout type de document. Plus prcisment. MIME est dfini dans le
RFC 1341. Les extensions MIME ont t faites pour corriger les limitations initiales de la messagerie Internet telles que
dfinies dans le RFC 822 datant de 1982. En particulier ces extensions ont t faites pour tre indpendantes de la machine
mettant, transmettant ou recevant le message. Elles permettent de prciser les attributs du message ou de certaines de ses
parties comme le format et le type de contenu, le codage (7 bits, 8 bits, base 64...), mais aussi l'alphabet, la langue, la
description..
Modrateur
Personne qui se charge de filtrer les articles diffuss sur les News Groups ou Groupes de nouvelles dites "modres ".
Mosaic
C'est la premire interface graphique ou Navigateur qui a permis l'accs la plupart des applications qu'on retrouve dans le
rseau Internet (www, Gopher, Telnet, FTP, News.) Des versions de Mosaic existent notamment en environnements X
Window, Macintosh et Windows. Son auteur est un des fondateurs de Netscape.
Moteur de recherche
Outil de recherche d'information sur l'Internet. Ce terme est surtout utilis pour la recherche dans le Web. Exemple Voil,
AltaVista, Yahoo,
Multimdia
Ensemble de techniques permettant d'utiliser des informations de type texte, image fixe, image anime et son sur un mme
support numrique et interactif.
Navigateur (browser)
Programme qui sert d'interface entre l'utilisateur et le rseau. Ex: "Netscape Navigator" ou "Internet Explorer".
News
Nouvelles Usenet : ce sont des Forums de Discussion o chacun dpose des courriers (articles) par thme. Ces courriers sont
conservs quelques jours et donnent lieu des discussions. Une hirarchie dans l'organisation des groupes permet d'identifier
ceux qui existent sur les diffrentes thmatiques.
Newsgroup
A traduire par "Groupe de nouvelles" ou "Forum Usenet" utilisant gnralement le rseau l'Internet, dsigne un groupe de
discussion sur un sujet particulier.
Niveau application
Niveau o une application, comme le courrier lectronique, Web ou Gopher, se ralise. Ce protocole applicatif se situe au-
dessus de la couche de transport de l'information.
NNTP (Network News Transfer Protocol)
Protocole utilis par Usenet pour transfrer des fichiers de News d'un serveur l'autre.
Nom de domaine
Element d'une adresse lectronique qui permet de la classer en fonction de la localisation, de l'activit ou du nom du
propritaire du domaine. Le top-level domain indique la localisation gographique du serveur lorsqu'il se compose de deux
lettres (.fr pour la France,. uk pour l'Angleterre,. de pour l'allemagne, etc.).
5
Les entreprises ou les particuliers peuvent dposer un sous-domaine leur nom propre. Dans l'acception courante, on
considre que dans les adresses "http ://www.uunet.fr" et "info@uunet.fr", le nom de domaine est "uunet.fr".
On-line ou Off-Iine
Se dit d'un ordinateur ou d'un service lorsqu'il est connect o dconnect du rseau.
Oprateur Tlcom
Dsigne une socit ou un organisme exploitant un grand rseau de tlcommunications. Exemple: AT&T, France Tlcom,
Mercury...
Paquet
Petit ensemble de donnes faisant partie du transit d'une information travers un protocole de commutation par paquet,
comme TCP/IP.
Pare-feu (Firewall)
Dispositif matriel et/ou logiciel qui contrle l'accs l'ensemble des ordinateurs d'un rseau partir d'un seul point d'entre.
Le firewall est en gnral situ entre le rseau interne et le monde extrieur, dans une zone appele "zone dmilitarise".
La premire fonctionnalit d'un garde barrire, est de filtrer les paquets qui transitent entre le rseau que l'on veut protger et
les rseaux extrieurs. Ainsi certains paquets peuvent tre interdits de passage en fonction :
- de l'adresse de la source ou de la destination du paquet,
- du type de protocole (http, ftp, mail),
- du type d'applicatif,
- de l'heure et de la destination du paquet (accs interdit en dehors des heures ouvrables par exemple),
- A cette fonction basique de filtrage peuvent tre associes des fonctions de scurit avances ; Telle
la dtection de virus, le masquage des adresses IP du rseau protg ou encore l'tablissement de tunnels crypts associ un
procd d'authentification.
Passerelle
Configuration matrielle ou logicielle assurant la communication entre deux protocoles distincts. Par exemple : dispositif
assurant la communication entre un systme de courrier lectronique interne et le courrier lectronique Internet. La passerelle
effectue les traductions ncessaires pour que les donnes soient reconnues par les diffrents systmes. Le terme passerelle (qui
normalement ne dsigne que les quipements effectuant une traduction des protocoles au niveau 7 et au-dessous) est souvent
utilis pour dsigner des quipements spcifiques d'interconnexion comme les Routeurs.
Pointeur
Chane de caractres qui permet d'indiquer de manire unique la localisation d'une ressource. Un URL est un pointeur
permettant d'accder une ressource du Web.
POP (Post Office Protocol)
Protocole d'accs au Bureau de Poste. Protocole permettant l'accs aux messages E-mail et BBS se trouvant sur un serveur de
messagerie. Le protocole POP est un protocole d'accs concurrent au protocole IMAP. Ces deux protocoles sont
particulirement utiles pour la lecture de son courrier partir d'un poste nomade connect au serveur par le biais d'un rseau
public de transmission. POP est plus ancien que IMAP et possde de moins riches fonctionnalits. Contrairement POP,
IMAP permet de ne transfrer que les enttes des messages lors de la lecture de la boite aux lettres, tandis que POP transfre
la totalit du contenu sur le poste local.
Postmaster
C'est la personne qui, sur un serveur de messagerie, est responsable du bon fonctionnement du service. Il est le destinataire de
tous les messages d'information de ce serveur. Il existe en gnral un compte "Postmaster" sur tous les bons serveurs de
messagerie.
Proxy
Nom donn un programme, une fonctionnalit ou un serveur qui agit en tant qu'intermdiaire dans un change
d'information en effectuant un contrle le plus souvent li la scurit.
Voir les deux types de Proxy :
Proxy Gateway Type de dispositif pare-feu (Firewall) install entre deux rseaux et qui protge les ordinateurs d'un rseau
interne contre les accs des utilisateurs extrieurs. C'est en gnral un programme install sur une Passerelle et qui bloque le
passage direct des Paquets entre le client et le serveur et n'autorise le passage que de certains paquets. On parle aussi de relais
applicatif, de machine bastion dans un sous-rseau dmilitaris. La plupart des Navigateurs peuvent tre configurs pour
utiliser les services d'une passerelle Proxy, c'est d'ailleurs dans certains rseaux scuriss la seule faon pour accder des
documents se trouvant l'extrieur du rseau local ( condition encore qu'il existe aussi une passerelle avec l'Internet). Les
navigateurs peuvent tre configurs en fonction de la mthode d'accs (protocole) FTP, Gopher, Wais, News et HTTP.
Proxy Server Programme qui fournit un Cache pour des lments prsents sur d'autres serveurs qui sont soit prsums trop
lents, soit loigns ou coteux d'accs. Ce terme est utilis tout particulirement dans le cadre du www. Un serveur qui reoit
une requte demandant un URL l'extrieur : vrifie s'il n'a pas trs rcemment rpondu une requte identique.
6
- dans le cas o la page a t stocke dans son cache, il lui suffit alors d'extraire la page correspondante du cache pour la
transmettre au client qui lui en a fait la demande. (Cela se traduit par un gain en temps de rponse, et ventuellement en cot si
le transfert en provenance du serveur original se traduit par des dpenses rseaux particulires).
- dans le cas o la page n'est pas dans le cache, le serveur Proxy transmet la requte vers le serveur hbergeant l'URL
demand puis transmet le rsultat de la requte de l'URL au demandeur.
Bien videmment, le cache ne garde les documents qu'un temps dtermin, contrl par un algorithme en fonction de leur date
d'entre, taille et historique d'accs. La notion de serveur Proxy est comparer la notion de passerelle Proxy.
ppp
Point to Point Protocol. Protocole qui permet d'avoir accs aux fonctions du protocole IP partir d'un modem et d'une ligne
tlphonique conventionnelle. Le protocole Slip offre un service quivalent.
Protocole
Ensemble de rgles qui dfinissent les modalits de fonctionnement d'une communication entre deux ordinateurs. Ou encore,
mthode formelle de disposition des messages et des rgles que doivent respecter obligatoirement deux ordinateurs ou plus
pour changer de tels messages.
Protocole ISO
Protocole dont les normes sont reconnues par l'ISO : International Standard Organisation (organisation qui s'occupe des
standards au niveau international).
Real Audio
C'est une technique qui permet la transmission et le rendu de plages sonores sur Internet en temps rel.
RESEAU LOCAL (LAN -Local Area Network)
Systme de communication mettant en relation permanente par des cbles plusieurs quipements informatiques (micro-
ordinateurs, stations de travail, imprimantes et autres priphriques) grande vitesse sur une courte distance (souvent un tage
ou un immeuble au plus un ensemble de btiments situs sur un domaine priv). Il se dfinit par son systme de cblage, sa
vitesse, sa mthode d'accs et son logiciel de gestion. Les deux principales familles de rseaux locaux sont Ethernet et
l'anneau jeton (Token Ring).
RFC (Request for Comments)
Les RFC sont les documents servant la dfinition de standards dans !'Internet. Il en existe aujourd'hui plus de 2000.
RNIS
Rseau Numrique Intgration de Services. Rseau informatique et tlphonique Numris qui offre des dbits par canal de
64 Kbps. Il ncessite un abonnement particulier.
Routeur
Dispositif qui dirige vers un chemin ou un autre les paquets d'informations qui voyagent entre les rseaux. Il reoit et
retransmet des paquets de donnes entre diffrents segments d'un mme rseau ou de rseaux diffrents.
Service en ligne
Service permettant d'accder, par abonnement et partir d'un ordinateur, une information ou de raliser une transaction
distance. Un service en ligne peut tre accessible pour le particulier par l'intermdiaire de sa ligne tlphonique. Ces services
offrent le plus souvent une passerelle vers l'Internet.
Serveur
Ordinateur reli au rseau et apparaissant comme fournisseur d'informations. Combinaison matrielle et logicielle assurant la
prestation de services spcifiques d'autres ordinateurs. Un seul serveur peut exploiter diffrents logiciels, offrant ainsi autant
de services diffrents aux clients du rseau. Le client consommateur peut tre un usager, un ordinateur ou un autre logiciel.
Serveur Web
Systme informatique excutant le logiciel qui permet d'accepter des requtes utilisant le protocole d'application HTTP et
servant crer des sites Web ou hberger des pages d'accueil personnalises.
Shareware/Partagiciel
Logiciel utilisable volont selon les conditions nonces en change d'une somme d'argent verse l'auteur. Il peut souvent
tre utilis gratuitement pendant une priode d'valuation.
SGML (Standard Generalized Markup Language)
Norme la plus rpandue de marquage de documents. HTML en est un sous-ensemble spcifique pour le marquage de
documents hypertextes.
SLIP (Serial Line Internet Protocol)
Protocole qui permet d'avoir accs aux fonctions du protocole IP partir d'un modem et d'une ligne
tlphonique conventionnelle. Le protocole PPP offre un quivalant plus complet.
SMTP (Simple Mail Transfer Protocol)
Protocole utilis pour changer les messages entre les diffrents systmes de messagerie qu'on retrouve sur les ordinateurs
dans l'Internet.
7
TCP/IP (Transmission Control Protocol over Internet Protocol)
N dans le milieu de la recherche militaire aux Etats-Unis, ensemble de protocoles qui rendent possible l'change
d'information entre une grande varit d'ordinateurs. Il repose sur la transmission par Paquet.
Tlcharger
Effectuer le tlchargement d'une copie des donnes choisies par l'internaute d'un ordinateur un autre en utilisant
gnralement le protocole FTP.
Telnet
Application qui supporte les sessions de connexion distance en mode terminal travers un rseau TCP/IP.
URL (Uniform Resource Locator)
Syntaxe utilise par www pour spcifier la localisation physique d'un fichier ou d'une ressource sur
l'Internet. C'est en quelque sorte le descripteur du chemin d'accs une ressource du Web.
Usenet (Unix User Network)
Rseau des ordinateurs, transfrant entre eux les fichiers de News. Usenet n'est pas l'Internet, mme si aujourd'hui les deux
rseaux sont fortement imbriqus.
VERONICA
Application qui permet de procder des recherches par mot-cl dans les menus des serveurs de type Gopher
Vrification
Saisie des donnes relatives la scurit d'un rseau. Les programmes de vrification servent enregistrer les vnements,
identifier les attaques du rseau et s'assurer que le dispositif de scurit du rseau fonctionne efficacement.
Visioconfrence
La visioconfrence est une technologie qui permet, depuis un micro-ordinateur, d'changer avec un interlocuteur distant et de
le voir en temps rel dans une fentre virtuelle l'cran. Une application de cette technologie est le travail en commun sur des
documents. Tout dispositif de visioconfrence se compose d'une camra vido, d'un microphone/couteur et de cartes
d'extension, pour la vido et la communication. Les changes peuvent se drouler point point ou en mode multipoints.
Virus
Programme informatique parasite capable d'altrer parfois de faon irrversible le fonctionnement d'autres programmes. Les
virus sont transmissibles par lecture de disquettes ou CD contamins, et par communication en ligne.
WAIS (Wide Area Information Server)
Ensemble de logiciels qui permet de crer et d'interroger des bases de donnes indexes appeles bases Wais, et de rendre ces
bases accessibles via l'Internet. Ce systme supporte la recherche d'information en mode plein texte dans des banques de
documents.
WAN (Wide Area Network)
En franais : Rseau Longue Distance, c'est dire qui va au-del d'un site industriel ou commercial (dans ce cas on parle de
LAN, au-del d'un campus ou d'une ville (dans ce cas on parle le plus souvent de MAN. Les WAN font appel l'infrastructure
et aux services d'un ou plusieurs Oprateur Tlcom et peuvent s'tendre sur plusieurs pays.
Web
En franais, toile d'araigne : symbolise le rseau maill de serveurs d'informations formant une toile d'araigne. Ces serveurs
vont des pages personnelles aux interface s vers des bases de donnes. Par extension on parle de Web pour un serveur de
documents HTML.
Webmaster
Nom attribu une personne qui s'occupe d'un Serveur Web.
www (World Wide Web)
Systme distribu d'accs l'information qui s'appuie sur les principes de l'hypertexte et qui supporte les documents
multimdias. Pour en savoir plus vous pouvez consulter le site du Consortium W3 : http://www.W3C.org Etant donn que le
sigle WWW (en anglais) perd ses connotations culturelles en franais, l'Office de la langue franaise recommande l'utilisation
de "W3" pour des raisons phontiques. Certains auteurs prfrent l'appeler "la Toile".
ZIP
Fichiers obtenus aprs compression par le logiciel PKzip (extension .ZIP).

Annexe II
A
n
n
e
x
e

I

I

1

Extension classiques (TLDs Top-Level Domains ).

.com Usage caractre conomique et commercial. [Entreprises et socits ]
.org Usage rserv aux organisations caractre non commercial et aux associations but non lucratif.
.net Usage rserv aux organisations offrant des services Internet ou de tlphonie une trs grande chelle.
.edu Usage caractre ducatif. [coles prives et publiques, lyces et universits]
.int Rserv un usage international.
.mil Usage rserv aux forces militaires US
.gov Usage rserv aux institutions gouvernementales US
.arpa Proprit de l'ARPA (Advanced Research Project Agency).
Nouvelles Extension (TLDs Top-Level Domains ).
.biz [JV Team/Neustar.com, USA]
.info [Afilias/Skadden Arps, USA]
.name [The Global Name Registry Ltd, UK]
.eu [Europe]
.aero [SITA, Genve]
.coop [National Coop. Business Association, USA]
.museum [Swedish Museum & Getty Museum, USA]
.pro [RegistryPro, Ltd/Hayes & Curran, Ireland]

Glossaire des Acronymes et institutions reprsentatives de lInternet

Acronym Explanation More Information
ACP Administrative Challenge Panels http://www.gtld-
mou.org/docs/tracps.htm
http://www.gtld-
mou.org/docs/dispute.html
ADR Alternative Dispute Resolution http://www.gtld-
mou.org/docs/dispute.html
AFA Association des Fournisseurs d'Acces Internet (French Access
Providers Association)
http://www.afa-france.com
AFNIC (NIC-
France)
Association Franaise pour le Nommage Internet en Coopration http://www.nic.fr
AfriNIC African NIC http://www.afrinic.org
AFTLD African ccTLDs http://www.wwtld.org/aftld.txt
AIRA American Internet Registrants Association http://www.aira.org
APRAM Association des Practiciens en Droits des Marques et des
Modles
-
APTLD Council of the Asia Pacific country code Top Level Domains http://www.aptld.org
APNG Asia Pacific Networking Group (APNG)

http://www.apng.org
APNIC Asia-Pacific Network Information Center http://www.apnic.net
ARIN American Registry for Internet Numbers. http://www.arin.net
ARPA Advanced Research Projects Agency (See also DARPA) http://www.darpa.mil
BIND Berkeley Internet Name Domain http://www.isc.org/bind.html
CABASE Camara Argentina de Internet, el Comercio Electrnico, los
Contenidos y Servicios On Line
http://www.cabase.org.ar
ANNEXE II : Noms de domaine et glossaire des Acronymes et institutions
reprsentatives de lInternet

2
CAIP Canadian Association of Internet Providers http://www.caip.ca
CDT Center for Democracy and Technology http://www.cdt.org
CENTR Council of European National Top level domain Registries http://www.centr.org
CIGREF Club Informatique des Grandes Entreprises Franaises http://www.cigref.fr
CIX Commercial Internet Exchange http://www.cix.org
CNRI Corporation for National Research Initiatives http://www.cnri.reston.va.us
CORE Council of Registrars http://www.corenic.org
CORE-MoU Council of Registrars Memorandum of Understanding http://www.gtld-
mou.org/docs/core-mou.htm
DARPA Defense Advanced Research Projects Agency http://www.darpa.mil
DNS Domain Name System -
DOC US Department of Commerce http://www.doc.gov
EC European Commission/European Community http://www.eu.int
ECTA European Communities Trade Mark Association http://www.ecta.org
eCOMLAC Federacion Latinoamericana y del Caribe para Internet y el
Comercio Electronico
http://www.ecom-lac.org
ENRED Foro Latinoamericano de Redes http://www.reuna.cl/vi-foro/
ETNO European Public Telecommunications Network Operators
Association
http://www.etno.be
ETSI European Telecommunications Standards Institute http://www.etsi.fr
http://www.etsi.org
EuroInternet European Internet Business Association http://www.eurointernet.org
EuroISPA European Internet Services Provider Associations http://www.euroispa.org
FCC US Federal Communications Commission http://www.fcc.gov
gTLD generic Top Level Domain (not associated with country code) -
gTLD-MoU Generic Top Level Domain Memorandum of Understanding http://www.gtld-mou.org
IAB Internet Architecture Board http://www.iab.org/iab
IAHC International Ad Hoc Committee http://www.iahc.org
IANA Internet Assigned Numbers Authority http://www.iana.org
ICANN Internet Corporation for Assigned Names and Numbers http://www.icann.org
ICC International Chamber of Commerce http://www.iccwbo.org
IETF Internet Engineering Task Force http://www.ietf.org
IESG Internet Engineering Steering Group http://www.ietf.org/iesg.html
INTA International Trademark Association http://www.inta.org
IOPS.ORG Group of commercial Internet Service Providers http://www.iops.org
iPOC gTLD-MoU Interim Policy Oversight Committee http://www.gtld-mou.org
ISA Interactive Services Association http://www.isa.net
ISO International Organization for Standardization http://www.iso.ch
ISOC Internet Society http://www.isoc.org
ISP Internet Service Provider -
ISPA-uk Internet Services Providers Association of the UK http://www.ispa.org.uk/
ITAA Information Technology Association of America http://www.itaa.org

3
ITU International Telecommunication Union http://www.itu.int
LACTLD Latin American and Caribbean ccTLDs http://www.lactld.org
MARQUES Association of European Brand Owners http://www.martex.co.uk/marques/
MoU Memorandum of Understanding -
MPAA Motion Picture Association of America http://www.mpaa.org
NANC North American Numbering Council -
NANP North American Numbering Plan -
NIC Network Information Center -
NSF US National Science Foundation http://www.nsf.gov
NSI Network Solutions, Inc. http://www.netsol.com
NSI Registrar The initial Registry-Registrars functions of the NSI has been
splitted into two names: NSI Registry and NSI Registrar.
http://www.netsol.com
VeriSign Global
Registry Services
Sep 2000: the name "NSI Registry" has been changed to
"VeriSign Global Registry Services"
http://www.netsol.com
NTIA US National Telecommunications and Information Agency http://www.ntia.doc.gov
OECD Organization for Economic Co-operation and Development http://www.oecd.org
PAB gTLD-MoU Policy Advisory Body http://www.gtld-mou.org
POC gTLD-MoU Policy Oversight Committee http://www.gtld-mou.org
RFC Request for Comments -
RIPE Rseaux IP Europens http://www.ripe.net
SRS Shared Registratry System http://www.gtld-
mou.org/press/core-1.htm
TCP/IP Transmission Control Protocol/Internet Protocol -
TLD Top Level Domain -
URL Uniform Resource Locator -
USPTO United States Patent and Trademark Office http://www.uspto.gov
WIPO World Intellectual Property Organization http://www.wipo.int
WTO World Trade Organization http://www.wto.org
WWTLD World-wide Alliance of Top Level Domains http://www.wwtld.org

Pour en savoir plus, voici une liste de liens qui peuvent tre utiles (par catgorie) :
ICANN et la gouvernance de l'Internet
ICANN - "Internet Corporation for Assigned Names and Numbers"
http://www.icann.org/
IANA - "Internet Assigned Numbers Authority"
http://www.iana.org/
DNSO - "Domain Name Supporting Organization"
http://www.dnso.org/
ASO - "Address Supporting Organization"
http://www.aso.icann.org/
PSO - "Protocol Supporting Organization"
http://www.pso.icann.org/
GAC - "Governmental Advisory Committee"
http://www.noie.gov.au/projects/international/DNS/gac/index.htm

4
Organismes coordonnant l'adressage et le routage
RIPE - "Reseaux IP Europens"
http://www.ripe.net/
APNIC - "Asie Pacific NIC"
http://www.apnic.net/
ARIN - "American Registry for Internet Numbers"
http://www.arin.net/
Organismes de standardisation
IETF - "Internet Engineering Task Force"
http://www.ietf.org/
W3C - "World Wide Web"
http://www.w3c.org/
ITU - "International Telecom Union"
http://www.itu.org/
ETSI - "European Telecommunications Standards Institute"
http://www.etsi.org/
IAB - "Internet Architecture Board"
http://www.iab.org/
ISOC - "Internet Society"
http://www.isoc.org/
Organisme international
WIPO - "Word Intellectual Property Organization""
http://www.wipo.org/
Organismes europens
ISPO - "Information Society Promotion Office - European Internet Forum"
http://www.ispo.cec.br/eif/
EUROPA - "European Union"
http://www.europa.eu.int/
Organismes rgionaux
CENTR - "Council of European National Top level domain Registries"
http://www.centr.org/
AFTLD - "African Top Level Domains"
http://www.aftld.org/
APTLD - "Asia-Pacific Top Level Domain forum"
http://www.aptld.org/
LACTLD - "Latin American & Caribbean Country Code Top Level Organization"
http://www.lactld.org/
NATLD - "North American Top Level Domain Organization"
http://www.natld.org/
Collges du DNSO
collge "ccTLD Registries" du DNSO
http://www.wwtld.org/
collge "business" du DNSO
http://www.bcdnso.org/
collge "gTLD Registries" du DNSO
http://www.gtldregistries.org/
collge "ISP and connectivity Providers" du DNSO
http://www.dnso.org/constituency/ispcp/ispcp.html/

5
collge "Non commercial domain name holders" du DNSO
http://www.ncdnhc.org/
collge "Registrars" du DNSO
http://www.dnso.org/constituency/registrars/registrars.html/
collge "Intellectual property" du DNSO
http://ipc.songbird.com/
Registre du ".ch"
SWITCH
http://www.nic.ch/
Registre de ".com" ".org" ".net"
InterNic
http://www.internic.net/
Liste officielle des administrateurs des 240 ccTLD (codes ISO ".de" ".fr" ...)
IANA - Root zone
http://www.iana.org/cctld/cctld-whois.htm
Autres Analyses
http://www.icannwatch.org
http://www.civilsocietyinternetforum.org
http://www.cpsr.org/dns/index.html
http://www.cdt.org/dns/icann/elections

Source : http://www.gouvernance-internet.com.fr/liens.html

Annexe III
A
n
n
e
x
e

I
I
I

1

Xavier Polanco

Unit de Recherche et Innovation
Institut de lInformation Scientifique et Technique
Centre National de la Recherche Scientifique
polanco@inist.fr

La Fouille de Donnes Textuelles (FDT), cest--dire le Text-Mining (TM), est ici
prsente par rapport l'Intelligence Economique (IE). Lintelligence cycle
(Pinkerton, 1994) implique la conversion de linformation primaire (en anglais
raw information) en information utile l'entreprise. Dans la mesure o cette
information primaire se trouve sous la forme de documents, de donnes textuelles,
et qu'il s'agit de la transformer en connaissance, la FDT apparat pour la
competitive intelligence ou intelligence conomique comme le moyen adquat
pour accomplir cette tche essentielle. Ce texte prsente d'abord ce que la FDT
reprsente aujourd'hui, pour ensuite conclure avec quelques remarques sur ses
perspectives.

INTRODUCTION

Largumentation industrielle ou commerciale en faveur du text mining dans le contexte de
lintelligence conomique est souvent base sur le fait qu'un pourcentage assez important de
l'information traiter par les entreprises, en vue de la prise de dcisions stratgiques, est de
nature textuelle.

Le World Wide Web est encore une autre raison en faveur de lintrt pour le text mining. En
effet, avec le Web les donnes non structures (telles que le texte) sont devenues le type
prdominant de donnes en ligne. Dans ce cadre, linformation utile ne se trouve pas tre
explicite comme dans une base des donnes de type relationnel, mais implicite au sens o elle
est enfouie dans les textes, do la mtaphore de la fouille (ou en anglais mining) : le
systme doit extraire l'information qui a t encode dans le texte par son auteur.

Souvent la veille technologique et lintelligence conomique sont prsentes comme des
activits connexes ou bien similaires sinon synonymes. Ce fait permet d'tendre l'apport de la
fouille de donnes textuelles au domaine de la veille technologique et scientifique, dans la
mesure o l'information scientifique et technique est de nature textuelle tels que les articles
scientifiques, la documentation technique et les brevets.

ANNEXE III : TEXT MINING ET INTELLIGENCE ECONOMIQUE AUJOURDHUI ET DEMAIN

2

PRESENTATION

Cette prsentation s'adresse aux praticiens de la veille et de l'intelligence conomique. Son
objectif est de montrer ce que la fouille des donnes textuelles reprsente. Elle peut galement
tre tendue aux praticiens des tudes quantitatives de la science et de la technologie,
notamment ceux pour qui la science est analyse au travers des publications et la
technologie au travers des brevets. Les publications scientifiques et les brevets sont des
donnes textuelles dont s'occupe justement le text mining.

Plan :

1. Data Mining et Text Mining
2. Architecture et systme
3. Techniques et mthodes
4. Traitement linguistique
5. Structure de classification
6. Extraction de rgles d'association

Chaque item de ce plan de prsentation sera dvelopp avec le souci de fournir une
information synthtique sans chercher dvelopper une vritable argumentation technique.
L'ambition est de fournir l'information ncessaire pour se faire une vision de la fouille de
donnes textuelles.

1 - Data Mining et Text Mining

Commenons par la distinction entre data mining et text mining cest--dire entre fouille des
donnes et fouille de donnes textuelles.

Le but de la fouille de donnes a t dfinie comme "the non trivial extraction of implicit,
previously unknown, and potentially useful information from given data" (Frawley et al,
1991, p. 1-27, cit in Feldman, 1998, p. 65). Ou encore : "The non trivial process of
identifying valid, novel, potentially useful, and ultimately understable patterns in data"
(Fayyad et al., 1999).

Historiquement, le data mining est la base du text mining au sens o celui-ci est lextension
du mme but et du mme processus vers des donnes textuelles. La distinction est donc
fonde son origine principalement sur la nature des donnes auxquelles s'adressent l'une et
l'autre, d'une part des donnes numriques et factuelles, et d'autre part des donnes textuelles.
Un autre lment de distinction est l'tat de structuration des donnes. En gnral le data
mining travaille sur des donnes structures et stockes dans des bases de donnes

3
relationnelles. En revanche, le text mining travaille sur des donnes textuelles non structures
(Feldman et al., 1998a et 1998b; Landau et al., 1998).

Le text mining se distingue du data mining galement par les moyens techniques spcifiques
qu'il le faut employer pour traiter les donnes textuelles et non structures.

Une dfinition gnrale du text mining est la suivante : l'extraction d'information partir des
formes ou patrons non manifestes (au sens de hidden patterns) dans des grands corpus de
textes. Autrement dit, l'objectif est le traitement de grandes quantits d'information qui sont
disponibles sous une forme textuelle et non structure. (Feldman et al., 1998a ; Landau et al.,
1998).

Lintelligence conomique est sense assurer aux acteurs conomiques une information
exploitable et utile, dans la mesure o cette information est textuelle (notes, lettres, rapports
techniques, articles scientifiques, brevets, etc.), l'intrt que le text mining peut reprsenter
pour l'intelligence conomique vis--vis du simple data mining est alors vident.

2 Architecture et systme

Considrons maintenant les principaux outils composants dun systme de fouille de textes en
gnral. Ici on se limite l'esquisse d'une architecture gnrale et abstraite. L'important est de
savoir que chacun de ces outils est indispensable pour mener bien une opration de fouille
de donnes textuelles.

1. Un outil d'accs et collecte des donnes
2. Un outil d'ingnierie du document
3. Un outil d'ingnierie du langage crit
4. Un outil de fouille (ou mining tool)
5. Un outil de visualisation

La thorie, les mthodes et les techniques appliques l'occasion de la conception et du
dveloppement de chacun de ces cinq outils, leur donnant ainsi une ralit technologique
particulire, ce sont des lments tenir en compte. On voit donc que les systmes de fouille
de donnes textuelles sont des systmes complexes runissant des comptences diverses.

L'outil d'accs et de collecte des donnes textuelles doit tre capable d'oprer aussi bien
partir du Web sur de documents HTML, que sur des bases de donnes soit bibliographiques
soit textuelles au sens du texte plein (ou full-text). L'outil d'ingnierie du document sert la
gestion et le traitement des documents qui sont sous la forme de donnes htrognes et sans
structure fixe, dites donnes semi-structures (DSS), afin de leur appliquer un formalisme du
type SGML ou XML et raliser ainsi l'tiquetage de leurs attributs (par exemple, la date, le
titre, les auteurs, la source, le corps du texte, et l'ensemble de termes caractrisant le
document). L'outil d'ingnierie linguistique est destin au traitement du langage crit pour
l'extraction de termes et l'indexation automatique des documents, mais aussi pour la gestion

4
de ressources terminologiques telles que thesaurus, vocabulaires d'indexation, bases de
termes, etc. L'outil de fouille de textes ralise la fonction gnrale de l'acquisition de
connaissances partir des donnes textuelles qui ont t collectes, formates et indexes
pralablement. Et enfin, l'outil de visualisation doit fournir l'utilisateur les moyens
hypertexte et graphiques pour explorer et analyser les rsultats.

Les proprits interactives et itratives de cette architecture s'avrent tre d'une extrme
importance dans la fouille de textes comme dans tout autre systme destin l'analyse de
l'information, o l'intervention des experts du domaine est ncessaire, et les retours en arrire
dans le processus sont des dcisions frquentes. D'o la ncessit d'une architecture
informatique modulaire et flexible du systme.

Cette prsentation va par la suite se concentrer (ci-dessous sections 4, 5 et 6) sur la nature des
outils [3] et surtout [4], parce quils reprsentent les lments les plus spcifiques dun
systme de fouille des donnes textuelles.

Quant aux produits commerciaux de fouille de donnes ou data mining, une remarque
gnrale est qu'ils ne sont au fond que des outils statistiques (Ultsch, 1999) : "The terms Data
Mining and Knowledge Discovery are often used in those systems in an inflationary way for
statistical tools enhanced with a fancy visualization interface. The difference between
exploratory statistical analysis and Data Mining lies in the aim which is sought. Data Mining
aims at Knowledge Discovery". Un systme de data mining ne se rduit pas un simple outil
d'analyse statistique des donnes. L'intention finale de la fouille des donnes est donc
l'extraction de connaissance (en anglais knowledge discovery).

3 Techniques et mthodes trs diverses

Selon l'appel au Text Mining Workshop de l'International Joint Conference on Artificial
Intelligence (IJCAI 99), http://ijcai.org/, les techniques utilises par le text mining sont celles
de la fouille des donnes (ou data mining), de l'apprentissage automatique, de la recherche
d'information, de la comprhension du langage naturel, du raisonnement partir de cas, des
statistiques, et enfin de la gestion de connaissances. Le but tant d'aider les personnes
obtenir de la connaissance partir de grandes quantits de textes semi-structurs.

Comme le montre Text Mining Workshop IJCAI 99, la fouille de donnes textuelles est un
terme recouvrant des activits trs diverses. Selon Toussaint, Simon et Cherfi (2000), une
premire diffrence entre les mthodes vient des donnes qui sont fournies l'algorithme de
fouille et de la qualit de ces donnes selon la capacit des algorithmes prendre en compte
des donnes de qualit "infrieure". Le second aspect de diffrenciation porte sur l'algorithme
de fouille, sur le type de donnes qui sont fournies l'utilisateur final, qui, dans tous les cas,
doit tre un expert.

Nous avons vu ci-dessus, dans la section 1, que le texte mining se distingue du data mining
par les moyens techniques qu'il le faut employer pour traiter les donnes textuelles. Ces
donnes sont des textes et aussi des donnes non structures ou semi-structures. De l donc
deux tches : traiter automatiquement le langage naturel dans sa forme crite, manipuler des

5
donnes non structures ou semi-structures. Lesquelles demandent des outils spcialement
adapts.

Au sujet du problme de la manipulation de donnes semi-structure (DSS), Al Hulou, Napoli
et Nauer (2000) analysent comment le langage de description de documents XML, avec les
outils qui lui sont associs et l'essor qu'il connat, peut servir comme un formalisme de
reprsentation intermdiaire entre DSS et reprsentation de connaissances par objet (RCO).
Comme il a t dit plus haut, l'intention finale de la fouille de donnes textuelles est
l'extraction de connaissances, d'o le besoin galement d'un systme de reprsentation de
connaissances et de raisonnement (tre capable de faire des infrences).

4 - Traitement linguistique

La capacit traiter automatiquement le langage crit apparat comme une tape importante
de la fouille de donnes textuelles. La plupart des systmes ont relay au second plan les
donnes issues de l'indexation manuelle et exploitent les rsultats d'une indexation
automatique.

Lapproche dingnierie linguistique est la suivante. En entre des donnes textuelles que lon
doit soumettre un traitement permettant lextraction automatique dlments linguistique
plus complexes que des simples mots. L'tiquetage des textes (ou tagging), lassignation
automatique de catgories morpho-syntaxiques telles que le nom, le verbe, l'adjectif, etc., aux
mots du document, et la lemmatisation, sont les tapes de ce traitement. Ensuite vient la phase
de lextraction de termes partir des textes tiquets, laquelle est suivie dune phase de
filtrage. Ce filtrage est gnralement statistique et il consiste en calculer un score aux termes.
Les termes sont slectionns en fonction de leur score. Seulement les termes ayant un score
suprieur un seuil dtermin sont slectionns comme candidats pour lindexation de
documents.

L'indexation des documents peut se faire avec les termes que l'on obtient soit par une
extraction fonde sur de patrons syntaxiques, soit partir d'un rfrentiel terminologique, tel
qu'un thesaurus, et de mta-rgles de variation. Toussaint, Simon et Cherfi (2000) utilisent
cette dernire mthode. Feldman et ses collgues (1998b) utilisent la premire approche.

Les expriences prouvent que lapproche linguistique assure une meilleure performance des
algorithmes de fouille. Dans l'article "Text Mining at the Term Level", Feldman et ses
collgues (1998b) montrent l'intrt de travailler au niveau du terme et non du mot. Ainsi ils
dsignent leur systme comme un "term-based text mining system".

La capacit manipuler de donnes semi-structures, l'exploitation d'une indexation
automatique fonde sur une analyse morphologique et syntaxique des textes sont des
conditions pralables et ncessaires mais pas suffisantes. Pour que la fouille proprement
parler se ralise, il faut encore l'application d'algorithmes capables de construire une structure
classificatoire (taxonomie) et d'effectuer lextraction de rgles d'association

6
Passons donc ce que l'on peut considrer comme le cur du processus de la fouille de
donnes textuelles.

5 Structure de classification

La ncessit d'une taxonomie est une question cruciale pour la fouille de textes. La taxonomie
est construite dans le but de structurer lensemble de termes hirarchiquement. Une telle
structure classificatoire est importante pour la plupart d'algorithmes de fouille de textes. Le
systme doit donc disposer dun moyen de construction de la taxonomie en question.

Ainsi par exemple Simon (2000) montre que la thorie des treillis de Galois permet de
produire la fois un outil de classification hirarchique et un outil de construction de rgles
dassociation. Toussaint, Simon et Cherfi (2000) proposent une mthode de fouille de
donnes fonde sur les treilles de Galois et sur l'extraction de rgles d'association en vue
d'aider des experts dans leur tche de veille scientifique. Rappelons au passage que les treilles
de Galois sont connus aussi sous l'appellation de conceptual clustering. Les treillis de Galois
oprent avec les notions d'intension et d'extension et la relation de subsomption. Un treillis de
Galois permet la construction des deux types de structures propres la fouille de donnes
textuelles : [1] une structure de classification qui regroupe les documents en fonction des
termes qui leurs sont associs et rciproquement ; [2] l'extraction de rgles d'association entre
les termes associs aux documents.

Quelle qu'elle soit la mthode de construction de cette taxonomie, il est important de noter
que chaque nud reprsente un concept. Dans le cas dune taxonomie fonde sur le treillis de
Galois : chaque lment du treillis est considr comme un concept formel et le graphe
(diagramme de Hasse) comme une relation de gnralisation/spcialisation entre les concepts.
Le treillis est donc peru comme une hirarchie de concepts. Chaque concept est une paire
compose dune extension reprsentant un sous-ensemble des instances de lapplication et
dune intention reprsentant les proprits communes aux instances (Godin et al. 1995).

L'aspect pragmatique de la taxonomie. Elle permet l'utilisateur de dfinir les tches de
fouille d'une manire concise. Ceci suppose une interface de visualisation graphique et de
navigation dans la structure classificatoire (taxonomie) et les rgles d'association obtenues et
d'observer le type de relation existant entre les termes participant une rgle.

Un exemple (Feldman et al., 1998) : "the user can specify interest only in the relationships of
companies in the context of business alliances. In order to do so, we need two nodes in the
term taxonomy marked business alliances and companies. The first node contains all terms
related to alliance such as joint venture, strategic alliance, combined initiative etc., while the
second node is the parent of all company names".

La construction de cette structure classificatoire permet de mettre en vidence les concepts
potentiellement intressants pour lanalyste. De plus, elle permet lextraction de rgles
dassociation.

7

6 - Extraction de rgles dassociation

Les rgles d'association ont t prsentes en 1993 par R. Agrawal, T. Imielinski et A. Swani
dans leur article "Mining Association Rules between Sets of Items in Large Databases". La
signification intuitive d'une rgle d'association X = > Y, o X et Y sont des ensembles
d'items, est qu'une transaction contenant X est susceptible de contenir galement Y (Agrawal
et al. 1996). L'application type est l'analyse des donnes du panier de supermarch, o des
rgles, comme celle-ci, par exemple, "34% de tous les clients qui achtent de poissons
galement achtent du vin blanc", peuvent tre trouves. Les rgles d'association s'avrent par
ailleurs tre tout fait utiles dans des applications conomiques.

Les rgles d'association peuvent tre calcules soit par l'algorithme d'Agrawal, comme c'est le
cas dans Feldman (1998b) ; soit partir des treillis de Galois comme le propose Simon (2000)
et le font Toussaint, Simon, Cherfi (2000). Ce second approche est tout rcent et il est encore
au niveau de la recherche (au sein de l'quipe Orpailleur du LORIA Nancy) -
http://www.loria.fr

Les rgles d'association extraient des patrons partir des donnes du type [ jus de raisin =>
chromatographie ] : celle-ci montre que dans le corpus analys, les documents s'intressant au
jus de raisin le font systmatiquement en rapport avec la chromatographie ; [ histamine =>
amine biogne ] : l'histamine est une amine biogne qui est tout particulirement tudie dans
le corpus par sa toxicit dans les aliments.

Lors de la phase d'interprtation, il est indispensable de disposer d'un outil de visualisation et
navigation.

PERSPECTIVES

La nouvelle conomie et avec elle la gestion croissante de connaissances dans la vie des
organisations sont des facteurs dfinissant un nouvel horizon pour la veille et l'intelligence
conomique, mais aussi pour la bibliomtrie qui les est associe. Dans ce nouveau contexte, la
demande de fouille de donnes textuelles de la part de la veille et de l'intelligence conomique
ne peut que s'accrotre. Si cette demande se dveloppe, elle devra en exercer un effet
d'orientation sur la recherche dans le domaine de la fouille de donnes textuelles et sur la mise
au point de systmes viables. Ceci pose le problme de savoir quel est l'tat de l'offre du ct
de la fouille de donnes textuelles.

Notre prsentation a voulu montrer succinctement ce que reprsente un systme de fouille de
donnes textuelles (section 2), la diversit de disciplines et mthodes que la fouille de
donnes textuelles mobilise (section 3), et puis l'tat actuel de la fouille de donnes textuelles
sur le plan de l'ingnierie linguistique (section 4 ) et de l'ingnierie de la connaissance (section
5 et 6). Pour lanalyse des perspectives de la fouille de donnes textuelles, il est ncessaire de
tenir en compte les sections 2 et 3, autrement dit le fait de son appartenance un rseau

8
multidisciplinaire et dans lequel elle devra voluer suivant une fertilisation croise. Tenir
compte galement de ce que nous avons voqu dans les sections 4, 5 et 6 reconnaissant les
deux dernires comme le noyau propre ou strictement spcifique de la fouille de donnes
textuelles.

L'volution de la fouille de donnes textuelles est ainsi lie un ensemble de disciplines
informatiques dont le souci principal est de savoir comment traiter l'aide des ordinateurs les
contenus de l'information et leur conversion en connaissances. Admettons de les grouper sous
le label commun de technologies de lintelligence. Ces domaines de recherche seraient les
suivants :

Extraction dinformation (Cowie et Lehnert, 1996).
Traitement automatique du langage naturel.
Visualisation de linformation (Card et al., 1999).
Recherche dinformation mais dans sa nouvelle de version de modern information
retrieval (Baeza-Yates et Ribeiro-Neto, 1999).
Gestion de connaissances (O'Leary, 1998).

Ce cluster de recherches constitue le voisinage de la fouille des donnes textuelles, laquelle
appartient en propre au cluster noyau form par :

Fouille de donnes (Data Mining)
Fouille de donnes de la Toile (Web Mining ou Internet Data Mining)
Fouille de donnes textuelles (Text Mining)
Extraction de connaissances (Knowledge Discovery in Databases)

Dans ce rseau scientifique et technologique, l'avenir de la relation entre la fouille des textes
et la veille et l'intelligence conomique est en train de se construire.

AVERTISSEMENT

Ce document est exclusivement destin aux participants du colloque Veille technologique,
Intelligence conomique et Bibliomtrie. Colloque organis par la section Bibliothconomie
du DEC Sciences du Livre de lUniversit Catholique de Louvain-la-Neuve, les 23-24 janvier
2001. Seulement aprs lintervention, la discussion et les remarques dans le cadre de ce
colloque, lauteur envisage de le transformer dans un article pour tre publi

BIBLIOGRAPHIE

R . Agrawal, H. Mannila, R. Srikant, H. Toiven, A. Ikeri Verkamo (1996) Fast Discovery of
Association Rules, in Fayyad et al. (1996) p. p.307-328.

9
R. Al Hulou, A. Napoli, E. Nauer (2000) XML : un formalisme de reprsentation
intermdiaire entre donne semi-structures et reprsentations par objets, in C. Dony, H. A.
Sahraoui (eds) Langages et Modles Objets. Paris, HERMES, p. 75-90.
R. Baeza-Yates, B. Ribeiro-Neto (1999) Modern Information Retrieval. ACM Press /
Addison-Wesley Longman.
S. K. Card, J. D. MacKinlay, B. Schneiderman (eds) (1999) Readings in Information
Visualization. Using Vision to Think. San Francisco, Cal., Morgan Kaufman Publishers, Inc.
J. Cowie, W. Lehnert (1996) Information Extraction, Communications of the ACM, vol. 30
(1), p. 80-91.
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (eds) (1996) Advances in
Knowledge Discovery and Data Mining. Menlo Park, Cal. AAAI Press / The MIT Press.
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth (1999) Data Mining and Knowledge Discovery
in Databases: Introduction to the Special Issue. Communications of the ACM, vol. 39 (1).
R. Feldman, Y Aumann, A. Zilberstein, Y. Ben-Yuda (1998a) Trend Graphs: Visualizing the
Evolution of Concept Relationships in Large Document Collections, in Zytkow et Quafafou
(1998) p. 38-46.
R. Feldman, M. Fresko, Y. K Kinar, Y Lindell, O. Liphstar, M. Rajman, Y. Scheler, O. Zamir
(1998b) Text Mining at the Term Level, in Zytkow et Quafafou (1998) p. 65-73.
R. Godin, G. Mineau, R. Missaoui (1995) Mthodes de classification conceptuelle bases sur
les treillis de Galois. Revue dintelligence artificielle, vol. 9 (2), p. 105-137.
D. Landau, R. Feldman, Y. Aumann, M. Fresko, Y. Lindell, O. Lipshtat, O. Zamir (1998)
TextViz: An Integrated Visual Environment for Text Mining, in Zytkow et Quafafou (1998)
p. 56-64.
D. E. O'Leary (1998) Knowledge Management Systems: Converting and Connection. IEEE
Intelligent Systems, vol. 1 (3), p. 30-33.
R. L. Pinkerton (1994) Competitive Intelligence Revisited: A History and Assessment of Its
Use in Marketing. Competitive Intelligence Review, vol. 5 (4), p. 23-31.
A. Simon (2000) Outils classificatoires par objets pour lextraction de connaissances dans
des bases de donnes. Thse de doctorat de lUniversit Henri Poincar Nancy 1.
Y. Toussaint, A. Simon, H. Cherfi (2000) Apport de la fouille de donnes textuelles pour
l'analyse de l'information. Actes des Journe Francophones dIngnierie des Connaissances
(IC2000), Toulouse, p. 335-344.
A. Ultsch (1999) Data Mining and Knowledge Discovery with Emergent Self-organizing
Feature Map for Multivariate Time Series, in E. Oja, S. Kaski (eds) Kohonen Maps.
Amsterdam, ELSEVIER, p. 33-45.
J. M. Zytkow, et M. Quafafou (eds) (1998) Principles of Data Mining and Knowledge
Discovery. Proceedings of the Second European Symposium, PKDD'98, Nantes. Berlin,
Springer, (Lecture Notes in Artificial Intelligence 1510).

Annexe IV
A
n
n
e
x
e

I
V

1

Source : http://www.icann.org/correspondence/roberts-testimony-14feb01.htm
Carte de la rpartition des serveurs racines travers le monde. 80 90% du traffique IP transite par ces serveur dont 10
sur 13 sontt situs au Etats-Unis
ANNEXE IV : La rpartition go-stratgique de lInternet

Veille Stratégique, Détection de Signaux Faibles, Due Diligence Et Recherche D'informations PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Veille Stratégique, Détection de Signaux Faibles, Due Diligence Et Recherche D'informations PDF

Transféré par

Droits d'auteur :

Formats disponibles

I LCE I nst i t ut de l ut t e cont re l a cri mi nal i t conomi que : Etudes postgrades HES

Travai l de mmoi re f i n de cycl e : Haut e col e de gest i on de Neuchtel

Vous aimerez peut-être aussi