I LCE I nst i t ut de l ut t e cont re l a cri mi nal i t conomi que : Etudes postgrades HES
Travai l de mmoi re f i n de cycl e : Haut e col e de gest i on de Neuchtel
Matriser la Socit de lInformation Veille stratgique, dtection de signaux faibles, due diligence et recherche dinformations en vue de la mise en place de systmes de prvention contre les nouveaux risques lis la criminalit conomique et au blanchiment dargent Auteur : Stphane Koch stephane@rumeurs.org Tel : +41 79 607 57 33
Aut eur : St phane koch - Tr avai l de mmoi r e f i n de cycl e : Haut e col e de gest i on de Neucht el I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que, Et udes post gr ades HES Page I sur II
Chapitre Titre Page 1... Introduction 1 2... Socit de linformation, une nouvelle donne pour les entreprises connectes 2 3... Nouvelles technologies de linformation et de la communication (NTIC) : quels impacts pour les entreprises ? 3 4... L'information aujourdhui : Internet et le Web, catgorisation et dfinition 5 5... L'aspect multicouche de l'information 6 5.1) Laspect multicouche de linformation: Les paquets IP 6 5.2) Laspect multicouche de linformation: Le Web 7 5.3) Laspect multicouche de linformation : ladresse IP 7 5.4) Exemple de redirection dun site Web dans le but de commettre une fraude 8 6.. La recherche d'information sur le WEB 9 6.1) Les principales sources dinformation 9 6.2) Cartographie de linformation disponible sur le Web 9 6.3) Les types doutils et leurs fonctions 10 6.4) Les diffrents outils de recherches de linformation 11 6.5) Autres outils de recherches et traitement de linformation 12 6.6) La dfinition des zones et primtres de recherches 12 6.7) Principes de bases pour tablir une recherche 13
6.8) Utilisation des fonctionnalits avances des moteurs de recherches : les principaux Oprateurs Boolens : 14 7.. L'analyse et la crdibilit de l'information (inclus traabilit et identification) 15 7.1) Crdibilit de linformation, prsentation de deux cas cole 15 7.2) Crdibilit de linformation : les dmarches de validation logiques 16 7.3) Crdibilit de linformation : les dmarches de validation techniques 17 7.4) Remarque concernant lidentification des dtenteurs d'un site Internet 19 8... Analyse de lenvironnement et de la survenance de linformation par linterprtation des signaux faibles 20 8.1) Modle danalyse de lenvironnement de linformation 20 8.2) Deuxime axe danalyse du fait 20 8.3) Utilit et comprhension du modle danalyse des signaux faibles 21 8.4) La mthode PUZZLE danalyse des signaux faibles 22 8.5) Traitement de linformation : P Pr ri in nc ci ip pe es s d de e l l i in nt te el ll li ig ge en nc ce e c co ol ll la ab bo or ra at ti iv ve e 24 8.6) Exemples dutilisation des mthodes traits dans le chapitre 8 24 Table des matires
Aut eur : St phane koch - Tr avai l de mmoi r e f i n de cycl e : Haut e col e de gest i on de Neucht el I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que, Et udes post gr ades HES Page II sur II 9.. Stratgies visant la matrise des Flux informationnels 26 9.1) La veille stratgique: principes de bases et possibilits d'utilisations 26 9.2) Philosophie pour la mise en place d'une structure de veille 26 9.3) Etapes du cadre mthodologique dune surveillance lectronique: 27 9.4) Actions dfensives et prventives 27 10. Conclusions 30 Bibliographie 31
I. Glossaire des Termes Internet II.... Noms de domaine et glossaire des Acronymes III... Text Mining & Intelligence Economique: Aujourdhui et demain IV. La rpartition go-stratgique de lInternet
Annexes St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
1
Objectif du travail : Offrir des outils ainsi que les bases dune mthodologie de prvention et de gestion des risques (lis la criminalit conomique et au risque de blanchiment dargent) par une perception et une comprhension des enjeux de la socit de linformation - que lon pourrait dfinir par une modlisation et une formalisation des courants tacites 1 de la socit actuelle vers lInternet et les consquences induites par lutilisation des nouvelles technologies pour ce qui touche la criminalit conomique et celles, indirectes, lies au blanchiment dargent. Une connaissance et une utilisation adquates des moyens disponibles pour la gestion de son environnement informationnel pourront permettre aux diffrents acteurs dapprhender : le risque technologique et humain, les mthodes de recherche dinformations et la "consistance" mme de celle-ci, lidentification des diffrents intermdiaires et propritaires de sites Internet, les flux informationnels prsents dans lenvironnement des entreprises, le risque limage, lusurpation didentit, la traabilit gographique des informations.
Publics viss et considrations dordre gnral : Ce document sadresse plus particulirement aux petites et moyennes entreprises. Pour les structures plus importantes il pourra servir de base de rflexion llaboration de la stratgie de gestion de linformation et du risque dans les dpartements ad hoc (management, compliance, communication). Les aspects dordre technique abords dans ce document sont considrs comme les bases indispensables la comprhension et la gestion des problmes abords. Les diffrents termes techniques ainsi que les acronymes figurant dans ce mmoire sont documents dans les annexes mentionnes dans la table des matires.
a socit de linformation ne peut tre aborde sans une connaissance de ses principales composantes. A cet effet, ce document traitera de trois volets essentiels la comprhension des rpercussions de lutilisation des NTIC (Nouvelles technologies de linformation et de la communication). Le premier volet parlera plus spcifiquement des aspects lis aux systmes dinformation (SI) et leur interconnexion. Le deuxime volet sera consacr la consistance mme de linformation numrise ; son analyse, sa crdibilit et aux diverses possibilits de recherche et didentification et dinterprtation des donnes prsentes au sein des sources disponibles sur le Net. Pour terminer, ce document traitera de la matrise des flux informationnels et la mise en place dune structure prventive de gestion et de surveillance de linfosphre. Lanticipation des risques linformation, les mthodes dfensives et mesures durgence pour lutter contre des "frappes informationnelles 2 ". Cette notion danticipation est dcisive dans les domaines lis la prvention de la criminalit conomique et du risque de blanchiment dargent. Avec lmergence de la socit numrique, il est devenu vital davoir la capacit de surveiller un environnement de plus en plus complexe, ainsi que de dvelopper des mthodologies de recherche, didentification et de traitement de linformation plus performantes.
Pour arriver ce rsultat, il est donc ncessaire de connatre les diffrents outils et sources dinformation disponibles sur le Web. Ces connaissances pourront ainsi permettrent didentifier, entre autres, les ayants-droit conomiques de sites Web ; de trouver de linformation sur les personnages politiquement exposs et de dtecter, de manire anticipative, les risques inhrents une situation donne. La notion dintelligence conomique dans le traitement de linformation, ainsi collecte, permet de produire un support daide la dcision pour la prise en compte des problmes de criminalit conomique et la gestion du risque en ce qui concerne le traitement des flux financiers (blanchiment dargent).
1) On pourrait aborder le courant tacite de la socit comme un comportement ou une connaissance, qui ne provient pas directement dun apprentissage mais dune relation entre des connaissances acquises et lexercice de celles-ci, ce qui gnrerait le dveloppement dun nouveau savoir (qui nest inscrit nulle part, qui nest pas prsent sur un quelconque support, mode de croyances sociales) 2) Terme dont la paternit revient Christian Harbulot, Directeur de lEcole de Guerre Economique www.ege.eslsca.fr (Paris) L 1) Introduction St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
2
La premire consquence de lutilisation des ordinateurs et de lInternet est la ncessit dune dmatrialisation de linformation amene par la numrisation des changes. La typologie mme du rseau mondial a apport des changements majeurs dans la dfinition du primtre de lentreprise. Les frontires gographiques classiques ont laiss la place des territoires virtuels dont la dlimitation plus floue - peut ds lors se reprsenter en termes de segments de march et de secteurs dactivit. Linterconnexion croissante de la sphre professionnelle et la vitesse de propagation des NTIC ont gnr de nouveaux risques pour les entreprises utilisant des SI.
Les dveloppements actuels de la socit de linformation ont rendu les aspects sociologiques indissociables des aspects technologiques ; crant une interdpendance entre des spcifications dordre purement technique et leurs rpercussions sur notre mode de socit. Cela a une influence sur notre raction envers les SI et ceux-ci sont tributaires de notre comportement dans leur mode de fonctionnement. Lcart intellectuel qui se crer de jour en jour en ce qui concerne la "comprhension des impacts dun SI dans une entreprise vis--vis de son secteur dactivit professionnelle" est d la vitesse de lavance technologique et la multiplication des facteurs de risques induits par les nouvelles mthodes de traitement de linformation. Il en rsulte que les dirigeants dentreprises continuent de penser que les machines connectes en rseau sont encore des outils de travail que lon peut dissocier de la vision stratgique du fonctionnement de lentreprise.
Source : www.mi2g.com Le graphique ci-dessus illustre bien la palette des risques inhrents lutilisation dun SI. La notion de dpendance technologique revt une importance considrable dans le prsent document
2) Socit de linformation, une nouvelle donne pour les entreprises connectes St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
3
Typologie des cinq catgories des risques lis aux NTIC:
Le tableau ci-dessous dmontre les relations directes entre lutilisation de systmes dinformation et lactivit mme de lentreprise :
La couche matrielle (hardware) : le manque de fiabilit du matriel et ses diverses possibilits de disfonctionnements (coupure lectrique, dommage matriel, malveillance, dfaut de fabrication) apportent une contrainte supplmentaire dans la gestion stratgique de lentreprise. Cet aspect du problme dimportance vitale est souvent nglig en raison des surcots quil entrane au niveau de la maintenance et de la mise en place de solutions de secours (back up matriel et logiciel, scurisation de lapprovisionnement en lectricit, protection des locaux contre le vol et le feu).
Le risque logiciel : les modles conomiques actuels poussent les fabricants de logiciels une course la nouveaut, ce qui les conduit diffuser des produits inaboutis sur le march. La plupart des programmes disponibles ce jour comportent un nombre lev de possibilits de disfonctionnement ainsi que de srieux manquements au niveau de la scurit. En dehors de laspect thique de la question, cela reprsente un risque de fuite dinformation, despionnage industriel ou de perte de donnes (voir le tableau ci-dessus : "Impact conomique des attaques subies"). La complexit mme des programmes utiliss par les entreprises "autorise" aussi des exploitations dtournes de ceux-ci par des personnes au bnfice dune ducation technique de base . Des facteurs extrieurs tels que la ncessit constante de mises jour du systme par le biais dInternet, avec des donnes qui ne peuvent pas tre contrles, reprsentent des risques de discontinuit de fonctionnement supplmentaires (ou un risque stratgique pour les tats ou pour les socits multinationales).
Le risque rseau : linterconnexion des SI a permis non seulement une augmentation de la vitesse des changes mais aussi du volume de ceux-ci. La capacit des SI traiter un grand nombre de donnes, ainsi que la possibilit de traiter des informations de type htrognes de manire dlocalise ; a modifi non seulement le comportement de lentreprise, mais aussi le type de donnes qui transitent au travers des rseaux informatiques. En effet, pour rester concurrentiel et profiter pleinement des capacits offertes par les SI, on a commenc formaliser (transformer en un format numrique comprhensible par les machines) le savoir tacite (la connaissance stratgique de lentreprise). Ces donnes qui, classiquement, taient difficiles daccs car elles se trouvaient rparties dans diffrents dossiers et dans les cerveaux des dirigeants, ont t regroupes et standardises dans un langage dchanges unique (TCP/IP).
Le risque humain : la complexit des SI a provoqu la ncessit daccder des comptences diffrentes de celles en relation avec le secteur correspondant lactivit professionnelle des entreprises concernes. Lvaluation mme des connaissances ncessaires la gestion et la maintenance dun SI n'est rendue que plus difficile. Cette situation et le manque de comprhension de limportance des donnes qui transitent au sein du rseau, ont cr, dans la plupart des entreprises, la croyance que la 3) Nouvelles technologies de linformation et de la communication (NTIC) : quels impacts pour les entreprises ? St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
4 gestion du S.I. est uniquement un problme dordre technique. Le risque "humain" a t nglig par des dirigeants qui ont donn des pouvoirs exceptionnels aux administrateurs de leurs rseaux. Il est dune importance capitale de considrer que lon dlgue des droits dadministration son administrateur rseau et non qu'on lui donne les pleins pouvoirs sur ce que lon peut considrer comme le savoir stratgique de lentreprise (le systme dinformation et les donnes de lentreprise). Il est tout aussi important dinclure dans le cahier des charges de ladministrateur rseau lobligation formelle de documenter tous changements effectus sur le S.I. ainsi que les diffrents vnements inhrents son fonctionnement. De plus, il est recommand davoir une liste de spcialistes pouvant intervenir la demande au cas o la personne en charge du S.I. de lentreprise ne serait subitement plus en mesure de le faire. Il devrait tre acquis que les personnes exerant de telles charges (administrateurs rseaux et supplants) doivent faire lobjet dune enqute approfondie avant davoir accs au S.I. de lentreprise.
Le risque informationnel : la socit de linformation a boulevers les rapports de force classiquement prsents dans notre socit (du fort au faible), par lmergence dun rapport de force asymtrique (du faible au fort). A lheure actuelle, la capacit de nuisance ne se dfinit plus en termes de puissance daction et de mise en uvre, mais plutt en termes de mthodologie et de comprhension des flux informationnels. La vitesse croissante des changes (au sein des modles conomiques en vigueur, entre autres) et la facilit crer, publier et faire circuler linformation, de mme que laspect " de standardisation " de la mise en rseau de donnes htrognes de mme que la monte en puissance des outils de traitement de linformation (data mining 1 et texte mining 2 ), permettent, aujourdhui, de nuire la plupart des entits conomiques et politiques. De plus, la situation conomique et une certaine difficult de comprhension (ou manque de perception) de ces nouveaux modles dchanges ont rduit dautant la marge danticipation et la dfinition mme des risques. Linformation elle-mme sest dgrade dans sa substance ; elle ne bnficie plus, lheure actuelle, des filtres classiquement reprsents par la latence due au temps de traitement ou par laspect "litiste" de sa diffusion - car payante auparavant. La gratuit de lchange a cr le volume par la multiplication des acteurs. Ds lors, le modle chaotique qui en a rsult ne comporte plus de phase de validation de linformation. Les groupes de presse ont aussi t pris dans la tourmente en pousant un modle dconomie de march dont la principale finalit est le rendement. Cette contrainte conomique a eu pour consquence - pour les professionnels de la presse - de diminuer le temps de traitement de linformation, alors que dans le mme intervalle elle poussait une professionnalisation des sources ainsi qu une rduction de leur nombre. Les rpercussions des ces changements nont pas encore influ sur les croyances de socit qui font que lon considre encore que "ce qui est crit est vrai" (par les voies classiques ou lectroniques) ou que les images sont des lments reprsentatifs de la ralit. Comme on la vu rcemment dans laffaire "Thomas Borer" ou dans lactualit des attentats du 11 septembre, limage est un lment qui a gard sa capacit dinfluence, mais perdu sa crdibilit. De mme quil est facile de crer de linformation et des lments de preuve.
1) Processus d'aide la dcision o les utilisateurs cherchent des modles d'interprtation dans les donnes. Un DataMining permet d'analyser les donnes d'un datawarehouse afin d'extraire des informations originales et des corrlations pertinentes d'un grand volume de donnes brutes. On parle mme de "Dcouverte de Connaissances dans les Donnes". 2) Le text mining se distingue du data mining galement par les moyens techniques spcifiques qu'il faut employer pour traiter les donnes textuelles et non structures.
Une dfinition gnrale du text mining est la suivante : l'extraction d'informations partir des formes ou patrons non manifestes (au sens de hidden patterns) dans des grands corpus de textes. Autrement dit, l'objectif est le traitement de grandes quantits d'information qui sont disponibles sous une forme textuelle et non structure. (Feldman et al., 1998a ; Landau et al.,1998).
Le point N2 est tir du document suivant, ce document figure dans les annexes : TEXT MINING ET INTELLIGENCE ECONOMIQUE : AUJOURDHUI ET DEMAIN Xavier Polanco Unit de Recherche et Innovation Institut de lInformation Scientifique et Technique Centre National de la Recherche Scientifique
St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
5
Pour bien comprendre et afin de vulgariser la notion de circulation de linformation on va sparer, de manire trs basique, en deux entits distinctes, les principales composantes de la socit de linformation : Internet est le contenant de toutes les informations qui circulent sur le rseau mondial. Sa particularit premire est ce que lon pourrait dfinir comme son mode de langage et dinterprtation : le protocole IP, respectivement TCP/IP (change par paquet IP). Internet nest pas le Web (www / World Wide Web), mais linformation relative au Web circule travers Internet. Le principe de fonctionnement de lInternet est un mode dcentralis et redondant dchange dinformations par paquets, dans le but que si lun des segments du rseau vienne cesser de fonctionner, les segments restants prendraient le relais pour lacheminement des paquets dinformation. Cependant, il faut noter que 80 90% de ces paquets dinformation qui transitent sur Internet passent par les Etats-Unis. Les noms de domaine et les serveurs qui les grent sont les seules ressources qui soient entirement centralises. Il y a treize serveurs-racine rpartis dans le monde, mais seulement trois qui ne sont pas aux Etats-Unis (les trois autres se situent en Island, en Angleterre et en Sude, voir annexe : "Rpartition gostratgique de lInternet"). Ces serveurs sont de niveau quivalent, mais lun de ces serveurs, appel serveur primaire a une position hirarchique plus importante du sa fonction de duplication des tables de correspondance entre les adresses IP et les noms de domaine. Pour dmontrer les possibilits de "cause effet" de cette rpartition des "serveurs racine" sur le fonctionnement des entreprises; on peut prendre comme rfrence lexemple suivant : entre le 21 et le 22 octobre 2002, les 13 serveurs racine ont subi une attaque simultane 1 (deny of service attaque par de multiples requtes qui engorgent les serveurs). Bien que le fonctionnement mme de lInternet nait pas t mis en danger, on a pu constater une diminution de la capacit traiter le volume des changes habituels; ce qui eu pour consquences de ralentir lactivit conomique dun certain nombre de socits. Les auteurs de cette attaque nont pas t, jusqu ce jour, identifis; cependant de nombreux spcialistes pensent quil faut trouver la cause dune telle action dans lexpression actuelle de la politique trangre amricaine.
On peut donc constater que ce type de risque (continuit dans laccs linformation) est dordre nouveau et dpasse compltement le "primtre" habituel de surveillance de lentreprise. Le protocole (TCP/IP) ne peut pas tre considr comme fiable dans sa version actuelle (IPv4). Celle-ci permet, entre autres, les usurpations didentit et dorigine gographique (pour les adresses e-mail ou les sites Web par exemple). Il faut prendre en compte que pour changer cette situation, une version amliore du protocole IP (Ipv6) va tre prochainement implmente. Lorganisme de standardisation du protocole IP est lIETF. Le Web gre les changes conventionnels dinformations auxquels nous sommes habitus accder par le biais dun navigateur (Browser). La particularit du Web est sa fonction "hypertexte" qui offre la possibilit de lier un document, un mot ou un lment un autre, quel que soit son emplacement gographique. Ses principaux modes de transports de linformation sont le protocole "http" et le langage de description de document "html" (ces lments et les risques encourus au niveau de linformation sont traits spcifiquement dans la partie "aspects multicouches de linformation"). Les principales failles de scurit prsentes au niveau du Web sont dues un manque de suivi des standards en place par les concepteurs de logiciels, ainsi qu la ncessit et le manque de fiabilit des mises jour des SI et programmes associs. Il en rsulte quil est possible dexcuter des scripts
malveillants par le biais des navigateurs Web. Intgrs dans lenvironnement direct du Web on peut noter une srie de protocoles : lemail (SMTP. POP, IMAP), le tlchargement de fichiers (FTP), les groupes de news (USENET) les forums de discussion et messagerie instantanes (IRC / ICQ / Messenger / Chat), les systmes de messages BBS (Bulletin Board System), ou encore la connexion une autre machine (TELNET). 1) Journal du Net : http://solutions.journaldunet.com/0210/021024_rootserver.shtml 4) L'information aujourdhui : Internet et le Web, catgorisation et dfinition St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
6
5.1) L'aspect multicouche de l'information : les paquets IP Une des problmatiques au niveau dInternet et du Web concerne les possibilits multiples de fraudes au niveau de la diffusion de fausses informations, dusurpation didentit ou de la publication de faux sites Web. Une des facilits de mise en uvre de ce type de fraude est la mconnaissance de certains aspects techniques par les utilisateurs. De manire gnrale ladage " je crois ce que je vois " fonctionnait trs bien dans notre socit classique, mais malheureusement avec lavnement du Net les choses ont chang. Lexemple ci-dessous a pour but de dmontrer la diffrence entre le contenu auquel ont accde et linformation qui est rellement transporte dans les paquets IP.
Pour capturer ces informations il est ncessaire daccder au rseau de lentreprise, mais dans le cas dun systme sans fils type Wireless lan (802.11), cette opration sera aise dans des confrences ou des lieux publics ou ce genre de systme est gnralement configur sans restriction daccs.
Si lon effectue une capture des paquets dinformation qui transitent sur le rseau (sniffing du protocole TCP/IP), on ralise alors que linformation que lon pensait protge, circule de manire lisible au sein des paquets IP Lors de configuration de laccs au compte email dans un programme (Outlook pour cet exemple), Les donnes confidentielles, tel que le mot de passe, sont masques par une srie dtoile afin den prserver lanonymat. Pour la plupart des utilisateurs cela signifie que ces donnes ne seront pas lues par un tiers. 5) L'aspect multicouche de l'information St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
7 5.2) Laspect multicouche de linformation: Le Web (et quelques protocoles associs)
En ce qui concerne le Web, la fraude ou la tromperie se fait gnralement au niveau du langage "html" ne demandant pas un haut niveau de connaissances techniques de la part du fraudeur pour leur ralisation. Cependant, pour les mme raisons que celles cites prcdemment, elles ont toutes les chances daboutir avec des utilisateurs "non-duqus". Le protocole utilis pour l'accs un document rvle la nature de ce dernier. Par exemple, sur un serveur FTP (file transfer protocole), les ressources proposes sont destines au tlchargement. Ces protocoles ne nous apportent pas d'information concernant le contenu du document, mais ils donnent une information sur la nature, la forme, le format lectronique du document disponible en ligne. Voici les principaux protocoles auxquels on peut tre confront sur le www ainsi qu lintrieur des pages HTML, par lintermdiaire des liens hypertexte :
http:// Hypertext Transfer Protocol : protocole de communication utilis pour les changes de donnes entre les clients et les serveurs " www " ftp:// File Transfer Protocol : protocole de transfert de fichiers entre deux machines sur Internet gopher:// Protocole aujourd'hui supplant par le "http:// ", systme d'information distribu; l'accs l'information est structur selon un rseau de menus multi-niveaux telnet:// Protocole d'application dfinissant l'mulation d'un terminal sur Internet mailto: Protocole d'accs d'un e-mail
HTML 14 (HyperText Markup Language) n'est pas un langage de programmation ! Ce n'est qu'un langage de description de documents, il est utilis pour crire les pages standards du Web). En d'autres termes, HTML est un ensemble (rduit) de balises (ou styles ou "tags") utiliss pour dfinir les diffrents composants d'un document. L'accs au document et la dfinition de son emplacement se fait grce un URL (Uniform Ressource Locator). Le nom du document est prcd par son chemin d'accs, le point de dpart de celui-ci tant reprsent par un nom de domaine [ex: http://www.switch.ch/] ou le numro IP d'un domaine [ex: 192.247.93.18] en ce qui concerne un document online.
Le plus souvent un URL sera de la forme : http://nom_de_domaine/nom_de_document
5.3) Laspect multicouche de linformation : ladresse IP
Ladresse IP sous sa forme chiffre ou le nom de domaine Internet (domain names system, DNS), qui servent identifier un site Internet, peuvent tre utiliss indiffremment pour accder au site en question, on les considre comme des adresses. C'est la raison pour laquelle le terme " adresse Internet / URL " est largement utilis pour dsigner ces deux notions.
titre d'exemple, St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
8 l'adresse IP 212.109.69.120 peut se lire ainsi : l'ordinateur 120 situ sur le 69e rseau, du rseau 109 qui, lui, se trouve dans le rseau global 212 (ou par exemple : lordinateur qui se trouve rue de la Gare 10 [120], Genve [69], une ville qui se trouve en Suisse [109], un pays qui se situe en Europe [212]). Ce type d'adressage constitue la base du protocole de communication TCP-IP. Il permet aussi la localisation de la machine qui hberge le nom de domaine et gnralement le contenu du site Internet. Normalement des sries dadresses sont attribues par pays, mais il est extrmement difficile de localiser gographiquement, de manire prcise, une adresse IP (ce sujet sera abord dans le chapitre sur la recherche dinformation).
5.4) Exemple de redirection dun site Web dans le but de commettre une fraude :
CNN a rcemment t victime de ce type de fraude : " Les fausses pages gnres ressemblaient s'y se mprendre celle du site de CNN. Le logo, les liens vers les rubriques et les derniers articles, tout y tait. Y compris l'adresse de la fausse page, qui commenait par http://www.cnn.com, suivi d'une arobase et d'une adresse IP. Le nophyte n'y voyait que du feu. Et beaucoup ont cru aux fausses infos. " 15 Pour illustrer cet exemple, je vais publier le document: [offshore.htm] sur le Net et le lier ensuite avec la page d'un site Web [www.vosplacements.ch]:
Voici la page telle quelle apparatrait dans un navigateur :
Voici la page telle quelle est en ralit : Dmarche pour afficher le code source de la page " offshore.htm " : Dans Internet Explorer : slectionner le menu " Affichage", ensuite slectionner dans larborescence : " Source") :
15) Source: TF1 : www.tf1.fr/news/multimedia/0,,986128,00.htm Emplacement du fichier sur le serveur qui hberge vosplacements.ch Lien hypertexte avec le site mentionn : partie visible de la page web ce niveau le code HTML nest pas affich Elments invisibles : adresse du site Web (ou de la page) sur lequel on va tre redirig. Dans ce cas ladresse de redirection www.ofshore.com diffre lgrement de ladresse publie sur le document offshore.htm qui tait www.offshore.com. Il sera donc facile de tromper lattention du visiteur. Elment visible sur la page web intitule www.offshore.htm nom de domaine du propritaire du site (www.vosplacements.ch) St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
9
6.1) Les principales sources dinformation : Sources blanches : base essentiellement sur des sources ouvertes et libres daccs, cette catgorie a connu un grand essor avec le dveloppement de lInternet. On peut trouver un grand nombre dinformations sur les socits, les individus, le savoir acadmique et le contenu des mdias lectroniques. Le nombre de sources et labsence de contrle de celle-ci implicite une utilisation prudente des rsultats des recherches effectues. Sources professionnelles : cest une sous-catgorie des sources ouvertes, elles ne sont accessibles que contre paiement ( linformation ou la quantit), cependant au contraire des sources libres daccs, elles font, dans la majorit des cas, lobjet dun contrle au niveau de la qualit et de la crdibilit de linformation stocke ou traite. Le principal problme des sources professionnelles cest quelles ne rfrencent que les publications officielles. Cest pour cette raison quil est ncessaire de sintresser lensemble des sources potentiellement disponibles. Sources grises : cest le cot non formalis et non explicite de linformation. Cela pourrait tre ce que lon va recueillir lors dun sminaire ou dune conversation. Ou cela peut aussi tre reprsent par des sources dinformation inaccessibles aux diffrents types de moteurs de recherches ou encore par des socits de conseil qui en plus de procder la recherche, font passer les rsultats par un rseau dexperts ou de consultants qui valorisent linformation en fonction de leurs propres connaissances. Sources noires : Ce type dinformation est, dans la majorit des cas, obtenue de manire illgale ou daccs ferm. Dans cette catgorie on range linformation collecte de manire indue, telle que lachat de renseignements concernant une entreprise (espionnage conomique).
6.2) Cartographie de linformation disponible sur le Web :
Les moteurs de recherches conventionnels ne trouvent que 20 25% du contenu prsent sur le Web. Le graphique ci-dessous montre que linformation nest pas rpartie ou accessible de manire homogne : le "Noyau" reprsente les sites Web et bases de donnes interconnectes (par des liens hypertextes). Certains sites sont connects ce "Noyau" depuis lextrieur (IN), dautres sites sont connects du "Noyau" vers lextrieur (OUT). Des sites sont connects aux lments extrieurs sans tre en liaison avec le "Noyau" (Tubes). Et finalement, certains sites ne sont pas du tout connects dautres.
Source: IBM: Graph structure in the web 16
16) IBM : Graph structure in the web : http://www.almaden.ibm.com/cs/k53/www9.final/ Noyau Tubes Satellites 6) La recherche d'information sur le WEB St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
10 Les 75 80% de linformation restante (celle que les moteurs de recherches narrivent pas indexer) reprsentent ce que lon appelle "le Web invisible". Celui-ci est principalement compos de bases de donnes universitaires, de sites "satellites", ainsi que de sites "dynamiques" (dont le contenu est gnr la demande). Pour les recherches dinformation dans ces deux parties (visible et invisible) la mthodologie reste la mme, seuls les outils varient quelque peu. La dure limite dans le temps de la prsence de certaines informations sur le Web peut rendre lexercice fastidieux. Pour cette raison, il est souvent utile de conserver une copie des informations utiles au moyen doutils appropris (Acrobat Exchange, pour fabriquer des documents PDF ou un aspirateur de site pour conserver une copie du site dsir) Estimation de la taille du Web (mars 2002) - 13 milliards de documents - 7,5 millions de nouvelles pages par jour - 50 75 terabytes d information - 600 milliards de pages dans lensemble des sites intranet
Rpartition des Noms de domaine Langues des documents ".com" : 54,68% - ".org" : 4,35% - 56,6% des pages sont en Anglais ".net" : 7,82% - ".gov" : 1,15% - 2,4% en franais, - ".edu" : 6,69% - 0,5% en allemand.
Source : Recherche dinformation et veille sur Internet (www.enpc.fr/enseignements/Legait/projet/victor/chercher/sources.html)
6.3) Les types doutils et leurs fonctions : Il existe des milliers doutils de recherche, dans les exemples qui seront prsents, on va se concentrer sur un choix non-exhaustif des moteurs et outils de recherche les plus performants dans le contexte de ce travail. Il faut nanmoins garder lesprit que le choix du moteur de recherche fait partie de la "stratgie de recherche". Pour arriver des rsultats probants, il faut en premier lieu faire des "recherches sur les outils de recherche", celles-ci peuvent seffectuer par lintermdiaire des moteurs conventionnels au moyen dune requte adquate : par exemple : [moteur de recherches des adresses email / email address search engine]. Cela dit, le meilleur moyen reste lutilisation des annuaires ou portails thmatiques qui contiennent dj toute larborescence des outils de recherche :
Les principaux annuaire thmatiques sur les moteurs de recherches (MR) http://outils.abondance.com/ http://c.asselin.free.fr/french/moteurs.htm http://www.adbs.fr/site/repertoires/sites/lardy/outils.htm http://www.liensutiles.org/rechspec.htm http://www.searchenginewatch.com/links http://www.searchtools.com/ Les principaux annuaire thmatiques concernant le Web invisible http://c.asselin.free.fr/french/webinvisible2.htm http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html http://www.invisible-web.net/ St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
11 6.4) Les diffrents outils de recherches de linformation: Les annuaires : leur particularit est de regrouper thmatiquement des sites Web dans des rpertoires ad hoc. Dans la majorit des cas, le catalogage et lindexage des sites se font par des personnes (au contraire de lindexation des sites faite par des programmes automatiques pour les MR par mots-cl). Les avantages de ce type doutil sont une bonne pertinence des rsultats obtenus ainsi quune meilleure matrise de lenvironnement de recherche (on accde un nombre de rsultats limits, mais trs cibls). Les inconvnients de la recherche par navigation sont des champs limits par le contenu des rpertoires auxquels on accde, ce qui ncessite de savoir trs prcisment ce que lon cherche. [par exemple : http://dmoz.org/] Les mtas-moteurs : leur particularit est deffectuer les dites recherches au travers dautres MR. Les requtes sont bases sur des mots-cl (une requte sera transmise plusieurs moteurs de recherches en mme temps). Lavantagede ce type de recherche est de couvrir un champ trs large et de pouvoir utiliser un nombre important doutils lors de la mme requte. Linconvnient de ces mtas-moteurs se situe au niveau du rsultat des requtes : il y non seulement une redondance dinformation, mais en plus la pertinence des rsultats obtenus laisse dsirer. On les utilisera pour des recherches gnralistes. [par exemple : http://www.37.com/] Les moteurs de recherches par mots-cl : ils sont composs dun ensemble de bases de donnes cres de manire automatique par des programmes spcialiss (crawlers ou robots, qui parcourent le Web la recherche de nouveaux sites). La frquence de mise jour de lindex dpend de la taille de la base de donnes et de la politique du MR. Ces MR utiliss tels quels, ont les mmes avantages et inconvnients que les mtas moteurs. Leurs atouts sont les fonctionnalits avances que lon peut exploiter dans les requtes, chaque MR possde une page spcifique pour ces fonctionnalits (ainsi que pour les oprateurs " type Boolens " de recherches disponibles tels que " and ", " or ", " near " etc. voir liste au point 6.8), qui bien utilises permettent dobtenir des rsultats trs pertinents. Par contre, dans leurs fonctions de bases ils ne sont pas trs performants (si lon nutilise pas les oprateurs de recherches dcrits sous rubrique daide du MR). [par exemple : http://www.google.com/] Les moteurs de recherches spcialiss : quils se prsentent sous formes dannuaires ou de recherches par mots-cls, ils ne couvrent quun seul domaine (par exemple pour les recherches de socits, demails, de documents PDF, dimages, etc.). Ils permettent une meilleure qualit dans les rsultats des requtes. [par exemple : http://www.societes.com/, pour les entreprises, ou encore http://www.phonenumbers.net/ pour les numros de tlphone dans le monde ] Les moteurs de recherches de cartographie de linformation : ces MR qui fonctionnent par mots- cls, naffichent pas une liste de rsultats lorsque lon fait une requte, mais ils affichent une carte de linformation obtenue, le schma auquel lon va accder est une reprsentation graphique de la requte, de son rsultat et de lenvironnement de linformation en relation avec ladite requte. Ces outils de nouvelle gnration apportent une convivialit dans la recherche ainsi quune reprsentation visuelle qui permet damliorer son approche de linformation (dautres outils dinterprtation et de visualisation de linformation seront prsents dans la partie 6.5). [par exemple : http://www.kartoo.com/ ou http://maps.map.net/ (qui permet de cartographier un annuaire tel que dmoz.org)] Les outils humains de recherches : ces MR sont bass sur une aide humaine. Les questions parviennent une quipe de spcialistes des outils de recherches qui formulent, la demande, les requtes de recherches les plus adquates. Ce genre dinitiative permet au non-initi de trouver des informations plus facilement, et elle permet aussi au spcialiste dlargir sa palette doutils (et de comptences). Certains de ces sites sont gratuits [par exemple : http://www.webhelp.fr/] Les rseaux experts : ces rseaux ne se composent pas proprement parler dun moteur de recherches, ils se servent plutt du Web comme dune plate-forme daccueil pour rceptionner les requtes de leurs clients. Ils ont un rseau de spcialistes de la recherche et ils croisent les rsultats avec St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
12 des rseaux dexperts (consultants spcialiss dans des secteurs dactivits distincts) pour crer une information valeur ajoute. Ce type de rseau, que lon peut assimiler lintelligence conomique au niveau du traitement de linformation, permet daccder une catgorie dinformation " grise " et " professionnelle ". Des socits de services comme SVP Conseil sont abonnes une multitude de bases de donnes professionnelles telles que, par exemple, Factiva, Lexis-Nexis, Dialog, etc Elles vendent aussi la possibilit daccder celles-ci par mois ou par zone nationale. Le type dinformation que lon peut obtenir par le biais de ce type de rseau dexperts reprsente une haute valeur ajoute par rapport lutilisation simple des sources ouvertes. [par exemple : http://www.svp.fr/, http://www.egideria.fr/, http://www.world-check.com/, http://www.insideco.net/, http://www.krollworldwide.com/] On fera une petite parenthse pour les rseaux experts et bases de donnes telles que www.world- check.com et www.insideco.net, ces bases servent surtout des aspects de Due Diligence sur des personnes (politiquement exposes, entre autres) ou sur des socits considres comme douteuses. Il faut tenir compte que ce type dinformation ne peut pas tre considr comme une information de premire main (le contrle des sources est extrmement difficile), de plus, suivant le cadre lgislatif du pays ou lon dsire exploiter les donnes fournies par ces organismes, on peut se trouver confront un risque juridique (cadre lgal sur la protection des donnes personnelles) lorsque lon voudra utiliser ces donnes. Il est recommand, pour des cas sensibles, de faire appel du conseil spcialis (rapport de renseignements par des professionnels qualifis), ce titre, il ne faudra pas ngliger de faire appel aux structures administratives existantes (police, renseignement, ambassades, etc.).
6.5) Autres outils de recherches et traitement de linformation : Source et url de rfrence : http://www.enpc.fr/enseignements/Legait/projet/victor/chercher/Outils.html
les outils de surveillance " tracking " et dalerte "cyberalert " : Ils sont des fonctions de recherche, de prsentation et de distribution de linformation. Il y a deux options pour faire la surveillance: par abonnement gratuit un site de surveillance ou bien par un logiciel de surveillance les outils "agents intelligents" : ils remplissent plus ou moins en profondeur les sept fonctions : Rechercher, Indexer, Filtrer, Sauvegarder, Prsenter, Distribuer, Aider la dcision. Pour une surveillance optimale sur Internet les outils daspiration "mirroring" : ils remplissent les fonctions de sauvegarde (recopie), dindexation et de filtrage pour certains dentre eux. Ils dupliquent tout ou partie dun site en recopiant les pages, les rpertoires et larborescence du site sur le poste informatique local les outils de gestion intelligente " Information mining " : ils ralisent les fonctions : Rechercher, Indexer, Filtrer, Sauvegarder, Prsenter, Distribuer, Aider la dcision. Ils sont centrs sur la gestion intelligente de linformation mme sils intgrent de plus en plus des fonctions de recherche sur le web les outils danalyse et de reprsentation de linformation: ils ont les fonctions : Indexer, Filtrer, Sauvegarder, Prsenter, aide la lecture dun ensemble de documents sur le web sous forme de reprsentation graphique, qui fournissent une meilleure comprhension rapide de grand volume dinformation. [voir aussi : http://c.asselin.free.fr/french/carto.htm] NdL : Pour accder la liste des diffrentes catgories "doutils de recherches et traitement de linformation " disponibles veuillez consulter lurl de rfrence (source). Certains de ces outils peuvent ne plus tres accessibles en raison de considrations dordre conomiques.
6.6) La dfinition des zones et primtres de recherche : Le mode demploi des fonctionnalits qui figurent ci-dessous apparat gnralement sous la rubrique "recherches avances" des MR, il faut aussi noter que les MR comportent une rubrique daide qui dcrit leur mode de fonctionnement. On peut effectuer des recherches lintrieur dun site complet ou uniquement dans une page Web. Il est St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
13 possible de ne sintresser quaux liens visibles sur la page Web ou la linformation quils contiennent dans la description des liens qui figure dans les balises html. On peut effectuer une recherche par rapport au nom de domaine (par pays ou par un gnrique, tel que .com) ou par rapport au nom dun site. On peut aussi chercher par le type et format de linformation dsire (image, vido, document Word, PDF, Excel, etc). Certains MR, tel que Google [http://www.google.com/], possdent une fonction " cache" qui permet daccder une version enregistre du document, mme sil nest plus disponible sur le serveur dorigine. Cette fonction est aussi disponible avec " the Wayback Machine [http://www.archive.org/]" qui intgre, depuis 1996, plus de 10 milliards de pages darchives. Il est aussi possible de chercher au travers des " en-ttes Meta " par les " keywords " ou les " descriptions ". On peut aussi faire des recherches centres sur des lments spcifiques tels que les carnets dadresses prsents sur les pages de liens des sites Web [exemple de formulation de requte : url:bookmark].
6.7) Principes de bases pour tablir une recherche :
Il faut tre conscient que le fait de rechercher une information donne dj une information (vers lextrieur) sur nos centres dintrts. Ce problme sera abord dans la troisime partie : les mthodes de protection lors du traitement dinformations sensibles. Dans un premier temps on va aborder la recherche sous langle logique (il faut souvrir lesprit et non sarrter la perception technique des outils) et tablir une stratgie de recherche : nature de linformation recherche, le type concern, objectif de la recherche, type de rsultat souhait, temps disposition. On va commencer dlimiter lenvironnement de sa recherche : que cherche-t-on exactement (une personne, un document, un format spcifique, un email) ? Est-ce que le type dinformation recherch est ancien ou rcent, plutt dordre acadmique, professionnel ou priv, est-il en relation avec les sources blanches ou grises ? Quels sont les lments utiles en relation avec la requte (est-ce lon dispose dautres lments " dinformation indirecte " qui permettraient deffectuer une recherche en parallle afin de trouver des relations avec la recherche principale et dterminer les ressources les plus pertinentes ) ? Quel est lventail des outils dont on peut disposer (selon la nature de la requte, quel est loutil le plus appropri : un mta-moteur, un annuaire, un newsgroup, une base de donne professionnelle) ? Combien de temps est-ce que je peux consacrer ma recherche, est-ce que les cots sont en rapport avec les rsultats ? Exemple de deux approches logiques :
Il faut ensuite interprter le mode de fonctionnement de loutil choisi, pour comprendre sa manire deffectuer une recherche. On va donner du sens sa requte (expression) et utiliser un maximum de mots en relation avec ladite requte, de cette manire le nombre rsultats filtrer sera rduit au minimum : dfinir les lments qui vont composer la requte en partant du gnral au particulier. Ceci va amliorer la pertinence des rsultats et diminuer au maximum "le bruit". Il est parfois utile dutiliser plusieurs moteurs en parallle (suivant leurs spcificits et efficacits). A lobtention des rsultats des St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
14 recherches il sera ncessaire de faire un travail de slection et de hirarchisation de linformation ainsi obtenue. Par la suite il faudra nouveau structurer sa requte (title, host, url ) et redfinir ses besoins en information par rapport aux recherches prcdentes (est-ce que des lments utiles peuvent venir se greffer dans les prochaines requtes, est-ce que ma manire de prsenter ma requte est adquate ou est- ce que je dois changer lorientation de celle-ci au vu des rsultats obtenus ?).
6.8) Utilisation des fonctionnalits avances des moteurs de recherches : les principaux Oprateurs Boolens :
ADJ ct de Utilisez ADJ pour retrouver deux mots cte cte dans lordre. AND - et Utilisez AND pour retrouver des notices qui contiennent deux termes. IN dans Utilisez IN pour rechercher un mot champ particulier dans un champ spcifique. NEAR proximit de Utilisez NEAR pour retrouver les enregistrements qui contiennent les deux termes dans la mme phrase. NOT pas de Utilisez NOT pour rechercher des enregistrements qui contiennent l'un des termes seulement. OR ou.
Utilisez OR pour rechercher des enregistrements qui contiennent l'un, lautre, ou les deux termes. WITH - avec Utilisez WITH pour rechercher des enregistrements qui contiennent les deux termes dans le mme champ. WILDCARD troncature lintrieur du mot Sert remplacer une lettre ou reprsente l'absence dune lettre (quand on a un doute de lpellation). Ex. m?cdonald retrouve la fois mcdonald et macdonald; p??re retrouve pre et paire. Troncature Vous pouvez utiliser le symbole de troncature (*) pour remplacer un caractre ou une chane de caractres. Ex. cat* retrouve les mots catgorie, catatonie, cats, etc St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
15
La libert et la facilit de publication de documents lectroniques sur le Web sont significatives de la difficult reprsente par lidentification de la source des informations auxquelles on peut accder. Cest pour cette raison, quen plus des dmarches "logiques" de contrle (date de linformation, date de mise jour, notorit et fiabilit de la source, possibilit de contacter son metteur, qualit de lurl), il faudra entamer des dmarches "techniques" lies lidentification de la provenance de linformation (gographique, technique/rseaux, source et traabilit dun email ou dun site Web), ltude de la structure de linformation (code html dune page Web, dun email html), lidentification de layant droit conomique (dtenteur dun site Web) ou encore pour dterminer le prestataire de service qui hberge le nom de domaine, ainsi que le contenu dun site Web. Ces dmarches font appel une complmentarit des connaissances abordes prcdemment (aspects multicouches de linformation, notion dadressage IP, url, code html, Meta tag).
7.1) Crdibilit de linformation, prsentation de deux cas d'cole
a) Le cas Emulex : cette socit active dans le domaine de la fibre optique a t victime en aot 2000 de la propagation dune srie de fausses informations la concernant. Alors que le march boursier du Nasdaq ouvrait peine ses portes, l'action de la socit Emulex s'effondrait brutalement, projetant le cours de l'action de 103 45 dollars en l'espace de quelques minutes, ce qui a provoqu une perte estime ( au niveau du capitale action) 200 millions de dollars ! A l'origine de cette baisse notable se trouve un communiqu, repris par Bloomberg et Dow J ones (deux des trois plus importants brokers dinformations financires au monde). Ce communiqu affirmait le plus srieusement du monde que les rsultats escompts ne seraient pas l'ordre du jour, que Paul Folino, patron de la firme, dmissionnait et, qui plus est, les autorits boursires avaient lanc une srie d'enqutes sur les comptes de la socit. Ces informations taient totalement errones, cette fraude avait t organise par un ancien employ de Dow Jones, lequel a nourri les deux services susmentionns avec des fausses donnes. Seul Reuter, grce des mthodes de validation des sources en amont (seule la rception de la validation de linformation par une source tierce permet la " news " daller plus loin) russi " filtrer " ces fausses informations.
b) Le cas CNN : (exemple abord la page 8 pour ce qui est de la redirection dun site Web vers une copie illgale de celui-ci). Cette affaire regroupe les aspects techniques lis la mconnaissance des utilisateurs, ainsi que les aspects de crdibilit du au rapport de confiance induit par le fait que lon pensait se trouver sur le site de CNN, et donc que linformation ne ncessitait pas de contrle supplmentaire. Le type durl utilis permet de rediriger ladresse dorigine du site Internet cible sur le site contenant les fausses informations. La charte graphique tant reproduite lidentique, la plupart des gens se sont faire prendre en dfaut. Les professionnels de la presse eux-mmes nont pas russi dtecter la fraude, un nombre considrable de nouvelles ont t reprises in extenso sur des sites officiels tiers. Crdibilisant des informations dj fausses lorigine. Donc les personnes qui ont accd aux sites web qui avaient repris linformation leur compte navaient que des signaux trs faibles de remise en cause de linformation
7) L'analyse et la crdibilit de l'information (inclus traabilit et identification) St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
16 Exemple de lurl utilise dans le cas CNN : http://cnn.com:443@212.190.116.226/news.php?y2JEHUDv
le :443@ permet une redirection depuis nimporte quel site Web. Il suffit donc dimiter la charte graphique du site cible, et ensuite dobtenir ladresse IP de son propre domaine [212.190.116.226], (voir page 7, " laspect multicouche de linformation "), linclure la suite de larobase avec le chemin jusquau document dsir [/news.php?y2JEHUDv] [ http://212.190.116.226/news.php?y2JEHUDv ]
Ces deux cas illustrent aussi trs bien le concept de "rapport de force asymtrique" Pour chacun dentre eux, une seule personne a uvr et a russi compromettre la vie dune entreprise cote en bourse pour le premier et a dstabilis une chane dinformation telle que CNN. La diffrence entre les moyens engags et la puissance des entreprises attaques est la reprsentation de ce rapport asymtrique.
7.2) Crdibilit de linformation : les dmarches de validation logiques
date de linformation : quand est-ce que linformation a t publie, est-ce que la date de publication correspond aux autres dates prsentes dans le site ? quand disponible [Information quantitative] date de mise jour : est-ce que le site fait luvre dune politique de mise jour de linformation, est-ce que celle-ci semble homogne sur lensemble du site ? [Information quantitative] notorit et fiabilit de la source : est-ce que le site est connu, de quelle notorit bnficiait-il, quels sont les rsultats que jobtiens quand je le soumets des MR (ce type de contrle est possible avec des outils spcialiss tel que : www.linkpopularity.com) [Information quantitative] possibilit de contacter son metteur : est-ce que linformation laquelle jaccde est signe ou lgende, est-ce que les coordonnes de lauteur figurent sur le site, est-ce que les informations de contacts sont composes demail, dadresse postale, dun numro tlphone ou de fax ? Quels sont les rsultats lors de recherches daprs les informations de contact figurant sur le site (prenez les noms "personnes ou socits" et avec un moteur de recherche ou un meta-moteur, essayez de trouver des " traces" de celles-ci) [Information qualitative] structure de lurl : (selon lexemple de CNN) est-ce que le nom de domaine est la proprit de lditeur ou est-ce que lon a affaire un site qui offre des espaces dexpression gratuite, est-ce que la dnomination des liens correspond bien la structure des url, est-ce que lextension du nom de domaine est connue et en relation avec lemplacement gographique suppos de linformation, ou est-ce que lon St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
17 a affaire un nom exotique (par exemple un www.nom.fr.st pour un article en franais) ? [Information qualitative]. rfrencement de linformation contenue dans le document : est-ce que toutes les informations en relation avec le document auquel on accde sont bien documentes, les sources cites et vrifiables (lien avec la source) est-ce que les personnes cites figurent sur le Web (prenez le nom et prnom et avec un moteur de recherche ou un meta-moteur, trouvez les "traces" de cette personne) ? [Information qualitative]. possibilit de croiser linformation avec dautres sources dinformation : est-ce que lon peut trouver trace de linformation laquelle on accde dans dautres sources, le message est-il homogne ? [Information quantitative].
7.3) Crdibilit de linformation : les dmarches de validation techniques
provenance de linformation : quel est le nom de domaine du site vis, est-ce un nom courant, provient-il dun pays au bnfice dune lgislation permissive, quels sont les pr-requis pour lenregistrement dun nom de domaine (dans le cas dun nom par pays) ? On peut vrifier les diffrentes procdures ladresse suivante : www.iana.org/cctld/cctld-whois.htm. Pour les noms de domaines gnriques se rendre sur : www.iana.org/gtld/gtld.htm)Pour vrifier lexistence dun nom au niveau mondial se rendre sur : www.uwhois.com/cgi/domains.cgi?User=NoAds source, hbergement et traabilit dun site Web : les autorits de rgulation pour la distribution rgionale des adresses IP sont listes ladresse suivante www.iana.org/ipaddress/ip-addresses.htm, de mme que lon pourra sintresser lattribution des classes dadresses IP sur ce lien : www.iana.org/assignments/ipv4-address-space. Des produits logiciels tels que " Visualroute " de la maison " Visulaware " peuvent apporter une aide prcieuse au non-technicien pour la traabilit dun site et lidentit de lhbergeur :
lidentification de layant droit conomique (dtenteur dun site Web) : pour identifier le dtenteur dun site web on va devoir, dans un premier temps, se rendre sur : http://www.internic.org/whois.html afin de savoir auprs de quelle socit le nom de domaine a t lou. En effet, depuis la libration la concurrence de la location des noms de domaines un certain nombre de socits denregistrement (Registrars) ont vu le jour. Lurl susmentionne va nous permettre de trouver Dans ce cas on a trac le chemin depuis lordinateur sur lequel on se trouve jusqu lendroit ou le site est hberg (avec les adresses IP respectives) On aura ici le nom de la socit dhbergement ainsi que du fournisseur de service tlcoms par lequel on transit St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
18 le Registrar concern, ainsi nous pourrons nous rendre sur le site de celui-ci et utiliser loutil (Whois) prvu cet effet pour identifier le dtenteur de nom de domaine faisant lobjet de notre recherche. On peut donc constater qu'il ny a pas de relation entre les diffrents " Whois " qui pourtant enregistrent le mme type dextensions (.biz, .com, .org, .info, etc : voir annexe pour accder toutes les extensions). Le fait que lon ait identifi le dtenteur du site ne signifie pas que lon ait les informations sur lhbergeur du contenu du site (celui-ce sera trouv au moyen de visualroute, tel que dmontr dans lexemple figurant au paragraphe prcdent) source et traabilit dun email: " email tracker pro " de la maison " Visulaware "
code html dune page Web : Dans lexemple ci-contre, lon peut remarquer que CONTENT= - Intrusion par Kain- figure dans les en-ttes mta de la page web. Ce qui signifie quil ne sera pas visible lorsque lon visitera la page en question avec son navigateur. Certains moteurs de recherches sont capables de faire des requtes dans la zone des mtas (par exemple www.voila.fr, avec les recherches approfondies)
Dans cet exemple lexpditrice affirme tre la veuve de Mobutu, et le nom affich la rception de lemail est bien: Mme Mariam Mobutu , mais ds que lon trace lorigine de cet email et que lon en affiche le code source, on se rend compte que le pays de provenance de lemail est le Nigeria, et que lexpditrice utilise en fait une adresse email avec un nom de domaine @yahoo.com ce qui peut tre un lment de dcrdibilisation ; cet email est en fait un des documents envoys par la filire nigrienne . St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
19 7.4) Remarque concernant lidentification des dtenteurs d'un site Internet Quelle est la problmatique au niveau lgale ? Le principal problme que lon rencontre se situe au niveau de la ncessit de lentraide judiciaire et du manque de contrle de la crdibilit des informations fournie par les ADE (ayants droits conomiques), de plus la possibilit de sparer les diffrentes informations en relation avec les dtenteurs de sites (au niveau gographique humain et des prestataires de services), par exemple rcemment un cas descroquerie avait pour contexte un nom de domaine thalandais, un contenu hberg en Californie et ladresse du dtenteur situe en Espagne.
Exemple didentification transnationale :
Propritaire du nom de domaine SXXXXXX- XXXXX.COM
Adresse postale:
1) Rxxxxx Mxxxxx & Co Limited
Rxxxxx Mxxxxxx & Co Limited Mr Rxxxxx Mxxxxxx Kxxxxx Gxxxx Road LE2 2LF Leicester GB Location du nom de domaine SXXXXXX-XXXXX.COM
2) Schlund + Partner AG
Cest la socit denregistrement [Registrar] par laquelle M. XXXXX est pass pour enregistrer le nom de domaine SXXXXXXX-XXXXX.COM.
Adresse postale :
Schlund + Partner AG Erbprinzenstrae 4 12 76133 Karlsruhe Germany Hbergement du contenu en relation avec SXXXXXX-XXXXX.COM
3) Cyberporte
Cyberporte hberge le site, ou contenu du nom de domaine SXXXXXX-XXXXX.COM, elle loue lespace (hbergement des donnes) ncessaire fournir ses prestations de service chez la socit anglaise WEBFUSION, elle-mme filiale de la socit HOSTEUROPE, celle-ci a aussi la gestion des serveurs de nom qui hbergent le nom de domaine SXXXXXX-XXXXX.COM
Adresse postale :
Hxxxx, Mxxxx 2 mxxxxx des Cxxxxxx Lauris, 84360 FR Hbergement du nom de domaine SXXXXXX- XXXXX.COM par lintermdiaire de CYBERPORTE
4) hosteurope.com
Cest la socit [Registration Service Provider] qui mis disposition les serveurs de noms [voir ci- dessous : nserver] ncessaires la prise en charge du nom de domaine SXXXXXX-XXXXX.COM sur lInternet. HOSTEUROPE, par lintermdiaire de lune de ses filiales anglaises : WEBFUSION [http://www.webfusion.co.uk/corpinfo.shtml], ntant que le prestataire de service de CYBERPORTE et na pas pour client direct MXXXXX & CO LIMITED
Adresse postale :
Host Europe PLC Kendal Avenue London W3 0XA GB St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
20
La notion de lenvironnement de linformation peut se rfrer la vrification du contexte dans lequel une information est diffuse (contexte alarmiste, tendu, favorable ou dfavorable) est-ce que la teneur de linformation a une influence concrte sur une situation actuelle. La survenance quant elle fait rfrence au moment o linformation apparat et linfluence quelle a sur les lments prsents et venir, ainsi que les facteurs de concidence informationnelle que lon peut discerner. Pour amliorer lefficacit de cette technique on utilisera la mthode " PUZZLE " (dveloppe par le professeur Humbert Lesca de lUniversit de Grenoble. Elle est base sur lanalyse des signaux faibles). Il sagit de puiser dans diverses sources des lments dinformation de type heuristiques (des brides dinformations) pour ensuite les regrouper sur un mme niveau danalyse afin dtablir les " liens relationnels " qui seraient susceptibles dexister entre les diffrents lments pr-slectionns (de causalit ou de contradiction par exemple).
8.1) Modle danalyse de lenvironnement de linformation.
a) Quel est le fait ? b) Identifier la source (notion denvironnement de linformation) : - Crdibilit (mdia, auteur); - Environnement (politique, sociale); - Localisation (pays). c) Les 5Questions en relation avec la source : - Qui ? - Quand ? - Quoi ? - A quel moment ? - Pourquoi ? d) Les 5Questions en relation avec le fait : - Qui ? - Pourquoi ? - Contexte ? - Impact ? - Incidence ?
8.2) Deuxime axe danalyse du fait:
Les sources : indpendance vis vis du journal ou dautres acteurs impliqus. Couleur politique. Prcision. Les faits : distinguer les faits, des opinions, des suppositions, des commentaires, des hypothses, des supputations Les contradictions : recoupement, correspondance entre les infos. Dtection des indices de contradiction entre les diffrents vecteurs de linformation en question Le dbat : qui est-ce que l'on donne la parole, qui est concern, qui manque lappel Les mots : quelle est la dialectique, comment sont employs les mots, charge motionnelle, double sens. 8) Analyse de lenvironnement et de la survenance de linformation par linterprtation des signaux faibles St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
21 Le titre : reflte-t-il vraiment le contenu de larticle ou les faits annoncs, induit-il une interprtation errone du contenu Les chiffres : sont-ils prcis, les sources sont-elles fiables, le contexte dans lequel ils sont utiliss correspond-t-il.
8.3) Utilit et comprhension du modle danalyse des signaux faibles
Dans un contexte de surabondance de l'information, l'enjeu est de pouvoir distinguer parmi le "bruit" (masse dinformations) l'information qui sera utile l'entreprise. Il s'agit donc de dtecter les faibles occurrences, c'est--dire les "signaux faibles* " L'ide de "signaux faibles" peut tre dfinie partir de la notion de "signaux d'alerte" (encore dnomme "signaux prcoces") qui dsigne le plus souvent des signaux de faible intensit. *I. Ansoff
Au niveau de lanalyse, on peut considrer les signaux faibles comme des bribes dinformations, qui analyses sparment, ne signifient pas concrtement un vnement venir mais plutt lindice dune situation potentiellement possible. Cest lutilisation de faisceaux dindices (htrognes) qui permettra de dfinir la probabilit du degr de ralisation de lvnement venir. Cette approche " logique " danticipation peut-tre formalise et optimise par le biais de lintelligence collaborative..
source : Humbert Lesca
A l'instant T, l'vnement E est totalement ralis. Le signal S qui lui correspond est un "signal fort" donc facilement perceptible. A ce moment l, le dlai pour ragir l'vnement est nul, il n'y a aucune marge de manuvre possible.
A l'instant T', l'vnement ( l'tat E') est juste amorc. Le signal qui lui correspond est un signal faible, difficilement perceptible. L'effort raliser pour dtecter ce signal est donc plus important. En revanche, la marge de manuvre, mesure par l'cart entre T' et T, est alors suffisante pour faire face la survenance de l'vnement.
St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
22 8.4) La mthode PUZZLE danalyse des signaux faibles
1. Catgorisation des informations 2. Numrotation des informations 3. Dfinition des relations entre les informations, selon les liens de: - Causalit; - Confirmation; - Contradiction; - Hypothse; - Frquence.
Les programmes tels que I2(analyser : http://www.i2.co.uk/) Watson (http://www.xanalys.com) ou Mind Map (http://www.mindmap.com/), permettent aussi, diffrents niveaux, de travailler sur une approche qui regroupe : lanalyse de lenvironnement de linformation, lanalyse des signaux faibles et la mthode PUZZLE. Pour pouvoir " fusionner les mthodes susmentionnes on va partir du principe de fonctionnement du " data mining ". On va donc collecter un maximum dinformations denvironnement htrogne tant au niveau de leurs sources, de leurs catgories, que de leur crdibilit ( ce titre on annotera les informations selon un facteur de crdibilit situ entre 1 et 10 par exemple). Au final on va essayer de procder lagrgation et la consolidation des lments prsents afin de procder au traitement mthodologique des donnes
St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
23 Rappel des dmarches de bases
1) Collecte
Identifier la source (notion environnement de linformation) Analyser la source: Crdibilit (mdia, auteur); Environnement (politique, sociale); Localisation (pays). Croisement des sources 2) Observation
Observer le texte Sortir les lments dintrt Chercher des informations complmentaires dans les sources blanches ou grises Numroter les lments dfinitifs selon deux mthodes: chiffres pour les lments du texte, alphabet pour les lments des sources. Croisement de linformation 3) Qualification et consolidation de linformation
Principes de lintelligence collaborative: Profils: cognitifs heuristiques et analytiques Groupe compos de savoirs htrognes Mise en circulation de linformation au sein du groupe validation des informations par sa confrontation aux diffrentes connaissances prsentes au sein du groupe Cration de rapports dtonnements 4) Schmatisation :
Dvelopper les lments selon la relation quil est possible de dfinir entre les diffrentes informations prsentes; Analyse des signaux faibles Schmatiser les diffrentes relations identifies par un graphique; Dvelopper des hypothses selon des scnarios exploratoires (identiques ceux que lon utilise pour dfinir sa stratgie de recherche). Dtection des indices dtonnement Cration de savoirs St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
24 8.5) Traitement de linformation : Principes de lintelligence collaborative:
Profils: cognitifs, heuristiques et analytiques. Il est important de tenir compte des profils psychologiques prsents dans la chane de traitement de linformation. Si lon ne place pas les personnes au bon endroit (que cela soit en ce qui concerne la mise en place dune structure de veille ou lors dun travail danalyse de groupe). Un profil cognitif inductif sera plus mme de travailler avec des informations incompltes et donc aura plus de chance de trouver des indices lors dune approche de dtection des signaux faibles. Le profil cognitif analytique ne se contente pas dinformations tronques, il lui faut des donnes prcises, on le placera donc en aval de la chane de traitement de linformation (en partant de la collecte, par rapport au profil inductif). Groupe compos de savoirs htrognes : dans le concept de lintelligence collaborative il est important de bnficier dune diversit de savoirs. De mme quil est positif davoir des savoirs atypiques au sein du groupe. Dans la phase de mise en circulation de linformation, la validation des informations par sa confrontation aux diffrentes connaissances prsentes au sein du groupe. Lintelligence collaborative est dautant plus efficace quand elle sappuie sur des modles tels que ceux abords aux points 8.1 8.4.
8.6) Exemples dutilisation des mthodes traits dans le chapitre 8
Premier cas : analyse de lactualit : le "sniper" de Washington, on avait fortement suggr lpoque des faits (octobre 2002) que ce tueur pouvait avoir une relation avec le groupe terroriste dAl Qaida. Dans un premier temps lorsque le tireur est apparu, on a trait le premier meurtre comme un fait divers. Par la suite, avec la multiplication des homicides on a parl dun tueur en srie. Le climat de psychose qui a commenc sinstaller et le fait que les autorits taient impuissantes face ce criminel a pouss celles-ci chercher un bouc missaire. Cest ce moment que lanalyse de lenvironnement de linformation et de la survenance de linformation peut tre exemplifie. Premier lment : les autorits ont subitement demand lautorisation Donald Rumsfeld demployer des moyens militaires pour combattre "cet ennemi" lorigine de la psychose de la population de tout un tat (il sagissait demployer des drones ainsi que des satellites). Deuxime lment : les tlvisions ont commenc diffuser des reportages sur les effets psychologiques du terrorisme (documentaire sur les victimes dattentats en Isral, etc) Troisime lment : le conseiller du prsident pour la politique de scurit intrieure a affirm quil envisageait dinterroger les prisonniers de Guantanamo afin de vrifier sil existait un lien entre le " sniper " et les terroristes On peut dterminer la volont de cration dun lien implicite entre un vnement dactualit et lutilisation de la psychose terroriste du moment par lanalyse de ces lments de dissonances dans le contexte informationnel
Deuxime cas : les images montrant des Palestiniens en liesse aprs les attentats du 11 septembre. Cet exemple peut permettre dtudier, les aspects de concidence informationnelle ainsi que de survenance de lvnement. Si on analyse le contexte dans lequel ces images sont apparues sur les chanes de tlvisions, on constate que, dans un premier temps, elles avaient "leur place" dans la chane (contexte) dinformation; tandis que pour ce qui est de la concidence et de la survenance on avait l les premiers signaux faibles Premier lment : alors que le monde est occup, New York, par la chute des tours, une quipe de cameramen a russi se trouver au bon endroit au "mauvais moment". St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
25 Deuxime lment : le groupe de palestiniens film na jamais fait lobjet de plans reculs, les cameramen sont en fait rests concentrs sur un petit groupe de personnes la situation ntait donc pas reprsentative dun mouvement gnral. Troisime lment : les images sont " arrives " trs vite sur les chanes de tlvision et dans la majeur partie des diffusions, elles nont pas t accompagnes dun commentaire explicatif. Quatrime lment : il y a un peu plus de 18 mois, un journal isralien (Haaretz) proche de larme avait fait paratre un article sur la volont de larme de se doter " dune force dintervention mdiatique rapide " dont le but tait de mettre en place un " outil " pour tre plus mme de se battre sur le terrain de linformation. Cinquime lment : les images ont t filmes par lantenne isralienne dun rseau de broadcast international Tous ces points permettent de remettre en cause linformation reue et de mieux dtecter les messages induits (les Palestiniens se rjouissent de lattentat, Les Palestiniens ne sont peut-tre pas trangers cet attentat Les Palestiniens sont des terroristes). Ce qui fait que, par exemple, quand le Premier ministre isralien a ordonn aux chars de pntrer dans les territoires occups, le taux de protestations est rest trs faible.
Ces diffrentes mthodes danalyse (chapitre 8) sont les seules parades cet aspect moderne de gestion de linformation. Pour un cas tels que ceux du type CNN (chapitre 7.1), cela peut permettre de fournir les lments ncessaires une dtection approprie des informations errones
St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
26
Le dveloppement de structures ou cellules de veille stratgique est intgr dans la stratgie de management de linformation. Les divers lments prsents au chapitre 3 dans le paragraphe "Le risque informationnel ", sont reprsentatifs de la ncessit de dlimitation du primtre informationnel de lentreprise.
Le principal instrument de travail est linformation et la tche est de grer le flux de cette information selon des principes de : rception; interprtation; dissmination; action. . De plus en plus le management de linformation en entreprise devient une ncessit, car il faut grer :
Le flux des informations produites par lentreprise pour elle-mme Le flux des informations prleves sur lextrieur et utilise par lentreprise Le flux des informations produites par lentreprise destination de lextrieur
Ces diffrents flux se dpartagent en deux catgories : Les informations dactivits, utiles lentreprise pour assurer son bon fonctionnement, Les informations de convivialits, permettent de vivre ensemble et en relation avec les autres et dinfluer sur leurs comportements.
" On peut considrer par exemple quune campagne de dsinformation agit selon le mme principe quun virus informatique: une information errone qui sappuie sur les ressources dun systme organis dans le but de le dstabiliser. " 9.1) La veille stratgique: principes de base et possibilits d'utilisation On va inclure dans la gestion de son primtre informationnel la palette des risques et vulnrabilits en relation avec lactivit professionnelle de lentreprise. Pour une banque par exemple on va inclure le nom des personnages politiquement exposs dans le primtre de surveillance. A ce titre, il faut prter attention au fait quinclure un risque dans le primtre informationnel de son entreprise ne signifie par forcment traiter ce risque depuis son entreprise : Considrant que chaque recherche dinformation est une information, il faudrait, pour le secteur bancaire, passer par des sortes de " proxy humain " et donc ne pas traiter la recherche dinformation directement au sein de lentreprise, mais passer par une entreprise tierce, bnficiant de toutes les garanties de confidentialit, afin de rduire le risque au minimum. On peut trs bien imaginer crer une structure indpendante de sa propre entreprise, mais sous le contrle de celle-ci, ddie la gestion du risque.
9.2) Philosophie pour la mise en place d'une structure de veille
Pour mettre en place cette structure de veille on va en calquer le principe de fonctionnement au niveau humain sur " lintelligence collaborative (chapitre 8.5) ". Ensuite on va essayer de rpartir le travail en rapport avec les comptences des collaborateurs de lentreprise concerne. De manire gnrale, la veille nest pas une occupation temps plein. Une fois que lon a pris en compte les aspects de personnalit, il est indispensable dy marier les comptences ncessaires la dtection des signaux (domaine professionnel). On essayera autant que possible dautomatiser par secteur la collecte dinformations, le premier tri devant tre fait par les ressources du secteur concern. 9) Stratgies visant la matrise des Flux informationnels St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
27 9.3) tapes du cadre mthodologique dune surveillance lectronique: Construire la liste des mots-cl qui dlimitent le primtre de surveillance : en fonction des thmes de surveillance, il est capital de construire une liste de mots-cl en plusieurs langues qui sera la base des premires recherches manuelles. Tester ses mots-cl sur les moteurs de recherche : valuer le volume dinformations existant sur le sujet et dfinir plus prcisment les expressions (bouts de phrase) qui donneront les rsultats les plus prcis. Les recherches effectues en texte intgral, si tous les mots-cl ne sont pas utiliss dans les recherches, on risque de passer cot de documents pertinents et qui contiennent dautres mots-cl que ceux de notre liste. Attention la construction de la liste des mots-cl et des expressions de recherche (" style Internet "). Construire un carnet dadresses des sites ou des pages surveiller. En compltant les recherches sur les moteurs. Hirarchiser les sites surveiller. Les sites ne sont pas surveiller avec la mme frquence. Slectionner les outils ncessaires (logiciels, outils en ligne, dlgation de services) afin de pouvoir automatiser le maximum de points surveiller pour tre capable de consacrer toute lattention ncessaire aux indices dinformation. Une petite parenthse sur Factiva : ce type de base de donnes professionnelles comporte un ensemble de systmes dalertes et doptions de configuration trs utiles. Il faut tre conscient que cela ne suffit pas. Bien que linformation de Factiva soit qualifie et provienne de plusieurs milliers de sources officielles, elle ne permet pas daccder tout le primtre des informations non officielles au sein desquelles on a un fort potentiel de dtection de signaux faibles et autres indices dinformation. De plus, les forums de discussions ne sont pas non plus pris en compte.
9.4) Actions dfensives et prventives
La protection de l'image, exemple : On peut estimer le prjudice limage caus par le dtournement de sa page daccueil (appel " defacement " ou " dfacement ") entre le moment " T " o linfraction a t commise et le moment " T1 " qui correspond au retour la normalit. Lespace temps compris entre "T" et "T1", multipli par le nombre de visiteurs qui habituellement frquentent le site dans cette tranche horaire, donne le potentiel de prjudice (ci-dessous : exemple concernant la socit Pfizer).
St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
28 En effet, si lon a mille visiteurs dans la tranche horaire en question cela signifie quun millier de personnes aurait t en mesure de faire une capture de la page Web dtourne et lenvoyer au travers de forums de discussions, aux concurrents ou aux reprsentants de la presse. Il faut aussi imaginer que la "dimension" de lentreprise sur le Web correspond la taille de son cran. De ce fait, si lon " tag " la page en question, cest comme si on arrivait " taguer " tout le btiment dans la ralit. Pour pouvoir rpondre ce risque on mettra en place une solution de veille automatique sur linformation de son propre site Web, de la sorte que si elle venait changer, le responsable en serait alert dans les plus brefs dlais (une solution produit performante est WebSite Watcher : www. aignes.com/)
Les personnages politiquement exposs : en prenant en compte les ncessits de scurit abordes au chapitre 9.1 ainsi que les aspects techniques du chapitre 9.4, on va utiliser le principe de veille sur un certain nombre de sites et de portail dinformations. On peut aussi faire une recherche des interlocuteurs potentiels dans les rgions o le Web ne recense pas encore les sources dinformation (presse locale, rumeurs)
Les contres sites : par rapport au nom et au domaine dactivit de son entreprise il serait judicieux de faire une tude de risque afin de savoir quel est le danger dune exploitation mauvais escient dun nom de domaine en relation avec son activit professionnelle. Il est en effet moins coteux de louer une srie de noms de domaine (en moyenne CHF 18.- / an) que de devoir intervenir par lintermdiaire dun avocat. Pour palier ce risque, il faudra non seulement prter attention aux diffrentes extensions (pays ou autres domaines gnriques tels que les .biz ou .info) mais aussi aux contre-sites potentiellement utilisables (www.jeboycottedanone.com/, syz.com, www.bcgefraude.ch)
La marque : la marque peut tre susceptible dtre attaque par le biais des mta-tags ou au niveau du " positionsquatting " (pour ce qui est du cybersquatting ou utilisation indue dun nom de domaine dans un but spculatif, lOMPI a mis en place une procdure darbitrage).
Le positionsquatting est le fait de payer pour apparatre dans les premiers rsultats lors dune recherche sur une marque dont on ne dtient pas les droits. Des recherches sur plus de 60% des entreprises du CAC 40 amnent vers des sites non officiels, qui ne dtiennent aucun droit sur la marque. Dans ce cadre, on observe de nombreux cas de parasitisme car les entreprises les moins scrupuleuses ont achet des positionnements sur les recherches sur des entreprises concurrentes pour dtourner leur trafic. (source : Raphal Richard CVFM). St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
29 Les Meta-tags : grce aux fonctions avances de certains MR tel que "Voila : http://options.ke.voila.fr/plus_voila.php (voir exemple en bas de page)" on peut faire des recherches afin de savoir si sa marque figure dans les Meta-tags dun concurrent ou dun contre-site
exemple des possibilits de recherches approfondies de www.voila.fr
Les rumeurs : comme cela a souvent t soulign dans ce mmoire, les fausses informations sont prsentes en masse sur le Web. Un des vecteurs la mode est lemail, il sert de support tous types de fausses nouvelles avec plus ou moins de succs, profitant et l de la crdulit des internautes pour une part et de lutilisation de la connaissance du comportement humain pour lautre. Cest ce dernier point qui va tre abord dans lexemple de la page suivante : St phane koch - Et udes post gr ades HES, I LCE I nst i t ut de l ut t e cont r e l a cr i mi nal i t conomi que,
30
Ce message est trs bien construit, car si lon suit la dmarche dcrite ci-dessus la lettre on obtiendra en toute logique le rsultat annonc. Le seul problme est que le fichier qui est mis en cause et accus dtre un virus destructeur, nest que lun des nombreux fichiers utiles au fonctionnement de lordinateur. Il tait donc normal que les programmes anti-virus ny prtent aucune attention
Linformation, en tant quentit proprement parler, a pris, dans un espace temps restreint, une importance croissante en ce qui concerne sa capacit de nuisance. Les nouvelle contraintes engendres par cet tat de fait ne peuvent plus tres ngliges. On a pu constater que la survie dune entreprise peut tre menace par un nombre important des cas prsents dans ce mmoire et que leur mise en uvre ne ncessite pas lengagement de beaucoup de moyens. La dlimitation "des frontires du risque" sest aussi tendue de manire considrable alors que les protections lgales ont t rendues plus difficiles daccs et plus coteuses. Les entreprises en phase avec des ralits court terme ont de la peine prendre en compte ce type de risque, la notion dincertitude les pousse faire le minimum pour assurer la prennit de leur activit professionnelle. Les donnes actuelles dmontrent que, malgr une fragilisation de fonctionnement due lutilisation des SI et un " turn over " important, elles prfrent continuer naviguer vue. Il est vraisemblable que larrive dune responsabilisation pnale des dirigeants insouciants remettra au got du jour la culture de la prvention du risque.
1. Matriser et pratiquer la veille stratgique AFNOR 2. Recherche et veille sur le Web visible et invisible TEC & DOC 3. La recherche intelligente sur Internet, Outils et mthodes HERMES 4. Lintelligence conomique au service de lentreprise Edition PUBLISUD 5. De la guerre conomique PUF 6. Guerre conomique et information, les stratgies de subversion ELLIPSES 7. Larme de la dsinformation - GRASSET 8. La veille stratgique (E. Pateyron, Economica) 9. Le Guide du Knowledge management (J-Y Prax, Dunod) 10. Savoir anticiper (Philippe Gabilliet - Collection formation permanente, Sminaires mucchielli 11. Professeur Humbert Lesca : http://www.esa.upmf-grenoble.fr/contenu_professeurs_lesca.html 12. Cours du Professeur Humbert Lesca (http://imatis.unige.ch/iMatis/iMatis.nsf/lesca2001?OpenPage) Bibliographie
Annexe I A n n e x e
I
1
Adresse IP(Adresse Internet Protocol) Adresse unique permettant d'identifier un ordinateur sur l'Internet. Applet Une "applet" est un petit programme crit en Java qui s'insre dans les pages HTML. Ce programme est ensuite interprt et excut par le navigateur. Archie Systme qui permet de localiser un nom de fichier dans les sites FTP anonymes. Les serveurs Archie rpertorient des millions de fichiers qui se trouvent dans quelques milliers de sites FTP anonymes dans le monde. ARP (Address Resolution Protocol) Protocole de Rsolution d'Adresse. Messages et procdures utilis par tout protocole de communication pour retrouver partir des adresses locales, les adresses rseau. Dans TCP/IP, le protocole pour convertir les adresses IP rseau et les adresses physiques. ARPANET (Advanced Research Project Agency Network) Rseau Communication par paquets qui constitua la base du rseau Internet. Ce rseau a vu le jour en 1969 Authentification Vrification de l'identit prtendue d'un ordinateur ou de l'utilisateur d'un rseau informatique. ASCII (American Standard Code for Information Interchange) Code binaire permettant de reprsenter les diffrents caractres. C'est le mode utilis par presque tous les micro-ordinateurs pour coder les caractres saisis. Autoroutes de l'information Rseaux de tlcommunications permettant la diffusion d'informations en mode numrique de faon aussi accessible que le tlphone ou la tlvision, c'est--dire autant partir des habitations que des lieux de travail. L 'autoroute de l'information (ou les autoroutes...) implique la convergence de l'informatique et des tlcommunications sur les plans techniques et conomiques et de grandes possibilits de diffusion d'informations varies, en mode texte, graphique, vido et son.. Bande passante Gamme de frquences qu'un instrument peut produire ou qu'un canal peut transmettre sans affaiblissement du signal. La largeur de bande s'exprime en Hertz. Plus la Bande Passante d'un rseau est leve, plus grande est son aptitude transmettre un flot important d'informations. Backbone Epine dorsale d'un rseau et point de concentration de celui ci. Ce terme peut tre employ pour l'infrastructure ou pour les services (comme la diffusion de News) Il dsigne une ligne haute vitesse ou un ensemble de lignes haute vitesse qui constitue un point de passage important dans un rseau. Ce peut tre galement une machine servant de point de concentration. C'est en fait un nud de communication.. BBS (Bulletin Board System) Messagerie entre micro-ordinateurs abonns, permettant la mise en place de forums et de dialogues en direct. A une chelle plus grande les BBS sont appels "services en ligne" ("On Line Services'? Parmi les exemples de "services en ligne" citons Compuserve, America On Line(AOL). CACHE Dispositif matriel ventuellement associ un composant logiciel dont l'objectif est de stocker localement des ressources afin de diminuer le dlai de mise disposition de ces ressources. Il peut s'agir de mmoire dite "mmoire cache" associ un microprocesseur et dont l'objectif est de stocker dans le microprocesseur des donnes afin d'viter une perte de temps aller chercher ses donnes sur un support extrieur (mmoire ou disque). On parle alors d'antmmoire. Le mcanisme de cache peut-tre aussi mis en oeuvre sur un serveur pour stocker temporairement des donnes frquemment utilises et se trouvant sur un site distant (Proxy Server). C'est aussi un mcanisme utilis par certains protocoles comme le DNS ou ARP. Chiffrement Mthode de protection des donnes. Lorsqu'on accde ces donnes, elle empche de les comprendre sans le recours d'une cl de chiffrement permettant d'afficher "en clair". Cl publique Cl utilise dans un systme de chiffrement dans lequel la cl de chiffrement est diffrente de la cl de dchiffrement. Ce systme repose sur le caractre secret d'une cl dite prive mme en connaissant la cl publique (c'est--dire diffuse publiquement). Un modle de chiffrement double cl est celui de POP ("Pretty Good Privacy"). Client-serveur ANNEXE I : Glossaire des Termes Internet 2 Mode de fonctionnement d'un programme informatique qui rpartit la charge de travail d'une application entre deux logiciels: le client et le serveur. Le client assume les changes avec l'utilisateur, la prparation des requtes, l'affichage des rsultats, etc. Le logiciel serveur assume la gestion des bases de donnes et effectue les traitements, les recherches, et traite tout type de requtes que lui adresse le logiciel client. Commutation par paquet Mode de transmission des informations sur l'Internet: les donnes transmettre sont dcoupes en plusieurs paquets et chaque paquet est envoy de manire indpendante. Ce mode est distinguer de la commutation de circuit qui est utilise pour le tlphone. Compression Traitement des donnes numriques qui rduit leur volume. Ds lors que des informations sont numrises (converties en sries de bits), elles peuvent tre compresses afin d'occuper moins de place. Les techniques de compression impliquent un codage par algorithmes mathmatiques. La dcompression est ensuite effectue grce aux formules inverses. Ces techniques ont tant progress que l'on peut prsent compresser des donnes, et les restituer sans perte de qualit, dans un rapport de 1 20. Cookies Fichier de type texte (.txt), qui s'inscrit sur le disque dur l'aide de certaines pages Web, dans le but d'tre rutilis plus tard par d'autres pages Web. Cryptage Mthode qui assure la confidentialit et la scurit de l'information vhicule sur l'Internet. Les donnes sont brouilles, et donc illisibles, puis dbrouilles l'aide de la mme mthode. Certains navigateurs Web, comme Netscape. Possdent de telles fonctions. Cybercaf Caf dans lequel on peut se connecter l'Internet . Les premiers cafs de ce type sont apparus en 1992 San Francisco. Cyberspace Terme de William Gibson, romancier, dsignant les mondes virtuels constitus par les rseaux informatiques Dbit Mesure la quantit d'informations que peut transmettre un canal de transmission pendant un temps donn Gnralement en bits par seconde pour les transmissions numriques. DNS (Domain Name System) Base de donnes distribue permettant de faire la correspondance entre nom de machine logique et l'adresse IP E-mail (Electronic Mail) Application qui permet un utilisateur d'changer des messages avec d'autres utilisateurs dots d'une adresse Internet, communment appele adresse de courrier lectronique. L'Office de la langue franaise du Qubec recommande l'usage du terme "messagerie". En France on prconise aujourd'hui l'usage de "Ml". Certains utilisent le terme plus heureux de "courriel ". On peut aussi entendre le terme BAL (boite aux lettres). La messagerie lectronique fut l'un des tous premiers services du rseau Internet mis en place partir de 1971. Comme la plupart des services dvelopps sur Internet la messagerie lectronique utilise un mcanisme client-serveur. Pour pouvoir envoyer un message, l'utilisateur doit disposer d'une boite aux lettres lectronique (souvent lie un compte sur une machine), comprenant gnralement son nom et celui de la machine sur laquelle il est enregistr. L'adresse a la forme nom@machine, cette boite aux lettres lui est rserve. Le protocole utilis sur Internet est SMTP. Ethernet Norme d'quipement utilise dans les rseaux locaux. Ce type de rseau peut supporter le protocole TCP/IP utilis par l'Internet un dbit nominal de 10 Mbps, trs rpandu dans le monde de la micro-informatique. Forums de discussion ("news group") Espaces de rencontre et de dialogue sur le Web. Ils sont classs par thmes et par pays (donc par langue). Les sujets de conversation sont trs varis, de l'aquariophilie au cinma d'art et d'essai, en passant par la bande dessine et la psychanalyse. Le principe de ces dialogues est simple et se rapproche de celui des Listes de Diffusion. Ils peuvent tre modrs ou non. Lorsqu'ils le sont, les interventions des abonns sont values et dposes sur le forum, uniquement si elles sont effectivement en rapport avec le thme de celui-ci. Fournisseur d'accs Internet Socit qui loue des connexions l'Internet et fournit les services associs ncessaires. On trouve galement souvent l'appellation ISP (Internet Service Provider). FTP (File Transfer Protocol) Ce service de !'Internet permet de tlcharger des fichiers. Il permet aussi de dposer (tl verser) des fichiers dans un site donn. Gopher 3 Systme distribu d'accs l'information conu l'Universit du Minnesota en 1991. Trs simple, on l'utilise surtout pour diffuser et consulter des documents. La prsentation et la navigation s'effectuent l'aide de menus. Il tend disparatre au profit du Web. . GUI Graphical User Interface - Interface utilisateur graphique. Home Page ou Page d'accueil Nom donn au document principal d'un site Web. Ce document constitue le document racine de l'arborescence de la base de donne du site. C'est aussi le nom donn au document de prsentation d'un utilisateur. En gnral ce document prsente le site, la socit ou la personne. C'est le point de dpart de la navigation dans la base de donnes du site. Hte (Host, Host computer, Host system) Ordinateur hbergeant un service Internet, dont un ordinateur client peut importer les donnes et les informations en s'y connectant. Plusieurs services peuvent rsider sur la mme machine hte (un serveur de courrier lectronique et un serveur Web par exemple). Inversement, plusieurs htes peuvent se partager l'hbergement d'un mme service, ncessitant d'importantes ressources machines. Tout ordinateur d'un rseau mettant des services la disposition des autres systmes du rseau. Il propose notamment les services de messagerie et un serveur Web. Dans !' Internet, il supporte les protocoles TCP/IP et possde une adresse Internet. HTML (HyperText Markup Language) Langage de marquage de documents. Ce langage offre une prsentation de l'information qui permet une lecture non linaire grce la prsence de liens smantiques activables dans les documents. C'est un sous-ensemble de SGML. HTTP (HyperText Transport Protocol) Protocole de transmission de documents hypermdias. Il est utilis pour transfrer des documents hypertextes ou des documents hypermdias entre un serveur et un client W3. Hypermdia Ce mot est form partir de "hypertexte" et de " multimdia". Il caractrise l'ensemble des techniques offrant la possibilit de lire ou produire des documents numriques contenant du texte, de l'image ou du son en passant de l'un l'autre par des liens hypertextes. Dans le W3, il s'agit de plus en plus d'hypermdia, bien que l'on parle souvent d'hypertexte. Hypertexte Prsentation de l'information permettant une lecture non linaire grce des liens smantiques activables dans les documents. Hytelnet Base de donnes mise jour rgulirement et constitue principalement de rfrences des sites Telnet et d'autres sites Internet. IMAP (Internet Message Access Protocol) Protocole d'accs aux messages Internet permettant l'accs aux messages E-mail et BBS se trouvant sur un Serveur de messagerie. Le protocole IMAP est un protocole d'accs concurrent au protocole POP. Ces deux protocoles sont particulirement utiles pour la lecture de son courrier partir d'un poste nomade connect au serveur par le biais d'un rseau public de transmission. Contrairement POP, IMAP permet de ne transfrer que les enttes des messages lors de la lecture de la boite aux lettres, tandis que POP transfre la totalit du contenu sur le poste local. Interface Dsigne la frontire travers laquelle deux systmes communiquent. Une interface peut-tre un connecteur matriel reliant deux quipements ou un ensemble de conventions utilises par deux systmes logiciels pour communiquer entre eux. ISP (Internet Service Provider.) Voir Fournisseur d'accs Internet INTERNET Rseau constitu par un ensemble de rseaux tlmatiques qui interconnectent la plupart des pays du monde. L'apport d'Internet par rapport d'autres rseaux est d'tre bas sur un protocole de communication TCP/IP indpendant du type de machine (Mac, PC, Unix,...), du systme d'exploitation et du support de transport physique utilis. De plus, Internet fonctionne de manire dcentralise: Son fonctionnement ne dpend ni d'administration ni d'ordinateur central. Un paquet d'informations peut aller d'un point un autre en empruntant potentiellement plusieurs chemins. Intranet Ce terme reprsente l'utilisation des protocoles et services Internet dans les rseaux internes des entreprises. IP (Internet Protocol, protocole Internet). Le protocole rseau que toute machine sur l'Internet utilise pour communiquer avec une autre. IRC (Internet Relay Chat) Service disponible sur l'Internet permettant la discussion plusieurs en temps rel avec d'autres personnes par change de messages textuels (de l'anglais "to chat", bavarder). LAN (Local Area Network) 4 Voir RESEAU LOCAL Lien hypertexte Zone activable d'un document hyper textuel permettant d'tablir une connexion entre des donnes ayant une relation de complmentarit entre elles, et ce, o qu'elles se trouvent dans l'Internet. Les termes " pointeur" et "marqueur" indiquent respectivement le lien hypertexte (pointeur) et la zone activable (marqueur). Listes de diffusion Appeles aussi listes de distribution : Ce sont des listes auxquelles on peut s'abonner gratuitement et qui vhiculent des informations par thme. Listserv Application qui supporte les changes entre un groupe de personnes qui possdent une adresse lectronique. Une liste peut tre prive ou publique, modre (i.e. tre "gre" par un modrateur ) ou non modre. Elle est utilise pour les discussions, mais aussi pour la livraison de journaux lectroniques. Majordomo est une application quivalente. Login Nom de connexion. Code d'accs unique qui identifie un utilisateur lorsqu'il accde un ordinateur. C'est aussi l'opration qui permet cet accs un ordinateur. MAN (Metropolitan Area Network) Rseau mtropolitain dont la taille est situe entre celle d'un rseau local LAN et celle d'un rseau longue distance WAN. Ce peut tre un rseau l'chelle d'un campus ou d'une ville. Mime (Multipurpose Internet Mail Extension) Standard utilis par la messagerie pour coder des fichiers binaires (son, images, programmes). L 'apport principal de MIME est le support du format 8 bits permettant l'envoi direct de tout type de document. Plus prcisment. MIME est dfini dans le RFC 1341. Les extensions MIME ont t faites pour corriger les limitations initiales de la messagerie Internet telles que dfinies dans le RFC 822 datant de 1982. En particulier ces extensions ont t faites pour tre indpendantes de la machine mettant, transmettant ou recevant le message. Elles permettent de prciser les attributs du message ou de certaines de ses parties comme le format et le type de contenu, le codage (7 bits, 8 bits, base 64...), mais aussi l'alphabet, la langue, la description.. Modrateur Personne qui se charge de filtrer les articles diffuss sur les News Groups ou Groupes de nouvelles dites "modres ". Mosaic C'est la premire interface graphique ou Navigateur qui a permis l'accs la plupart des applications qu'on retrouve dans le rseau Internet (www, Gopher, Telnet, FTP, News.) Des versions de Mosaic existent notamment en environnements X Window, Macintosh et Windows. Son auteur est un des fondateurs de Netscape. Moteur de recherche Outil de recherche d'information sur l'Internet. Ce terme est surtout utilis pour la recherche dans le Web. Exemple Voil, AltaVista, Yahoo, Multimdia Ensemble de techniques permettant d'utiliser des informations de type texte, image fixe, image anime et son sur un mme support numrique et interactif. Navigateur (browser) Programme qui sert d'interface entre l'utilisateur et le rseau. Ex: "Netscape Navigator" ou "Internet Explorer". News Nouvelles Usenet : ce sont des Forums de Discussion o chacun dpose des courriers (articles) par thme. Ces courriers sont conservs quelques jours et donnent lieu des discussions. Une hirarchie dans l'organisation des groupes permet d'identifier ceux qui existent sur les diffrentes thmatiques. Newsgroup A traduire par "Groupe de nouvelles" ou "Forum Usenet" utilisant gnralement le rseau l'Internet, dsigne un groupe de discussion sur un sujet particulier. Niveau application Niveau o une application, comme le courrier lectronique, Web ou Gopher, se ralise. Ce protocole applicatif se situe au- dessus de la couche de transport de l'information. NNTP (Network News Transfer Protocol) Protocole utilis par Usenet pour transfrer des fichiers de News d'un serveur l'autre. Nom de domaine Element d'une adresse lectronique qui permet de la classer en fonction de la localisation, de l'activit ou du nom du propritaire du domaine. Le top-level domain indique la localisation gographique du serveur lorsqu'il se compose de deux lettres (.fr pour la France,. uk pour l'Angleterre,. de pour l'allemagne, etc.). 5 Les entreprises ou les particuliers peuvent dposer un sous-domaine leur nom propre. Dans l'acception courante, on considre que dans les adresses "http ://www.uunet.fr" et "info@uunet.fr", le nom de domaine est "uunet.fr". On-line ou Off-Iine Se dit d'un ordinateur ou d'un service lorsqu'il est connect o dconnect du rseau. Oprateur Tlcom Dsigne une socit ou un organisme exploitant un grand rseau de tlcommunications. Exemple: AT&T, France Tlcom, Mercury... Paquet Petit ensemble de donnes faisant partie du transit d'une information travers un protocole de commutation par paquet, comme TCP/IP. Pare-feu (Firewall) Dispositif matriel et/ou logiciel qui contrle l'accs l'ensemble des ordinateurs d'un rseau partir d'un seul point d'entre. Le firewall est en gnral situ entre le rseau interne et le monde extrieur, dans une zone appele "zone dmilitarise". La premire fonctionnalit d'un garde barrire, est de filtrer les paquets qui transitent entre le rseau que l'on veut protger et les rseaux extrieurs. Ainsi certains paquets peuvent tre interdits de passage en fonction : - de l'adresse de la source ou de la destination du paquet, - du type de protocole (http, ftp, mail), - du type d'applicatif, - de l'heure et de la destination du paquet (accs interdit en dehors des heures ouvrables par exemple), - A cette fonction basique de filtrage peuvent tre associes des fonctions de scurit avances ; Telle la dtection de virus, le masquage des adresses IP du rseau protg ou encore l'tablissement de tunnels crypts associ un procd d'authentification. Passerelle Configuration matrielle ou logicielle assurant la communication entre deux protocoles distincts. Par exemple : dispositif assurant la communication entre un systme de courrier lectronique interne et le courrier lectronique Internet. La passerelle effectue les traductions ncessaires pour que les donnes soient reconnues par les diffrents systmes. Le terme passerelle (qui normalement ne dsigne que les quipements effectuant une traduction des protocoles au niveau 7 et au-dessous) est souvent utilis pour dsigner des quipements spcifiques d'interconnexion comme les Routeurs. Pointeur Chane de caractres qui permet d'indiquer de manire unique la localisation d'une ressource. Un URL est un pointeur permettant d'accder une ressource du Web. POP (Post Office Protocol) Protocole d'accs au Bureau de Poste. Protocole permettant l'accs aux messages E-mail et BBS se trouvant sur un serveur de messagerie. Le protocole POP est un protocole d'accs concurrent au protocole IMAP. Ces deux protocoles sont particulirement utiles pour la lecture de son courrier partir d'un poste nomade connect au serveur par le biais d'un rseau public de transmission. POP est plus ancien que IMAP et possde de moins riches fonctionnalits. Contrairement POP, IMAP permet de ne transfrer que les enttes des messages lors de la lecture de la boite aux lettres, tandis que POP transfre la totalit du contenu sur le poste local. Postmaster C'est la personne qui, sur un serveur de messagerie, est responsable du bon fonctionnement du service. Il est le destinataire de tous les messages d'information de ce serveur. Il existe en gnral un compte "Postmaster" sur tous les bons serveurs de messagerie. Proxy Nom donn un programme, une fonctionnalit ou un serveur qui agit en tant qu'intermdiaire dans un change d'information en effectuant un contrle le plus souvent li la scurit. Voir les deux types de Proxy : Proxy Gateway Type de dispositif pare-feu (Firewall) install entre deux rseaux et qui protge les ordinateurs d'un rseau interne contre les accs des utilisateurs extrieurs. C'est en gnral un programme install sur une Passerelle et qui bloque le passage direct des Paquets entre le client et le serveur et n'autorise le passage que de certains paquets. On parle aussi de relais applicatif, de machine bastion dans un sous-rseau dmilitaris. La plupart des Navigateurs peuvent tre configurs pour utiliser les services d'une passerelle Proxy, c'est d'ailleurs dans certains rseaux scuriss la seule faon pour accder des documents se trouvant l'extrieur du rseau local ( condition encore qu'il existe aussi une passerelle avec l'Internet). Les navigateurs peuvent tre configurs en fonction de la mthode d'accs (protocole) FTP, Gopher, Wais, News et HTTP. Proxy Server Programme qui fournit un Cache pour des lments prsents sur d'autres serveurs qui sont soit prsums trop lents, soit loigns ou coteux d'accs. Ce terme est utilis tout particulirement dans le cadre du www. Un serveur qui reoit une requte demandant un URL l'extrieur : vrifie s'il n'a pas trs rcemment rpondu une requte identique. 6 - dans le cas o la page a t stocke dans son cache, il lui suffit alors d'extraire la page correspondante du cache pour la transmettre au client qui lui en a fait la demande. (Cela se traduit par un gain en temps de rponse, et ventuellement en cot si le transfert en provenance du serveur original se traduit par des dpenses rseaux particulires). - dans le cas o la page n'est pas dans le cache, le serveur Proxy transmet la requte vers le serveur hbergeant l'URL demand puis transmet le rsultat de la requte de l'URL au demandeur. Bien videmment, le cache ne garde les documents qu'un temps dtermin, contrl par un algorithme en fonction de leur date d'entre, taille et historique d'accs. La notion de serveur Proxy est comparer la notion de passerelle Proxy. ppp Point to Point Protocol. Protocole qui permet d'avoir accs aux fonctions du protocole IP partir d'un modem et d'une ligne tlphonique conventionnelle. Le protocole Slip offre un service quivalent. Protocole Ensemble de rgles qui dfinissent les modalits de fonctionnement d'une communication entre deux ordinateurs. Ou encore, mthode formelle de disposition des messages et des rgles que doivent respecter obligatoirement deux ordinateurs ou plus pour changer de tels messages. Protocole ISO Protocole dont les normes sont reconnues par l'ISO : International Standard Organisation (organisation qui s'occupe des standards au niveau international). Real Audio C'est une technique qui permet la transmission et le rendu de plages sonores sur Internet en temps rel. RESEAU LOCAL (LAN -Local Area Network) Systme de communication mettant en relation permanente par des cbles plusieurs quipements informatiques (micro- ordinateurs, stations de travail, imprimantes et autres priphriques) grande vitesse sur une courte distance (souvent un tage ou un immeuble au plus un ensemble de btiments situs sur un domaine priv). Il se dfinit par son systme de cblage, sa vitesse, sa mthode d'accs et son logiciel de gestion. Les deux principales familles de rseaux locaux sont Ethernet et l'anneau jeton (Token Ring). RFC (Request for Comments) Les RFC sont les documents servant la dfinition de standards dans !'Internet. Il en existe aujourd'hui plus de 2000. RNIS Rseau Numrique Intgration de Services. Rseau informatique et tlphonique Numris qui offre des dbits par canal de 64 Kbps. Il ncessite un abonnement particulier. Routeur Dispositif qui dirige vers un chemin ou un autre les paquets d'informations qui voyagent entre les rseaux. Il reoit et retransmet des paquets de donnes entre diffrents segments d'un mme rseau ou de rseaux diffrents. Service en ligne Service permettant d'accder, par abonnement et partir d'un ordinateur, une information ou de raliser une transaction distance. Un service en ligne peut tre accessible pour le particulier par l'intermdiaire de sa ligne tlphonique. Ces services offrent le plus souvent une passerelle vers l'Internet. Serveur Ordinateur reli au rseau et apparaissant comme fournisseur d'informations. Combinaison matrielle et logicielle assurant la prestation de services spcifiques d'autres ordinateurs. Un seul serveur peut exploiter diffrents logiciels, offrant ainsi autant de services diffrents aux clients du rseau. Le client consommateur peut tre un usager, un ordinateur ou un autre logiciel. Serveur Web Systme informatique excutant le logiciel qui permet d'accepter des requtes utilisant le protocole d'application HTTP et servant crer des sites Web ou hberger des pages d'accueil personnalises. Shareware/Partagiciel Logiciel utilisable volont selon les conditions nonces en change d'une somme d'argent verse l'auteur. Il peut souvent tre utilis gratuitement pendant une priode d'valuation. SGML (Standard Generalized Markup Language) Norme la plus rpandue de marquage de documents. HTML en est un sous-ensemble spcifique pour le marquage de documents hypertextes. SLIP (Serial Line Internet Protocol) Protocole qui permet d'avoir accs aux fonctions du protocole IP partir d'un modem et d'une ligne tlphonique conventionnelle. Le protocole PPP offre un quivalant plus complet. SMTP (Simple Mail Transfer Protocol) Protocole utilis pour changer les messages entre les diffrents systmes de messagerie qu'on retrouve sur les ordinateurs dans l'Internet. 7 TCP/IP (Transmission Control Protocol over Internet Protocol) N dans le milieu de la recherche militaire aux Etats-Unis, ensemble de protocoles qui rendent possible l'change d'information entre une grande varit d'ordinateurs. Il repose sur la transmission par Paquet. Tlcharger Effectuer le tlchargement d'une copie des donnes choisies par l'internaute d'un ordinateur un autre en utilisant gnralement le protocole FTP. Telnet Application qui supporte les sessions de connexion distance en mode terminal travers un rseau TCP/IP. URL (Uniform Resource Locator) Syntaxe utilise par www pour spcifier la localisation physique d'un fichier ou d'une ressource sur l'Internet. C'est en quelque sorte le descripteur du chemin d'accs une ressource du Web. Usenet (Unix User Network) Rseau des ordinateurs, transfrant entre eux les fichiers de News. Usenet n'est pas l'Internet, mme si aujourd'hui les deux rseaux sont fortement imbriqus. VERONICA Application qui permet de procder des recherches par mot-cl dans les menus des serveurs de type Gopher Vrification Saisie des donnes relatives la scurit d'un rseau. Les programmes de vrification servent enregistrer les vnements, identifier les attaques du rseau et s'assurer que le dispositif de scurit du rseau fonctionne efficacement. Visioconfrence La visioconfrence est une technologie qui permet, depuis un micro-ordinateur, d'changer avec un interlocuteur distant et de le voir en temps rel dans une fentre virtuelle l'cran. Une application de cette technologie est le travail en commun sur des documents. Tout dispositif de visioconfrence se compose d'une camra vido, d'un microphone/couteur et de cartes d'extension, pour la vido et la communication. Les changes peuvent se drouler point point ou en mode multipoints. Virus Programme informatique parasite capable d'altrer parfois de faon irrversible le fonctionnement d'autres programmes. Les virus sont transmissibles par lecture de disquettes ou CD contamins, et par communication en ligne. WAIS (Wide Area Information Server) Ensemble de logiciels qui permet de crer et d'interroger des bases de donnes indexes appeles bases Wais, et de rendre ces bases accessibles via l'Internet. Ce systme supporte la recherche d'information en mode plein texte dans des banques de documents. WAN (Wide Area Network) En franais : Rseau Longue Distance, c'est dire qui va au-del d'un site industriel ou commercial (dans ce cas on parle de LAN, au-del d'un campus ou d'une ville (dans ce cas on parle le plus souvent de MAN. Les WAN font appel l'infrastructure et aux services d'un ou plusieurs Oprateur Tlcom et peuvent s'tendre sur plusieurs pays. Web En franais, toile d'araigne : symbolise le rseau maill de serveurs d'informations formant une toile d'araigne. Ces serveurs vont des pages personnelles aux interface s vers des bases de donnes. Par extension on parle de Web pour un serveur de documents HTML. Webmaster Nom attribu une personne qui s'occupe d'un Serveur Web. www (World Wide Web) Systme distribu d'accs l'information qui s'appuie sur les principes de l'hypertexte et qui supporte les documents multimdias. Pour en savoir plus vous pouvez consulter le site du Consortium W3 : http://www.W3C.org Etant donn que le sigle WWW (en anglais) perd ses connotations culturelles en franais, l'Office de la langue franaise recommande l'utilisation de "W3" pour des raisons phontiques. Certains auteurs prfrent l'appeler "la Toile". ZIP Fichiers obtenus aprs compression par le logiciel PKzip (extension .ZIP).
Annexe II A n n e x e
I
I
1
Extension classiques (TLDs Top-Level Domains ).
.com Usage caractre conomique et commercial. [Entreprises et socits ] .org Usage rserv aux organisations caractre non commercial et aux associations but non lucratif. .net Usage rserv aux organisations offrant des services Internet ou de tlphonie une trs grande chelle. .edu Usage caractre ducatif. [coles prives et publiques, lyces et universits] .int Rserv un usage international. .mil Usage rserv aux forces militaires US .gov Usage rserv aux institutions gouvernementales US .arpa Proprit de l'ARPA (Advanced Research Project Agency). Nouvelles Extension (TLDs Top-Level Domains ). .biz [JV Team/Neustar.com, USA] .info [Afilias/Skadden Arps, USA] .name [The Global Name Registry Ltd, UK] .eu [Europe] .aero [SITA, Genve] .coop [National Coop. Business Association, USA] .museum [Swedish Museum & Getty Museum, USA] .pro [RegistryPro, Ltd/Hayes & Curran, Ireland]
Glossaire des Acronymes et institutions reprsentatives de lInternet
Acronym Explanation More Information ACP Administrative Challenge Panels http://www.gtld- mou.org/docs/tracps.htm http://www.gtld- mou.org/docs/dispute.html ADR Alternative Dispute Resolution http://www.gtld- mou.org/docs/dispute.html AFA Association des Fournisseurs d'Acces Internet (French Access Providers Association) http://www.afa-france.com AFNIC (NIC- France) Association Franaise pour le Nommage Internet en Coopration http://www.nic.fr AfriNIC African NIC http://www.afrinic.org AFTLD African ccTLDs http://www.wwtld.org/aftld.txt AIRA American Internet Registrants Association http://www.aira.org APRAM Association des Practiciens en Droits des Marques et des Modles - APTLD Council of the Asia Pacific country code Top Level Domains http://www.aptld.org APNG Asia Pacific Networking Group (APNG)
http://www.apng.org APNIC Asia-Pacific Network Information Center http://www.apnic.net ARIN American Registry for Internet Numbers. http://www.arin.net ARPA Advanced Research Projects Agency (See also DARPA) http://www.darpa.mil BIND Berkeley Internet Name Domain http://www.isc.org/bind.html CABASE Camara Argentina de Internet, el Comercio Electrnico, los Contenidos y Servicios On Line http://www.cabase.org.ar ANNEXE II : Noms de domaine et glossaire des Acronymes et institutions reprsentatives de lInternet
2 Acronym Explanation More Information CAIP Canadian Association of Internet Providers http://www.caip.ca CDT Center for Democracy and Technology http://www.cdt.org CENTR Council of European National Top level domain Registries http://www.centr.org CIGREF Club Informatique des Grandes Entreprises Franaises http://www.cigref.fr CIX Commercial Internet Exchange http://www.cix.org CNRI Corporation for National Research Initiatives http://www.cnri.reston.va.us CORE Council of Registrars http://www.corenic.org CORE-MoU Council of Registrars Memorandum of Understanding http://www.gtld- mou.org/docs/core-mou.htm DARPA Defense Advanced Research Projects Agency http://www.darpa.mil DNS Domain Name System - DOC US Department of Commerce http://www.doc.gov EC European Commission/European Community http://www.eu.int ECTA European Communities Trade Mark Association http://www.ecta.org eCOMLAC Federacion Latinoamericana y del Caribe para Internet y el Comercio Electronico http://www.ecom-lac.org ENRED Foro Latinoamericano de Redes http://www.reuna.cl/vi-foro/ ETNO European Public Telecommunications Network Operators Association http://www.etno.be ETSI European Telecommunications Standards Institute http://www.etsi.fr http://www.etsi.org EuroInternet European Internet Business Association http://www.eurointernet.org EuroISPA European Internet Services Provider Associations http://www.euroispa.org FCC US Federal Communications Commission http://www.fcc.gov gTLD generic Top Level Domain (not associated with country code) - gTLD-MoU Generic Top Level Domain Memorandum of Understanding http://www.gtld-mou.org IAB Internet Architecture Board http://www.iab.org/iab IAHC International Ad Hoc Committee http://www.iahc.org IANA Internet Assigned Numbers Authority http://www.iana.org ICANN Internet Corporation for Assigned Names and Numbers http://www.icann.org ICC International Chamber of Commerce http://www.iccwbo.org IETF Internet Engineering Task Force http://www.ietf.org IESG Internet Engineering Steering Group http://www.ietf.org/iesg.html INTA International Trademark Association http://www.inta.org IOPS.ORG Group of commercial Internet Service Providers http://www.iops.org iPOC gTLD-MoU Interim Policy Oversight Committee http://www.gtld-mou.org ISA Interactive Services Association http://www.isa.net ISO International Organization for Standardization http://www.iso.ch ISOC Internet Society http://www.isoc.org ISP Internet Service Provider - ISPA-uk Internet Services Providers Association of the UK http://www.ispa.org.uk/ ITAA Information Technology Association of America http://www.itaa.org
3 Acronym Explanation More Information ITU International Telecommunication Union http://www.itu.int LACTLD Latin American and Caribbean ccTLDs http://www.lactld.org MARQUES Association of European Brand Owners http://www.martex.co.uk/marques/ MoU Memorandum of Understanding - MPAA Motion Picture Association of America http://www.mpaa.org NANC North American Numbering Council - NANP North American Numbering Plan - NIC Network Information Center - NSF US National Science Foundation http://www.nsf.gov NSI Network Solutions, Inc. http://www.netsol.com NSI Registrar The initial Registry-Registrars functions of the NSI has been splitted into two names: NSI Registry and NSI Registrar. http://www.netsol.com VeriSign Global Registry Services Sep 2000: the name "NSI Registry" has been changed to "VeriSign Global Registry Services" http://www.netsol.com NTIA US National Telecommunications and Information Agency http://www.ntia.doc.gov OECD Organization for Economic Co-operation and Development http://www.oecd.org PAB gTLD-MoU Policy Advisory Body http://www.gtld-mou.org POC gTLD-MoU Policy Oversight Committee http://www.gtld-mou.org RFC Request for Comments - RIPE Rseaux IP Europens http://www.ripe.net SRS Shared Registratry System http://www.gtld- mou.org/press/core-1.htm TCP/IP Transmission Control Protocol/Internet Protocol - TLD Top Level Domain - URL Uniform Resource Locator - USPTO United States Patent and Trademark Office http://www.uspto.gov WIPO World Intellectual Property Organization http://www.wipo.int WTO World Trade Organization http://www.wto.org WWTLD World-wide Alliance of Top Level Domains http://www.wwtld.org
Pour en savoir plus, voici une liste de liens qui peuvent tre utiles (par catgorie) : ICANN et la gouvernance de l'Internet ICANN - "Internet Corporation for Assigned Names and Numbers" http://www.icann.org/ IANA - "Internet Assigned Numbers Authority" http://www.iana.org/ DNSO - "Domain Name Supporting Organization" http://www.dnso.org/ ASO - "Address Supporting Organization" http://www.aso.icann.org/ PSO - "Protocol Supporting Organization" http://www.pso.icann.org/ GAC - "Governmental Advisory Committee" http://www.noie.gov.au/projects/international/DNS/gac/index.htm
4 Organismes coordonnant l'adressage et le routage RIPE - "Reseaux IP Europens" http://www.ripe.net/ APNIC - "Asie Pacific NIC" http://www.apnic.net/ ARIN - "American Registry for Internet Numbers" http://www.arin.net/ Organismes de standardisation IETF - "Internet Engineering Task Force" http://www.ietf.org/ W3C - "World Wide Web" http://www.w3c.org/ ITU - "International Telecom Union" http://www.itu.org/ ETSI - "European Telecommunications Standards Institute" http://www.etsi.org/ IAB - "Internet Architecture Board" http://www.iab.org/ ISOC - "Internet Society" http://www.isoc.org/ Organisme international WIPO - "Word Intellectual Property Organization"" http://www.wipo.org/ Organismes europens ISPO - "Information Society Promotion Office - European Internet Forum" http://www.ispo.cec.br/eif/ EUROPA - "European Union" http://www.europa.eu.int/ Organismes rgionaux CENTR - "Council of European National Top level domain Registries" http://www.centr.org/ AFTLD - "African Top Level Domains" http://www.aftld.org/ APTLD - "Asia-Pacific Top Level Domain forum" http://www.aptld.org/ LACTLD - "Latin American & Caribbean Country Code Top Level Organization" http://www.lactld.org/ NATLD - "North American Top Level Domain Organization" http://www.natld.org/ Collges du DNSO collge "ccTLD Registries" du DNSO http://www.wwtld.org/ collge "business" du DNSO http://www.bcdnso.org/ collge "gTLD Registries" du DNSO http://www.gtldregistries.org/ collge "ISP and connectivity Providers" du DNSO http://www.dnso.org/constituency/ispcp/ispcp.html/
5 collge "Non commercial domain name holders" du DNSO http://www.ncdnhc.org/ collge "Registrars" du DNSO http://www.dnso.org/constituency/registrars/registrars.html/ collge "Intellectual property" du DNSO http://ipc.songbird.com/ Registre du ".ch" SWITCH http://www.nic.ch/ Registre de ".com" ".org" ".net" InterNic http://www.internic.net/ Liste officielle des administrateurs des 240 ccTLD (codes ISO ".de" ".fr" ...) IANA - Root zone http://www.iana.org/cctld/cctld-whois.htm Autres Analyses http://www.icannwatch.org http://www.civilsocietyinternetforum.org http://www.cpsr.org/dns/index.html http://www.cdt.org/dns/icann/elections
Unit de Recherche et Innovation Institut de lInformation Scientifique et Technique Centre National de la Recherche Scientifique polanco@inist.fr
La Fouille de Donnes Textuelles (FDT), cest--dire le Text-Mining (TM), est ici prsente par rapport l'Intelligence Economique (IE). Lintelligence cycle (Pinkerton, 1994) implique la conversion de linformation primaire (en anglais raw information) en information utile l'entreprise. Dans la mesure o cette information primaire se trouve sous la forme de documents, de donnes textuelles, et qu'il s'agit de la transformer en connaissance, la FDT apparat pour la competitive intelligence ou intelligence conomique comme le moyen adquat pour accomplir cette tche essentielle. Ce texte prsente d'abord ce que la FDT reprsente aujourd'hui, pour ensuite conclure avec quelques remarques sur ses perspectives.
INTRODUCTION
Largumentation industrielle ou commerciale en faveur du text mining dans le contexte de lintelligence conomique est souvent base sur le fait qu'un pourcentage assez important de l'information traiter par les entreprises, en vue de la prise de dcisions stratgiques, est de nature textuelle.
Le World Wide Web est encore une autre raison en faveur de lintrt pour le text mining. En effet, avec le Web les donnes non structures (telles que le texte) sont devenues le type prdominant de donnes en ligne. Dans ce cadre, linformation utile ne se trouve pas tre explicite comme dans une base des donnes de type relationnel, mais implicite au sens o elle est enfouie dans les textes, do la mtaphore de la fouille (ou en anglais mining) : le systme doit extraire l'information qui a t encode dans le texte par son auteur.
Souvent la veille technologique et lintelligence conomique sont prsentes comme des activits connexes ou bien similaires sinon synonymes. Ce fait permet d'tendre l'apport de la fouille de donnes textuelles au domaine de la veille technologique et scientifique, dans la mesure o l'information scientifique et technique est de nature textuelle tels que les articles scientifiques, la documentation technique et les brevets.
ANNEXE III : TEXT MINING ET INTELLIGENCE ECONOMIQUE AUJOURDHUI ET DEMAIN
2
PRESENTATION
Cette prsentation s'adresse aux praticiens de la veille et de l'intelligence conomique. Son objectif est de montrer ce que la fouille des donnes textuelles reprsente. Elle peut galement tre tendue aux praticiens des tudes quantitatives de la science et de la technologie, notamment ceux pour qui la science est analyse au travers des publications et la technologie au travers des brevets. Les publications scientifiques et les brevets sont des donnes textuelles dont s'occupe justement le text mining.
Plan :
1. Data Mining et Text Mining 2. Architecture et systme 3. Techniques et mthodes 4. Traitement linguistique 5. Structure de classification 6. Extraction de rgles d'association
Chaque item de ce plan de prsentation sera dvelopp avec le souci de fournir une information synthtique sans chercher dvelopper une vritable argumentation technique. L'ambition est de fournir l'information ncessaire pour se faire une vision de la fouille de donnes textuelles.
1 - Data Mining et Text Mining
Commenons par la distinction entre data mining et text mining cest--dire entre fouille des donnes et fouille de donnes textuelles.
Le but de la fouille de donnes a t dfinie comme "the non trivial extraction of implicit, previously unknown, and potentially useful information from given data" (Frawley et al, 1991, p. 1-27, cit in Feldman, 1998, p. 65). Ou encore : "The non trivial process of identifying valid, novel, potentially useful, and ultimately understable patterns in data" (Fayyad et al., 1999).
Historiquement, le data mining est la base du text mining au sens o celui-ci est lextension du mme but et du mme processus vers des donnes textuelles. La distinction est donc fonde son origine principalement sur la nature des donnes auxquelles s'adressent l'une et l'autre, d'une part des donnes numriques et factuelles, et d'autre part des donnes textuelles. Un autre lment de distinction est l'tat de structuration des donnes. En gnral le data mining travaille sur des donnes structures et stockes dans des bases de donnes
3 relationnelles. En revanche, le text mining travaille sur des donnes textuelles non structures (Feldman et al., 1998a et 1998b; Landau et al., 1998).
Le text mining se distingue du data mining galement par les moyens techniques spcifiques qu'il le faut employer pour traiter les donnes textuelles et non structures.
Une dfinition gnrale du text mining est la suivante : l'extraction d'information partir des formes ou patrons non manifestes (au sens de hidden patterns) dans des grands corpus de textes. Autrement dit, l'objectif est le traitement de grandes quantits d'information qui sont disponibles sous une forme textuelle et non structure. (Feldman et al., 1998a ; Landau et al., 1998).
Lintelligence conomique est sense assurer aux acteurs conomiques une information exploitable et utile, dans la mesure o cette information est textuelle (notes, lettres, rapports techniques, articles scientifiques, brevets, etc.), l'intrt que le text mining peut reprsenter pour l'intelligence conomique vis--vis du simple data mining est alors vident.
2 Architecture et systme
Considrons maintenant les principaux outils composants dun systme de fouille de textes en gnral. Ici on se limite l'esquisse d'une architecture gnrale et abstraite. L'important est de savoir que chacun de ces outils est indispensable pour mener bien une opration de fouille de donnes textuelles.
1. Un outil d'accs et collecte des donnes 2. Un outil d'ingnierie du document 3. Un outil d'ingnierie du langage crit 4. Un outil de fouille (ou mining tool) 5. Un outil de visualisation
La thorie, les mthodes et les techniques appliques l'occasion de la conception et du dveloppement de chacun de ces cinq outils, leur donnant ainsi une ralit technologique particulire, ce sont des lments tenir en compte. On voit donc que les systmes de fouille de donnes textuelles sont des systmes complexes runissant des comptences diverses.
L'outil d'accs et de collecte des donnes textuelles doit tre capable d'oprer aussi bien partir du Web sur de documents HTML, que sur des bases de donnes soit bibliographiques soit textuelles au sens du texte plein (ou full-text). L'outil d'ingnierie du document sert la gestion et le traitement des documents qui sont sous la forme de donnes htrognes et sans structure fixe, dites donnes semi-structures (DSS), afin de leur appliquer un formalisme du type SGML ou XML et raliser ainsi l'tiquetage de leurs attributs (par exemple, la date, le titre, les auteurs, la source, le corps du texte, et l'ensemble de termes caractrisant le document). L'outil d'ingnierie linguistique est destin au traitement du langage crit pour l'extraction de termes et l'indexation automatique des documents, mais aussi pour la gestion
4 de ressources terminologiques telles que thesaurus, vocabulaires d'indexation, bases de termes, etc. L'outil de fouille de textes ralise la fonction gnrale de l'acquisition de connaissances partir des donnes textuelles qui ont t collectes, formates et indexes pralablement. Et enfin, l'outil de visualisation doit fournir l'utilisateur les moyens hypertexte et graphiques pour explorer et analyser les rsultats.
Les proprits interactives et itratives de cette architecture s'avrent tre d'une extrme importance dans la fouille de textes comme dans tout autre systme destin l'analyse de l'information, o l'intervention des experts du domaine est ncessaire, et les retours en arrire dans le processus sont des dcisions frquentes. D'o la ncessit d'une architecture informatique modulaire et flexible du systme.
Cette prsentation va par la suite se concentrer (ci-dessous sections 4, 5 et 6) sur la nature des outils [3] et surtout [4], parce quils reprsentent les lments les plus spcifiques dun systme de fouille des donnes textuelles.
Quant aux produits commerciaux de fouille de donnes ou data mining, une remarque gnrale est qu'ils ne sont au fond que des outils statistiques (Ultsch, 1999) : "The terms Data Mining and Knowledge Discovery are often used in those systems in an inflationary way for statistical tools enhanced with a fancy visualization interface. The difference between exploratory statistical analysis and Data Mining lies in the aim which is sought. Data Mining aims at Knowledge Discovery". Un systme de data mining ne se rduit pas un simple outil d'analyse statistique des donnes. L'intention finale de la fouille des donnes est donc l'extraction de connaissance (en anglais knowledge discovery).
3 Techniques et mthodes trs diverses
Selon l'appel au Text Mining Workshop de l'International Joint Conference on Artificial Intelligence (IJCAI 99), http://ijcai.org/, les techniques utilises par le text mining sont celles de la fouille des donnes (ou data mining), de l'apprentissage automatique, de la recherche d'information, de la comprhension du langage naturel, du raisonnement partir de cas, des statistiques, et enfin de la gestion de connaissances. Le but tant d'aider les personnes obtenir de la connaissance partir de grandes quantits de textes semi-structurs.
Comme le montre Text Mining Workshop IJCAI 99, la fouille de donnes textuelles est un terme recouvrant des activits trs diverses. Selon Toussaint, Simon et Cherfi (2000), une premire diffrence entre les mthodes vient des donnes qui sont fournies l'algorithme de fouille et de la qualit de ces donnes selon la capacit des algorithmes prendre en compte des donnes de qualit "infrieure". Le second aspect de diffrenciation porte sur l'algorithme de fouille, sur le type de donnes qui sont fournies l'utilisateur final, qui, dans tous les cas, doit tre un expert.
Nous avons vu ci-dessus, dans la section 1, que le texte mining se distingue du data mining par les moyens techniques qu'il le faut employer pour traiter les donnes textuelles. Ces donnes sont des textes et aussi des donnes non structures ou semi-structures. De l donc deux tches : traiter automatiquement le langage naturel dans sa forme crite, manipuler des
5 donnes non structures ou semi-structures. Lesquelles demandent des outils spcialement adapts.
Au sujet du problme de la manipulation de donnes semi-structure (DSS), Al Hulou, Napoli et Nauer (2000) analysent comment le langage de description de documents XML, avec les outils qui lui sont associs et l'essor qu'il connat, peut servir comme un formalisme de reprsentation intermdiaire entre DSS et reprsentation de connaissances par objet (RCO). Comme il a t dit plus haut, l'intention finale de la fouille de donnes textuelles est l'extraction de connaissances, d'o le besoin galement d'un systme de reprsentation de connaissances et de raisonnement (tre capable de faire des infrences).
4 - Traitement linguistique
La capacit traiter automatiquement le langage crit apparat comme une tape importante de la fouille de donnes textuelles. La plupart des systmes ont relay au second plan les donnes issues de l'indexation manuelle et exploitent les rsultats d'une indexation automatique.
Lapproche dingnierie linguistique est la suivante. En entre des donnes textuelles que lon doit soumettre un traitement permettant lextraction automatique dlments linguistique plus complexes que des simples mots. L'tiquetage des textes (ou tagging), lassignation automatique de catgories morpho-syntaxiques telles que le nom, le verbe, l'adjectif, etc., aux mots du document, et la lemmatisation, sont les tapes de ce traitement. Ensuite vient la phase de lextraction de termes partir des textes tiquets, laquelle est suivie dune phase de filtrage. Ce filtrage est gnralement statistique et il consiste en calculer un score aux termes. Les termes sont slectionns en fonction de leur score. Seulement les termes ayant un score suprieur un seuil dtermin sont slectionns comme candidats pour lindexation de documents.
L'indexation des documents peut se faire avec les termes que l'on obtient soit par une extraction fonde sur de patrons syntaxiques, soit partir d'un rfrentiel terminologique, tel qu'un thesaurus, et de mta-rgles de variation. Toussaint, Simon et Cherfi (2000) utilisent cette dernire mthode. Feldman et ses collgues (1998b) utilisent la premire approche.
Les expriences prouvent que lapproche linguistique assure une meilleure performance des algorithmes de fouille. Dans l'article "Text Mining at the Term Level", Feldman et ses collgues (1998b) montrent l'intrt de travailler au niveau du terme et non du mot. Ainsi ils dsignent leur systme comme un "term-based text mining system".
La capacit manipuler de donnes semi-structures, l'exploitation d'une indexation automatique fonde sur une analyse morphologique et syntaxique des textes sont des conditions pralables et ncessaires mais pas suffisantes. Pour que la fouille proprement parler se ralise, il faut encore l'application d'algorithmes capables de construire une structure classificatoire (taxonomie) et d'effectuer lextraction de rgles d'association
6 Passons donc ce que l'on peut considrer comme le cur du processus de la fouille de donnes textuelles.
5 Structure de classification
La ncessit d'une taxonomie est une question cruciale pour la fouille de textes. La taxonomie est construite dans le but de structurer lensemble de termes hirarchiquement. Une telle structure classificatoire est importante pour la plupart d'algorithmes de fouille de textes. Le systme doit donc disposer dun moyen de construction de la taxonomie en question.
Ainsi par exemple Simon (2000) montre que la thorie des treillis de Galois permet de produire la fois un outil de classification hirarchique et un outil de construction de rgles dassociation. Toussaint, Simon et Cherfi (2000) proposent une mthode de fouille de donnes fonde sur les treilles de Galois et sur l'extraction de rgles d'association en vue d'aider des experts dans leur tche de veille scientifique. Rappelons au passage que les treilles de Galois sont connus aussi sous l'appellation de conceptual clustering. Les treillis de Galois oprent avec les notions d'intension et d'extension et la relation de subsomption. Un treillis de Galois permet la construction des deux types de structures propres la fouille de donnes textuelles : [1] une structure de classification qui regroupe les documents en fonction des termes qui leurs sont associs et rciproquement ; [2] l'extraction de rgles d'association entre les termes associs aux documents.
Quelle qu'elle soit la mthode de construction de cette taxonomie, il est important de noter que chaque nud reprsente un concept. Dans le cas dune taxonomie fonde sur le treillis de Galois : chaque lment du treillis est considr comme un concept formel et le graphe (diagramme de Hasse) comme une relation de gnralisation/spcialisation entre les concepts. Le treillis est donc peru comme une hirarchie de concepts. Chaque concept est une paire compose dune extension reprsentant un sous-ensemble des instances de lapplication et dune intention reprsentant les proprits communes aux instances (Godin et al. 1995).
L'aspect pragmatique de la taxonomie. Elle permet l'utilisateur de dfinir les tches de fouille d'une manire concise. Ceci suppose une interface de visualisation graphique et de navigation dans la structure classificatoire (taxonomie) et les rgles d'association obtenues et d'observer le type de relation existant entre les termes participant une rgle.
Un exemple (Feldman et al., 1998) : "the user can specify interest only in the relationships of companies in the context of business alliances. In order to do so, we need two nodes in the term taxonomy marked business alliances and companies. The first node contains all terms related to alliance such as joint venture, strategic alliance, combined initiative etc., while the second node is the parent of all company names".
La construction de cette structure classificatoire permet de mettre en vidence les concepts potentiellement intressants pour lanalyste. De plus, elle permet lextraction de rgles dassociation.
7
6 - Extraction de rgles dassociation
Les rgles d'association ont t prsentes en 1993 par R. Agrawal, T. Imielinski et A. Swani dans leur article "Mining Association Rules between Sets of Items in Large Databases". La signification intuitive d'une rgle d'association X = > Y, o X et Y sont des ensembles d'items, est qu'une transaction contenant X est susceptible de contenir galement Y (Agrawal et al. 1996). L'application type est l'analyse des donnes du panier de supermarch, o des rgles, comme celle-ci, par exemple, "34% de tous les clients qui achtent de poissons galement achtent du vin blanc", peuvent tre trouves. Les rgles d'association s'avrent par ailleurs tre tout fait utiles dans des applications conomiques.
Les rgles d'association peuvent tre calcules soit par l'algorithme d'Agrawal, comme c'est le cas dans Feldman (1998b) ; soit partir des treillis de Galois comme le propose Simon (2000) et le font Toussaint, Simon, Cherfi (2000). Ce second approche est tout rcent et il est encore au niveau de la recherche (au sein de l'quipe Orpailleur du LORIA Nancy) - http://www.loria.fr
Les rgles d'association extraient des patrons partir des donnes du type [ jus de raisin => chromatographie ] : celle-ci montre que dans le corpus analys, les documents s'intressant au jus de raisin le font systmatiquement en rapport avec la chromatographie ; [ histamine => amine biogne ] : l'histamine est une amine biogne qui est tout particulirement tudie dans le corpus par sa toxicit dans les aliments.
Lors de la phase d'interprtation, il est indispensable de disposer d'un outil de visualisation et navigation.
PERSPECTIVES
La nouvelle conomie et avec elle la gestion croissante de connaissances dans la vie des organisations sont des facteurs dfinissant un nouvel horizon pour la veille et l'intelligence conomique, mais aussi pour la bibliomtrie qui les est associe. Dans ce nouveau contexte, la demande de fouille de donnes textuelles de la part de la veille et de l'intelligence conomique ne peut que s'accrotre. Si cette demande se dveloppe, elle devra en exercer un effet d'orientation sur la recherche dans le domaine de la fouille de donnes textuelles et sur la mise au point de systmes viables. Ceci pose le problme de savoir quel est l'tat de l'offre du ct de la fouille de donnes textuelles.
Notre prsentation a voulu montrer succinctement ce que reprsente un systme de fouille de donnes textuelles (section 2), la diversit de disciplines et mthodes que la fouille de donnes textuelles mobilise (section 3), et puis l'tat actuel de la fouille de donnes textuelles sur le plan de l'ingnierie linguistique (section 4 ) et de l'ingnierie de la connaissance (section 5 et 6). Pour lanalyse des perspectives de la fouille de donnes textuelles, il est ncessaire de tenir en compte les sections 2 et 3, autrement dit le fait de son appartenance un rseau
8 multidisciplinaire et dans lequel elle devra voluer suivant une fertilisation croise. Tenir compte galement de ce que nous avons voqu dans les sections 4, 5 et 6 reconnaissant les deux dernires comme le noyau propre ou strictement spcifique de la fouille de donnes textuelles.
L'volution de la fouille de donnes textuelles est ainsi lie un ensemble de disciplines informatiques dont le souci principal est de savoir comment traiter l'aide des ordinateurs les contenus de l'information et leur conversion en connaissances. Admettons de les grouper sous le label commun de technologies de lintelligence. Ces domaines de recherche seraient les suivants :
Extraction dinformation (Cowie et Lehnert, 1996). Traitement automatique du langage naturel. Visualisation de linformation (Card et al., 1999). Recherche dinformation mais dans sa nouvelle de version de modern information retrieval (Baeza-Yates et Ribeiro-Neto, 1999). Gestion de connaissances (O'Leary, 1998).
Ce cluster de recherches constitue le voisinage de la fouille des donnes textuelles, laquelle appartient en propre au cluster noyau form par :
Fouille de donnes (Data Mining) Fouille de donnes de la Toile (Web Mining ou Internet Data Mining) Fouille de donnes textuelles (Text Mining) Extraction de connaissances (Knowledge Discovery in Databases)
Dans ce rseau scientifique et technologique, l'avenir de la relation entre la fouille des textes et la veille et l'intelligence conomique est en train de se construire.
AVERTISSEMENT
Ce document est exclusivement destin aux participants du colloque Veille technologique, Intelligence conomique et Bibliomtrie. Colloque organis par la section Bibliothconomie du DEC Sciences du Livre de lUniversit Catholique de Louvain-la-Neuve, les 23-24 janvier 2001. Seulement aprs lintervention, la discussion et les remarques dans le cadre de ce colloque, lauteur envisage de le transformer dans un article pour tre publi
BIBLIOGRAPHIE
R . Agrawal, H. Mannila, R. Srikant, H. Toiven, A. Ikeri Verkamo (1996) Fast Discovery of Association Rules, in Fayyad et al. (1996) p. p.307-328.
9 R. Al Hulou, A. Napoli, E. Nauer (2000) XML : un formalisme de reprsentation intermdiaire entre donne semi-structures et reprsentations par objets, in C. Dony, H. A. Sahraoui (eds) Langages et Modles Objets. Paris, HERMES, p. 75-90. R. Baeza-Yates, B. Ribeiro-Neto (1999) Modern Information Retrieval. ACM Press / Addison-Wesley Longman. S. K. Card, J. D. MacKinlay, B. Schneiderman (eds) (1999) Readings in Information Visualization. Using Vision to Think. San Francisco, Cal., Morgan Kaufman Publishers, Inc. J. Cowie, W. Lehnert (1996) Information Extraction, Communications of the ACM, vol. 30 (1), p. 80-91. U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (eds) (1996) Advances in Knowledge Discovery and Data Mining. Menlo Park, Cal. AAAI Press / The MIT Press. U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth (1999) Data Mining and Knowledge Discovery in Databases: Introduction to the Special Issue. Communications of the ACM, vol. 39 (1). R. Feldman, Y Aumann, A. Zilberstein, Y. Ben-Yuda (1998a) Trend Graphs: Visualizing the Evolution of Concept Relationships in Large Document Collections, in Zytkow et Quafafou (1998) p. 38-46. R. Feldman, M. Fresko, Y. K Kinar, Y Lindell, O. Liphstar, M. Rajman, Y. Scheler, O. Zamir (1998b) Text Mining at the Term Level, in Zytkow et Quafafou (1998) p. 65-73. R. Godin, G. Mineau, R. Missaoui (1995) Mthodes de classification conceptuelle bases sur les treillis de Galois. Revue dintelligence artificielle, vol. 9 (2), p. 105-137. D. Landau, R. Feldman, Y. Aumann, M. Fresko, Y. Lindell, O. Lipshtat, O. Zamir (1998) TextViz: An Integrated Visual Environment for Text Mining, in Zytkow et Quafafou (1998) p. 56-64. D. E. O'Leary (1998) Knowledge Management Systems: Converting and Connection. IEEE Intelligent Systems, vol. 1 (3), p. 30-33. R. L. Pinkerton (1994) Competitive Intelligence Revisited: A History and Assessment of Its Use in Marketing. Competitive Intelligence Review, vol. 5 (4), p. 23-31. A. Simon (2000) Outils classificatoires par objets pour lextraction de connaissances dans des bases de donnes. Thse de doctorat de lUniversit Henri Poincar Nancy 1. Y. Toussaint, A. Simon, H. Cherfi (2000) Apport de la fouille de donnes textuelles pour l'analyse de l'information. Actes des Journe Francophones dIngnierie des Connaissances (IC2000), Toulouse, p. 335-344. A. Ultsch (1999) Data Mining and Knowledge Discovery with Emergent Self-organizing Feature Map for Multivariate Time Series, in E. Oja, S. Kaski (eds) Kohonen Maps. Amsterdam, ELSEVIER, p. 33-45. J. M. Zytkow, et M. Quafafou (eds) (1998) Principles of Data Mining and Knowledge Discovery. Proceedings of the Second European Symposium, PKDD'98, Nantes. Berlin, Springer, (Lecture Notes in Artificial Intelligence 1510).
Annexe IV A n n e x e
I V
1
Source : http://www.icann.org/correspondence/roberts-testimony-14feb01.htm Carte de la rpartition des serveurs racines travers le monde. 80 90% du traffique IP transite par ces serveur dont 10 sur 13 sontt situs au Etats-Unis ANNEXE IV : La rpartition go-stratgique de lInternet