Vous êtes sur la page 1sur 97

Rpublique Algrienne Dmocratique et Populaire Ministre de lEnseignement Suprieur et de la Recherche Scientifique Ecole Nationale Polytechnique

Dpartement de Gnie Electronique


PROJET DE FIN DETUDE EN VUE DE LOBTENTION DU DIPLOME DINGENIEUR DETAT EN GENIE ELECTRONIQUE Prsent par: Mr KRIZOU Hocine

Thme
Les techniques SVD et traitement d'images dans la recherche intelligente d'informations en indexation smantique latente

Propos et Encadr par : Mr. LARBES Cherif et Mr. ALLALI Ali

Soutenu le : 12/10/2011, devant le jury compos de : Prsident: Examinateur: Promoteurs: Mr. HADDADI Mourad Mr. AIT CHEIKH M Salah Mr. LARBES Cherif Mr. ALLALI Ali

Promotion 2011

REMERCIEMENTS
Je tiens exprimer ma reconnaissance Mr. LARBES pour son encadrement et Mr. ALLALI, pour avoir Co-encadr mes travaux. Je les remercie pour leur disponibilit, leur coute et leurs conseils, qui mont t toujours prcieux, leur confiance, leur investissement scientifique et humain qui ont t essentiels la ralisation de ce travail. Je remercie Mr. HADDADI Mourad et Mr.AIT CHEIKH M Salah, je leur en suis reconnaissant davoir accept de faire partie du jury de mon projet de fin dtude. Je souhaite aussi remercier tous les enseignants de lEcole Nationale Polytechnique, pour les connaissances quils mont transmis, leur disponibilit et leurs efforts. Jai srement oubli de remercier beaucoup dautres personnes mritantes, des personnes qui mont offert leur amiti, qui mont ouvert leur cur, qui mont ouvert leur porte, quelles trouvent ici lexpression de ma profonde gratitude et de mon amiti la plus sincre.

DDICACES
Je ddie ce modeste travail mon pre, ma mre, ainsi qu mon frre et ma sur qui mont tant soutenu et aid tout au long de mon parcours et sans qui je nen serais pas l. A mes amis qui mont tant support, spcialement, Khaldoun et Fellah. A tous mes camarades et amis de notre chre cole avec qui jai pass de bons moments et appris beaucoup de choses. A tous ceux qui ont contribu de prs ou de loin mon travail. A tous ceux que je nai pas cits et qui sont prsents dans mes penses.

RESUME
Lobjet des systmes de recherche dinformations est de faciliter laccs un ensemble de documents, afin de permettre lutilisateur de retrouver ceux qui sont pertinents, c'est-dire ceux dont le contenu correspond le mieux son besoin en information. La qualit des rsultats de la recherche se mesure en comparant les rponses du systme avec les rponses idales que l'utilisateur espre recevoir. Plus les rponses du systme correspondent celles que l'utilisateur espre, plus le systme est jug performant. Les premiers systmes permettaient deffectuer des recherches boolennes, cest dire, des recherches ou seule la prsence ou labsence dun terme de la requte dans un texte permet de le slectionner. Il a fallu attendre la fin des annes 60, pour que lon applique le modle vectoriel aux problmatiques de la recherche dinformation. Dans ces deux modles, seule la prsence, labsence, ou la frquence des mots dans le texte est porteuse dinformation. Dautres systmes de recherche dinformation adoptent cette approche dans la modlisation des donnes textuelles et dans le calcul de la similarit entre documents ou par rapport une requte. Plusieurs amliorations des systmes de recherche dinformation utilisent les relations smantiques qui existent entre les termes dans un document. LSI (Latent Semantic Indexing), par exemple ralise ceci travers des mthodes danalyse qui mesurent la cooccurrence entre deux termes dans un mme contexte pour crer des liens smantiques entre les termes dans un processus de chaines lexicales. Dans ce travail, nous tudierons la technique de LSI, du prtraitement de la base de donnes jusqu' lapplication dalgorithme de dcomposition et la conception dun moteur de recherche bas sur cette technique. La contribution cl du travail prsent dans ce projet est le dveloppement d'une approche hybride et efficace de LSI pour une utilisation plus performante dans la recherche dinformation, bas sur l'utilisation de techniques de traitement d'image en tandem avec les composants existants.

ABSTRACT
The object of information retrieval systems is to make easy the access to documents and to allow a user to find those that are appropriate. The quality of the results of research is measured by comparing the answers of the system with the ideal answers that the user hopes to find. The system is competitive when its answers correspond to those that the user hopes. The first retrieval systems performing Boolean researches, in other words, researches in which only the presence or the absence of a term of a request in a text allow choosing it. It was necessary to wait for the end of the sixties to apply the vector model in information retrieval. In these two models, alone presence, absence, or frequency of words in the text is holder of information. Several Information Retrieval Systems adopt a flat approach in the modeling of data and in the counting of similarity between documents or in comparison with a request. Several improvements in information retrieval systems use the semantic relationships which exist between terms in a document. LSI (Latent Semantic Indexing), for example achieves this through analytical methods that measure co-occurrence between two terms in the same context to create semantic links between terms in a process of lexical chains. In this work, we study the technique of LSI, the pretreatment of the database to the application of decomposition algorithm and design of a search engine based on this technique. A key contribution of the work presented in this project is the development of a hybrid and efficient approach to LSI for effective use in IR, based on the use of image processing techniques in tandem with the existing components.


. . . . 06 . . . .LSI . LSI . .

SOMMAIRE

SOMMAIRE

Chapitre I Recherche dinformation : Concepts de base I.1 Introduction..5 I.2 Un survol de lhistoire de la Recherche dInformation ...5 I.3 La naissance de la recherche dinformation.9 I.4 re Internet.....10 I.5 Gnralits sur les Systmes de Recherche dInformation(SRI) ..10 I.5.1 Dfinition...10 I.5.2 Concepts cls de la recherche dinformation..11 I.5.2.1 La collection de documents...12 I.5.2.2 Le document..13 I.5.2.3 Les langages dinterrogation.13 I.5.2.4 La reprsentation des documents et des requtes (indexation ou analyse). .14 I.5.2.5 Lappariement requte-document.15 I.5.2.6 La notion de besoin dans la recherche dinformation.16 I.6 Evaluation des performances des systmes de recherche dinformation...16 I.6.1 La notion de pertinence..17 I.6.2 Les mesures de Prcision/Rappel..18 I.6.3 Autres mesures de performance.22 I.7 Amliorations techniques...23 I.8 Conclusion..23

Chapitre II Indexation smantique latente II.1 Introduction..24 II.2 Introduction VSM (Vector Space Model) ....26 II.3 Bruit lexicologique...30 II.4 Algorithmes de LSI..31 II.4.1 Prtraitement31 II.4.2 Dcomposition de Matrice...35 II.5 Application de la LSI ...38 II.6 Conclusion....41

Chapitre III Les ondelettes de Haar III.1 Introduction.44 III.2 La Transforme en Ondelettes44 III.2.1 Dfinition...46 III.2.2 LOndelette de Haar...46 III.2.3 Exemple de calcul.47 III.2.4 Le dbruitage.50 III.3 tude propose...52

SOMMAIRE
III.4 Conclusion..53

Chapitre IV tude exprimentale et analyse des rsultats IV.1 Introduction.53 IV.2 Les composants du systme LSI.53 IV.2.1 Description de la base de donnes.54 IV.2.2 Description de prtraitement de documents...55 IV.2.4 Vecteur requte..57 IV.2.5 Implmentations des algorithmes de dcomposition matricielle...58 IV.2.6 Mthodologie des mtriques..61 IV.2.7 Mtriques utiliss...62 IV.3 Analyse du bruit lexicale et des mesures en recherche d'information intelligente.....62 IV.3.1 Mthodologie propose pour la mesure de bruit lexicale..64 IV.4 Approche empirique68 IV.5 Interface graphique.73 IV.6 Conclusion......75

Liste des tableaux


Tableau 1 : Exemple de valeurs rappel-prcision..20 Tableau 2 : Valeurs utiliss pour la courbe rappel-prcision.21 Tableau 3 : Transforme de Haar du signal S49 Tableau 4: Ensemble des documents de la base de donnes Memo [6] 56 Tableau 5: TDM pour l'exemple Mmos [6] 57 Tableau 6: Chaque colonne reprsente un document.61

Liste des figures


Figure 1 : Le processus de recherche dinformation......12 Figure 2 : Exemple de rappel et de prcision pour une requte.19 Figure 3 : Courbe rappel-prcision....20 Figure 4 : Reprsentation de document de l'espace de vecteur [27] .28 Figure 5 : Reprsentation idale de l'espace de document [27] 29 Figure 6 : Reprsentation de contrle de pertinence [40] .34 Figure 7 : TDM Cochrane reprsente comme une image en niveaux de gris..37 Figure 8 : Dcomposition de Haar dune matrice..50 Figure 9 : Une image et la dcomposition de premier niveau de Haar de l'image.....51 Figure 10 : Processus rvis...53 Figure 11 : Reprsentation de la dcomposition en valeurs singulires de la matrice X...59 Figure 12 : Rduction de la SVD de la matrice X.60 Figure 13: TDM comme une image de la base de donnes Mmos.63-64 Figure 14: TDM comme une image de la base de donnes Cochrane..63-64 Figure 15: Image TDM aprs SVD avec k = 4 de base de donnes Mmos.65 Figure 16: Image TDM aprs SVD avec k = 1 de base de donnes Mmos.66 Figure 17: Image TDM aprs SVD avec k = 8 de base de donnes Mmos.66 Figure 18: Image TDM aprs SVD avec k = 1 pour base de donnes Cochrane...67 Figure 19: Image TDM aprs SVD avec k = 80 pour base de donnes Cochrane.67 Figure 20 : Rechercher Intervention treating pour diffrentes valeurs de k .68 Figure 21 : Rechercher Immunoglobulin pour diffrentes valeurs de k68 Figure 22 : Rechercher Acupuncture pour diffrentes valeurs de k...69 Figure 23 : Rechercher Acupuncture asthma pour diffrentes valeurs de k..69 Figure 24 : Rechercher Treatment effects pour diffrentes valeurs de k...70 Figure 25 : Rechercher Therapy pour diffrentes valeurs de k..70 Figure 26 : Rechercher Intervention treating en utilisant la 80_SVD et la 80_SVD+HAAR...71 Figure 27 : Rechercher Immunoglobulin en utilisant la 80_SVD et la 80_SVD+HAAR.71 Figure 28:Rechercher Acupuncture asthma en utilisant la 80_SVD et la 80_SVD+HAAR.72 Figure 29 : Rechercher Treatment effects en utilisant la 80_SVD et la 80_SVD+HAAR72 Figure 30: page daccueil de linterface graphique73 Figure 31: Exemple de recherche dans linterface graphique73

Introduction gnrale

Introduction gnrale
Pour quun savoir puisse se transmettre, il faut dabord pouvoir le reproduire et le stocker. Dans ce contexte, lHumanit a fait des pas de gants de la glyptique au document numrique, en passant par limprimerie de Gutenberg, et ce quel que soit le support utilis (le rouleau, le codex, le numrique), ainsi que les divers agencements du texte par rapport au support. Mais ensuite et surtout, il faut pouvoir accder aux informations stockes. Ce besoin daccs demeure intact aujourdhui, laccroissement des masses dinformation disponibles ne faisant quaccentuer ce besoin ancestral, qui devient bien plus compliqu grer. En effet, quoi servirait le stockage dune information si on ne peut y accder ? Crer une information est un travail souvent onreux et si on ne peut y accder, ce mme travail est refournir. Il est dailleurs rvlateur que peu aprs linvention des ordinateurs au dbut des annes 1950, le domaine de la Recherche dInformation ait vu le jour, dmontrant que le stockage et le traitement de linformation vont de pair avec les techniques daccs qui leurs sont associes.

Aujourdhui, toutes les donnes mritant publication sont destines - terme- tre numrises, le problme du stockage et de la prennisation des informations tend ainsi tre rsolu. Nous le voyons bien, nous assistons une poque, o le savoir individuel est thoriquement, ds sa publication, universel. Notre civilisation peut dsormais prtendre la capitalisation synchronise du savoir, lacclration des avances technologiques en mutualisant les efforts et en vitant le gaspillage et la redondance. Mais aujourdhui, la masse de connaissances stockes est tellement immense, que nous assistons au phnomne inverse : linformation nest dsormais plus une denre rare et linstantanit de sa disponibilit est assure grce Internet. Cest dsormais au niveau individuel que nous nous posons des questions. En effet, pour un individu, un systme ou une organisation, rechercher une information prcise dans lamas des donnes en croissance exponentielle sur le Net serait comme chercher une aiguille dans une botte de foin.

A la naissance du domaine de la Recherche dInformation, les chercheurs senthousiasmaient lide dutiliser les ordinateurs, pour la recherche des informations dont la taille dpassait les capacits calculatoires humaines. Ds les premiers Systmes de Recherche dInformation (SRI), les modles de RI sont construits autour du triplet <document, besoin, correspondance>, ces modles constituent encore aujourdhui la base autour de laquelle sont dvelopps les moteurs de recherche sur leWeb. Ainsi, un SRI est un

systme qui stocke un ensemble de documents sous une forme lectronique (corpus ou base documentaire), dans le but de permettre aux utilisateurs de retrouver ceux dont le contenu correspond le mieux leur besoin dinformation. Une phase dindexation permet de stocker une abstraction des contenus des documents. Ces abstractions sont ensuite compares la reprsentation des besoins de lutilisateur (la requte) la phase dinterrogation (ou de recherche) grce une fonction de correspondance.

Introduction gnrale

Trs vite les problmes inhrents la richesse des langues, se sont imposs. Les SRI doivent traiter les problmes de synonymie et de polysmie des termes.

Problmatique

Problmatique

En indexation classique, les entits textuelles (documents et requtes) sont reprsentes par des mots cls issus de leurs contenus. Lutilisation des mots pour reprsenter le contenu des documents et requtes pose deux problmes, lambigut des mots et leur disparit. Lambigut des mots, dite ambigut lexicale, se rapporte des mots lexicalement identiques et portant des sens diffrents. Elle est gnralement divise en deux types lambigut syntaxique et lambigut smantique. L'ambigut syntaxique se rapporte des diffrences dans la catgorie syntaxique. Par exemple, play peut apparatre en tant que nom ou verbe. L'ambigut smantique se rapporte des diffrences dans la signification, et est dcompose en homonymie et polysmie selon que les sens sont lis ou non. Le problme dambigut implique que des documents non pertinents, contenant les mmes mots que la requte sont retrouvs. La disparit des mots (word mismatch) se rfre des mots lexicalement diffrents mais portant un mme sens. Ceci implique que des documents, pourtant pertinents, ne partagent pas de mots avec la requte, ne sont pas retrouvs. Les travaux du domaine ont dabord adress ces problmes sparment en apportant des solutions spcifiques chacun deux, puis une solution globale sest dgage.

(1) Solutions spcifiques - Une rponse au premier problme, en loccurrence lambigut des mots, est dutiliser les expressions ou termes composs, pour rduire l'ambigut. Cependant, il n'est pas toujours possible de fournir une expression dans laquelle le mot apparat seulement avec le sens dsir, et la formulation des expressions exige un effort cognitif de la part de l'utilisateur. - Une rponse au second problme, en loccurrence la disparit des mots, consiste tendre la requte laide de mots synonymes d'un thsaurus. Cette extension nest pas alatoire. Pour enrichir un mot dans la requte par ses synonymes, on doit non seulement connatre le sens du mot dans la requte, mais aussi le sens du mot qui est utilis pour l'tendre.

Problmatique
(2) Solution globale La solution globale permettant de rpondre ces deux problmes consiste en lindexation smantique. Lindexation smantique tente dapporter des solutions au niveau de la reprsentation des documents et des requtes. Lobjectif est dindexer par les sens des mots plutt que par les mots. Dans un contexte o lambigut est prsente, lindexation smantique est sense amliorer les performances du SRI.

Lindexation smantique sintresse deux principaux points : dabord retrouver le sens correct de chaque mot dans le document (respectivement de la requte), ensuite reprsenter ce document (respectivement cette requte).

Chapitre 1 Recherche dinformation : concepts de base

Chapitre I

I.1 Introduction

Recherche dinformation : concepts de base

Le monde assiste depuis ces dernires dcennies, une production massive dinformations dans tous les domaines dintrt. De multiples directions de recherche ont tent de mettre en uvre des processus automatiques daccs a linformation. Lobjectif est dexploiter au mieux les bases volumineuses de ces informations.

Un Systme de Recherche dInformation (SRI), ncessite la combinaison de modles et algorithmes. Ces derniers permettent la reprsentation, le stockage, la recherche et la visualisation des informations. Lobjectif principal de ce systme est de mettre en uvre un processus de comparaison entre besoin utilisateur et documents dune collection dans le but de retrouver ceux qui sont pertinents. Llaboration dun mcanisme de recherche dinformation pose alors des problmes lies tant la reprsentation qu la localisation de linformation pertinente.

Lobjet dun systme de recherche dinformation est de faciliter laccs un ensemble de documents, afin de permettre lutilisateur de retrouver ceux qui sont pertinents, c'est-dire ceux dont le contenu correspond le mieux son besoin en information. La qualit des rsultats de la recherche se mesure en comparant les rponses du systme avec les rponses idales que l'utilisateur espre recevoir. Plus les rponses du systme correspondent celles que l'utilisateur espre, plus le systme est jug performant.

Tout au long de ce chapitre, notre intrt se porte ainsi sur les principes de la recherche dinformation. Les section 1.2 la section 1.5 en dcrivent ses concepts de base ainsi que les diffrents modles. La section 1.6 est consacre lvaluation de ces systmes; nous reprsentons les mesures utilises pour comparer les performances des SRI.

ENP

Page 5

Chapitre I

I.2 Un survol de lhistoire de la Recherche dInformation

Recherche dinformation : concepts de base

Les socits et les entreprises ont toujours essay de mieux prparer leur avenir en se dotant doutils et de mthodes afin de se rendre le plus comptitifs vis--vis de leurs voisins et concurrents, en utilisant les techniques de renseignement, despionnage et des stratgies prvisionnelles, cest--dire diffrentes formes de veille.

La stratgie de ces organismes consiste recueillir linformation, la synthtiser et tirer les conclusions pouvant orienter leur dveloppement. Mais toute information ne peut contribuer l'amlioration de la productivit et la comptitivit dune organisation que lorsqu'elle rpond aux vrais besoins des responsables, savoir progresser, moderniser, innover et diversifier. Toutefois, la recherche de cette information plus qu'indispensable pour toutes les fonctions dune organisation se heurte gnralement des obstacles de nature rduire son efficacit, notamment :

L'abondance des supports d'information rels et potentiels sur le march de la communication, Le flot de l'information pouvant entraner l'inopportunit et la non pertinence des donnes lorsqu'elles ne rpondent pas aux besoins prcis des dcideurs, alors que ces derniers ont besoin d'une information prcise, analyse, filtre et condense.

Il s'agit ainsi, d'une information sur mesure, personnalise et gre pour rpondre aux besoins spcifiques et de plus en plus exigeants des dcideurs, or sans gestion

d'information, pas d'organisation viable .

Des outils dobservation et de mesure ont t cres tout au long de lhistoire pour aider les socits mieux mesurer leur environnement. Les Grecs ont dvelopp des mcanismes dobservation trs complexes capables de prdire les cycles de la terre. Ces mcanismes seront transmis aux horlogers europens via les arabes. Ils donneront naissance diffrentes machines de calculs (machine calcul de Pascal, les cartes perfores de Jacquard) pour arriver la cration des premiers ordinateurs.
ENP Page 6

Chapitre I

Depuis lavnement dInternet qui facilite laccs une grande masse de donnes et le

Recherche dinformation : concepts de base

dveloppement des nouvelles technologies, la veille est la mode, elle slargit, de lentreprise prive, elle devient une affaire dtat nomme Intelligence conomique. Avec la chut de lURSS, les agences des services secrets et les militaires se sont converti au civil utilisant les moyens lgaux pour la cueillette dinformations.

Les nouvelles technologies de linformation et de la communication ont ainsi conduit :

1- A une transformation des pratiques de gestion de linformation : les fichiers manuels se transforment en fichiers informatiss, en banques de donnes,

2- la lgislation et la gestion lectronique des documents qui amnent une vritable ingnierie informationnelle,

3- au besoin dtre tenus correctement informs qui devient une ncessit vitale de toutes les catgories dutilisateurs, notamment des entrepreneurs, des chercheurs, etc.

Ceci a engendr de nouvelles pratiques, entre autres :

- La veille stratgique qui consiste surveiller lenvironnement externe de lentreprise par le service dinformation afin de recueillir linformation ncessaire la prise des dcisions stratgiques et aux actions au sein de toute organisation,

- la veille technologique qui consiste observer lenvironnement technologique et suivre les volutions quil subit afin de dgager les opportunits et les menaces quil offre et que le service dinformation doit prendre en considration,

- la veille concurrentielle qui consiste suivre de prt et de manire systmatique les concurrents rels et potentiels du service dinformation, leur expansion dans le temps et dans lespace, leurs produits, leurs services, leurs innovations,

- la veille commerciale qui, pour rationaliser les achats et ventes, consiste suivre les marchs de matires premires, la situation des circuits commerciaux, etc.
ENP Page 7

Chapitre I

Bref, lintelligence conomique, qui est une dmarche globale qui vise inclure tous

Recherche dinformation : concepts de base

les types de veille en une approche globale permettant non seulement de surveiller mais aussi de prvoir toutes les menaces et opportunits relatives au contexte concurrentiel, juridique, technologique, commercial, socital, etc. de lorganisation. Etant donn ces nouvelles pratiques, le professionnel de linformation est tenu de :

- Savoir et pouvoir matriser linformation de veille, de dcouverte, dinnovation et douverture sur le monde,

- savoir et pouvoir dvelopper et exploiter linformation utile qui rend possible lactivit quotidienne des individus, des centres et des laboratoires de recherche, des entreprises, - valoriser linformation auto produite, tenir compte de linformation vivante, de linformation de communication, etc. - raisonner en terme de diffrentiation fonctionnelle multidimensionnelle et donc de richesse dintervention potentielle avec autant de comptences spcifiques dvelopper. La veille suppose une maitrise de linformation ncessaire la surveillance des environnements prcis (sociopolitiques et conomiques). Cest un processus continu et systmatique de gestion de linformation stratgique. Un processus de veille comporte en gnral trois tapes essentielles :

1- La cueillette : il sagit de bien rassembler les donnes pour dresser un bilan sur le contexte donn, ses principaux dfis sont : Le traitement dun trs grand volume de donnes dans un temps assez court, la classification des donnes.

Dans cette tape, la recherche seffectue dans les bases de donnes, les sites Web et lchange entre veilleurs, laide des rpertoires, des annuaires, des bases de connaissances commerciales sur le Web, des outils linguistiques, etc.

2- lanalyse et la synthse : cette tape sert synthtiser les donnes rassembles afin de dcouvrir les principales tendances qui serviront convertir certaines stratgies en scnarios,
ENP Page 8

Chapitre I

3- la diffusion : il sagit de prsenter aux dcideurs divers scnarios qui faciliteront leur

Recherche dinformation : concepts de base

prise de dcision. Les principaux dfis se rsument en : La pertinence des choix en fonction du long terme, le dveloppement de stratgies conduisant aux innovations.

Pour excuter un tel processus, les outils de veille se divisent le plus souvent en 2 catgories :

- Les outils de recherche d'information, - les outils de surveillance.

La recherche d'information concerne les mcanismes qui facilitent l'accs une base d'informations. Il existe un grand nombre de modles de recherche d'information. Ces modles diffrent principalement sur la faon dont les informations disponibles sont reprsentes et sur la faon d'interroger la base. Notre projet prsent ci-aprs porte sur le point particulier des outils de la recherche dinformation.

I.3 La naissance de la recherche dinformation

Le domaine de la recherche dinformation remonte au dbut des annes 1950, peu aprs linvention des ordinateurs, les chercheurs voulaient les utiliser pour automatiser la recherche des informations, qui dpassaient les capacits humaines cause de lexplosion de la quantit dinformation aprs la deuxime guerre mondiale.

Le terme de recherche dinformation Information Retrieval fut donn par Calvin N. Mooers en 1948 pour la premire fois dans son mmoire de matrise [1] et la premire confrence ddie ce thme International Conference on Scientific Information - sest tenue en 1958 Washington.

Les premiers problmes qui intressaient les chercheurs portaient sur lindexation des documents.
ENP Page 9

Chapitre I

Dj la International Conference on Scientific Information, Luhn avait fait une

Recherche dinformation : concepts de base

dmonstration de son systme dindexation KWIC qui slectionnait les index selon la frquence des mots dans les documents et filtrait des mots vides. Cest cette priode que le domaine de la recherche dinformation est n.

I.4 re Internet

Le domaine de recherche dinformation fut cr cause de lexplosion de linformation dans les annes 1950. Mais cette explosion apporte de nouveaux problmes dans le domaine de la recherche dinformation.

- Sur le Web, on ne peut plus crer une collection statique. La collection (qui est le Web au complet) est une collection gigantesque quil est impossible (au moins pour le moment) de couvrir au complet,

- un systme de recherche propose toujours des documents. Certains sont pertinents, mais noys parmi beaucoup dautres documents non pertinents. Plus notre collection contient des documents, plus ce problme devient aigu. Il est de plus en plus demand que la recherche soit plus prcise, mme si on doit accepter que certains documents pertinents ne soient pas retrouvs,

- lexistence des documents non textuels (image, son, vido, etc.) ncessite de nouvelles faons pour les indexer et les rechercher. Les mthodes traditionnelles de recherche sont surtout destines aux textes et ne sont pas directement applicables dautres mdias,

- lutilisation des langues diffrentes pose un autre problme. Avec une requte en franais, on ne peut retrouver que des documents en franais. Or, la pertinence dun document est souvent indpendante de la langue utilise. Ainsi, nous avons besoin doutils pour la recherche dinformation translinguistique ou multilingue.

ENP

Page 10

Chapitre I

I.5 Gnralits sur les Systmes de Recherche dInformation(SRI)

Recherche dinformation : concepts de base

I.5.1 Dfinition

La recherche dinformation [1] est lensemble des techniques permettant de grer des textes. Grer des textes ou des documents implique stocker, rechercher et explorer des documents pertinents.

Un systme de recherche dinformation intgre un ensemble de techniques et de processus permettant de slectionner dans une collection de documents ceux qui sont susceptibles de rpondre au besoin dun utilisateur. Ces processus permettent : La reprsentation des informations et des besoins, Linterrogation, la recherche et la slection des informations pertinentes rpondant aux besoins dun utilisateur.

La problmatique majeure manant de tout systme de recherche dinformation est de retrouver les quelques dizaines ou milliers de documents pertinents parmi des millions de documents. Cet cart de cardinalit rend cette tache encore plus difficile.

I.5.2 Concepts cls de la recherche dinformation

Un systme de recherche dinformation, intgre un ensemble de modles pour la reprsentation des units dinformations (documents et requtes). Il intgre galement un mcanisme de recherche/slection. Ce dernier permet de slectionner linformation pertinente en rponse aux besoins exprimes par lutilisateur a laide dune requte. Il peut tre reprsent par le processus en U de recherche dinformation. La figure 1 illustre larchitecture gnrale dun systme de recherche dinformation. Plusieurs lments cls y sont distingues : La collection de documents, Les documents, Les langages dinterrogation, La reprsentation des documents et des requtes (indexation ou analyse),
ENP Page 11

Lappariement requte-document,

Chapitre I

Le besoin en information (requte),

Recherche dinformation : concepts de base

Figure. 1 Le processus de recherche dinformation

Dans la section qui suit, nous allons dfinir ces lments sparment.

I.5.2.1 La collection de documents

La collection de documents constitue lensemble des informations exploitables et accessibles par lutilisateur. Elle est constitue dun ensemble de documents. Dans le cas gnral et pour des raisons doptimalit, la collection constitue des reprsentations trs simplifies mais suffisantes de ces documents. Ces reprsentations sont tudies de telle sorte que la gestion (ajout, suppression dun document) et linterrogation (recherche) de la collection se font dans les meilleures conditions de cout.

ENP

Page 12

Chapitre I

I.5.2.2 Le document :

Recherche dinformation : concepts de base

Le document constitue linformation lmentaire dune collection documentaire. Linformation lmentaire, appele aussi granule de document, peut reprsenter tout ou une partie dun document. Dans la suite de ce rapport, nous utiliserons indiffremment les termes document ou information pour designer un granule documentaire.

I.5.2.3 Les langages dinterrogation :

Un besoin en information dun utilisateur est exprim par une requte. La littrature propose divers types de langages dinterrogation pour formuler cette requte. Nous citons les plus rpandus : Interrogation en langage boolen, Interrogation en langage naturel ou quasi naturel, Interrogation en langage graphique.

Dtaillons prsent ces diffrents langages.

1. Interrogation en langage boolen : Lutilisateur exprime sa requte sous forme dun ensemble de termes relies entre eux par des operateurs boolens. Beaucoup de moteurs de recherche, se basent sur ce mode dinterrogation, citons les plus connus : Altavista, Google, etc.

2. Interrogation en langage naturel ou quasi naturel : Lutilisateur exprime sa requte en langage libre (langage naturel) sous forme de mots cls. Le systme se charge de traduire (analyser) ces mots cls en une requte de langage de base de donnes ou une autre forme interne utilisable par le systme. Les systmes SMART, SPIRIT, OKAPI Recherche et MercureO2 sont interrogeables en langage naturel [2].

ENP

Page 13

Chapitre I

3. Interrogation en langage graphique :

Recherche dinformation : concepts de base

Une interface daide la formulation de la requte est propose lutilisateur. En effet, une vue densemble de la base dinformation et en particulier une vue de termes reprsentant le contenu smantique des documents, est donne a lutilisateur pour lassister formuler sa requte. Dans PROTEUS [2], linterface daide la formulation de requte propose un gestionnaire de thesaurus. Ce dernier est reprsente par un graphe, les nuds tant les termes du thesaurus et les liens tant les relations smantiques entre ces termes. Lutilisateur peut identifier le type de relation quil souhaite utiliser et slectionner un terme. Le projet NEURODOC [2] est plus adapte a lutilisation dun thesaurus volumineux. NEURODOC offre lutilisateur un tableau de bord ou chaque nud possde un nom et rsume le sous-ensemble de mots et de documents fortement lies.

I.5.2.4 La reprsentation des documents et des requtes (indexation ou analyse)

La reprsentation des documents et des requtes est supporte par un ensemble de rgles et notations permettant la traduction dune requte ou dun document dune description brute vers une description structure. Ce processus de conversion est appel Indexation. Lindexation est une opration permettant dextraire dun document ou dune requte une reprsentation paramtre qui couvre au mieux son contenu smantique. Le rsultat de lindexation constitue le descripteur du document ou de requte. Ce dernier est souvent une liste de termes ou groupe de termes significatifs pour lunit textuelle correspondante, gnralement assortis de poids reprsentant leur degr de reprsentativit du contenu smantique de lunit quils dcrivent. Les descripteurs des documents (mots, groupe de mots) forment le langage dindexation. Lindexation, est une tape primordiale dans la recherche dinformation. De sa qualit dpend en partie la qualit des rponses du systme. Conscients de son importance, et soucieux de bien la raliser, les dveloppeurs des SRI ont propos plusieurs manires de procder. Les principales sont lindexation manuelle et lindexation automatique. Elles sont dfinies comme suit : Indexation manuelle : dans le cas de lindexation manuelle, chaque document
ENP Page 14

est analys par un spcialiste du domaine ou par un expert documentaliste.

Chapitre I

Recherche dinformation : concepts de base

En fonction de ses connaissances, Cet expert dtermine, les mots cls qui lui semblent les plus significatifs pour reprsenter le document. Lindexation humaine est une activit fonde sur le jugement dun tre humain. Elle se caractrise par sa profondeur, sa cohrence (ce qui est fondamental pour la cohrence du fond et des fichiers) et sa qualit (exhaustivit spcificit). Elle est cependant trop dpendante de ltat des connaissances des indexeurs. Cela induit la subjectivit de ses rsultats. Elle ncessite la lecture de lintgralit des documents. Son application est de ce fait inadapte des collections de taille importante. Les collections TREC1 constituent un exemple significatif. Elles contiennent des millions de documents extraits dInternet (le web).

Lindexation automatique permet de pallier ce problme. Indexation automatique : lindexation automatique reconnait des chaines de caractres constitutifs de mots non vides. Elle dtecte automatiquement les termes les plus reprsentatifs du contenu du document. Ce type dindexation est actuellement la mthode la plus rpandue. Elle comprend deux tapes fondamentales : lidentification des termes dindexation et lvaluation de leurs poids. Lidentification des termes dindexation consiste analyser le texte du document mot a mot. Son objectif est den extraire les mots vides qui ne jouent quun rle syntaxique. Ces mots sont identifies puis limines grce a un anti dictionnaire (Stoplist en Anglais). Les mots apparaissant trop souvent nont aucun intrt. Ils sont galement limins. Seuls les mots significatifs reprsentant les concepts du document sont retenus. Afin daugmenter la qualit de la recherche, la pondration des termes extraits est primordiale. Pour mettre en vidence les diverses contributions dun terme dans la reprsentation dun document un poids lui est attribue.

I.5.2.5 Lappariement requte-document

Le processus dappariement requte-document est le noyau dun systme de recherche dinformation. Il permet dassocier chaque document une valeur de pertinence vis vis dune requte. Les documents ayant une pertinence positive sont slectionnes.
ENP Page 15

Chapitre I

La mesure de pertinence est calcule partir dune fonction de similarit, note RSV

Recherche dinformation : concepts de base

(Q,d)(Retrieval Satus Value), Q tant une requte et d un document. Elle tient compte des poids des termes dtermines en fonction danalyses statiques et probabilistes. Notons que ce processus est troitement lie aux reprsentations des documents et des requtes. En effet, si lopration dindexation est la mme dans la plupart des modles de recherche dinformation, ces derniers diffrents souvent par rapport aux fonctions utilises pour la mesure des poids et pour lappariement requte-document.

I.5.2.6 La notion de besoin dans la recherche dinformation


La notion de besoin dinformation est centrale dans le domaine de la recherche dinformation puisque elle est dfinie comme une interaction entre un individu qui a besoin dinformation et un document qui contient ou non la rponse ce besoin [2]. Lutilisateur doit donc formuler une requte, c'est--dire exprimer son besoin en information sous forme de descripteurs ou mots cls plus au moins lis, dont la relation est exprime par la prsence d'oprateurs entre eux. La requte peut s'effectuer sur l'ensemble des mots du texte, ou dans certaines zones prcises du document, lorsque l'information est indexe et structure selon diffrents champs (titre, auteur, ...).

I.6 Evaluation

des

performances

des

systmes

de

recherche

dinformation

Lvaluation des systmes de recherche dinformation constitue une tape importante dans llaboration dun modle de recherche dinformation. En effet, elle permet de caractriser le modle et de fournir des lments de comparaison entre modles.

Dune faon gnrale, tout systme de recherche dinformation prsente deux objectifs: retrouver tous les documents pertinents, rejeter tous les documents non pertinents.

ENP

Et cela pour rpondre aux besoins de lutilisateur.

Page 16

Chapitre I
dessous.

Recherche dinformation : concepts de base

Ces deux objectifs sont valus par les mesures de prcision et de rappel dfinis ci-

Nous allons dfinir galement les mesures x documents et dautres mesures de performance.

I.6.1 La notion de pertinence


Pour tre en mesure doffrir aux utilisateurs les informations rpondant le mieux leurs besoins, tout systme de recherche dinformation sappuie sur un modle de calcul de pertinence qui, pour chaque requte, calcul le score de pertinence de chaque donne (document). Celles qui auront le meilleur score de pertinence seront prsentes lutilisateur. Cette approche permet dvaluer ce quon nomme la pertinence systme, cest--dire la pertinence que les systmes de recherche dinformation calculent. Or, La notion de pertinence est trs complexe, elle est value par les systmes de recherche dinformation et galement lie au jugement des utilisateurs. On distingue classiquement deux types de pertinence : la pertinence utilisateur, qui est le jugement apport par lutilisateur sur le document, en fonction de son besoin dinformation, et la pertinence systme, qui correspond la valeur de correspondance entre le document et la requte, calcule par les systmes. La satisfaction de lutilisateur est lie la correspondance entre ces deux pertinences. Un tudiant en droit qui doit tudier un cas prcis et qui dispose du corpus de toute la jurisprudence du droit franais et ne disposant que dun accs chronologique ou thmatique aux documents, va chercher identifier dans son besoin en information les critres qui peuvent cerner soit la priode pendant laquelle des actes de jurisprudences qui lui sont pertinents ont pu tre mis, soit la thmatique trait dans sa requte. Dautres critres vont certainement intervenir dans lestimation de la pertinence dun document. Certains

documents ne seront pas utiles, car dj connus, dautres peuvent tre limins puisque ils demanderaient trop de travail pour tre utiliss. Cet exemple donne une ide sur la grande diversit des facteurs qui interviennent lorsquun utilisateur value la pertinence dun document.
ENP Page 17

Chapitre I

Il existe une distance plus ou moins grande entre les rsultats d'un systme de

Recherche dinformation : concepts de base

recherche dinformation et les jugements de pertinence de l'utilisateur. L'utilisation d'un systme de recherche d'information est plus gnralement conue comme un processus itratif visant amliorer progressivement l'adquation entre pertinence systme et pertinence utilisateur. Pour ce faire, une nouvelle fonction est trs frquemment ajoute au schma fonctionnel classique : le bouclage de pertinence (relevance feedback). Une fois un premier ensemble de documents retrouvs, l'utilisateur peut mettre des jugements de pertinence sur ces documents, jugements qui sont pris en compte pour dfinir une nouvelle requte (reformulation de la requte).

I.6.2 Les mesures de Prcision/Rappel

Les mesures de prcision/rappel sont obtenues en partitionnant lensemble des documents restitus par le SRI en deux catgories : les documents pertinents et les documents non pertinents. Ces deux catgories se dfinissent comme suit:

Taux de prcision : La prcision mesure la capacit du systme rejeter tous les documents non pertinents une requte. Il est donn par le rapport entre lensemble des documents slectionnes pertinents et lensemble des documents slectionns.

Taux de rappel : Le rappel mesure la capacit du systme retrouver tous les documents pertinents rpondants une requte. Il est donn par le rapport entre les documents retrouves pertinents et lensemble des documents pertinents de la base.

Les taux de prcision et de rappel sont donns par les formulations suivantes :
+

Prcision = Rappel =

Ou: R: le nombre total de documents pertinents dans la collection M : le nombre de documents slectionns
ENP Page 18

R+ : le nombre de documents pertinents slectionns

Chapitre I

Recherche dinformation : concepts de base

La figure 2 illustre la prcision et le rappel dune requte dune faon gnrale. Toutefois, seule une partie des documents restitus par le systme est examine par lutilisateur. Dans ce cas, la paire des mesures (taux de rappel, taux de prcision) est calcule chaque point de rappel (document pertinent restitue). Il sagit de considrer la liste ordonne des documents values, de calculer pour chaque document slectionn la prcision et le rappel, puis exprimer en fonction des valeurs trouves la prcision en fonction du rappel. Avec ces valeurs, on trace une courbe reprsentant la prcision en fonction du rappel.

Figure. 2 Exemple de rappel et de prcision pour une requte

Exemple :

Le tableau 1 prsente une liste de documents tris par ordre dcroissant de pertinence, et les mesures de prcision et de rappel engendres. La figure 3 illustre la courbe rappelprcision. On calcule la prcision pour chacune des valeurs de rappel 0.1, 0.2 . . . 1.0 par interpolation linaire. Cette mthode dvaluation est trs significative. La prcision mesure indpendamment du rappel et inversement sont par contre peu significatives. En effet, un
ENP Page 19

systme mme peu performant a de trs fortes chances dattribuer la plus grande valeur de pertinence un document pertinent sil slectionne seulement ce document.

Chapitre I

Recherche dinformation : concepts de base

Figure. 3 Courbe rappel-prcision

Tableau. 1 Exemple de valeurs rappel-prcision


ENP Page 20

Chapitre I
La prcision vaudra

1 1

Recherche dinformation : concepts de base


documents, le rappel vaudra

= 1, mais le rappel sera trs faible ( ). Sil slectionne tous les = 1 mais la prcision sera trs faible (
1 +

). Par consquent,

les mesures de prcision et de rappel voluent inversement. En dautres termes, la courbe de prcision en fonction du rappel est dcroissante. La combinaison des mesures de prcision et de rappel est un critre dvaluation trs significatif. Plus cette courbe est leve, plus le systme est performant.

Les mesures x documents et la prcision moyenne


Deux mesures communment utilises, sont la prcision x documents (x = 5,10,15,20,etc.) et la prcision moyenne.

La prcision x documents est souvent relie ce que lon appelle la prcision exacte ou la R-prcision. La prcision exacte est la prcision au point ou la prcision vaut le rappel. Si la requte admet n documents pertinents, la prcision exacte est la prcision calcule a partir des n premiers documents de la liste ordonne des documents restitues.

Tableau. 2 Valeurs utiliss pour la courbe rappel-prcision

La prcision moyenne est la moyenne des valeurs de prcision a chaque document pertinent de la liste ordonne. Elle tient compte la fois de la prcision et du rappel. Elle est
ENP Page 21

mesure comme la moyenne des prcisions (non interpoles) calcules pour chaque document pertinent trouver, au rang de ce document.

Chapitre I

Recherche dinformation : concepts de base

Si un document pertinent est retourne la 10e position, la prcision pour ce document est la prcision 10 documents. Si un document pertinent na pas t trouve par le systme, la prcision pour ce document est nulle.

I.6.3 Autres mesures de performance

Le temps de rponse acceptables : un SRI doit pouvoir fournir lutilisateur les documents correspondants sa demande dans des temps trs courts. La prsentation des rsultats claire et facilit dutilisation : capacit du systme comprendre les besoins de lutilisateur et a mettre en valeur les documents correspondants a ceux-ci. Ceci est lie linterface avec lutilisateur. Le nombre total de documents pertinents retourns, ou le rappel 1000 documents : ces mesures permettant dvaluer la performance globale du systme au final, en fonction ou non du nombre de documents pertinents total. Le rang du premier document pertinent : cette mesure a t propose pour prendre en compte la satisfaction de lutilisateur qui chercherait un seul document pertinent (comme cest ventuellement le cas pour les moteurs de recherche sur Internet). La longueur de recherche : elle est gale au nombre de documents non pertinents que doit lire lutilisateur pour avoir un certain nombre n de documents pertinents. Dautres mesures qui combinent les scores de prcision et de rappel, appeles aussi les mesures composites dvaluation ont t dfinies. Par exemple [2] propose une mesure gnrale defficacit (efficiency), appele E-mesure, qui est une combinaison de la prcision et du rappel, et qui prend en compte un paramtre que lutilisateur ajuste pour contrler limportance quil donne a la prcision et au rappel.

ENP

Page 22

Chapitre I

I.7 Amliorations techniques

Recherche dinformation : concepts de base

De nombreuses tudes ont port sur des amliorations possibles de techniques dindexation et de recherche. Parmi les tentatives les plus marquantes, on retrouve notamment:

- Rtroaction de pertinence (relevance feedback) : Cette technique vise tendre la porte de la recherche en intgrant les termes issus des documents pertinents, ou des documents en tte de la liste de rponses trouves automatiquement,

- expansion de requte : Cette technique vise renforcer lexpression de la requte de lutilisateur (qui est souvent trs courte) par lintgration des termes relis (soit en exploitant un thsaurus, soit en utilisant un calcul bas sur des cooccurrences),

- regroupement (clustering) des documents : Il vise crer une structure entre les documents selon leurs similarits. Cette structure peut aider la fois la recherche et la prsentation des rsultats.

I.8 Conclusion

Dans ce premier chapitre, nous nous sommes essentiellement intresss ltude des systmes de recherche dinformation, dune faon gnrale, ainsi quune prsentation des lments constituant larchitecture de tels systmes. La finalit de chaque systme de recherche dinformation est de satisfaire les besoins des utilisateurs. Ces derniers sont proccups par un seul problme : celui de pouvoir rcuprer tous les documents dont ils ont besoin dune faon rapide et efficace. Et pour cela diffrentes techniques ont t mis en point, dont la plus efficace : Lindexation smantique latente.

ENP

Page 23

CHAPITRE 2
Indexation smantique latente Latent semantic indexing

Chapitre II

Indexation smantique latente Latent semantic indexing

2.1 Introduction
Le monde devient de plus en plus digitalis avec une expansion massive en volume de donnes qui sont accessibles en ligne sous diverses formes. En outre, en raison de la rvolution Internet, n'importe qui peut accder des millions de pages sur le Web. En 1998, des chercheurs ont estim qu'il y avait environ 300 millions de pages Web sur Internet [24] [25] et maintenant, cette estimation est passe 1000 milliards. De mme, Deux tendances dominent la recherche d'information et lanalyse dans l'entreprise d'aujourd'hui: le volume d'informations a considrablement augment, et la valeur de cette information est en croissance tout aussi rapide. Les entreprises modernes doivent faire face des traoctets de texte, comme le courriel, qui jouent souvent un rle important. Mme les petites et moyennes entreprises sont face au volume croissant de textes qui ncessitent un accs rapide et une analyse significative. Do le besoin clair de fournir de nouvelles approches qui augmentent les procds d'extraction de donnes et c'est l'une des raisons principales derrire l'intrt continu pour les systmes de recherche dinformations (IR). En particulier, dans le corps de recherche des indexations smantique latente (LSI). Ce chapitre est organis comme suit : On commence par une vue d'ensemble du modle de l'espace de vecteur (VSM), ensuite on prsentera le travail existant et relatif pour les algorithmes de LSI sur la dcomposition de prtraitement et de matrice, puis un choix de recherche sur l'utilisation des systmes de LSI dans diffrents domaines d'application est fourni, et on finira avec un rsum des dsavantages de cette technique et une conclusion.

Approches de traitement smantique


Les efforts pour intgrer des informations smantiques dans les systmes de traitement de texte remontent prs d'un demi-sicle. Au fil des annes, les concepteurs ont suivi diffrentes approches pour intgrer un certain degr de traitement smantique dans leurs systmes de rcupration de l'information:

ENP

Page 24

Chapitre II

Indexation smantique latente Latent semantic indexing

Les structures auxiliaires L'indexation smantique latente

Les structures auxiliaires


Les vocabulaires contrls, ou les structures auxiliaires, tels que les dictionnaires et les thsaurus, permettent des termes plus larges, des termes plus prcis, et les termes connexes doivent tre intgrs dans les queries. Les vocabulaires contrls sont une faon de surmonter certaines des contraintes les plus svres de requtes de mots cls boolenne qui ont des significations semblables (synonymie), et des mots qui ont plus d'un sens (polysmie). La synonymie et la polysmie sont souvent la cause de l'inadquation dans le vocabulaire utilis par les auteurs des documents et des utilisateurs de systmes de rcupration de texte. Au fil des annes, d'autres structures auxiliaires d'intrt gnral, tels que le grand ensemble de synonymes de Wordnet, ont t construits. La tendance la plus rcente a t de crer des modles de donnes qui reprsentent des ensembles de concepts dans un domaine (ontologies), qui peuvent intgrer les relations entre les termes. Les vocabulaires contrls peuvent contribuer l'efficacit et l'exhaustivit de la recherche d'informations et oprations lies l'analyse textuelle. Mais cette approche pour le traitement smantique fonctionne mieux lorsque les sujets sont troitement dfinis et la terminologie est normalise. Nanmoins il n'est pas bien adapt aux besoins de la plupart des entreprises modernes et des volumes croissants de donnes non structures qui contiennent des milliers de termes uniques couvrant un nombre illimit de sujets.

Certains autres inconvnients de l'utilisation de structures auxiliaires: x x x tablir une structure auxiliaire exige beaucoup de moyens humains et de surveillance La langue volue rapidement, ncessitant la mise jour constante des vocabulaires contrls Les vocabulaires contrls peuvent souvent reprsenter la vision du monde de leurs crateurs, en introduisant une source potentielle d'asymtrie conceptuelle

ENP

Page 25

Chapitre II x

Indexation smantique latente Latent semantic indexing

Les vocabulaires contrls capturent une vision du monde un moment donn. Ils peuvent tre difficiles modifier en tant que concepts changeant dans un sujet prcis. Latent Semantic Indexing (indexation smantique latente)

Latent Semantic Indexing est une mthode de recherche dinformation statistique qui est capable de rcuprer le texte bas sur les concepts qu'il contient, non seulement par correspondance des mots cls spcifiques. D'abord appliqu au texte Bell Labs dans les annes 1980, il a t appel LSI en raison de sa capacit corrler les termes smantiquement lis dans une collection de texte. LSI utilise une matrice terme-document appele TDM pour identifier l'apparition des termes dans un ensemble de documents, en se basant sur la frquence dapparition des termes dans les diffrents documents pour reflter le fait que certains termes sont plus importants que d'autres dans un corps de texte, puis effectue une dcomposition en valeur singulire (SVD) sur la matrice pour dterminer les modles dans les relations entre les termes et concepts utiliss dans les documents. LSI utilise une technique de transformation mathmatique pour rduire le nombre de dimensions reprsentant la matrice termes -document pour la rendre utilisable et efficace. Une consquence du traitement LSI est la cration d'associations entre des termes qui apparaissent dans des contextes similaires. En consquence, les requtes sur un ensemble de documents qui ont subi LSI renvoi des rsultats qui sont conceptuellement similaires dans un sens la requte mme si elles ne partagent pas un mot ou des mots spcifiques la requte. Les avantages thoriques de LSI ont t soigneusement tests et sont soutenus par des rsultats exprimentaux. La tche de catgorisation de documents en fonction de leurs similitudes conceptuelles par exemple, a dmontr la supriorit de LSI sur les autres approches pour extraire des informations smantiques partir de documents.

2.2 Introduction VSM (Vector Space Model)


Dans cette section on prsente une brve illustration du mcanisme le plus fondamental de l'algbre linaire. VSM, un modle prsent par G. Salton, est une technologie d'IR qui est base sur le concept d'un espace de vecteur.

ENP

Page 26

Chapitre II

Indexation smantique latente Latent semantic indexing

Les termes, les documents et les requtes sont reprsents comme des vecteurs dans un espace de vecteurs. Dans ce modle, la base de donnes est reprsente comme une matrice de documents et de termes (TDM), tous les documents dans la base de donnes sont stocks dans les colonnes de la matrice et tous les termes sont stocks dans les lignes de la matrice. Un document est reprsent par un vecteur d = (d1 ; d2 ; : : : : Dn) o chaque lment di est un nombre indiquant le degr d'importance (nombre dapparition) dun terme Ti (le modle de VSM est fond sur l'hypothse que la signification dun document peut tre connu a partir des termes contenus dans le document). En d'autres termes chaque document est reprsent comme vecteur dans un espace de vecteur de dimension n. De mme, la requte de lutilisateur peut tre reprsente comme vecteur q [28] [29] [30] dans cet espace. L'utilisation d'une telle technique se fonde sur un modle mathmatique fondamental. Dans ce modle, les documents sont reprsents comme des ensembles de termes qui peuvent tre pess et manuvrs. Ainsi on peut comparer la reprsentation de la requte la reprsentation de chaque document dans l'espace de vecteur. Des documents de la base de donnes seront slectionns comme rsultat de la recherche par l'intermdiaire des oprations de vecteur simples. Plus de dtails au sujet des outils utiliss pour mesurer la similitude entre les termes, les documents et la requte sont fournis dans le chapitre 3. VSM a t dvelopp pour liminer plusieurs problmes lis aux techniques utilisant des mots-cls traditionnels, spcialement la synonymie et polysmie comme dcrit en chapitre 1. La fonction de recherche pour ce modle est base sur la signification smantique et conceptuelle des documents elle fournit un mcanisme pour comparer les termes dans une requte aux termes dans un document, aussi bien que la comparaison entre les documents dans la base de donnes. Avoir tous les composants d'IR dans le mme espace de vecteur, et le calcul des similitudes entre elles permettent davoir le rsultat dsir. Ceci signifie que des rsultats qui sont conceptuellement plus appropris aux utilisateurs peuvent tre retourns automatiquement aux utilisateurs [28]. Une reprsentation de l'espace de vecteur des documents tridimensionnels est montre dans figure.4, o chaque document se compose de trois termes. Comme mentionn cidessous, l'exemple tridimensionnel peut tre prolong n dimensions quand on a n termes diffrents qui reprsentent le document.

ENP

Page 27

Chapitre II

Indexation smantique latente Latent semantic indexing

Puisque la configuration de l'espace de document est en fonction des termes et des poids des termes qui sont assigns aux divers documents de la base de donnes, on peut se demander si une configuration optimum de l'espace de document existe, c.--d, une configuration qui produit une performance optimale de recherche. Si rien de spcial n'est connu au sujet des documents l'tude, on pourrait considrer qu'un espace de documents est idal quand des documents qui sont conjointement appropris la requte d'utilisateur sont groups ensemble, donc ils seraient proposs conjointement en rponse la rquete de lutilisateur.

Figure 4 : Reprsentation de document de l'espace de vecteur [27]

De mme les documents loigns dans lespace de documents ne seront jamais proposs conjointement en rponse.
ENP Page 28

Chapitre II

Indexation smantique latente Latent semantic indexing

Une telle situation est montre dans figure. 5, o la distance entre deux croix reprsentant deux documents est inversement lie la similitude entre les vecteurs correspondants. La configuration de documents de la figure. 5 peut reprsenter la meilleure situation, en supposant que les documents pertinents et non pertinents en ce qui concerne les diverses requtes sont sparables comme le montre la figure. Dans son travail de brevet [27] Salton clarifie cela, aucune manire pratique nexiste pour produire rellement un tel espace, parce qu'il est difficile de produire la configuration optimale en l'absence de la connaissance des dtails complets de la recherche pour la base donne. Dans ces circonstances, le besoin davoir recours LSI se fait sentir, puisque cette technique peut aider en fournissant un tel espace de vecteur riche.

Figure 5 : Reprsentation idale de l'espace de document [27]

ENP

Page 29

Chapitre II

Indexation smantique latente Latent semantic indexing

Comme dfini prcdemment la LSI est un modle de l'espace de vecteur qui a recours la dcomposition en valeur singulire (SVD). Cependant, il y a une diffrence importante entre la LSI et le VSM, savoir la LSI utilise une approximation de qualit infrieure pour la reprsentation de l'espace de vecteur de la base de donnes. C'est--dire, la TDM originale est remplace par une autre matrice qui est assez semblable la TDM originale mais dont l'espace de colonne est seulement un sous-espace de l'espace de colonne de la matrice originale. L'algorithme de SVD est employ dans la LSI pour rduire l'espace de vecteur, enlever le bruit ou la redondance lexicologique (qui sont illustrs dans la prochaine section) de la TDM, afin d'essayer de rsoudre le problme d'inexactitude li la synonymie et la polysmie. Le LSI fournit clairement un espace de vecteur riche, qui exploite les rapports smantiques latents entre les limites et les documents. La rduction de l'espace de vecteur a l'effet d'indiquer le rapport smantique fondamental parmi les documents, parce qu'une grande partie du bruit dans la matrice est enlev [28].

2.3 Bruit lexicologique


Aprs la cration de la TDM, qui est une matrice bidimensionnelle reprsentant le nombre de fois un mot-cl apparat dans chaque document de la base de donnes, la matrice rsultante sera creuse, une grande proportion d'lments seront des zros, car chaque mot-cl apparatra seulement dans quelques documents. Les zros dans la matrice reprsentent le bruit ou la redondance lexicologique dans la matrice faible densit. Dans le systme de LSI, l'algorithme de SVD est employ pour enlever ce bruit lexicologique dans la TDM originale, afin d'tablir le rapport smantique parmi les termes et les documents et d'essayer de surmonter les problmes d'inexactitude lis au mot-cl traditionnel assortissant des mthodes d'IR. On pourrait suggrer lexistence de trois (au moins) types de bruit dans le cadre de LSI qui sont : x Bruit traditionnel par exemple les mots d'arrt (stoplist) mentionns en chapitre 1 (a, de, etc.). Ce type de bruit est habituellement trait et enlev l'tape de prtraitement de la base de donnes suivant les indications du chapitre 3.

ENP

Page 30

Chapitre II x

Indexation smantique latente Latent semantic indexing

Bruit produit par la structure pauvre de la base de donnes ou du modle de requte employ. Plus de dtails sur les consquences dune telle structure sont donns dans le chapitre 3. Les descriptions plus longues de document augmentent le nombre de mots-cls et la distribution des valeurs diffrentes de zro dans la TDM, qui aide alternativement en amliorant la signification smantique parmi les documents dans la base de donnes. D'une autre part, les descriptions plus courtes de document reprsentent la structure pauvre de la base de donnes qui ne soutient pas la technique de recherche par LSI, mesure que la redondance dans la TDM augmente pour de tels types de structure.

Nouveaux types de bruit produit par des spammers ou d'autres essayant d'viter le filtre des systmes sur des annonces.

2.4 Algorithmes de LSI


Comme mentionn dans l'introduction, une grande partie du travail existant sur le LSI s'est concentre sur les tapes de prtraitement effectues sur les bases de donnes, et sur les algorithmes de dcomposition utiliss pour l'approximation de la TDM. Cette partie du chapitre prsente ces tapes.

2.4.1 Prtraitement
Dans cette section, les secteurs noyau dans l'tape de prtraitement savoir : l'identification et l'limination des mots d'arrt, steamming algorithm, pondration de termes, contrle de pertinence et l'entretien de la base de donnes (mise jour) sont prsents. x StopWords (mot darrt): La recherche dans ce secteur a t centre sur ce qui constitue les mots-cls dans une base de donnes, qui dcrivent la base de donnes et sont employs comme rfrences aux titres de documents. La rgle d'analyse employe par la plupart des chercheurs [3] [6] a exig que les mots-cls apparaissent dans plus d'un document mais n'apparat pas dans tous les documents. Des termes qui sont prsents dans seulement un document, ou bien dans tous les documents devraient tre supprims car elles ont peu ou pas de capacit d'amliorer la signification smantique parmi les documents de la TDM. Le but de ce travail a t d'extraire les termes qui ont une signification et d'enlever la ponctuation, les adjectifs, et les mots qui sont considr n'avoir aucune signification, par exemple et , ou , dans .
ENP Page 31

Chapitre II

Indexation smantique latente Latent semantic indexing

donc tous les termes se produisant dans plus d'un document et qui ne font pas partie de la liste des mots d'arrt (stopwords) seront inclus. La liste de mots d'arrt construite par Fox [20] a t largement accepte comme norme pour identifier les mots nonsignificatifs qui peuvent tre limins d'une liste de mots-cls. Le processus d'exclure de tels mots haute frquence et sans signification est connu comme stoplisting [1]. x

Stemming Algorithm : la premire publication sur le stemming algorithm ft en 1968 [31]. Tandis que celui qui en a le plus parl tait Porter (1980) [32]. Une quantit de travail considrable a t consacre produire des algorithmes de provenance efficaces pour IR [33] [34] [35]. Un algorithme de provenance dcompose des mots en tiges, par exemple les mots-cls voyage , voyageur , voyager , peuvent tout tre dcomposs en tige voyage . Cette tige peut alors tre employe comme un mot-cl plutt que devoir stock les trois mots-cls sparment. En consquence, la provenance rduit le stockage exig pour tenir des mots-cls en rduisant le nombre de mots-cls tenir [1]. L'ide principale derrire la provenance est que les utilisateurs recherchant des informations sur le mot recherche seront galement intresss par les articles sur : recherch, recherchant, ainsi de suite [26]. Cependant, l'utilit de la provenance pour amliorer la qualit de recherche a toujours t remise en cause dans la communaut de la recherche [6] [26]. Car dans beaucoup de cas elle pourrait mener une information non pertinente qui cause une rcupration pauvre, ne correspondant pas la requte et l'utilisateur peut tre considrablement ennuy [26] [34] [35]. Par consquent, beaucoup de chercheurs ont vit l'utilisation du Stemming Algorithm dans leur travail sur LSI [3] [22] [17], particulirement depuis que les mmoires sont disponibles de nos jours et qui possdent suffisamment de volume pour enlever ces soucis de stockage.

Pondration de terme : Comme avec le Stemming Algorithm, il existe un corps de travail considrable sur la pondration de terme [3] [36] [22] [37] [38]. La

pondration de terme est l'une des mthodes communes pour amliorer la performance de la recherche. Elle consiste donner des poids aux diffrents termes de TDM. Dans la pratique, des poids locaux et globaux sont appliqus pour augmenter, ou diminuter, l'importance des termes dans les documents de la TDM. Les poids globaux refltent l'importance dun terme dans tous les documents dune base de donnes. les poids locaux refltent quant eux l'importance dun terme dans un document donn.
ENP Page 32

Chapitre II

Indexation smantique latente Latent semantic indexing

Quelques chercheurs ne tiennent compte d'aucune pondration de terme dans la TDM et emploient un modle non pondr simple de TDM dans leur recherche [6]. Dans le VSM classique propos par Salton et d'autres [27] le poids des termes dans le document correspondant dans la TDM est le produit des poids locaux et globaux. Le vecteur de poids pour le document d est : Vd = [ O :
, | | |{ }| ,

;..;

x x

est la frquence du terme t dans le document d (un paramtre local).


| | |{ }|

est la frquence inverse de document (paramtre global). | | est le nombre }| est le nombre de document

total de document dans la base de donnes ; |{ contenant le terme t.

Dans un VSM simple les poids de terme n'incluent pas le paramtre global. Les poids utiliss dans la TDM sont juste les occurrences de terme (paramtre local) : =

9 Contrle de pertinence : Ce processus peut tre identifi comme procd command ou automatique pour la reformulation de la requte [39]. Souvent, les utilisateurs ne rechercheront pas tous les documents appropris la premire tentative, ceci est d la requte pauvre en information, qui n'exprime pas exactement ce que les utilisateurs recherchent. La recherche peut tre amliore en rassemblant la rtroaction d'utilisateur sur la pertinence des documents renvoys. Fondamentalement le processus est comme suit : Aprs que des rsultats prliminaires de recherche soient prsents, permettre l'utilisateur de fournir la rtroaction sur la pertinence des documents recherchs. Utiliser cette information de rtroaction pour reformuler la requte. Produire de nouveaux rsultants bases sur la reformulation de la requte.

ENP

Page 33

Chapitre II

Indexation smantique latente Latent semantic indexing

La requte reformule sur la base de la rtroaction est gnre comme suit : Expansion ou reformulation de la requte : Ajouter les nouveaux termes des documents pertinents la requte. Repondration des termes : Augmenter le poids des termes des documents pertinents et diminuer le poids des termes des documents non pertinents [1] [40]. Dans d'autres systmes de LSI une mthode diffrente pour la reformulation de requte est adopte. L'information d'utilisateur pour le contrle de pertinence est employe pour formuler une nouvelle requte en ajoutant les vecteurs des documents appropris au vecteur de la requte, qui peut tre regard comme somme des documents appropris de la premire requte [3]. Ou une autre mthode qui consiste soustraire les vecteurs des documents non pertinents du vecteur de la requte. Figure. 6 (obtenue partir d'un site Web de cours d'IR l'Universit du Texas Austin [40]) dpeint le procd de contrle de pertinence dans les systmes d'IR. Le travail dcrit dedans examine et value l'utilisation de cette technique dans des systmes de recherche. Le contrle de pertinence fournit beaucoup d'avantages la recherche. Le succs de ces mthodes est que beaucoup de mots (ceux des documents appropris) enrichie la requte initiale qui est habituellement tout fait appauvrie [3]. Mais il est important de noter que, dans les grandes collections de document, le jugement des documents chaque requte induit un cot lev de calcul.

Figure 6 : Reprsentation de contrle de pertinence [40]


ENP Page 34

Chapitre II

Indexation smantique latente Latent semantic indexing

9 Mise jour : Il est probable que les bases de donnes doivent tre modifies. L'information est continuellement ajoute ou enleve. Dans un systme de LSI, l'approche standard qui consiste faire des additions (de nouveaux termes ou documents) est de rappliquer la SVD sur la nouvelle TDM, cette approche comporte de nombreux calculs, particulirement pour de grandes bases de donnes. Dans leffort dviter ce cot de calcul lev, d'autres techniques ont t considres, par exemple folding-in et SVD updating. Celles-ci sont discutes dans [3] [6] [4] et [41]. folding-in n'est pas cher en termes informatiques mais elle a comme consquence une reprsentation imprcise de la base de donnes. On lui recommande que des documents soient plis de temps en temps. SVD updating est plus chre en termes informatiques mais elle a l'avantage significatif de prserver la reprsentation de la base de donnes [1].

2.4.2 Dcomposition de Matrice


La recherche s'est dplace au del des fondations du procd de LSI, et un grand nombre de recherches a t effectu dans le but dacclrer le procd de LSI. Beaucoup d'articles ont dcrit les composants du systme de LSI en dtail en prsentant l'essai empirique afin d'amliorer l'arrangement du LSI pour IR [42] [17]. Les questions cls dans l'excution de LSI ont t identifies et discutes par Telcordia [42]. Dans ce travail sminal, les points suivants ont t soulevs: 9 Les questions de mise en uvre de la LSI dans la pratique ont t discutes en dcrivant les composants fonctionnels de la LSI. En particulier, les problmes d'volutivit dans les diffrentes composantes du systme ont t abords. 9 Le travail s'est concentr sur le calcul couteux des tches informatiques dans le systme de la LSI, en donnant des suggestions pour son excution afin de rduire le cot de calcul. Les issues proposes d'excution peuvent simplement tre rcapitules un certain nombre de points : prtant une attention particulire l'excution de la requte en se concentrant sur le temps de rponse de la recherche (le temps quil prend pour rpondre une requte), prsentant des techniques pratiques d'excution pour rduire des frais gnraux de recherche en fournissant diffrentes mthodes pour amliorer la vitesse de recherche. Tandis que le travail fournit une illustration

ENP

Page 35

Chapitre II

Indexation smantique latente Latent semantic indexing

intensive importante pour la LSI, il a quelques inconvnients comme numr dans les sections suivantes. Le travail vise rpondre aux questions essentielles sur les performances de la LSI en excutant un certain nombre de tests empiriques qui traitent de nombreux problmes dans la LSI, par exemple le choix d'un rang optimal pour la SVD et la distinction entre un document pertinent et non-pertinent. La recherche fournit une bonne comprhension du processus de LSI, cependant, ces rsultats ont t quelque peu insatisfaisants et les questions importantes mises en vidence dans le travail restent des questions ouvertes ou sans rponses dans la RI. Par exemple, le seuil utiliser en vue d'identifier les documents pertinents dpend de l'application. Plusieurs algorithmes de dcomposition alternative la SVD ont t proposs, y compris la factorisation QR [3] [1] [43] et semi dcomposition discrte de la matrice (SDD) [44]. Dcomposition QR consiste identifier et ignorer les dpendances dans les colonnes de TDM qui n'apportent pas de nouvelles ides pour les documents dans la base de donnes. Bien que le QR soit plus simple que la SVD, elle n'a pas t utilise dans les mthodes IR, car l'algorithme de SVD est plus puissant en termes de volume de rsultats trouvs [1]. La dcomposition SDD [45], dvelopp pour tre utilis dans la compression d'image, a une fonction de base similaire la SVD dans son approximation de la matrice. Cependant, dans la dcomposition SDD les m vecteurs et les n vecteurs (o m et n reprsentent le nombre de termes et de documents, respectivement) sont limites aux entiers 1, 0, -1 [44]. Tel que revendiqu, l'algorithme SDD renvoie les mmes rsultats que l'algorithme de SVD et prsente les avantages de l'utilisation de moins d'un vingtime de l'entreposage et seulement la moiti du temps de la requte. Cependant, l'algorithme SDD a l'inconvnient de prendre cinq fois plus de temps calculer que la SVD. Dans les oprateurs unitaires sur l'espace de document [46], Hoenkamp montre que la dcomposition sous-jacente LSI est un exemple d'un oprateur unitaire. Hoenkamp propose l'utilisation de la transforme de Haar (HWT) comme une alternative pour son cot de calcul nettement moindre. Cet axe de recherche a montr des rsultats prometteurs. En outre, la notion de reprsentation de la TDM comme une image au niveau de gris, comme illustr sur la Figure. 7 (La base de donnes Cochrane contient des titres d'tudes mdicales [47]) a t postule. Dans ce modle, les points blancs dans l'image (valeurs non nulles) reprsentent les
ENP Page 36

Chapitre II

Indexation smantique latente Latent semantic indexing

mots-cls dans les ensembles de documents. En outre, il a fait savoir que l'aide de la HWT pour supprimer le bruit d'une image est quivalente l'aide de la HWT pour supprimer le bruit lexical de la TDM. Cependant, c'est un travail thorique qui doit tre prouv dans la pratique.

Figure 7 - TDM Cochrane reprsente comme une image en niveaux de gris

ENP

Page 37

Chapitre II

Indexation smantique latente Latent semantic indexing

2.5 Application de la LSI : La LSI est videmment employ dans la recherche dinformation, mais la richesse d'autres applications qui emploient la LSI dmontre combien cette technique est efficace, et que le travail aura un impact plus large dans le futur. Cette section prsente une vue d'ensemble des diverses applications dans diffrents secteurs qui emploient les techniques de la LSI. Peut-tre les applications les plus tonnantes de la recherche de LSI ont t dans les domaines autres que l'IR. La SVD a t employe avec des algorithmes de filigranage pour rsoudre le problme de la protection de copyright des documents multimdia [55] et comme technique robuste et stable dans des applications traitement d'images. La rduction du rang a t employe dans la cryptographie [56] et dans le traitement d'images [7] [57] [58]. De plus, comme le montre notre travail, la LSI est la mthode rvolutionnaire dans lIR, Les rsultats exprimentaux prouvent que la LSI, avec les configurations textuelles et visuelles, a la capacit d'identifier le concept smantique fondamental des documents dune base de donnes, ayant pour rsultat l'amlioration de l'excution de rcupration. D'autres chercheurs ont employ la LSI dans le domaine de la rcupration d'image [8] [9] [59] [60]. Traditionnellement les images sont stockes dans de grandes bases de donnes. On suggre l'utilisation du LSI pour extraire les images requises, Les techniques de rcupration d'image accdent habituellement aux images en se basant sur leurs contenus, cest plus efficace que de rechercher manuellement dans les grandes bases de donnes. Pour les travaux rcents, une matrice visuelle de mot-cls image est cre, alors la LSI est employe pour dcouvrir le rapport smantique entre les mots-cls et les images visuelles, afin d'amliorer le procd de rcupration. Le concept du LSI a t galement employ dans les systmes de rcupration audio et vido [10] [61] [11] [62] [63]. Dans les applications audio, le jet audio est converti en jet de texte par un systme de reconnaissance de la parole. Alors le texte de chaque partie du discours est reprsent dans un vecteur de document qui est la somme des mots que contient la parole. On peut aussi utiliser la structure smantique approprie base de donnes qui peut tre obtenue par LSI, afin de rduire l'effet du bruit produit des erreurs de reconnaissance de la parole.

ENP

Page 38

Chapitre II

Indexation smantique latente Latent semantic indexing

Dans les applications vido, les squences vido sont dcomposes en contenu visuel (reprsentant les squences vido) et mots (dcrivant le contenu visuel) pour former une matrice. Alors la LSI est employe pour dterminer les rapports entre les mots et le contenu visuel selon les Co-occurrences des mots dans le contenu dans la matrice. Comme technique, la LSI peut modeler le contenu visuel, rduire le bruit et augmenter l'information de Cooccurrence. LSI n'est pas spcifique la langue anglaise, il n'utilise pas la syntaxe ou la smantique tendue de l'anglais mais relve plutt des mots dans la base de donnes. cet gard LSI peut tre applique n'importe quelle langue. Les principes de LSI ont t appliqus la recherche inter-langues. Avec l'explosion de l'Internet et les rseaux distribus, il ya de nombreuses collections de documents qui existent dans plusieurs langues. Dans la recherche inter-langue, en saisissant une requte dans une langue, la LSI peut tre utilise pour retourner les documents dans une autre. Ce qui est requis pour les applications inter-langues, un espace commun dans lequel les mots de plusieurs langues sont reprsents [3]. Dans [12], une mthode de recherche documentaire automatise totalement inter-langues, dans laquelle aucune traduction de la requte nest requise, est dcrite. Les requtes dans une langue peuvent rcuprer des documents dans d'autres langues. Ceci est accompli par une mthode qui construit automatiquement un espace multi-langue smantique en utilisant la LSI. Lanalyse smantique latente inter-langue a t utilise pour dvelopper une reprsentation de faible dimension constitue de mots et de documents dans plusieurs langues.

Inconvnients des travaux existants :


Comme on peut le voir dans les sections prcdentes, il reste encore beaucoup de possibilits pour davantage de recherche dans l'amlioration de la performance du systme de LSI. Les principales limites du travail existant peuvent tre identifies comme suit: x Ces dernires annes, le volume de recherches sur les tapes de prtraitement effectue sur les bases de donnes, devient faible en comparaison la recherche sur les autres phases, la plupart des travaux existants sur l'tape de prtraitement ont t largement accept par la plupart des recherches. En outre, des outils suggrs pour lamlioration de la recherche ont t proposs. Seulement, sur certaine bases de
ENP Page 39

Chapitre II

Indexation smantique latente Latent semantic indexing

donnes, ils ralisent de petites amliorations sur les rsultats de la recherche, alors que dans d'autres bases de donnes ils rendront la recherche pauvre. De plus, la technique de pertinence entrane un cot de calcul lev avec les grandes bases de donnes. En outre, certains chercheurs sont enclins tester leurs mthodes sans utiliser d'outils. x L'amlioration des rsultats pour nombreuses approches du LSI, en collaboration avec d'autres techniques, a t ngligeable, et il ya de nombreux inconvnients et faiblesses qui peuvent tre identifis. En Telcordia LSI Engine, le travail n'a pas abord la prcision et le rappel de LSI comme des mesures standard pour l'efficacit de LSI, et utilise seulement le temps de rponse des requtes. Un tel systme mtrique n'est pas suffisant pour les questions de mesure du rendement. x Certains travaux peuvent tre considrs comme simplement un test empirique pour LSI, offrant une bonne perception des phases du systme, ainsi que d'essayer de rpondre de nombreuses questions sans rponses pour LSI telles que la dtermination de la meilleure valeur de k. Le rsultat, comme l'indiquent les chercheurs, n'tait pas satisfaisant. Tous les algorithmes de dcomposition alternative SVD qui ont t suggres ont chou, et la norme SVD base LSI reste le moyen le plus efficace de chercher en termes de nombre de documents retourns. x En termes d'applications de LSI, peu de lacunes peuvent tre souleves, car le succs de la technique de LSI dpend du milieu et des objectifs quon veut atteindre. Toutefois, dans les applications d'apprentissage, il est clair que LSI manque dimportantes capacits cognitives que les humains possdent et utilisent pour appliquer les connaissances expriments. x La plupart des recherches pour amliorer la performance de LSI ont t portes sur la complexit de l'tape de dcomposition. trs peu de travaux tudient l'amlioration de la prcision des documents retourns. Bas sur les limitations des travaux existants, et les principaux objectifs prsents dans le chapitre 1, le travail expos dans cette thse peut tre rsume comme suit: x Le systme LSI, comme indiqu ci-dessus, peut former un domaine fertile de la recherche, nous allons valuer empiriquement l'effet quengendre le changement du paramtre le plus important, le nombre de dimensions k extraite par SVD, sur la
ENP Page 40

Chapitre II

Indexation smantique latente Latent semantic indexing

performance de LSI. Comment dterminer les dimensions optimales de la SVD, afin de rpondre une question critique. En outre, l'utilisation d'un outil d'analyse SNR et mesure du bruit dans la TDM. x L'importance de la structure de la base, comme un facteur cl dans l'amlioration des rsultats de LSI, a t dmontre par le volume considrable de recherches menes sur cette question. Des recherches sont menes pour prsenter et dcrire la structure la plus efficace pour la base de donnes qui aideront la modlisation du bruit lexicale et son enlvement de la TDM, afin damliorer la recherche dans le systme LSI. x LSI, comme indique ci-dessus, a t utilise en tandem avec d'autres techniques pour obtenir de meilleures performances dans les rsultats. Une approche couramment utilise dans le traitement de l'image est de combiner diffrentes techniques afin d'amliorer la rduction du bruit. La comparaison de la TDM une image en niveaux de gris invite un traitement similaire. Une approche hybride, efficace et nouvelle de LSI pour une utilisation efficace en RI base sur l'utilisation de techniques de traitement d'image en tandem avec les lments existants seront prsentes.

2.6 Conclusion
Ce chapitre rsume les travaux existants sur le domaine de la recherche dinformation, en particulier sur la LSI. Une brve introduction l'architecture originale de VSM (l'origine du systme LSI) a t prsente. Des algorithmes de dcomposition existants, utiliss pour le rapprochement TDM ont galement t mentionns et examins. Un aperu des diffrentes applications dans diffrents domaines ayant utilis les techniques de LSI a t donn. En outre, les limites du travail en vigueur ont t fixes. C'est le but du travail de recherche prsent dans ce projet de fin dtude pour rpondre aux limites prsentes dans la section prcdente grce une approche hybride d'analyse nouvelle. Une nouvelle mthodologie, base sur l'utilisation de techniques de traitement d'image, sera tudie dans le chapitre suivant, afin de faciliter l'analyse de grandes bases de donnes.

ENP

Page 41

Chapitre III
Les ondelettes de Haar

Chapitre III

3.1 Introduction

Les ondelettes de Haar

Comme cela a t mentionn prcdemment, La LSI prend en charge de nombreux avantages sur les techniques traditionnelles de ciblage des mots cls. Toutefois, ces avantages ont un cot de calcul lev. En dpit de laugmentation des vitesses allant jusqu' cent fois plus grce l'algorithme original du LSI [1], actuellement, mme les meilleurs systmes sont trop lents pour de nombreuses applications. Dans Unitary Operators on the Document Space [4], Hoenkamp affirme que la proprit fondamentale de la SVD est son caractre unitaire, sa capacit reprsenter l'espace document dans un nouvel espace de telle sorte que les documents connexes restent ensemble et les documents sans rapport loigns, et cela avec un bruit gnr trs faible. Il postule encore l'ide de la matrice de terme document comme une image en niveaux de gris, l'quivalence de l'utilisation de la dcomposition de Haar pour supprimer le bruit lexical et en utilisant la dcomposition de Haar pour supprimer le bruit d'une image. Ce chapitre vise tudier les ondelettes de Haar pour comprendre sa fusion avec la SVD et lamlioration que nous pourrons avoir en combinant les deux techniques.

3.2 La Transforme en Ondelettes


Les deux approches mathmatiques prsentes dans les prcdemment sont adaptes aux processus stationnaires. De nouvelles mthodes labores et mises au point ces dernires annes, unifient et gnralisent les ides et les pratiques dveloppes prcdemment et permettent danalyser des signaux non-stationnaires. La Transforme en ondelettes fait partie de ces nouvelles mthodes, son principe est de dcrire lvolution temporelle dun signal diffrentes chelles de temps. La thorie des ondelettes est apparue au dbut des annes 1990 [44], elle touche de nombreux domaines des mathmatiques, notamment le traitement du signal et des images [45], [42]. Cette section prsente un rapide aperu des fondements thoriques des Ondelettes, pour aller plus loin sur cette thorie du traitement du signal laide des Ondelettes, le lecteur pourra se reporter au livre de Mallat [43].
ENP Page 44

Chapitre III

Malgr une origine aux nombreuses racines, on attribue le point de dpart de

Les ondelettes de Haar

lutilisation des ondelettes au gophysicien Jean Morlet, qui envisageait de les utiliser pour lanalyse de sismogrammes utiliss dans la recherche de ptrole sous terre. Dans la transformation par Ondelettes, comme dans lanalyse de Fourier, en cherche transformer un signal quelconque en une srie de nombres que lon pourra ensuite utiliser pour reconstruire au mieux le signal dorigine. Cependant dans la transformation par Ondelettes, on utilise plusieurs niveaux de rsolution pour examiner le signal et faire ressortir les diffrentes variations. L'analyse multi rsolution donne un ensemble de signaux d'approximation et de dtails d'un signal de dpart en suivant une approche fin--grossier. On obtient une dcomposition multi-chelle du signal de dpart en sparant chaque niveau de rsolution les basses frquences (approximation) et les hautes frquences (dtails) du signal. Cette approche un sens quand le signal des composantes haute frquence pour des courtes dures et des composantes de basse frquence pour de longues dures. Pour accomplir une telle tache une Ondelette sera employe au lieu dune fonction de fentrage, la Transforme en ondelettes est capable de fournir les informations de temps et de frquence simultanment et donc une reprsentation temps frquence du signal.

3.2.1 Dfinition
La Transforme en ondelettes est une reprsentation multi-rsolutions, qui exprime les variations d'un signal diffrentes rsolutions. Une Ondelette est une fonction oscillante, comme les fonctions sinus et cosinus, mais localise. Cela se traduit par le fait qu'elle est intgrable de valeur 0.
+

Le signal est tudie aux chelles , ,...,2 , avec j et j 1

() = 0

ENP

Page 45

Chapitre III

3.2.2 LOndelette de Haar

Les ondelettes de Haar

LOndelette de Haar est lOndelette dont le support est le plus petit, cela implique que sa transforme du signal ncessitera le minimum despace de stockage. 1. Cas dune dimension :

Soit h la fonction, dite de base de Haar, dfinie sur par :


h(x) =
1 si 0 < < 0 sinon
1 2

Avec une priode de Haar unitaire.

Supposons que nous avons un signal dfinit sur lintervalle [0,1]. Pour avoir une approximation discrte du signal nous allons calculer ses valeurs dans deux points, quatre points, huit points et ainsi de suite ; le diviser en deux fonctions, de 0 1 / 2 et de 1 / 2 1, puis en quatre fonctions, de 0 1 / 4, de 1 / 4 1 / 2, de 1 / 2 3 / 4, et de 3 / 4 1 etc. On obtient diffrentes rsolutions et pour chacune on peut avoir une reprsentation dans l'espace des fonctions l'aide d'un systme de fonctions de base, nommes fonctions de base multi-rsolutions ou multi-chelles. Les Ondelettes sont des fonctions de base multi - chelles qui assurent le passage cohrent entre les diffrentes rsolutions, la dcomposition et la reconstitution de la fonction reprsente. Si on utilise les Ondelettes comme systme de fonctions de base, chaque niveau on dispose des approximations (moyennes) de la fonction initiale et des informations de dtails.

3.2.3 Exemple de calcul

La transforme de Haar de la fonction f(x) = [1 2 3 ] gnre : la fonction prisent deux par deux 1 = (1 + 2 )/2

Des approximations 1 2 3 2 qui sont les moyennes des valeurs initiales de

ENP

Page 46

Chapitre III

Coefficients de dtail ou les diffrences1 2 3 2 , Avec : 1 = 1 1 ; 2 = 3 2

Les ondelettes de Haar

Considrons un signal monodimensionnel compos de quatre chantillons

S = [2 4 8 12 14 0 2 1]

Pour calculer sa transforme de Haar, moyennons dabord les paires de valeurs voisines pour obtenir [3 10 7 1.5]

ENP

Page 47

Chapitre III

Afin de rcuprer le signal initial nous devons galement enregistrer dautres valeurs

Les ondelettes de Haar

reprsentant la perte dinformation. [-1 -2 7 0.5] Le signal peut donc tre reprsent par sa rsolution infrieure et le signal de dtail. En appliquant ce procd, rcursivement sur le signal on aboutit sa transforme de Haar, la fin signal est reprsent par un seul coefficient de moyenne du signal et l'ensemble de coefficients des signaux de dtails successifs.

Rsolution 8 4 2 1

Moyenne [2 4 8 12 14 0 2 1] [3 10 7 1.5] [6.5 4.25] [5.375]


Tableau 3. Transforme de Haar du signal S

Dtails

[-1 -2 7 0.5] [-3.5 2.75] [1.125]

Observons la transforme de Haar ainsi obtenue, en plus du coefficient de moyenne du signal, les coefficients de dtails expriment les variations du signal aux diffrentes rsolutions. A une mme chelle, plus le coefficient est grand en valeur absolue, plus ces variations sont importantes. Le signal original sera prsent par :

[5.375 1.125 -3.5 2.75 -1 -2 7 0.5]

ENP

Page 48

Chapitre III 2.

Cas de deux dimensions :

Les ondelettes de Haar

Il ya un certain nombre de faons d'appliquer la dcomposition de Haar une structure deux dimensions (matrice). La mthode utilise dans le prsent document est la mthode standard qui consiste appliquer en premier lieu la dcomposition de Haar toutes les lignes de la matrice puis d'appliquer la dcomposition toutes les colonnes de la matrice rsultante.

Figure 8 : Dcomposition de Haar dune matrice

3.2.4 Le dbruitage
Le bruit est une erreur alatoire dune variable mesure. Il existe plusieurs raisons possibles pour gnrer des donnes bruites, tel que les erreurs de mesures pendant lacquisition des donnes, les erreurs humaines, ou les erreurs de machines lors de la saisie des donnes. On peut dfinir, donc, le dbruitage comme le processus didentification des donnes optimales parmi les donnes bruites disponibles. La rduction du bruit l'aide de Haar peut tre ralise par une varit de systmes de seuillage. Dans ce document la mthode du seuil dur sera utilise. Cela mettra toutes les valeurs en dessous du seuil zro. Par exemple, si le vecteur (1, 10, 4, 6) possde un seuil de 5 dur, le rsultat est (0, 10, 0, 6).
ENP

Analyse :

Page 49

Chapitre III

Les ondelettes de Haar

Figure 9: Une image et la dcomposition de premier niveau de Haar de l'image.

Comment peut-on expliquer cela? Si nous revenons l'analogie Hoenkamp de la matrice terme document comme une image en niveaux de gris, nous pouvons faire la lumire sur le processus. En traitement d'images, la dcomposition de Haar peut tre utilise pour rvler la structure d'une image; les diffrents niveaux de rsolution montreront les diffrentes caractristiques de limage: la structure de pointe, dtails de fond etc. Ceci est illustr dans la figure3.1. Si on considre la matrice termes documents comme une image, alors les mmes rgles doivent s'appliquer. Une autre considration est la valeur des pixels dans une image en gris, compare limage de la matrice de termes documents. Une image de 8 bits en chelle de gris aura des valeurs comprises entre 0 et 255, et est susceptible d'avoir une bonne rpartition des valeurs
ENP Page 50

Chapitre III

dans cette plage. Dans une matrice terme document, la plupart des valeurs sont 0 ou 1. La rduction du bruit l'aide de Haar exploite la redondance en remplaant les valeurs proches de zro par zro aprs lapplication de la dcomposition de Haar. Toutefois, avant mme la dcomposition de Haar, la plupart des valeurs dans une matrice de termes documents sont dj proches de zro, do le besoin de bien choisir le seuil pour une bonne rduction du bruit sans pour autant causer du dommage la matrice. Aprs cette brve tude des ondelettes de Haar, on constate que l'application de cette technique est en mesure d'amliorer le processus de LSI. Tant que la dcomposition de Haar [9] est utilise dans le domaine de la rduction du bruit de limage. Lapproche combine SVD-Haar pourrait potentiellement avoir un effet positif en comparaison dapplication de la SVD seule. Une tude complmentaire est donc propose.

Les ondelettes de Haar

3.3 tude propose :


L'tude vise examiner l'effet de la dcomposition de Haar comme une tape posttraitement sur le processus standard de LSI.

ENP

Page 51

Chapitre III

Aperu du processus de rvision :

Les ondelettes de Haar

Prtraitement

Matrice termes documents TDM

Dcomposition

Base de donnes

Matrice U Matrice Matrice S V

Approximation De K

Matrice termes documents Dbruite

dbruitage

Matrice termes documents Dcompose

Dcomposition de HAAR

Matrice termes documents Approximative

Reconstruction de HAAR

Matrice termes documents


Requte

Cosine

Rsultats

Reconstruite
Figure 10 Processus rvis

3.4 Conclusion :
Une approche couramment utilise dans le traitement de l'image est de combiner diffrentes techniques afin d'amliorer la rduction du bruit, Le but de la recherche prsente dans ce chapitre est de dvelopper une nouvelle approche de l'indexation smantique latente (LSI) dans le cadre de recherche de documents texte bas sur des techniques de traitement d'image, ceci grce la combinaison SVD-HAAR. Ltude et lanalyse des rsultats dus cette fusion sont prsentes dans le chapitre suivant.
ENP Page 52

Chapitre 4 tude exprimentale et analyse des rsultats

Chapitre IV

Etude exprimentale et analyse des rsultats

4.1 Introduction
Dans ce chapitre, une nouvelle approche pour l'analyse lexicale du bruit dans le processus de l'indexation smantique latente (LSI) est prsente. Cette approche, base sur l'utilisation d'outils de traitement d'image, est considre comme une nouvelle philosophie pour la mesure et l'analyse de LSI en recherche d'information (RI). Une tude sur la catgorisation de textes est propose, dans laquelle, diffrentes caractristiques des bases de donnes peuvent tre utilises pour amliorer la recherche. Afin de fournir une base claire pour expliquer les tapes impliques dans le modle propos, les tapes de mise en uvre d'un systme standard de LSI sont examines en premier dans la section 4.2. Un aperu de l'architecture et l'application des algorithmes classiques de dcomposition de matrice est fournie, ainsi quune explication des mthodes utilises pour gnrer les rsultats et les outils de mesure utiliss pour l'valuation des performances des systmes. Les sections 4.3 et 4.4 prsentent la nouvelle approche pour l'analyse lexicale. A la section 4.5 on prsente brivement linterface graphique du projet. La conclusion de ce chapitre est donne dans la section 4.6.

4.2 Les composants du systme LSI


Dans cette section, tous les lments associs la phase de traitement du systme LSI sont clarifies. Traditionnellement LSI est mis en uvre en plusieurs tapes [3] [6] [16]. La premire tape consiste prtraiter les donnes de documents. Ce processus comprend la suppression de tous les termes de ponctuation et les stop words comme the, as, and, etc, c'est dire ceux qui n'ont pas de sens smantique distinctif dans un document. Ltape suivante consiste construire une matrice terme document (TDM), qui reprsente la relation entre les documents et les mots quils contiennent dans la base de donnes. Un algorithme de matrice convenable de dcomposition est alors utilis pour dcomposer la TDM, afin d'liminer le bruit dans la matrice, en rduisant la dimensionnalit de la TDM.
Page 53

ENP

Chapitre IV

Etude exprimentale et analyse des rsultats

L'algorithme de dcomposition initial propos par Berry [3] [18] et al, et de loin le plus largement utilis, est la dcomposition en valeurs singulires (SVD) [4] [19] [20]. La dcomposition est utilise pour liminer, ou au pire de rduire le bruit (reprsent par raret) de la matrice. Elle fonctionne en rduisant la dimensionnalit des TDM facilitant ainsi la dtermination de la relation smantique entre les termes et les documents dans le systme. Un avantage supplmentaire est que cette approche favorise l'limination de la polysmie et de synonymie. Wiemer-Hastings montre que le pouvoir de LSI vient principalement de l'algorithme SVD [21]. Choisir un paramtre optimal de rduction de dimensionnalit (k) reste insaisissable. Traditionnellement, le k optimal est choisi par l'excution d'un ensemble de requtes avec des ensembles connus de documents pertinents pour plusieurs valeurs de k [22]. La valeur de k qui retourne les meilleurs rsultats est choisie comme le k optimal pour chaque collection. Enfin, lensemble de documents est compar avec la requte et les documents qui sont les plus proches de la requte de l'utilisateur sont retourns.

4.2.1 Description de la base de donnes


Dans cette recherche, la base de donnes contient un ensemble de titres de documents sur lequel la recherche est effectue. Cette section dcrit la structure et le contenu des bases de donnes utilises dans ce travail. Structure de la base : La base de donnes utilise est un tableau dans Microsoft Access. Le tableau est sous la forme: ID, Titre; longlet Titre contient les titre des documents partir duquel les motscls sont gnrs. Longlet ID permet de rfrencier les documents. Contenu de la base de donnes : Les documents utiliss dans les expriences sont organiss comme un ensemble de deux bases de donnes. La base de donnes Mmos trs petite, elle est souvent utilise comme un exemple de travail dans de nombreux articles traitant la LSI [3] [16]. Une telle structure s'est avre utile pour tracer les grands principes de LSI. Nous avons inclus cette base de donnes dans notre tude pour fournir une rfrence de base.
Page 54

ENP

Chapitre IV

Etude exprimentale et analyse des rsultats

La base de donnes Cochrane est une petite base de 135 documents contenant les titres d'tudes mdicales dans l'administration du mdicament qui est un autre systme de test couramment utilis dans la littrature LSI. Il peut tre trouv sur le site de Cochrane [47].

4.2.2 Description de prtraitement de documents


La table des documents de la base de donnes doit tre convertie en une TDM. Avant que cela puisse tre ralis, un prtraitement doit tre effectu sur l'ensemble des documents. Comme mentionn prcdemment, la ponctuation et les mots sans signification (stop list) doivent tre supprims, et les mots-cls ncessaires la construction doivent tre extraits pour la comparaison avec la requte de l'utilisateur [3]. Initialement tout le texte de la base de donnes est extrait, et runis pour former une grande collection de termes qui apparaissent dans chacun des documents. Cette liste est ensuite traite par:

Suppression des caractres de ponctuation "0123456789.,;:() [] etc:, ceux-ci ne contribuent pas la signification des termes dans les documents. Surpression des mots vides. Ce sont des mots de la stop-list qui n'ont aucun sens pour la recherche et donc ne reprsentent en rien la structure smantique des documents. Des exemples de mots vides sont : les, probablement, toutefois, etc.

La prochaine tape de prtraitement consiste retirer les mots en double dans la liste des mots cls. Parce que tous les mots ont t extraits de chaque entre dans la table, beaucoup de mots apparaissent plus d'une fois et doivent tre enlevs. Ce rsultat est obtenu en triant tous les termes dans la liste des mots-cls par ordre alphabtique, donc tous les mots rpts sont adjacents dans la liste. Une fonction rcursive peut tre utilis pour comparer chaque paire adjacente de mots dans la liste des mots cls, et si elles sont les mmes, le terme dupliqu est supprim.

Enfin, une liste qui comprend tous les mots-cls de l'ensemble des documents est obtenue, avec une liste de mots-cls dans chaque document.

ENP

Page 55

Chapitre IV

Etude exprimentale et analyse des rsultats

Exemple base de donnes Mmos Pour une bonne illustration de ltape de prtraitement, on utilise la base de donnes mmos comme exemple [6]. Les titres de la base mmos sont prsents dans le tableau 4: human computer interface for ABC computer applications 1 a survey of user opinion of computer system response time 2 the EPS user interface management system 3 system and human system engineering testing of EPS 4 relation of user perceived response time to error measurement 5 the generation of random, binary and ordered trees 6 the intersection of paths in trees 7 graph minors IV: widths of trees and well-quasi ordering 8 graph minors: a survey 9 Tableau 4: Ensemble des documents de la base de donnes Memo [6]

Matrice terme document Une fois le prtraitement termin, la TDM est construite partir d'une liste de termes qui caractrisent la structure de tous les documents et la liste des mots cls pour chaque document qui a t gnr l'tape prcdente. Chaque range de la matrice est attribue un terme, et chaque colonne de la matrice est attribue un document. La valeur qui apparat dans la position (i, j) de la matrice est le nombre de fois que le mot-cl attribu la ligne i apparat dans le document attribu la colonne j. La plupart des valeurs dans la matrice sont nulles, seulement sous-ensemble de mots cls apparat dans un document donn. Il est intressant de voir la relation des termes dans les documents.

ENP

Page 56

Chapitre IV

Etude exprimentale et analyse des rsultats

La TDM gnr pour l'exemple Mmos est prsente au tableau 5.

Computer Eps Graph Human Interface Minors Response Survey System Time Trees User

B1 2 0 0 1 1 0 0 0 0 0 0 0

B2 B3 B4 B5 B6 B7 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 1 2 0 0 0 1 0 0 1 0 0 0 0 0 0 1 1 1 1 0 1 0 0 Tableau 5: TDM pour l'exemple Mmos [6]

B8 0 0 1 0 0 1 0 0 0 0 1 0

B9 0 0 1 0 0 1 0 1 0 0 0 0

Chaque colonne de la base de donnes peut tre considre comme un vecteur dcrivant le document qu'elle reprsente, chaque ligne peut tre considre comme un vecteur dcrivant le terme qu'elle reprsente. Les documents sont dcrits en termes de mots cls qui les composent, et les mots cls sont exprims en termes des documents dans lesquels ils apparaissent. Il est sans doute une grande partie de la redondance (bruit lexicales) dans ce processus, comme illustr par la faible densit de la matrice. Le processus LSI vise liminer cette redondance en dcomposant la TDM en utilisant l'algorithme SVD.

4.2.4 Vecteur requte


Pour pouvoir mener la recherche, les requtes doivent galement tre reprsentes sous forme vectorielle. Ceci est ralis par le mme procd qui est utilis pour convertir les documents en colonnes dans la TDM. Les mots-cls sont extraits de la requte, et si un motcl apparat galement dans le document figurant alors le nombre de fois qu'elle apparat dans la requte est enregistr en utilisant le mme format que l'un des vecteurs de documents dans la TDM.

ENP

Page 57

Chapitre IV

Etude exprimentale et analyse des rsultats

4.2.5 Implmentations des algorithmes de dcomposition matricielle


Comme mentionn prcdemment, maintenant que la TDM a t gnr, la dcomposition de matrice peut tre effectue afin de gnrer un lien smantique entres les termes et les documents de la TDM, Dans notre tude on utilisera lalgorithme de SVD.

Dcomposition en valeurs singulires Appele aussi Singular Value Decomposition (SVD), cette technique consiste projeter la matrice dans un espace de dimension plus faible o les descripteurs considrs ne sont plus de simples termes. Avec cette mthode, les termes apparaissant ensemble sont projets sur la mme dimension. Cette reprsentation est cense rsoudre partiellement le problme de synonymie et de polysmie. Elle permet de trouver des documents pertinents pour une requte mme sils ne partagent aucun mot avec cette requte. Grce une analyse statistique de grands corpus, le sens de chaque mot est caractris par un vecteur dans un espace de grandes dimensions, la proximit entre deux vecteurs correspondant la proximit de sens de ces mots. Cette analyse statistique consiste construire une matrice doccurrences qui sera rduite afin de faire ressortir les relations smantiques latentes entre mots ou entre textes. En effet, deux mots peuvent tre considrs smantiquement proches sils sont utiliss dans des contextes similaires. Le contexte dun mot est ici dfini comme lensemble des mots qui apparaissent conjointement avec lui. Cette notion de co-occurrence est videmment statistique, la mthode fonctionne si un nombre suffisant de textes est utilis. Cette approche permet donc de reprsenter les termes de la collection suivant la structure smantique latente. Le LSI utilise une matrice X (terme-document) qui est compose des vecteurs de termes et de documents. Elle utilise la technique de dcomposition valeur singulire afin dapproximer la matrice terme-document par des combinaisons linaires et permet donc de crer un nouvel espace vectoriel : = 0 0 0
ENP

Page 58

Chapitre IV O

Etude exprimentale et analyse des rsultats

0 est la matrice orthogonale des vecteurs singuliers de gauche, droite, 0 est la transpose de la matrice 0 ,

0 est la matrice contenant les colonnes orthogonales des vecteurs singuliers de 0 est la matrice diagonale (trie) des valeurs singulires.

t est le nombre de lignes dans X, d est le nombre de colonnes dans X et m est le rang

de X tel que (m min(t, d)). Il est prouv quil existe une seule dcomposition de cette manire.

Figure. 11 Reprsentation de la dcomposition en valeurs singulires de la matrice X

Cette matrice est par la suite rduite par la matrice Xh contenant les plus grandes valeurs singulires k (k m). = 0 0 0

ENP

Page 59

Chapitre IV

Etude exprimentale et analyse des rsultats

Figure. 12 Rduction de la SVD de la matrice X

Xh ne garde que les k premires valeurs et permet donc de reprsenter les documents dans un espace de dimension k. Lespace smantique tant construit, la proximit smantique entre deux mots est dtermine par le cosinus de leur angle. Les documents qui nont pas servis la phase de la cration de la TDM sont ajouts cet espace rduit en approximant leur position suivant le vecteur contenant le vocabulaire qui le caractrise. Ce qui suppose que lespace LSI cr au dpart caractrise bien les dimensions importantes de similarit pour pouvoir approximer un nouveau terme ou un nouveau document dans la collection. Ce genre dapproche suppose que lchantillon utilis pour la mise en uvre de la TDM est rellement reprsentatif de la collection de documents. Le paramtre k est important dfinir car une rduction un espace de trop grande dimension ne ferait pas suffisamment merger les liaisons smantiques entre mots, et un trop petit nombre de dimensions conduirait une trop grande perte dinformations. Le nombre adquat de dimensions ne peut pas tre actuellement dtermin thoriquement ; seuls des tests empiriques peuvent situer cette valeur qui varie dune base une autre. De plus, les valeurs de la matrice aprs rduction ne sont pas interprtables (par les tres humains).

ENP

Page 60

Chapitre IV

Etude exprimentale et analyse des rsultats

4.2.6 Mthodologie des mtriques


Cette section explique les mthodologies utilises pour gnrer les rsultats. Chaque colonne de la TDM reprsente un document mis en forme vectorielle comme le montre le tableau 6. Cela est galement vrai pour la TDM approche. La requte est un vecteur ligne construite de telle sorte que sa transpose peut tre considr comme quivalent un vecteur contenant seulement les mots qui apparaissent dans la requte. En effet, la requte est un pseudo-document. Par exemple la requte (0 1 0 1) est un vecteur ligne de 4 dimensions.
0 1 0 0 0 0 1 1 1 1 1 0 0 0 0 1 0 1 0 1

Tableau 6: Chaque colonne reprsente un document

Chaque vecteur document dans la TDM approche peut alors tre compar la requte en calculant le cosinus entre eux. Le cosinus est calcul partir de l'quation suivante:

O
ENP

est le vecteur transpos du vecteur de document dans la matrice a, est le module de ,

q est le vecteur requte,

q est le module de q.

Page 61

Chapitre IV

Etude exprimentale et analyse des rsultats

Le module est quivalent la norme euclidienne:


2 2 2 2 2 q = 1 + 2 + 3 + 1 + .

Une valeur du cosinus de 1 signifie que les deux vecteurs existent exactement le mme espace dimensionnel. En dessous de cette valeur les vecteurs deviennent de moins en moins similaires. Afin de dterminer les documents qui sont suffisamment semblables pour tre renvoy en rponse la requte d'un utilisateur, un seuil de 0,5 est fix par la plupart des chercheurs dans ce domaine. Le temps de calcul est galement un facteur important lorsque l'on considre les performances d'un algorithme.

4.2.7 Mtriques utiliss


Afin de montrer clairement les mesures, des graphiques illustrant les rsultats de diffrentes recherches pour chaque algorithme ont t tracs, reprsentant le nombre total de documents retourns et le nombre de documents pertinents retourns. Ou des graphiques forms dune seule ligne pour chaque algorithme dans le cas ou le nombre total de documents retourns est gal au nombre de documents pertinents retourns. Les performances de chaque algorithme dpendent des paramtres entrs par lutilisateur, par exemple le rang (k) pour la SVD, et la valeur seuil pour le traitement de l'image. A travers une gamme de valeurs de diffrents rangs (k), on dtermine une valeur optimale, c'est dire une valeur de k qui renvoit les meilleurs rsultats lutilisateur.

4.3 Analyse du bruit lexical et des mesures en recherche d'information intelligente


Dans cette section, on prsente une nouvelle approche pour l'analyse de la TDM en utilisant des techniques de traitement d'image. Il est noter que la visualisation de la TDM comme une image permet dexaminer et analyser plus facilement les grands ensembles de donnes [72]. La distribution sur le TDM, qui peut tre remarque facilement sur l'image visualise, dpend de la structure, le contenu et la taille de la base de donnes comme il sera montr la section suivante. Ces facteurs constituent une base pour l'tude et la comprhension du processus de LSI.
ENP Page 62

Chapitre IV

Etude exprimentale et analyse des rsultats

Figure 13: TDM comme une image de la base de donnes Mmos

Figure 14: TDM comme une image de la base de donnes Cochrane Page 63

ENP

Chapitre IV

Etude exprimentale et analyse des rsultats

4.3.1 Mthodologie propose pour la mesure de bruit lexicale


Dans cette section, une nouvelle mthodologie de mesure du bruit lexicale est prsente. Premirement, la TDM est gnre puis reprsente comme une image en niveaux de gris.

Figure 13: TDM comme une image de la base de donnes Mmos

Figure 14: TDM comme une image de la base de donnes Cochrane


ENP

Page 64

Chapitre IV

Etude exprimentale et analyse des rsultats

La dcomposition SVD est ensuite applique pour une gamme de valeurs de k, en reconstruisant les matrices approches, obtient les rsultats illustrs dans les figures 3.12 3.23. Le choix de la valeur de k est une tape trs importante, car cette valeur un effet majeur sur la structure de la TDM qui peut tre clairement remarqu sur les images.

Figure 15: Image TDM aprs SVD avec k = 4 de base de donnes Mmos

Figure. 15 montre l'image de l'approximation TDM k=4 de la base de donnes des mmos. En examinant la TDM approche, il est clair que la distribution des valeurs nonnulles a t amliore et la cration dun nouvel espace a t engendr.

Dans la Figure. 16 l'image de l'approximation TDM k=1, semble avoir compltement dtruit linformation apporte par la TDM. Une valeur trs faible de k provoque l'limination de l'information utile et de ce fait la destruction de l'approximation de la TDM. D'autre part dans la Figure. 17, k=8, aucun changement ne peut tre dtect dans le TDM. 8 dimensions sont conserves et une seule dimension a t retire de la matrice diagonale des valeurs propre de la TDM, ce qui a un effet mineur sur la matrice originale.

ENP

Page 65

Chapitre IV

Etude exprimentale et analyse des rsultats

Figure 16: Image TDM aprs SVD avec k = 1 de base de donnes Mmos

Figure 17: Image TDM aprs SVD avec k = 8 de base de donnes Mmos Figure. 19 montre nouveau une bonne structure de TDM k=80 de la base de donnes Cochrane. La propagation des valeurs non-nulles est meilleure en comparaison avec la TDM originale.

Comme le montre la Figure. 18, la valeur k=1 supprime la plupart des informations contenues dans le TDM.

ENP

Page 66

Chapitre IV

Etude exprimentale et analyse des rsultats

Figure 18: Image TDM aprs SVD avec k = 1 pour base de donnes Cochrane

Figure 19: Image TDM aprs SVD avec k = 80 pour base de donnes Cochrane
Page 67

ENP

Chapitre IV

Etude exprimentale et analyse des rsultats

4.4 Approche empirique


Dans cette section l'attention est accorde l'identification du k optimal pour la base de Cochrane (les valeurs de rduction du rang qui sont utiliss dans l'algorithme de SVD). Lobjectif est de dterminer la meilleure structure pour une base de donnes qui mnera de meilleurs rsultats de recherche de LSI, pour ensuite appliquer le dbruitage de HAAR mentionn dans le chapitre prcdents afin doptimiser le systme de recherche. La recherche LSI est effectue par une requte diffrentes valeurs de k. les figures x z prsentent le nombre de documents pertinents et documents retourns pour chaque requte, et les rsultats montrent que la meilleure valeur de k o le plus de documents pertinents sont retourns est k=80.
6 5 4 3 2 1 0 0 50 60 80 90 Documents pertinents Documents retrouvs

Figure 20 : Rechercher Intervention treating pour diffrentes valeurs de k


1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 50 60 80 90

Documents pertinents Documents retrouvs

Figure 21 : Rechercher Immunoglobulin pour diffrentes valeurs de k


ENP

Page 68

Chapitre IV

Etude exprimentale et analyse des rsultats

Documents trouvs
2,5 2 1,5 Documents trouvs 1 0,5 0 0 50 60 80 90

Figure 22 : Rechercher Acupuncture pour diffrentes valeurs de k

4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0 50 60 80 90 Documents pertinents Documents trouvs

Figure 23 : Rechercher Acupuncture asthma pour diffrentes valeurs de k


Page 69

ENP

Chapitre IV
2,5

Etude exprimentale et analyse des rsultats

1,5 Documents pertinents 1 Documents trouvs

0,5

0 0 50 60 80 90

Figure 24 : Rechercher Treatment effects pour diffrentes valeurs de k

6 5 4 3 Documents trouvs 2 1 0 0 50 60 80 90

Figure 25 : Rechercher Therapy pour diffrentes valeurs de k

ENP

Page 70

Chapitre IV

Etude exprimentale et analyse des rsultats

La performance des algorithmes, tels que dcrites dans les sections prcdentes, est dtermine en examinant le nombre global de documents retourns par la requte, et le nombre de documents retourns qui sont pertinentes la requte de l'utilisateur. Une combinaison de la SVD avec un k optimal et le dbruitage de HAAR montre clairement lefficacit de cette fusion comme le montrent les figurent 26 29.

9 8 7 6 5 4 3 2 1 0 80_SVD 80_SVD+HAAR Documents retourns Documents pertinents

Figure 26 : Rechercher Intervention treating en utilisant la 80_SVD et la 80_SVD+HAAR

2 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 80_SVD 80_SVD+HAAR Documents retourns

Figure 27 : Rechercher Immunoglobulin en utilisant la 80_SVD et la 80_SVD+HAAR


Page 71

ENP

Chapitre IV

Etude exprimentale et analyse des rsultats

4 3,5 3 2,5 2 1,5 1 0,5 0 80_SVD 80_SVD+HAAR Documents retourns Documents pertinents

Figure 28:Rechercher Acupuncture asthma en utilisant la 80_SVD et la 80_SVD+HAAR

4 3,5 3 2,5 2 1,5 1 0,5 0 80_SVD 80_SVD+HAAR Documents retourns Documents pertinents

Figure 29 : Rechercher Treatment effects en utilisant la 80_SVD et la 80_SVD+HAAR

ENP

Page 72

Chapitre IV

Etude exprimentale et analyse des rsultats

4.5 Interface graphique


Pour une meilleure illustration des diffrentes tapes de ltude, une interface graphique a t construite. Elle permet de prsenter de manire ludique les diffrents traitements appliqus dans la recherche, et de fournir lutilisateur une prise en main aise afin de tester les diffrents modes de recherches.

Figure 30: page daccueil de linterface graphique

Figure 31: Exemple de recherche dans linterface graphique


ENP

Page 73

Chapitre IV

Etude exprimentale et analyse des rsultats

4.6 Conclusion
Une nouvelle approche hybride a t prsente dans ce chapitre pour une utilisation efficace en RI. Les rsultats de ltude pour les diffrentes approches montrent que, en appliquant HARR comme une tape de post-traitement aprs la SVD dans le processus de LSI donne de bons rsultats. Il est bnfique de noter que l'action prcise de l'tape de traitement dpend de la valeur de k utilises pour la SVD et la valeur seuil utilise dans la transformation.

ENP

Page 74

Conclusion gnrale
Ce travail sintresse la modlisation de linformation textuelle pour lanalyse et la recherche dinformation, en se portant essentiellement sur les points suivants : - Le mode de reprsentation des documents dans un corpus - le mode de reprsentation des requtes exprimes par un utilisateur, pour la recherche dinformation, - la comparaison, laide de la modlisation que nous avons dfinie, entre un document et une requte ou entre plusieurs documents. Les principaux modles de reprsentation de linformation : modle boolen, boolen pondr, modle vectoriel, etc. ont t conus, pour la plupart il y a une trentaine dannes. La grande majorit des recherches actuelles se fonde sur ces modles pour amliorer les rsultats des SRI. On sintresse lindexation smantique latente, dont ses 3 phases qui sont : le prtraitement, le traitement et la requte. On dbute avec une tude de la SVD en localisant le k optimal qui donne les meilleurs rsultats. On se propose damliorer les performances de cette technique et cela en supprimant le bruit gnr par la SVD en utilisant le dbruitage de Haar. Des tests montrent clairement la lefficacit de cette approche hybride. Une interface graphique a t construite. Elle permet de prsenter de manire ludique les diffrents traitements appliqus dans la recherche.

Bibliographie
[1] Mooers, C.N. "Application of Random Codes to the Gathering of Statistical Information", MIT, Thse de Master, 1948.

[2] Mizzaro, S. "How many relevance's in information retrieval?", Italie : Departement of Mathematics and Computer Science, University of Udine, 1998.

[3] K. Bharat and A. Broder, "A technique for measuring the relative size and overlap of public web search engines," Proceedings of the 7th International Conference on World Wide Web 7, Brisbane, Australia, pp. 379-388, 1998.

[4] S. Lawrence and C. Giles, "Searching the world wide web," Science, vol. 280, pp. 98-100, 1998.

[5] T. A. Letsche and M. W. Berry, "Large-scale information retrieval with latent semantic indexing," Information Sciences: International Journal, vol. 100, pp. 105 - 137, 1997.

[6] Z. Wang, S. Wong, and Y. Yao, "An analysis of vector space models based on computational geometry," Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 152 - 160, 1992.

Bibliographie
[7] V. V. Raghavan and S. K. M. Wong, "A critical analysis of vector space model for information retrieval," Journal of the American Society for Information Science, vol. 37, pp. 279-287, 1986.

[8] G. Salton, A. Wong, and C. S. Yang, "A vector space model for automatic indexing," Communications of the ACM, vol. 18, p. 613620, 1975.

[9] M. Berry, S. Dumais, and G. OBrien, "Using linear algebra for intelligent information retrieval," SIAM Review, vol. 37, pp. 573 - 595, 1995.

[10] S. Deerwester, S. Dumais, T. Landauer, G. Furnas, and R. Harshman, "Indexing by latent semantic analysis," Journal of the Society for Information Science, vol. 41, pp. 391- 407, 1990.

[11] C. Fox, "Lexical analysis and stoplists. in information retrieval - data structures & algorithm," Prentice-Hall, pp. 102-130, 1992.

[12] M. W. Berry, Z. Drmavc, and E. R. Jessup, "Matrices, vector spaces, and information retrieval," SIAM Review, vol. 41, pp. 335 - 362, 1999.

Bibliographie
[13] J. Lovins, "Development of a stemming algorithm," Mechanical Translation and Computational Linguistics, vol. 11, p. 2231, 1968.

[14] M. F. Porter, "An algorithm for suffix stripping," Program, vol. 14, pp. 130-137, 1980.

[15] W. B. Frakes, \Stemming algorithms. in information retrieval - data structures & algorithm," Prentice-Hall, pp. 131 - 160, 1992.

[16] D. Hull, "Stemming algorithms - a case study for detailed evaluation," Journal of the American Society for Information Science, vol. 47, pp. 70 - 84, 1996.

[17] M. Fuller and J. Zobel, "Conflation-based comparison of stemming algorithms," Proceeding of the 3rd Australian Document Computing Symposium, pp. 8-13, 1998.

[18] A. Singhal, "Modern information retrieval: A brief overview," IEEE Data Engineering Bulletin, vol. 24, pp. 35-43, 2001.

Bibliographie
[19] A. Kontostathis, \Essential dimensions of latent semantic indexing (lsi)," Proceedings of the 40th Hawaii International Conference on System Sciences - 2007, pp. 73 - 73, 2007

[20] E. R. Jessup and J. H. Martin, "Taking a new look at the latent semantic analysis approach to information retrieval," Computational Information Retrieval, pp. 121 - 144, 2001.

[21] S. Dumais, "Improving the retrieval of information from external sources," Behavior Research Methods, Instruments and Computers, vol. 23, pp. 229-236, 1991.

[22] S. Robertson and S. Walker, \Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval," Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p. 232241, 1994.

[23] A. Singhal, C. Buckley, and M. Mitra, "Pivoted document length normalization," Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p. 2129, 1996.

Bibliographie
[24] G. Salton and C. Buckley, "Improving retrieval performance by relevance feedback," Journal of the American Society for Information Science, vol. 41, pp. 288-297, 1990.

[25] "Query operations (relevance feedback / query expansion)," PowerPoint Presentation in Information Retrieval and Web Search Course, University of Texas at Austin URL: www.cs.utexas.edu/ mooney/ir-course/, 2008.

[26] G. OBrien, "Information management tools for updating an svd-encoded indexing scheme," Master's thesis, University of Tennessee, Knoxville, TN, 1994.

[27] H. Zha and H. Simon, "On updating problems in latent semantic indexing," SIAM Journal on Scientific Computing, vol. 21, pp. 782 - 791, 1999.

[28] C. Chen, N. Stoffel, M. Post, C. Basu, D. Basu, and C. Behrens, "Telcordia lsi engine: Implementation and scalability issues applied," Proceedings of the International Workshop on Research Issues in Data Engineering (RIDE), pp. 51-58, 2001.

[29] S. Richards and A. Lovely, "Matrices, vector spaces and information retrieval," Student Project in Linear Algebra, College of the Redwoods, 2002.

Bibliographie
[30] T. Kolda and D. O'Leary, "A semi-discrete matrix decomposition for latent semantic indexing in information retrieval," ACM Transactions on Information Systems, vol. 16, p. 322346, 1998.

[31] D. P. Oleary and S. Peleg, "Digital image compression by outer product expansion," IEEE Transactions on Communications, vol. 31, pp. 441- 444, 1983.

[32] E. Hoenkamp, "Unitary operators on the document space source," Journal of the American Society for Information Science and Technology, vol. 54, pp. 314 - 320, 2003.

[33] Cochrane, "Url: http://www.cochrane.org," 2005.

[34] R. Liu and T. Tan, "An svd-based watermarking scheme for protecting rightful ownership," IEEE Transactions On Multimedia, vol. 4, pp. 121-128, 2002.

[35] C. Moler and D. Morrison, "Singular value analysis of cryptograms," The American Mathematical Monthly, vol. 90, pp. 78-87, 1983.

Bibliographie
[36] R. Zhao and W. I. Grosky, "Narrowing the semantic gap-improved text-based web document retrieval using visual features," IEEE Transactions On Multimedia, vol. 4, pp. 189 - 200, 2002.

[37] H. Andrews and C. Patterson, "Outer product expansions and their uses in digital image processing," The American Mathematical Monthly, vol. 82, pp. 1-13, 1975.

[38] "Singular value decomposition (svd) image coding," IEEE Transactions on Communications, vol. 24, p. 425432, 1976.

[39] H. Ito and H. Koshimizu, "Keyword and face image retrieval based on latent semantic indexing," IEEE lntemational Conference on Systems, Man and Cybernetics, vol. 1, pp. 358 - 363, 2004.

[40] M. M. Rahman, B. C. Desai, and P. Bhattacharya, "Visual keyword-based image retrieval using latent semantic indexing, correlation-enhanced similarity matching and query expansion in inverted index," Proceeding of the 10th International Database Engineering and Applications Symposium, pp. 201-208, 2006.

Bibliographie
[41] S. Sclaroff, M. L. Cascia, S. Sethi, and L. Taycher, "Unifying textual and visual cues for content-based image retrieval on the world wide web," Computer Vision and Image Understanding, vol. 75, pp. 86-98, 1999.

[42] R. Zhao and W. I. Grosky, "From features to semantics: Some preliminary results," International Conference on Multimedia and Expo., vol. 2, pp. 679-682, 2000.

[43] M. Kurimo, "Indexing audio documents by using latent semantic analysis and som," In: Oja, E., Kaski, S. (Eds.), Kohonen Maps. Elsevier, Amsterdam, p. 363374, 1999.

[44] M. Kurimo, "Thematic indexing of spoken documents by using self-organizing maps," Speech Communication, vol. 38, pp. 29 - 45, 2002.

[45] F. Souvannavong, B. Merialdo, and B. Huet, "Video content modeling with latent semantic analysis," In the 3rd International Workshop on Content-Based Multimedia Indexing, 2003.

Bibliographie
[46] F. Souvannavong, B. Merialdo, and B. Huet, "Latent semantic indexing for semantic content detection of video shots," IEEE International Conference on Multimedia and Expo., vol. 3, pp. 1783- 1786, 2004.

[47] "Latent semantic analysis for an effective region-based video shot retrieval system," Proceedings of the 6th ACM SIGMM International Workshop on Multimedia Information Retrieval, pp. 243 - 250, 2004.

[48] M. Littman, S. Dumais, and T. Landauer, "Automatic cross-language information retrieval using latent semantic indexing," In SIGIR'96 - Workshop on Cross-Linguistic Information Retrieval, pp. 16-23, 1996.

[49] Using LSI for information filtering: TREC-3 experiments. Dumais, S. T. (1995) D. Harman (Ed.), The Third Text REtrieval Conference (TREC3) National Institute of Standards and Technology Special Publication In press 1995.

[50] An Overview of Latent Semantic Indexing Jason I. Hong SIMS 240 Spring 2000.

[51] Unitary operators on the document space Source (2003) Eduard Hoenkamp Journal of the American Society for Information Science and Technology Volume 54, Issue 4.

[52] Filtering noise from images with wavelet transforms J. B. Weaver, X. Yansun, D. M. Healy, Jr., and L. D. Cromwell Magnetic Resonance in Medicine, vol. 21, pp. 288-95, 1991.

Vous aimerez peut-être aussi