Vous êtes sur la page 1sur 49

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche


Scientifique
Université de Ghardaia

Recherched’information
Recherche d’information

Année universitaire 2017/2018

2
 INTRODUCTION
INTRODUCTION

 INDEXATION
INDEXATION POUR
POUR LA
LA RI
RI

 MODELES
MODELES DE
DE RI
RI

REFORMULATION
REFORMULATION DE
DE REQUETES
 REQUETES

3
INTRODUCTION
INTRODUCTION
INTRODUCTION
Définitions
Définitions

La recherche d'information ou RI (ou encore SRI) prend plusieurs terminologies:


• recherche d'information,
• informatique documentaire,
• information retrieval,
• document retrieval.
Salton définit la RI comme la branche de l'informatique qui consiste à acquérir,
organiser, stocker; rechercher et sélectionner l'information.
Les domaines d'application de la RI sont:
• Internet
• Bibliothèques numériques «digital library»
• Entreprises

5
INTRODUCTION
INTRODUCTION
Définitions
Définitions

 Comme un document peut être: un texte ou morceau de texte, une page


web, une image ou une vidéo, la recherche d’information peut être:
• Structurée
• Textuelle
• Visuelle / Sonore.
 Un système de recherche d’information est un système qui permet de
retrouver une information pertinente par rapport à une requête dans une
grande collection de documents.
 Les SRI sont jugés d’après la pertinence des documents trouvés.
 Une requête exprime le besoin d’information de l’utilisateur.
 Un document pertinent est un document qui doit contenir l’information que
l’utilisateur recherche.
 La pertinence dépend de l’utilisateur et de la requête (complexe, un peu
floue).

6
INTRODUCTION
INTRODUCTION
Définitions
Définitions

 Les informations peuvent être :


- Structurées en champs : Dans ce cas, les informations se trouvent dans
des bases de données, la requête est simple et le système se rapproche

des systèmes de gestion de base de données (SQL).


- Non structurées (texte) : On s’intéresse à l’accès à ce type d’information.
 Un document textuel peut contenir une partie structurée : champs (auteur,
date, titre,…).

7
INTRODUCTION
INTRODUCTION
Informationet
Information etbesoin
besoinen
eninformation
information

Une information est une donnée dont un individu a besoin pour


résoudre un problème particulier. L'individu exprime donc un besoin sous forme
de requête (question). Il existe deux types de besoins en information : le type
fermé et le type ouvert.

a) Question fermée : A une requête correspond un ensemble fini de réponses.


Les tâches d'Extraction d'Information (EI) et de Question Answering (QA)
font partie de cette catégorie, et elles sont en général appliquées à un
corpus spécialisé.
b) Question ouverte : Questions pour lesquelles il n'existe pas de réponse
complète et définitive. La RI s'intéressait à des BI ouverts et à des données
non structurées.

8
INTRODUCTION
INTRODUCTION
Objectif
Objectif

• Identifier en vue d’exploiter de l'information contenue dans des


documents
et des bases de données (son ,texte, image) par rapport à une requête
formulée par un utilisateur.
• Le SRI devra nous retourner le moins possible de documents non
pertinents
• Les contenus des documents peuvent être non structurés ou semi
structurés.

9
INTRODUCTION
INTRODUCTION
Approchesde
Approches dela
laRI
RI

• Approche minimaliste: à la grep


- On parcourt les documents et on cherche telle quelle le requête dans les

documents. Cette approche est couteuse et peu fiable.


- On cherche tels quels les mots de la requête dans les documents. Cette
approche est couteuse mais un peu plus fiable.
• Approche d’indexation des documents:
- Traitement pour construire une représentation des documents efficace
pour la recherche.

10
INTRODUCTION
INTRODUCTION
Historiquede
Historique dela
laRI
RI

La RI n'est pas un domaine récent :

• 1940 : Avec la naissance des ordinateurs, la RI se concentrait sur les


applications dans des bibliothèques. Depuis le début de ces études, la notion
de pertinence a toujours été un objet.
• 1950 : Début de petites expérimentations en utilisant des petites collections de
documents (références bibliographiques). Le modèle utilisé est le modèle
booléen.
• 1960-1970 : Expérimentations plus larges ont été menées. Développement
d’une méthodologie d'évaluation du système qui est aussi utilisée maintenant
dans d'autres domaines (des corpus de test ont été conçus pour évaluer des
systèmes différents).

11
INTRODUCTION
INTRODUCTION
Historiquede
Historique dela
laRI
RI

• 1970 : Développement du système SMART. Les travaux sur ce système ont été
dirigés par G. Salton. Certaines nouvelles techniques ont été implantées et
expérimentées pour la première fois dans ce système (par exemple, le modèle
vectoriel et la technique de relevance feedback et le modèle probabiliste).
• 1980 : Les travaux sur la RI ont été influencés par l’avènement de l'intelligence
artificielle. Ainsi, une tentative d'intégrer des techniques de l'IA en RI, par exemple,
système expert pour la RI, etc.
• 1990 : La venue de l'Internet a aussi modifié la RI. Beaucoup d’applications on
étés utilisées. La problématique est élargie.
Par exemple, on traite maintenant plus souvent des documents multimédia
qu'avant. Cependant, les techniques de base utilisées dans les moteurs de
recherche sur le web restent identiques.

12
INTRODUCTION
INTRODUCTION
Architecturegénérale
Architecture généraled’un
d’unSRI
SRI

13
INTRODUCTION
INTRODUCTION
Indexation
Indexation

L’étape d’indexation permet de réaliser le passage d'un document textuel (ou une
requête) à une représentation exploitable par un modèle de RI par la construction
de mots clés appelé langage d’indexation.

Document textuel (ou requête) représentation exploitable par le SRI


Indexation

Cette transformation appelée indexation consiste à extraire du texte un ensemble


de mots clés appelés descripteurs. Ces descripteurs vont représenter le document
dans le corpus. Chaque descripteur peut être accompagné de connaissances à
priori pour mieux appréhender la recherche.

14
INTRODUCTION
INTRODUCTION
Indexation
Indexation

• L’indexation des documents est le traitement pour construire une


représentation des documents efficaces pour la recherche.
• Représentation de l’information = Indexation
• L’indexation est un processus permettant de construire un ensemble
d’éléments (clés) permettant de caractériser le contenu d’un document
afin de le retrouver en réponse à une requête. Cette requête doit être
représentée dans un langage de requête à partir l’opération
d’interprétation. Donc pour assurer une recherche d’information, il faut:
- Un modèle de documents
- Un modèle de requêtes
- Une fonction de correspondance

15
INTRODUCTION
INTRODUCTION
Rechercheou
Recherche ouappariement
appariement

à une question d'un utilisateur grâce à la relation d’appariement. Cette relation


s'appuie sur des approches mathématiques. On en distingue:

• L'approche ensembliste
• L'approche algébrique (ou vectorielle)
• L'approche probabiliste

Certains systèmes de RI dits assistés permettent l’interaction avec l'utilisateur,


afin d'améliorer petit à petit les réponses du système de RI au cours d'une
session de travail. L'utilisateur intervient à chaque étape pour « aider » le
système à sélectionner les documents qu’il juge pertinents pour sa question.
Ces indications peuvent aussi servir pour améliorer globalement le
fonctionnement du système de RI.

16
INTRODUCTION
INTRODUCTION
Lareformulation
La reformulation

Un SR peut comporter une composante supplémentaire


appelée reformulation automatique d la question (requête).
Cette étape a pour objectif d'améliorer les performances du
SRI, donc la précision dans les réponses du système.

17
INTRODUCTION
INTRODUCTION
Lapertinence
La pertinence

La pertinence d'un document pour une question posée par l’utilisateur


s'exprime dans les modèles de RI sous la forme d'une valeur de plausibilité
(vraisemblance) déterminée grâce à une heuristique.
A titre d’exemple, pour la question « base de données » la réponse sera
d’autant plus pertinente si « base » et « donnée » se trouvent localisés
dans une même phrase. Il le sera d’autant moins si ces deux mots sont
répartis indifféremment dans le texte.

18
INTRODUCTION
INTRODUCTION
Précisionet
Précision etrappel
rappel
La précision ou le rappel est un moyen permettant de mesurer la
pertinence car la notion de valeur de plausibilité demeure assez vague.

19
INTRODUCTION
INTRODUCTION
Précisionet
Précision etrappel
rappel

Précision = Rr / R Taux documents pertinents dans les documents


Rapportés
Rappel = Rr / P Taux de documents pertinents rapportés
Bruit : 1 – Précision Documents non pertinents rapportés par le SRI
Silence : 1 – Rappel Documents pertinents non rapportés par le SRI

20
INTRODUCTION
INTRODUCTION
Précisionet
Précision etrappel
rappel
a) Précision : Un système de RI sera très précis si presque tous les
documents renvoyés sont pertinents. En fait c’est la proportion des
documents pertinents parmi l'ensemble de ceux renvoyés (rapportés)
par le système.

b) Rappel : Un système de RI aura beaucoup de rappel s'il renvoie la


plupart des documents pertinents du corpus pour une question. En fait

c’est la proportion de documents pertinents renvoyés par le système


parmi tous ceux qui sont pertinents

Application : Soit : NP = nombre de documents pertinents


Nr = nombre de documents rapportés
Nrp = nombre de documents pertinents rapportés

Calculer la précision, le rappel, le bruit et le silence.

21
INTRODUCTION
INTRODUCTION
Précisionet
Précision etrappel
rappel

Solution:

Précision = Nrp/Nr

Rappel = Nrp/Np

Bruit : 1 – Précision = 1 – Nrp/Nr = (Nr – Nrp)/Nr

Silence : 1 – Rappel = 1 – Nrp/Np = (Np – Nrp)/Np

22
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
La précision est une fonction décroissante du rappel. Précision et rappel
sont dans l'intervalle [0..1].

23
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision

Considérons à titre d'exemple une requête pour laquelle cinq documents


sont pertinents dans la base. Le système retourne 15 documents: {d1,..,
d15}. Les documents pertinents sont marqués par la lettre "P" comme
indiqué dans la troisième colonne du tableau suivant:

24
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
Document Pertinent Précision Rappel
D1 P 1.00 0.20
D2 0.50 0.20
D3 P 0.67 0.40
D4 P 0.75 0.60
D5 0.60 0.60
D6 P 0.67 0.80
D7 P 0.71 1.00
D8 0.63 1.00
D9 0.56 1.00
D10 0.50 1.00
D11 0.45 1.00

25
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision

Document Pertinent Précision Rappel


D12 0.42 1.00
D13 0.38 1.00
D14 0.36 1.00
D15 0.33 1.00

26
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision

On considère d'abord le premier document d1 restitué par le système. A ce


point, on a retrouvé un document pertinent parmi les 5 existants. Donc, le
rappel de 0.2, la précision est de 1/1. Le point de la courbe est donc (0.2,
1.0). On considère ensuite les deux premiers documents restitués. Le taux
de rappel est toujours de 0.2 et la précision est cette fois de 0.5
(un document sur deux est pertinent). Le point est donc (0.2, 0.5).
Ce processus est répété jusqu'à épuisement de la liste des réponses (qui
peut être très longue en incluant tous les documents de la base). Les
premiers points de la courbe sont alors représentés de la manière suivante:

27
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
Précision
1.0
* (0.2,1.0)

0.8
* (0.6,0.75)
0.6 *(0.4,0.67)

* (0.2,0.5)
0.4

0.2

0.2 0.4 0.6 0.8 1.0 Rappel


28
INDEXATION POUR LA RI

29
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Définition
Définition

L’indexation a pour rôle de représenter un


document ou une requête par un ensemble
de descripteurs, appelés aussi mots clé. Ces
descripteurs constituent une facilité
d’exploitation des documents étant donné
que le ceux-ci sont sous forme de textes
libres.

30
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Techniquesd’indexation
Techniques d’indexation

Manuelle

Semi automatique

Automatique

31
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Indexationmanuelle
Indexation manuelle

Chaque document est analysé par un


documentaliste ou un spécialiste du domaine étudié.
Il utilise à cet effet un vocabulaire contrôlé basé sur
le thésaurus (le lexique,…). C’est une opération qui
exige un effort particulier et peut prendre du temps.
En raison de facteurs humains (telle que la
subjectivité), un même document peut recevoir deux
listes différentes de descripteurs s’il est travaillé par
deux indexeurs différents.

32
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
IndexationAutomatique
Indexation Automatique

L’indexation automatique a pour objectif de produire un ensemble de mots, ou


termes, suffisamment informatifs pour bien représenter le contenu d’un document.
Les mots d’un document ne sont pas tous également significatifs. En langage écrit,
quelques termes portent plus de sémantique que d’autres. Ainsi, les documents sont
pré-traités pour faire la sélection des termes adéquats. L’ensemble de termes
présents dans un document conduit à une représentation imprécise de la
sémantique des documents. Par exemple, le terme ’le’ ne représente pas un sujet
en soi et peut conduire à donner comme résultat des documents non pertinents. On
dit que la représentation d’un document par l’ensemble de tous ses termes génère
du bruit en RI. Une façon de réduire ce bruit est de réduire l’ensemble de termes au
travers d’un pré-traitement. Cette réduction augmente aussi la performance du
système.

33
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
IndexationSemi
Indexation SemiAutomatique
Automatique

Un premier processus automatique permet


d'extraire les termes du document.
Cependant le choix final reste au spécialiste
du domaine ou au documentaliste pour
établir les relations entre les mots clés et
choisir les termes significatifs, et ce grâce à
une interface interactive.

34
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation

Au moins cinq grands niveaux de traitement linguistique :

• niveau du découpage , Tokénisation


• niveau morphologique : reconnaissance du mot
• niveau lexical : réduction du mot à sa forme canonique > lemmatisation
• niveau syntaxique : niveau d'utilisation de la grammaire
• niveau sémantique : niveau de la reconnaissance des concepts

35
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation

Niveau de découpage (Tokénisation) :

La tokénisation est appelée aussi segmentation.


Elle consiste à diviser un texte en unités lexicales (token) élémentaires.
C’est une opération qui « localise» les chaînes de caractères entourées
de séparateurs (caractère blanc, ponctuations), et les identifie comme
étant des mots. EIle permet aussi de procéder à une première
correction des fautes d’orthographe et des erreurs de saisie.

36
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
Niveaux léxical et morphologique :

Chaque mot de la langue lui correspond une catégorie morpho syntaxique.

a) Le lemme
Le lemme s'obtient par une flexion (paradigme flexionnel). Exemple: Je travaille,
tu travailles, il/elle travaille …. Le lemme est travailler. La catégorie grammaticale
rattaché à ce lemme est un verbe.

b) La racine
La racine s'obtient par une dérivation ( paradigme dérivationnel ). Exemple:
nation, nationalité, nationaliser…. La racine est nation . La catégorie rattachée
est un substantif.

c) Le mot composé
Mots non obligatoirement successifs qui doivent être reconnus comme formant
une seule entité.
37
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
Niveaux léxical et morphologique :

1) Racinisation
Cette première opération est indispensable pour pouvoir retrouver tous les
documents dans lesquels apparaissent différentes formes du même mot ».
Exemple : écologie, écologiste, écologique sont "racinisés" par un seul mot :
écologie.

2) Etiquetage ou tagging
Ce second traitement consiste à comparer chaque mot du texte (susceptibles
d’être ambiguë), avec les termes du dictionnaire intégré (référentiel ou
glossaire métier). Ceci, afin de leur attribuer une ou plusieurs étiquettes en
fonction du sens qu’ils sont susceptibles d’avoir dans le contexte où ils sont
utilisés. Cette opération permet aussi d’ « identifier » les mots composés et les
expressions toutes faites.

38
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
Niveaux léxical et morphologique :

3) Recherche des lemmes


On a souvent besoin dans les logiciels d’indexation de texte de regrouper les
mots qui se ressemblent. L’idéal serait de considérer la racine du mot, en la
recherchant dans un dictionnaire. L’opération demande beaucoup de temps, on a
souvent recours à des heuristiques.

4) Elimination des mots vides)


Les mots qui sont très fréquents dans les documents d’une collection n’ont pas un
bon pouvoir discriminant et ne doivent pas être inclus dans l’index. C’est le cas
des pronoms, des prépositions et des conjonctions, naturellement reconnus
comme des mots vides. L’élimination des mots vides permet une réduction de
l’index d’environ 40%. Vu que la réduction du nombre de termes augmente la
performance, certains systèmes considèrent, aussi, comme des mots vides
quelques verbes, adjectifs et adverbes.

39
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation

Cette étape arrive à la constitution d'un index des termes non éliminés,
considérés comme des index.
La recherche se fait selon logique booléenne par exemple : dans la phrase
"Prolétaires de tous les pays : unissez-vous", seuls les mots "prolétaires",
"pays" et "unissez" sont gardés.
A la recherche, il suffira de taper l'un de ces termes, ou une combinaison des
termes, pour retrouver la phrase.

40
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation

Difficultés :
 tous les mots gardés sont d’égale importance, et il n'y a pas d'ordre des
mots.
 l'analyse porte seulement sur des mots isolés (des unitermes), et délaisse
toutes les expressions (les syntagmes), souvent porteurs de sens. Ex : «
pomme de terre » donnera deux mots "pomme" et "terre", analysés
séparément
 la synonymie n’est pas prise en compte (Ex : vol = aussi bien vol d’avion
que vol à la tire l'analyse morphologique peut générer beaucoup de « bruit
ou de silence ». A noter aussi que certains moteurs de recherches
n’éliminent même pas les mots vides pour une recherche. Les mots vides
sont appelés une stoplist ou une stopword.

41
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation

1) Utilisation des règles de transformation du type


CONDITION ACTION.

Exemple : un mot ayant une terminaison de s


supprimer le s.

42
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation

Etape 1:
sses ss ( caresses caress)
ies i (ponies poni)
s NULL (cats cat)

Etape 2: En règle générale:


If m>0 eed ee (agreed agree)
Y > I Happy > Happi
ANT > NULL IRRITANT > IRRIT
EMENT > NULL REMPLACEMENT > REMPLAC
MENT > NULL JUSTEMENT > JUSTE

Etape 3:
ATIONAL > ATE RELATIONAL > RELATE
TIONAL > TION CONDITIONAL > CONDITION

43
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation

3) La Troncature.
Il s’agit de Tronquer les mots à X caractères (tronquer
plutôt les suffixes).
Un exemple de troncature à 7 caractères est :
économiquement : écomoni
La principale difficulté est comment déterminer la valeur
optimale de X ?

44
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation

Niveau syntaxique

Ce niveau s’intéresse de déterminer les


regroupements structurels des mots au sein des
phrases et les relations entre les mots.

45
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation

Niveau sémantique

Ce niveau s’intéresse au regroupement de termes


synonymes, aux familles de termes, pour dresser
un réseau des relations sémantiques.

46
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation

Autres niveaux
 Indexation fondée sur le calcul statistique des
occurrences, cad de la fréquence d'apparition de mots
dans un texte. Tous les mots significatifs d'un texte sont
relevés (les occurrences) et leur fréquence est calculée,

selon un indice moyen de fréquence


(par exemple 1 /1000).

 Méthode permet les calculs de pondération, cad


l'importance d'un mot dans un document déterminé et
l'élimination de termes moins significatifs. 47
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation

Fichier inverse
• Après analyse de documents d’un corpus, on obtient un
tableau : document x termes
• Utilisation en tableau direct « document -> terme »
t1 t2 t3 … tn
D1
… … …
Dm

48
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation

Fichier inverse
• Génération d’un tableau inverse « terme -> document »
(appelé fichier inverse)
D1 D2 D3 … Dm
t1
… … …

tn
Avantage :
rapidité lors du traitement de requête, car pas de
traitement séquentiel des documents.
49

Vous aimerez peut-être aussi