Vous êtes sur la page 1sur 41

Universit Batna 2

Dpartement dInformatique
3 LMD ISIL

Module : Recherche
dinformation

Chapitre 2: Indexation des


documents
1
2
Indexation
Peut tre:
Manuelle (expert en indexation)
Automatique (ordinateur)
Semi-automatique (combinaison des deux)

Base sur:
Un langage contrl (mots-cl dans un vocabulaire
contrl , souvent organis hirarchiquement)
Un langage libre (lments pris directement des
documents)

3
Indexation manuelle (ex:)

4
5
6
7
Indexation automatique

Cest le SRI qui gnre les indexes des documents.

Lindexation automatique a t cre afin de remdier


aux problmes lis aux approches prcdentes,

Elle prsente lavantage dune rgularit du


processus, car lindexation automatique fournit
toujours le mme index pour le mme document, ce
qui constitue une qualit du systme.

8
Indexation automatique
Les tapes de lindexation automatique

9
Indexation automatique
La phase 1:

10
Indexation automatique
La phase 2:
Cette phase peut contenir plusieurs tapes. Les tapes
les plus importantes et les plus utilises :
Elimination des mots vides
La racinisation ( stemming en anglais)
La lemmatisation
Extraction des mots composs
Extraction des entits nommes

11
Indexation automatique
La phase 2:
Elimination des mots vides
Utilisation dun anti-dictionnaire (ou stoplist)
Au, aux, avec, ce, ces, dans, de, des, du, elle, en, etc,
et, eux, il, je, la, le, les, leur, lui ...

Ne garder que des termes qui ont du sens, diminuer


la taille des index

12
Indexation automatique
La phase 2:
La racinisation ( stemming en anglais)

+ Consiste rechercher la forme tronque (radical)


dun mot, o partir de cette forme on peut
reconstruire ses diffrentes variantes morphologiques.

+ Cette opration peut tre ralise assez simplement,


en utilisant un algorithme comme lalgorithme de
Porter, pour langlais.
13
Indexation automatique
La phase 2:
La racinisation ( stemming en anglais)

14
Indexation automatique
La phase 2:
La racinisation ( stemming en anglais)
Inconvnient:
Elle peut entraner une perte de sens, car la racine
extraite peut tre commune des mots se rapportant
des concepts diffrents.

Ex : Les mots port, portes (ouverture) et portera ont la


mme racine port mais se rapportent trois concepts
diffrents.
15
Indexation automatique
La phase 2:
La lemmatisation
La lemmatisation d'une forme d'un mot consiste en
prendre sa forme canonique. Celle-ci est dfinie comme
suit :

+ Pour un verbe : ce verbe l'infinitif,


+ Pour les autres mots : le mot au masculin singulier.

16
Indexation automatique
La phase 2:
La lemmatisation :

Ex: les mots port, portes et portera seront remplacs par


leurs lemmes : port, porter ou porte selon le contexte et
porter.

Cest une opration plus coteuse que la racinisation car


elle ncessite une analyse morphologique et syntaxique
des phrases.

17
Indexation automatique
La phase 2:
Extraction des mots composs
Il est important de reconnatre les mots composs car
ce sont des units de sens.
Par exemple : arbre cames ou pomme de terre.

arbre cames : est un dispositif mcanique permettant de synchroniser


plusieurs dplacements

18
Indexation automatique
La phase 2:
Extraction des entits nommes :
Les entits nommes sont des mots ou des groupes de
mots qui dsignent des personnes, des organisations, des
dates, des lieux, etc.

Ex: si un texte contient lexpression : 5 juillet 1962 il est


plus intressant de lindexer globalement par cette date
plutt que les trois termes: 5, juillet et 1962. Si de
plus lindexeur est capable de reconnatre que cest la date
de lindpendance de lAlgrie, lindexation sera encore plus
prcise.

19
Indexation automatique
La phase 3:

Dans cette phase on utilise une approche permettant


de slectionner les index et de leur associer une
pondration, cette dernire permet dassigner aux
termes leur degrs dimportance dans les documents,

+ Il existe 3 approches pour le choix des index,

20
Indexation automatique
La phase 3:
+ Il existe 3 approches pour le choix des index (termes):

Approche base sur la frquence d'occurrences


Approche base sur la valeur de discrimination
Approche base sur tf*idf

21
Indexation automatique
La phase 3:
+ Il existe 3 approches pour le choix des index (termes):

Approche base sur la frquence d'occurrences


Approche base sur la valeur de discrimination
Approche base sur tf*idf

22
Indexation automatique
La phase 3:
Approche base sur la frquence d'occurrences
Elle consiste :

23
Indexation automatique

24
Indexation automatique

25
Indexation automatique

26
Indexation automatique

27
Indexation automatique
La phase 3:
+ Il existe 3 approches pour le choix des index (ou
termes):

Approche base sur la frquence d'occurrences


Approche base sur la valeur de discrimination
Approche base sur tf*idf :

28
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination

Un terme est dit discriminant s'il distingue bien un


document des autres.

Un terme qui apparat dans tous les documents n'est


pas discriminant.

L'ide est de garder seulement les termes discriminants, et


liminer ceux qui ne le sont pas.

29
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination
Dans le modle vectoriel, chaque document est
reprsent par un vecteur de poids comme suit:

30
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination

L'ide est que, si on uniformise le poids d'un terme dans tous


les documents, on obtient une grande amlioration dans
l'uniformit du corpus, ce terme tait donc trs diffrent (non
uniformment distribu) dans diffrents documents. Il a donc
une grande valeur de discrimination.

En revanche, si on uniformise le poids du terme, on n'obtient


pas beaucoup d'amlioration sur l'uniformit, ce terme tait
donc dj distribu de faon uniforme, donc peu discriminant.
31
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination (lalgorithme)

32
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination (lalgorithme)

33
Indexation automatique
La phase 3:
+ Il existe 3 approches pour le choix des index (termes):

Approche base sur la frquence d'occurrences


Approche base sur la valeur de discrimination
Approche base sur tf*idf :

34
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
Le nom tf * idf est trs connu dans le milieu de la RI.
Cela dsigne un ensemble de schmas de pondration
(et de slection) de termes.
tf : " term frequency"
idf : "inverted document frequency".

35
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
Tf: Dsigne une mesure qui a rapport l'importance
d'un terme pour un document.
En gnral, cette valeur est dtermine par la
frquence du terme dans le document.

Idf: Mesure si le terme est discriminant (ou non-


uniformment distribu).

36
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
Quelques formules de tf et d'idf souvent utilises.

1. tf = frquence d'occurrence du terme dans un


document f(t,d)

tf = f(t,d) / Max[f(t,d)] o Max[f(t,d)] : frquence maximale


des termes dans d;
tf = log(f(t,d))
tf = log(f(t,d) + 1)
37
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
2. idf = log(N/n) o N est le nombre de documents
dans le corpus, et n ceux qui contient le terme

3. Finalement, on peut aussi imposer certaine


normalisation sur les valeurs calcules.

Une formule de tf*idf est donc la multiplication d'une


tf par une idf.
38
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
Exemple:

tf*idf = [f(t,d) / Max[f(t,d)]] * log(N/n)

Une formule tf*idf combine les deux critres qu'on a


vu:
1. l'importance du terme pour un document (par tf),
2. Le pouvoir de discrimination de ce terme (par idf).

39
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :

Un terme qui a une valeur de tf*idf leve doit tre


la fois important dans ce document, et aussi il doit
apparatre peu dans les autres documents.

Avec celle formule, on peut donc choisir garder


seulement les termes dont la valeur de tf*idf dpasse
certain seuil.

40
Fichier inverse

41

Vous aimerez peut-être aussi