Chaptire 2 RI PDF

Universit Batna 2
Dpartement dInformatique
3 LMD ISIL
Module : Recherche
dinformation
Chapitre 2: Indexation des

documents
1
2
Indexation
Peut tre:
Manuelle (expert en indexation)
Automatique (ordinateur)
Semi-automatique (combinaison des deux)
Base sur:
Un langage contrl (mots-cl dans un vocabulaire
contrl , souvent organis hirarchiquement)
Un langage libre (lments pris directement des
documents)
3
Indexation manuelle (ex:)
4
5
6
7
Indexation automatique
Cest le SRI qui gnre les indexes des documents.
Lindexation automatique a t cre afin de remdier

aux problmes lis aux approches prcdentes,
Elle prsente lavantage dune rgularit du

processus, car lindexation automatique fournit
toujours le mme index pour le mme document, ce
qui constitue une qualit du systme.
8
Les tapes de lindexation automatique
9
La phase 1:
10
La phase 2:
Cette phase peut contenir plusieurs tapes. Les tapes
les plus importantes et les plus utilises :
Elimination des mots vides
La racinisation ( stemming en anglais)
La lemmatisation
Extraction des mots composs
Extraction des entits nommes
11
La phase 2:
Elimination des mots vides
Utilisation dun anti-dictionnaire (ou stoplist)
Au, aux, avec, ce, ces, dans, de, des, du, elle, en, etc,
et, eux, il, je, la, le, les, leur, lui ...
Ne garder que des termes qui ont du sens, diminuer

la taille des index
12
La phase 2:
+ Consiste rechercher la forme tronque (radical)

dun mot, o partir de cette forme on peut
reconstruire ses diffrentes variantes morphologiques.
+ Cette opration peut tre ralise assez simplement,

en utilisant un algorithme comme lalgorithme de
Porter, pour langlais.
13
La phase 2:
14
La phase 2:
Inconvnient:
Elle peut entraner une perte de sens, car la racine
extraite peut tre commune des mots se rapportant
des concepts diffrents.
Ex : Les mots port, portes (ouverture) et portera ont la

mme racine port mais se rapportent trois concepts
diffrents.
15
La phase 2:
La lemmatisation
La lemmatisation d'une forme d'un mot consiste en
prendre sa forme canonique. Celle-ci est dfinie comme
suit :
+ Pour un verbe : ce verbe l'infinitif,

+ Pour les autres mots : le mot au masculin singulier.
16
La phase 2:
La lemmatisation :
Ex: les mots port, portes et portera seront remplacs par

leurs lemmes : port, porter ou porte selon le contexte et
porter.
Cest une opration plus coteuse que la racinisation car

elle ncessite une analyse morphologique et syntaxique
des phrases.
17
La phase 2:
Extraction des mots composs
Il est important de reconnatre les mots composs car
ce sont des units de sens.
Par exemple : arbre cames ou pomme de terre.
arbre cames : est un dispositif mcanique permettant de synchroniser

plusieurs dplacements
18
La phase 2:
Extraction des entits nommes :
Les entits nommes sont des mots ou des groupes de
mots qui dsignent des personnes, des organisations, des
dates, des lieux, etc.
Ex: si un texte contient lexpression : 5 juillet 1962 il est

plus intressant de lindexer globalement par cette date
plutt que les trois termes: 5, juillet et 1962. Si de
plus lindexeur est capable de reconnatre que cest la date
de lindpendance de lAlgrie, lindexation sera encore plus
prcise.
19
La phase 3:
Dans cette phase on utilise une approche permettant

de slectionner les index et de leur associer une
pondration, cette dernire permet dassigner aux
termes leur degrs dimportance dans les documents,
+ Il existe 3 approches pour le choix des index,
20
La phase 3:
+ Il existe 3 approches pour le choix des index (termes):
Approche base sur la frquence d'occurrences

Approche base sur la valeur de discrimination
Approche base sur tf*idf
21
La phase 3:

Approche base sur tf*idf
22
La phase 3:
Elle consiste :
23
24
25
26
27
La phase 3:
+ Il existe 3 approches pour le choix des index (ou
termes):

Approche base sur tf*idf :
28
La phase 3:
Un terme est dit discriminant s'il distingue bien un

document des autres.
Un terme qui apparat dans tous les documents n'est

pas discriminant.
L'ide est de garder seulement les termes discriminants, et

liminer ceux qui ne le sont pas.
29
La phase 3:
Dans le modle vectoriel, chaque document est
reprsent par un vecteur de poids comme suit:
30
La phase 3:
L'ide est que, si on uniformise le poids d'un terme dans tous

les documents, on obtient une grande amlioration dans
l'uniformit du corpus, ce terme tait donc trs diffrent (non
uniformment distribu) dans diffrents documents. Il a donc
une grande valeur de discrimination.
En revanche, si on uniformise le poids du terme, on n'obtient

pas beaucoup d'amlioration sur l'uniformit, ce terme tait
donc dj distribu de faon uniforme, donc peu discriminant.
31
La phase 3:
Approche base sur la valeur de discrimination (lalgorithme)
32
La phase 3:
Approche base sur la valeur de discrimination (lalgorithme)
33
La phase 3:

Approche base sur tf*idf :
34
La phase 3:
+ Approche base sur tf*idf :
Le nom tf * idf est trs connu dans le milieu de la RI.
Cela dsigne un ensemble de schmas de pondration
(et de slection) de termes.
tf : " term frequency"
idf : "inverted document frequency".
35
La phase 3:
Tf: Dsigne une mesure qui a rapport l'importance
d'un terme pour un document.
En gnral, cette valeur est dtermine par la
frquence du terme dans le document.
Idf: Mesure si le terme est discriminant (ou non-

uniformment distribu).
36
La phase 3:
Quelques formules de tf et d'idf souvent utilises.
1. tf = frquence d'occurrence du terme dans un

document f(t,d)
tf = f(t,d) / Max[f(t,d)] o Max[f(t,d)] : frquence maximale

des termes dans d;
tf = log(f(t,d))
tf = log(f(t,d) + 1)
37
La phase 3:
2. idf = log(N/n) o N est le nombre de documents
dans le corpus, et n ceux qui contient le terme
3. Finalement, on peut aussi imposer certaine

normalisation sur les valeurs calcules.
Une formule de tf*idf est donc la multiplication d'une

tf par une idf.
38
La phase 3:
Exemple:
tf*idf = [f(t,d) / Max[f(t,d)]] * log(N/n)
Une formule tf*idf combine les deux critres qu'on a

vu:
1. l'importance du terme pour un document (par tf),
2. Le pouvoir de discrimination de ce terme (par idf).
39
La phase 3:
Un terme qui a une valeur de tf*idf leve doit tre

la fois important dans ce document, et aussi il doit
apparatre peu dans les autres documents.
Avec celle formule, on peut donc choisir garder

seulement les termes dont la valeur de tf*idf dpasse
certain seuil.
40
Fichier inverse
41

Chaptire 2 RI PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chaptire 2 RI PDF

Transféré par

Droits d'auteur :

Formats disponibles

Universit Batna 2

Chapitre 2: Indexation des

Cest le SRI qui gnre les indexes des documents.

Lindexation automatique a t cre afin de remdier

Elle prsente lavantage dune rgularit du

Ne garder que des termes qui ont du sens, diminuer

+ Consiste rechercher la forme tronque (radical)

+ Cette opration peut tre ralise assez simplement,

Ex : Les mots port, portes (ouverture) et portera ont la

+ Pour un verbe : ce verbe l'infinitif,

Ex: les mots port, portes et portera seront remplacs par

Cest une opration plus coteuse que la racinisation car

arbre cames : est un dispositif mcanique permettant de synchroniser

Ex: si un texte contient lexpression : 5 juillet 1962 il est

Dans cette phase on utilise une approche permettant

+ Il existe 3 approches pour le choix des index,

Approche base sur la frquence d'occurrences

Approche base sur la frquence d'occurrences

Approche base sur la frquence d'occurrences

Un terme est dit discriminant s'il distingue bien un

Un terme qui apparat dans tous les documents n'est

L'ide est de garder seulement les termes discriminants, et

L'ide est que, si on uniformise le poids d'un terme dans tous

En revanche, si on uniformise le poids du terme, on n'obtient

Approche base sur la frquence d'occurrences

Idf: Mesure si le terme est discriminant (ou non-

1. tf = frquence d'occurrence du terme dans un

tf = f(t,d) / Max[f(t,d)] o Max[f(t,d)] : frquence maximale

3. Finalement, on peut aussi imposer certaine

Une formule de tf*idf est donc la multiplication d'une

tf*idf = [f(t,d) / Max[f(t,d)]] * log(N/n)

Une formule tf*idf combine les deux critres qu'on a

Un terme qui a une valeur de tf*idf leve doit tre

Avec celle formule, on peut donc choisir garder

Vous aimerez peut-être aussi

tfidf = [f(t,d) / Max[f(t,d)]] log(N/n)