Académique Documents
Professionnel Documents
Culture Documents
Dpartement dInformatique
3 LMD ISIL
Module : Recherche
dinformation
Base sur:
Un langage contrl (mots-cl dans un vocabulaire
contrl , souvent organis hirarchiquement)
Un langage libre (lments pris directement des
documents)
3
Indexation manuelle (ex:)
4
5
6
7
Indexation automatique
8
Indexation automatique
Les tapes de lindexation automatique
9
Indexation automatique
La phase 1:
10
Indexation automatique
La phase 2:
Cette phase peut contenir plusieurs tapes. Les tapes
les plus importantes et les plus utilises :
Elimination des mots vides
La racinisation ( stemming en anglais)
La lemmatisation
Extraction des mots composs
Extraction des entits nommes
11
Indexation automatique
La phase 2:
Elimination des mots vides
Utilisation dun anti-dictionnaire (ou stoplist)
Au, aux, avec, ce, ces, dans, de, des, du, elle, en, etc,
et, eux, il, je, la, le, les, leur, lui ...
12
Indexation automatique
La phase 2:
La racinisation ( stemming en anglais)
14
Indexation automatique
La phase 2:
La racinisation ( stemming en anglais)
Inconvnient:
Elle peut entraner une perte de sens, car la racine
extraite peut tre commune des mots se rapportant
des concepts diffrents.
16
Indexation automatique
La phase 2:
La lemmatisation :
17
Indexation automatique
La phase 2:
Extraction des mots composs
Il est important de reconnatre les mots composs car
ce sont des units de sens.
Par exemple : arbre cames ou pomme de terre.
18
Indexation automatique
La phase 2:
Extraction des entits nommes :
Les entits nommes sont des mots ou des groupes de
mots qui dsignent des personnes, des organisations, des
dates, des lieux, etc.
19
Indexation automatique
La phase 3:
20
Indexation automatique
La phase 3:
+ Il existe 3 approches pour le choix des index (termes):
21
Indexation automatique
La phase 3:
+ Il existe 3 approches pour le choix des index (termes):
22
Indexation automatique
La phase 3:
Approche base sur la frquence d'occurrences
Elle consiste :
23
Indexation automatique
24
Indexation automatique
25
Indexation automatique
26
Indexation automatique
27
Indexation automatique
La phase 3:
+ Il existe 3 approches pour le choix des index (ou
termes):
28
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination
29
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination
Dans le modle vectoriel, chaque document est
reprsent par un vecteur de poids comme suit:
30
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination
32
Indexation automatique
La phase 3:
Approche base sur la valeur de discrimination (lalgorithme)
33
Indexation automatique
La phase 3:
+ Il existe 3 approches pour le choix des index (termes):
34
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
Le nom tf * idf est trs connu dans le milieu de la RI.
Cela dsigne un ensemble de schmas de pondration
(et de slection) de termes.
tf : " term frequency"
idf : "inverted document frequency".
35
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
Tf: Dsigne une mesure qui a rapport l'importance
d'un terme pour un document.
En gnral, cette valeur est dtermine par la
frquence du terme dans le document.
36
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
Quelques formules de tf et d'idf souvent utilises.
39
Indexation automatique
La phase 3:
+ Approche base sur tf*idf :
40
Fichier inverse
41