Académique Documents
Professionnel Documents
Culture Documents
Master1
Spécialités :
- Ingénierie du Logiciel et Traitement de l’Information (ILTI)
- Systèmes d’Information Répartis (SIR)
- Technologie de l’Information (TI)
Enseignante : AZZOUG
Chapitre II
Représentation de l’information
-Indexation
Indexation-
Chapitre II
Document
(Langage naturel exprimé par un Représentation interne
texte libre Indexation (Langage d’indexation :
+ MultiMedia) descripteur composé
Eléments clés : information textuelle, image, vidéo d’éléments-clés )
- Image → Pixels, Couleur, Forme, Légende (la sélection par le SRI de l’image similaire à
l’image soumise par l’utilisateur repose sur des techniques de projection)
- vidéo → Pixels, représentation numérique du signal, segmentation en plans et en scènes, …
II.1. Indexation
ndexation : C’est quoi?
Exemples:
Soient D1, D2 , D3 : trois documents de la collection et Q : requête utilisateur
Construire les index qui représentent l’ensemble des termes-clés
termes représentatifs!!!!!!
D1: Avocat de justice ⇒ Index-D1
D1={ avocat , justice }
D2: Rouge-gorge
gorge familier est une espèce de passereaux
⇒ Index- D2={
D2 rouge-gorge, familier, espece, passerau}
D3: Joconde Mona-Lisas ⇒ Index-D3
D3 ={ joconde, mona-lisas}
Segmentation de
l’image en pixels
. Une requête utilisateur est indexée avec les mêmes procédures d’indexation des
documents
La qualité des résultats de la recherche dépend en grande partie de la qualité des
descripteurs choisis pour l’indexation.
Remarque : Dans ce module, on s’intéressera principalement à l’indexation et la
recherche d’information textuelle (RI classique traditionnelle)
II.2. Approches d’indexation
(1) Indexation Manuelle: Dans ce processus, chaque document est analysé par des
Experts (documentalistes) dans le domaine,
domaine pour définir et représenter son contenu
Sémantique. Le langage d’indexation s ’appuie sur un vocabulaire (langage) contrôlé qui dépend
de la compréhension et du savoir propre de l’expert. Par exemple, des experts dans le domaine
de la Biologie et dans la Médecine indexent (représentent) les documents et les articles partagés
qui sont issus de la littérature Biomédicale, par leurs termes-clés (ou concepts) après lecture
intégrale et une très bonne analyse de leurs contenus!
- Avantages
• Assure une meilleure représentation (indexation) du contenu (Ne garder que les termes
représentatifs de la thématique du document et enrichir avec leurs synonymes et les termes
qui leurs sont liés sémantiquement) ⇰ Précision des résultats de recherche.
- Inconvénients
• Très couteuse à réaliser (en temps et en nombre de personnes impliquées);
• Indexation subjective, puisque le choix des termes dépend des connaissances des
indexeurs. De plus, le Langage du documentaliste ne concorde pas forcément avec celui d’un
simple internaute (novice)
• Difficile de maintenir le langage d’indexation à long terme suite à l’évolution de la terminologie
(particulièrement avec l’avènement des réseaux sociaux).
II.2. Approches d’indexation
(2) Indexation automatique: est un processus entièrement informatisé. Elle repose
sur des techniques de Traitement Automatique de la Langue Naturelle (TALN).
- Avantages
• Une rapidité d’exécution,, particulièrement adaptée aux corpus volumineux
- Inconvénients
Traditionnellement, basée sur une représentation par les termes (mots-clés)
descriptifs du document, ce qui marque les lacunes suivantes:
⇰ Ambigüité des termes de la langue entraine une imprécision des résultats de
recherche, générant ainsi du bruit documentaire (documents retournés non pertinents
pourtant contenant des mots de la requête) ou du Silence (documents
sémantiquement pertinents ignorés par le SRI).
SRI
• Un mot de la langue peut avoir plusieurs sens (polysémique). Le sens qui correspond à
un mot dans un document donné n’est pas toujours similaire au sens qui le correspond
dans une requête.
⇰ Disparité des termes : Perdre des docs comportant des synonyme au mots de la requête
- Une représentation (indexation) d’un document par l’ensemble de tous ses termes
entraine un bruit documentaire. De ce fait il faut écarter les termes non significatifs
et non déterministes du de son contenu!!!
⇰ Utiliser des techniques de traitements automatiques de la langue naturelle (TALN).
II.3. Indexation Automatique classique
Traditionnellement (classiquement), pour extraire les termes-clés d’un
document/requête l’indexation autom
omatique repose sur des techniques de traitements
linguistiques : Analyse lexicale, Elimination des mots vides, Normalisation
Document
Analyse lexicale
Elimination
des mots vides
Normalisation
Index Document
(termes- clés normalisés, descriptifs et significatifs)
Une fois que les termes d’indexation sont identifiés, il seront pondérés puis
stockés dans une structure de données dite Fichier inverse (base documentaire)
II.4. Etapes d’Indexation
Indexation Automatique classique
Etapes d’un SRI classique sont alors comme suit :
Documents
(2) Elimination
des mots vides
(3) Normalisation
Indexs Documents
(termes- clés normalisés, descriptifs et significatifs)
(4) Pondération
(5) Construction
Fichier Inverse
II.4. Etapes d’ Indexation Automatique classique
Etape (1) Analyse lexicale . Cette technique se base sur :
• La conversion de la casse (majuscules en minuscules) et élimination des accents
→éviter les problèmes d’appariement lexical. (comparaison de caractères –code ASCII: le
but est d’éviter le silence)
D: Base Militaire Ramstein Q base militaire ⇒ D non sélectionné par le SRI
Q:
La suppression des accents peut induire l’ambiguïté. Problème dans les SRI!!
La tokénisation (segmentation)
II.4. Etapes d’ Indexation Automatique classique
Tokenisation/ Segmentation : découper (segmenter) le texte en mots (tokens)
élémentaires : mots simples (rouge) ou mots composés (rouge-gorge). C’est une opération
qui localise les chaines de caractères entourées de séparateurs (blanc, signes de
ponctuation, caractères spéciaux, ….). Techniquement, le SRI utilise un BufferedReader pour
lire les caractères et un Split (fonction de découpage) du texte en mots suivant les délimiteurs
(espace blanc, ponctuation, …) spécifiés par le programmeur dans la fonction split.
-Dans le Français et l’Anglais , les délimiteurs de tokenisation sont : l’espace blanc et les
caractères spéciaux (. , : ; « »…..)
Dans les langues européennes, telles que l’anglais et le français, et également pour l’arabe les
délimiteurs sont : l’espace (blanc) et les caractères spéciaux (signes de ponctuations,
l’apostrophe, …).
- L’espace est-il
il toujours un bon délimiteur?? (Bruit ou précis??)
San Francisco Etats Unis Ain El Hammam Chauve Souris
Pomme de terre France Inter Emir Abd El Kader Base de données
D: pomme de terre Q: pomme ⇒ D sélectionné pour Q (bruit)
Comment identifier les groupes de mots??? Certains SRIs s’appuient sur des
algorithmes d’identification des termes qui utilise une liste préétablie comportant
-les entités nommées (Noms propres, villes, organisations, …)
-Les tirets doivent-ils
ils être enlevés ou non ?? (Bruit, Silence ou précis??)
Rouge-gorge Jean-Louis Mots-croisés Etats-Unis
D1: Google : Indexe-t-il gratuitement???
gratuitement
D2: Le Tel du cabinet médical est : 06-13-23-23-12
06
D3: Guerre de l’Algérie : 1830-1962
1962
D4: mal à la gorge Q: Rouge-gorge
Rouge ⇒ D4 sélectionné pour Q (bruit)
→ Ne pas considérer le tiret (-)) comme délimiteur dans la fonction split de
tokenisation afin de ne pas perdre les mots composés!!!!!!!!!!
II.4. Etapes d’Indexation
Indexation Automatique classique
Tokenisation/
/ Segmentation (suite)
- Le point (.) des sigles ?? (Silence, Bruit ou précis??)
Dans une segmentation par rapport au point (.) , les acronymes sont perdus!!!!
U.S pour (United States), on obtiendra les lettres : « U » et « S ».
Le nombre 21.30 Lien www.umbb.dz
→ Certaines approches proposent de remplacer le ‘‘.’’ par rien ‘‘ ’’. Cependant, cela peut
générer l’ambiguïté, exemple, en Anglais :
C.A.T → CAT (Marque Caterpillar) ou CAT (chat)
U.S → US(United
US States) ou US (nous)
-L’apostrophe ’ ?
-
Aujourd’hui jusqu’à Entr'ouvert Chanteuse O’Connor
→Les
Les anciens systèmes retiraient tout simplement les nombres
Problème: Séisme 21 Mai 2003 ou Séisme 21/05/2003 (Bruit si on élimine les nombres)
→ Toujours source de beaucoup d’erreurs dans les systèmes de RI traditionnelles.
Pour y remédier, ces systèmes utilisent des techniques de segmentation plus évoluées
qui prennent en compte l’identification des entités nommées et collocations de mots
-
(dates connues, noms propres, sigles, noms des organisations, ….etc) appartenant au
texte.
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (2) Elimination de mots vides: supprimer parmi les tokens les mots trop
fréquents dans la collection qui appartiennent à plusieurs documents et qui n’apportent pas de
sens au texte (non significatifs et non représentatifs, dits mots vides).
- Les mots outils qui servent à structurer les phrases dans un texte pour faciliter la lecture;
tels que : les déterminants (le, la, un, …);
… les pronoms (nous, il, …), les adverbes (comme,
bientôt, …) ; les lettres (a, b, …) et les auxiliaires.
auxiliaires
- les mots fréquents de la langue qui apparaissent dans plusieurs documents sans
caractériser un sujet donné, par exemple:
exemple vouloir, permettre, avant, sur, bonjour, …etc.
Ces mots ne possèdent pas le pouvoir de discrimination (différenciation) entre les sujets
traités dans les documents.
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (2) Elimination de mots vides (suite)
• L’élimination de ces mots peut être réalisée en RI :
des (dite stoplist ou Anti-dictionnaire ou stopwords )
- à partir d’ une liste préétablie de mots vides
téléchargeable à partir du Net
- et/ou en écartant les termes les plus frréquents dans la collection (Taux fréquentiel dans la
collection > seuil) .
- Avantages: Réduction du nombree de termes non représentatifs permettant ainsi
d’améliorer la recherche (en terme de précision) et de minimiser la taille du fichier inverse
(économiser beaucoup d’espace mémoire de la base documentaire -Stockage) .
- Inconvénient: Elimination de certains termes (mots vides) qui peuvent être porteurs de
sens dans certains contextes. Exemples:
Les Vers de terre Pomme de terre Car scolaire
En anglais : Vitamin A US pour United States
Citation: être ou ne pas être
→ Résultats de recherche avec Silence documentaire (perte de docs pertinents).
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (3) Normalisation : ramener les mots de la même famille à leur forme normale.
• Un mot possède plusieurs variantes morphologiques (Flexion) en fonction des
facteurs grammaticaux:
-Verbal : montrer, montrons, montreras, montrez, … → Conjugaison (verbe montrer)
- Nominal : étudiant, étudiants, étudiante, étudiantes → déclinaison (genre et nombre)
Exemple:
- Requête Q: « base militaire ».
- Document D : « Woomera, une des gigantesques bases militaires au monde»
- Le préfixe modifie le sens d'un mot , il se place avant le radical pour indiquer souvent le contraire
(heureux, malheureux) ou la répétition (voir, revoir),
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (3) Normalisation (suite)
(3.1) La racinisation (radicalisation suite)
-
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (radicalisation suite)
Les mots de la langue Française sont généralement de taille longue contrairement à l’Anglais
où la majorité des mots sont courts.
→ Les travaux de la TAL fixe la valeur de x à 7 caractères pour obtenir la racine d’un mot en
français (pas toujours idéal)
Économiquement ⇒ Économi
Automatique ⇒Automat • Difficile de fixer la valeur de x, racinisation
Radicalisation ⇒ Radical imprécise car on peut perdre le radical pour des
Indexation ⇒ Indexat variantes morphologiques du même mot.(perdre
Indexer ⇒ Indexer index pour indexation et indexer)
Information ⇒ Informa
Informatique ⇒ Informa • Obtenir un même radical pour des mots
sémantiquement différents (informa pour
informatique et information!!!)
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
•Algorithme Porter Stemmer [Porter, 80] :conçu pour l’anglais et que Porter l’a adapté
Pour le F r a n ç a i s e n 2 0 0 1 [ P o r t e r, 0 1 ] . C e r t a i n s m o t e u r s d e r e c h e r c h e
l’utilisent dans sa version de normalisation proposée pour
l’Anglais (rapide dans l’exécution et meilleur par rapport aux
autres Stemmer)
Suite à l’analyse de la langue, Porter représente un mot par : [C](VC)m [V] où:
20
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 1c :
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 2:
22
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 3:
23
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 4:
24
II.4. Etape d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 5a :
Etape 5b :
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Exemples: Normalisation du mot generalizations en appliquant la succession de règles
de Porter
sim(ti, tj )= 2* nb_comm
mm/(nb_ti + nb_tj )
Sim(ti, tj) >Seuil
Seuil (Seuil fixé après apprentissage sur plusieurs corpus).
II.4. Etapes d’Indexation
Indexation Automatique classique
Exemple1 (Analyse n-grammes):
- Supposons qu’après avoir effectué pour un corpus donné les traitements: d’analyse
lexicale (segmentation) et élimination de mots vides on obtient tous les ter mes pleins
(non vides) de la collection. Par mi ces ter mes, on a les ter mes : t1, t2 et t3 :
t1: retrieve
• t2: retrieval t3: retirement et Seuil=50%
En utilisant 3-grammes:
t1={ret, etr, tri, rie, iev, eve}
t2 ={ret, etr, tri, rie, iev, eva, val}
t3= {ret, eti, tir, ire, rem, eme, men, ent}
• Les deux termes t1 et t2 sont lexicalement proches à 77% par contre entre t1-t3 et t2-t3 le taux de
respectivement) Donc t1 et t2 seront remplacés dans l’index
ressemblance est très faible (13% et 14% respectivement).
par le mot : retriev (chaine de caractères commune) par contre t3 reste inchangé (retirement)
II.4. Etapes d’Indexation
Indexation Automatique classique
Exemple2 (Analyse n-grammes):
Après Tokenisation et élimination des mots vides, on a :
D1={economie, finance, economiste} D2={economiquement}
Q={ecologie}
• Seuil=50%
En utilisant bi-grammes:
t1=economie={ec, co, on, no, om, mi, ie} t2=finance ={fi, in, na, an, nc, ce}
t3 =economiste={ec, co, on, no, om, mi, is,
is st, te}
t4=economiquement ={ec, co, on, no, om, mi, iq,
i qu, ue, em, me, en, nt}
t5=ecologie={ec, co, ol, lo, og, gi, ie}
Sim(t1, t2) = Sim(t2, t3)=Sim(t2, t4) = Sim(t2,
Sim(t t5) = 0 (aucun bigram commun entre t2 et les
autres termes )
Sim( t1, t3)= (2*6) / (7+9) = 0.75 (75%) Sim( t1, t4)= (2*6) / (7+13) = 0.6 (60%)
Sim( t1, t5)= (2*3) / (7+7) = 0.43 (43%) Sim( t3, t4)= (2*6) / (9+13) = 0.54 (54%)
Sim( t3, t5)= (2*2) / (9+7) =0.25 (25%) Sim(t4, t5)= (2*2) / (13+7) = 0.20 (20%)
On constate que : t1 est 75% semblable à t3 et semblable à t4 avec 60% > Seuil =50%
Donc t1, t3 et t4 possède la même racine : economi
Par contre t2 et t5 ne sont pas proches lexicalement à {t1, t3, t4} <Seuil=50%
II.4. Etapes d’Indexation
Indexation Automatique classique
Exemple2 (Analyse n-grammes):
On remplace chaque mot par sa racine . Donc on obtient après normalisation avec bi-gram :
Index-D1={2 economi, finance } Index-D2={economi}
Index-Q={ecologie}
•
Remarques
⇰ Cette technique est utilisée pour la tokenisation de la langue chinoise.
proposer exclusivement/adverbe/exclusivement
D2: Cresus/NP/cresus propose /V/proposer
des/Déter./de montres/NS/montre de/prépo./de
de/ luxe/N/luxe
Exemple
appendicectomie → appendice+ ectomie ⇒Difficile à le décomposer
Exemple
Q: Gorbatchov ⇒ une des solution et de chercher dans un dictionnaire le mot
proche lexicalement en utilisant le découpage n-grammes et la
distance lexicale
⇒Solution: Gorbatchev
II.4. Etapes d’Indexation
Indexation Automatique classique
Remarque:
-
-Pour résoudre tous les problèmes rencontrés dans les différentes étapes (Tokenisation,
élimination des mots vides et normalisation), certains SRI s’appuient sur des algorithmes
plus évolués d’identification de termes : mots simples, mots composés et collocation de
mots, les plus représentatifs de la thématique traitée dans le document. Ces algorithmes
s’appuient sur :
→ des techniques d’apprentissage basées sur des relations sémantiques entres les termes
dans une langue donnée ( prendre en considération les relations de synonymie,
d’hyperonymie, ou de cooccurrence entre termes dans un texte donné) ;
→ et/ou des ressources linguistiques (dictionnaires) pour identifier les collocations de mots
(ex: pomme de terre, base de données, SGBD MYSQL, ….)
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération : Au final, chaque document est représenté par des descripteurs
représentant des termes-clés qu’il contient.
contient Cependant, ces termes ne possèdent pas le
même poids (ou même importance) dans un même document. En effet, à titre d’exemple, on
suppose qu’un document D traitant la thématique Informatique contient les mots logiciel et
outil, de ce fait:
- Le terme « logiciel » dans D est plus représentatif (important) que le mot « outil »: il
est nécessaire de distinguer leurs degrés d’informativité
d’
- De plus, si le terme « logiciel » est plus représentatif dans D que dans un autre
Document de la collection, alors il est indispensable de le spécifier .
⇰ Comment caractériser les termes importants par rapport à ceux qui le sont moins,
dans un même document??
⇰ Comment définir les termes importants dans la distinction des documents??
- Plus un terme est important dans un document, plus son poids doit être plus élevé.
- Et inversement, plus un terme est insignifiant dans un document, plus son poids doit
être faible. Autrement dit, un terme est plus important dans un document où il est
fréquent (marque sa présence) que dans un document qui le cite seulement (moins
fréquent)!!!
33
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
- Pondération locale mesurée par la fréquence tfij (term frequency) du terme tj dans un
document di. L’intuition sous -jacente : « Un auteur, d’un document, a tendance de répéter
les même termes qui permettent de décrire le sujet (thématique )du document ».
- Pondération globale quantifiée par l‘inverse de sa fréquence documentaire idfj
(inverse document frequency) du terme tj dans la collection. L’idée sous
jacente : «Un terme fréquent dans une collection ne permet pas de distinguer
les documents entre eux». Cette mesure est un facteur de discrimination.
N
idf j = log
n
j
Où: N est le nombre de documents dans la collection.
nj est le nombre de documents indexés par le terme tj .
II.4. Etape d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
Autrement dit:
→ Les termes qui marquent leur présence par des fréquences importantes
dans un document sont des termes représentatifs de la thématique de ce
document. Par exemple, dans un document traitant la RI, les occurrences
remarquables des mots indexation, appariement, recherche, pertinence
dénotent leur importance locale (degré de représentativité) dans ce
document (pondération locale tf définie généralement par la fréquence du
terme dans le document)
→ Les termes qui marquent une forte présence dans plusieurs documents de
la collection n’offrent pas le pouvoir de discrimination entre documents. Par
exemple, on retrouve les mots permettre, consiste, pouvoir, devant, entre
dans plusieurs documents mais sont non représentatifs d’une thématique bien
définie. De ce fait les termes qui apparaissent dans peu de documents
permettent de distinguer ces derniers des autres documents de la collection.
(pondération globale idf définie par logarithme de l’inverse du taux
documentaire comportant le terme)
terme
II.4. Etape d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
→ Pour amortir les écarts entre valeurs des idf associés aux termes de la
collection, et obtenir des petites valeurs, on utilise la fonction
d’amortissement Logarithme. Donc on obtient :
N
idf j = log
n
j
II.3. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
• On obtient au final la pondération de [Salton et al., 73] dite tf*idf , définie par:
N
wij = tf ij × idf j = tf ij × log
n
j
Tel que : wij est le poids (weight) du terme dans le document di
⇰ La mesure tf* idf est une bonne approximation de l'importance d'un terme dans
un document, particulièrement dans des corpus de documents de tailles
intermédiaires (homogènes).
⇰ Cependant, il est difficile de caractériser les poids des termes-clés dans des
documents de tailles différentes.
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
• Cette mesure a eu en revanche un succès très limité dans les corpus de tailles très
variables.
⇒ Problème: Si on considère tf =fréquence du terme dans le document, les termes
appartenant aux documents longs apparaissent très fréquemment et l'emportent en poids
sur les termes appartenant à des documents moins longs. Les documents longs auront
alors plus de chance d'être sélectionnés que les plus courts et pourtant ces derniers
peuvent être plus pertinents et représentatifs aux termes de la requête.
Exemple, un terme t qui possède 5 occurrences dans un document court de 20 mots
est plus représentatif que son apparition dans un autre document long avec 100
5 100
occurrences parmi les 20000mots. 5 < 100 cependant >
20 20000
⇒ Les distorsions engendrées par cette hétérogénéité sont corrigées en effectuant une
normalisation de tf : soit par rapport à la taille du document, ou par rapport à la
fréquence maximale des termes.
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
• Formellement :
freq ij
tf ij normalisée par la taille du document : tf ij ( normalisée ) =
∑ freq
1≤ k ≤ d i
ik
freq ij
tf ij normalisée par le max des fréquences : tf ij ( normalisée ) =
max ( freq ik )
t k ∈d i
T1 T2 T3 T4
D1 1 1 1 0
D2 2 0 2 3
D3 1 0 0 1
-Avec pondération tf*idf où tf= fréquence du terme dans le document on obtient:
T1 T2 T3 T4
D1 1*0=0 1*0.48
0.48=0.48 1*0.24=0.24 0
D2 2*0=0 0 2*0.24=0.48 3*0.24=0.72
D3 1*0=0 0 0 1*0.24=0.24
idf Log(3/3)=0 Log(3/1)=0.48 Log(3/2)=0.24 Log(3/2)=0.24
D1={0.48 T2, 0.24 T3} D2={0.48 T3, 0.72 T4} D3={0.24 T4}
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
-Avec pondération tf= fréquence du terme dans le document normalisée par rapport à la
somme des fréquences dans le document, on obtient:
T1 T2 T3 T4 ∑freqDi
D1 1/3=0.33 1/3=0.33
0.33 1/3=0.33 0 1+1+1=3
D2 2/7=0.28 0 2/7=0.28 3/7=0.43 2+2+3=7
D3 1/2=0.50 0 0 1/2=0.50 1+1=2
D1={0.33 T1, 0.33 T2, 0.33 T3} D2={
={0.28 T1, 0.28 T3, 0.43 T4} D3={0.5 T1, 0.5 T4}
Avec pondération tf*idf où tf= fréquence du terme dans le document normalisée par
rapport à la somme des fréquences dans le document, on obtient:
T1 T2 T3 T4 ∑freqDi
D1 (1/3)*0=0 (1/3)*0.48=0.16
0.16 (1/3)*0.24=0.08 0 1+1+1=3
D2 (2/7)*0=0 0 (2/7)*0.24=0.07 (3/7)*0.24=0.10 2+2+3=7
D3 (1/2)*0=0 0 0 (1/2)*0.24=0.12 1+1=2
idf Log(3/3)=0 Log(3/1)=0.48 Log(3/2)=0.24 Log(3/2)=0.24
D1={0.16 T2, 0.08 T3} D2={0.07 T3, 0.10 T4} D3={0.12 T4}
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
-Avec pondération tf= fréquence du terme dans le document normalisée par rapport au
maximum des fréquences dans le document, on obtient:
T1 T2 T3 T4 MaxDi
D1 1/1=1 1/1==1 1/1=1 0 1
D2 2/3=0.67 0 2/3=0.67 3/3=1 3
D3 1/1=1 0 0 1/1=1 1
D1={ T1, T2, T3} D2={0.67
0.67 T1, 0.67 T3, T4} D3={ T1, T4}
Avec pondération tf*idf où tf= fréquence du terme dans le document normalisée par
rapport au maximum des fréquences dans le document, on obtient:
T1 T2 T3 T4 MaxDi
D1 (1/1)*0=0 (1/1)*0.48=0.48
0.48 (1/1)*0.24=0.24 0 1
D2 (2/3)*0=0 0 (2/3)*0.24=0.16 (3/3)*0.24=0.24 3
D3 (1/1)*0=0 0 0 (1/1)*0.24=0.24 1
idf Log(3/3)=0 Log(3/1)=0.48 Log(3/2)=0.24 Log(3/2)=0.24
D1={ 0.48 T2, 0.24 T3} D2={ 0.16 T3, 0.24 T4} D3={ 0.24 T4}
II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse : organiser et stocker les descripteurs (index) de
chaque document dans une structure..
⇰ Solution :
D1 D2 …. Di … Dn
t1 w11 W12
t2
…..
tj 0 Wji
…. 0
tm Wm2
II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse(suite)
46
II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse(suite)
46
II. 5. Problématique de l’indexation classique
⇒ L’appariement document-requête
requête est lexical basé sur le nombre de
- Leur ambiguïté
- Leur disparité
Document : D Requête : Q
Appariement Lexical
[Porter, 80] M. Porter. 1980. An algorithm for suffix stripping. Program, 14(3) :130-137, July, 1980.
[M. Paternostre et al., 12]. M. Paternostre, Pascal Francq, J. Lamoral, D. Wartel. Carry, un algorithme de
désuffixation pour le français, 2012.
[Robertson et al., 97] S. E. Robertson and S. Walker. On relevance weights with little relevance
information. In Proceedings of the 20th annu
nnual international ACM SIGIR conference on Research and
development in information retrieval, pages 16–24.
16 ACM Press, 1997.
[Salton et al., 73] G. Salton and C. Yang, On the specification of term values in automatic indexing.
In Journal of Documentation, 29 (1973), 351–372.
351
[Salton et McGill, 83] G.Salton et M.J. McGill, Introduction to Modern Information Retrieval. McGraw-Hill
Book Co., New York, 1983