Vous êtes sur la page 1sur 73

Cours Recherche d’Information (RI)

Master1
Spécialités :
- Ingénierie du Logiciel et Traitement de l’Information (ILTI)
- Systèmes d’Information Répartis (SIR)
- Technologie de l’Information (TI)

Université M’Hamed Bougara – Boumerdès


Département Informatique

Enseignante : AZZOUG
Chapitre II
Représentation de l’information
-Indexation
Indexation-
Chapitre II

II.1. Indexation: Pourquoi? C’est quoi? -Définition

II.2. Approches d’indexation

II.3. Indexation Automatique classique

II.4. Etapes d’Indexation automatique classique

II.5. Problématique de l’indexation classique


II.1. Indexation
ndexation : Pourquoi?
• L’objectif principal d’un SRI est de retrouver les documents qui « traite de » la requête.
• En règle générale, un document traite de la requête s’il partage des mots de la requête
(Comment retrouver les mots de la requête dans un document ?)
• Un mot est une séquence de caractères (entité lexicale).
• Pour identifier les mots de la requête dans un document, deux parcours sont possibles :
-Parcours
Parcours séquentiel (recherche séquentielle) : parcourir le texte du document en entier à la
recherche des occurrences de la requête
→ parcours complet de l’ensemble des documents de la collection avec les termes de la requête est
impossible: trop de documents et temps de réponse prohibitif.
- Recherche indexée : l’idée est de construire des structures de données (ou indexer le texte),
dans le but d’accélérer la recherche.
→ Le but de l’indexation : « transformer des documents en substituts capables de représenter leurs
contenus » [Salton et McGill, 83]
II.1. Indexation
ndexation : c’est quoi?
L’indexation : est un processus chargé de représenter un document donné par un
descripteur, dit index, composé d’un ensemble d’éléments clés décrivant son contenu.
L’ensemble des descripteurs associés à un document facilite l’exploitation de son contenu
informationnel par un SRI .

Document
(Langage naturel exprimé par un Représentation interne
texte libre Indexation (Langage d’indexation :
+ MultiMedia) descripteur composé
Eléments clés : information textuelle, image, vidéo d’éléments-clés )

- Information textuelle → Termes-clés : mots simples (pomme), ou composés (rouge-gorge) ou


groupes de mots (pomme de terre).

- Image → Pixels, Couleur, Forme, Légende (la sélection par le SRI de l’image similaire à
l’image soumise par l’utilisateur repose sur des techniques de projection)
- vidéo → Pixels, représentation numérique du signal, segmentation en plans et en scènes, …
II.1. Indexation
ndexation : C’est quoi?
Exemples:
Soient D1, D2 , D3 : trois documents de la collection et Q : requête utilisateur
Construire les index qui représentent l’ensemble des termes-clés
termes représentatifs!!!!!!
D1: Avocat de justice ⇒ Index-D1
D1={ avocat , justice }
D2: Rouge-gorge
gorge familier est une espèce de passereaux
⇒ Index- D2={
D2 rouge-gorge, familier, espece, passerau}
D3: Joconde Mona-Lisas ⇒ Index-D3
D3 ={ joconde, mona-lisas}

Segmentation de
l’image en pixels

Q: Base de données BDD ⇒Index-Q={


Index base, donnee, bdd }
II.1. Définition de l’indexation
L’indexation peut être :
- Manuelle (Expert d’indexation);
- Automatique (Système informatisé);
- Semi-automatique ou supervisée (Combinaison de Automatique-Manuelle).
Basée sur :
- Un langage contrôlé (descripteurs identifiés en utilisant des dictionnaires/
lexique/thésaurus/ontologie/réseau sémantique);
- Un langage libre (descripteurs ou termes-clés
termes extraits directement des documents en
éliminant les mots non significatifs).
).

. Une requête utilisateur est indexée avec les mêmes procédures d’indexation des
documents
La qualité des résultats de la recherche dépend en grande partie de la qualité des
descripteurs choisis pour l’indexation.
Remarque : Dans ce module, on s’intéressera principalement à l’indexation et la
recherche d’information textuelle (RI classique traditionnelle)
II.2. Approches d’indexation
(1) Indexation Manuelle: Dans ce processus, chaque document est analysé par des
Experts (documentalistes) dans le domaine,
domaine pour définir et représenter son contenu
Sémantique. Le langage d’indexation s ’appuie sur un vocabulaire (langage) contrôlé qui dépend
de la compréhension et du savoir propre de l’expert. Par exemple, des experts dans le domaine
de la Biologie et dans la Médecine indexent (représentent) les documents et les articles partagés
qui sont issus de la littérature Biomédicale, par leurs termes-clés (ou concepts) après lecture
intégrale et une très bonne analyse de leurs contenus!
- Avantages

• Assure une meilleure représentation (indexation) du contenu (Ne garder que les termes
représentatifs de la thématique du document et enrichir avec leurs synonymes et les termes
qui leurs sont liés sémantiquement) ⇰ Précision des résultats de recherche.
- Inconvénients
• Très couteuse à réaliser (en temps et en nombre de personnes impliquées);
• Indexation subjective, puisque le choix des termes dépend des connaissances des
indexeurs. De plus, le Langage du documentaliste ne concorde pas forcément avec celui d’un
simple internaute (novice)
• Difficile de maintenir le langage d’indexation à long terme suite à l’évolution de la terminologie
(particulièrement avec l’avènement des réseaux sociaux).
II.2. Approches d’indexation
(2) Indexation automatique: est un processus entièrement informatisé. Elle repose
sur des techniques de Traitement Automatique de la Langue Naturelle (TALN).
- Avantages
• Une rapidité d’exécution,, particulièrement adaptée aux corpus volumineux
- Inconvénients
Traditionnellement, basée sur une représentation par les termes (mots-clés)
descriptifs du document, ce qui marque les lacunes suivantes:
⇰ Ambigüité des termes de la langue entraine une imprécision des résultats de
recherche, générant ainsi du bruit documentaire (documents retournés non pertinents
pourtant contenant des mots de la requête) ou du Silence (documents
sémantiquement pertinents ignorés par le SRI).
SRI
• Un mot de la langue peut avoir plusieurs sens (polysémique). Le sens qui correspond à
un mot dans un document donné n’est pas toujours similaire au sens qui le correspond
dans une requête.
⇰ Disparité des termes : Perdre des docs comportant des synonyme au mots de la requête

• Des documents qui sont sémantiquement proches au contenu de la requête et pourtant


ne comportant aucun de ses termes sont perdus (ignorés et non sélectionnés) par le SRI.
II.2. Approches d’indexation
(3) Indexation semi-automatique (Assistée ou supervisée): est un processus qui
combine l’indexation automatique et manuelle.
manuelle Un prétraitement automatique est
lancé dans un premier temps, pour extraire les descripteurs (termes clés)
appartenant au document (Indexation automatique).
automatique) Les descripteurs issus de ce
traitement sont ensuite exposés à un documentaliste pour validation et /ou
enrichissement de la représentation ainsi obtenue.

Document Indexation Index Indexation Index Document


Document (termes clés + Concepts
(Texte libre)
Automatique Manuelle choisis par des
(termes clés)
spécialistes)
- Avantages
Riche en représentation ⇰ Préciision des résultats de recherche.
- Inconvénients
Dépend du savoir des indexeurs.
II.2. Approches d’indexation
Exemples:
Soient D1, D2 , D3 : trois documents de la collection
D1: Avocat de justice D2: Base de données permet de stocker les objets
D3: Virus VIH : détruit l’immunité
→Indexation
Indexation automatique (représentation par mots-clés
mots extraits à partir des contenus)
Index-D1={ avocat , justice} Index D2={ base, donnees, permet, stocker, objets}
Index-
Index-D3={ virus, vih, detruit, immunite}}
→ Indexation manuelle (représentation avec concepts –mots clés+synonymes)
Index-D1={ avocat , justice, juriste, defenseur }
Index- D2={ base de donnees, bdd,, stocker, objets, enregistrements}
Index-D3={ virus, vih, umminite,, sida, syndrome d'immuno-deficience
d' acquise}
→ Indexation supervisée (représentation avec concepts –mots clés+synonymes)
-Le SRI renvoie les index obtenus par un processus d’indexation automatique
- Les documentalistes valident les index obtenus, en gardant que les termes descriptifs de la
thématique du doc, qui sont enrichis avec leurs synonymes et les termes qui leurs sont liés
sémantiquement pour obtenir des index précis (processus manuel).
II.2. Approches d’indexation

En informatique, particulièrement en RI, on s’intéresse à


l’automatisation du processus de l’indexation pour
représenter de manière précise les contenus documentaires
dans une collection!!
II.3. Indexation Automatique classique
L’indexation automatique a pour but de construire, avec des techniques
informatisées et rapides, des représentations simplifiées, dites index, décrivant les
sujets traités dans les documents d’une collection.

• Un index associé à un document est composé de l’ensemble des termes extraits à


partir de son texte. En langage écrit , quelques termes portent plus de
signification (ou de sens ) que d’autres. L’indexation par l’ensemble de tous les
termes présents dans un document conduit à une représentation imprécise de son
contenu sémantique. Par exemple le terme « le » ne désigne pas un sujet en soi, ce qui
peut entrainer la sélection de document
nts non pertinents. Et certains termes ne possèdent
pas le même degré d’informativité tels que les mots : « consiste » et « Mysql ». Le mot
-
Mysql est plus descriptif (représentatif d’un sujet en Informatique ) que « consiste ».

- Une représentation (indexation) d’un document par l’ensemble de tous ses termes
entraine un bruit documentaire. De ce fait il faut écarter les termes non significatifs
et non déterministes du de son contenu!!!
⇰ Utiliser des techniques de traitements automatiques de la langue naturelle (TALN).
II.3. Indexation Automatique classique
Traditionnellement (classiquement), pour extraire les termes-clés d’un
document/requête l’indexation autom
omatique repose sur des techniques de traitements
linguistiques : Analyse lexicale, Elimination des mots vides, Normalisation

Document

Analyse lexicale

Elimination
des mots vides

Normalisation

Index Document
(termes- clés normalisés, descriptifs et significatifs)

Une fois que les termes d’indexation sont identifiés, il seront pondérés puis
stockés dans une structure de données dite Fichier inverse (base documentaire)
II.4. Etapes d’Indexation
Indexation Automatique classique
Etapes d’un SRI classique sont alors comme suit :

Documents

(1) Analyse lexicale

(2) Elimination
des mots vides

(3) Normalisation

Indexs Documents
(termes- clés normalisés, descriptifs et significatifs)

(4) Pondération

(5) Construction
Fichier Inverse
II.4. Etapes d’ Indexation Automatique classique
Etape (1) Analyse lexicale . Cette technique se base sur :
• La conversion de la casse (majuscules en minuscules) et élimination des accents
→éviter les problèmes d’appariement lexical. (comparaison de caractères –code ASCII: le
but est d’éviter le silence)
D: Base Militaire Ramstein Q base militaire ⇒ D non sélectionné par le SRI
Q:

D’: Tourisme Laval: Crémerie Pineault Q’: Cremerie , glace artisanale


⇒ D’ non sélectionné par le SRI
En indexation, il faut convertir D, D’ , Q et Q’ en minuscules !!!
Cependant, l’élimination des accents génère une confusion pour certains mots :
- pêche (fruit ou chasse) et péché (commettre un péché)
- sûr (certain) et sur (position)

La suppression des accents peut induire l’ambiguïté. Problème dans les SRI!!

La tokénisation (segmentation)
II.4. Etapes d’ Indexation Automatique classique
Tokenisation/ Segmentation : découper (segmenter) le texte en mots (tokens)
élémentaires : mots simples (rouge) ou mots composés (rouge-gorge). C’est une opération
qui localise les chaines de caractères entourées de séparateurs (blanc, signes de
ponctuation, caractères spéciaux, ….). Techniquement, le SRI utilise un BufferedReader pour
lire les caractères et un Split (fonction de découpage) du texte en mots suivant les délimiteurs
(espace blanc, ponctuation, …) spécifiés par le programmeur dans la fonction split.

→ Cependant, ce découpage dépen


nd de la langue du document, par conséquence
il serait difficile de définir certains tokens (dépend des délimiteurs (séparateurs) à
considérer dans le système de tokenisation)
tokenisation
II.4. Etapes d’Indexation
Indexation Automatique classique
Exemples

-Dans le Français et l’Anglais , les délimiteurs de tokenisation sont : l’espace blanc et les
caractères spéciaux (. , : ; « »…..)

- Langue Allemande : les groupes de mots composés sont difficiles à segmenter:


Le groupe: ‘‘Lebensversicherungsgesellschaftsangestellter ’’ comporte les
mots : ‘‘ Leben s versicherung s gesellschaft s angestellter ’’ qui exprime :
‘‘life insurance company employee ’’
- Pas d’espaces en Coréen, le Chinois et le Japonais.
- Le Japonais est encore plus com
mpliqué avec ses différents alphabets : Katakana;
Hiragana, Kanji et Romaji, qui sont mélaangés dans l’écriture des textes de cette langue.
- Difficile à manipuler un texte avec plusieurs types d’alphabets combinés à des
nombres!!!
II.4. Etapes d’Indexation
Indexation Automatique classique
Tokenisation/
/ Segmentation (suite)

Dans les langues européennes, telles que l’anglais et le français, et également pour l’arabe les
délimiteurs sont : l’espace (blanc) et les caractères spéciaux (signes de ponctuations,
l’apostrophe, …).
- L’espace est-il
il toujours un bon délimiteur?? (Bruit ou précis??)
San Francisco Etats Unis Ain El Hammam Chauve Souris
Pomme de terre France Inter Emir Abd El Kader Base de données
D: pomme de terre Q: pomme ⇒ D sélectionné pour Q (bruit)

Comment identifier les groupes de mots??? Certains SRIs s’appuient sur des
algorithmes d’identification des termes qui utilise une liste préétablie comportant
-les entités nommées (Noms propres, villes, organisations, …)
-Les tirets doivent-ils
ils être enlevés ou non ?? (Bruit, Silence ou précis??)
Rouge-gorge Jean-Louis Mots-croisés Etats-Unis
D1: Google : Indexe-t-il gratuitement???
gratuitement
D2: Le Tel du cabinet médical est : 06-13-23-23-12
06
D3: Guerre de l’Algérie : 1830-1962
1962
D4: mal à la gorge Q: Rouge-gorge
Rouge ⇒ D4 sélectionné pour Q (bruit)
→ Ne pas considérer le tiret (-)) comme délimiteur dans la fonction split de
tokenisation afin de ne pas perdre les mots composés!!!!!!!!!!
II.4. Etapes d’Indexation
Indexation Automatique classique
Tokenisation/
/ Segmentation (suite)
- Le point (.) des sigles ?? (Silence, Bruit ou précis??)
Dans une segmentation par rapport au point (.) , les acronymes sont perdus!!!!
U.S pour (United States), on obtiendra les lettres : « U » et « S ».
Le nombre 21.30 Lien www.umbb.dz
→ Certaines approches proposent de remplacer le ‘‘.’’ par rien ‘‘ ’’. Cependant, cela peut
générer l’ambiguïté, exemple, en Anglais :
C.A.T → CAT (Marque Caterpillar) ou CAT (chat)
U.S → US(United
US States) ou US (nous)

-L’apostrophe ’ ?
-
Aujourd’hui jusqu’à Entr'ouvert Chanteuse O’Connor

L’idole l’analyse l’apostrophe d’appuyer

→ L’apostrophe est un délimiteur de tokenisation dans les SRI classiques.


II.4. Etapes d’ Indexation Automatique classique
Tokenisation/
/ Segmentation (suite)

- Les nombres et dates sont –ils


ils de bons candidats à l’indexation ??
14/04/2019 12 Mars 1980
B12 B-12 B6 B-66
(+33)6 45 65 13 95

→Les
Les anciens systèmes retiraient tout simplement les nombres

Problème: Séisme 21 Mai 2003 ou Séisme 21/05/2003 (Bruit si on élimine les nombres)
→ Toujours source de beaucoup d’erreurs dans les systèmes de RI traditionnelles.
Pour y remédier, ces systèmes utilisent des techniques de segmentation plus évoluées
qui prennent en compte l’identification des entités nommées et collocations de mots
-
(dates connues, noms propres, sigles, noms des organisations, ….etc) appartenant au
texte.
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (2) Elimination de mots vides: supprimer parmi les tokens les mots trop
fréquents dans la collection qui appartiennent à plusieurs documents et qui n’apportent pas de
sens au texte (non significatifs et non représentatifs, dits mots vides).

• Les mots vides sont :

- Les mots outils qui servent à structurer les phrases dans un texte pour faciliter la lecture;
tels que : les déterminants (le, la, un, …);
… les pronoms (nous, il, …), les adverbes (comme,
bientôt, …) ; les lettres (a, b, …) et les auxiliaires.
auxiliaires

- les mots fréquents de la langue qui apparaissent dans plusieurs documents sans
caractériser un sujet donné, par exemple:
exemple vouloir, permettre, avant, sur, bonjour, …etc.
Ces mots ne possèdent pas le pouvoir de discrimination (différenciation) entre les sujets
traités dans les documents.
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (2) Elimination de mots vides (suite)
• L’élimination de ces mots peut être réalisée en RI :
des (dite stoplist ou Anti-dictionnaire ou stopwords )
- à partir d’ une liste préétablie de mots vides
téléchargeable à partir du Net

- et/ou en écartant les termes les plus frréquents dans la collection (Taux fréquentiel dans la
collection > seuil) .
- Avantages: Réduction du nombree de termes non représentatifs permettant ainsi
d’améliorer la recherche (en terme de précision) et de minimiser la taille du fichier inverse
(économiser beaucoup d’espace mémoire de la base documentaire -Stockage) .
- Inconvénient: Elimination de certains termes (mots vides) qui peuvent être porteurs de
sens dans certains contextes. Exemples:
Les Vers de terre Pomme de terre Car scolaire
En anglais : Vitamin A US pour United States
Citation: être ou ne pas être
→ Résultats de recherche avec Silence documentaire (perte de docs pertinents).
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (3) Normalisation : ramener les mots de la même famille à leur forme normale.
• Un mot possède plusieurs variantes morphologiques (Flexion) en fonction des
facteurs grammaticaux:
-Verbal : montrer, montrons, montreras, montrez, … → Conjugaison (verbe montrer)
- Nominal : étudiant, étudiants, étudiante, étudiantes → déclinaison (genre et nombre)
Exemple:
- Requête Q: « base militaire ».
- Document D : « Woomera, une des gigantesques bases militaires au monde»

⇰ La morphologie du mot base


b : Singulier dans Q et pluriel dans D
⇰ D non retourné et pourtant contient base et militaire au pluriel (Silence)

La normalisation a pour objectif de regrouper les différentes variantes


morphologiques d’un mot dans une forme normalisée pour éviter le silence. Elle est
réalisée par l’une des méthode suivante :
→ La racinisation (ou radicalisation).
radicalisation)
→ La lemmatisation.
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (3) Normalisation (suite)
(3.1) La racinisation (radicalisation): dérive du terme son radical
(racine), en supprimant généralement son suffixe (désuffixation).

PRÉFIXE RADICAL SUFFIXE


Pré traite ment

Pourquoi Supprimer le suffixe et pas le préfixe???

- Le suffixe change un verbe en nom ( passer, passage) ou en adjectif ( charme, charmant).


Il change un adjectif en adverbe (évident , évidemment)
évide → Généralement sans changer le sens.

- Le préfixe modifie le sens d'un mot , il se place avant le radical pour indiquer souvent le contraire
(heureux, malheureux) ou la répétition (voir, revoir),
II.4. Etapes d’Indexation
Indexation Automatique classique
Etape (3) Normalisation (suite)
(3.1) La racinisation (radicalisation suite)

aliser » ont comme racine « nation ».


- Les mots : « nationalité, nation, nationaliser
- Les mots: « économie, économiste, économiquement»
économi ont comme racine « économi ».

• En TAL, il existe plusieurs techniques de radicalisation, on peut citer :


→ troncature@x caractères,
→ les règles de transformation
→ la méthode n-gram

-
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (radicalisation suite)

- Troncature à x caractères : Il s’’agit de tronquer le suffixe d’un mot à x caractères.


Cependant, il est difficile de choisir une valeur optimale de x pour la troncature

Les mots de la langue Française sont généralement de taille longue contrairement à l’Anglais
où la majorité des mots sont courts.

→ Les travaux de la TAL fixe la valeur de x à 7 caractères pour obtenir la racine d’un mot en
français (pas toujours idéal)

Économiquement ⇒ Économi
Automatique ⇒Automat • Difficile de fixer la valeur de x, racinisation
Radicalisation ⇒ Radical imprécise car on peut perdre le radical pour des
Indexation ⇒ Indexat variantes morphologiques du même mot.(perdre
Indexer ⇒ Indexer index pour indexation et indexer)
Information ⇒ Informa
Informatique ⇒ Informa • Obtenir un même radical pour des mots
sémantiquement différents (informa pour
informatique et information!!!)
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)

(3.1) La racinisation (radicalisation suite)

- Utilisation de règles de transformation : de type Si Condition vérifiée alors Action.


Exemple: Si (mot se termine par s) alors supprimer la terminaison s.
→ Pas évident pour tous les mots dont la terminaison (suffixe) est s
La terminaison s dans : tapis, abcès, congrès, concours, cours, souris, ananas, ….etc
…. ne
désigne pas le pluriel.

Dans le TALN, on retrouve plusieu


eurs algorithmes de radicalisation basée sur les règles
de transformation. Elles sont élaborées après de longues études sur les langues. Par
exemple on trouve :

- Français : Algorithme de carry


ry[M. Paternostre et al., 12], algorithme de French
Snowball Stemmer [Porter, 01]], …
- Anglais : l’algorithme le plus connu et performant est: Porter Stemmer [Porter 80] .
II.4. Etapes d’Indexation
Indexation Automatique classique
3) Normalisation (suite)
(3.1) La racinisation (radicalisation suite)
- Utilisation de règles de transformation :

•Algorithme Porter Stemmer [Porter, 80] :conçu pour l’anglais et que Porter l’a adapté

Pour le F r a n ç a i s e n 2 0 0 1 [ P o r t e r, 0 1 ] . C e r t a i n s m o t e u r s d e r e c h e r c h e
l’utilisent dans sa version de normalisation proposée pour
l’Anglais (rapide dans l’exécution et meilleur par rapport aux
autres Stemmer)

Suite à l’analyse de la langue, Porter représente un mot par : [C](VC)m [V] où:

C: ensemble de consonnes ; V: ensemble de voyelles

m: une mesure qui compte le nombre de séquences de Voyelles Consonnes


dans le mot.
II.4. Etapes d’Indexation
Indexation Automatique classique
3) Normalisation (suite)
(3.1) La racinisation (radicalisation suite)

• - Utilisation de règles de transformation :


Algorithme Porter Stemmer : exemple de mesures de m
- m = 0 : tree, by (pas de séquence Voyelle-Consonne)
Voyelle
- m = 1 : trouble, oats, trees, ivy
- m = 2 : troubles, private, oaten, orre
rery
⇰ Les règles de désuffixation, dans Porter, sont exprimées sous la forme
(condition) S1→ S2, ce qui signifie que si un mot se termine par S1 et que
le préfixe avant S1 satisfait la condition alors le suffixe S1 est remplacé
par S2.
⇰ Dans ces règles, on trouve les notations suivantes dont leur signification:
- e : le préfixe se termine par la lettre e
- v : le préfixe contient une voyelle
- d : le préfixe se termine par une consonne doublée
- o : le préfixe se termine par cvc ou le second c n'est ni w, ni x, ni y
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (radicalisation suite)
- Utilisation règles de Transformation
• Algorithme Porter Stemmer : repose sur une succession de 5 principales étapes,
et à chaque étape seule la règle capturant le plus long suffixe (S1) s’applique. Ces
étapes sont illustrées dans ce qui suit:
Etape 1a:
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 1b:

20
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer

Etape 1c :
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 2:

22
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 3:

23
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 4:

24
II.4. Etape d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Etape 5a :

Etape 5b :
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.1) La racinisation (suite) : Algorithme Porter Stemmer
Exemples: Normalisation du mot generalizations en appliquant la succession de règles
de Porter

Etape 1: generalizations ⇒ generalization


Etape 2: generalization et (m avant le suffixe ization =3 >0 )⇒ generalize
Etape 3: generalize et (m avant le suffixe alize =2 >0 ) ⇒ general
Etape 4: general et (m avant le suffixe al =2 >1 ) ⇒ gener
Aucune n’autre règle ne peut s’appliquer pour gener donc : le radical de generalizations
avec Porter est gener
- Normalisation du mot oscillators en appliquant la succession de règles de Porter
Etape 1: oscillators ⇒ oscillator
Etape 2: oscillator et (m=2 >0 ) ⇒ oscillate
Etape 4: oscillate et (m=2 >1 ) ⇒ oscill
Etape 5: oscill et (m=2 >1
1 et la consonne l doublé ) ⇒ oscil
Le radical de oscillators avec Porter est oscil
II.4. Etapes d’Indexation
Indexation Automatique classique
(3.1) La racinisation ( radicalisation suite)
- radicalisation avec n-gram: Analyser les mots de la collection obtenus après
tokénisation et élimination des mots vides, pour regrouper ceux qui sont proches
lexicalement en utilisant le découpage en n-grammes

lettres dans un mot donné. Généralement


n-grammes : est une succession de n-lettres
n=1, 2, 3.
Exemple : retrieval
- 1-gramme : r, e, t, r, i, e, v, a, l
- 2-grammes (bi-gram) : re, et, tr, ri, ie, ev, va, al
- 3-grammes (tri-gram): ret, etr, tri, rie, iev, eva, val

L’Analyse n-grammes consiste à calculer le nombre de n-lettres (n-grammes)


communs entre deux termes par la formule de similarité (distance ) lexicale entre eux :

sim(ti, tj )= 2* nb_comm
mm/(nb_ti + nb_tj )
Sim(ti, tj) >Seuil
Seuil (Seuil fixé après apprentissage sur plusieurs corpus).
II.4. Etapes d’Indexation
Indexation Automatique classique
Exemple1 (Analyse n-grammes):
- Supposons qu’après avoir effectué pour un corpus donné les traitements: d’analyse
lexicale (segmentation) et élimination de mots vides on obtient tous les ter mes pleins
(non vides) de la collection. Par mi ces ter mes, on a les ter mes : t1, t2 et t3 :
t1: retrieve
• t2: retrieval t3: retirement et Seuil=50%

En utilisant 3-grammes:
t1={ret, etr, tri, rie, iev, eve}
t2 ={ret, etr, tri, rie, iev, eva, val}
t3= {ret, eti, tir, ire, rem, eme, men, ent}

sim(t1, t2 )= 2*5/(6+ 7) =0,77


sim(t1, t3 )= 2*1/(6+ 8) =0,14
sim(t2 , t3 )= 2*1/(7+ 8) =0,13

• Les deux termes t1 et t2 sont lexicalement proches à 77% par contre entre t1-t3 et t2-t3 le taux de
respectivement) Donc t1 et t2 seront remplacés dans l’index
ressemblance est très faible (13% et 14% respectivement).
par le mot : retriev (chaine de caractères commune) par contre t3 reste inchangé (retirement)
II.4. Etapes d’Indexation
Indexation Automatique classique
Exemple2 (Analyse n-grammes):
Après Tokenisation et élimination des mots vides, on a :
D1={economie, finance, economiste} D2={economiquement}
Q={ecologie}
• Seuil=50%

En utilisant bi-grammes:
t1=economie={ec, co, on, no, om, mi, ie} t2=finance ={fi, in, na, an, nc, ce}
t3 =economiste={ec, co, on, no, om, mi, is,
is st, te}
t4=economiquement ={ec, co, on, no, om, mi, iq,
i qu, ue, em, me, en, nt}
t5=ecologie={ec, co, ol, lo, og, gi, ie}
Sim(t1, t2) = Sim(t2, t3)=Sim(t2, t4) = Sim(t2,
Sim(t t5) = 0 (aucun bigram commun entre t2 et les
autres termes )
Sim( t1, t3)= (2*6) / (7+9) = 0.75 (75%) Sim( t1, t4)= (2*6) / (7+13) = 0.6 (60%)
Sim( t1, t5)= (2*3) / (7+7) = 0.43 (43%) Sim( t3, t4)= (2*6) / (9+13) = 0.54 (54%)
Sim( t3, t5)= (2*2) / (9+7) =0.25 (25%) Sim(t4, t5)= (2*2) / (13+7) = 0.20 (20%)
On constate que : t1 est 75% semblable à t3 et semblable à t4 avec 60% > Seuil =50%
Donc t1, t3 et t4 possède la même racine : economi
Par contre t2 et t5 ne sont pas proches lexicalement à {t1, t3, t4} <Seuil=50%
II.4. Etapes d’Indexation
Indexation Automatique classique
Exemple2 (Analyse n-grammes):
On remplace chaque mot par sa racine . Donc on obtient après normalisation avec bi-gram :
Index-D1={2 economi, finance } Index-D2={economi}
Index-Q={ecologie}

En réponse à Q, aucun document n’est sélectionné.


sélectionné

Remarques
⇰ Cette technique est utilisée pour la tokenisation de la langue chinoise.

⇰ Elle est aussi très intéressante pour la


l correction orthographique (plus particulièrement la
correction des mots saisis par l’utilisateur dans sa requête.
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.2) La lemmatisation : regroupe les termes de la même catégorie grammaticale
et les transforme à leur forme canonique appelée lemme. Cette technique est
basée sur, une liste d’entités nommées ∈ dictionnaires et des patrons syntaxiques
dans la recherche du lemme d’un mot donné.
Verbe ⇰ Infinitif ; Nom, adjectif et adverbes ⇰ Singulier masculin.
Parmi le lemmatiseur le plus utilisé : Tree-Tagger
Tree [Schmid, 95].
Principe:
1. Avant tokenisation et élimination des mots vides le SRI fait passer le texte dans
un lemmatiseur.
2. Le lemmatiseur analyse le texte et affecte à chaque mot sa catégorie syntaxique
dans le texte en s’appuyant sur des patrons grammaticaux (N: nom, NS/ nom au
pluriel, NP: nom propre, V: verbe, J; adjectif, ….etc)
3. Le lemmatiseur assigne chaque mot par son lemme suivant la forme syntaxique
obtenue dans l’étape précédente (en s’appuyant sur des dictionnaires). Il s’agit
de remplacer chaque verbe à son infinitif et les autres catégories (nom, adjectif
et adverbe, …) au singulier masculin.
4. Récupérer les lemmes en utilisant la tokenisation.
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.2) La lemmatisation
5. Eliminer les lemmes qui représentent des mots vides.
6. Stocker les lemmes dans l’index.
Exemple

D1: Il montre du doigt ces achats. Q: La montre Swatch

D2: Cresus vous propose exclusivement des montres de luxe

⇒ Le résultat de la lemmatisation (texte etiqueté avec les catégories syntaxiques + lemmes):

D1: Il /pronon.pers/il montre /V/montrer


montrer du/prépo./du doigt/N/doigt
ses/adj.poss. / son achat
achats/NS/achat

proposer exclusivement/adverbe/exclusivement
D2: Cresus/NP/cresus propose /V/proposer
des/Déter./de montres/NS/montre de/prépo./de
de/ luxe/N/luxe

Q: La/Déter./la montre /N/montre Swatch/NP/swatch


Swatch/
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
(3.2) La lemmatisation
⇒ Tokenisation (spliter)) par rapport au blanc et caractère \ pour sélectionner que les
lemmes (en rouge) afin de les stocker dans l’index

Index-D1={ il , montrer, du, doigt, achat}

Index-D2={cresus , proposer, exclusivement, de, montre, de, luxe}

Index-Q ={ la, montre, swatch}

⇒Elimination des mots vides à partir des index

Index-D1={ montrer, doigt, achat}

Index-D2={cresus , proposer, montre, luxe} La lemmatisation a permis de différencier


entre montre autant que verbe et montre
autant que nom (Désambiguïsation
Index-Q ={ montre, swatch} syntaxique)

Documents sélectionnés pour Q: D2 (résultat précis sans bruit


II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
Avantage de la normalisation
-
• Une représentation unifiée des différentes variantes morphologiques des termes dans
l’indexation des documents (de même avvec la requête), ce qui a pour effet d’apporter plus de
documents correspondants aux termes de la requête au niveau de l’appariement (réduit l’effet
silence: résout partiellement le problème lié à la perte d’un document qui contient un mot de la
même famille d’un mot de la requête).
-
- Inconvénients de la normalisation

Les algorithmes de radicalisation (Stemmers


Stemmers) sont souvent difficiles à comprendre et à modifier
avec l’évolution terminologique.
La radicalisation peut conduire à une normalisation agressive : même racine pour deux mots
sémantiquement différents.
Exemples
- policy/police, execute/executive, university/universe,
university organization/organ mêmes racines avec la
normalisation de Porter et pourtant sont différents ;
- Internet/Interne (racine interne avec troncature@7)
- Chevalier (cavalier)≠cheval
cheval (animal) même racine cheva obtenu avec règles de transformation
II.4.Etapes d’ Indexation Automatique classique
(3) Normalisation (suite)
- Inconvénients de la normalisation (suite)
Oublis de quelques normalisations intéressantes.
Exemple
• European/Europe, machinery/machine ne sont pas normalisés.
Produit des “stems” qui n’ont pas de sens donc difficiles à interpréter
Exemple
• Avec Porter, “iteration” produit “iter” et “general” produit “gener”, sans
aucune signification.
La lemmatisation est lourde à mettre en œuvre et très couteuse en
temps d’exécution. Elle dépend de la richesse terminologique des dictionnaires.
Malgré que la lemmatisation réduit le problème du bruit documentaire en traitant
l’ambiguïté syntaxique des mots dans la normalisation (lemme de montre autant que
nom est différent de son lemme autant que verbe), cependant les résultats reste
toujours imprécis.

Exemples : Informatique- Informatiser – Informatisation (même sens avec lemmes différents)


Indexer – Indexation –Index (même sens avec lemmes différents)
→ Résultats de recherche avec Silence documentaire.
II.4. Etapes d’Indexation
Indexation Automatique classique
(3) Normalisation (suite)
- Remarques :

- Les systèmes de RI trouvent la difficulté de normaliser les mots formés à partir


d’une combinaison de mots.

Exemple
appendicectomie → appendice+ ectomie ⇒Difficile à le décomposer

-La normalisation concerne également la correction des erreurs de frappes et les


fautes d’orthographe en considérant la mesure de similarité lexicale en s’appuyant
sur les n-grammes

Exemple
Q: Gorbatchov ⇒ une des solution et de chercher dans un dictionnaire le mot
proche lexicalement en utilisant le découpage n-grammes et la
distance lexicale
⇒Solution: Gorbatchev
II.4. Etapes d’Indexation
Indexation Automatique classique
Remarque:
-
-Pour résoudre tous les problèmes rencontrés dans les différentes étapes (Tokenisation,
élimination des mots vides et normalisation), certains SRI s’appuient sur des algorithmes
plus évolués d’identification de termes : mots simples, mots composés et collocation de
mots, les plus représentatifs de la thématique traitée dans le document. Ces algorithmes
s’appuient sur :
→ des techniques d’apprentissage basées sur des relations sémantiques entres les termes
dans une langue donnée ( prendre en considération les relations de synonymie,
d’hyperonymie, ou de cooccurrence entre termes dans un texte donné) ;
→ et/ou des ressources linguistiques (dictionnaires) pour identifier les collocations de mots
(ex: pomme de terre, base de données, SGBD MYSQL, ….)
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération : Au final, chaque document est représenté par des descripteurs
représentant des termes-clés qu’il contient.
contient Cependant, ces termes ne possèdent pas le
même poids (ou même importance) dans un même document. En effet, à titre d’exemple, on
suppose qu’un document D traitant la thématique Informatique contient les mots logiciel et
outil, de ce fait:
- Le terme « logiciel » dans D est plus représentatif (important) que le mot « outil »: il
est nécessaire de distinguer leurs degrés d’informativité
d’
- De plus, si le terme « logiciel » est plus représentatif dans D que dans un autre
Document de la collection, alors il est indispensable de le spécifier .

⇰ Comment caractériser les termes importants par rapport à ceux qui le sont moins,
dans un même document??
⇰ Comment définir les termes importants dans la distinction des documents??

Pondération des termes d’indexation:

Idée sous jacente : les termes-clés


termes représentatifs du contenu documentaire
doivent être représentés par des poids forts marquant leur importance.
3
II.4. Etapes d’ Indexation Automatique classique

• La pondération a pour but de mesurer le degré de représentativité (importance)


des termes-clés, dans un document donné, en leur attribuant des poids.
Alors : « comment calculer les poids?? »

- Plus un terme est important dans un document, plus son poids doit être plus élevé.
- Et inversement, plus un terme est insignifiant dans un document, plus son poids doit
être faible. Autrement dit, un terme est plus important dans un document où il est
fréquent (marque sa présence) que dans un document qui le cite seulement (moins
fréquent)!!!

⇒ Le poids est donc une mesure statistique de l’importance du terme en


fonctions de sa distribution dans les documents de la collection.

33
II.4. Etapes d’Indexation
Indexation Automatique classique

4) Pondération (Suite)

• Plusieurs techniques de pondération en RI ont été introduites pour mesurer un


poids d’importance (ou valeur de représentativité) de chaque terme tj dans un

document di, noté wij (weight : poids)


• Les formules de pondération utilisées en RI reposent sur la combinaison d’un
facteur de pondération local quantifiant la représentativité locale du terme dans
le document, et d’un facteur d
de pondération global quantifiant la
représentativité globale du terme vis-àà-vis de la collection de documents.
II.4. Etape d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
• [Salton et al., 73] ont proposé de pondérer les termes –clés par la combinaison
de:

- Pondération locale mesurée par la fréquence tfij (term frequency) du terme tj dans un
document di. L’intuition sous -jacente : « Un auteur, d’un document, a tendance de répéter
les même termes qui permettent de décrire le sujet (thématique )du document ».
- Pondération globale quantifiée par l‘inverse de sa fréquence documentaire idfj
(inverse document frequency) du terme tj dans la collection. L’idée sous
jacente : «Un terme fréquent dans une collection ne permet pas de distinguer
les documents entre eux». Cette mesure est un facteur de discrimination.

N 
idf j = log 
n 
 j 
Où: N est le nombre de documents dans la collection.
nj est le nombre de documents indexés par le terme tj .
II.4. Etape d’Indexation
Indexation Automatique classique
4) Pondération (Suite)

Autrement dit:
→ Les termes qui marquent leur présence par des fréquences importantes
dans un document sont des termes représentatifs de la thématique de ce
document. Par exemple, dans un document traitant la RI, les occurrences
remarquables des mots indexation, appariement, recherche, pertinence
dénotent leur importance locale (degré de représentativité) dans ce
document (pondération locale tf définie généralement par la fréquence du
terme dans le document)

→ Les termes qui marquent une forte présence dans plusieurs documents de
la collection n’offrent pas le pouvoir de discrimination entre documents. Par
exemple, on retrouve les mots permettre, consiste, pouvoir, devant, entre
dans plusieurs documents mais sont non représentatifs d’une thématique bien
définie. De ce fait les termes qui apparaissent dans peu de documents
permettent de distinguer ces derniers des autres documents de la collection.
(pondération globale idf définie par logarithme de l’inverse du taux
documentaire comportant le terme)
terme
II.4. Etape d’Indexation
Indexation Automatique classique
4) Pondération (Suite)

Explication de la formule idf :


On peut estimer le degré d’apparence d’un terme tj dans une collection par son
taux documentaire dans la collection (Nombre de documents contenant tj par
rapport au nombre total dans la collection).
collection) Formellement :
nj
df j = Avec : df j est fréquence (taux) documentaire de t j
N
n j est le nombre de documents comportant t j
N : est le nombre de documents dans la collection.

Un terme qui appartient à plusieurs documents implique son df élevé


nj
df j = et nj ≅ N signifie :
N dfj ≅ 1 (≅ 100% documents de la collection
contiennent le terme, ce dernier est
alors non descriptif d’un sujet)
II.4. Etape d’Indexation
Indexation Automatique classique
4) Pondération (Suite)

Explication de la formule idf (suite) :


→ Un terme est représentatif (important) dans une collection s’il possède un
df faible, donc l’inverse de son df est élevé (idf: inverse du df).
Formellement :
N
idf j =
nj

→ Pour amortir les écarts entre valeurs des idf associés aux termes de la
collection, et obtenir des petites valeurs, on utilise la fonction
d’amortissement Logarithme. Donc on obtient :
N 
idf j = log 
n 
 j 
II.3. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
• On obtient au final la pondération de [Salton et al., 73] dite tf*idf , définie par:

N 
wij = tf ij × idf j = tf ij × log 
n 
 j 
Tel que : wij est le poids (weight) du terme dans le document di

⇰ La mesure tf* idf est une bonne approximation de l'importance d'un terme dans
un document, particulièrement dans des corpus de documents de tailles
intermédiaires (homogènes).

⇰ Cependant, il est difficile de caractériser les poids des termes-clés dans des
documents de tailles différentes.
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)

• Cette mesure a eu en revanche un succès très limité dans les corpus de tailles très
variables.
⇒ Problème: Si on considère tf =fréquence du terme dans le document, les termes
appartenant aux documents longs apparaissent très fréquemment et l'emportent en poids
sur les termes appartenant à des documents moins longs. Les documents longs auront
alors plus de chance d'être sélectionnés que les plus courts et pourtant ces derniers
peuvent être plus pertinents et représentatifs aux termes de la requête.
Exemple, un terme t qui possède 5 occurrences dans un document court de 20 mots
est plus représentatif que son apparition dans un autre document long avec 100
5 100
occurrences parmi les 20000mots. 5 < 100 cependant >
20 20000

⇒ Les distorsions engendrées par cette hétérogénéité sont corrigées en effectuant une
normalisation de tf : soit par rapport à la taille du document, ou par rapport à la
fréquence maximale des termes.
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)

• Formellement :

freq ij
tf ij normalisée par la taille du document : tf ij ( normalisée ) =
∑ freq
1≤ k ≤ d i
ik

freq ij
tf ij normalisée par le max des fréquences : tf ij ( normalisée ) =
max ( freq ik )
t k ∈d i

freq ij : est la fréquence du terme tj appartenant au document di .

freq ik : est la fréquence d’un terme tk appartenant au document di .


II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)

• Robertson [Robertson et al., 97]


97 définit une formule de pondération de
normalisation par les tailles des documents, dite Okapi-BM25 :
tf ij ×
×(k
(k1 + 1 )  N-n + 0.5 
wij = × log  

k1 ×  (1 − b ) + b ×
dli   n + 0 .5 
 + tf ij
 ∆
∆l 

- wij est le poids d’un terme tj dans un document di


- k1 est une constante pour contrôler l’influence de la fréquence du terme tj dans le
document di. Sa valeur dépend de la longueur des documents dans la collection. Le plus
souvent sa valeur est fixée à 1,2
- b est une constante qui permet de contrôler l’effet de la longueur du document. Sa valeur
la plus souvent utilisée est 0,75.
- dli est la longueur du document di. (sans les mots vides)
- ∆l est la longueur moyenne des documents dans la collection entière. (sans mots vides)
- N est le nombre de documents dans la collection.
- n est le nombre de documents contenant le terme tj
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
Exemple
D1={T1, T2, T3} D2={2T1,
={2T1, 2T3, 3T4} D3={T1, T4}
-Avec pondération tf= fréquence du terme dans le document on obtient:

T1 T2 T3 T4
D1 1 1 1 0
D2 2 0 2 3
D3 1 0 0 1
-Avec pondération tf*idf où tf= fréquence du terme dans le document on obtient:

T1 T2 T3 T4
D1 1*0=0 1*0.48
0.48=0.48 1*0.24=0.24 0
D2 2*0=0 0 2*0.24=0.48 3*0.24=0.72
D3 1*0=0 0 0 1*0.24=0.24
idf Log(3/3)=0 Log(3/1)=0.48 Log(3/2)=0.24 Log(3/2)=0.24

D1={0.48 T2, 0.24 T3} D2={0.48 T3, 0.72 T4} D3={0.24 T4}
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
-Avec pondération tf= fréquence du terme dans le document normalisée par rapport à la
somme des fréquences dans le document, on obtient:
T1 T2 T3 T4 ∑freqDi
D1 1/3=0.33 1/3=0.33
0.33 1/3=0.33 0 1+1+1=3
D2 2/7=0.28 0 2/7=0.28 3/7=0.43 2+2+3=7
D3 1/2=0.50 0 0 1/2=0.50 1+1=2
D1={0.33 T1, 0.33 T2, 0.33 T3} D2={
={0.28 T1, 0.28 T3, 0.43 T4} D3={0.5 T1, 0.5 T4}

Avec pondération tf*idf où tf= fréquence du terme dans le document normalisée par
rapport à la somme des fréquences dans le document, on obtient:

T1 T2 T3 T4 ∑freqDi
D1 (1/3)*0=0 (1/3)*0.48=0.16
0.16 (1/3)*0.24=0.08 0 1+1+1=3
D2 (2/7)*0=0 0 (2/7)*0.24=0.07 (3/7)*0.24=0.10 2+2+3=7
D3 (1/2)*0=0 0 0 (1/2)*0.24=0.12 1+1=2
idf Log(3/3)=0 Log(3/1)=0.48 Log(3/2)=0.24 Log(3/2)=0.24

D1={0.16 T2, 0.08 T3} D2={0.07 T3, 0.10 T4} D3={0.12 T4}
II.4. Etapes d’Indexation
Indexation Automatique classique
4) Pondération (Suite)
-Avec pondération tf= fréquence du terme dans le document normalisée par rapport au
maximum des fréquences dans le document, on obtient:
T1 T2 T3 T4 MaxDi
D1 1/1=1 1/1==1 1/1=1 0 1
D2 2/3=0.67 0 2/3=0.67 3/3=1 3
D3 1/1=1 0 0 1/1=1 1
D1={ T1, T2, T3} D2={0.67
0.67 T1, 0.67 T3, T4} D3={ T1, T4}

Avec pondération tf*idf où tf= fréquence du terme dans le document normalisée par
rapport au maximum des fréquences dans le document, on obtient:

T1 T2 T3 T4 MaxDi
D1 (1/1)*0=0 (1/1)*0.48=0.48
0.48 (1/1)*0.24=0.24 0 1
D2 (2/3)*0=0 0 (2/3)*0.24=0.16 (3/3)*0.24=0.24 3
D3 (1/1)*0=0 0 0 (1/1)*0.24=0.24 1
idf Log(3/3)=0 Log(3/1)=0.48 Log(3/2)=0.24 Log(3/2)=0.24

D1={ 0.48 T2, 0.24 T3} D2={ 0.16 T3, 0.24 T4} D3={ 0.24 T4}
II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse : organiser et stocker les descripteurs (index) de
chaque document dans une structure..

Comment les conserver??? (Quel type de structure de données permettant de stocker


efficacement les index tout en économisant l’espace????)

• Matrice d’incidence termes-documents


documents : proposée initialement par la
communauté de RI pour organiser les termes de la collection suivant leur
apparition dans les documents.
D1 D2 …. Di … Dn
t1 1 0
t2 1: Présent
….. 0: Absent
tj 0 1
…. 0
tm 1
II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse (suite)

• Matrice d’incidence termes-documents


documents (suite)
- Dans la matrice précédente, le 1 défini qu’un terme tj appartient au document Di
et inversement représenté par 0.

- Inconvénient: la pondération des termes n’est pas considérée dans cette


représentation.

⇰ Solution :

D1 D2 …. Di … Dn
t1 w11 W12

t2
…..
tj 0 Wji

…. 0
tm Wm2
II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse(suite)

• Matrice d’incidence termes-documents


documents (suite)

- Dans la matrice ci-dessus, le wji déffini le poids d’un terme tj appartenant au


document Di et inversement représenté par 0.

- Inconvénient: la matrice peut être creuse (pleine de 0) ce qui peut conduire à


une perte de temps dans une recherche d’information et également un gaspillage
d’espace mémoire

⇰ Solution : Fichier inverse


II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse(suite)

• Fichier inverse: sa construction peut prendre énormément de temps. Ces étapes


consiste à :

- Extraire les termes-clés (associés à leurs poids) de chaque document de la


collection et les organiser dans une liste, ou arbre, ou table de hashage, …;

- Trier par ordre alphabétique les termes-clés


termes

- Pour chaque terme, on dispose de la liste de documents qui le contient, le


nombre de documents comportant ce terme et des pointeurs vers ces
documents.

• Trois types de fichier inverse à considérer dans le stockage :

simple; Positionnel; Riche


II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse(suite)

Fichier inverse = Dictionnaire +Posting


• Fichier inverse:

46
II.4. Etapes d’Indexation
Indexation Automatique classique
5) Construction du fichier inverse(suite)

Fichier inverse positionnel

46
II. 5. Problématique de l’indexation classique

Dans les SRI classiques :


Indexation classique est basée sur des mots-clés

⇒ L’appariement document-requête
requête est lexical basé sur le nombre de

mots que le document et la requête se partagent.

• Les mots de la langue sont caractérisés par :

- Leur ambiguïté

- Leur disparité

Sources d’Imprécision des résultats de la recherche


II. 5. Problématique de l’indexation classique
Problème (1): L’ambiguïté est divisée en deux types
Ambiguïté Syntaxique Ambiguïté Sémantique
-> Un mot est ambigu s’il appait plusieurs -> Un mot est ambigu s’il porte différents sens.
formes grammaticales.

Document : D Requête : Q Document : D Requête : Q

Il montre du doigt ses achats Une montre Saison de la


Rejoindre des amis au
récolte du café
café

Verbe : désigner Nom Grains


Lieu
Appariement Appariement
Lexical Lexical

Document (D) retrouvé Document (D) retrouvé

Ambiguïté Documents retrouvés non pertinents


II. 5. Problématique de l’indexation classique
Problème (2): Disparité des mots se réfère à des mots utilisés (document et
requête) lexicalement différents portant des sens liés sémantiquement
(Synonymes, hyperonymes/hyponymes).
hyperonymes/hyponymes)

Document : D Requête : Q

Le virus VIH cause le


Maladie SIDA
Syndrome d’ ImmunoDéficience
mmunoDéficience Acquise

Appariement Lexical

Document (D) non retrouvé

Disparité Documents sémantiquement pertinents non


retrouvés
Références Bibliographiques

[Porter, 80] M. Porter. 1980. An algorithm for suffix stripping. Program, 14(3) :130-137, July, 1980.

[Porter, 01] M.Porter. Snowball: A language for stemming algorithms, 2001.

[M. Paternostre et al., 12]. M. Paternostre, Pascal Francq, J. Lamoral, D. Wartel. Carry, un algorithme de
désuffixation pour le français, 2012.

[Robertson et al., 97] S. E. Robertson and S. Walker. On relevance weights with little relevance
information. In Proceedings of the 20th annu
nnual international ACM SIGIR conference on Research and
development in information retrieval, pages 16–24.
16 ACM Press, 1997.

[Salton et al., 73] G. Salton and C. Yang, On the specification of term values in automatic indexing.
In Journal of Documentation, 29 (1973), 351–372.
351

[Salton et McGill, 83] G.Salton et M.J. McGill, Introduction to Modern Information Retrieval. McGraw-Hill
Book Co., New York, 1983

German. Proceedings of the ACL SIGDAT-Workshop


Workshop. Dublin, Ireland.
[Baziz, 05] M. Baziz, Indexation Conceptuelle Guidée Par Ontologie Pour La Recherche D'information,
Thèse Doctorat 2005.
47
[Schmid, 95] H. Schmid, Improvements in Part-of-Speech
Part Tagging with an Application to german, 1995

Vous aimerez peut-être aussi