Académique Documents
Professionnel Documents
Culture Documents
ON
CONTENU
● C’est quoi l’indexqtion
● Model booleen
● Modele vectoriel
● Modele booleen ponderé
01
C’EST QUOI
L’INDEXATIO
N?
C’EST QUOI
L’INDEXATION
L’indexation est un processus permettant de construire un
ensemble d’éléments “clès” permettant de caractériser le
contenu d’un document / retrouver ce document en
réponse à une requete. Son objectif est de trouver les
mots qui représentent le mieux le contenu d’un
document.
Types d’indexation :
MANUELLE
AUTOMATIQUE
SEMI AUTOMATIQUE
CATEGORIES D’INDEXATION:
SEMI
MANUELLE AUTOMATIQUE
AUTOMATIQUE
Lorsque le document est Un domaine de l’informatique
analysé par un spécialiste qui utilise des méthodes Une combinaison entre le
du domaine ou un expert logicielles pour organiser un manuelle et l’automatique.
en indexation pour le choix ensemble de documents et
des termes significatifs à faciliter ultérieurement la
indexer. recherche de contenu dans
cette collection.
02
LA
RECHERCHE
D’INFORMATI
ON
LA RECHERCHE D’INFORMATION:
Un corpus est un regroupement de documents, par exemple des textes, des images,
vidéos, regroupés dans un but précis.
LES ACTEURS DE LA RI :
• Inconvénients:
• Modèle puissant
• Combinaison des modèles booléen et vectoriel • Calcul complexe
– Document : liste de termes pondérés • Problème de distributivité
– Requête booléenne
– Utilisation des distances algébriques pour mesurer la pertinence d’un
document vis-à-vis à d’une requête
Merci pour votre
attention