Académique Documents
Professionnel Documents
Culture Documents
Le modèle vectoriel
• Dans ce modèle, un document est représenté
sous forme d’un vecteur dans l’espace
vectoriel composé de tous les termes
d’indexation.
• Les coordonnées d’un vecteur document
représentent les poids des termes
correspondants.
• Formellement, un document di est représenté
par un vecteur de dimension n.
Le modèle vectoriel
di = (wi1, wi2, ... , win) pour i = 1, 2, …, m.
– Où wij est le poids du terme tj dans le document di,
– m est le nombre de documents dans la collection,
– n est le nombre de termes d’indexation.
• Une requête Q est aussi représentée par un
vecteur de mots-clés défini dans le même espace
vectoriel que le document.
Q = (wQ1 , wQ2 , ... , wQn)
• Où wQj est le poids du terme tj dans la requête Q.
Ce poids peut être soit une forme de tf*idf, soit un
poids attribué manuellement par l’utilisateur.
Le modèle vectoriel
• La pertinence du document di pour la requête
Q est mesurée comme le degré de corrélation
des vecteurs correspondants. Cette corrélation
peut être exprimée par l’une des mesures
suivantes :
– Le produit scalaire :
Le modèle vectoriel
– La mesure du cosinus:
– La mesure de Dice :
Le modèle vectoriel
– La mesure de Jacard :
– Le coefficient de superposition :
Le modèle vectoriel
• Les documents ayant les plus hauts degrés de
correspondance sont retournés en réponse à la
requête.
• L’un des intérêts de l’approche vectorielle, à
savoir ramener un problème complexe de
comparaison de documents à un problème de
comparaison de mesures de similarité.
Le modèle vectoriel
• Soit l’espace des termes rencontrés pendant
l’indexation : {model, graph, similarity}
• Soit le document d1 représenté par le vecteur
: {(model, 1), (graph, 2)}
• Soit le document d2 représenté par le vecteur
: {(model, 2), (graph, 1), (similarity, 2)}
• Soit la requête q représentée par : {(graph, 1),
(similarity, 2)}
Le modèle vectoriel
• Les documents et la requête de l’index peuvent
être représentés comme suit :