Cours 3

Les modèles vectoriels
Le modèle vectoriel
• Dans ce modèle, un document est représenté
sous forme d’un vecteur dans l’espace
vectoriel composé de tous les termes
d’indexation.
• Les coordonnées d’un vecteur document
représentent les poids des termes
correspondants.
• Formellement, un document di est représenté
par un vecteur de dimension n.
di = (wi1, wi2, ... , win) pour i = 1, 2, …, m.
– Où wij est le poids du terme tj dans le document di,
– m est le nombre de documents dans la collection,
– n est le nombre de termes d’indexation.
• Une requête Q est aussi représentée par un
vecteur de mots-clés défini dans le même espace
vectoriel que le document.
Q = (wQ1 , wQ2 , ... , wQn)
• Où wQj est le poids du terme tj dans la requête Q.
Ce poids peut être soit une forme de tf*idf, soit un
poids attribué manuellement par l’utilisateur.
• La pertinence du document di pour la requête
Q est mesurée comme le degré de corrélation
des vecteurs correspondants. Cette corrélation
peut être exprimée par l’une des mesures
suivantes :
– Le produit scalaire :
– La mesure du cosinus:
– La mesure de Dice :
– La mesure de Jacard :
– Le coefficient de superposition :
• Les documents ayant les plus hauts degrés de
correspondance sont retournés en réponse à la
requête.
• L’un des intérêts de l’approche vectorielle, à
savoir ramener un problème complexe de
comparaison de documents à un problème de
comparaison de mesures de similarité.
• Soit l’espace des termes rencontrés pendant
l’indexation : {model, graph, similarity}
• Soit le document d1 représenté par le vecteur
: {(model, 1), (graph, 2)}
• Soit le document d2 représenté par le vecteur
: {(model, 2), (graph, 1), (similarity, 2)}
• Soit la requête q représentée par : {(graph, 1),
(similarity, 2)}
• Les documents et la requête de l’index peuvent
être représentés comme suit :
• Ce type de représentation dit matricielle est

très utile dès lors que l’on quitte l’espace à
trois dimensions.
Les avantages:
L’un des avantages du modèle vectoriel réside dans sa
simplicité conceptuelle et de mise en œuvre. En outre,
il permet de trier les résultats d’une recherche à travers
une mesure de similarité document/requête, en plaçant
en tête les documents jugés les plus similaires à la
requête.
Les inconvénients:
• Ce modèle ne permet pas de modéliser les associations
entre les termes d’indexation. Chacun des termes est
considéré comme indépendant des autres (pas de co-
occurrence).
Le modèle vectoriel généralisé permet cependant de
résoudre le problème d’indépendance des termes.
Le modèle connexionniste
• Les SRI basés sur l'approche connexionniste utilisent le
fondement des réseaux de neurones, tant pour la phase
d’indexation que pour la mise en œuvre du processus
de RI.
• L’idée de base est que la RI est un processus associatif
qui peut être représenté par les mécanismes de
propagation d’activation des réseaux de neurones.
• De plus, les capacités d’apprentissage de ces modèles
peuvent permettre d’obtenir des SRI adaptatifs (c’est-à-
dire, un SRI qui peut évoluer selon le problème donné).
• Deux modèles théoriques ont été utilisés : les
modèles à auto-organisation et les modèles à
couches:
1. Les modèles à auto-organisation permettent à
partir de la description des documents, d’en
réaliser une classification par l’apprentissage du
réseau de neurones. Ces modèles sont basés sur
les cartes auto-organisatrices.
2. Les modèles à couches : Les SRI basés sur un
modèle connexionniste à couches sont
représentés par un minimum de trois couches de
neurones interconnectées : la couche requête
(Q), la couche termes (T) et la couche documents
(D). Le mécanisme de recherche est basé sur une
activation initiale des neurones termes induite
par une requête, et qui se propage vers les
documents à travers les connexions du réseau.
Dans le modèle MERCURE , une requête Q est
représentée par un vecteur de poids sous forme :
• Les poids des termes dans la requête sont affectés
aux liens requête-termes. L'activité initiale du
réseau correspond à l'activation d'un nœud requête
en envoyant un signal de valeur 1 à travers les
liens requête-termes. Chaque neurone terme tj
affecté par la requête, reçoit une entrée In(tj) et
fournit une sortie Out(tj).
• Un document di qui a des termes tj en commun
avec la requête recevra une entrée In(di) et
calculera sa sortie Out(di).
• Les valeurs de sortie des différents documents
correspondent à leurs degrés de pertinence pour la
requête donnée.
Modèle d’indexation sémantique
latente (LSI)
• L’objectif du modèle LSI est de construire des
index conceptuels portant sur la sémantique
des mots dans les documents.
• Ces index sont tirés à partir de la structure
sémantique latente des textes des documents.
• Chaque vecteur document est au final
représenté dans l'espace k dimensionnel réduit
des termes non bruités. Les documents qui
partagent des termes co-occurrents ont des
représentations proches.
Modèle d’indexation sémantique
latente (LSI)
• La requête utilisateur est aussi représentée par
un vecteur dans l'espace k-dimensionnel. Une
mesure de similarité est ensuite calculée entre
le k-vecteur requête et chacun des k-vecteurs
documents de la collection.
• A l’issue de la recherche, le système
sélectionne les documents pertinents même
s’ils ne contiennent aucun mot de la requête.

Cours 3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours 3

Transféré par

Droits d'auteur :

Formats disponibles

Les modèles vectoriels

• Ce type de représentation dit matricielle est

Vous aimerez peut-être aussi