Académique Documents
Professionnel Documents
Culture Documents
ET RECHERCHE
MULTIMÉDIA
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
2
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
3
Qu'est-ce que la recherche d'information ?
4
QU’EST CE QUE LA RI ?
4
Moteur de recherche
6
Contextes d'utilisation
• Bureautique
• Recherche scientifique
• etc.
7
Problématique
8
CONCEPTS DE BASE DE LA RI
Besoin en information
10
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
11
Eléments centraux
• Documents
• Satisfaction
12
Les documents
• 2 classes d’information
– Contenu
13
Besoin d’information d’un utilisateur
– Sur les attributs : Article écrit par Alim-Louis Benabid (type de document et auteur)
– Sur la structure : Article médical contenant une image de CT- scan (lien entre texte et
image)
• Contraintes sur le contenu
– Contenu brut : Document avec le texte 'hépatomégalie'
14
Besoin d’information d’un utilisateur
• Types de requêtes :
• Complexité :
– Ambiguïté (UGA : Université Grenoble Alpes, Ouganda, club de foot UGA Décines…)
15
Besoin d’information d’un utilisateur
– Site: faites suivre (ou précéder) le mot à rechercher de site: suivi (sans espace) de l’adresse d’un
site.
– Related : suivi d’une adresse URL d’un site connu de vous, affiche toutes les pages aux contenus
similaires.
– Info: devant l’URL d’un site, permet d’accéder facilement aux pages similaires et d’autres
recherches avancées liées au site.
16
Satisfaction de l'utilisateur
Le système doit
• être simple à utiliser
• fournir les meilleures réponses possibles, et ces réponses doivent être « pertinentes » pour
l’utilisateur
17
Satisfaction de l'utilisateur
• Pertinence du thème
• Clarté
• Nouveauté
• …
18
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
19
Modèles de RI
20
Modèles de RI
21
Le modèle booléen strict
22
Le modèle booléen strict
• La fonction de correspondance est basée sur l’implication logique en logique des propositions :
– Un document D répond à une requête Q si et seulement si : D Q
• Utilisation de déduction par
– Axiomes : (a b) a, (a b) b, a (a b), b (a b), …
– Exemple : D = t1 t3 t2 t4 et Q= t1 t4
• Déduction :
1. t1 t3 t2 t4 t1 (équivalent à D t1)
2. t1 t1 t4 (équivalent à t1 Q)
23
Le modèle booléen strict
Appariement Exact basé sur la présence ou l’absence des termes de la requête dans les documents
– Appariement (q,d) = RSV(q,d)=1 ou 0
• Remarques (1)
• Q= t1 t3 t 4
• D1 = t1 t4 t2 t3
D1 Q
• Le document D1 (représenté par D1) n’est pas pertinent pour la requête Q (représentée par Q)
d’après le modèle, alors qu’il contient une description « proche » de la requête.
24
Le modèle booléen strict
• Remarques (2)
• Q= t1 t 4
• D2 = t1 t4
• D3 = t1 t3 t4 t5 t6 t7 t2
D2 Qet D3 Q
• Le document D2 (représenté par D2) est-il plus ou moins pertinent que D3
(représenté par D3) pour la requête Q (représentée par Q) ?
25
Le modèle booléen strict
• Remarques (3)
– Utilisable pour des experts, mais difficile pour des utilisateurs
"courants"
Ceci amène à définir des modèles fournissant des résultats sous forme de liste
26
Le modèle booléen strict
27
Le modèle booléen pondéré
– Extension du modèle booléen en intégrant des pondérations (dénotant la représentativité d’un terme
pour un document).
– Modèle de connaissances : T = {ti}, i [1, .. N]
• Termes ti qui indexent les documents
– Un document D est représenté par :
• Une formule logique D (idem modèle booléen)
• Une fonction WD : T [0,1], qui pour chaque terme de T donne le poids de ce terme dans D.
28
Le modèle booléen pondéré
29
Le modèle booléen pondéré
Version 2
– Définition d’une mesure de similarité qui tient
davantage compte de chacun des termes de la
requête
30
Le modèle booléen pondéré
31
Le modèle booléen pondéré
32
Le modèle booléen pondéré
33
Le modèle booléen pondéré
• Ex . (((a b) c) ¬ d)
• Arbre de requête :
34
Le modèle booléen pondéré
• Ex . (((a b) c) ¬ d)
• Génération des opérations :
Opérations effectuées :
min(max(min(WD(a), WD(b)), WD(c)),1-WD(d))
35
Le modèle vectoriel
36
Le modèle vectoriel
37
Le modèle vectoriel
38
Le modèle vectoriel
39
Comment pondérer les termes ?
– Pour indexer, la première idée est de compter les mots les plus fréquents excepté les termes non
significatifs comme « de », « avec », « comme »…
40
Comment pondérer les termes ?
– Exemple : si violon apparaît 5 fois dans le document D3, avec violon=t23, alors
tf3,23 = 5
41
Comment pondérer les termes ?
• On tient compte du corpus (base de documents) entier, un terme qui apparaît beaucoup
ne discrimine pas nécessairement les documents :
42
Comment pondérer les termes ?
43
Comment pondérer les termes ?
44
Comment pondérer les termes ?
Soient un document D dans une collection de 10 documents et une requête Q représentés par les vecteurs
suivants représentant les fréquences des termes :
D = (3, 1, 2)
Q = (2, 2, 1)
Sachant que: le terme T1 se trouve dans 6 documents, le terme T2 se trouve dans 2 documents et le terme T3
se trouve dans 4 documents.
1) Calculer les poids des termes du document D en utilisant la fonction de pondération: TF*IDF avec IDF =
log (N/DF)
TF: Fréquence du terme dans le document
DF: Proportion de documents contenant le terme
N: Nombre de documents de la collection.
2) Calculer la similarité (similitude) Sim (Q, D) en utilisant la mesure de Inner Product:
45