Vous êtes sur la page 1sur 18

Solution Série d’exercices 2

Modèles de Recherche d’Information


L3 ISIL

Par: Dr. OUKID Lamia

2019-2020
Modèle flou: Rappel
• Un document di est représenté par un ensemble de termes ti tel que:
• A chaque terme ti est associé un poids Wti € [0, 1]

• Une requête q est un ensemble de termes tj reliés par les opérateurs booléens :
« AND », « OR » et « NOT »

• Appariement approché:
• interpréter la conjonction « AND » par le « Min » Rsv(d , t1  t2 )  min( Rsv(d , t1 ), Rsv(d , t2 ))
• Interpréter la disjonction « OR » par le « Max » Rsv(d , t1  t2 )  max( Rsv(d , t1 ), Rsv(d , t2 ))
Rsv(d , t1 )  1  Rsv(d , t1 )

2
Série d’exercices 2; Exercice 1:
• Modèle booléen étendu :
• Etape 1 : construction de l’index de la collection
• d1 : « langage programmation java base langage c++ »
• d2 : « langage programmation langage utilise traduire algorithme programme »
• d3 : « langage programmation python utilise traite texte »

• Méthode de pondération TF (Term Frequency)

• Index d1 : « langage (0.33) ; programmation (0.17) ; java (0.17) ; base (0.17) ; c++ (0.17) »
• Index d2 : « langage(0.28); programmation(0.14); utilise(0.14) traduire(0.14);
algorithme(0.14); programme(0.14) »
• Index d3 : « langage(0.17); programmation(0.17); python(0.17); utilise(0.17); traite(0.17);
texte(0.17) »
Formule TF (Term Frequency)

nt ,d
Tf t ,d 
Nd

Où nt , d est la fréquence d'apparition du terme t dans le document d et N d est le nombre total des termes
dans d
Série d’exercices 2; Exercice 1:
• Etape 2: Calcul de similarités RSV
• Index d1 : « langage (0.33) ; programmation (0.17) ; java (0.17) ; base (0.17) ; c++ (0.17) »
• Index d2 : « langage(0.28); programmation(0.14); utilise(0.14) traduire(0.14);
algorithme(0.14); programme(0.14) »
• Index d3 : « langage(0.17); programmation(0.17); python(0.17); utilise(0.17); traite(0.17);
texte(0.17) »

• Q1 : langage ˄ programmation
• RSV(d1, Q1)= Min (RSV(d1, langage) ; RSV(d1, programmation)) = Min (0.33 ; 0.17 )= 0.17
• RSV(d2, Q1)= Min (RSV(d2, langage) ; RSV(d2, programmation)) = Min ( 0.28; 0.14)= 0.14
• RSV(d3, Q1)= Min (RSV(d3, langage) ; RSV(d3, programmation)) =Min (0.17 ; 0.17)= 0.17
Classement Document RSV(di, Q1)
• Documents pertinents pour Q1 :
1 D1 0.17
1 D3 0.17
3 D2 0.14
Index d1 : « langage (0.33) ;
Série d’exercices 2; Exercice 1: programmation (0.17) ; java (0.17) ;
base (0.17) ; c++ (0.17) »
• Etape 2: Calcul de similarités RSV Index d2 : « langage(0.28);
• Q2 : langage ˄ python ˄ ˥ java programmation(0.14); utilise(0.14)
• RSV(d1, Q2)= ? traduire(0.14); algorithme(0.14);
• RSV(d1, Q2)= 1- RSV(d1, java)= 1-0.17=0.83 programme(0.14) »
Index d3 : « langage(0.17);
• RSV(d1, Q2)= Min (RSV(d1, langage) ; RSV(d1, python) ; RSV(d1, ˥ java))
programmation(0.17); python(0.17);
• RSV(d1, Q2)= Min (O.33; 0;0.83)=0 utilise(0.17); traite(0.17);
texte(0.17) »
• RSV(d2, Q2)= ?
• RSV(d2, Q2)= 1- RSV(d2, java)= 1
• RSV(d1, Q2)= Min (RSV(d2, langage) ; RSV(d2, python) ; RSV(d2, ˥ java)) = Min (0.28; 0;1)=0

• RSV(d3, Q2)= ?
• RSV(d3, Q2)= 1- RSV(d3, java)= 1
• RSV(d3, Q2)= Min (RSV(d3, langage) ; RSV(d3, python) ; RSV(d3, ˥ java)) = Min(0.17; 0.17;1)=0.17

• Documents pertinents pour Q2 : Classement Document RSV(di, Q2)


1 D3 0.17
Index d1 : « langage (0.33) ;
programmation (0.17) ; java (0.17) ;

Série d’exercices 2; Exercice 1: base (0.17) ; c++ (0.17) »


Index d2 : « langage(0.28);
• Etape 2: Calcul de similarités RSV programmation(0.14); utilise(0.14)
traduire(0.14); algorithme(0.14);
• Q3 : langage ˄ (c ++ ˅ python)
programme(0.14) »
• RSV (d1, Q3)= ? Index d3 : « langage(0.17);
• RSV (d1, c ++ ˅ python)= Max (RSV(d1, c ++); RSV(d1, python)) =Max (O.17;0)=0.17programmation(0.17); python(0.17);
• RSV (d1, Q3)= Min (RSV(d1, langage); RSV(d1, c ++ ˅ python)) utilise(0.17); traite(0.17);
• RSV (d1, Q3)= Min(O.33; 0.17)=0.17 texte(0.17) »

• RSV (d2, Q3)= ?


• RSV (d2, c ++ ˅ python)= Max (RSV(d2, c ++); RSV(d2, python)) = Max(O; 0)=0
• RSV (d2, Q3)= Min (RSV(d2, langage); RSV(d2, c ++ ˅ python)) = Min (0.28; 0)=0

• RSV (d3, Q3)= ?


• RSV (d3, c ++ ˅ python)= MAX (RSV(d3, c ++); RSV(d3, python)) = Max (0;0.17)=0.17
• RSV (d3, Q3)= Min (RSV(d3, langage); RSV(d3, c ++ ˅ python)) =Min(0.17;0.17)=0.17
• Classement Document RSV(di, Q3)
• Documents pertinents pour Q3 :
1 D1 0.17
1 D3 0.17
Modèle vectoriel: Rappel
• Basé sur un espace vectoriel R défini par l'ensemble des termes : R < t1 , t2 , ..., tn >
• Représentation d’un document:
d < wt1 , wt2 , ..., wtn >
• Représentation de la requête:
q < wqt1 , wqt2 , ..., wqtn >
• wti et wqti sont les poids du terme ti dans le document d et dans la requête q
• n représente le nombre de termes dans l'espace.

• Représentation sous forme de matrice terme X document

• Appariement approché:
• Calcul de similarité par différentes mesures: produit interne, mesure du cosinus, coef de Dice,
mesure de Jaccard

8
Série d’exercices 2; Exercice 2:

• Représentation dans un espace vectoriel:


1

d2
0.75

q
0.5

d1
0.25
d3

0.25 0.5 0.75 1


• L’ordre de réponses selon la représentation graphique est: d3, d1, d2 (le vecteur
document le plus proche du vecteur requête représente le document le plus pertinent)
Série d’exercices 2; Exercice 2:
• Vérification par la mesure de similarité Cosinus:
0.5𝑥1+0.5𝑥0.5
• RSV (d1, q)= = 0.95
(0.52 +0.52 )𝑥(12 +0.52 )

0.25𝑥1+1𝑥0.5
• RSV (d2, q)= = 0.65
(0.252 +12 )𝑥(12 +0.52 )

0.75𝑥1+0.5𝑥0.25
• RSV (d3, q)= = 0.99
(0.752 +0.252 )𝑥(12 +0.52 )

• Ordre de réponses vérifié: d3, d1, d2


Série d’exercices 2; Exercice 3:
• Elimination des mots vides :
• Document 1 : « Le professeur parle de la recherche d'information textuelle »
• Document 2 : « La recherche d'information est un domaine de recherche qui
s'intéresse à des nombreux problèmes »
• Document 3 : « Le modèle vectoriel de recherche d'information est un modèle
algébrique »

• Pondération par la formule Tf :


• Index Document 1 : « professeur (0.2) ; parle (0.2) ; recherche (0.2) ; information
(0.2) ; textuelle (0.2) »
• Index Document 2 : « recherche (0.28) ; information (0.14) ; domaine
(0.14) ; intéresse(0.14) ; nombreux(0.14) ; problèmes (0.14) »
• Index Document 3 : « modèle(0.33) ; vectoriel(0.17) ; recherche(0.17) ;
information(0.17) ; algébrique(0.17) »
Série d’exercices 2; Exercice 3:
• Matrice terme X Document : Index Document 1 : « professeur (0.2) ;
parle (0.2) ; recherche (0.2) ; information
(0.2) ; textuelle (0.2) »
d1 d2 d3 Index Document 2 : « recherche
professeur 0.2 0 0 (0.28) ; information (0.14) ; domaine
Parle 0.2 0 0 (0.14) ; intéresse(0.14) ; nombreux(0.14) ;
recherche 0.2 0.28 0.17 problèmes (0.14) »
information 0.2 0.14 0.17 Index Document 3 : « modèle(0.33) ;
vectoriel(0.17) ; recherche(0.17) ;
textuelle 0.2 0 0
information(0.17) ; algébrique(0.17) »
domaine 0 0.14 0
intéresse 0 0.14 0
nombreux 0 0.14 0
problèmes 0 0.14 0
modèle 0 0 0.33
vectoriel 0 0 0.17
algébrique 0 0 0.17
Mesures de similarité
Série d’exercices 2; Exercice 3:
• Calcul de similarité RSV pour la requête Q1:

• Produit Interne Rsv(d j , qk )  i 1 wij  wqik


n

• wij est le poids du terme i dans le document d j


• wq est le poids du terme i dans la requête qk
ik

• Q1 : recherche documentaire
• Index Q1: recherche (0.5); documentaire (0.5)
• RSV (d1, Q1)= 0.2X0.5= 0.1
• RSV (d2, Q1)= 0.28x0.5= 0.14
• RSV (d3, Q1)= 0.17x0.5= 0.085 Classement Document RSV(di, Q1)
1 D2 0.14
• Résultats retournés pour Q1 : 2 D1 0.1
3 D3 0.085
Série d’exercices 2; Exercice 3:
• Calcul de similarité RSV pour la requête Q2:
• Mesure du Cosinus:
• Q2 : recherche d'information
• Index Q2: recherche (0.5); information (0.5)

0.2𝑥0.5+0.2𝑥0.5
• RSV (d1, Q2)= = 0.625
(0.22 +0.22 +0.22 +0.22 +0.22 )𝑥(0.52 +0.52 )

0.28𝑥0.5+0.14𝑥0.5
• RSV (d2, Q2)= = 0.71
(0.282 +0.142 +0.142 +0.14 2 +0.142 +0.14 2 )𝑥(0.52 +0.52 )

0.17𝑥0.5+0.17𝑥0.5
• RSV (d3, Q2)= = 0.51
(0.172 +0.172 +0.332 +0.172 +0.172 )𝑥(0.52 +0.52 )

Classement Document RSV(di, Q2)


• Résultats retournés pour Q2 : 1 D2 0.71
2 D1 0.625
3 D3 0.51
Série d’exercices 2; Exercice 3:
• Calcul de similarité RSV pour la requête Q3:
• Coef de Dice:
• Q3 : recherche d'information textuelle
• Index Q3: recherche(0.33); information(0.33); textuelle(0.33)

2𝑥(0.2𝑥0.33+0.2𝑥0.33+0.2𝑥0.33)
• RSV (d1, Q3)= =0.75
(0.22 +0.22 +0.22 +0.22 +0.22 )+(0.332 +0.332 +0.332 )

2𝑥(0.28𝑥0.33+0.14𝑥0.33)
• RSV (d2, Q3)= =0.55
(0.282 +0.14 2 +0.14 2 +0.14 2 +0.14 2 +0.14 2 )+(0.332 +0.332 +0.332 )

2𝑥(0.17𝑥0.33+0.17𝑥0.33)
• RSV (d3, Q3)= = 0.41
(0.172 +0.172 +0.332 +0.172 +0.172 )+(0.332 +0.332 +0.332 )
Classement Document RSV(di, Q3)
• Résultats retournés pour Q3: 1 D1 0.75
2 D2 0.55
3 D3 0.41
Série d’exercices 2; Exercice 3:
• Calcul de similarité RSV pour la requête Q4:
• Mesure de Jaccard:
• Q4 : domaine du modèle vectoriel
• Index Q4: domaine(0.33); modèle(0.33); vectoriel(0.33)

• RSV (d1, Q4)= 0


0.14𝑥0.33
• RSV(d2,Q4)= =0.1
(0.282 +0.14 2 +0.14 2 +0.14 2 +0.14 2 +0.14 2 )+ 0.332 +0.332 +0.332 −(0.14𝑥0.33)

0.33𝑥0.33+0.17𝑥0.33
• RSV (d3, Q4)=
(0.172 +0.172 +0.332 +0.172 +0.172 )+ 0.332 +0.332 +0.332 −(0.33𝑥0.33+0.17𝑥0.33)
• RSV (d3, Q4)=0.18
Classement Document RSV(di, Q3)
• Résultats retournés pour Q4:
1 D3 0.18
2 D2 0.1
Merci
Contact: lamia.oukid@gmail.com

Vous aimerez peut-être aussi