Académique Documents
Professionnel Documents
Culture Documents
2019-2020
Modèle flou: Rappel
• Un document di est représenté par un ensemble de termes ti tel que:
• A chaque terme ti est associé un poids Wti € [0, 1]
• Une requête q est un ensemble de termes tj reliés par les opérateurs booléens :
« AND », « OR » et « NOT »
• Appariement approché:
• interpréter la conjonction « AND » par le « Min » Rsv(d , t1 t2 ) min( Rsv(d , t1 ), Rsv(d , t2 ))
• Interpréter la disjonction « OR » par le « Max » Rsv(d , t1 t2 ) max( Rsv(d , t1 ), Rsv(d , t2 ))
Rsv(d , t1 ) 1 Rsv(d , t1 )
2
Série d’exercices 2; Exercice 1:
• Modèle booléen étendu :
• Etape 1 : construction de l’index de la collection
• d1 : « langage programmation java base langage c++ »
• d2 : « langage programmation langage utilise traduire algorithme programme »
• d3 : « langage programmation python utilise traite texte »
• Index d1 : « langage (0.33) ; programmation (0.17) ; java (0.17) ; base (0.17) ; c++ (0.17) »
• Index d2 : « langage(0.28); programmation(0.14); utilise(0.14) traduire(0.14);
algorithme(0.14); programme(0.14) »
• Index d3 : « langage(0.17); programmation(0.17); python(0.17); utilise(0.17); traite(0.17);
texte(0.17) »
Formule TF (Term Frequency)
nt ,d
Tf t ,d
Nd
Où nt , d est la fréquence d'apparition du terme t dans le document d et N d est le nombre total des termes
dans d
Série d’exercices 2; Exercice 1:
• Etape 2: Calcul de similarités RSV
• Index d1 : « langage (0.33) ; programmation (0.17) ; java (0.17) ; base (0.17) ; c++ (0.17) »
• Index d2 : « langage(0.28); programmation(0.14); utilise(0.14) traduire(0.14);
algorithme(0.14); programme(0.14) »
• Index d3 : « langage(0.17); programmation(0.17); python(0.17); utilise(0.17); traite(0.17);
texte(0.17) »
• Q1 : langage ˄ programmation
• RSV(d1, Q1)= Min (RSV(d1, langage) ; RSV(d1, programmation)) = Min (0.33 ; 0.17 )= 0.17
• RSV(d2, Q1)= Min (RSV(d2, langage) ; RSV(d2, programmation)) = Min ( 0.28; 0.14)= 0.14
• RSV(d3, Q1)= Min (RSV(d3, langage) ; RSV(d3, programmation)) =Min (0.17 ; 0.17)= 0.17
Classement Document RSV(di, Q1)
• Documents pertinents pour Q1 :
1 D1 0.17
1 D3 0.17
3 D2 0.14
Index d1 : « langage (0.33) ;
Série d’exercices 2; Exercice 1: programmation (0.17) ; java (0.17) ;
base (0.17) ; c++ (0.17) »
• Etape 2: Calcul de similarités RSV Index d2 : « langage(0.28);
• Q2 : langage ˄ python ˄ ˥ java programmation(0.14); utilise(0.14)
• RSV(d1, Q2)= ? traduire(0.14); algorithme(0.14);
• RSV(d1, Q2)= 1- RSV(d1, java)= 1-0.17=0.83 programme(0.14) »
Index d3 : « langage(0.17);
• RSV(d1, Q2)= Min (RSV(d1, langage) ; RSV(d1, python) ; RSV(d1, ˥ java))
programmation(0.17); python(0.17);
• RSV(d1, Q2)= Min (O.33; 0;0.83)=0 utilise(0.17); traite(0.17);
texte(0.17) »
• RSV(d2, Q2)= ?
• RSV(d2, Q2)= 1- RSV(d2, java)= 1
• RSV(d1, Q2)= Min (RSV(d2, langage) ; RSV(d2, python) ; RSV(d2, ˥ java)) = Min (0.28; 0;1)=0
• RSV(d3, Q2)= ?
• RSV(d3, Q2)= 1- RSV(d3, java)= 1
• RSV(d3, Q2)= Min (RSV(d3, langage) ; RSV(d3, python) ; RSV(d3, ˥ java)) = Min(0.17; 0.17;1)=0.17
• Appariement approché:
• Calcul de similarité par différentes mesures: produit interne, mesure du cosinus, coef de Dice,
mesure de Jaccard
8
Série d’exercices 2; Exercice 2:
d2
0.75
q
0.5
d1
0.25
d3
0.25𝑥1+1𝑥0.5
• RSV (d2, q)= = 0.65
(0.252 +12 )𝑥(12 +0.52 )
0.75𝑥1+0.5𝑥0.25
• RSV (d3, q)= = 0.99
(0.752 +0.252 )𝑥(12 +0.52 )
• Q1 : recherche documentaire
• Index Q1: recherche (0.5); documentaire (0.5)
• RSV (d1, Q1)= 0.2X0.5= 0.1
• RSV (d2, Q1)= 0.28x0.5= 0.14
• RSV (d3, Q1)= 0.17x0.5= 0.085 Classement Document RSV(di, Q1)
1 D2 0.14
• Résultats retournés pour Q1 : 2 D1 0.1
3 D3 0.085
Série d’exercices 2; Exercice 3:
• Calcul de similarité RSV pour la requête Q2:
• Mesure du Cosinus:
• Q2 : recherche d'information
• Index Q2: recherche (0.5); information (0.5)
0.2𝑥0.5+0.2𝑥0.5
• RSV (d1, Q2)= = 0.625
(0.22 +0.22 +0.22 +0.22 +0.22 )𝑥(0.52 +0.52 )
0.28𝑥0.5+0.14𝑥0.5
• RSV (d2, Q2)= = 0.71
(0.282 +0.142 +0.142 +0.14 2 +0.142 +0.14 2 )𝑥(0.52 +0.52 )
0.17𝑥0.5+0.17𝑥0.5
• RSV (d3, Q2)= = 0.51
(0.172 +0.172 +0.332 +0.172 +0.172 )𝑥(0.52 +0.52 )
2𝑥(0.2𝑥0.33+0.2𝑥0.33+0.2𝑥0.33)
• RSV (d1, Q3)= =0.75
(0.22 +0.22 +0.22 +0.22 +0.22 )+(0.332 +0.332 +0.332 )
2𝑥(0.28𝑥0.33+0.14𝑥0.33)
• RSV (d2, Q3)= =0.55
(0.282 +0.14 2 +0.14 2 +0.14 2 +0.14 2 +0.14 2 )+(0.332 +0.332 +0.332 )
•
2𝑥(0.17𝑥0.33+0.17𝑥0.33)
• RSV (d3, Q3)= = 0.41
(0.172 +0.172 +0.332 +0.172 +0.172 )+(0.332 +0.332 +0.332 )
Classement Document RSV(di, Q3)
• Résultats retournés pour Q3: 1 D1 0.75
2 D2 0.55
3 D3 0.41
Série d’exercices 2; Exercice 3:
• Calcul de similarité RSV pour la requête Q4:
• Mesure de Jaccard:
• Q4 : domaine du modèle vectoriel
• Index Q4: domaine(0.33); modèle(0.33); vectoriel(0.33)
0.33𝑥0.33+0.17𝑥0.33
• RSV (d3, Q4)=
(0.172 +0.172 +0.332 +0.172 +0.172 )+ 0.332 +0.332 +0.332 −(0.33𝑥0.33+0.17𝑥0.33)
• RSV (d3, Q4)=0.18
Classement Document RSV(di, Q3)
• Résultats retournés pour Q4:
1 D3 0.18
2 D2 0.1
Merci
Contact: lamia.oukid@gmail.com