Vous êtes sur la page 1sur 4

Matière: Recherche d’information Niveau : 2eme LSI

Responsable : Hanen Samaali A U : 2022 / 2023

TD 2 : Recherche d’information

Exercice 1 :
Considérons deux documents D1 et D2, représentés sur un vocabulaire T={t1, …, t10}.
La formule logique de D1, est : - WD1 est défini par :

La formule logique de D2 est : - WD2 est défini par :

1. Donner la liste de réponse ordonnée pour chaque requête en utilisant la seconde


similarité vue en cours (modèle booléen pondéré) :
Q1 : t7  t5 Q2 : t2  t10

Solution :
 Pour Q1

Sim(D1,( t7  t5 ))= 1-  (1 – 0.62 ) + (1 – 12 )

2
= 0.43

 (1 – 0 ) + (1 – 12 )
= 0.29
Sim(D2,( t7  t5 ))= 1- 2
Un document est pertinent lorsqu'il peut nous aider à répondre à notre question de recherche.

c’est-à-dire qu'il doit répondre à un besoin d’utilisateur.

Le document d1 est plus pertinent que le document d2

La liste ordonnée des documents est : d1, d2

 Pour Q2

 0 + 0.92 = 0.63
= 0.63
Sim(D1,( t2  t10))= 2

Sim(D1,( t2  t10))=  0.72 + 0.92

2
= 0.80

Le document d2 est plus pertinent que le document d1

La liste ordonnée des documents est : d2, d1


Exercice 2 :
Soient les ensembles des termes obtenus de l'indexation des documents D1 et D2 suivants:

D1 = {efficacité, recherche, mesurée, précision, moyenne}

D2 = {modèles, recherche, efficaces, langage, vectoriel}

1. Donner la table des fréquences : terme, document;


2. Calculer TF*IDF de chaque terme

Solution :

Terme D1 D2 TF*IDF D1 TF*IDF D2


efficacité 1 0 1*log(2/1) = 0.30 0
recherche 1 1 1*log(2/2) = 0 1*log(2/2) = 0
mesurée 1 0 1*log(2/1) = 0.30 0
précision 1 0 1*log(2/1) = 0.30 0
moyenne 1 0 1*log(2/1) = 0.30 0
modèles 0 1 0 1*log(2/1) = 0.30
efficaces 0 1 0 1*log(2/1) = 0.30
langage 0 1 0 1*log(2/1) = 0.30
vectoriel 0 1 0 1*log(2/1) = 0.30

Exercice 3 :

Soient : un document qui contient le texte ”maison belle maison”

une collection de 100 documents, le terme ”maison” apparaît dans 20 documents pour un
nombre d’occurrences de 35 au total, le terme ”belle” apparaît dans 35 documents pour un
nombre d’occurrences de 40 au total.

1. Quelle est la pondération ”TF*IDF” des termes ”maison” et ”belle” pour le


document ? Commentez les valeurs obtenues.
Solution :
TF-IDF (ou Term Frequency – Inverse Document Frequency) (Sparck Jones, 1972) mesure le
pouvoir discriminant d'un mot ou d’un groupe de mots dans un document donné. Essentiellement,
cette technique mesure l'importance d'un certain terme dans un document par rapport aux
autres documents de la même collection.

Cette mesure est utilisée pour pondérer les termes-candidats : plus la valeur TFIDF d’un terme-
candidat est élevée, plus celui-ci est important dans le document analysé. En prenant compte de
tous les documents dans le corpus, cette méthode présente généralement de meilleurs résultats.

1. T1 = maison et T2 = belle

W1 = TF1*IDF1 = 2*log(100/20)= 1,39

W2 = TF2*IDF2 = 1*log(100/35)= 0,45

2. Le terme T1(maison) est plus important que le terme T2(belle) dans le document
analysé.

Vous aimerez peut-être aussi