Vous êtes sur la page 1sur 5

Considérons un corpus formé par les documents suivants :

D1= « Le modèle vectoriel représente les termes et les documents »


D2= « Le modèle booléen est meilleur que le modèle vectoriel »
D3= « Le modèle vectoriel est simple »
On considère la liste suivante des mots vides : « le, les, est, que, et »
1) Segmenter les textes des documents afin de trouver les termes d’indexation (en prenant en
considération tous les termes sauf les mots vides). Donner la liste des termes d’indexation
ordonnée par ordre alphabétique.
2) Calculer le tf=frequence(ti,dj) de chacun de ces termes pour chaque document
3) Calculer l’idf de chacun de ces termes
4) Créer la matrice de poids pour chaque terme et document (le produit de la pondération locale et
la pondération globale)
5) Que donnera le système de recherche d’information en réponse aux à la requête suivante (on ne
demande pas de calculer la similarité entre la requête et les documents):
Q= « booléen meilleur »
D1= « Le modèle vectoriel représente les termes et les documents »
D2= « Le modèle booléen est meilleur que le modèle vectoriel »
D3= « Le modèle vectoriel est simple »

Terme d'indexation freq freq freq


D1 D2 D3 dft idf tf*idf D1 tf*idf D2 tf*idf D3
booléen 0 1 0 1 0,477121 0 0,477121 0
documents 1 0 0 1 0,477121 0,477121 0 0
meilleur 0 1 0 1 0,477121 0 0,477121 0
modèle 1 2 1 3 0 0 0 0
représente 1 0 0 1 0,477121 0,477121 0 0
simple 0 0 1 1 0,477121 0 0 0,477121
termes 1 0 0 1 0,477121 0,477121 0 0
vectoriel 1 1 1 3 0 0 0 0
Considérons les textes suivants :
Document 1 : « Les professeurs parlent de la recherche d information textuelle. »
Document 2 : « La recherche des informations est un domaine de recherche qui s intéresse à de nombreux problèmes. »
Document 3 : « Le modèle vectoriel de recherche d information est un modèle simple à comprendre. »
1.En considérant la stop-list suivante :
{à, au, d, de, du, des, elle, elles, est, je, il, ils, le, la, les, lui, qui, son, s, sa, ses, tu, un, une}
Représenter l'ensemble des termes d'indexation de chacun des documents ci-dessus.
2.Dans le but de normaliser les termes d’indexation, on passe par une étape de racinisation qui utilise les deux règles suivantes :
s → NULL
ent → e
Extraire les termes d’indexation finaux.
3.Calculer le tf=freq(ti,dj) de chacun de ces termes pour chaque document.
4.Calculer l'idf=log10(N/dft) de chacun des termes présents dans les documents
5.En déduire la matrice de poids pour ce corpus sachant que poids(t,d)=tf(t,d)*idf(t,D)
6.Soit les requêtes suivantes :
Q0 : pomme de terre
Q1 : recherche d information
Q2 : recherche d information textuelle
Q3 : domaine du modèle vectoriel
Analyser les requêtes comme les documents (élimination des mots vides et racinisation), et utiliser une pondération des requêtes par le tf
uniquement
Document 1 : professeur (1/1/0.48), parle(1/1/0.48), recherche(1/3/0), information(1/3/0), textuelle(1/1/0.48).
Document 2 : recherche(2/3/0), information(1/3/0), domaine(1/1/0.48), intéresse(1/1/0.48), nombreux(1/1/0.48),
problème(1/1/0.48).
Document 3 : modèle(2/1/0.48), vectoriel(1/1/0.48), recherche(1/3/0), information(1/3/0), simple(1/1/0.48),
comprendre(1/1/0.48)
d1 d2 d3
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13

Vous aimerez peut-être aussi