Considérons un corpus formé par les documents suivants :
D1= « Le modèle vectoriel représente les termes et les documents »
D2= « Le modèle booléen est meilleur que le modèle vectoriel » D3= « Le modèle vectoriel est simple » On considère la liste suivante des mots vides : « le, les, est, que, et » 1) Segmenter les textes des documents afin de trouver les termes d’indexation (en prenant en considération tous les termes sauf les mots vides). Donner la liste des termes d’indexation ordonnée par ordre alphabétique. 2) Calculer le tf=frequence(ti,dj) de chacun de ces termes pour chaque document 3) Calculer l’idf de chacun de ces termes 4) Créer la matrice de poids pour chaque terme et document (le produit de la pondération locale et la pondération globale) 5) Que donnera le système de recherche d’information en réponse aux à la requête suivante (on ne demande pas de calculer la similarité entre la requête et les documents): Q= « booléen meilleur » D1= « Le modèle vectoriel représente les termes et les documents » D2= « Le modèle booléen est meilleur que le modèle vectoriel » D3= « Le modèle vectoriel est simple »
Terme d'indexation freq freq freq
D1 D2 D3 dft idf tf*idf D1 tf*idf D2 tf*idf D3 booléen 0 1 0 1 0,477121 0 0,477121 0 documents 1 0 0 1 0,477121 0,477121 0 0 meilleur 0 1 0 1 0,477121 0 0,477121 0 modèle 1 2 1 3 0 0 0 0 représente 1 0 0 1 0,477121 0,477121 0 0 simple 0 0 1 1 0,477121 0 0 0,477121 termes 1 0 0 1 0,477121 0,477121 0 0 vectoriel 1 1 1 3 0 0 0 0 Considérons les textes suivants : Document 1 : « Les professeurs parlent de la recherche d information textuelle. » Document 2 : « La recherche des informations est un domaine de recherche qui s intéresse à de nombreux problèmes. » Document 3 : « Le modèle vectoriel de recherche d information est un modèle simple à comprendre. » 1.En considérant la stop-list suivante : {à, au, d, de, du, des, elle, elles, est, je, il, ils, le, la, les, lui, qui, son, s, sa, ses, tu, un, une} Représenter l'ensemble des termes d'indexation de chacun des documents ci-dessus. 2.Dans le but de normaliser les termes d’indexation, on passe par une étape de racinisation qui utilise les deux règles suivantes : s → NULL ent → e Extraire les termes d’indexation finaux. 3.Calculer le tf=freq(ti,dj) de chacun de ces termes pour chaque document. 4.Calculer l'idf=log10(N/dft) de chacun des termes présents dans les documents 5.En déduire la matrice de poids pour ce corpus sachant que poids(t,d)=tf(t,d)*idf(t,D) 6.Soit les requêtes suivantes : Q0 : pomme de terre Q1 : recherche d information Q2 : recherche d information textuelle Q3 : domaine du modèle vectoriel Analyser les requêtes comme les documents (élimination des mots vides et racinisation), et utiliser une pondération des requêtes par le tf uniquement Document 1 : professeur (1/1/0.48), parle(1/1/0.48), recherche(1/3/0), information(1/3/0), textuelle(1/1/0.48). Document 2 : recherche(2/3/0), information(1/3/0), domaine(1/1/0.48), intéresse(1/1/0.48), nombreux(1/1/0.48), problème(1/1/0.48). Document 3 : modèle(2/1/0.48), vectoriel(1/1/0.48), recherche(1/3/0), information(1/3/0), simple(1/1/0.48), comprendre(1/1/0.48) d1 d2 d3 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13