Vous êtes sur la page 1sur 3

Université de Batna Module : Recherche d’information textuelle

Faculté des sciences


Département d’informatique 2011/2012
Durée : 1h30 Le 08/04/2012
Contrôle final
Master II
II - SRI
Questions de cours (5 pts)

1. Dans le processus d’indexation, le fichier inverse est une structure très


utilisée. Quel est l’inconvénient majeur de cette structure ? (1 pt)
2. Quelle définition a proposé Tefko Saracevic pour la pertinence ? (1 pt)
3. Un terme qui apparaît dans tous les documents d’un corpus est-il discriminant
ou pas ? (1 pt)
4. Un modèle de recherche d’information est vu comme un quadruplet.
Définissez ce quadruplet en expliquant les quatre éléments ? (1 pt)
5. Quel est l’inconvénient du modèle LSI ? (1 pt)

Exercice 01 (5 pts)

Soit la requête booléenne suivante :


R = t1 ∞-AND (t2 ∞-OR t3) 2-AND t4
et soit les poids des termes dans les documents comme suit:
t1 t2 t3 t4

D1 0.90 0.80 0.09 0.01


D2 0.70 0.40 0.50 0
D3 0.60 0.90 0.80 0.90
D4 0 0.01 0.80 0.90
Trouvez les documents pertinents à R.

Exercice 02 (10 pts)

Le serveur vGlOSS fait deux suppositions dans le scénario avec grande-


corrélation.
Soit une collection de documents hébergée sur un serveur si et une question q
contenant 3 termes "t1 t2 t3".
Le nombre de documents de la collection contenants les termes de q est défini
comme suit : fi1=2, fi2=4, et fi3=6.
Les poids des 3 termes de q dans la collection sont : wi1=0.4, wi2=0.2, wi3=0.8
En se basant sur les suppositions du scénario avec grande-corrélation, calculez
la similarité Estimate(0.3, q, si), et dites si le serveur si sera sélectionné comme
pertinent.

Bonne chance…

NB: Le corrigé type vous le trouverez sur le site :


http://www.larbiguezouli.com

-1/3-
Correction du contrôle final
Master II - SRI
Questions de cours (5 pts)

1. Dans le processus d’indexation, le fichier inverse est une structure très


utilisée. Quel est l’inconvénient majeur de cette structure ? (1 pt)
Le fichier inverse exige un espace de stockage important (de 40% à
200% de la taille de la collection de documents) selon la complexité de
l'indexation.
2. Quelle définition à proposé Tefko Saracevic pour la pertinence ? (1 pt)
La pertinence est la A d'un B existant entre un C et un D jugé par un E.
Tel que A : intervalle de la mesure
B : aspect de la pertinence
C : un document
D : besoin d'information (requête)
E : l'utilisateur
3. Un terme qui apparaît dans tous les documents d’un corpus est-il discriminant
ou pas ? (1 pt)
Un terme qui apparaît dans tous les documents n'est pas discriminant
4. Un modèle de recherche d’information est vu comme un quadruplet.
Définissez ce quadruplet en expliquant les quatre éléments ? (1 pt)
[D, Q, F, R(qi,dj)] tel que:
D: est l’ensemble des représentations des documents du corpus;
Q: est l’ensemble des représentations des requêtes de l’utilisateur;
F: est le Framework de modélisation des représentations des documents
(ensembles des opérations sur les représentations des documents);
R(qi,dj): est la fonction de classement qui associe au couple (qi,dj) un
réel représentant le degré de rapprochement entre qi et dj.
5. Quel est l’inconvénient du modèle LSI ? (1 pt)
L’inconvénient est la perte d’information quand on ne garde que les k
premiers vecteurs propres dans la matrice U.

Exercice 01 (5 pts)

Soit la requête booléenne suivante :


R = t1 ∞-AND (t2 ∞-OR t3) 2-AND t4
Et soit les poids des termes dans les documents comme suit:
t1 t2 t3 t4

D1 0.90 0.80 0.09 0.01


D2 0.70 0.40 0.50 0
D3 0.60 0.90 0.80 0.90
D4 0 0.01 0.80 0.90
Trouvez les documents pertinents à R.

-2/3-
t t t t t2 ∞-OR t3 t1 ∞-AND (t2 ∞-OR t3) R
1 2 3 4

D1 0.90 0.80 0.09 0.01 0.80 0.80 0


D2 0.70 0.40 0.50 0 0.50 0.50 0
D3 0.60 0.90 0.80 0.90 0.90 0.60 0.60
D4 0 0.01 0.80 0.90 0.80 0 0
Donc le document D3 est le plus pertinent par rapport à R.

Exercice 02 (10 pts)

Le serveur vGlOSS fait deux suppositions dans le scénario avec grande-


corrélation.
Soit une collection de documents hébergée sur un serveur si et une question q
contenant 3 termes "t1 t2 t3".
Le nombre de documents de la collection contenants les termes de q est défini
comme suit : fi1=2, fi2=4, et fi3=6.
Les poids des 3 termes dans la collection sont : wi1=0.4, wi2=0.2, wi3=0.8
En se basant sur les suppositions du scénario avec grande-corrélation, calculez
la similarité Estimate(0.3, q, si), et dites si le serveur si sera sélectionné comme
pertinent.

Selon la 1ère supposition, le poids d’un terme est distribué uniformément


sur tous les documents qui le contiennent. Ce qui veut dire qu’un terme tj aura
le poids (wij/fij) dans tous les documents du serveur si qui contiennent ce
terme.
Selon la 2ème supposition, les 2 documents avec le terme "t1" contiennent
aussi les termes "t2" et "t3".
ࡱ࢙࢚࢏࢓ࢇ࢚ࢋሺ૙. ૜, ࢗ, ࢙࢏ ሻ = ෍ ൫ࢌ࢏࢐ − ࢌ࢏ሺ࢐ି૚ሻ ൯ × ࢙࢏࢓࢐
࢐ୀ૚..࢖
࢝࢏࢑
࢙࢏࢓࢐ = ෍ ࢗ࢑ ×
ࢌ࢏࢑
࢑ୀ࢐..࢔

૙. ૝ ૙. ૛ ૙. ૡ
࢙࢏࢓૚ = + + = ૙. ૜ૡ૜ > 0. ૜
૛ ૝ ૟
૙. ૛ ૙. ૡ
࢙࢏࢓૛ = + = ૙. ૚ૡ૜ < 0. ૜
૝ ૟
Donc p=1
ࡱ࢙࢚࢏࢓ࢇ࢚ࢋሺ૙. ૜, ࢗ, ࢙࢏ ሻ = ሺࢌ࢏૚ − ࢌ࢏૙ ሻ × ࢙࢏࢓૚ = ࢌ࢏૚ × ࢙࢏࢓૚ = ૙. ૠ૟૟
Comme Estimate(0.3, q, si) = 0.766 > 0.3 donc le serveur est pertinent.

-3/3-

Vous aimerez peut-être aussi