Vous êtes sur la page 1sur 3

Examen de « Indexation et Recherche d’Information »

Université d’Evry, jeudi 2 février 2017

Questions de cours :

1) Quelle est la différence entre documents structurés, semi-structurés et non structurés

2) Qu’est que le stemming ? A quoi sert-il ? Donner un exemple.

3) Comment s'effectue la correction orthographique dans un système de recherche d'information ?

4) Qu’est-ce la courbe précision-rappel ? Dessiner à la main une courbe typique.

5) Qu'est-ce que les « champion lists » ? A quoi servent-elles ?

6) Comment effectuer des requêtes « Wild-card » du type : cho*at

Exercice indexation :

Soit la collection de documents suivante:


Doc1 : Les formules de math et de physique
Doc2 : Des formules correctes de physique quantique
Doc3 : Les amoureux des math
Doc4 : Les math dans la physique quantique
Doc5 : Biblio de physique quantique sans math

1) Créer une matrice d’incidence terme-document

Soit les requêtes suivantes :


R1 : physique AND quantique
R2 : formules AND physique AND NOT math

2) Représenter ces requêtes sous forme de vecteurs binaires.


Montrer comment effectuer la recherche dans la matrice d’incidence.
Donner le résultat de chaque requête.

3) Construire un indexe inversé. Donner le dictionnaire et la posting list.


4) Montrer comment exécuter les requêtes R1 et R2 sur l’index inversé.

Soit le score d’un document D étant donnée une requête R calculé par :
𝑆𝑐𝑜𝑟𝑒(𝑅, 𝐷) = ∑ ∈ ∩ 𝑡𝑓 , . 𝑖𝑑𝑓 ,
avec 𝑖𝑑𝑓 = 𝑁/𝑑𝑓 ; 𝑑𝑓 le nombre de documents dans lequel apparait le terme t ; 𝑡𝑓 , est la fréquence
du terme t dans le document D et N est le nombre de documents.
5) Calculer le score et l’ordre de chaque document pour la requête R1.

Exercice compression :

Soit un dictionnaire comportant 400000 éléments. Un élément est représenté dans le dictionnaire par le
terme, la fréquence du terme et un pointeur vers la posting list. La taille moyenne d’un terme est de 8
octets, la taille du terme le plus long est de 20 octets.

On s’intéresse à la place que va prendre en mémoire le dictionnaire avec différente solution de


compression.

1) Sans utilisé de méthode de compression, le dictionnaire est une table dans laquelle chaque
élément est représenté par une ligne contenant le terme, sa fréquence et un pointeur vers la
posting list. Le pointeur a une taille de 4 octets.

Combien faut-il octets pour représenter un élément ?

2) Avec une compression de type « dictionary as a string », les termes sont stockés dans une grande
chaine de caractère. Dans la table les termes sont remplacés par des pointeurs sur cette chaine
de caractères.
Expliquer le principe de cette méthode de compression, pourquoi cela permet de sauver de
l’espace mémoire ?
Quelle est la taille de la chaine de caractères ?
Combien faut-il octets en moyenne pour représenter un élément ?

3) Les éléments sont désormais regroupés par blocs de 4. Il y a un pointeur pour chaque bloc vers la
chaine de caractères.

Expliquer le principe de ces blocs, pourquoi cela permet de sauver de l’espace mémoire ?
Quelle est la taille de la chaine de caractères ?
Combien faut-il octets en moyenne pour représenter un élément ?

Vous aimerez peut-être aussi