Académique Documents
Professionnel Documents
Culture Documents
Examen 2017 Ini
Examen 2017 Ini
Questions de cours :
Exercice indexation :
Soit le score d’un document D étant donnée une requête R calculé par :
𝑆𝑐𝑜𝑟𝑒(𝑅, 𝐷) = ∑ ∈ ∩ 𝑡𝑓 , . 𝑖𝑑𝑓 ,
avec 𝑖𝑑𝑓 = 𝑁/𝑑𝑓 ; 𝑑𝑓 le nombre de documents dans lequel apparait le terme t ; 𝑡𝑓 , est la fréquence
du terme t dans le document D et N est le nombre de documents.
5) Calculer le score et l’ordre de chaque document pour la requête R1.
Exercice compression :
Soit un dictionnaire comportant 400000 éléments. Un élément est représenté dans le dictionnaire par le
terme, la fréquence du terme et un pointeur vers la posting list. La taille moyenne d’un terme est de 8
octets, la taille du terme le plus long est de 20 octets.
1) Sans utilisé de méthode de compression, le dictionnaire est une table dans laquelle chaque
élément est représenté par une ligne contenant le terme, sa fréquence et un pointeur vers la
posting list. Le pointeur a une taille de 4 octets.
2) Avec une compression de type « dictionary as a string », les termes sont stockés dans une grande
chaine de caractère. Dans la table les termes sont remplacés par des pointeurs sur cette chaine
de caractères.
Expliquer le principe de cette méthode de compression, pourquoi cela permet de sauver de
l’espace mémoire ?
Quelle est la taille de la chaine de caractères ?
Combien faut-il octets en moyenne pour représenter un élément ?
3) Les éléments sont désormais regroupés par blocs de 4. Il y a un pointeur pour chaque bloc vers la
chaine de caractères.
Expliquer le principe de ces blocs, pourquoi cela permet de sauver de l’espace mémoire ?
Quelle est la taille de la chaine de caractères ?
Combien faut-il octets en moyenne pour représenter un élément ?