Vous êtes sur la page 1sur 4

Université M’Hamed Bougara Module : Recherche d’Information (RI)

Département Informatique - Faculté des Sciences Année Universitaire : 2019-2020


3ème Année Licence : ISIL Enseignante : W. AZZOUG

Série TD n°1 : Indexation et Pondération

Exercice 1
Etant donnée C une collection composée des 5 documents suivants :
D1 : Un système de recherche d’information a pour but de sélectionner l’information pertinente.
D2 : Le module d’analyse numérique est enseigné aux étudiants de 3ème année licence R.O.
D3 : « La science économique est l’analyse de la production, des échanges et de la consommation des biens » : Dicton d’un
économiste.
D4 : Le rouge-gorge familier est une espèce de passereau.
D5 : Java est un langage de programmation orienté objet.
Soient des requêtes soumises par des utilisateurs comme suit:
Q1 : Passereau Q2 : passereau Q3 : economiste Q4 : RO Q5 : gorge sèche
Q6 : mal de tête Q7 : le calcul des prédicats Q8: économie Q9 : module analyse Q10 : SRI

Dans la sélection de l’information pertinente, on considère 4 Systèmes de Recherche d’Information (SRI) classiques :
- SRI1 : basé sur une indexation utilisant le traitement tokenization par rapport aux blancs.
- SRI2 : basé sur une indexation utilisant le traitement tokenization par rapport aux blancs+caractères spéciaux.
- SRI3 : basé sur une indexation utilisant les traitements linguistiques : tokenization (blancs+caractères spéciaux) et
élimination des mots vides avec la Stoplist ={articles, prépositions, déterminants, nombres, pronoms}.
- SRI4 : basé sur une indexation utilisant les 3 traitements linguistiques : tokenization (blancs+caractères spéciaux),
élimination des mots vides (Stoplist ={articles, prépositions, déterminants, nombres, pronoms}) et normalisation avec une
troncature@7.
N.B : SRI2, SRI3 et le SRI4 : Les traitements employés sont insensibles à la casse (pas de différence entre la
majuscule, la minuscule et accents dans la comparaison entre caractères).
1) En appliquant le SRI1 :
1.1) Donner les descripteurs (index) respectifs des documents de C.
1.2) Lister les documents qui sélectionnés par le SRI1 en réponse à chaque requête : Q1, Q2, Q3 et Q4.
1.3) Que peut-on déduire des résultats obtenus par le SRI1?
2) En appliquant le SRI2 :
2.1) Lister les documents sélectionnés dans chaque requête: Q1, Q2, Q3, Q4, Q5, Q6 et Q7. Justifier.
2.2) Que peut-on déduire des résultats obtenus par le SRI2?
3) En appliquant le SRI3 :
3.1) Lister les documents pertinents obtenus en réponse à chacune des requêtes suivantes : Q4, Q5, Q6 et Q7. Justifier.
4) En appliquant le SRI4 :
4.1) Lister les documents pertinents dans chacune des requêtes suivantes : Q3, Q8, Q9 et Q10. Justifier
4.2) On suppose qu’un utilisateur soumet la requête Q11 =java pour obtenir des informations sur île de java. Analyser les
documents de C qui seront affichés à l’utilisateur en réponse à Q11. Que peut-on déduire ?
5) En examinant les résultats de recherche de chaque SRI :
5.1) A votre avis, quels sont les défis majeurs d’un SRI pour rechercher et sélectionner des informations pertinentes aux
requêtes utilisateurs ?
5.2) Comment peut-on définir les concepts : Bruit documentaire et Silence documentaire ?
Exercice 2
Soit un corpus documentaire composé de {D1, D2, D3}, dont leurs contenus respectifs sont comme suit :
D1 : L’organisation mondiale du commerce (OMC) s’occupe des règles régissant le commerce entre les pays.
D2 : Internet est le réseau informatique mondial accessible au public.
D3 : Le livre porte sur l’histoire de la ville.
1) Donner les index correspondants aux documents de la collection en utilisant dans l’étape de normalisation la succession
des règles de transformation suivantes (élaborées avec le même principe de l’algorithme de radicalisation Porter) :
s -> ; (*v*)y->i ; (m>0)isation->ise ; (m>0)ation->ate; (m>0) ant -> ;
(m>0)ss ->s ; (m>1)ise-> ; (m>1)atique-> a ; (m>1)e-> ; (m>0) t ->
(m>1)ll->l
2) Donner les index correspondants aux documents de la collection en utilisant l’algorithme de normalisation suivant :

Entrées : Tokens : ensemble des mots non vides ∈ document Doci ; Indexi={};
Sorties :Indexi; // rempli à la sortie
Début
Pour Tokj (1, …, |Tokens|)∈Tokens faire
1. k=1 ;
2. Mot= "" ;
3. Tant que (k<= 5 et k<=length(Tokj)) faire
3.1. Mot=Mot+ Tokj[k] ; //Concaténation
3.2. k=k+1 ;
FinTanque ;
4. Inserer(Mot, Indexi) ;
FinPour,
Fin.
Avec : - length(Tokj) est la longueur de la chaine de caractères constituant Tokj.
- Tokj[k] est le kème caractère de Tokj. Par exemple, si Tokj = "Bonjour" alors Tokj[1]=‘B’ et Tokj[3]=‘n’

3) Donner les index correspondants aux documents de la collection en utilisant dans l’étape de normalisation la
lemmatisation.
4) Soient {Q1, Q2, Q3} trois requêtes différentes soumises par un utilisateur dans un SRI pour répondre à ses besoins en
informations, telles que : Q1 : organe ; Q2 : internet Q3 : porte maison
Ce système s’appuie dans l’étape d’indexation sur l’une des normalisations illustrées dans les questions 1), 2) et 3).
- Pour chaque type de normalisation, lister les documents qui seront considérés pertinents par le SRI. Que peut-on déduire
des résultats restitués.
Exercice 3
On considère un échantillon d’un fichier inverse positionnel de la forme suivante :
Dictionnaire Posting
base: ≺d1, 12≻≺d2, 23-32-43≻≺d3, 53≻
donnee: ≺d1, 25≻≺d2, 34, 40≻≺d3, 38≻
militaire: ≺d1, 14-22≻
Où :
- Les entrées du dictionnaire sont des mots-clés lemmatisés appartenant aux documents de la collection ;
- Un di dans le Posting réfère au document i (i=1, 2, 3) et les autres nombres sont des positions du mot dans le
document associé.
1) Quels sont les documents qui correspondent aux requêtes suivantes :
Q1 : "base militaire" Q2 : "base de données"
2) Quel est l’utilité des positions des mots dans un fichier inverse ?
3) Déduire : Fichier inverse simple et Fichier inverse riche
Exercice 4
La matrice d’incidence suivante, (Document, Terme), représente le nombre d’occurrences des termes dans chaque document.
Terme1 Terme2 Terme3
D1 3 1 2
D2 5 3 3
D3 9 1 5
D4 6 2 0
D5 0 1 0

1) Représenter la matrice d’incidence avec la pondération tf*idf, tel que : tf=fréquence terme dans le document.

2) Tracer le fichier inverse simple en considérant cette pondération.


Exercice 5
Soit une collection composée des 5 documents suivants :

D1 : (T1, 3T3) ; D2=(T1, T2, 2T3) ; D3=(2T3, T4) ; D4=(T4) ; D5= (T1, T2, T3)

1) Représenter la matrice d’incidence (Document, Terme) de la collection.


2) Calculer les poids des termes avec : poids(T,Di) = tf(T, Di) *Idf(T, Di)., où tf(T, Di)=fréquence d’apparition d’un terme T dans Di normalisée
par rapport maximum des fréquences dans Di.
3) Calculer les poids des termes représentatifs avec : poids(T,Di) = tf(T, Di) *Idf(T, Di)., Avec tf(T, Di)=fréquence d’apparition d’un terme T
dans Di normalisée par rapport à la somme des fréquences des termes dans Di.
4) Expliquer l’intérêt de la fréquence normalisée en RI.

5) Que signifie en RI la formule suivante : ≅1 avec : dfj est la fréquence documentaire d’un terme tj calculée par le

taux fréquentiel documentaire d’un terme dans une collection : =


N : Nombre de documents dans la collection
nj: Nombre de documents dans la collection contenant tj
Exercice 6 (Travail à remettre)
Soit une collection composée des documents suivants :

- D1 : «L'examen du passé nous montre le chemin à parcourir vers l'avenir»


- D2 : «L’informatique est un domaine scientifique. Les applications de l'informatique forment la base du secteur d'activité
des technologies de l'information et de la communication ».
- D3 : «La recherche d’information est un domaine qui s’intéresse à l’indexation. Une des étapes de l’indexation est
l’élimination de mots-vides pour garder que les termes informatifs».
- D4 : «Les vers oxyures sont de minuscules vers blancs filiformes qui vivent dans le tube digestif. »

Soit la succession d’étapes d’indexation d’un processus de RI (insensible à la casse) comme suit :
(1) Segmentation : spliter par rapport aux blancs et caractères spéciaux.
(2) Elimination des termes ∊ à l’anti-dictionnaires ={à, au, d, de, du, des, elle, elles, et, est, je, il, ils, l, le, la, les, lui, nous, pour,
qui, que, s, sa, ses, son, sont, sur, tu, un, une, vers} ;
(3) Normalisation en utilisant les heuristiques suivantes :
- Pour un mot m ∊ document, mesurer k=nombre de séquences Consonne-Voyelle dans m
- Si k <3 alors Tnormalisé (terme normalisé de m ) = m
- Sinon Tnormalisé (terme normalisé de m ) = {caractères depuis le début de m jusqu’à la kème séquence Consonne-Voyelle de m
incluse}
(4) Pondération avec tf=fréquence d’un terme normalisée par rapport à la somme des fréquences des termes dans le document.
1) Donner les index respectifs aux documents de la collection.

2) Donner un extrait du fichier inverse simple en représentant uniquement les termes d’indexation stockés dans les 8 premiers
3) Soient trois requêtes Q1, Q2 et Q 3 ; telles que :

Q1 : informatique Q2 : une montre swatch Q 3 : Les vers intestinaux

3.1) Lister les documents pertinents en réponse à chaque requête (sans calculer leurs degrés de pertinence).

3.2) L’indexation telle que définie dans l’énoncé génère-t-elle du bruit documentaire ou silence documentaire dans les
résultats de recherche obtenus respectivement pour : Q1 , Q2 et Q 3 . Justifier.

3.3) En analysant les résultats de recherche sélectionnés pour l’ensemble des requêtes, que peut-on dire sur la performance
du SRI.

Vous aimerez peut-être aussi