Académique Documents
Professionnel Documents
Culture Documents
Exercice 1
Etant donnée C une collection composée des 5 documents suivants :
D1 : Un système de recherche d’information a pour but de sélectionner l’information pertinente.
D2 : Le module d’analyse numérique est enseigné aux étudiants de 3ème année licence R.O.
D3 : « La science économique est l’analyse de la production, des échanges et de la consommation des biens » : Dicton d’un
économiste.
D4 : Le rouge-gorge familier est une espèce de passereau.
D5 : Java est un langage de programmation orienté objet.
Soient des requêtes soumises par des utilisateurs comme suit:
Q1 : Passereau Q2 : passereau Q3 : economiste Q4 : RO Q5 : gorge sèche
Q6 : mal de tête Q7 : le calcul des prédicats Q8: économie Q9 : module analyse Q10 : SRI
Dans la sélection de l’information pertinente, on considère 4 Systèmes de Recherche d’Information (SRI) classiques :
- SRI1 : basé sur une indexation utilisant le traitement tokenization par rapport aux blancs.
- SRI2 : basé sur une indexation utilisant le traitement tokenization par rapport aux blancs+caractères spéciaux.
- SRI3 : basé sur une indexation utilisant les traitements linguistiques : tokenization (blancs+caractères spéciaux) et
élimination des mots vides avec la Stoplist ={articles, prépositions, déterminants, nombres, pronoms}.
- SRI4 : basé sur une indexation utilisant les 3 traitements linguistiques : tokenization (blancs+caractères spéciaux),
élimination des mots vides (Stoplist ={articles, prépositions, déterminants, nombres, pronoms}) et normalisation avec une
troncature@7.
N.B : SRI2, SRI3 et le SRI4 : Les traitements employés sont insensibles à la casse (pas de différence entre la
majuscule, la minuscule et accents dans la comparaison entre caractères).
1) En appliquant le SRI1 :
1.1) Donner les descripteurs (index) respectifs des documents de C.
1.2) Lister les documents qui sélectionnés par le SRI1 en réponse à chaque requête : Q1, Q2, Q3 et Q4.
1.3) Que peut-on déduire des résultats obtenus par le SRI1?
2) En appliquant le SRI2 :
2.1) Lister les documents sélectionnés dans chaque requête: Q1, Q2, Q3, Q4, Q5, Q6 et Q7. Justifier.
2.2) Que peut-on déduire des résultats obtenus par le SRI2?
3) En appliquant le SRI3 :
3.1) Lister les documents pertinents obtenus en réponse à chacune des requêtes suivantes : Q4, Q5, Q6 et Q7. Justifier.
4) En appliquant le SRI4 :
4.1) Lister les documents pertinents dans chacune des requêtes suivantes : Q3, Q8, Q9 et Q10. Justifier
4.2) On suppose qu’un utilisateur soumet la requête Q11 =java pour obtenir des informations sur île de java. Analyser les
documents de C qui seront affichés à l’utilisateur en réponse à Q11. Que peut-on déduire ?
5) En examinant les résultats de recherche de chaque SRI :
5.1) A votre avis, quels sont les défis majeurs d’un SRI pour rechercher et sélectionner des informations pertinentes aux
requêtes utilisateurs ?
5.2) Comment peut-on définir les concepts : Bruit documentaire et Silence documentaire ?
Exercice 2
Soit un corpus documentaire composé de {D1, D2, D3}, dont leurs contenus respectifs sont comme suit :
D1 : L’organisation mondiale du commerce (OMC) s’occupe des règles régissant le commerce entre les pays.
D2 : Internet est le réseau informatique mondial accessible au public.
D3 : Le livre porte sur l’histoire de la ville.
1) Donner les index correspondants aux documents de la collection en utilisant dans l’étape de normalisation la succession
des règles de transformation suivantes (élaborées avec le même principe de l’algorithme de radicalisation Porter) :
s -> ; (*v*)y->i ; (m>0)isation->ise ; (m>0)ation->ate; (m>0) ant -> ;
(m>0)ss ->s ; (m>1)ise-> ; (m>1)atique-> a ; (m>1)e-> ; (m>0) t ->
(m>1)ll->l
2) Donner les index correspondants aux documents de la collection en utilisant l’algorithme de normalisation suivant :
Entrées : Tokens : ensemble des mots non vides ∈ document Doci ; Indexi={};
Sorties :Indexi; // rempli à la sortie
Début
Pour Tokj (1, …, |Tokens|)∈Tokens faire
1. k=1 ;
2. Mot= "" ;
3. Tant que (k<= 5 et k<=length(Tokj)) faire
3.1. Mot=Mot+ Tokj[k] ; //Concaténation
3.2. k=k+1 ;
FinTanque ;
4. Inserer(Mot, Indexi) ;
FinPour,
Fin.
Avec : - length(Tokj) est la longueur de la chaine de caractères constituant Tokj.
- Tokj[k] est le kème caractère de Tokj. Par exemple, si Tokj = "Bonjour" alors Tokj[1]=‘B’ et Tokj[3]=‘n’
3) Donner les index correspondants aux documents de la collection en utilisant dans l’étape de normalisation la
lemmatisation.
4) Soient {Q1, Q2, Q3} trois requêtes différentes soumises par un utilisateur dans un SRI pour répondre à ses besoins en
informations, telles que : Q1 : organe ; Q2 : internet Q3 : porte maison
Ce système s’appuie dans l’étape d’indexation sur l’une des normalisations illustrées dans les questions 1), 2) et 3).
- Pour chaque type de normalisation, lister les documents qui seront considérés pertinents par le SRI. Que peut-on déduire
des résultats restitués.
Exercice 3
On considère un échantillon d’un fichier inverse positionnel de la forme suivante :
Dictionnaire Posting
base: ≺d1, 12≻≺d2, 23-32-43≻≺d3, 53≻
donnee: ≺d1, 25≻≺d2, 34, 40≻≺d3, 38≻
militaire: ≺d1, 14-22≻
Où :
- Les entrées du dictionnaire sont des mots-clés lemmatisés appartenant aux documents de la collection ;
- Un di dans le Posting réfère au document i (i=1, 2, 3) et les autres nombres sont des positions du mot dans le
document associé.
1) Quels sont les documents qui correspondent aux requêtes suivantes :
Q1 : "base militaire" Q2 : "base de données"
2) Quel est l’utilité des positions des mots dans un fichier inverse ?
3) Déduire : Fichier inverse simple et Fichier inverse riche
Exercice 4
La matrice d’incidence suivante, (Document, Terme), représente le nombre d’occurrences des termes dans chaque document.
Terme1 Terme2 Terme3
D1 3 1 2
D2 5 3 3
D3 9 1 5
D4 6 2 0
D5 0 1 0
1) Représenter la matrice d’incidence avec la pondération tf*idf, tel que : tf=fréquence terme dans le document.
D1 : (T1, 3T3) ; D2=(T1, T2, 2T3) ; D3=(2T3, T4) ; D4=(T4) ; D5= (T1, T2, T3)
5) Que signifie en RI la formule suivante : ≅1 avec : dfj est la fréquence documentaire d’un terme tj calculée par le
Soit la succession d’étapes d’indexation d’un processus de RI (insensible à la casse) comme suit :
(1) Segmentation : spliter par rapport aux blancs et caractères spéciaux.
(2) Elimination des termes ∊ à l’anti-dictionnaires ={à, au, d, de, du, des, elle, elles, et, est, je, il, ils, l, le, la, les, lui, nous, pour,
qui, que, s, sa, ses, son, sont, sur, tu, un, une, vers} ;
(3) Normalisation en utilisant les heuristiques suivantes :
- Pour un mot m ∊ document, mesurer k=nombre de séquences Consonne-Voyelle dans m
- Si k <3 alors Tnormalisé (terme normalisé de m ) = m
- Sinon Tnormalisé (terme normalisé de m ) = {caractères depuis le début de m jusqu’à la kème séquence Consonne-Voyelle de m
incluse}
(4) Pondération avec tf=fréquence d’un terme normalisée par rapport à la somme des fréquences des termes dans le document.
1) Donner les index respectifs aux documents de la collection.
2) Donner un extrait du fichier inverse simple en représentant uniquement les termes d’indexation stockés dans les 8 premiers
3) Soient trois requêtes Q1, Q2 et Q 3 ; telles que :
3.1) Lister les documents pertinents en réponse à chaque requête (sans calculer leurs degrés de pertinence).
3.2) L’indexation telle que définie dans l’énoncé génère-t-elle du bruit documentaire ou silence documentaire dans les
résultats de recherche obtenus respectivement pour : Q1 , Q2 et Q 3 . Justifier.
3.3) En analysant les résultats de recherche sélectionnés pour l’ensemble des requêtes, que peut-on dire sur la performance
du SRI.