Contrôle Rech 2020

Université Mohamed Khider – Biskra.
Module: RI
Faculté des Sciences Exactes et des Niveau : M2 SIOD
Sciences de la Nature et de la Vie Année universitaire: 2019/2020
Département d'Informatique Documents non autorisés
Contrôle
Date : 14/01/2020 Durée : 1h30m
Questions (07 pts)
1. Pourquoi le prétraitement est considéré très important dans le processus de création d’un index ?
Citer les différentes tâches qui composent cette phase.
2. Rappeler pourquoi on utilise des poids basés sur le tf*idf en recherche d’information pour les
index des documents, en expliquant le rôle du tf et de l’idf.
3. Quand les métriques rappel et précision peuvent atteindre la valeur 1?
4. Citer les différentes approches de la Recherche d’information sur Web.
5. Expliquer comment les caractéristiques intrinsèques des pages Web sont exploitées dans la
Recherche d’information sur Web.
Exercice 1 (05 pts)

Supposons que les listes des postings sont codées à l'aide de codes γ. En utilisant ce codage, la liste
des postings pour le terme information soit la séquence de bits:
1110111110011100110100111100100
et la liste des postings pour le terme recherche est la séquence de bits:
111010110010111100100111100101
Quels docids correspondent à la requête suivante : informations AND NOT recherche.
Exercice 2 (08 pts)
On veut évaluer les performances d’un SRI, noté « S1 » sur deux requêtes Q1 et Q2. Dans les tableaux
ci-dessous, les documents renvoyés pertinents pour un humain sont notés ‘X’, et les non-pertinents
sont notés ‘-‘. Une case grisée indique que le système ne fournit pas de réponse (par exemple, dans
le tableau qui suit, pour la requête Q2, le système S1 ne retourne que 10 résultats).
On suppose de plus qu’il y a dans le corpus, d’après un évaluateur humain, 6 documents pertinents
pour la requête Q1 et 3 documents pertinents pour la requête Q2.
Rang Q1 Q2
1 X X
2 X -
3 - -
4 X -
5 - -
6 - -
7 X X
8 - -
9 - -
10 - -
11 -
A ) Pour chaque requête :
1. Calculer les valeurs de la précision et le rappel à chaque position de rang.
2. Calculer la valeur la précision moyenne.
3. En déduire le tableau des précision interpolés sur les 11 niveaux de rappel, i ∈ {0, 1,2,..., 10}.
B) La précision normalisée est la moyenne des précisions dans chaque niveau de rappel . A partir
du tableau résultant de la question précédente, déduire le tableau des précisions normalisées (qui
prend en compte les deux requêtes Q1 et Q2) pour le système évalué.
C) Tracer la courbe rappel-précision à partir du tableau de la question précédente ( Question B).
Université Mohamed Khider – Biskra. Module: RI
Faculté des Sciences Exactes et des Niveau : M2 SIOD
Sciences de la Nature et de la Vie Année universitaire: 2019/2020
Département d'Informatique Documents non autorisés
Corrigé type
Date : 06/01/2019 Durée : 1h30m
Questions (07 pts)

1. Pourquoi le prétraitement est considéré très important dans le processus de création d’un index ?
Citer les différentes tâches qui composent cette phase. (Voir le cours) (02 pts)
2. Rappeler pourquoi on utilise des poids basés sur le tf*idf en recherche d’information pour les
index des documents, en expliquant le rôle du tf et de l’idf. (01.5 pts)
On utilise le tf pour terme frequency : plus un terme appraît dans le document, plus il est
important.
On utilise idf pour inverse document frequency : plus le terme est discriminant dans le corpus
plus il est important.
On multiplie ces deux valeurs pour trouver un poids final qui est capable d'avoir de grandes
valeurs pour les termes importants dans un doc et discriminants dans le corpus.
3. Quand les métriques rappel et précision peuvent atteindre la valeur 1? (01 pts)
Précision=1 : tous les documents retournés à l’utilisateur sont pertinents
Rappel=1 : Le SRI retourne tous les documents pertinents contenus dans le corpus.
4. Citer les différentes approches de la Recherche d’information sur Web. (01 pts)
a) Basée sur la navigation
b) Baséee sur l’interrogation.
5. Expliquer comment les caractéristiques intrinsèques des pages Web sont exploitées dans la
Recherche d’information sur Web. (01.5 pts)
Les hyperliens entre les pages et la structure des documents HTML sont les deux principaux
points positifs du domaine analyse du Web. Les documents Web existent dans un hypertexte, avec
des connexions vers, et à partir, d’autres documents.
La structure des documents HTML peut fournir des indices riches aux systèmes de recherche.
Souvent, les titres et les en-têtes contiennent des mots les plus importants pour décrire le texte.
Puisque le HTML marque les entêtes et les titres, les tables, les listes, etc.. Ces balises structurelles
fournissent des indices pour trouver des mots significatifs sur le document Web .
Exercice 1 (05 pts)

Code (02 pt) 1110111 11001 11001 101 0 0 111100100
Gap 15 5 5 3 1 1 20
Doc Id 15 20 25 28 29 30 50
Code (02 pts) 1110101 100 101 1110010 0 111100101

Gap 13 2 3 10 1 21
Doc Id 13 15 18 28 29 50
Docids correspondent à la requête: informations AND NOT recherche : 20 25 30 (01 pts)

Contrôle Rech 2020

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Contrôle Rech 2020

Transféré par

Droits d'auteur :

Formats disponibles

Université Mohamed Khider – Biskra.

Exercice 1 (05 pts)

Questions (07 pts)

Exercice 1 (05 pts)

Code (02 pts) 1110101 100 101 1110010 0 111100101

Docids correspondent à la requête: informations AND NOT recherche : 20 25 30 (01 pts)

Vous aimerez peut-être aussi