Académique Documents
Professionnel Documents
Culture Documents
Module: RI
Faculté des Sciences Exactes et des Niveau : M2 SIOD
Sciences de la Nature et de la Vie Année universitaire: 2019/2020
Département d'Informatique Documents non autorisés
Contrôle
Date : 14/01/2020 Durée : 1h30m
Questions (07 pts)
1. Pourquoi le prétraitement est considéré très important dans le processus de création d’un index ?
Citer les différentes tâches qui composent cette phase.
2. Rappeler pourquoi on utilise des poids basés sur le tf*idf en recherche d’information pour les
index des documents, en expliquant le rôle du tf et de l’idf.
3. Quand les métriques rappel et précision peuvent atteindre la valeur 1?
4. Citer les différentes approches de la Recherche d’information sur Web.
5. Expliquer comment les caractéristiques intrinsèques des pages Web sont exploitées dans la
Recherche d’information sur Web.
Corrigé type
Date : 06/01/2019 Durée : 1h30m
2. Rappeler pourquoi on utilise des poids basés sur le tf*idf en recherche d’information pour les
index des documents, en expliquant le rôle du tf et de l’idf. (01.5 pts)
On utilise le tf pour terme frequency : plus un terme appraît dans le document, plus il est
important.
On utilise idf pour inverse document frequency : plus le terme est discriminant dans le corpus
plus il est important.
On multiplie ces deux valeurs pour trouver un poids final qui est capable d'avoir de grandes
valeurs pour les termes importants dans un doc et discriminants dans le corpus.
3. Quand les métriques rappel et précision peuvent atteindre la valeur 1? (01 pts)
Précision=1 : tous les documents retournés à l’utilisateur sont pertinents
Rappel=1 : Le SRI retourne tous les documents pertinents contenus dans le corpus.
4. Citer les différentes approches de la Recherche d’information sur Web. (01 pts)
a) Basée sur la navigation
b) Baséee sur l’interrogation.
5. Expliquer comment les caractéristiques intrinsèques des pages Web sont exploitées dans la
Recherche d’information sur Web. (01.5 pts)
Les hyperliens entre les pages et la structure des documents HTML sont les deux principaux
points positifs du domaine analyse du Web. Les documents Web existent dans un hypertexte, avec
des connexions vers, et à partir, d’autres documents.
La structure des documents HTML peut fournir des indices riches aux systèmes de recherche.
Souvent, les titres et les en-têtes contiennent des mots les plus importants pour décrire le texte.
Puisque le HTML marque les entêtes et les titres, les tables, les listes, etc.. Ces balises structurelles
fournissent des indices pour trouver des mots significatifs sur le document Web .
Gap 15 5 5 3 1 1 20
Doc Id 15 20 25 28 29 30 50