Rital 2019-TD1

Transféré par

saadi chourouk

0% ont trouvé ce document utile (0 vote)

25 vues2 pages

Titre original

RITAL_2019-TD1

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

25 vues2 pages

Rital 2019-TD1

Transféré par

saadi chourouk

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 2

Rechercher à l'intérieur du document

4I0808 – Recherche d’Information Année 2018–2019

TD 1 - Indexation

Exercice 1 – Pondération td-idf

Soient :
— un document qui contient le texte ”maison belle maison”
— une collection de 100 documents
— le terme ”maison” apparaı̂t dans 20 documents pour un nombre d’occurrences de 35 au total
— le terme ”belle” apparaı̂t dans 35 documents pour un nombre d’occurrences de 40 au total.
Q 1.1 Quelle est la pondération ”tf-idf” des termes ”maison” et ”belle” pour le document ? Commentez les
valeurs obtenues.

Exercice 2 – Structure des fichiers d’indexation et pondération

On considère la collection de documents suivantes :
— Doc 1 : the new home has been saled on top forecasts
— Doc 2 : the home sales rise in july
— Doc 3 : there is an increase in home sales in july
— Doc 4 : july encounter a new home sales rise
Ainsi qu’une liste de mots vides : the, a, an, have, be, on, behind, under, there, in, on, ....
Q 2.1 Identifier l’ensemble des termes devant être indexés pour chaque document.
Q 2.2 Calculer les poids des termes pour chaque document selon la pondération tf .
Q 2.3 Calculer les poids des termes pour chaque document selon la pondération idf .
Q 2.4 Modéliser l’index et l’index inversé pour cette collection de documents en considérant la pondération
tf − idf .
Q 2.5 Normaliser la pondération Calculer les normes de chaque vecteur document.
Q 2.6 Quels sont les documents retournés pour les requêtes suivantes :
— Q1 : sales home
— Q2 : july new
Dérouler le processus d’interrogation des index (index et index inversés) vous permettant de trouver les
documents pertinents. Cela vous aidera pour l’implémentation.

Exercice 3 – Construction des fichiers

Maintenant que vous avez compris la structure des fichiers index, l’objectif ici est de réfléchir comment l’in-
dex inversé est construit lors de l’étape d’indexation.
Remarque : La construction du fichier index semble naturelle. Prenez quand même le temps d’être sûr de
savoir l’implémenter...
Q 3.1 Soit un ensemble statique de documents {d1 , d2 , ..., dn }, quelles sont les étapes intermédiaires per-
mettant de construire l’index inversé de cette collection.
Q 3.2 Pour effectuer l’étape de tri, on utilise généralement une indexation par bloc à base tri. Cette étape
consiste à stocker les paires dans un tampon (buffer ) tout au long du parcours de la collection. Si la collection
est parcouru ou si le buffer est plein, on arrête le parcours et on trie la liste de paires contenues dans le
buffer, d’abord par les identifiants des termes, ensuite celui des documents. On regroupe ensuite les paires
par termes. On répète ce processus jusqu’à lecture complète de la collection et on fusionne ensuite toutes
4I0808 – Recherche d’Information page 2

les listes de paires triées. Faire un schéma et écrire l’algorithme permettant d’effectuer une indexation par
bloc à base de tri.
Q 3.3 Pour fusionner les listes triées, on ouvre toutes les listes intermédiaires, chaque liste est associée à
un pointeur. On choisit l’identifiant de terme le plus petit qui n’a pas encore été traité. On fusionne toutes
les listes correspondant à cet identifiant et on descend le pointeur dans les listes intermédiaires. Faire un
schéma et écrire l’algorithme permettant la fusion des listes intermédiaires.
Q 3.4 Ecrire l’algorithme MapReduce permettant de réaliser l’index inversé.
Q 3.5 Lorsque la collection de document est dynamique, il est nécessaire de mettre à jour l’index. Il est
alors possible de reconstruire l’index dans sa globalité, mais c’est très coûteux en temps et peut dégrader
les performances du moteur de recherche. Que proposez-vous pour régler ce problème ?

Vous aimerez peut-être aussi

Bien débuter avec SQL: Exercices dans l'interface PhpMyAdmin et MySQL
D'Everand
Bien débuter avec SQL: Exercices dans l'interface PhpMyAdmin et MySQL
Rémy Lentzner
Pas encore d'évaluation
Exercices Corrigés D'algorithmique
Document54 pages
Exercices Corrigés D'algorithmique
Yassine Yassine
91% (22)
Introduction à l'analyse fonctionnelle
D'Everand
Introduction à l'analyse fonctionnelle
Corina Reischer
Pas encore d'évaluation
OpenOffice Base: La base de données pour tous
D'Everand
OpenOffice Base: La base de données pour tous
Remy Lentzner
Pas encore d'évaluation
50 Exercices Corrigés Sur Les Ossatures (RDM) Par Yves DEBARD
Document87 pages
50 Exercices Corrigés Sur Les Ossatures (RDM) Par Yves DEBARD
Mohamed Ait Kaddour
Pas encore d'évaluation
TD - GL2 N°3 Ul ML
Document10 pages
TD - GL2 N°3 Ul ML
Amine Ouni
Pas encore d'évaluation
Exercices Corriges Suites Reelles
Document28 pages
Exercices Corriges Suites Reelles
MCHICHI ALAMI
Pas encore d'évaluation
Examen - Recherche D'information - 2018-Corrigé
Document3 pages
Examen - Recherche D'information - 2018-Corrigé
Yas M
92% (12)
Une Presentation de La MEF
Document562 pages
Une Presentation de La MEF
yeuminh
100% (1)
Algorithmique Et Structures de Données II
Document54 pages
Algorithmique Et Structures de Données II
Riadh BOUSLIMI
100% (3)
Cours Exo7
Document402 pages
Cours Exo7
Zin zan yan
0% (1)
Série TD2
Document3 pages
Série TD2
Entertainment world
Pas encore d'évaluation
Pfe Meryem Slimani
Document78 pages
Pfe Meryem Slimani
Med Mohamed
Pas encore d'évaluation
FR Tanagra Text Mining
Document28 pages
FR Tanagra Text Mining
hadrouga bchr
Pas encore d'évaluation
FasciculeASDII LM
Document9 pages
FasciculeASDII LM
Salah Gouja
Pas encore d'évaluation
Chapitre3 Indexation
Document69 pages
Chapitre3 Indexation
Chiheb Mezrigui
Pas encore d'évaluation
Série 1-RI-ISIL
Document4 pages
Série 1-RI-ISIL
jaik Duhamel
100% (1)
21-NSIJ2ME2 Avec Santorin Bis
Document14 pages
21-NSIJ2ME2 Avec Santorin Bis
LETUDIANT
Pas encore d'évaluation
Cours - Chapitre 1 - Introduction Aux Bases de Données
Document8 pages
Cours - Chapitre 1 - Introduction Aux Bases de Données
Yasser El hattabi
Pas encore d'évaluation
Bi TP1 Ssis TXT
Document20 pages
Bi TP1 Ssis TXT
abidou
Pas encore d'évaluation
Semaine 6
Document60 pages
Semaine 6
rodrigues shanon
Pas encore d'évaluation
Chap2 Indexation OL
Document28 pages
Chap2 Indexation OL
Sou Miaa
Pas encore d'évaluation
Chapitre 10 SGBD Réseau - Codasyl: Useword 6.0C or Later T O
Document25 pages
Chapitre 10 SGBD Réseau - Codasyl: Useword 6.0C or Later T O
Roi du Silence
Pas encore d'évaluation
Cours de BD ESIS 2008-2009 PDF
Document70 pages
Cours de BD ESIS 2008-2009 PDF
Josué Képhas
100% (1)
Chapitre 3
Document29 pages
Chapitre 3
yahiadjoual19
Pas encore d'évaluation
Diapo2 RI PDF
Document61 pages
Diapo2 RI PDF
me
Pas encore d'évaluation
Une Approche Pour L'extraction Des Itemsets (Fermés) Fréquents
Document8 pages
Une Approche Pour L'extraction Des Itemsets (Fermés) Fréquents
ⴷⵔⵉⵙ ⵜⴰⵣⵉⵖ
Pas encore d'évaluation
TP SparkHadoop
Document5 pages
TP SparkHadoop
Marwa Hbacha
Pas encore d'évaluation
TD - Recherche D'information Multimédia Exercice 1 - Modèle Booléen Pondéré
Document6 pages
TD - Recherche D'information Multimédia Exercice 1 - Modèle Booléen Pondéré
Kineba
100% (1)
Chapitre5-BD Et Chapitre6-SQL
Document13 pages
Chapitre5-BD Et Chapitre6-SQL
moncef 415
Pas encore d'évaluation
CHAP4 SNT Elv
Document13 pages
CHAP4 SNT Elv
Jeff Fin
Pas encore d'évaluation
INF444 - TP03 - Recherche Aveugle
Document2 pages
INF444 - TP03 - Recherche Aveugle
Vincent Labatut
Pas encore d'évaluation
Méthodes Dindex Fin
Document5 pages
Méthodes Dindex Fin
boukhedim ilyas
Pas encore d'évaluation
Bigata Centrale
Document2 pages
Bigata Centrale
Nouradin Hassan Darar
Pas encore d'évaluation
Exercices
Document10 pages
Exercices
deogratias davo
Pas encore d'évaluation
TD 4 FR
Document3 pages
TD 4 FR
Joab Gomes
Pas encore d'évaluation
2 Memoire Rel
Document28 pages
2 Memoire Rel
Aquarius87
Pas encore d'évaluation
Manipulation Des Fichiers Excels
Document6 pages
Manipulation Des Fichiers Excels
KALONJI MWINSHI Augustin
Pas encore d'évaluation
PlanNormaESIS 1
Document24 pages
PlanNormaESIS 1
dark mus
Pas encore d'évaluation
La Préparation Des TD
Document2 pages
La Préparation Des TD
Dadou Rasolofomanana
Pas encore d'évaluation
921 - Recherche - 2023-08-11T083516.117
Document13 pages
921 - Recherche - 2023-08-11T083516.117
Zelkif Njamen
Pas encore d'évaluation
Objet Relationnel Les Differentes Strategies Pour Traduire Lheritage Compress
Document3 pages
Objet Relationnel Les Differentes Strategies Pour Traduire Lheritage Compress
useruser
Pas encore d'évaluation
Partie 01: Nosql Mongodb: 1. Définition
Document7 pages
Partie 01: Nosql Mongodb: 1. Définition
khliaissa46
Pas encore d'évaluation
FilesSruct in C
Document4 pages
FilesSruct in C
hfdhfd
Pas encore d'évaluation
10 Cours-Dictionnaires
Document7 pages
10 Cours-Dictionnaires
degey
Pas encore d'évaluation
Donnees Semi-Structurees Decouverte Maintenance Et
Document31 pages
Donnees Semi-Structurees Decouverte Maintenance Et
fazilet benmansour
Pas encore d'évaluation
Recherche À L'aide Des Arbres Binaires
Document23 pages
Recherche À L'aide Des Arbres Binaires
Mohamed Amine Errachidi
Pas encore d'évaluation
Cours3 - Gestion Des Index
Document2 pages
Cours3 - Gestion Des Index
hocine fali
Pas encore d'évaluation
TP 2
Document2 pages
TP 2
Nhu Pham
Pas encore d'évaluation
Arbre de Decision
Document17 pages
Arbre de Decision
Âßd ĕrăhmãńė
Pas encore d'évaluation
Les Épreuves de SES Au Bac PDF
Document12 pages
Les Épreuves de SES Au Bac PDF
27 Isma
Pas encore d'évaluation
901 StructureDonnees
Document24 pages
901 StructureDonnees
calabi mozart
Pas encore d'évaluation
TP4 - Spark: Outils Pour Le Big Data
Document6 pages
TP4 - Spark: Outils Pour Le Big Data
MOHAMMED-AMINE LAHMAM
Pas encore d'évaluation
tp2 Designpatternsdanshadoop 140428050218 Phpapp02
Document6 pages
tp2 Designpatternsdanshadoop 140428050218 Phpapp02
chebinega
Pas encore d'évaluation
A Poly BDR 2010
Document36 pages
A Poly BDR 2010
Anonymous Wpl47Bwu4
Pas encore d'évaluation
Structures
Document23 pages
Structures
Emma Djomo
Pas encore d'évaluation
Chapitre 3 Vector Space Model
Document32 pages
Chapitre 3 Vector Space Model
Cyrine Ouesleti
Pas encore d'évaluation
Bases de Données Et SQL
Document48 pages
Bases de Données Et SQL
DAVID JUDREL
Pas encore d'évaluation
1
Document4 pages
1
sarrfallou267
Pas encore d'évaluation
Android 3
Document18 pages
Android 3
mohamed.saidi212001
Pas encore d'évaluation
10-Listes Chainees
Document10 pages
10-Listes Chainees
Fatima Zahra
Pas encore d'évaluation
Chapitre III TEC
Document7 pages
Chapitre III TEC
raniadjahmi
Pas encore d'évaluation
Poly TP MongoDB
Document8 pages
Poly TP MongoDB
Hmad SADAQ
Pas encore d'évaluation
Enonce
Document20 pages
Enonce
Martien Agossou
Pas encore d'évaluation
03 ElasticSearch ELK-IP
Document122 pages
03 ElasticSearch ELK-IP
helmi.sassi.hs
Pas encore d'évaluation
TD 1 Corrige
Document4 pages
TD 1 Corrige
Mohammed Rammeh
Pas encore d'évaluation
Correction Controle L3 Info
Document3 pages
Correction Controle L3 Info
DhawSaidi
Pas encore d'évaluation
Fiche TD #04
Document6 pages
Fiche TD #04
jeannico
Pas encore d'évaluation
Conception Partisipative: Techniques de Recueil D'informations
Document3 pages
Conception Partisipative: Techniques de Recueil D'informations
saadi chourouk
Pas encore d'évaluation
Access 2007 Et VBA
Document153 pages
Access 2007 Et VBA
Dominique
Pas encore d'évaluation
Axe-FX-II Manual FR
Document211 pages
Axe-FX-II Manual FR
Fouquet
Pas encore d'évaluation
Betonb 30
Document12 pages
Betonb 30
Mandjou Boune Saïd Fofana
Pas encore d'évaluation
Algorithme Et Les Instructions de Base + Conditionelle
Document12 pages
Algorithme Et Les Instructions de Base + Conditionelle
AGUERJA DOUHA
100% (1)
TD Microcontroleur 2
Document25 pages
TD Microcontroleur 2
Ismael Ghazi
Pas encore d'évaluation
DG 9 French
Document206 pages
DG 9 French
ibnmessaoud10
100% (1)
Fiches Methodes Cycle 4
Document39 pages
Fiches Methodes Cycle 4
PELLISSIER
Pas encore d'évaluation
MiCOM P341 - 1124271196185-P341-922g - FR - 1150
Document8 pages
MiCOM P341 - 1124271196185-P341-922g - FR - 1150
Polux Lefebvre
Pas encore d'évaluation
Cours 7 - Suit
Document4 pages
Cours 7 - Suit
MadjidAvengers
Pas encore d'évaluation
Rep Soudures
Document18 pages
Rep Soudures
محمد امين شريف
Pas encore d'évaluation
Cours Transducteurs Bac Pro Industriel
Document11 pages
Cours Transducteurs Bac Pro Industriel
Félix Kouassi
Pas encore d'évaluation
Formalisation Et Résolution Des Problèmes de Découpes Linéaires
Document19 pages
Formalisation Et Résolution Des Problèmes de Découpes Linéaires
xavier
Pas encore d'évaluation
Théorème de Moivre-Laplace
Document12 pages
Théorème de Moivre-Laplace
IMAR
Pas encore d'évaluation
2-Profil en Long
Document30 pages
2-Profil en Long
franco
Pas encore d'évaluation
ABB Technical Guide No 1 REVC
Document72 pages
ABB Technical Guide No 1 REVC
drevetph6233
Pas encore d'évaluation
RATIONALISME
Document5 pages
RATIONALISME
reineesther941
Pas encore d'évaluation
Amdec: AMDEC: Analyse Des Modes de Défaillances, de
Document13 pages
Amdec: AMDEC: Analyse Des Modes de Défaillances, de
Rim Bdida
Pas encore d'évaluation
Capture D'écran . 2021-07-01 À 16.00.17
Document10 pages
Capture D'écran . 2021-07-01 À 16.00.17
Souhail Benbrahim
Pas encore d'évaluation
EG4 - Correction de L'analyse Financière 2018
Document3 pages
EG4 - Correction de L'analyse Financière 2018
mohamed mekaoui
Pas encore d'évaluation
MLCCPLMX
Document17 pages
MLCCPLMX
Bra. Dek
Pas encore d'évaluation
Structures Statistiques Et Estimation
Document107 pages
Structures Statistiques Et Estimation
anasrachid
Pas encore d'évaluation
Utilisation Catia Brep FR
Document4 pages
Utilisation Catia Brep FR
Ben Fah
Pas encore d'évaluation
Corrections Des Exercices Du TP N°1: Infos Système Uname - A
Document14 pages
Corrections Des Exercices Du TP N°1: Infos Système Uname - A
radouane
Pas encore d'évaluation
Technologie
Document8 pages
Technologie
Samir Rimas
Pas encore d'évaluation
Vest 52137653
Document29 pages
Vest 52137653
AINA ANDRIAMAHENIKAJATSIALONINA
Pas encore d'évaluation