Académique Documents
Professionnel Documents
Culture Documents
d’Information
Introduction
moins volumineux
décentralisées
2
Contexte – Révolution technologique
• Développement des technologies numériques
− Processeurs plus performants
1016
1015
1014
1013
1012
4
Contexte – Révolution technologique
• Démocratisation de l’accès à Internet
source
6
Contexte – Révolution informationnelle
• Croissance explosive de la production du contenu numérique
Kilobyte 103
Megabyte 106
Gigabyte 109
Terabyte 1012
Petabyte 1015
Exabyte 1018
Zettabyte 1021
Yottabyte 1024
− Assurances
−…
8
Contexte – Révolution informationnelle
9 Source : https://www.idcapt.com/fr/technologies-rfid-nfc-ble
10
Contexte – Révolution informationnelle
11 Source : https://www.futura-sciences.com
12 Source : https://www.futura-sciences.com
Problématique
• Révolution informationnelle
information overload
• Révolution technologique
• Défis :
− 80% de données non structurées
13
Problématique
• Data processing : Data should be treated to
be ready for exploitation
• Data Retrieval : Retrieving information from
the sources at hand (a large database).
Data should typically be indexed and ready
for retrieval.
• Data Mining : Process of discovering useful
hidden patterns from the data at hand.
• Big data : In all the scenarios above, there is
a large amount of data, aka, 'big data'
14
Problématique
• Avoir un aperçu du contenu
− Résumé visuel du corpus (ex. graphe de mots)
15
Problématique
• Retrouver des objets/documents selon certains
critères
− Recherche d’un texte ou d’un résumé de texte
− Recherche d’une image spécifique ou d’un ensemble
d’images
− Recherche d’une partie d’image ou d’un objet dans
les images
− Détecter et reconnaître des composantes (visages,
véhicules, piétons, monuments…) et des situations
(accident, joie, danger, etc.)
− Découvrir des contenus similaires ou complémentaires
(ex. variantes clip vidéo sur Youtube)
16
Problématique
• Retrouver des objets/documents selon
certains critères.
17
Mounia Lalmas
Problématique
• Le problème n’est plus la disponibilité de
l’information
MAIS
• Retrouver l’information utile au bon moment
• Objectif :
− Retrouver la liste exhaustive des documents
pertinents, et uniquement ces documents, et ce, le
plus rapidement possible
19
SRI vs SGBD
SGBD SRI
Données Structurées Non structurées (Pas de
schémas)
Requête Certaine Incertaine
Langage de Artificiel (SQL) Naturel
requête
Logique Classique Non classique
Recherche Attribut Contenu
Correspondance Exacte Incertaine
Classement Non Oui
20
SRI vs SGBD
• Ex:
Table livre
Attribut Valeur
isbn 0201122278
date_publication 1988
• SQL :
− select titre from livre where auteur _nom = ‘Salton’
Le processus de RI
Query Documents
Processing Processing
Retrieval
Function Index
Ranked
documents
22
Document
• Rôle : réponse à une requête
• Forme :
− texte (non structuré / semi-structuré)
23
24
Document
• Forme :
− texte (non structuré / semi-structuré)
25
Document
• Nature : simple / multimédia
© Stefano Mizzaro
27
La pertinence
• Pertinence utilisateur :
− jugements de pertinence
− évaluation subjective : dépend de l’utilisateur + varie
au cours du temps
− Pas possible de la mesurer de manière automatique
• Pertinence système :
− capacité d’un document à répondre à la requête
− mesurée automatiquement
− diffère d’un SRI à un autre
29