Vous êtes sur la page 1sur 15

Systèmes de Recherche

d’Information

Introduction

Mohamed Farah – 2020-2021

Contexte – Révolution technologique


• Développement des technologies numériques
− Technologies de stockage :
• Supports plus compacts

moins volumineux
décentralisées

2
Contexte – Révolution technologique
• Développement des technologies numériques
− Processeurs plus performants

1016

1015

1014

1013

1012

Contexte – Révolution technologique


• Démocratisation des technologies numériques

− Grand public : PC, appareils photo et caméras numériques,


Smartphones avec GPS, Systèmes d’alarme, cameras et capteurs de
mouvement, IoT, etc.

− Spécialisés : observation de la terre, Capteur de qualité de l’air,


radiation, Cameras et détecteurs trafic, vidéosurveillance, imagerie
médicale, etc.

4
Contexte – Révolution technologique
• Démocratisation de l’accès à Internet

• Évolution des réseaux mobiles

• Augmentation des débits

Maximum Typical Download


Generation Icon Technology
Download Speed Speed
G GPRS 0.1Mbit/s <0.1Mbit/s
2G
E EDGE 0.3Mbit/s 0.1Mbit/s
3G 3G (Basic) 0.3Mbit/s 0.1Mbit/s
H HSPA 7.2Mbit/s 1.5Mbit/s
3G
H+ HSPA+ 21Mbit/s 4Mbit/s
H+ DC-HSPA+ 42Mbit/s 8Mbit/s
4G 4G LTE Category 4 150Mbit/s 15Mbit/s
4G+ LTE-Advanced Cat6 300Mbit/s 30Mbit/s
4G+ LTE-Advanced Cat9 450Mbit/s 45Mbit/s
4G+
4G+ LTE-Advanced Cat12 600Mbit/s 60Mbit/s
4G+ LTE-Advanced Cat16 979Mbit/s 90Mbit/s
1,000-10,000Mbit/s
5G 5G 5G 150-200Mbit/s
(1-10Gbit/s)

Source : https://kenstechtips.com/index.php/download-speeds-2g-3g-and-4g-actual-meaning (5-


5 11-2019)

Contexte – Révolution informationnelle

source

6
Contexte – Révolution informationnelle
• Croissance explosive de la production du contenu numérique

• + de 90% des données disponibles aujourd’hui ont été


produites ces 2 dernières années.
• Ce volume d’information numérique double tous les deux ans.

Kilobyte 103
Megabyte 106
Gigabyte 109
Terabyte 1012
Petabyte 1015
Exabyte 1018
Zettabyte 1021
Yottabyte 1024

Contexte – Révolution informationnelle

• Sources des données:


− Le Web : Données textuelles, Multimédia, Sociales,
emails, Fichiers logs
− Données commerciales : BD Clients, Transactions,
comportements, etc.
− Données médicales : Génomique (ADN), Imagerie
médicale, Historique des patients, etc.
− Épidémiologie

− Assurances

−…
8
Contexte – Révolution informationnelle

• Sources des données:


− Données de mobilité (IoT) : Smartphones, GPS,
puces RFID, balises BLE, puces NFC, etc.

9 Source : https://www.idcapt.com/fr/technologies-rfid-nfc-ble

Contexte – Révolution informationnelle

• Sources des données:


− Données MM générées par les utilisateurs

10
Contexte – Révolution informationnelle

• Sources des données:


− Données spatiales

Les satellites en orbite autour de la Terre


2.063 satellites tournent en orbite au dessus de la Terre au 1er avril
2019
Usage des satellites

11 Source : https://www.futura-sciences.com

Contexte – Révolution informationnelle

• Sources des données:


− Données spatiales

Orbite des satellites

12 Source : https://www.futura-sciences.com
Problématique
• Révolution informationnelle
information overload
• Révolution technologique

• Défis :
− 80% de données non structurées

− Repérer, capturer/récupérer, prétraiter, analyser,


structurer, stocker ces données
− Rechercher dans ces données

− Extraire des connaissances à partir de ces données


pour prendre des décisions

13

Problématique
• Data processing : Data should be treated to
be ready for exploitation
• Data Retrieval : Retrieving information from
the sources at hand (a large database).
Data should typically be indexed and ready
for retrieval.
• Data Mining : Process of discovering useful
hidden patterns from the data at hand.
• Big data : In all the scenarios above, there is
a large amount of data, aka, 'big data'

14
Problématique
• Avoir un aperçu du contenu
− Résumé visuel du corpus (ex. graphe de mots)

15

Problématique
• Retrouver des objets/documents selon certains
critères
− Recherche d’un texte ou d’un résumé de texte
− Recherche d’une image spécifique ou d’un ensemble
d’images
− Recherche d’une partie d’image ou d’un objet dans
les images
− Détecter et reconnaître des composantes (visages,
véhicules, piétons, monuments…) et des situations
(accident, joie, danger, etc.)
− Découvrir des contenus similaires ou complémentaires
(ex. variantes clip vidéo sur Youtube)

16
Problématique
• Retrouver des objets/documents selon
certains critères.

Document Focused Aggregated


Retrieval Retrieval Retrieval

17
Mounia Lalmas

Problématique
• Le problème n’est plus la disponibilité de
l’information
MAIS
• Retrouver l’information utile au bon moment

 Nécessité de développer des approches et outils


efficaces permettant de collecter, organiser,
stocker, rechercher et restituer l’information utile
(pertinente) dans une base documentaire en
réponse à une requête utilisateur.
 Domaine de recherche :
La recherche d’information (RI)
18
La recherche d’information
• Étant donné :
− Une collection de documents (corpus ou fond
documentaire)
− Un besoin en information d’un utilisateur : exprimé à
travers une requête.

• Objectif :
− Retrouver la liste exhaustive des documents
pertinents, et uniquement ces documents, et ce, le
plus rapidement possible
19

SRI vs SGBD

SGBD SRI
Données Structurées Non structurées (Pas de
schémas)
Requête Certaine Incertaine
Langage de Artificiel (SQL) Naturel
requête
Logique Classique Non classique
Recherche Attribut Contenu
Correspondance Exacte Incertaine
Classement Non Oui

20
SRI vs SGBD
• Ex:
Table livre
Attribut Valeur

isbn 0201122278

auteur _nom Salton

auteur _prenom Gerard


Automatic text processing the transformation, analysis, and retrieval of information by
titre
computer
editeur Addison-Wesley Pub

date_publication 1988

• SQL :
− select titre from livre where auteur _nom = ‘Salton’

− select titre from livre where auteur _nom = ‘Gerard’

− select titre from livre where auteur _nom = ‘Saltonn’

• Les documents parlant de ‘automatic indexing’ !!


21

Le processus de RI

Query Documents

Processing Processing

Query Representation Document Representation

Retrieval
Function Index

Ranked
documents
22
Document
• Rôle : réponse à une requête

• Forme :
− texte (non structuré / semi-structuré)

− binaire (image, son, vidéo)

• Origine : signaux physiques de nature


analogique (onde acoustique, onde
électromagnétique)

Textes plats/bruts, sans structure explicite

23

Document Structuration importante mais souple,


irrégulière et incomplète.
• Forme :
− texte (non structuré / semi-structuré)

− binaire (image, son, vidéo)

• Origine : signaux physiques de nature


analogique (onde acoustique, onde
électromagnétique)

24
Document
• Forme :
− texte (non structuré / semi-structuré)

− binaire (image, son, vidéo)

• Origine : signaux physiques de nature analogique (onde


acoustique, onde électromagnétique)

25

Document
• Nature : simple / multimédia

26 Structure logique d’un document multimédia


Requête
• Exprime le besoin en information d’un
utilisateur

© Stefano Mizzaro

27

La pertinence
• Pertinence utilisateur :
− jugements de pertinence
− évaluation subjective : dépend de l’utilisateur + varie
au cours du temps
− Pas possible de la mesurer de manière automatique

• Pertinence système :
− capacité d’un document à répondre à la requête
− mesurée automatiquement
− diffère d’un SRI à un autre

• Pertinence système ↔ pertinence l’utilisateur


• L’enjeu de la RI : rapprocher les 2
28
Questions de recherche
• Comment représenter les documents et la requête ?
− Représentation fidèle
− Représentation compacte (fichiers inversés, arbres, hachage, etc.)
− Gros volumes de données

 l’indexation ou l’extraction des descripteurs


• Comment déterminer les documents pertinents ?
 la comparaison ou l’appariement
• Comment visualiser les résultats
 visualisation + navigation
• Commet aider l’utilisateur à bien exprimer son besoin et à interagir ?
 la reformulation
• Comment mesurer la performance d’un SRI ?
 l’évaluation

29

Vous aimerez peut-être aussi