Académique Documents
Professionnel Documents
Culture Documents
Chapitre1 Introduction
Chapitre1 Introduction
D’INFORMATION
Enseignante : Rim Mahouachi
CONTEXTE ET MOTIVATION
La généralisation des supports numériques.
La chute des coûts des médias de stockage.
L’augmentation vertigineuse de la quantité d’information
stockée sous format numérique.
2
CONTEXTE ET MOTIVATION
L’hétérogénéité de l’information (texte, image, son, ..).
3
CONTEXTE ET MOTIVATION
L’information est partout !
Chaque 60 secondes sur internet en 2020 :
4
CONTEXTE ET MOTIVATION
Le problème n’est pas donc la disponibilité de l’information
MAIS :
sa sélection, son identification ⇒ arriver à trouver au bon
moment l’information utile
5
CONTEXTE ET MOTIVATION
Rechercher une information a un coût
On passe (en moyenne) 35% de son temps à rechercher des
informations
Les managers y consacrent 17% de leur temps
Les 1000 grandes entreprises (US) perdent jusqu’à $2.5
milliards par an en raison de leur incapacité à récupérer les
bonnes informations
7
RECHERCHE D’INFORMATION (RI)
DONNÉE – INFORMATION - CONNAISSANCE
Fouille de données 9
RECHERCHE D’INFORMATION (RI)
PROBLÈMES EN RI
Recherche Ad-hoc
Rechercher dans une large collection de documents les documents
qui satisfont l’information souhaitée (documents pertinents)
Ad-hoc : vient du comment est construite la requête
Ad-hoc : « formed or used for specific or immediate problems or needs »
(Merriam-Webster’s Collegiate Dictionary)
Implique que la requête n’est pas sauvegardée et réutilisée
Étant donné
Une collection de documents (appelé aussi corpus, ou fond de
documents) ;
Un besoin exprimé à travers une requête de la part d’un
utilisateur.
12
SYSTÈME DE RECHERCHE D’INFORMATION
DÉFINITION
SRI
13
EXEMPLES DE SYSTÈMES DE RI
Moteurs de recherche
14
SGBD VS SRI
Spécification d’un livre
ISBN : 0-201-12227-8
Auteur : Salton Gerard
Titre : Automatic text processing : the transformation, analysis, and
retrieval of information by computer
Éditeur : Addison-Wesley
Date publication : 1989
Contenu : <Texte du livre>
1 Recherche par attributs (données structurées) (Auteur, Éditeur,
etc.)
recherche dans les BD (simple)
Pour trouver les livre écrits par "Knuth", on peut poser la requête suivante
en SQL : select * from Livre where Auteur = "Knuth"
2 Recherche par le contenu (données non structurées) 15
RI (complexe)
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE
Document
Toute unité qui peut constituer une réponse à une requête
d’utilisateur
Forme : Texte, image, vidéo, etc ..
Nature : Hétérogène (multi-sources, multi-langues)
Structure : structuré, non structuré, semi-structuré
16
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE
Requête
Expression en texte "libre" formulée par l'utilisateur
Exemples : "text mining", "je voudrais trouver des documents qui
parlent de ...", requêtes ambigües « apple », « java », « jaguar »…
17
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE
Requête
Besoin utilisateur en information (sur le web) :
Besoin informationnel : vouloir apprendre quelque chose (ex: low
homoglobin)
Besoin navigationnel : lié à la recherche des sites d’accueil des
personnes, organisations, etc. (ex : Tunisair, UVT)
Besoin transactionnel : lié à la recherche des services en ligne (ex :
météo Bizerte), téléchargement (ex : fond d’écran Avengers),
shopping (ex : Canon S410)
18
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE
Pertinence
Qualité d’un système à répondre exactement à la requête
demandée par l’utilisateur
Issue de la mise en correspondance de 3 éléments : la
requête, le document et le besoin utilisateur
19
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE
Pertinence utilisateur
représente la façon dont l’utilisateur évalue les documents
retrouvés par le SRI en fonction de son besoin d’information
(on parle de ses jugements de pertinence).
Pertinence système
pertinence attribuée par le système à partir des méthodes
utilisées pour comparer les documents et la requête.
c’est un score obtenu automatiquement par les SRI en
comparant les représentations des documents et celles des
requêtes : rend “mesurable” la notion de pertinence.
Problèmes :
Vitesse: Pour chaque requête, on doit parcourir tous les documents dans la
base.
Pouvoir d'expression d'une requête: Une requête étant une simple chaîne de
caractères, il est difficile d'exprimer des besoins complexes comme "Trouver
des documents concernant la base de données et l'intelligence artificielle
utilisées dans l'industrie".
Avantages :
Elle est plus rapide : plus besoin du parcours séquentiel car avec la
structure d'index, on peut directement savoir quels documents contiennent
tel ou tel mot.
23
L'expression des requêtes peut être très complexe, exprimant des
besoins d'information complexes
PROCESSUS DE LA RI
VUE GLOBALE
Tâches principales :
26
PROCESSUS DE LA RI
COMPARAISON ET MISE EN CORRESPONDANCE
Appariement exact
Le résultat est une liste de documents respectant exactement
la requête spécifiée avec des critères précis.
Les documents retournés ne sont pas triés.
Appariement approximatif
Le résultat est une liste de documents sensés être pertinents
pour la requête.
Les documents retournés sont triés selon leur score de
pertinence vis-à-vis de la requête.
28
PROCESSUS DE LA RI
EVALUATION D’UN SRI
Domaines d’application
Archives audiovisuelles
Données biomédicales
Imagerie satellitaires
Vidéo de télésurveillance
Difficultés :
à la différence des données textuelles, le contenu sémantique n’est
jamais explicite
les requêtes sont difficiles à exprimer (interprétation compliquée 30
pour un humain), donc en général ambiguës, incomplètes
PROBLÉMATIQUE DU MULTIMÉDIA
L’indexation multimédia