Vous êtes sur la page 1sur 31

INTRODUCTION À LA RECHERCHE

D’INFORMATION
Enseignante : Rim Mahouachi
CONTEXTE ET MOTIVATION
La généralisation des supports numériques.
La chute des coûts des médias de stockage.
L’augmentation vertigineuse de la quantité d’information
stockée sous format numérique.

2
CONTEXTE ET MOTIVATION
L’hétérogénéité de l’information (texte, image, son, ..).

3
CONTEXTE ET MOTIVATION
L’information est partout !
Chaque 60 secondes sur internet en 2020 :

4
CONTEXTE ET MOTIVATION
Le problème n’est pas donc la disponibilité de l’information
MAIS :
sa sélection, son identification ⇒ arriver à trouver au bon
moment l’information utile

5
CONTEXTE ET MOTIVATION
Rechercher une information a un coût
On passe (en moyenne) 35% de son temps à rechercher des
informations
Les managers y consacrent 17% de leur temps
Les 1000 grandes entreprises (US) perdent jusqu’à $2.5
milliards par an en raison de leur incapacité à récupérer les
bonnes informations

L’émergence d’un domaine de recherche : Recherche


d’Information (RI) ou Repérage d’Information = Information
Retrieval (IR)
6
RECHERCHE D’INFORMATION (RI)
DÉFINITION

Recherche d’information (RI) :

Ensemble des méthodes et techniques pour l’acquisition,


l’organisation, le stockage, la recherche et la sélection
d’information pertinente pour un utilisateur

Concerne la recherche de données non structurées,


généralement des documents, satisfaisant une demande
d’information spécifique.
Par données non structurées, on entend les données qui ne possèdent
pas de structure interne précise ou qui sont sémantiquement ambigües

7
RECHERCHE D’INFORMATION (RI)
DONNÉE – INFORMATION - CONNAISSANCE

Les données sont le niveau le plus bas de matière


première duquel on peut retirer des connaissances

Les données deviennent de l’information lorsqu’on leur


donne un contexte. La collecte et la présentation des
données constituent l’information

Les connaissances sont ce qui découle de l’information et


l’usage personnalisé que l’on en fait 8
RECHERCHE D’INFORMATION (RI)
DONNÉE – INFORMATION - CONNAISSANCE

Fouille de données 9
RECHERCHE D’INFORMATION (RI)
PROBLÈMES EN RI
Recherche Ad-hoc
Rechercher dans une large collection de documents les documents
qui satisfont l’information souhaitée (documents pertinents)
Ad-hoc : vient du comment est construite la requête
Ad-hoc : « formed or used for specific or immediate problems or needs »
(Merriam-Webster’s Collegiate Dictionary)
Implique que la requête n’est pas sauvegardée et réutilisée

Plusieurs types de RI Ad-hoc


Recherche sur le web
Recherches spécifiques
Domaine spécifique (médical, légal, chimie, …)
Recherche d’événements
Recherche de personnes (expert) 10
RECHERCHE D’INFORMATION (RI)
PROBLÈMES EN RI

Classification des documents


Catégoriser automatiquement une collection de documents suivant
un ensemble de classes prédéfinies
Exemple : système anti-spams
Partitionnement des documents
Regrouper les documents qui sont similaires par rapport à un
critère donné
Exemples :
identification des thèmes dans une collection de documents
Groupement des machines suivant leurs fichiers logs pour maintenance
/ dépannage
..
11
SYSTÈME DE RECHERCHE D’INFORMATION
RÔLE D’UN SRI

Étant donné
Une collection de documents (appelé aussi corpus, ou fond de
documents) ;
Un besoin exprimé à travers une requête de la part d’un
utilisateur.

Objectif d’un SRI


Retrouver les documents répondant à ce besoin le plus
précisément et le plus exhaustivement possible.
La qualité des documents retournés (ou retrouvés) dépend étroitement
de la satisfaction de l’utilisation : notion de pertinence.

12
SYSTÈME DE RECHERCHE D’INFORMATION
DÉFINITION

Un système de recherche d’information (RI) est un système qui


permet de retrouver les documents pertinents à une requête
d’utilisateur, à partir d’une base de documents volumineuse.

SRI

13
EXEMPLES DE SYSTÈMES DE RI

Moteurs de recherche

Mais aussi dans :


• Les entreprises
• Les bibliothèques numériques
• Domaines d’application (médecine,
droit, …)
• Nos ordinateurs

14
SGBD VS SRI
Spécification d’un livre
ISBN : 0-201-12227-8
Auteur : Salton Gerard
Titre : Automatic text processing : the transformation, analysis, and
retrieval of information by computer
Éditeur : Addison-Wesley
Date publication : 1989
Contenu : <Texte du livre>
1 Recherche par attributs (données structurées) (Auteur, Éditeur,
etc.)
recherche dans les BD (simple)
Pour trouver les livre écrits par "Knuth", on peut poser la requête suivante
en SQL : select * from Livre where Auteur = "Knuth"
2 Recherche par le contenu (données non structurées) 15
RI (complexe)
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE

Document
Toute unité qui peut constituer une réponse à une requête
d’utilisateur
Forme : Texte, image, vidéo, etc ..
Nature : Hétérogène (multi-sources, multi-langues)
Structure : structuré, non structuré, semi-structuré

16
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE

Requête
Expression en texte "libre" formulée par l'utilisateur
Exemples : "text mining", "je voudrais trouver des documents qui
parlent de ...", requêtes ambigües « apple », « java », « jaguar »…

Exprime le besoin en information (une expression mentale)


d’un utilisateur

17
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE

Requête
Besoin utilisateur en information (sur le web) :
Besoin informationnel : vouloir apprendre quelque chose (ex: low
homoglobin)
Besoin navigationnel : lié à la recherche des sites d’accueil des
personnes, organisations, etc. (ex : Tunisair, UVT)
Besoin transactionnel : lié à la recherche des services en ligne (ex :
météo Bizerte), téléchargement (ex : fond d’écran Avengers),
shopping (ex : Canon S410)

18
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE

Pertinence
Qualité d’un système à répondre exactement à la requête
demandée par l’utilisateur
Issue de la mise en correspondance de 3 éléments : la
requête, le document et le besoin utilisateur

19
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE

Pertinence utilisateur
représente la façon dont l’utilisateur évalue les documents
retrouvés par le SRI en fonction de son besoin d’information
(on parle de ses jugements de pertinence).

c’est une évaluation subjective (floue) qui varie au cours du


temps et qui dépend de l’utilisateur en question :
un même utilisateur peut avoir deux avis différents concernant un
document retrouvé suite à sa requête et ceci en fonction de sa
situation lors de l’évaluation.
deux utilisateurs peuvent avoir deux avis différents concernant un
même document.

Mesurer de manière automatique la pertinence Solution : la pertinence 20


utilisateur est une tâche complexe système
SYSTÈME DE RECHERCHE D’INFORMATION
DOCUMENT, REQUÊTE, PERTINENCE

Pertinence système
pertinence attribuée par le système à partir des méthodes
utilisées pour comparer les documents et la requête.
c’est un score obtenu automatiquement par les SRI en
comparant les représentations des documents et celles des
requêtes : rend “mesurable” la notion de pertinence.

Attention : ce score n’est qu’une représentation imprécise de la


pertinence utilisateur (un document considéré comme pertinent
par le système ne l’est pas nécessairement par l’utilisateur) :
l’enjeu de la RI est de rapprocher tant que possible la
pertinence système de la pertinence utilisateur.
21
SYSTÈME DE RECHERCHE D’INFORMATION
RÉALISER UN SRI : APPROCHES POSSIBLES
1 Approche très naïve :
considérer une requête comme une chaîne de caractères, et un
document pertinent comme celui qui contient cette chaîne de caractères
balayer les documents séquentiellement, en les comparant avec la
chaîne de caractères qui est la requête.
Si on trouve la même chaîne de caractère dans un document, alors il est
sélectionné comme réponse.

Problèmes :
Vitesse: Pour chaque requête, on doit parcourir tous les documents dans la
base.
Pouvoir d'expression d'une requête: Une requête étant une simple chaîne de
caractères, il est difficile d'exprimer des besoins complexes comme "Trouver
des documents concernant la base de données et l'intelligence artificielle
utilisées dans l'industrie".

n'est utilisée que dans des systèmes jouets très petits 22


SYSTÈME DE RECHERCHE D’INFORMATION
RÉALISER UN SRI : APPROCHES POSSIBLES
2 Approche basée sur une indexation :

On effectue certains pré-traitements sur les documents et les


requêtes, ce qu'on appelle l'indexation.
Cette opération vise à construire une structure d'index qui permet de
retrouver très rapidement les documents incluant des mots demandés :
l’index inversé
Une requête peut être maintenant une expression plus complexe,
incluant des opérateurs logiques (ET, OU, …)

Avantages :
Elle est plus rapide : plus besoin du parcours séquentiel car avec la
structure d'index, on peut directement savoir quels documents contiennent
tel ou tel mot.
23
L'expression des requêtes peut être très complexe, exprimant des
besoins d'information complexes
PROCESSUS DE LA RI
VUE GLOBALE

Tâches principales :

o La représentation du contenu des documents (appelée aussi analyse ou indexation)

o La comparaison (ou appariement) : établit la correspondance entre la requête de


l’utilisateur et les documents du corpus
24
o L’évaluation de la performance du système
PROCESSUS DE LA RI
L’INDEXATION

Des techniques qui attachent à un document, un ensemble de descripteurs


(représentation) de son contenu dans le but de faciliter la recherche 25
d’information.
PROCESSUS DE LA RI
L’INDEXATION

Indexation - Chaumier 2000


Description du contenu du document à l’aide de mots clés pour faciliter la
mémorisation du contenu de ce document pour une recherche ultérieure.

Les unités extraites afin de représenter un document sont appelées mots


clés, ou descripteurs, ou termes d’indexation, ou index.

26
PROCESSUS DE LA RI
COMPARAISON ET MISE EN CORRESPONDANCE

Les modèles ont pour objectif de définir une méthode de comparaison


entre une représentation d’un document et une représentation d’une
requête afin de déterminer leur degré de correspondance (similarité). 27
PROCESSUS DE LA RI
COMPARAISON ET MISE EN CORRESPONDANCE

Appariement exact
Le résultat est une liste de documents respectant exactement
la requête spécifiée avec des critères précis.
Les documents retournés ne sont pas triés.

Appariement approximatif
Le résultat est une liste de documents sensés être pertinents
pour la requête.
Les documents retournés sont triés selon leur score de
pertinence vis-à-vis de la requête.
28
PROCESSUS DE LA RI
EVALUATION D’UN SRI

Le but de la RI est de trouver des documents pertinents à une requête, et


donc utiles pour l'utilisateur.
La qualité d'un SRI doit être mesurée en comparant les réponses du système
avec les réponses idéales que l'utilisateur espère recevoir. 29
Plus les réponses du système correspondent à celles que l'utilisateur espère,
mieux est le système.
PROBLÉMATIQUE DU MULTIMÉDIA
L’accroissement des performances des ordinateurs permet non
seulement le stockage mais aussi le traitement des images, du
son et du vidéo (images scientifiques, extrait musical, discours
d’un homme politique, etc.)

Domaines d’application
Archives audiovisuelles
Données biomédicales
Imagerie satellitaires
Vidéo de télésurveillance

Difficultés :
à la différence des données textuelles, le contenu sémantique n’est
jamais explicite
les requêtes sont difficiles à exprimer (interprétation compliquée 30
pour un humain), donc en général ambiguës, incomplètes
PROBLÉMATIQUE DU MULTIMÉDIA
L’indexation multimédia

Indexation sémantique (manuelle) :


l’opérateur d’indexation attache au document des données de haut
niveau relatives à la signification du contenu de l’objet.
Les requêtes associées sont en général des mots, désignant un objet,
une action, le nom d’un personnage ou d’un événement.
Par exemple, pour déterminer le contenu graphique d’une image,
Google analyse le texte qui entoure l’image, le titre de l’image et de
nombreux autres critères.

Indexation descriptive (automatique) :


l’algorithme d’indexation attache des données de bas niveau,
31
relatives au contenu visuel (couleur, texture, forme, etc)

Vous aimerez peut-être aussi