Vous êtes sur la page 1sur 26

Techniques d’indexation et de

recherche multimédia
Lobna HLAOUA
Université de Sousse ESSTHS
lobna1511@yahoo.fr
Introduction

• Introduction
• Tâche en RI
• Historique
• Concepts de base : information, Besoin en
information et pertinence,
• Caractéristiques du langage naturel
• Processus général de la RI
Introduction
• Recherche d’information (RI) / Information
Retrieval (IR):
Ensemble des méthodes et techniques pour l’acquisition,
l’organisation, le stockage, la recherche et la sélection
d’information pertinente pour un utilisateur

• Les domaines d'application de la RI sont:


• Internet
• Bibliothèques numériques «digital library»
• Entreprises
Exemples de système de RI
Introduction
• Les SRI traitent une petite partie de l’information
disponible.

• 1% sur l’Internet (localisé par les moteurs)


• 99% dans des Intranet (entreprises, laboratoires, …)
Introduction
• L’information (numérique) est disponible partout
• Rechercher une information a un coût
– « On» passe (en moyenne) 35% de son temps à rechercher
des informations
– Les managers y consacrent 17% de leur temps
– Les 1000 grandes entreprises (US) perdent jusqu’à $2.5
milliards par an en raison de leur incapacité à récupérer les
bonnes informations
• Nécessité de développer des systèmes
automatisés efficaces permettant :
Collecter, Organiser, Rechercher, Sélectionner
Système de gestion de
Base de données
Information :
Données : Signification (explication/
Chaîne de caractères/valeurs description) des données,
associées à des objets, des données intelligible
personnes et des événements :

Connaissance :
Information apprise, découverte,
comprise et partagée par une Système de Recherche
Communauté. d’information

(information/data
mining, fouille de données)
Tâche en RI:
1. Recherche adhoc,
2. Classification /catégorisation (clustering),
3. Questionréponses (Query answering),
4. Filtrage d’information (filtering/recommendation)
5. Métamoteurs (datafusion,Metasearch)
6. Résumé automatique (Summarization)
7. Croisement de langues (cross language)
8. Fouille de textes (Text mining)
9. Recherche d’opinions (Opinion retrieval) (sentiment
analysis)
Introduction
Historique
La RI n'est pas un domaine récent :
• 1940: Recherche dans des bibliothèques

• 1950 : Début de petites expérimentations en utilisant


des petites collections de documents

• 1960-1970 : Expérimentations plus larges ont été


menées. On a développé une méthodologie
d'évaluation du système.
Introduction
• 1970 : Développement du système SMART( G.
Salton), modèle vectoriel, probabiliste..

• 1980 : Les travaux sur la RI ont été influencés par


l’avènement de l'intelligence artificielle. Ainsi, on
tentait d'intégrer des techniques de l'IA en RI, par
exemple, système expert pour la RI, etc.

• 1990 : Internet, et documents multimédia


Concepts de base
• Information
Une information est une donnée dont un individu a besoin
pour résoudre un problème particulier. L'individu exprime
donc un besoin sous forme de requête (question). Il existe
• deux types de besoins en information : le type fermé et le
type ouvert.
a) Question fermée : A une requête correspond un ensemble fini
de réponses. Les tâches d'Extraction d'Information (EI) et de
Question Answering (QA) font partie de cette catégorie, et
elles sont en général appliquées à un corpus spécialisé.

b) Question ouverte : Questions pour lesquelles il n'existe pas de


réponse complète et définitive.
Formes et hétérogénéité d’information
• Formes
– Texte, images, sons, vidéo, graphiques, etc.
– Exemples texte : web pages, email, livres,
journaux, publications, messages email, blog,
Word, etc.
• Hétérogénéité
– langage (multilingues)
– media (multimédia)
– structures
Besoin en information/ Requête
• Besoin en information est une expression
mentale d’un utilisateur
• Requête est une représentation possible du
besoin en information
Plusieurs pertinences
• Pertinence Algorithmique : mesure algorithmique
dépendant du modèle de RI
• Pertinence thématique : relation entre le sujet
exprimé dans la requête et le sujet couvert dans le
document.
• Pertinence cognitive : relation entre l’état de la
connaissance de l’utilisateur et l’information
sélectionnée.
• Pertinence situationnelle/contextuelle : relation
entre la tâche, le problème posé par l’utilisateur, la situation
de l’utilisateur et l’information retrouvée.
Hypothèses « simplificatrices » en RI

• Besoin = requête
Besoin confondu avec la requête utilisateur
• Document et requête
Représentés par des termes (mots simples, groupes
de mots, …)
• Pertinence
Traduite par la similarité de vocabulaire entre la
requête et le document
Introduction
Caractéristiques du langage
naturel
• Implicite, redondance et ambiguïté
• Le langage naturel est flou et équivoque. Il est
caractérisé par :
– l’implicite : tout n’est pas exprimé dans un texte,
– la redondance : il y a plusieurs façons d’exprimer la même
chose.
– l’ambiguïté : ce qui est exprimé possède souvent plusieurs
interprétation.
Introduction
• Compréhension d’un texte
Pour comprendre ce que signifie un texte ou une partie
d’un texte (mot, proposition, phrase, etc.), il faut
mettre en œuvre plusieurs niveaux d’analyse :

– lexicale : signification des mots pris isolément,


– syntaxique : signification des associations de ces mots,
– contextuelle : connaissance apportée par le texte à
l’intérieur duquel se situe la partie de texte à analyser
– pragmatique : ensemble des connaissances sur le monde
auquel le texte se réfère.
Introduction
• Redondance et synonymie
Des mots ou des expressions différents peuvent avoir le même sens :
– synonymie,
– paraphrase.
a. Synonymie
– Entre mots :
– Entre mots et expressions : train et chemin de fer
– Partielle :
• véhicule hyperonyme de voiture
• Twingo hyponyme de voiture
• genou méronyme de jambe
• jambe holonyme de genou
– Abréviation : Madame et Mme
– Sigle :UFR et Unité de Formation et de Recherche
Introduction
b. Paraphrases :
– Termes identique mais syntaxe différente :
• Mon chat mange un oiseau.
• Un oiseau est mangé par mon chat.
– Termes et syntaxe différents :
• L’accord a été signé début mai.
• L’accord a été signé il y a 3 mois.
• Ambiguïté et polysémie
Un même mot ou une même expression peut avoir plusieurs sens différents
entraînant des ambiguïtés.
– ambiguïté sur les mots :
• homographie,
• homonymie,
– ambiguïté sur la syntaxe,
– ambiguïté par rapport au contexte.
Introduction
• Homographie : Identité accidentelle de mots ayant une origine différente :
– Nancy est à l’est de Paris.
– Nous portions les portions de gâteau.
– Le président et le directeur président la séance.
• Homographie due aux sigles
– Même abréviation d’une expression différente :
• DSI : Diffusion Sélective d’Informations
• DSI : Digital Speech Interpolation
– Sigle homographes :
• CAP (Certificat d’Aptitudes Professionnelles) et cap,
• CE (Comité d’Établissement) et ce (adjectif démonstratif).
Introduction

• Sens de base et rôles complémentaires


Le sens des mots est précisé ou complété par le rôle qu’ils jouent dans la
phrase.
• Sujet d’une description :
Une roue d’automobile est constituée d’une jante et d’un pneu.
• Composant d’un objet :
Une automobile comporte généralement quatre roues.
• But d’une fabrication :
La firme Michelin fabrique des pneus pour les roues d’automobile à
ClermontFerrand.
• Objet d’une industrie
L’industrie de la roue d’automobile est le support de la vie économique de
cette cité.
Introduction

• Mots composés
On distingue les mots composés dont
– le sens se déduit de celui de leurs composants :
• carte bleue,
• traitement de texte
– de ceux dont il ne se déduit pas : pomme de terre,
Processus général de la RI,

Vous aimerez peut-être aussi