Technique D'indexation PDF

TECHNIQUE D’INDEXATION
ET RECHERCHE
MULTIMÉDIA
Plan
1. Introduction
2. Eléments clés en Recherche d'Information (RI)
3. Modèles de RI
– Modèle Booléen, Booléen Pondéré, Vectoriel
2
Plan
1. Introduction
3. Modèles de RI
3
Qu'est-ce que la recherche d'information ?
4
QU’EST CE QUE LA RI ?
Recherche d’information (RI) :
–Ensemble des méthodes et techniques pour

l’acquisition, l’organisation, le stockage, la
recherche et la sélection d’information
pertinente pour un utilisateur.
4
Moteur de recherche
Un moteur de recherche est, comme son

nom l'indique, un outil qui permet de
rechercher sur le Web (mais aussi sur un
ordinateur personnel) des ressources, des
contenus, des documents etc., à partir
de mots clés.
6
Contextes d'utilisation
• Bureautique
• Applications techniques : maintenance de matériel
• Informatique médicale : recherche de

dossiers médicaux similaires, études
statistiques, bibliographie, …
• Recherche scientifique
• etc.
7
Problématique
Accès par le contenu à des documents

satisfaisant un besoin d’information d’un
utilisateur
Sélectionner dans une collection
–les informations (items, documents, ..)
pertinentes répondant aux besoins en
information des utilisateurs
8
CONCEPTS DE BASE DE LA RI
Besoin en information
•Besoin en information est une

expression mentale d’un utilisateur
• Requête : Ensemble de mots-clés
–>Une représentation possible du

besoin en information
Contenu du cours
• Comment exprimer un besoin

d’information ?
• Comment traiter la requête ?
• Comment chercher parmi une

collection de documents ?
• Qu’est-ce qu’un bon résultat ?
10
Plan
1. Introduction
3. Modèles de RI
11
Eléments centraux
• Documents
• Contenu des documents
• Besoin d’information d’un utilisateur
• Satisfaction
12
Les documents
• Différents médias :Texte, Image, vidéo, documents structurés

• Différents types d’information par média
– Texte : livre, article, lettre…
– Image : Images par rayons X, Photographies, Graphiques…
• 2 classes d’information
– Méta-Information (information à propos du document)
• Attributs : titre, auteur, date de création, etc.
– Contenu
• Contenu brut : le document initial
• Contenu symbolique : information extraite du contenu brut
13
Besoin d’information d’un utilisateur
Exprimé sous la forme de requêtes, pouvant suivre un langage fixé :

• Contraintes sur les méta informations
– Sur les attributs : Article écrit par Alim-Louis Benabid (type de document et auteur)
– Sur la structure : Article médical contenant une image de CT- scan (lien entre texte et
image)
• Contraintes sur le contenu
– Contenu brut : Document avec le texte 'hépatomégalie'
– Contenu symbolique : Documents portant sur les effets secondaires de

l'aspirine
14
• Types de requêtes :
– Navigation (site de Polytech)
– Service (le livreur de pizza le plus proche)
– Information (combien d’heures par jour dort un chat)
• Complexité :
– Ambiguïté (UGA : Université Grenoble Alpes, Ouganda, club de foot UGA Décines…)
– Précision (restaurant Grenoble, restaurant Grenoble ouvert

dimanche végétarien pas cher)
– Vocabulaire (changer huile voiture vs vidange)
15
Syntaxe des requêtes :
• Les moteurs de recherche actuels supportent tout type de requête
• Il existe des mots-clés/opérateurs : + @ $ # - " * ..
– Site: faites suivre (ou précéder) le mot à rechercher de site: suivi (sans espace) de l’adresse d’un
site.
– Related : suivi d’une adresse URL d’un site connu de vous, affiche toutes les pages aux contenus
similaires.
– Info: devant l’URL d’un site, permet d’accéder facilement aux pages similaires et d’autres
recherches avancées liées au site.
16
Satisfaction de l'utilisateur
Le système doit
• être simple à utiliser
• fournir les meilleures réponses possibles, et ces réponses doivent être « pertinentes » pour
l’utilisateur
– Pertinence système versus pertinence utilisateur
• fournir un nombre raisonnable de réponses
• donner des réponses rapides

Difficile de satisfaire tous ces points à la fois…
17
Satisfaction de l'utilisateur
Qu’est-ce qui fait d’un document un bon résultat ?
• Pertinence du thème
• Clarté
• Adaptation aux spécificités de l’utilisateur (lisible, compréhensible…)
• Nouveauté
• …
18
Plan
1. Introduction
3. Modèles de RI
19
Modèles de RI
20
Modèles de RI
21
Le modèle booléen strict
22
• La fonction de correspondance est basée sur l’implication logique en logique des propositions :
– Un document D répond à une requête Q si et seulement si : D  Q
• Utilisation de déduction par
– Axiomes : (a  b)  a, (a  b)  b, a  (a  b), b  (a  b), …
– Exemple : D = t1  t3  t2  t4 et Q= t1  t4
• Déduction :
1. t1  t3  t2  t4  t1 (équivalent à D  t1)
2. t1  t1  t4 (équivalent à t1  Q)
– Qest donc dérivable à partir de D, donc D  Q, donc le document répond à la requête.
23
Appariement Exact basé sur la présence ou l’absence des termes de la requête dans les documents
– Appariement (q,d) = RSV(q,d)=1 ou 0
• Remarques (1)
– Correspondance stricte : Oui/Non
• Q= t1  t3 t 4
• D1 = t1  t4  t2  t3
D1  Q
• Le document D1 (représenté par D1) n’est pas pertinent pour la requête Q (représentée par Q)
d’après le modèle, alors qu’il contient une description « proche » de la requête.
24
• Remarques (2)
– Pas de distinction entre les documents pertinents
• Q= t1 t 4
• D2 = t1  t4
• D3 = t1  t3  t4  t5  t6  t7  t2
D2  Qet D3  Q
• Le document D2 (représenté par D2) est-il plus ou moins pertinent que D3
(représenté par D3) pour la requête Q (représentée par Q) ?
25
• Remarques (3)
– Utilisable pour des experts, mais difficile pour des utilisateurs
"courants"
•Une requête t1  t4  t6 peut donner des centaines de réponses, et la requête
t1  t4  t6  t10 peut ne donner aucune réponse …
– Expression de requêtes complexe

• Q= ((t1  t4)  t6)  ( t8  (t10  t40)) … ???
 Ceci amène à définir des modèles fournissant des résultats sous forme de liste
26
27
Le modèle booléen pondéré
– Extension du modèle booléen en intégrant des pondérations (dénotant la représentativité d’un terme
pour un document).
– Modèle de connaissances : T = {ti}, i  [1, .. N]
• Termes ti qui indexent les documents
– Un document D est représenté par :
• Une formule logique D (idem modèle booléen)
• Une fonction WD : T  [0,1], qui pour chaque terme de T donne le poids de ce terme dans D.
Le poids vaut 0 pour un terme non présent dans le document.

– Requête : idem booléen strict.
28
• Fonction de correspondance non binaire (on se passe des implications logiques)

• basée sur une similarité notée Sim
– Version 1 (Note : Utilisation proche de PubMed)
• Utilisation de logique floue (avec a et b des termes)
– Sim1(D, (a  b)) = min [ WD(a), WD(b) ]
– Sim1(D, (a  b)) = max [WD(a), WD(b) ]
– Sim1(D, (¬ a)) = 1 - WD(a)
• Requêtes complexes (x et y sont des sous-requêtes):
– Sim1(D, (x  y)) = min [Siml(D, x) , Siml(D, y) ]
• Limitation : on ne tient pas compte dans la réponse de tous les termes de
la requête
29
Version 2
– Définition d’une mesure de similarité qui tient
davantage compte de chacun des termes de la
requête
Limitation : pas de formule pour la négation…
30
• Exemple avec valeurs binaires
31
• Exemple avec valeurs non-binaires
32
• Traitement de requête (totalement parenthésée) Sim1

– Ex : (((a  b)  c)  ¬ d)
• Etape 1 : génération de l’arbre de requête
– Une parenthèse (on a un opérateur binaire  ou ) :
• un nœud non-feuille avec 2 fils, décoré avec l’opérateur
• Fils gauche : sous-arbre avec partie gauche
• Fils droit : sous-arbre avec partie droite
– Un terme : noeud feuille avec le terme
– Un ¬ : un nœud non-feuille unaire avec sous-arbre fils
• Génération des opérations
33
• Ex . (((a  b)  c)  ¬ d)
• Arbre de requête :
34
• Ex . (((a  b)  c)  ¬ d)
• Génération des opérations :
 Opérations effectuées :
min(max(min(WD(a), WD(b)), WD(c)),1-WD(d))
35
Le modèle vectoriel
Modèle de connaissances : T = {ti}, i ∈ [1, .. N]

• Tous les documents sont décrits suivant ce vocabulaire
• Un document Di est représenté par un vecteur Di décrit dans l’espace vectoriel RN
défini par T :
– Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un terme pour un document
• Une requête Q est représentée par un vecteur Q décrit dans l’espace vectoriel RN défini
par T :
– Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N)
36
 Fonction de correspondance: C’est la fonction de l’angle entre le vecteur requête Q et le vecteur

document Di .
Plus l’angle est petit, plus le document correspond à la requête. Une solution est de calculer le cosinus
de l’angle entre le vecteur requête et le vecteur document.
La fonction de correspondance représente la similarité entre le document et la requête
37
Cette mesure représente la distance entre un document et une requête.

Sim (Q, Di) = similitude entre la requête Q et le document Di
• dij = poids du terme Tj dans le document Di
• wqj = poids du terme Tj dans la requête Q
38
Il existe plusieurs mesures de similarité:
39
Comment pondérer les termes ?
• Comment trouver les poids des termes pour les documents :

– Un document
• « Un violon est issu de bois précieux comme l’érable, palissandre, l’ébène... »
– Pour indexer, la première idée est de compter les mots les plus fréquents excepté les termes non
significatifs comme « de », « avec », « comme »…
40
• On définit la fréquence d’un terme (term frequency)
– tfi,j : la fréquence du terme tj dans le document Di est égale au

nombre d’occurrences de tj dans Di.
– Exemple : si violon apparaît 5 fois dans le document D3, avec violon=t23, alors
tf3,23 = 5
41
• On tient compte du corpus (base de documents) entier, un terme qui apparaît beaucoup
ne discrimine pas nécessairement les documents :
Terme fréquent dans le Terme fréquent dans un seul

corpus entier document du corpus
42
• On définit la fréquence documentaire d’un terme
– dfj : la fréquence dans le corpus du terme tj est le nombre de documents du

corpus où tj apparaît
• On utilise l'inverse de la fréquence documentaire, idfj :
– Définition simple : idfj = 1 / dfj
– Définition la plus utilisée : idfj = log(ND / dfj), avec ND le nombre de documents du

corpus.
(idf : inverse document frequency)
43
• Combinaison du tf et de l’idf pour un vecteur document:

– Le poids d’un terme dénote la capacité du terme à discriminer les documents
– Exemple le plus courant
• wi,j = tfi,j .idfj
• Utilisation du tf ou du tf.idf pour une requête
44
Soient un document D dans une collection de 10 documents et une requête Q représentés par les vecteurs
suivants représentant les fréquences des termes :
D = (3, 1, 2)
Q = (2, 2, 1)
Sachant que: le terme T1 se trouve dans 6 documents, le terme T2 se trouve dans 2 documents et le terme T3
se trouve dans 4 documents.
1) Calculer les poids des termes du document D en utilisant la fonction de pondération: TF*IDF avec IDF =
log (N/DF)
TF: Fréquence du terme dans le document
DF: Proportion de documents contenant le terme
N: Nombre de documents de la collection.
2) Calculer la similarité (similitude) Sim (Q, D) en utilisant la mesure de Inner Product:
45

Technique D'indexation PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Technique D'indexation PDF

Transféré par

Droits d'auteur :

Formats disponibles

TECHNIQUE D’INDEXATION

Recherche d’information (RI) :

–Ensemble des méthodes et techniques pour

Un moteur de recherche est, comme son

• Applications techniques : maintenance de matériel

• Informatique médicale : recherche de

Accès par le contenu à des documents

•Besoin en information est une

• Requête : Ensemble de mots-clés

–>Une représentation possible du

• Comment exprimer un besoin

• Comment traiter la requête ?

• Comment chercher parmi une

• Qu’est-ce qu’un bon résultat ?

• Contenu des documents

• Besoin d’information d’un utilisateur

• Différents médias :Texte, Image, vidéo, documents structurés

– Méta-Information (information à propos du document)

• Attributs : titre, auteur, date de création, etc.

• Contenu brut : le document initial

• Contenu symbolique : information extraite du contenu brut

Exprimé sous la forme de requêtes, pouvant suivre un langage fixé :

– Contenu symbolique : Documents portant sur les effets secondaires de

– Navigation (site de Polytech)

– Service (le livreur de pizza le plus proche)

– Information (combien d’heures par jour dort un chat)

– Précision (restaurant Grenoble, restaurant Grenoble ouvert

– Vocabulaire (changer huile voiture vs vidange)

Syntaxe des requêtes :

• Les moteurs de recherche actuels supportent tout type de requête

• Il existe des mots-clés/opérateurs : + @ $ # - " * ..

– Pertinence système versus pertinence utilisateur

• fournir un nombre raisonnable de réponses

• donner des réponses rapides

Qu’est-ce qui fait d’un document un bon résultat ?

• Adaptation aux spécificités de l’utilisateur (lisible, compréhensible…)

– Qest donc dérivable à partir de D, donc D  Q, donc le document répond à la requête.

– Correspondance stricte : Oui/Non

– Pas de distinction entre les documents pertinents

•Une requête t1  t4  t6 peut donner des centaines de réponses, et la requête

t1  t4  t6  t10 peut ne donner aucune réponse …

– Expression de requêtes complexe

Le poids vaut 0 pour un terme non présent dans le document.

• Fonction de correspondance non binaire (on se passe des implications logiques)

Limitation : pas de formule pour la négation…

• Exemple avec valeurs binaires

• Exemple avec valeurs non-binaires

• Traitement de requête (totalement parenthésée) Sim1

Modèle de connaissances : T = {ti}, i ∈ [1, .. N]

 Fonction de correspondance: C’est la fonction de l’angle entre le vecteur requête Q et le vecteur

Cette mesure représente la distance entre un document et une requête.

Il existe plusieurs mesures de similarité:

• Comment trouver les poids des termes pour les documents :

• On définit la fréquence d’un terme (term frequency)

– tfi,j : la fréquence du terme tj dans le document Di est égale au

Terme fréquent dans le Terme fréquent dans un seul

• On définit la fréquence documentaire d’un terme

– dfj : la fréquence dans le corpus du terme tj est le nombre de documents du

– Définition la plus utilisée : idfj = log(ND / dfj), avec ND le nombre de documents du

(idf : inverse document frequency)

• Combinaison du tf et de l’idf pour un vecteur document:

– Exemple le plus courant

• wi,j = tfi,j .idfj