Vous êtes sur la page 1sur 148

TECHNIQUE D’INDEXATION

ET RECHERCHE
MULTIMÉDIA
Dorra Bensalem
PLAN DU
COURS

cours technique d'indexation et recherche multimedia - Dorra 2


Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra


33
Bensalem
INTRODUCTION :
PRÉSENTATION
DU DOMAINE
1. Problématique de la
recherche d’information

cours technique d'indexation et recherche multimedia - Dorra 4


Bensalem
QU’EST CE QUE LA RI ?

Recherche d’information (RI) :

–Ensemble des méthodes et techniques pour


l’acquisition, l’organisation, le stockage, la
recherche et la sélection d’information
pertinente pour un utilisateur

cours technique d'indexation et recherche multimedia - Dorra 5


Bensalem
Exemple de moteur de
recherche

cours technique d'indexation et recherche multimedia - Dorra 6


Bensalem
EXEMPLES DE SYSTÈMES DE RI
.. Mais pas seulement

Plusieurs domaines d’application

• Internet (Web, Forum/Blog search, news)

• Entreprises (entreprise search)

• Bibliothèques numériques «digital library»

• Domaine spécialisé (médecine, droit, littérature, chimie,


mathématique, brevets, software, ...)

• Nos propres PC (Yahoo! Desktop search)

7
PERSONNALISER CE MODÈLE

cours technique d'indexation et recherche multimedia - Dorra


88
Bensalem
INFORMATION EST PARTOUT
Le problème ...

n’est pas tant la disponibilité de l’information

•MAIS

•sa sélection, son identification à => arriver à


trouver au bon moment l’information utile

cours technique d'indexation et recherche multimedia - Dorra 9


Bensalem
INFORMATION EST PARTOUT … PROBLÈME …

Rechercher une information a un coût


 «On» passe (en moyenne) 35% de son temps à rechercher des informations
 Les managers y consacrent 17% de leur temps
 Les 1000 grandes entreprises (US) perdent jusqu’à $2.5 milliards par an en raison
de leur incapacité à récupérer les bonnes informations
Nécessité de développer des systèmes automatisés efficaces permettant
 Collecter, Organiser, Rechercher, Sélectionner (fonctions de système RI)

cours technique d'indexation et recherche multimedia - Dorra 10


10
Bensalem
CONTOURS DE LA RI
DONNÉE-INFO-CONNAISSANCE

cours technique d'indexation et recherche multimedia - Dorra 11


11
Bensalem
PROBLÉMATIQUE DE LA RI

Sélectionner dans une collection


–les informations (items, documents, ..)
–... pertinentes répondant aux
– ... besoins en information des utilisateurs

cours technique d'indexation et recherche multimedia - Dorra 12


12
Bensalem
CONCEPTS DE BASE DE LA RI
Information

Formes

–Texte, images, sons, vidéo, graphiques, etc. –Exemples


texte : web pages, email, livres, journaux, publications,
blog, Word™, Powerpoint™, PDF, forum postings,
brevets, etc.

Hétérogénéité

–langage (multilingues)

–media (multimédi : image ,video , son , text)

cours technique d'indexation et recherche multimedia - Dorra 13


Bensalem
CONCEPTS DE BASE DE LA RI
Besoin en information

•Besoin en information est une expression


mentale d’un utilisateur

•Requête –Ensemble de mots-clés

–>Une représentation possible du besoin en


information

cours technique d'indexation et recherche multimedia - Dorra 14


Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 15


15
Bensalem
FONCTIONNEMENT DU SYSTÈME DE RECHERCHE
D'INFORMATION

Pour répondre à une requête utilisateur, un SRI met en œuvre un certain nombre de processus
pour réaliser la mise en correspondance entre le contenu des documents web d’une part,
et celui de la requête utilisateur d’une autre part.
Il est défini par ses modèles de représentation des documents et des requêtes utilisateur,
et sa fonction de recherche pour la mise en correspondance entre les deux univers de représentations.
Ce processus est composé de deux fonctions principales :
 Modèle de représentation
 Modèle de recherche ou correspondance requête-document

cours technique d'indexation et recherche multimedia - Dorra 16


16
Bensalem
Modèle de
Le prétraitement des
représentation
documents L’interprétation des
requêtes des utilisateurs
• extraire à partir des documents une
représentation qui couvre au mieux
• cette opération a pour rôle de
leur contenu
représenter le besoin en information
• Cette opération est connue aussi des utilisateurs.
sous le nom de l'interprétation ou
• il s’agit d’extraire les descripteurs les
l’analyse du contenu
plus représentatifs du contenu de la
• Elle consiste à l'extraction d'un requête en se basant sur une
ensemble de descripteurs les plus analyse qui peut couvrir une ou
représentatifs du contenu, ces plusieurs dimensions (syntaxique,
descripteurs sont appelés aussi par lexicale, sémantique, etc.).
les entrées de l’index ou les termes
d’indexation, utilisés pour
l’indexation
cours de ces documents
technique d'indexation et recherche multimedia - Dorra 17
Bensalem
MODÈLE DE RECHERCHE OU CORRESPONDANCE REQUÊTE-
DOCUMENT

cours technique d'indexation et recherche multimedia - Dorra 18


18
Bensalem
MODÈLE DE RECHERCHE OU CORRESPONDANCE REQUÊTE-
DOCUMENT
• le SRI effectue un appariement entre ces deux univers de représentation, en vue d'évaluer la
pertinence des documents vis-à-vis de la requête. Le système décidera si un document est
pertinent, et le sélectionnera pour le présenter à l’utilisateur, c'est ce que a été défini par la
pertinence du système. Cet appariement peut-être exact tel est le cas avec les modèles booléens
dans lequel les documents résultants ont tous la même pertinence et ne sont donc pas triés
• Il peut être aussi approximatif dans lequel les documents résultants peuvent être ordonnés selon
le degré de pertinence vis-à-vis la requête
• À ce propos, on trouve les techniques de réinjection de pertinence, qui consistent à reformuler ou
à enrichir les requêtes utilisateurs avec d'autres informations additionnelles en se basant sur le
retour des utilisateurs, ce qui rend le processus itératif et aide à améliorer la pertinence des
résultats
• La recherche est considérée comme adaptative. Dans le but d’augmenter la performance de la
recherche, le système devra réagir assez rapidement à son utilisateur

cours technique d'indexation et recherche multimedia - Dorra 19


19
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 20


20
Bensalem
INDEXATION ET INTERROGATION

L'indexation
• Choix des termes – Généralités
– Une propriété souhaitée d’un bon terme d’indexation est sa capacité
à distinguer les documents d’une collection les uns des autres
– Comment faire?

cours technique d'indexation et recherche multimedia - Dorra 21


21
Bensalem
INDEXATION ET INTERROGATION

L'indexation
• Choix des termes – Occurrences
– Objectif : trouver les mots qui représentent le mieux le contenu d'un document.
– Hypothèse : un mot qui apparaît souvent dans un texte représente un concept
important.
– Première approche :
• Choisir les mots représentants selon leur fréquence d'occurrence dans le corpus.
• Définir un seuil SMIN sur la fréquence (si la fréquence d'occurrence d'un mot dépasse
ce seuil, alors il est considéré important pour les document qui le contiennent)

cours technique d'indexation et recherche multimedia - Dorra 22


22
Bensalem
INDEXATION ET INTERROGATION

L'indexation
• Choix des termes – Occurrences (2)
– Cependant, quand on fait la statistique d'occurrence, on s'aperçoit que les mots les
plus fréquents sont des mots fonctionnels (ou mots outils, mots vides). En français,
les mots "de", "un", "les", etc. sont les plus fréquents.
En anglais, ce sont "of", "the", etc.
– Ce phénomène est connu sous le nom de loi de Zipf.

cours technique d'indexation et recherche multimedia - Dorra 23


23
Bensalem
INDEXATION ET INTERROGATION

L'indexation
Choix des termes – Occurrences (3)
• La loi de Zipf
• Si on classe les mots dans l'ordre décroissant de leur fréquence, et on leur donne un numéro de
rang (1, 2, …), alors: Rang * fréquence ≈ constante.

• La distribution de mots suit la courbe :


• L'idée peut être alors de garder les termes "utiles" : ni trop rares (place en mémoire), ni trop
présents (pas discriminants)… choix difficile

cours technique d'indexation et recherche multimedia - Dorra 24


24
Bensalem
INDEXATION ET INTERROGATION

L'indexation
Réduction de la taille du vocabulaire :
• N'indexer que les mots qui ont du sens (suppression des mots outils)
• N'indexer que les racines des mots
– Algorithme de Porter :
• Règles (exemples)
• MENT à /
• ER à /
• ITEà /
•Sà/
•Eà/

cours technique d'indexation et recherche multimedia - Dorra 25


25
Bensalem
INDEXATION ET INTERROGATION

L'indexation
Fichiers inverses - principe
• Après analyse de documents d’un corpus, on obtient un tableau document x termes,
Génération d’un tableau inverse « terme => document » (appelé fichier inverse)

• Habituellement un tel tableau est créé en au moins 2 passes : la première permet de


déterminer tous les termes, et la seconde construit le tableau

cours technique d'indexation et recherche multimedia - Dorra 26


26
Bensalem
INDEXATION ET INTERROGATION

L'indexation
• Fichier inverse avec le modèle booléen,

– Un 1 indique que le terme apparaît positivement dans un document, un zéro indique


que le terme n'apparaît pas dans le document

cours technique d'indexation et recherche multimedia - Dorra 27


27
Bensalem
INDEXATION ET INTERROGATION

L'indexation
En fait, les fichiers inverses ne stockent pas toutes les valeurs, car il y a beaucoup de
valeurs nulles (> 90% des cases du tableau) :
– on utilise des représentations de tableaux creux (tableau avec tailles de lignes différents,
listes chaînées)

cours technique d'indexation et recherche multimedia - Dorra 28


28
Bensalem
INDEXATION ET INTERROGATION

Interrogation
L’algorithme employé est une fusion (« merge ») de liste triées.
C’est une technique très efficace qui consiste à parcourir en parallèle et séquentiellement
des listes, en une seule fois.
Le parcours unique est permis par le tri des listes sur un même critère (l’identifiant du
document).

cours technique d'indexation et recherche multimedia - Dorra 29


29
Bensalem
INDEXATION ET INTERROGATION

Interrogation

cours technique d'indexation et recherche multimedia - Dorra 30


30
Bensalem
INDEXATION ET INTERROGATION

Interrogation
C’est l’algorithme de base de la recherche d’information. Dans la
version présentée ici, on satisfait des requêtes dites booléennes:
l’appartenance d’un document au résultat est binaire, et il n’y a aucun
classement par pertinence.
À partir de cette technique élémentaire, on peut commencer à raffiner,
pour aboutir aux techniques sophistiquées visant à capturer au mieux
le besoin de l’utilisateur, à trouver les documents qui satisfont ce
besoin et à les classer par pertinence. Pour en arriver là, tout un
ensemble d’étapes que nous avons ignorées dans la présentation
abrégée qui précède sont nécessaires

cours technique d'indexation et recherche multimedia - Dorra 31


31
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 32


32
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE RECHERCHE
D’INFORMATIONS

NOTIONS DE PERTINENCE

cours technique d'indexation et recherche multimedia - Dorra 33


33
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE RECHERCHE
D’INFORMATIONS

NOTIONS DE PERTINENCE

cours technique d'indexation et recherche multimedia - Dorra 34


34
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 35


35
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS
MODÈLE DE RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 36


36
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

MODÈLE DE RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 37


37
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

 Les documents sont considérés comme un ensemble de termes


 Exemple Document 1 :
Big cats are nice and funny
 La représentation de D1 après normalisation (enlever les mots vides)

D1={big, cat, nice, funny}

cours technique d'indexation et recherche multimedia - Dorra 38


38
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 39


39
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 40


40
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 41


41
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 42


42
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 43


43
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS
Le modèle booléen Vectoriel
Le modèle vectoriel est un modèle algébrique où l’on représente les
documents et les requêtes par des vecteurs dans un espace
multidimensionnel dont les dimensions sont les termes issus de
l’indexation
la création de l’index implique le parcours de la collection, la
recherche des termes pertinents, le traitement lexical des termes
retenus et enfin l’analyse statistique de la distribution de ces termes
dans les documents et dans la collection pour leur attribuer un poids

cours technique d'indexation et recherche multimedia - Dorra 44


44
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS
Le modèle booléen Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 45


45
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS
Le modèle booléen Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 46


46
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS
Le modèle probabiliste
Plusieurs approches ont tenté de définir la pondération de façon plus formelle
s’appuyant souvent sur la théorie des probabilités.
 La notion de probabilité d’apparition d’un évènement, par exemple la
probabilité de pertinence P(R) est formalisée au travers du concept
d’expérimentation qui est le procédé par lequel l’observation est faite.
L’ensemble des valeurs que peut prendre un fait constitue l’espace de départ.
Pour P(R) l’espace de départ est ,pertinent, non-pertinent}.
Le modèle probabiliste considère que les termes d’indexation sont
indépendants c'est-à-dire que leur probabilité d’apparition est la même avec ou
sans la présence des autres termes.
Sous cette hypothèse, on cherche à estimer la probabilité qu’un document soit
pertinent par rapport à une requête.

cours technique d'indexation et recherche multimedia - Dorra 47


47
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 48


48
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

Les SRI de la nouvelle génération traitent non


seulement des documents plein texte, mais aussi
multimédias. Par document multimédia, nous
entendons un document comportant plusieurs
médias: texte, son, images fixes ou images animées
Chaque média a ses propres caractéristiques qui ont
des conséquences sur leur traitement par un SRI
Le traitement des documents images par les SRI s'est
d'abord beaucoup inspiré des proches adoptées pour
les textes.
C'est pourquoi nous présentons d'abord rapidement
les caractéristiques du média «texte», pour mieux
mettre en relief celles des autres médias.

cours technique d'indexation et recherche multimedia - Dorra 49


49
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

Les techniques présentées ci-après, dite d'indexation, se proposent


d'attacher a une image ou a une vidéo un ensemble de descripteurs de
leur contenu, dans le but de mesurer la ressemblance avec les
descripteurs correspondant a la requête.

cours technique d'indexation et recherche multimedia - Dorra 50


50
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

cours technique d'indexation et recherche multimedia - Dorra 51


51
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

Indexer = extraire une information synthétique des images


(documents multimédia) an de faciliter l'accès a leur contenu
 information = élément susceptible d‘être code pour être conserve, traite,
communique
 index = clé d'acces a l'information contenue dans l'image
Pourquoi indexer ?
 indexer pour retrouver, trier : conservation d'un patrimoine (culturel,
scientifique,. . . )
 indexer pour connaître : valorisation en facilitant l'accès et l'exploration
 indexer pour naviguer : exploitation commerciale (photos numériques, TV
numérique, . . . )

cours technique d'indexation et recherche multimedia - Dorra 52


52
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

Une base de données multimédia est un type de base de données


consacre au stockage, à l'organisation et à l'interrogation de données multimédia
Ces données peuvent être de différents types, en particulier : Texte, Son, Image et
Vidéo
Qui peuvent être combines (exemple : Film)

cours technique d'indexation et recherche multimedia - Dorra 53


53
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

Pourquoi les bases de donnees mutlimedia ?


Quelques chiffres
Croissance très importante, en raison de l'accumulation des contenus
numériques (image, vidéo, ...) autoproduits par le grand public, par
exemple :
• Facebook : plus de 100 millions d'images/jour
• Youtube : plus 24h de video/minute
• Films : http://www.imdb.org recense plus de 400 000 films
Internet : necessite Plus 5-10 To de capacité de stockage
• Sept 2011 : 1 milliards de recherches/jour
Fonds de document télévisuel de la SNRT (société nationale de Radiodiffusion et de
télévision)
• Pour une seule chaîne TV : plus 8000h de vidéo /an
• Pour plus 20 ans d‘émission (plusieurs chaînes) : 1 million d'heures
(vidéos, images, ...)

cours technique d'indexation et recherche multimedia - Dorra 54


54
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

cours technique d'indexation et recherche multimedia - Dorra 55


55
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

cours technique d'indexation et recherche multimedia - Dorra 56


56
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

cours technique d'indexation et recherche multimedia - Dorra 57


57
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

cours technique d'indexation et recherche multimedia - Dorra 58


58
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA

cours technique d'indexation et recherche multimedia - Dorra 59


59
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 60


60
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 61


61
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 62


62
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 63


63
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 64


64
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 65


65
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 66


66
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 67


67
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 68


68
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 69


69
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 70


70
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 71


71
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 72


72
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 73


73
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 74


74
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

R = 1/5=0,2 ; P= 1/1 =1

R = 2/5=0,4 ; P= 2/2 =1
R = 3/5=0,6 ; P= 3/4 =0,75

R = 4/5=0,8 ; P= 4/6 =0,667

R = 5/5=1 ; P= 5/13 =0,38

cours technique d'indexation et recherche multimedia - Dorra 75


75
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 76


76
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 77


77
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 78


78
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 79


79
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 80


80
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 81


81
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 82


82
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 83


83
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 84


84
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 85


85
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 86


86
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 87


87
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 88


88
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 89


89
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 90


90
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 91


91
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 92


92
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 93


93
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 94


94
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

cours technique d'indexation et recherche multimedia - Dorra 95


95
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 96


96
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 97


97
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 98


98
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 99


99
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 100


100
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 101


101
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 102


102
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 103


103
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 104


104
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 105


105
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 106


106
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 107


107
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 108


108
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 109


109
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

cours technique d'indexation et recherche multimedia - Dorra 110


110
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 111


111
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

cours technique d'indexation et recherche multimedia - Dorra 112


112
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Qu’est-ce qu’un moteur de recherche ?
Les moteurs de recherche (search engine) sont des applications web créées
pour effectuer des recherches sur la toile. Les résultats apparaissent selon les
expressions demandées par les internautes. Aujourd’hui, Google reste le plus
connu de tous. Mais il existe de nombreux moteurs de recherche efficaces
comme DuckDuckGo, Bing, Qwant, Yahoo… Vous trouverez également des
moteurs de recherche spécialisés comme : Google Scholar pour l’éducation,
Yahoo kids pour les enfants, Ecosia pour l’environnement…

cours technique d'indexation et recherche multimedia - Dorra 113


113
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Que peut-on trouver à l’aide des moteurs de recherche ?
On peut utiliser les moteurs de recherche pour effectuer des recherches dans un domaine précis.
Par exemple, Google permet de trouver des données web informatives, des images, des e-
commerces, des documents ou des vidéos.
La fonction MAP joue le rôle de carte du monde et utilise des images satellites pour localiser avec
précision un lieu. Les autres alternatives à Google comme Bing, DuckduckGo,Yahoo ou Qwant sont
aussi des moteurs de recherche puissants. Chaque outil avance un argument pour se démarquer.
Par exemple, Qwant est un moteur de recherche qui respecte la vie privée. Il ne cherche pas à
savoir qui vous êtes et où vous êtes pour vous proposer ses résultats.

cours technique d'indexation et recherche multimedia - Dorra 114


114
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Comment accéder à un moteur de recherche ?

Les moteurs de recherche sont accessibles via un navigateur. La plupart du temps, ces
derniers utilisent un omnibox afin de permettre à l’utilisateur d’effectuer une
recherche. L’omnibox est le nouveau nom attribué à l’ancienne barre d’adresse des
navigateurs.

cours technique d'indexation et recherche multimedia - Dorra 115


115
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Comment réussir avec les moteurs de recherche ?


C’est la question que tout agence de référencement naturelle se pose.
Être positionné sur les premiers résultats des SERP a un véritable enjeu
financier. Le référencement naturel est une discipline stratégique et
technique. Il existe cependant quelques optimisations simples à
appliquer pour être apprécié des moteurs de recherche.

cours technique d'indexation et recherche multimedia - Dorra 116


116
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Vous pouvez par exemple :
• Éviter l’«occultation ». Aussi connu sous l’expression anglaise « cloaking », ce terme désigne le fait de
présenter deux pages différentes au Google Bot et aux visiteurs humains pour obtenir un meilleur
classement. Le serveur web est programmé de manière à présenter une page web différente suivant
l’initiateur de la requête (robot Google ou humain).
• Faire un site avec une hiérarchie claire et donner un plan de votre site (SiteMap).
• Créer un maillage interne pertinent.
• Créer un site utile et riche en informations. Ainsi, votre contenu doit être structuré à l’aide de H1, H2,
H3. Vos balises et votre texte doivent contenir le mot clé sur lequel vous souhaitez apparaître dans les
SERP.
• Ne pas négliger les attributs ALT et méta descriptions. Ces éléments doivent être précis et contenir votre
mot clé.
• Créer des backlinks qualitatifs pour donner de la puissance à votre site.

cours technique d'indexation et recherche multimedia - Dorra 117


117
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

cours technique d'indexation et recherche multimedia - Dorra 118


118
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Fonctionnement des moteurs de recherche
Crawling et indexing
Les moteurs de recherche (search engine) servent à une seule chose :
fournir des réponses aux questions des utilisateurs. Pour fournir des
résultats de recherches pertinents, ces outils passent par deux étapes :
• le crawling : la recherche de pages sur internet
• l’indexation : le classement des résultats par ordre de pertinence

cours technique d'indexation et recherche multimedia - Dorra 119


119
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Crawling (interrogation)
Le crawling est la première fonction des moteurs de recherche. C’est une sorte d’inspection
systématique des sites web sur Internet. Effectuée avant la requête de l’utilisateur, cette étape
consiste à rassembler le maximum d’informations auprès des plateformes web. Il est accompli
par des robots appelés « spiders ou crawlers ». À l’issu de cette étape, ces derniers envoient
les informations collectées à l’index pour accomplir ce qu’on appelle indexation.

cours technique d'indexation et recherche multimedia - Dorra 120


120
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Indexing (indexation)

Lorsque l’index (le cerveau des moteurs) reçoit les informations en provenance des
robots, il les évalue. Ainsi, à chaque fois qu’un utilisateur fait une recherche, il peut
leur fournir des résultats pertinents.

cours technique d'indexation et recherche multimedia - Dorra 121


121
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Comment les moteurs de recherche déterminent-ils la pertinence d’un résultat ?

L’évaluation de la pertinence ne se résume pas à mesurer la correspondance entre la requête et la


plateforme web. Il y a d’autres facteurs à prendre en considération. Les moteurs de recherche
supposent que plus un site est populaire, plus l’information qu’il contient est pertinente. Ce postulat
permet aux moteurs de garantir la satisfaction des utilisateurs à l’égard des résultats de recherche.

cours technique d'indexation et recherche multimedia - Dorra 122


122
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Mythes et réalité autour des moteurs de recherche

Soumission aux moteurs de recherche


Dans les années 90, les moteurs de recherche utilisaient des formulaires de soumission. Les
webmasters soumettaient leurs sites et leurs mots-clés. Il s’agissait alors de signaler le site
pour que les moteurs de recherche le parcourent et l’indexe. Ce système a vite été revu et
abandonné. Aujourd’hui, les robots viennent par eux mêmes parcourir les sites et les
indexer sur des expressions clés.

cours technique d'indexation et recherche multimedia - Dorra 123


123
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Classement par meta tag

Les balises meta (notamment la balise meta keywords) étaient cruciales pour le référencement.
Ce critère de référencement a été abandonnée par tous les principaux moteurs. Aujourd’hui les
meta tags n’ont plus d’incidence sur le référencement.

cours technique d'indexation et recherche multimedia - Dorra 124


124
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Le référencement payant (SEA) propulse les pages en haut des SERP


Certaines théories affirment que les sites qui paient pour les publicités sur les moteurs de
recherche (SEA) sont naturellement mieux classés. C’est une supposition sans fondement.
Google, Qwant (outil français) et Yahoo ont même instauré des garde-fous afin de prévenir
ce genre de propos. Chez Google, les annonceurs qui dépensent des millions de dollars par
mois en publicité ont remarqué qu’ils ne reçoivent aucun traitement de faveur de la part du
moteur de recherche.
Si tels sont les mythes sur les moteurs de recherche, quelles sont les réalités ?

cours technique d'indexation et recherche multimedia - Dorra 125


125
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

La réalité
Le crawl budget
Le web contient des billions de données. Pour faciliter le travail des robots, les moteurs de
recherche ont instauré un système de limitation dans leur crawl. Le budget crawl est le temps
accordé par les robots à votre site. Les moteurs de recherche (search engine) doivent trouver vos
pages le plus rapidement possible. Vous comprenez donc qu’il y a ici un enjeu important. Il faut
faciliter le travail des robots pour qu’ils puissent crawler et indexer au maximum tout votre site.
S’ils ne peuvent pas le faire, une partie de votre site ne sera pas visible aux yeux des moteurs de
recherche et des internautes.

cours technique d'indexation et recherche multimedia - Dorra 126


126
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Afin de faciliter le travail des robots, vous pouvez déjà appliquer quelques bonnes pratiques :
• Eviter les liens cassés. Les liens brisés ne sont pas appréciés des robots. Ils peuvent être
amenés à arrêter leur crawl.
• Eviter les contenus de qualité moindre. Par exemples, des pages d’erreurs, du contenu
dupliqué, des navigations à facette…
• Limiter les redirections 301/302
• Optimiser le temps de chargement de votre page. Un temps de chargement long n’est pas
bon pour votre référencement, mais également pour l’internaute. Ce dernier aura tendance
à aller sur un autre site pour trouver la réponse à sa requête si votre site met trop de temps à
se charger. Vous perdez ainsi des prospects.
• Mettre à jour votre SiteMap. Il guidera plus facilement les robots pour indexer vos pages

cours technique d'indexation et recherche multimedia - Dorra 127


127
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Un crawl régulier de votre site

Vous venez de créer votre site et vous constatez son indexation sur les moteurs de
recherche. Vous vous dites que le travail est terminé ? Sachez que les robots passent de
manière régulière sur votre site. Un site qui est souvent mis à jour verra les robots passer
plus souvent qu’un site statique. Chaque jour, les moteurs de recherche effectuent une
analyse de mots-clés des pages pour les indexer.

cours technique d'indexation et recherche multimedia - Dorra 128


128
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
La détection de Cloaking

On appelle cloaking le fait de montrer des contenus différents aux moteurs de recherche et aux
visiteurs. Le serveur reconnait si c’est un internaute ou un robot qui a lancé la requête. Selon ce
critère, il va présenter des contenus différents. Par exemple, pour un robot, il peut présenter une page
plus optimisée mais qui ne sera pas agréable à lire pour un internaute. Cette technique est
sanctionnée par Google.

cours technique d'indexation et recherche multimedia - Dorra 129


129
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
La filtration des contenus de faible valeur

Les moteurs emploient tous des robots pour déterminer la valeur ajoutée
d’un contenu pour les lecteurs. Les contenus les plus souvent filtrées sont:
• les contenus d’affiliation,
• les contenus dupliqués
• les pages générées ayant très peu de texte.

cours technique d'indexation et recherche multimedia - Dorra 130


130
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Les moteurs évaluent la valeur d’un domaine sur son originalité et sur l’expérience visiteur
qu’ils offrent. Ainsi, les sites qui publient des contenus de mauvaise qualité auront du mal
à se positionner en haut du classement, même très bien référencés. Par exemple, si vous
avez un taux de rebond élevé à partir de la SERP, vous serez déclassé par les moteurs de
recherche. Il signifie que les internautes ne trouvent pas de réponse à leur requête et que
le contenu n’est pas pertinent.

cours technique d'indexation et recherche multimedia - Dorra 131


131
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Par ailleurs, le lancement de Google Panda en 2011 montre la volonté du moteur de recherche
de valoriser les contenus qualitatifs. Cet algorithme a été mis en place après une vague
importante de spams et de sites de basse qualité. Comment s’applique la sanction ? Panda
pénalise les contenus de mauvaise qualité et parfois tout le site. Les pages concernées sont alors
désindexées.

cours technique d'indexation et recherche multimedia - Dorra 132


132
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Le référencement selon la confiance que génère votre site
Divers éléments servent à évaluer votre site afin de le positionner dans les SERP. Un des critères
importants pour le search engine est les backlinks. Pour mesurer la fiabilité de votre site, Google va
prendre en considération le nombre de liens qui pointent vers lui. Pour faire simple, le search engine va
considérer votre site comme pertinent car de nombreux sites renvoient à lui.
le moteur de recherche ne mesure pas uniquement la quantité de backlinks. La qualité de ces liens est
un critère primordial. En effet, plus vos liens viendront de sites d’autorité, plus vous serez apprécié des
moteurs de recherche. En revanche, si vous avez des liens « spammant » et de mauvaise qualité, l’outil
de recherche verra cela comme une fraude et appliquera une pénalité. L’algorithme Penguin a été créé
pour nettoyer les indexes Google des sites de mauvaise qualité qui détournent le SEO par des
techniques de linking frauduleuses.

cours technique d'indexation et recherche multimedia - Dorra 133


133
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
L’actualité sur les moteurs de recherche
Qui détient la plus grande part du marché mondial des moteurs de recherche ?

Le classement mondial de 2017 a placé Google en première position avec une part nette de
74,54 %. Il est suivi par les moteurs de recherche Yahoo, Baidu, Bing ou Qwant (outil de
recherche français) dont la part de marché avoisinent les 7 à 10 %. Il est intéressant de noter
que même si Google détient la plus grande part, elle a lentement diminué à partir du
2e trimestre de 2017, tandis que la part de Baidu a atteint 14,69 %.

cours technique d'indexation et recherche multimedia - Dorra 134


134
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web
Combien de recherches sont effectuées chaque jour sur les moteurs
de recherche ?

En 2017, 46,8 % de la population mondiale a eu accès à Internet. D’ici 2021, ce chiffre devrait
atteindre 53,7 %. Selon les statistiques, Google reçoit 3,5 milliards de requêtes par jour soit 1,2
billion par an. Google évolue rapidement. Si en 1999, il a fallu un mois à Google pour crawler et
indexer 50 millions de pages, en 2012, cette tâche a été accomplie en moins d’une minute !

cours technique d'indexation et recherche multimedia - Dorra 135


135
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Application aux moteurs de
recherche du web

Les moteurs de recherche sont donc des applications puissantes et complexes. Chaque jour, des
millions de requêtes sont demandées par les internautes. Bien plus qu’un enjeu informationnel, les
moteurs de recherche ont aussi un enjeu marketing et financier. Pour faire face à la concurrence et
générer du chiffre via le web, être bien positionné sur les SERP est primordial. Mais connaître les
utilisations de sa cible l’est encore plus. En 2009, seulement 0,7 % du trafic web dans le monde
entier a été généré par les téléphones portables. En 2017, le mobile représente 50,3 % du trafic
web mondial. Dans 10 pays, dont les États-Unis et le Japon, les recherches sur mobiles ont
largement dépassées celles effectuées sur ordinateur.

cours technique d'indexation et recherche multimedia - Dorra 136


136
Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia

cours technique d'indexation et recherche multimedia - Dorra 137


137
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia

les ressources du Web sont représentées de différentes façons suivant leur


nature. Le Web étant un espace dynamique, les données qu'il renferme
sont amenées à évoluer. Dans cette section,
• Nous étudions les techniques existantes pour la gestion de l'évolution
des données du Web.
• Nous présentons les hypermédia adaptatifs

cours technique d'indexation et recherche multimedia - Dorra 138


138
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia

Un hypermédia: extension du terme multimédia, réseau de nœuds


d’informations interconnectés. Chaque nœud est un média (texte,
vidéo, son ou composition des trois).
Les termes hypertexte et hypermédia peuvent être définis suivant trois
points de vue . On peut en effet les définir du point de vue de la
structure et du point de vue de l'interaction entre l'utilisateur et le
système et enfin du point de vue sémantique.

cours technique d'indexation et recherche multimedia - Dorra 139


139
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia
Définition structurelle :
Un hypertexte définit comme étant un système composé de nœuds et de liens. Les
nœuds peuvent être composés d'informations textuelles, on parle alors d'hypertexte, ou
d'informations multimédias, tels que des images, des graphiques, des animations, des
vidéos ou bien des programmes informatiques, on parle alors d'hypermédia.
Les nœuds sont reliés les uns aux autres par des liens. Les liens peuvent être plus ou
moins complexes : ils peuvent être unidirectionnels permettant d'aller d'une page à une
autre, ou bidirectionnels, afin de faciliter le retour au point de départ. Ils peuvent être
aussi typés afin de spécifier la sémantique de lien. Enfin les liens peuvent être disposés
n'importe où dans une page.

cours technique d'indexation et recherche multimedia - Dorra 140


140
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia

Définition fonctionnelle :
L'hypertexte peut être considéré comme étant un procédé informatique permettant
d'associer une entité souvent minimale : un mot, une image ou une icône à une autre
entité souvent plus étendue comme un paragraphe, une image ou une page.
Ce mécanisme permet donc à l'utilisateur de se diriger librement dans l'hypertexte.
En activant, à l'aide d'un pointeur une zone de document qui est l'origine d'une
association. Il n'est donc plus obligé de suivre le cheminement prévu par l'auteur, il
définit son parcours en fonction de ses envies et de ses centres d'intérêt.

cours technique d'indexation et recherche multimedia - Dorra 141


141
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia

Définition sémantique :
le mot hypertexte signifié « plus que texte » le mot « plus » ne signifié pas plusieurs
textes interconnectés, mais une entité qui est composée de deux entités :
- un ensemble de documents
- une connaissance.
La représentation la plus pauvre de cette deuxième entité est le lien inscrit à l’intérieur
même de la première entité qui relie deux documents.
La forme la plus élaborée de cette connaissance peut être générée par un système
complexe se basant sur une modélisation du domaine et sur une modélisation de
l’utilisateur

cours technique d'indexation et recherche multimedia - Dorra 142


142
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia

Systèmes hypermédias adaptatifs


L’objectif de ces systèmes est d’adapter la présentation de la connaissance et d’aider
l’utilisateur à se diriger dans l’hyperespace. Dans un hypermédia nous devons pouvoir modifier
aussi bien le contenu des pages que les liens entre les différentes pages .
Mais c’est surtout sur l’adaptation des liens que le plus grand nombre de techniques à été
développés (le guidage direct, l’ordonnancement ou tri des liens, le masquage des liens,
l’annotation des liens, les cartes adaptatives)

cours technique d'indexation et recherche multimedia - Dorra 143


143
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia
L’architecture des hypermédias adaptatifs
L’architecture des hypermédias adaptatifs, comme pour beaucoup de systèmes assistés par
ordinateur, s’appuie principalement sur deux modèles :
- Le modèle de domaine ;
- - Le modèle de l’utilisateur.
Les différents types d’hypermédias adaptatifs se caractérisent par la relation qu’ils
entretiennent entre le modèle du domaine et les médias utilisés pour présenter les concepts à
l’utilisateur. Les systèmes ont successivement emplois différents techniques. Dont la technique
la plus évoluée calque la structure de l’hyperespace sur la structure du modèle du domaine.
Ainsi chaque concept est relié à une ou plusieurs pages physiques et ces relations sont
représentés par des liens hypertextes.

cours technique d'indexation et recherche multimedia - Dorra 144


144
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia

Modèle de domaine
Le modèle de domaine est la composante d’un système qui permet à l’ordinateur de
connaître ce qui va être présenté à l’utilisateur. Ce modèle est dès lors définit par des
experts d’un domaine précis . Par exemple dans l’enseignement, les enseignants jouent le
rôle des experts qui sélectionnent et annotent les documents du domaine (les cours), et
les apprenants sont considérés comme des utilisateurs qui consultent ces cours.

cours technique d'indexation et recherche multimedia - Dorra 145


145
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia
Modèle de l’utilisateur
le modèle de l’utilisateur est composé de deux sous modèles :
• un modèle épistémique :
Le modèle épistémique est la composante qui permet au système de connaître ce que
l’utilisateur est supposé savoir ou ne pas savoir. Sachant que cette connaissance est en
rapport avec la connaissance représentée dans le modèle du domaine, le modèle
épistémique peut être considéré comme un dérivé du modèle du domaine. Ainsi, chaque
concept du modèle du domaine est associé au modèle épistémique de l’utilisateur
• un modèle comportemental:
Alors que le modèle épistémique est toujours présent dans les systèmes, le modèle
comportemental est le plus souvent très limité voire absent. Or le système adaptatif se veut
très proche de l’utilisateur, ce qui signifie qu’il doit prendre en compte aussi bien ses
préférences, ses objectifs, que ses capacités naturelles

cours technique d'indexation et recherche multimedia - Dorra 146


146
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia

Schéma fonctionnel d'un système hypermédia adaptatifs

cours technique d'indexation et recherche multimedia - Dorra 147


147
Bensalem
MERCI
Pour votre attention

148

Vous aimerez peut-être aussi