Cours Technique D'indexation Et Recherche Multimedia

TECHNIQUE D’INDEXATION
ET RECHERCHE
MULTIMÉDIA
Dorra Bensalem
PLAN DU
COURS
cours technique d'indexation et recherche multimedia - Dorra 2

Bensalem
PLAN DU COURS
1 Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche d’informations
5. Problématique du multimédia
2 Evaluation des performances qualitatives des systèmes
1. Notions de rappel et de précision
2. Méthodes pratiques d’évaluation
3. Comparaison de système
3 Approches classiques en recherche d’informations
1. Les approches par interrogation : modèle Booléen et modèle Vectoriel
2. Application aux moteurs de recherche du web
3. Les approches par navigation : les modèles hypermédia
cours technique d'indexation et recherche multimedia - Dorra

33
Bensalem
INTRODUCTION :
PRÉSENTATION
DU DOMAINE
1. Problématique de la
recherche d’information

Bensalem
QU’EST CE QUE LA RI ?
Recherche d’information (RI) :
–Ensemble des méthodes et techniques pour

l’acquisition, l’organisation, le stockage, la
recherche et la sélection d’information
pertinente pour un utilisateur

Bensalem
Exemple de moteur de
recherche

Bensalem
EXEMPLES DE SYSTÈMES DE RI
.. Mais pas seulement
Plusieurs domaines d’application
• Internet (Web, Forum/Blog search, news)
• Entreprises (entreprise search)
• Bibliothèques numériques «digital library»
• Domaine spécialisé (médecine, droit, littérature, chimie,

mathématique, brevets, software, ...)
• Nos propres PC (Yahoo! Desktop search)
7
PERSONNALISER CE MODÈLE
cours technique d'indexation et recherche multimedia - Dorra

88
Bensalem
INFORMATION EST PARTOUT
Le problème ...
n’est pas tant la disponibilité de l’information
•MAIS
•sa sélection, son identification à => arriver à

trouver au bon moment l’information utile

Bensalem
INFORMATION EST PARTOUT … PROBLÈME …
Rechercher une information a un coût

 «On» passe (en moyenne) 35% de son temps à rechercher des informations
 Les managers y consacrent 17% de leur temps
 Les 1000 grandes entreprises (US) perdent jusqu’à $2.5 milliards par an en raison
de leur incapacité à récupérer les bonnes informations
Nécessité de développer des systèmes automatisés efficaces permettant
 Collecter, Organiser, Rechercher, Sélectionner (fonctions de système RI)

10
Bensalem
CONTOURS DE LA RI
DONNÉE-INFO-CONNAISSANCE

11
Bensalem
PROBLÉMATIQUE DE LA RI
Sélectionner dans une collection

–les informations (items, documents, ..)
–... pertinentes répondant aux
– ... besoins en information des utilisateurs

12
Bensalem
CONCEPTS DE BASE DE LA RI
Information
Formes
–Texte, images, sons, vidéo, graphiques, etc. –Exemples

texte : web pages, email, livres, journaux, publications,
blog, Word™, Powerpoint™, PDF, forum postings,
brevets, etc.
Hétérogénéité
–langage (multilingues)
–media (multimédi : image ,video , son , text)

Bensalem
CONCEPTS DE BASE DE LA RI
Besoin en information
•Besoin en information est une expression

mentale d’un utilisateur
•Requête –Ensemble de mots-clés
–>Une représentation possible du besoin en

information

Bensalem
PLAN DU COURS

15
Bensalem
FONCTIONNEMENT DU SYSTÈME DE RECHERCHE
D'INFORMATION
Pour répondre à une requête utilisateur, un SRI met en œuvre un certain nombre de processus
pour réaliser la mise en correspondance entre le contenu des documents web d’une part,
et celui de la requête utilisateur d’une autre part.
Il est défini par ses modèles de représentation des documents et des requêtes utilisateur,
et sa fonction de recherche pour la mise en correspondance entre les deux univers de représentations.
Ce processus est composé de deux fonctions principales :
 Modèle de représentation
 Modèle de recherche ou correspondance requête-document

16
Bensalem
Modèle de
Le prétraitement des
représentation
documents L’interprétation des
requêtes des utilisateurs
• extraire à partir des documents une
représentation qui couvre au mieux
• cette opération a pour rôle de
leur contenu
représenter le besoin en information
• Cette opération est connue aussi des utilisateurs.
sous le nom de l'interprétation ou
• il s’agit d’extraire les descripteurs les
l’analyse du contenu
plus représentatifs du contenu de la
• Elle consiste à l'extraction d'un requête en se basant sur une
ensemble de descripteurs les plus analyse qui peut couvrir une ou
représentatifs du contenu, ces plusieurs dimensions (syntaxique,
descripteurs sont appelés aussi par lexicale, sémantique, etc.).
les entrées de l’index ou les termes
d’indexation, utilisés pour
l’indexation
cours de ces documents
technique d'indexation et recherche multimedia - Dorra 17
Bensalem
MODÈLE DE RECHERCHE OU CORRESPONDANCE REQUÊTE-
DOCUMENT

18
Bensalem
MODÈLE DE RECHERCHE OU CORRESPONDANCE REQUÊTE-
DOCUMENT
• le SRI effectue un appariement entre ces deux univers de représentation, en vue d'évaluer la
pertinence des documents vis-à-vis de la requête. Le système décidera si un document est
pertinent, et le sélectionnera pour le présenter à l’utilisateur, c'est ce que a été défini par la
pertinence du système. Cet appariement peut-être exact tel est le cas avec les modèles booléens
dans lequel les documents résultants ont tous la même pertinence et ne sont donc pas triés
• Il peut être aussi approximatif dans lequel les documents résultants peuvent être ordonnés selon
le degré de pertinence vis-à-vis la requête
• À ce propos, on trouve les techniques de réinjection de pertinence, qui consistent à reformuler ou
à enrichir les requêtes utilisateurs avec d'autres informations additionnelles en se basant sur le
retour des utilisateurs, ce qui rend le processus itératif et aide à améliorer la pertinence des
résultats
• La recherche est considérée comme adaptative. Dans le but d’augmenter la performance de la
recherche, le système devra réagir assez rapidement à son utilisateur

19
Bensalem
PLAN DU COURS

20
Bensalem
INDEXATION ET INTERROGATION
L'indexation
• Choix des termes – Généralités
– Une propriété souhaitée d’un bon terme d’indexation est sa capacité
à distinguer les documents d’une collection les uns des autres
– Comment faire?

21
Bensalem
L'indexation
• Choix des termes – Occurrences
– Objectif : trouver les mots qui représentent le mieux le contenu d'un document.
– Hypothèse : un mot qui apparaît souvent dans un texte représente un concept
important.
– Première approche :
• Choisir les mots représentants selon leur fréquence d'occurrence dans le corpus.
• Définir un seuil SMIN sur la fréquence (si la fréquence d'occurrence d'un mot dépasse
ce seuil, alors il est considéré important pour les document qui le contiennent)

22
Bensalem
L'indexation
• Choix des termes – Occurrences (2)
– Cependant, quand on fait la statistique d'occurrence, on s'aperçoit que les mots les
plus fréquents sont des mots fonctionnels (ou mots outils, mots vides). En français,
les mots "de", "un", "les", etc. sont les plus fréquents.
En anglais, ce sont "of", "the", etc.
– Ce phénomène est connu sous le nom de loi de Zipf.

23
Bensalem
L'indexation
Choix des termes – Occurrences (3)
• La loi de Zipf
• Si on classe les mots dans l'ordre décroissant de leur fréquence, et on leur donne un numéro de
rang (1, 2, …), alors: Rang * fréquence ≈ constante.
• La distribution de mots suit la courbe :

• L'idée peut être alors de garder les termes "utiles" : ni trop rares (place en mémoire), ni trop
présents (pas discriminants)… choix difficile

24
Bensalem
L'indexation
Réduction de la taille du vocabulaire :
• N'indexer que les mots qui ont du sens (suppression des mots outils)
• N'indexer que les racines des mots
– Algorithme de Porter :
• Règles (exemples)
• MENT à /
• ER à /
• ITEà /
•Sà/
•Eà/

25
Bensalem
L'indexation
Fichiers inverses - principe
• Après analyse de documents d’un corpus, on obtient un tableau document x termes,
Génération d’un tableau inverse « terme => document » (appelé fichier inverse)
• Habituellement un tel tableau est créé en au moins 2 passes : la première permet de

déterminer tous les termes, et la seconde construit le tableau

26
Bensalem
L'indexation
• Fichier inverse avec le modèle booléen,
– Un 1 indique que le terme apparaît positivement dans un document, un zéro indique

que le terme n'apparaît pas dans le document

27
Bensalem
L'indexation
En fait, les fichiers inverses ne stockent pas toutes les valeurs, car il y a beaucoup de
valeurs nulles (> 90% des cases du tableau) :
– on utilise des représentations de tableaux creux (tableau avec tailles de lignes différents,
listes chaînées)

28
Bensalem
Interrogation
L’algorithme employé est une fusion (« merge ») de liste triées.
C’est une technique très efficace qui consiste à parcourir en parallèle et séquentiellement
des listes, en une seule fois.
Le parcours unique est permis par le tri des listes sur un même critère (l’identifiant du
document).

29
Bensalem
Interrogation

30
Bensalem
Interrogation
C’est l’algorithme de base de la recherche d’information. Dans la
version présentée ici, on satisfait des requêtes dites booléennes:
l’appartenance d’un document au résultat est binaire, et il n’y a aucun
classement par pertinence.
À partir de cette technique élémentaire, on peut commencer à raffiner,
pour aboutir aux techniques sophistiquées visant à capturer au mieux
le besoin de l’utilisateur, à trouver les documents qui satisfont ce
besoin et à les classer par pertinence. Pour en arriver là, tout un
ensemble d’étapes que nous avons ignorées dans la présentation
abrégée qui précède sont nécessaires

31
Bensalem
PLAN DU COURS

32
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE RECHERCHE
D’INFORMATIONS
NOTIONS DE PERTINENCE

33
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE RECHERCHE
D’INFORMATIONS
NOTIONS DE PERTINENCE

34
Bensalem
NOTIONS DE PERTINENCE ET DE MODÈLE DE
RECHERCHE D’INFORMATIONS

35
Bensalem
MODÈLE DE RECHERCHE D’INFORMATIONS

36
Bensalem
MODÈLE DE RECHERCHE D’INFORMATIONS

37
Bensalem
 Les documents sont considérés comme un ensemble de termes

 Exemple Document 1 :
Big cats are nice and funny
 La représentation de D1 après normalisation (enlever les mots vides)
D1={big, cat, nice, funny}

38
Bensalem

39
Bensalem

40
Bensalem

41
Bensalem

42
Bensalem

43
Bensalem
Le modèle booléen Vectoriel
Le modèle vectoriel est un modèle algébrique où l’on représente les
documents et les requêtes par des vecteurs dans un espace
multidimensionnel dont les dimensions sont les termes issus de
l’indexation
la création de l’index implique le parcours de la collection, la
recherche des termes pertinents, le traitement lexical des termes
retenus et enfin l’analyse statistique de la distribution de ces termes
dans les documents et dans la collection pour leur attribuer un poids

44
Bensalem

45
Bensalem

46
Bensalem
Le modèle probabiliste
Plusieurs approches ont tenté de définir la pondération de façon plus formelle
s’appuyant souvent sur la théorie des probabilités.
 La notion de probabilité d’apparition d’un évènement, par exemple la
probabilité de pertinence P(R) est formalisée au travers du concept
d’expérimentation qui est le procédé par lequel l’observation est faite.
L’ensemble des valeurs que peut prendre un fait constitue l’espace de départ.
Pour P(R) l’espace de départ est ,pertinent, non-pertinent}.
Le modèle probabiliste considère que les termes d’indexation sont
indépendants c'est-à-dire que leur probabilité d’apparition est la même avec ou
sans la présence des autres termes.
Sous cette hypothèse, on cherche à estimer la probabilité qu’un document soit
pertinent par rapport à une requête.

47
Bensalem
PLAN DU COURS

48
Bensalem
PROBLÉMATIQUE DU MULTIMÉDIA
Les SRI de la nouvelle génération traitent non

seulement des documents plein texte, mais aussi
multimédias. Par document multimédia, nous
entendons un document comportant plusieurs
médias: texte, son, images fixes ou images animées
Chaque média a ses propres caractéristiques qui ont
des conséquences sur leur traitement par un SRI
Le traitement des documents images par les SRI s'est
d'abord beaucoup inspiré des proches adoptées pour
les textes.
C'est pourquoi nous présentons d'abord rapidement
les caractéristiques du média «texte», pour mieux
mettre en relief celles des autres médias.

49
Bensalem
Les techniques présentées ci-après, dite d'indexation, se proposent

d'attacher a une image ou a une vidéo un ensemble de descripteurs de
leur contenu, dans le but de mesurer la ressemblance avec les
descripteurs correspondant a la requête.

50
Bensalem

51
Bensalem
Indexer = extraire une information synthétique des images

(documents multimédia) an de faciliter l'accès a leur contenu
 information = élément susceptible d‘être code pour être conserve, traite,
communique
 index = clé d'acces a l'information contenue dans l'image
Pourquoi indexer ?
 indexer pour retrouver, trier : conservation d'un patrimoine (culturel,
scientifique,. . . )
 indexer pour connaître : valorisation en facilitant l'accès et l'exploration
 indexer pour naviguer : exploitation commerciale (photos numériques, TV
numérique, . . . )

52
Bensalem
Une base de données multimédia est un type de base de données

consacre au stockage, à l'organisation et à l'interrogation de données multimédia
Ces données peuvent être de différents types, en particulier : Texte, Son, Image et
Vidéo
Qui peuvent être combines (exemple : Film)

53
Bensalem
Pourquoi les bases de donnees mutlimedia ?

Quelques chiffres
Croissance très importante, en raison de l'accumulation des contenus
numériques (image, vidéo, ...) autoproduits par le grand public, par
exemple :
• Facebook : plus de 100 millions d'images/jour
• Youtube : plus 24h de video/minute
• Films : http://www.imdb.org recense plus de 400 000 films
Internet : necessite Plus 5-10 To de capacité de stockage
• Sept 2011 : 1 milliards de recherches/jour
Fonds de document télévisuel de la SNRT (société nationale de Radiodiffusion et de
télévision)
• Pour une seule chaîne TV : plus 8000h de vidéo /an
• Pour plus 20 ans d‘émission (plusieurs chaînes) : 1 million d'heures
(vidéos, images, ...)

54
Bensalem

55
Bensalem

56
Bensalem

57
Bensalem

58
Bensalem

59
Bensalem
PLAN DU COURS

60
Bensalem
EVALUATION DES PERFORMANCES QUALITATIVES
DES SYSTÈMES

61
Bensalem
DES SYSTÈMES

62
Bensalem
DES SYSTÈMES

63
Bensalem
DES SYSTÈMES

64
Bensalem
DES SYSTÈMES

65
Bensalem
DES SYSTÈMES

66
Bensalem
DES SYSTÈMES

67
Bensalem
DES SYSTÈMES

68
Bensalem
DES SYSTÈMES

69
Bensalem
DES SYSTÈMES

70
Bensalem
DES SYSTÈMES

71
Bensalem
DES SYSTÈMES

72
Bensalem
DES SYSTÈMES

73
Bensalem
DES SYSTÈMES

74
Bensalem
DES SYSTÈMES
R = 1/5=0,2 ; P= 1/1 =1
R = 2/5=0,4 ; P= 2/2 =1
R = 3/5=0,6 ; P= 3/4 =0,75
R = 4/5=0,8 ; P= 4/6 =0,667
R = 5/5=1 ; P= 5/13 =0,38

75
Bensalem
DES SYSTÈMES

76
Bensalem
DES SYSTÈMES

77
Bensalem
DES SYSTÈMES

78
Bensalem
DES SYSTÈMES

79
Bensalem
DES SYSTÈMES

80
Bensalem
DES SYSTÈMES

81
Bensalem
DES SYSTÈMES

82
Bensalem
DES SYSTÈMES

83
Bensalem
DES SYSTÈMES

84
Bensalem
DES SYSTÈMES

85
Bensalem
DES SYSTÈMES

86
Bensalem
PLAN DU COURS

87
Bensalem
DES SYSTÈMES

88
Bensalem
DES SYSTÈMES

89
Bensalem
DES SYSTÈMES

90
Bensalem
DES SYSTÈMES

91
Bensalem
DES SYSTÈMES

92
Bensalem
PLAN DU COURS

93
Bensalem
DES SYSTÈMES

94
Bensalem
DES SYSTÈMES

95
Bensalem
PLAN DU COURS

96
Bensalem
APPROCHES CLASSIQUES EN RECHERCHE
D’INFORMATIONS
Les approches par interrogation :
modèle Booléen et modèle Vectoriel

97
Bensalem
D’INFORMATIONS

98
Bensalem
D’INFORMATIONS

99
Bensalem
D’INFORMATIONS

100
Bensalem
D’INFORMATIONS

101
Bensalem
D’INFORMATIONS

102
Bensalem
D’INFORMATIONS

103
Bensalem
D’INFORMATIONS

104
Bensalem
D’INFORMATIONS

105
Bensalem
D’INFORMATIONS

106
Bensalem
D’INFORMATIONS

107
Bensalem
D’INFORMATIONS

108
Bensalem
D’INFORMATIONS

109
Bensalem
D’INFORMATIONS

110
Bensalem
PLAN DU COURS

111
Bensalem
D’INFORMATIONS
Application aux moteurs de
recherche du web

112
Bensalem
D’INFORMATIONS
recherche du web
Qu’est-ce qu’un moteur de recherche ?
Les moteurs de recherche (search engine) sont des applications web créées
pour effectuer des recherches sur la toile. Les résultats apparaissent selon les
expressions demandées par les internautes. Aujourd’hui, Google reste le plus
connu de tous. Mais il existe de nombreux moteurs de recherche efficaces
comme DuckDuckGo, Bing, Qwant, Yahoo… Vous trouverez également des
moteurs de recherche spécialisés comme : Google Scholar pour l’éducation,
Yahoo kids pour les enfants, Ecosia pour l’environnement…

113
Bensalem
D’INFORMATIONS
recherche du web
Que peut-on trouver à l’aide des moteurs de recherche ?
On peut utiliser les moteurs de recherche pour effectuer des recherches dans un domaine précis.
Par exemple, Google permet de trouver des données web informatives, des images, des e-
commerces, des documents ou des vidéos.
La fonction MAP joue le rôle de carte du monde et utilise des images satellites pour localiser avec
précision un lieu. Les autres alternatives à Google comme Bing, DuckduckGo,Yahoo ou Qwant sont
aussi des moteurs de recherche puissants. Chaque outil avance un argument pour se démarquer.
Par exemple, Qwant est un moteur de recherche qui respecte la vie privée. Il ne cherche pas à
savoir qui vous êtes et où vous êtes pour vous proposer ses résultats.

114
Bensalem
D’INFORMATIONS
recherche du web
Comment accéder à un moteur de recherche ?
Les moteurs de recherche sont accessibles via un navigateur. La plupart du temps, ces
derniers utilisent un omnibox afin de permettre à l’utilisateur d’effectuer une
recherche. L’omnibox est le nouveau nom attribué à l’ancienne barre d’adresse des
navigateurs.

115
Bensalem
D’INFORMATIONS
recherche du web
Comment réussir avec les moteurs de recherche ?

C’est la question que tout agence de référencement naturelle se pose.
Être positionné sur les premiers résultats des SERP a un véritable enjeu
financier. Le référencement naturel est une discipline stratégique et
technique. Il existe cependant quelques optimisations simples à
appliquer pour être apprécié des moteurs de recherche.

116
Bensalem
D’INFORMATIONS
recherche du web
Vous pouvez par exemple :
• Éviter l’«occultation ». Aussi connu sous l’expression anglaise « cloaking », ce terme désigne le fait de
présenter deux pages différentes au Google Bot et aux visiteurs humains pour obtenir un meilleur
classement. Le serveur web est programmé de manière à présenter une page web différente suivant
l’initiateur de la requête (robot Google ou humain).
• Faire un site avec une hiérarchie claire et donner un plan de votre site (SiteMap).
• Créer un maillage interne pertinent.
• Créer un site utile et riche en informations. Ainsi, votre contenu doit être structuré à l’aide de H1, H2,
H3. Vos balises et votre texte doivent contenir le mot clé sur lequel vous souhaitez apparaître dans les
SERP.
• Ne pas négliger les attributs ALT et méta descriptions. Ces éléments doivent être précis et contenir votre
mot clé.
• Créer des backlinks qualitatifs pour donner de la puissance à votre site.

117
Bensalem
D’INFORMATIONS
recherche du web

118
Bensalem
D’INFORMATIONS
recherche du web
Fonctionnement des moteurs de recherche
Crawling et indexing
Les moteurs de recherche (search engine) servent à une seule chose :
fournir des réponses aux questions des utilisateurs. Pour fournir des
résultats de recherches pertinents, ces outils passent par deux étapes :
• le crawling : la recherche de pages sur internet
• l’indexation : le classement des résultats par ordre de pertinence

119
Bensalem
D’INFORMATIONS
recherche du web
Crawling (interrogation)
Le crawling est la première fonction des moteurs de recherche. C’est une sorte d’inspection
systématique des sites web sur Internet. Effectuée avant la requête de l’utilisateur, cette étape
consiste à rassembler le maximum d’informations auprès des plateformes web. Il est accompli
par des robots appelés « spiders ou crawlers ». À l’issu de cette étape, ces derniers envoient
les informations collectées à l’index pour accomplir ce qu’on appelle indexation.

120
Bensalem
D’INFORMATIONS
recherche du web
Indexing (indexation)
Lorsque l’index (le cerveau des moteurs) reçoit les informations en provenance des
robots, il les évalue. Ainsi, à chaque fois qu’un utilisateur fait une recherche, il peut
leur fournir des résultats pertinents.

121
Bensalem
D’INFORMATIONS
recherche du web
Comment les moteurs de recherche déterminent-ils la pertinence d’un résultat ?
L’évaluation de la pertinence ne se résume pas à mesurer la correspondance entre la requête et la

plateforme web. Il y a d’autres facteurs à prendre en considération. Les moteurs de recherche
supposent que plus un site est populaire, plus l’information qu’il contient est pertinente. Ce postulat
permet aux moteurs de garantir la satisfaction des utilisateurs à l’égard des résultats de recherche.

122
Bensalem
D’INFORMATIONS
recherche du web
Mythes et réalité autour des moteurs de recherche
Soumission aux moteurs de recherche

Dans les années 90, les moteurs de recherche utilisaient des formulaires de soumission. Les
webmasters soumettaient leurs sites et leurs mots-clés. Il s’agissait alors de signaler le site
pour que les moteurs de recherche le parcourent et l’indexe. Ce système a vite été revu et
abandonné. Aujourd’hui, les robots viennent par eux mêmes parcourir les sites et les
indexer sur des expressions clés.

123
Bensalem
D’INFORMATIONS
recherche du web
Classement par meta tag
Les balises meta (notamment la balise meta keywords) étaient cruciales pour le référencement.
Ce critère de référencement a été abandonnée par tous les principaux moteurs. Aujourd’hui les
meta tags n’ont plus d’incidence sur le référencement.

124
Bensalem
D’INFORMATIONS
recherche du web
Le référencement payant (SEA) propulse les pages en haut des SERP

Certaines théories affirment que les sites qui paient pour les publicités sur les moteurs de
recherche (SEA) sont naturellement mieux classés. C’est une supposition sans fondement.
Google, Qwant (outil français) et Yahoo ont même instauré des garde-fous afin de prévenir
ce genre de propos. Chez Google, les annonceurs qui dépensent des millions de dollars par
mois en publicité ont remarqué qu’ils ne reçoivent aucun traitement de faveur de la part du
moteur de recherche.
Si tels sont les mythes sur les moteurs de recherche, quelles sont les réalités ?

125
Bensalem
D’INFORMATIONS
recherche du web
La réalité
Le crawl budget
Le web contient des billions de données. Pour faciliter le travail des robots, les moteurs de
recherche ont instauré un système de limitation dans leur crawl. Le budget crawl est le temps
accordé par les robots à votre site. Les moteurs de recherche (search engine) doivent trouver vos
pages le plus rapidement possible. Vous comprenez donc qu’il y a ici un enjeu important. Il faut
faciliter le travail des robots pour qu’ils puissent crawler et indexer au maximum tout votre site.
S’ils ne peuvent pas le faire, une partie de votre site ne sera pas visible aux yeux des moteurs de
recherche et des internautes.

126
Bensalem
D’INFORMATIONS
recherche du web
Afin de faciliter le travail des robots, vous pouvez déjà appliquer quelques bonnes pratiques :
• Eviter les liens cassés. Les liens brisés ne sont pas appréciés des robots. Ils peuvent être
amenés à arrêter leur crawl.
• Eviter les contenus de qualité moindre. Par exemples, des pages d’erreurs, du contenu
dupliqué, des navigations à facette…
• Limiter les redirections 301/302
• Optimiser le temps de chargement de votre page. Un temps de chargement long n’est pas
bon pour votre référencement, mais également pour l’internaute. Ce dernier aura tendance
à aller sur un autre site pour trouver la réponse à sa requête si votre site met trop de temps à
se charger. Vous perdez ainsi des prospects.
• Mettre à jour votre SiteMap. Il guidera plus facilement les robots pour indexer vos pages

127
Bensalem
D’INFORMATIONS
recherche du web
Un crawl régulier de votre site
Vous venez de créer votre site et vous constatez son indexation sur les moteurs de
recherche. Vous vous dites que le travail est terminé ? Sachez que les robots passent de
manière régulière sur votre site. Un site qui est souvent mis à jour verra les robots passer
plus souvent qu’un site statique. Chaque jour, les moteurs de recherche effectuent une
analyse de mots-clés des pages pour les indexer.

128
Bensalem
D’INFORMATIONS
recherche du web
La détection de Cloaking
On appelle cloaking le fait de montrer des contenus différents aux moteurs de recherche et aux
visiteurs. Le serveur reconnait si c’est un internaute ou un robot qui a lancé la requête. Selon ce
critère, il va présenter des contenus différents. Par exemple, pour un robot, il peut présenter une page
plus optimisée mais qui ne sera pas agréable à lire pour un internaute. Cette technique est
sanctionnée par Google.

129
Bensalem
D’INFORMATIONS
recherche du web
La filtration des contenus de faible valeur
Les moteurs emploient tous des robots pour déterminer la valeur ajoutée
d’un contenu pour les lecteurs. Les contenus les plus souvent filtrées sont:
• les contenus d’affiliation,
• les contenus dupliqués
• les pages générées ayant très peu de texte.

130
Bensalem
D’INFORMATIONS
recherche du web
Les moteurs évaluent la valeur d’un domaine sur son originalité et sur l’expérience visiteur
qu’ils offrent. Ainsi, les sites qui publient des contenus de mauvaise qualité auront du mal
à se positionner en haut du classement, même très bien référencés. Par exemple, si vous
avez un taux de rebond élevé à partir de la SERP, vous serez déclassé par les moteurs de
recherche. Il signifie que les internautes ne trouvent pas de réponse à leur requête et que
le contenu n’est pas pertinent.

131
Bensalem
D’INFORMATIONS
recherche du web
Par ailleurs, le lancement de Google Panda en 2011 montre la volonté du moteur de recherche
de valoriser les contenus qualitatifs. Cet algorithme a été mis en place après une vague
importante de spams et de sites de basse qualité. Comment s’applique la sanction ? Panda
pénalise les contenus de mauvaise qualité et parfois tout le site. Les pages concernées sont alors
désindexées.

132
Bensalem
D’INFORMATIONS
recherche du web
Le référencement selon la confiance que génère votre site
Divers éléments servent à évaluer votre site afin de le positionner dans les SERP. Un des critères
importants pour le search engine est les backlinks. Pour mesurer la fiabilité de votre site, Google va
prendre en considération le nombre de liens qui pointent vers lui. Pour faire simple, le search engine va
considérer votre site comme pertinent car de nombreux sites renvoient à lui.
le moteur de recherche ne mesure pas uniquement la quantité de backlinks. La qualité de ces liens est
un critère primordial. En effet, plus vos liens viendront de sites d’autorité, plus vous serez apprécié des
moteurs de recherche. En revanche, si vous avez des liens « spammant » et de mauvaise qualité, l’outil
de recherche verra cela comme une fraude et appliquera une pénalité. L’algorithme Penguin a été créé
pour nettoyer les indexes Google des sites de mauvaise qualité qui détournent le SEO par des
techniques de linking frauduleuses.

133
Bensalem
D’INFORMATIONS
recherche du web
L’actualité sur les moteurs de recherche
Qui détient la plus grande part du marché mondial des moteurs de recherche ?
Le classement mondial de 2017 a placé Google en première position avec une part nette de
74,54 %. Il est suivi par les moteurs de recherche Yahoo, Baidu, Bing ou Qwant (outil de
recherche français) dont la part de marché avoisinent les 7 à 10 %. Il est intéressant de noter
que même si Google détient la plus grande part, elle a lentement diminué à partir du
2e trimestre de 2017, tandis que la part de Baidu a atteint 14,69 %.

134
Bensalem
D’INFORMATIONS
recherche du web
Combien de recherches sont effectuées chaque jour sur les moteurs
de recherche ?
En 2017, 46,8 % de la population mondiale a eu accès à Internet. D’ici 2021, ce chiffre devrait
atteindre 53,7 %. Selon les statistiques, Google reçoit 3,5 milliards de requêtes par jour soit 1,2
billion par an. Google évolue rapidement. Si en 1999, il a fallu un mois à Google pour crawler et
indexer 50 millions de pages, en 2012, cette tâche a été accomplie en moins d’une minute !

135
Bensalem
D’INFORMATIONS
recherche du web
Les moteurs de recherche sont donc des applications puissantes et complexes. Chaque jour, des
millions de requêtes sont demandées par les internautes. Bien plus qu’un enjeu informationnel, les
moteurs de recherche ont aussi un enjeu marketing et financier. Pour faire face à la concurrence et
générer du chiffre via le web, être bien positionné sur les SERP est primordial. Mais connaître les
utilisations de sa cible l’est encore plus. En 2009, seulement 0,7 % du trafic web dans le monde
entier a été généré par les téléphones portables. En 2017, le mobile représente 50,3 % du trafic
web mondial. Dans 10 pays, dont les États-Unis et le Japon, les recherches sur mobiles ont
largement dépassées celles effectuées sur ordinateur.

136
Bensalem
PLAN DU COURS

137
Bensalem
D’INFORMATIONS
Les approches par navigation :
les modèles hypermédia
les ressources du Web sont représentées de différentes façons suivant leur

nature. Le Web étant un espace dynamique, les données qu'il renferme
sont amenées à évoluer. Dans cette section,
• Nous étudions les techniques existantes pour la gestion de l'évolution
des données du Web.
• Nous présentons les hypermédia adaptatifs

138
Bensalem
D’INFORMATIONS
Un hypermédia: extension du terme multimédia, réseau de nœuds

d’informations interconnectés. Chaque nœud est un média (texte,
vidéo, son ou composition des trois).
Les termes hypertexte et hypermédia peuvent être définis suivant trois
points de vue . On peut en effet les définir du point de vue de la
structure et du point de vue de l'interaction entre l'utilisateur et le
système et enfin du point de vue sémantique.

139
Bensalem
D’INFORMATIONS
Définition structurelle :
Un hypertexte définit comme étant un système composé de nœuds et de liens. Les
nœuds peuvent être composés d'informations textuelles, on parle alors d'hypertexte, ou
d'informations multimédias, tels que des images, des graphiques, des animations, des
vidéos ou bien des programmes informatiques, on parle alors d'hypermédia.
Les nœuds sont reliés les uns aux autres par des liens. Les liens peuvent être plus ou
moins complexes : ils peuvent être unidirectionnels permettant d'aller d'une page à une
autre, ou bidirectionnels, afin de faciliter le retour au point de départ. Ils peuvent être
aussi typés afin de spécifier la sémantique de lien. Enfin les liens peuvent être disposés
n'importe où dans une page.

140
Bensalem
D’INFORMATIONS
Définition fonctionnelle :
L'hypertexte peut être considéré comme étant un procédé informatique permettant
d'associer une entité souvent minimale : un mot, une image ou une icône à une autre
entité souvent plus étendue comme un paragraphe, une image ou une page.
Ce mécanisme permet donc à l'utilisateur de se diriger librement dans l'hypertexte.
En activant, à l'aide d'un pointeur une zone de document qui est l'origine d'une
association. Il n'est donc plus obligé de suivre le cheminement prévu par l'auteur, il
définit son parcours en fonction de ses envies et de ses centres d'intérêt.

141
Bensalem
D’INFORMATIONS
Définition sémantique :
le mot hypertexte signifié « plus que texte » le mot « plus » ne signifié pas plusieurs
textes interconnectés, mais une entité qui est composée de deux entités :
- un ensemble de documents
- une connaissance.
La représentation la plus pauvre de cette deuxième entité est le lien inscrit à l’intérieur
même de la première entité qui relie deux documents.
La forme la plus élaborée de cette connaissance peut être générée par un système
complexe se basant sur une modélisation du domaine et sur une modélisation de
l’utilisateur

142
Bensalem
D’INFORMATIONS
Systèmes hypermédias adaptatifs

L’objectif de ces systèmes est d’adapter la présentation de la connaissance et d’aider
l’utilisateur à se diriger dans l’hyperespace. Dans un hypermédia nous devons pouvoir modifier
aussi bien le contenu des pages que les liens entre les différentes pages .
Mais c’est surtout sur l’adaptation des liens que le plus grand nombre de techniques à été
développés (le guidage direct, l’ordonnancement ou tri des liens, le masquage des liens,
l’annotation des liens, les cartes adaptatives)

143
Bensalem
D’INFORMATIONS
L’architecture des hypermédias adaptatifs
L’architecture des hypermédias adaptatifs, comme pour beaucoup de systèmes assistés par
ordinateur, s’appuie principalement sur deux modèles :
- Le modèle de domaine ;
- - Le modèle de l’utilisateur.
Les différents types d’hypermédias adaptatifs se caractérisent par la relation qu’ils
entretiennent entre le modèle du domaine et les médias utilisés pour présenter les concepts à
l’utilisateur. Les systèmes ont successivement emplois différents techniques. Dont la technique
la plus évoluée calque la structure de l’hyperespace sur la structure du modèle du domaine.
Ainsi chaque concept est relié à une ou plusieurs pages physiques et ces relations sont
représentés par des liens hypertextes.

144
Bensalem
D’INFORMATIONS
Modèle de domaine
Le modèle de domaine est la composante d’un système qui permet à l’ordinateur de
connaître ce qui va être présenté à l’utilisateur. Ce modèle est dès lors définit par des
experts d’un domaine précis . Par exemple dans l’enseignement, les enseignants jouent le
rôle des experts qui sélectionnent et annotent les documents du domaine (les cours), et
les apprenants sont considérés comme des utilisateurs qui consultent ces cours.

145
Bensalem
D’INFORMATIONS
Modèle de l’utilisateur
le modèle de l’utilisateur est composé de deux sous modèles :
• un modèle épistémique :
Le modèle épistémique est la composante qui permet au système de connaître ce que
l’utilisateur est supposé savoir ou ne pas savoir. Sachant que cette connaissance est en
rapport avec la connaissance représentée dans le modèle du domaine, le modèle
épistémique peut être considéré comme un dérivé du modèle du domaine. Ainsi, chaque
concept du modèle du domaine est associé au modèle épistémique de l’utilisateur
• un modèle comportemental:
Alors que le modèle épistémique est toujours présent dans les systèmes, le modèle
comportemental est le plus souvent très limité voire absent. Or le système adaptatif se veut
très proche de l’utilisateur, ce qui signifie qu’il doit prendre en compte aussi bien ses
préférences, ses objectifs, que ses capacités naturelles

146
Bensalem
D’INFORMATIONS
Schéma fonctionnel d'un système hypermédia adaptatifs

147
Bensalem
MERCI
Pour votre attention
148

Cours Technique D'indexation Et Recherche Multimedia

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Technique D'indexation Et Recherche Multimedia

Transféré par

Droits d'auteur :

Formats disponibles

TECHNIQUE D’INDEXATION

cours technique d'indexation et recherche multimedia - Dorra 2

cours technique d'indexation et recherche multimedia - Dorra

cours technique d'indexation et recherche multimedia - Dorra 4

Recherche d’information (RI) :

–Ensemble des méthodes et techniques pour

cours technique d'indexation et recherche multimedia - Dorra 5

cours technique d'indexation et recherche multimedia - Dorra 6

Plusieurs domaines d’application

• Internet (Web, Forum/Blog search, news)

• Entreprises (entreprise search)

• Bibliothèques numériques «digital library»

• Domaine spécialisé (médecine, droit, littérature, chimie,

• Nos propres PC (Yahoo! Desktop search)

cours technique d'indexation et recherche multimedia - Dorra

n’est pas tant la disponibilité de l’information

•sa sélection, son identification à => arriver à

cours technique d'indexation et recherche multimedia - Dorra 9

Rechercher une information a un coût

cours technique d'indexation et recherche multimedia - Dorra 10

cours technique d'indexation et recherche multimedia - Dorra 11

Sélectionner dans une collection

cours technique d'indexation et recherche multimedia - Dorra 12

–Texte, images, sons, vidéo, graphiques, etc. –Exemples

–media (multimédi : image ,video , son , text)

cours technique d'indexation et recherche multimedia - Dorra 13

•Besoin en information est une expression

•Requête –Ensemble de mots-clés

–>Une représentation possible du besoin en

cours technique d'indexation et recherche multimedia - Dorra 14

cours technique d'indexation et recherche multimedia - Dorra 15

cours technique d'indexation et recherche multimedia - Dorra 16

cours technique d'indexation et recherche multimedia - Dorra 18

cours technique d'indexation et recherche multimedia - Dorra 19

cours technique d'indexation et recherche multimedia - Dorra 20

cours technique d'indexation et recherche multimedia - Dorra 21

cours technique d'indexation et recherche multimedia - Dorra 22

cours technique d'indexation et recherche multimedia - Dorra 23

• La distribution de mots suit la courbe :

cours technique d'indexation et recherche multimedia - Dorra 24

cours technique d'indexation et recherche multimedia - Dorra 25

• Habituellement un tel tableau est créé en au moins 2 passes : la première permet de

cours technique d'indexation et recherche multimedia - Dorra 26

– Un 1 indique que le terme apparaît positivement dans un document, un zéro indique

cours technique d'indexation et recherche multimedia - Dorra 27

cours technique d'indexation et recherche multimedia - Dorra 28

cours technique d'indexation et recherche multimedia - Dorra 29

cours technique d'indexation et recherche multimedia - Dorra 30

cours technique d'indexation et recherche multimedia - Dorra 31

cours technique d'indexation et recherche multimedia - Dorra 32

cours technique d'indexation et recherche multimedia - Dorra 33

cours technique d'indexation et recherche multimedia - Dorra 34

cours technique d'indexation et recherche multimedia - Dorra 35

cours technique d'indexation et recherche multimedia - Dorra 36

MODÈLE DE RECHERCHE D’INFORMATIONS

cours technique d'indexation et recherche multimedia - Dorra 37

 Les documents sont considérés comme un ensemble de termes

D1={big, cat, nice, funny}

cours technique d'indexation et recherche multimedia - Dorra 38

cours technique d'indexation et recherche multimedia - Dorra 39

cours technique d'indexation et recherche multimedia - Dorra 40

cours technique d'indexation et recherche multimedia - Dorra 41

cours technique d'indexation et recherche multimedia - Dorra 42