Académique Documents
Professionnel Documents
Culture Documents
ET RECHERCHE
MULTIMÉDIA
Dorra Bensalem
PLAN DU
COURS
7
PERSONNALISER CE MODÈLE
•MAIS
Formes
Hétérogénéité
–langage (multilingues)
Pour répondre à une requête utilisateur, un SRI met en œuvre un certain nombre de processus
pour réaliser la mise en correspondance entre le contenu des documents web d’une part,
et celui de la requête utilisateur d’une autre part.
Il est défini par ses modèles de représentation des documents et des requêtes utilisateur,
et sa fonction de recherche pour la mise en correspondance entre les deux univers de représentations.
Ce processus est composé de deux fonctions principales :
Modèle de représentation
Modèle de recherche ou correspondance requête-document
L'indexation
• Choix des termes – Généralités
– Une propriété souhaitée d’un bon terme d’indexation est sa capacité
à distinguer les documents d’une collection les uns des autres
– Comment faire?
L'indexation
• Choix des termes – Occurrences
– Objectif : trouver les mots qui représentent le mieux le contenu d'un document.
– Hypothèse : un mot qui apparaît souvent dans un texte représente un concept
important.
– Première approche :
• Choisir les mots représentants selon leur fréquence d'occurrence dans le corpus.
• Définir un seuil SMIN sur la fréquence (si la fréquence d'occurrence d'un mot dépasse
ce seuil, alors il est considéré important pour les document qui le contiennent)
L'indexation
• Choix des termes – Occurrences (2)
– Cependant, quand on fait la statistique d'occurrence, on s'aperçoit que les mots les
plus fréquents sont des mots fonctionnels (ou mots outils, mots vides). En français,
les mots "de", "un", "les", etc. sont les plus fréquents.
En anglais, ce sont "of", "the", etc.
– Ce phénomène est connu sous le nom de loi de Zipf.
L'indexation
Choix des termes – Occurrences (3)
• La loi de Zipf
• Si on classe les mots dans l'ordre décroissant de leur fréquence, et on leur donne un numéro de
rang (1, 2, …), alors: Rang * fréquence ≈ constante.
L'indexation
Réduction de la taille du vocabulaire :
• N'indexer que les mots qui ont du sens (suppression des mots outils)
• N'indexer que les racines des mots
– Algorithme de Porter :
• Règles (exemples)
• MENT à /
• ER à /
• ITEà /
•Sà/
•Eà/
L'indexation
Fichiers inverses - principe
• Après analyse de documents d’un corpus, on obtient un tableau document x termes,
Génération d’un tableau inverse « terme => document » (appelé fichier inverse)
L'indexation
• Fichier inverse avec le modèle booléen,
L'indexation
En fait, les fichiers inverses ne stockent pas toutes les valeurs, car il y a beaucoup de
valeurs nulles (> 90% des cases du tableau) :
– on utilise des représentations de tableaux creux (tableau avec tailles de lignes différents,
listes chaînées)
Interrogation
L’algorithme employé est une fusion (« merge ») de liste triées.
C’est une technique très efficace qui consiste à parcourir en parallèle et séquentiellement
des listes, en une seule fois.
Le parcours unique est permis par le tri des listes sur un même critère (l’identifiant du
document).
Interrogation
Interrogation
C’est l’algorithme de base de la recherche d’information. Dans la
version présentée ici, on satisfait des requêtes dites booléennes:
l’appartenance d’un document au résultat est binaire, et il n’y a aucun
classement par pertinence.
À partir de cette technique élémentaire, on peut commencer à raffiner,
pour aboutir aux techniques sophistiquées visant à capturer au mieux
le besoin de l’utilisateur, à trouver les documents qui satisfont ce
besoin et à les classer par pertinence. Pour en arriver là, tout un
ensemble d’étapes que nous avons ignorées dans la présentation
abrégée qui précède sont nécessaires
NOTIONS DE PERTINENCE
NOTIONS DE PERTINENCE
R = 1/5=0,2 ; P= 1/1 =1
R = 2/5=0,4 ; P= 2/2 =1
R = 3/5=0,6 ; P= 3/4 =0,75
Les moteurs de recherche sont accessibles via un navigateur. La plupart du temps, ces
derniers utilisent un omnibox afin de permettre à l’utilisateur d’effectuer une
recherche. L’omnibox est le nouveau nom attribué à l’ancienne barre d’adresse des
navigateurs.
Crawling (interrogation)
Le crawling est la première fonction des moteurs de recherche. C’est une sorte d’inspection
systématique des sites web sur Internet. Effectuée avant la requête de l’utilisateur, cette étape
consiste à rassembler le maximum d’informations auprès des plateformes web. Il est accompli
par des robots appelés « spiders ou crawlers ». À l’issu de cette étape, ces derniers envoient
les informations collectées à l’index pour accomplir ce qu’on appelle indexation.
Indexing (indexation)
Lorsque l’index (le cerveau des moteurs) reçoit les informations en provenance des
robots, il les évalue. Ainsi, à chaque fois qu’un utilisateur fait une recherche, il peut
leur fournir des résultats pertinents.
Les balises meta (notamment la balise meta keywords) étaient cruciales pour le référencement.
Ce critère de référencement a été abandonnée par tous les principaux moteurs. Aujourd’hui les
meta tags n’ont plus d’incidence sur le référencement.
La réalité
Le crawl budget
Le web contient des billions de données. Pour faciliter le travail des robots, les moteurs de
recherche ont instauré un système de limitation dans leur crawl. Le budget crawl est le temps
accordé par les robots à votre site. Les moteurs de recherche (search engine) doivent trouver vos
pages le plus rapidement possible. Vous comprenez donc qu’il y a ici un enjeu important. Il faut
faciliter le travail des robots pour qu’ils puissent crawler et indexer au maximum tout votre site.
S’ils ne peuvent pas le faire, une partie de votre site ne sera pas visible aux yeux des moteurs de
recherche et des internautes.
Vous venez de créer votre site et vous constatez son indexation sur les moteurs de
recherche. Vous vous dites que le travail est terminé ? Sachez que les robots passent de
manière régulière sur votre site. Un site qui est souvent mis à jour verra les robots passer
plus souvent qu’un site statique. Chaque jour, les moteurs de recherche effectuent une
analyse de mots-clés des pages pour les indexer.
On appelle cloaking le fait de montrer des contenus différents aux moteurs de recherche et aux
visiteurs. Le serveur reconnait si c’est un internaute ou un robot qui a lancé la requête. Selon ce
critère, il va présenter des contenus différents. Par exemple, pour un robot, il peut présenter une page
plus optimisée mais qui ne sera pas agréable à lire pour un internaute. Cette technique est
sanctionnée par Google.
Les moteurs emploient tous des robots pour déterminer la valeur ajoutée
d’un contenu pour les lecteurs. Les contenus les plus souvent filtrées sont:
• les contenus d’affiliation,
• les contenus dupliqués
• les pages générées ayant très peu de texte.
Les moteurs évaluent la valeur d’un domaine sur son originalité et sur l’expérience visiteur
qu’ils offrent. Ainsi, les sites qui publient des contenus de mauvaise qualité auront du mal
à se positionner en haut du classement, même très bien référencés. Par exemple, si vous
avez un taux de rebond élevé à partir de la SERP, vous serez déclassé par les moteurs de
recherche. Il signifie que les internautes ne trouvent pas de réponse à leur requête et que
le contenu n’est pas pertinent.
Par ailleurs, le lancement de Google Panda en 2011 montre la volonté du moteur de recherche
de valoriser les contenus qualitatifs. Cet algorithme a été mis en place après une vague
importante de spams et de sites de basse qualité. Comment s’applique la sanction ? Panda
pénalise les contenus de mauvaise qualité et parfois tout le site. Les pages concernées sont alors
désindexées.
Le classement mondial de 2017 a placé Google en première position avec une part nette de
74,54 %. Il est suivi par les moteurs de recherche Yahoo, Baidu, Bing ou Qwant (outil de
recherche français) dont la part de marché avoisinent les 7 à 10 %. Il est intéressant de noter
que même si Google détient la plus grande part, elle a lentement diminué à partir du
2e trimestre de 2017, tandis que la part de Baidu a atteint 14,69 %.
En 2017, 46,8 % de la population mondiale a eu accès à Internet. D’ici 2021, ce chiffre devrait
atteindre 53,7 %. Selon les statistiques, Google reçoit 3,5 milliards de requêtes par jour soit 1,2
billion par an. Google évolue rapidement. Si en 1999, il a fallu un mois à Google pour crawler et
indexer 50 millions de pages, en 2012, cette tâche a été accomplie en moins d’une minute !
Les moteurs de recherche sont donc des applications puissantes et complexes. Chaque jour, des
millions de requêtes sont demandées par les internautes. Bien plus qu’un enjeu informationnel, les
moteurs de recherche ont aussi un enjeu marketing et financier. Pour faire face à la concurrence et
générer du chiffre via le web, être bien positionné sur les SERP est primordial. Mais connaître les
utilisations de sa cible l’est encore plus. En 2009, seulement 0,7 % du trafic web dans le monde
entier a été généré par les téléphones portables. En 2017, le mobile représente 50,3 % du trafic
web mondial. Dans 10 pays, dont les États-Unis et le Japon, les recherches sur mobiles ont
largement dépassées celles effectuées sur ordinateur.
Définition fonctionnelle :
L'hypertexte peut être considéré comme étant un procédé informatique permettant
d'associer une entité souvent minimale : un mot, une image ou une icône à une autre
entité souvent plus étendue comme un paragraphe, une image ou une page.
Ce mécanisme permet donc à l'utilisateur de se diriger librement dans l'hypertexte.
En activant, à l'aide d'un pointeur une zone de document qui est l'origine d'une
association. Il n'est donc plus obligé de suivre le cheminement prévu par l'auteur, il
définit son parcours en fonction de ses envies et de ses centres d'intérêt.
Définition sémantique :
le mot hypertexte signifié « plus que texte » le mot « plus » ne signifié pas plusieurs
textes interconnectés, mais une entité qui est composée de deux entités :
- un ensemble de documents
- une connaissance.
La représentation la plus pauvre de cette deuxième entité est le lien inscrit à l’intérieur
même de la première entité qui relie deux documents.
La forme la plus élaborée de cette connaissance peut être générée par un système
complexe se basant sur une modélisation du domaine et sur une modélisation de
l’utilisateur
Modèle de domaine
Le modèle de domaine est la composante d’un système qui permet à l’ordinateur de
connaître ce qui va être présenté à l’utilisateur. Ce modèle est dès lors définit par des
experts d’un domaine précis . Par exemple dans l’enseignement, les enseignants jouent le
rôle des experts qui sélectionnent et annotent les documents du domaine (les cours), et
les apprenants sont considérés comme des utilisateurs qui consultent ces cours.
148