Vous êtes sur la page 1sur 16

Le modèle probabiliste de base

• Le premier modèle probabiliste a été proposé


par Maron et Kuhns au début des années 60.

• Le principe de base consiste à présenter les


résultats d’un SRI dans un ordre basé sur la
probabilité de pertinence d’un document vis-à-
vis d’une requête.
Le modèle probabiliste de base
• Robertson (1977) définit son modèle PRP
(Probability Ranking Principle), sur ce même
principe.
Le principe
• Etant donné une requête utilisateur notée Q et un
document d
• Le modèle probabiliste tente d’estimer la
probabilité que le document d appartienne à la
classe des documents pertinents (non pertinents).
Le modèle probabiliste de base
Le principe
• Un document est alors sélectionné si la
probabilité qu’il soit pertinent à Q, notée
P(R/d,Q), est supérieure à la probabilité qu’il
soit non pertinent à Q, notée P(NR/d,Q).

• Le score d’appariement entre le document d et


la requête Q, noté RSV (d,Q)
Le modèle probabiliste de base
Le principe

Ce qui donne, d’après le théorème de Bayes et


après simplification :
Le modèle probabiliste de base
Le principe
• tel que P(d/R) (respectivement P(d/NR)) est la
probabilité que le document appartienne à
l’ensemble R des documents pertinents
(respectivement à l’ensemble NR des
documents non pertinents).
Le modèle probabiliste de base
Le principe
• Différentes méthodes sont utilisées pour estimer ces
différentes probabilités. Nous décrivons
particulièrement le modèle d’indépendance binaire,
connu sous le modèle BIR (Binary Independance
Retrieval). On considère dans ce modèle que la variable
document d(t1 = x1, t2 =x2, .. , tn = xn) est représenté par
un ensemble d’événements qui dénotent la présence (xi
= 1) ou l’absence (xi = 0) d’un terme dans un document.
En supposant que ces événements soient indépendants,
d’où l’appellation BIR, les probabilités de pertinence
(resp. de non pertinence) d’un document, notées P(d/R)
(resp. P(d/NR)), sont données par :
Le modèle probabiliste de base
Le principe

ti est le ième terme utilisé pour décrire le document d, et


xi est sa valeur 0 si le terme est absent, 1 si le terme est
présent dans le document. La distribution des termes
suit une loi de Bernoulli ; P(d/R) peut s’écrire :
Le modèle probabiliste de base
Le principe
• On fait le même développement pour P(d/NR). Notons
P(ti = 1/R), par pi, et P(ti = 1/NR) par qi, RSV(d,Q) peut
s’écrire, après transformation, comme suit :

En se ramenant à la fonction log et après un petit


développement, la fonction RSV s’écrit alors :
Le modèle probabiliste de base
Le principe
• Si en outre, on suppose conaitre l’ensemble R des
documents pertinents et l’ensemble NR des
documents non pertinents, alors on peut aisément
estimer les probabilités pi et qi , en utilisant les
proportions définies dans le Tableau de
distribution de probabilités de pertinence des
termes on aura:
Le modèle probabiliste de base
Le principe
Le modèle probabiliste de base
Inconvénients
• Un des inconvénients de ce modèle est
l’impossibilité d’estimer correctement les termes
discriminents. Pour pallier cet inconvénient,
Roberston a proposé le modèle 2-poisson basé
notamment sur la notion de termes élites.
• L’idée générale du modèle 2-poisson est que un
bon descripteur d’un document est un mot à la
fois assez fréquent dans le document et
relativement rare dans la collection. Ainsi, il
décrirait relativement bien le contenu d’un
document et serait assez discriminant par apport à
d’autres termes de la collection.
Le modèle de langue
• Le principe des approches utilisant un modèle
de langue est différent des approches
classiques en RI. En effet, plutôt que d’évaluer
le degré de similarité des documents et
requêtes, le modèle de langue considère que la
pertinence d’un document pour une requête est
en rapport avec la probabilité que la requête
puisse être générée par le Document.
Le modèle de langue
• Formellement, soit Md, le modèle de langue du
document d; la pertinence de d vis-à-vis d’une
requête Q revient à estimer P(Q/Md), c’est-à-
dire, la probabilité que la requête Q soit
générée par Md. Etant donné une requête Q
cette pertinence est mesurée par :
Le modèle de langue
• P(ti/d) peut être estimé en se basant sur
l’estimation maximale de vraisemblance
(maximum likelihood estimation). Elle est
donnée par :

où tf (ti/d) est la fréquence du terme ti dans le


document d.
Le modèle de langue
Inconvénients
• Dans ce type d’estimation que lorsqu’un terme
de la requête est absent du document, on a
systématiquement RSV(d,Q) = 0. Afin de
pallier cet inconvénient, des techniques de
lissage (smoothing parameter) peuvent être
utilisées. Le lissage consiste à assigner des
probabilités non nulles aux termes, qui
n’apparaissent pas dans les documents.