Vous êtes sur la page 1sur 117

Phénomènes Aléatoires

&
Files d’Attente

Probabilité et Variables Aléatoires


Probabilité
• Epreuve ou expérience aléatoire, évènement
On appelle épreuve ou expérience aléatoire une expérience que
l’on peut répéter dans les mêmes conditions et dont le résultat
varie d’une épreuve à l’autre. On désigne par Ω l’ensemble de tous
les résultats possibles et on l’appelle l’ensemble fondamental.
Les éléments de l’ensemble Ω sont appelés évènements
élémentaires : dans une épreuve un et un seul évènement est
réalisé à la fois. Un évènement non élémentaire est constitué par
la réunion d’évènements élémentaires ; c’est donc un sous
ensemble E de Ω.
Probabilité
• Epreuve ou expérience aléatoire, évènement
Exemples:
– Le lancer d’une pièce de monnaie est une épreuve.
L’ensemble des événements élémentaires liés à cette
épreuve est Ω = {pile, face};
– On s’intéresse à la durée de vie d’une ampoule. Dans ce
cas, les éléments de Ω sont des intervalles de R de la
forme Ω ={ ω / 0 ≤ ω ≤ L}. (L est la durée de vie
maximale pour une ampoule).
Probabilité
• Espace probabilisé
– Tribu: Une tribu F ou δ-algèbresur un ensemble Ω est une
famille de parties de Ωqui vérifie les propriétés suivantes :

Le couple (Ω ,F) est appelé espace probabilisable ou


mesurable.
F = P(Ω) tribu triviale (ensemble de toutes les parties).
F = { Ø, Ω} tribu grossière.
Probabilité
• Espace probabilisé
– Probabilité: Soit (Ω ,F) un espace probabilisable. On appelle
probabilité une application P de F dans [0 1] vérifiant les axiomes
suivants (axiomes de Kolmogorov):

L’axiome (3) est appelé axiome des probabilités totales: la probabilité


d’un évènement est égale à la somme des probabilités des
événements élémentaires qui le réalisent.
Le triplet (Ω, F, P) est appelé espace probabilisé ou espace de
probabilité.
Probabilité
• Probabilité conditionnelle et indépendance
La probabilité qu’un évènement A se réalise sachant qu’un
évènement B a été réalisé est appelé « Probabilité
conditionnelle de A sachant que B est réalisé » et désigné
par P(A/B) .
Elle s’exprime par la formule :

Si A est indépendant de B alors P(A/B) = P(A). Donc,


=P(A).P(B)
Probabilité
• Probabilités totales conditionnelles
Soit à déterminer la probabilité d’un certain
évènement A pouvant se réaliser simultanément
avec l’un des évènements appelés hypothèses : H1 ,
H2 , …, Hn.Les Hi, formant un système complet
d’évènements incompatibles.Dans ce cas on a :
Probabilité
• Probabilités totales conditionnelles
Exemple: Un stock d’ampoules électriques est composé de 70% de marque A et
30% de marque B. Parmi les ampoules de la marque A, 40% ont une puissance de
75 watts et 60% ont une puissance de 100 watts. Pour la marque B, ces
pourcentages sont de 80% et 20% respectivement. On tire au hasard une
ampoule, quelle est la probabilité que sa puissance soit de 100 watts?
On va envisager les hypothèses suivantes :
H1 : l’ampoule choisie est de marque A.
H2 : l’ampoule choisie est de marque B.
Les probabilités de ces hypothèses sont : P(H1) = 0.7 et P(H2) = 0.3
Les probabilités conditionnelles de l’événement C « la puissance de l’ampoule est
100 watts» sont : P(C/H1) = 0.6 et P(C/H2) = 0.2. Donc
P(C) = P(H1)P(C/H1) + P(H2)P(C/H2) = 0.7*0.6+0.3*0.2 = 0.48
Probabilité
• Théorème des hypothèses (Formule de Bayes)
Soit un système complet d’hypothèses incompatibles :
H1, H2, …,Hn . Les probabilités de ces hypothèses avant
l’expérience sont P(H1), P(H2),…, P(Hn) (probabilités a
priori). L’expérience a réalisé un certain évènement A.
Comment la réalisation de cet événement change les
probabilités de ces hypothèses (probabilités a
posteriori) :
Probabilité
• Théorème des hypothèses (Formule de Bayes)
Exemple: Dans le stock précédent, on a tiré au
hasard une ampoule et obtenu une puissance 100
watts. Quelle est la probabilité que cette ampoule
soit de marque A.
Il s’agit de calculer la probabilité conditionnelle
P(H1/C).
En appliquant la formule de Bayes :
Variable Aléatoire Réelle
• Définition
Etant donné un espace de probabilité (Ω, F, P) et une
application X de Ω dans R, si Ω est dénombrable F et
X(Ω) seront dénombrables aussi.
L’application X sera dite variable aléatoire discrète si
, autrement dit, l’image inverse de X est un
évènement. L’évènement X-1(xi) (sous ensemble de
Ω) est noté X = xi.
Variable Aléatoire Réelle
• Définition
Exemple : On jette une pièce de monnaie trois fois. Soit X une fonction
qui, à tout évènement , associe le nombre de faces apparues. On a :
Ω={ppp , ppf , pfp , fpp , ffp , fpf , pff , fff}
X(ppp) = 0 , X(ppf) = 1 ; X(fpp) = 1 ; X(pfp) = 1 ; X( Ω) = {0, 1, 2,
3}
X-1(0) = {ppp} ; X-1(1) = {ppf , pfp , fpp}
Si on prend F = P( Ω) alors X est une VA discrète.
Si on prend F = { Ø, ppp, (ppf , pfp , fpp , ffp , fpf , pff , fff), Ω } alors X
n’est pas une VA car, par exemple, X-1(1) = {ppf , pfp , fpp} n’est pas
dans F .
Variable Aléatoire Réelle
• Définition
Si Ω est l’ensemble R (ou un intervalle de R) F est la
tribu borélienne, l’application X sera dite variable
aléatoire continue si , autrement dit, l’image inverse
de X est un évènement. Les sous-ensembles de du
type seront désignés par . De même on parlera des
évènements et .
Variable Aléatoire Réelle
• Loi de distribution d’une VA
1. X VA discrète
Etant donné un espace de probabilité (Ω,F,P) et X une VA
discrète, la loi de distribution ou de probabilité de X est la
fonction numérique P qui associe à chaque valeur possible
xi de X la probabilité P(X = xi) = P(xi) = Pi. On a:

La fonction de répartition de X est


Variable Aléatoire Réelle
• Loi de distribution d’une VA
2. X VA continue
Dans ce cas On associe alors à la VA X la fonction f(x) qui est
une mesure de probabilité de X; f(x) est appelée fonction
densité de probabilité de X. sera remplacée par et . f(x)
vérifie :

La fonction de répartition de X est


Donc
Variable Aléatoire Réelle
• Moments d’une V.A
1. Espérance
On désire quelque fois connaitre une valeur centrale
de la VA X autour de laquelle les résultats des
épreuves vont se répartir. L’Espérance d’une VA X
est:
a. X discrète :
b. X continue dont la densité est f(t) :
Variable Aléatoire Réelle
• Moments d’une V.A
2. Variance
C’est une mesure de la dispersion des valeurs de X
autour de la valeur centrale E(X). La Variance d’une
VA X est:
Variable Aléatoire Réelle
• Le processus de Poisson
C’est un processus markovien à temps continu qui compte le
nombre d’évènements qui se produisent dans un intervalle de
temps ou d’espace. On le caractérise comme suit :
Considérons une suite d’évènements indépendants E qui se
succèdent dans le temps. Le nombre d’évènements qui se
produisent dans un intervalle de temps t est une variable
aléatoire notée Xt. Lorsque t varie, on obtient un processus
aléatoire {Xt}, t≥0. La probabilité que Xt = n est notée pn(t).
Variable Aléatoire Réelle
• Le processus de Poisson
Le processus Xt, t ≥ 0 est un processus de Poisson s’il vérifie les quatre propriétés
suivantes :
1) Xt est un processus à accroissements indépendants: le nombre d’évènements se
produisant dans deux intervalles disjoints sont deux VA indépendantes.
2) Homogénéité : pn(t) ne dépend que de la longueur de t et pas de l’instant t0 à
partir duquel t est mesuré.
3) Régularité : la probabilité que l’évènement E se réalise une fois exactement dans
un intervalle dt (infiniment petit) est un infiniment petit de l’ordre de dt soit : p1(dt) =
λdt + o(dt) .
4) La probabilité que l’évènement E se réalise plus d’une fois dans l’intervalle dt est
un infiniment petit par rapport à dt soit: pn(dt) = o(dt), n ≥ 2.
Variable Aléatoire Réelle
• Le processus de Poisson

Cette relation donne la probabilité de réalisation de n


évènements dans un intervalle de longueur t ; soit
p(Xt= n) ; Xt vérifiant les propriétés (1) à (4) . Pour un
intervalle de temps égal à l’unité, on obtient :

; on reconnaît la loi de Poisson.


Variable Aléatoire Réelle
• La loi exponentielle
Il s’agit de déterminer la loi de probabilité des
intervalles séparant deux évènements successifs
dans un processus de Poisson.
Variable Aléatoire Réelle
• La loi exponentielle
Soit Y la VA représentant ces intervalles, f(y) sa densité
de probabilité et F(y) sa fonction de répartition. La
fonction de répartition complémentaire 1- F(y) est par
définition, la probabilité que Y > y, mais c’est aussi la
probabilité conditionnelle que, un évènement E ayant
eu lieu à l’instant t, il n’y en ait pas dans l’intervalle (t,
t+y) dont la probabilité correspondante est :
Variable Aléatoire Réelle
• La loi exponentielle
Donc:

Par dérivation:
Phénomènes Aléatoires
&
Files d’Attente

Chaînes de Markov à Temps Discret


Chaînes de Markov à Temps Discret
X1 X2 X3 Xi Xn

Ensemble de variables aléatoires

Xi Xi: espace d’états discret (Ex: {1,2,3}, {eau, terre}, {a,b,c..,z},..)

i: discret (Ex: chaque jour, chaque changement d’état, chaque intervalle du temps,…)
Chaînes de Markov à Temps Discret
X1 X2 X3 Xi Xn

Ensemble de variables aléatoires

P(X1=x1,X2=x2,….,Xn=xn)=? (La relation entre les Xi)

Chaîne de Markov =>


Amnésie : Xi+1 ne dépond que de Xi ( P(Xi+1=xi+1/X1=x1,X2=x2,….,Xn=xn)=P(Xi+1=xi+1/Xi=xi) )
=>
P(X1=x1,X2=x2,….,Xn=xn)=P(X1=x1)xP(X2=x2/X1=x1) xP(X3=x3/X2=x2) x…xP(Xn=xn/Xn-1=xn-1)
Chaînes de Markov à Temps Discret

P2 P3 Pi+1 Pn
X1 X2 X3 Xi Xn

P1

P(X1=x1,X2=x2,….,Xn=xn)=P1(X1=x1)xP2(X2=x2/X1=x1) xP3(X3=x3/X2=x2) x…xPn(Xn=xn/Xn-1=xn-1)


Chaînes de Markov à Temps Discret
P2 P3 Pi+1 Pn
X1 X2 X3 Xi Xn

P1
P(X1=x1,X2=x2,….,Xn=xn)=P1(X1=x1)xP2(X2=x2/X1=x1) xP3(X3=x3/X2=x2) x…xPn(Xn=xn/Xn-1=xn-1)
Exemple:
1er jour Dimanche Les autres jours
N B H N B H N B H
0.98 0.00 0.02 N 0.01 0.98 0.01 0.08 0.90 0.02
B 0.00 0.97 0.03 0.00 0.88 0.12
H 0.00 0.00 1.00 0.00 0.00 1.00

On est samedi, quelle est la probabilité que la


X1=N X2=B X3=B X4=B X5=H X6=H
machine reste neuve 3 jours puis elle tombe en
panne le 4ème jour?
État de la machine chaque jour P=P(N,N,N,H)=P1(N)xP2(N/N)xP3(N/N)xP4(H/N)
=0.98 x 0.01 x 0.08 x 0.02
Chaînes de Markov à Temps Discret
P2 P3 Pi+1 Pn
X1 X2 X3 Xi Xn

P1
Si Pi(Xi/Xi-1) ne dépond pas du temps i (les dates) alors la chaîne de Markov est Homogène.

aij=P(Xt=j/Xt-1=i)

0.80 0.15 0.50


Exemple:

Xi : état du ciel à 08h chaque jour D 0.30 N


: {Dégagé, Nuageux, Pluvieux }
0.05
0.20
0.60 0.20
P

0.20
Chaînes de Markov à Temps Discret
• Vecteur d’état:
Pour une chaîne de Markov à N états, on appelle le vecteur [P(i)]
= [p1(i) , p2(i) , ………………pN(i)] le vecteur d’état du système à
l’instant i. pj(i) représente la probabilité pour qu’on soit, à
l’instant i, dans l’état j.
Ce vecteur est stochastique : et
Chaînes de Markov à Temps Discret
• Équation d’évolution:
Soit une chaîne de Markov avec le vecteur d’état initial P(0) et la
matrice de transition M= ,(pij = P(Xt+1=j/Xt=i))

–À l’instant t=0 on a [P(0)] = [p1(0) , p2(0) , ………………pN(0)]


–À l’instant t=1 on a [P(1)] = [P(0)] x M
–À l’instant t=2 on a [P(2)] = [P(1)] x M = [P(0)] x M2
–.........
–À l’instant t=T on a [P(T)] = [P(0)] x MT
Chaînes de Markov à Temps Discret
Exemple:
Un atelier de réparation de postes de téléviseurs a une capacité d’accueil de deux postes
en réparation. Les postes à réparer arrivent le matin. La probabilité qu’il arrive 0, 1, 2
postes à réparer un matin est de 0.3 ; 0.5 et 0.2. Les postes qu’on ne peut pas réparer
sont envoyés en sous-traitance. La durée de réparation est d’une journée. On ne peut pas
réparer plus d’un poste par jour.
Modéliser l’évolution du système par une chaîne de Markov.
Chaînes de Markov à Temps Discret
Exemple:
Un atelier de réparation de postes de téléviseurs a une capacité d’accueil de deux postes
en réparation. Les postes à réparer arrivent le matin. La probabilité qu’il arrive 0, 1, 2
postes à réparer un matin est de 0.3 ; 0.5 et 0.2. Les postes qu’on ne peut pas réparer
sont envoyés en sous-traitance. La durée de réparation est d’une journée. On ne peut pas
réparer plus d’un poste par jour.
Modéliser l’évolution du système par une chaîne de Markov.

0.3 +0.5 0.2 0.5 + 0.2 0.3 0.5 0.5 0.2 0.5+02

0 1 2 0 1 2
0.3 0.3+0.5+0.2 0.3 0.3

0.2

t = Chaque matin juste avant l’arrivage t = Chaque matin juste après l’arrivage
Chaînes de Markov à Temps Discret
• Décomposition et Classification des C.M :
– Classe d’équivalence : Ensemble des états qui peuvent communiquer
entre eux (on peut aller de n’import quel état vers n’import quel autre état
de la même classe)
– Classe fermée et transitoire : Une classe d’équivalence est dite fermée
(finale) ssi on ne peut plus sortir si on y entre. Sinon elle est transitoire.
– État persistant et transitoire : un état qui appartient à une classe fermée
est dit persistant (récurrent). Si une classe fermée est composée d’un seul
état alors cet état est absorbant. Les états qui composent les classes
transitoires sont des états transitoires.
– C.M irréductible et réductible : Si tous les états d’une chaîne
appartiennent à la même classe d’équivalence alors on dit que cette chaîne
est irréductible. Sinon (il y a au moins deux classes) la chaîne est réductible.
Chaînes de Markov à Temps Discret
Exemple:
Chaînes de Markov à Temps Discret
Chaînes de Markov à Temps Discret
Exemple:
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
Il s’agit, principalement, d’étudier le comportement de la chaîne
lorsque le nombre de transitions augmente indéfiniment.
Précisément, il s’agit d’étudier la limite du vecteur d‘état :

Or on a vu que [P(i)] = [P(0)] Mi Il s’agit donc d’étudier


Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
1. Chaîne réductible:
Partant d’un état transitoire n, le système va évoluer à l’intérieur
de l’ensemble T des états transitoires avant d’être absorbé par une
classe récurrente:
a) Avec une seule classe finale : le système sera absorbé certainement par
cette classe.
b) Avec plusieurs classes finales : le système sera absorbé par l’une de ces
classes.
Il est intéressant de calculer les deux grandeurs suivantes:
A. la probabilité d’absorption par l’une ou l’autre de ces classes
finales.
B. la durée moyenne de séjour dans l’ensemble des états
transitoires avant l’absorption.
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
1. Chaîne réductible:
A. la probabilité d’absorption par l’une ou l’autre de ces classes
finales:
Soit une chaîne de Markov réductible et C1, C2 ,…….,Ch ses classes finales (h >
1) et T l’ensemble des états transitoires. Il s’agit de calculer la probabilité
qn(Ck) = probabilité que le système, partant de l’état transitoire n, soit absorbé
par la classe finale Ck .
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
1. Chaîne réductible:
A. la probabilité d’absorption par l’une ou l’autre de ces classes
finales:
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
1. Chaîne réductible:
A. la probabilité d’absorption par l’une ou l’autre de ces classes
finales:
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
1. Chaîne réductible:
B. la durée moyenne de séjour dans l’ensemble des états
transitoires avant l’absorption:
Soit la durée moyenne de séjour dans l’ensemble des états
transitoires partant de l’état n Є T:
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
1. Chaîne réductible:
B. la durée moyenne de séjour dans l’ensemble des états
transitoires avant l’absorption:
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
1. Chaîne réductible:
B. la durée moyenne de séjour dans l’ensemble des états
transitoires avant l’absorption:
– L’élément (n,n’) de la matrice fondamentale N représente le temps
moyen nn’ de passages (avant l’absorption) par l’état transitoire n’ partant
de l’état transitoire n.
– Si l’état transitoire initial est connu en probabilité (et non pas avec
certitude), par le vecteur [PT(0)], alors, la moyenne du nombre total de
visites d’un état transitoire n avant l’absorption est le nième élément de
du vecteur [PT(0)]N. De plus, le nombre moyen de transitions pendant
lesquelles le système est dans l’ensemble des états transitoires est [PT(0)]t
(moyenne pondérée par les probabilités).
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
2. Chaîne irréductible:
A. Les chaînes périodiques (rares dans la pratique):
Un état n d’une chaîne de Markov est périodique de période (d > 1) si
a) pnn(i) = 0 sauf pour i = 0 et peut être i = kd , k = 1 , 2 , …..
Autrement dit pnn(i) > 0 i multiple de d
b) d est le plus grand entier qui vérifie la propriété (a)
 Les deux propriétés a) et b) signifient que, dans le graphe de transitions, d est
le PGCD des longueurs (en nombre d’arcs) de tous les circuits passant par n.
 S’il n’existe pas d’entier d > 1 vérifiant cette propriété, l’état n sera dit
apériodique. Il en est ainsi en particulier si pnn> 0 (le graphe comporte une
boucle).
 On démontre que si, dans une chaîne irréductible, il existe un état périodique
de période d, tous les états sont périodiques et ont la même période d : la
périodicité est donc une propriété de classe.
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
2. Chaîne irréductible:
A. Les chaînes périodiques (rares dans la pratique):
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
2. Chaîne irréductible:
B. Chaînes apériodiques (ergodiques ou régulières):

C’est-à-dire les probabilités d’états tendent vers des valeurs limites p1,p2 ,
…………….,pN strictement positives indépendantes de la distribution initiale
p1(0),p2(0),………., pN(0). Dans ce cas, la matrice correspondante est dite
régulière ou ergodique. On appelle régime permanent celui qui correspond
aux valeurs [p(∞ )] dans le cas où le système a la propriété ergodique.
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
2. Chaîne irréductible:
B. Chaînes apériodiques (ergodiques ou régulières):
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
2. Chaîne irréductible:
B. Chaînes apériodiques (ergodiques ou régulières):
Remarque : En régime permanent, Pn, la probabilité de l’état n représente la fraction
du temps pendant laquelle le système est dans cet état (loi des grands nombres :
fréquences = probabilités).

Exemple:
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
2. Chaîne irréductible:
B. Chaînes apériodiques (ergodiques ou régulières):

Il est intéressant de calculer les deux grandeurs suivantes:


C. le temps moyen du premier passage par un état n’ partant
d’un autre état n.
D. la probabilité d’atteindre un état n1 avant un autre état n2,
partant d’un état n.
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
2. Chaîne irréductible:
B. Chaînes apériodiques (ergodiques ou régulières):

C. le temps moyen du premier passage par un état n’ partant


d’un autre état n :
Le temps moyen du premier passage noté est le nombre moyen de
transitions avant d’attendre l’état n’, lorsque le système part de l’état n.
Le temps moyen du premier passage de l’état n à l’état n’ peut être obtenu en
rendant l’état n’ absorbant (les autres états sont alors transitoires) et en
calculant le temps moyen de séjour dans l’ensemble des états transitoires
sachant que l’état initial est l’état n. Ceci revient à supprimer, dans le graphe
de transitions, tous les arcs sortant de n’ et à ajouter la boucle (n’,n’) de
valeur 1.
Chaînes de Markov à Temps Discret
• Comportement asymptotique d’une C.M :
2. Chaîne irréductible:
B. Chaînes apériodiques (ergodiques ou régulières):

C. la probabilité d’atteindre un état n1 avant un autre état n2,


partant d’un état n:
Une autre notion d’intérêt pratique est la probabilité d’atteindre un état n1
avant un autre état n2, lorsque l’état initial est n. Pour calculer cette
probabilité, on rend les deux états n1 et n2 absorbants et on calcule la
probabilité d’absorption par chacun des deux états n1 et n2.
Phénomènes Aléatoires
&
Files d’Attente

Chaînes de Markov à Temps Continu


Chaînes de Markov à Temps Continu
X1 X2 X3 Xi Xn

Ensemble de variables aléatoires

Xi Xi: espace d’états discret (Ex: {1,2,3}, {eau, terre}, {a,b,c..,z},..)

i: continu
Chaînes de Markov à Temps Continu
• Définition:
Les Chaînes de Markov à temps continu décrivent des systèmes
pour lesquels les changements d’états peuvent avoir lieu à tout
instant. On considère alors le système au moment où il quitte
l’état n qu’il occupe actuellement et on caractérise la chaîne de
Markov par le taux instantané de transitions de n vers n’≠n.
Chaînes de Markov à Temps Continu
• Définition:
Plus précisément, une Chaîne de Markov à temps continu
homogène et régulière (Processus de Markov) est un processus
aléatoire qui vérifie les 3 propriétés suivantes :
1. Absence de mémoire :
P( X t  s  n' / X u  n,0  u  t )  P( X t  s  n' / X t  n)
2. Homogénéité :
P ( X t  s  n' / X t  n)  P ( X s  n' / X 0  n)
3. Régularité :
n  n': P( X t  dt  n' / X t  n)  pnn ' (dt )  nn ' dt  o(dt )
n   nn' : P( X t  dt  n / X t  n)  pnn (dt )  1  n dt  o(dt )
n ' n
Chaînes de Markov à Temps Continu

• Loi de probabilité de la VA θn= durée de séjour


dans l’état n :
F (t )  1  e  nt f (t )  n e  nt

Θn suit donc, la loi exponentielle de paramètre λn et le temps


moyen de séjour dans l’état n = 1/λn
Chaînes de Markov à Temps Continu

Un processus de Markov peut donc être caractérisé de la


manière suivante:
1. Lorsque le système est dans l’état n, il y reste un temps Θn; la
loi de Θn étant exponentielle de paramètre λn.
2. Lorsque le système quitte l’état n, il choisit l’état n’ avec la
probabilité qnn’= λnn’ /λn indépendante de l’histoire antérieure
(absence de mémoire) et de l’instant auquel la transition a
lieu (homogénéité).
Chaînes de Markov à Temps Continu
• Exemple :
Deux machines identiques fonctionnent de façon continue à
moins d'être brisées. Un réparateur disponible au besoin pour
réparer les machines. Le temps de réparation suit une distribution
exponentielle avec une moyenne de 0.5 journée. Une fois
réparée, le temps d'utilisation d'une machine avant son prochain
bris suit une distribution exponentielle de moyenne de 1 journée.
Nous supposons que ces distributions sont indépendantes.
Considérons le processus aléatoire défini en termes de nombre de
machines en panne. La variable aléatoire X(t’) = nombre de
machines en panne au temps t’. États de X (t’): {0,1,2}.
Chaînes de Markov à Temps Continu
• Exemple :
Hypothèses:
Les deux machines ne peuvent se briser au même temps: λ 02= 0
Le réparateur ne répare qu'une seule machine à la fois λ 20 = 0
Temps de réparation suit une distribution exponentielle avec une
moyenne de 0.5 journée : 1/0.5= 2 machines par jour.
Le temps d'utilisation d'une machine avant son prochain bris suit
une distribution exponentielle de moyenne de 1 journée : Taux de
bris = 1/1= 1 jour.
Au moment où les deux machines
λ =2
01
fonctionnent,
λ =1
12
alors Taux de bris
= 1 + 1 = 2 (si X1,X2 suivent Exp(λ1), Exp(λ2) alors min(X1,X2) suit
0 1 2
Exp(λ 1+ λ 2)).
λ 10=2 λ 21=2
Chaînes de Markov à Temps Continu
• Equation de balance
Taux de départ de j = taux d’arrivée à j
 j   ji   i ij
 i j i j



i
i 1

Exemple (précédent):
  0 01   110
 (   )      
1 10 12 0 01 2 21
  2 21   112

  0  1   2  1
Chaînes de Markov à Temps Continu
• Régime stationnaire
Il existe une distribution de probabilité limite quand t tend vers
l’infini, indépendante de [P(o)] et notée P, si et seulement si la
chaîne comporte une seule classe finale (pas de périodicité pour
les chaînes à variable continue). Soit la matrice G dont ses
éléments sont λnn’ (λnn = -λn). Cette matrice de transitions est
appelée générateur. La somme de chacune de ses lignes est
nulle.
[ P ].G  0
  Pi  1
 i
Chaînes de Markov à Temps Continu
• Exemple
Soit G le générateur d’une CMC.
5 2 3
 
G  0 2 2 
 1 0  1 
 
1. Donner le graphe représentatif ;
2. Classifier les états de la chaîne ;
3. Déterminer, si elle existe, la distribution stationnaire de la
chaîne.
Chaînes de Markov à Temps Continu
• Processus de naissance et de mort
Un processus aléatoire {Xt, t≥0} à temps continu et à espace
d’états E dénombrable est un processus de naissance et de mort
s’il vérifie les propriétés suivantes :
i. Le système ne peut évoluer instantanément (entre t et t+dt)
que vers les états voisins : si le système est dans l’état n à
l’instant t, il ne pourra passer à l’instant t+dt que vers les
états : n-1, n+1ou n; les probabilités correspondantes étant :
µndt+o(dt), λndt+o(dt) et 1-(µn+λn)dt+o(dt).
Chaînes de Markov à Temps Continu
• Processus de naissance et de mort
Un processus aléatoire {Xt, t≥0} à temps continu et à espace
d’états E dénombrable est un processus de naissance et de mort
s’il vérifie les propriétés suivantes :
ii. Les probabilités de passage d’un état à un autre dépendent
de l’état de départ considéré, mais pas de la date t
(processus homogène).
iii. Au plus un évènement (naissance ou mort) peut survenir
pendant l’intervalle de temps dt (infiniment petit), en
particulier on ne peut avoir une naissance et une mort à la
fois.
Chaînes de Markov à Temps Continu
• Processus de naissance et de mort
Régime permanent : En appliquant le théorème des coupes, on
aura : C1
0
µ λ0
 P0 0  P11  n
i 1
1

C0  1, Cn 0   
 1 C2
P   P 
 1 1 2 2 P  P  i 1 i µ2 λ1
  0 0
  2
  n
i 1 S   Cn
 Pn 1n 1  Pn  n   Pn   P0  
  i 1  i 
n 0
n-1 Cn
   P0  1 µn λn-1
   Pi  1  S
 Pi  1
n
 i 0 P  C P
 i 0  n n 0 µn+1 λn
n+1
Chaînes de Markov à Temps Continu
• Processus de naissance et de mort
Régime permanent : La condition nécessaire pour qu’un régime
permanent puisse s’établir est que la série S converge :
  n
i 1
S   Cn  1   
n 0 n  0 i 1  i

En particulier :  i  0, i  0
Cette condition nécessaire est souvent suffisante et on a alors,
en régime permanent : 1
P0 
S
Pn 0  Cn P0
Chaînes de Markov à Temps Continu
• Exemple :
Une station de taxi permet à quatre taxis de se garer pour attendre les clients. Les
taxis arrivent à la station aléatoirement suivant une loi de Poisson de taux μ
(taxis/min). Lorsque la station est complète, le taxi poursuit sa route. Les clients
arrivent aléatoirement suivant une loi de Poisson de taux λ (clients/min), ils font
éventuellement la queue et sont pris en charge selon l’ordre de leur arrivée; Toutefois,
on a remarqué que lorsque cinq clients attendent déjà, tout nouveau client arrivant
renonce à attendre.
1. Associer à ce problème un processus de naissance et de mort; on notera Eij l’état
pour lequel i taxis et j clients sont en attente (i=0 ou j=0); existe–t-il une condition
pour qu’un régime permanent s’instaure ;
2. Calculer la probabilité des états en régime permanent ;
3. Quel est le nombre horaire moyen des taxis arrivant à la station sans pouvoir s’y
arrêter.
4. Quel est le nombre moyen de clients qui renoncent à attendre ;
5. Application numérique : μ=1 et λ=1,2.
Phénomènes Aléatoires
&
Files d’Attente

Files d’attente
Files d’attente
• Introduction:
Les files d’attente sont des phénomènes qu’on observe
fréquemment dans notre activité quotidienne: dans le domaine
économique, administratif, dans des procédés technologiques
etc. Ces phénomènes de congestion ont toujours leur source
dans des fluctuations du système: c’est parce que pendant
certaines périodes la demande de service excède l’offre (la
capacité de service) que des files d’attente se créent.
Files d’attente
• Caractéristiques:
Les caractéristiques d’un phénomène d’attente sont en général constituées par :
 Des arrivées d’unités à des intervalles de temps réguliers ou irréguliers
dans un système dont la structure sera précisée plus loin ; par exemple
arrivées de bateaux dans un port. L’origine de ces unités est appelée
source.
 Le système comprend un centre d’attente et un centre de service. Ce
dernier est constitué par une ou plusieurs stations. Chaque unité doit
passer dans une (ou plusieurs) station pour y recevoir un certain service.
La durée de service est en général aléatoire de sorte que les unités
peuvent avoir à attendre avant qu’une station soit disponible. Elles
séjournent alors dans le centre d’attente en constituant une file
d’attente. On suppose que le passage du centre d’attente au centre de
service est instantané.
Files d’attente
• Exemples :
Unités Service Stations
Bateaux Déchargement quais
Avions Atterrissage Pistes
Appels téléphoniques Conversation Central téléphonique
fichiers impression imprimante
Machines à réparer Réparation Atelier de réparation
Véhicules péage Poste de péage
Demande de traitement Traitement Processeur
Arrivées de voyageurs Contrôle de douane Douaniers

λ µ
Source
Centre d’attente
Centre de service
Files d’attente
• Caractéristiques:
La plus part des files d’attente qu’on rencontre peuvent être caractérisés
par une séquence de six symboles notés (a/ b/ c) (d/ e/ f), appelée
notation de Kendall. Cette notation a été adoptée par la conférence
internationale sur la standardisation des notations dans la théorie des
files d’attente en 1971. Ces symboles désignent respectivement :
 Le processus d’arrivée
 Le processus de service
 Le nombre de serveurs (stations)
 La borne supérieure du nombre d’unité dans le système
 Le nombre d’unités dans la source
 La discipline de la file
Files d’attente
Files d’attente
• Propriétés:
En prenant l’espérance mathématique des les relations
précédente, on obtient en régime permanent : LC   S
LQ  LC  LS
1
WQ   WS

En particulier, on a, en régime permanent :
Flux moyen d’entrée = flux moyen de sortie
On trouve la formule de LITTLE: LS  WS
LQ  WQ
Files d’attente
• Exercice :
Considérez un système de file d’attente ayant un seul serveur. Les temps
d’arrivée et de service pour chacun des cinq premiers clients sont donnés
par le tableau suivant :
Client Instant d’arrivée Temps de service
1 5 8
2 8 6
3 17 2
4 18 4
5 22 7

1- Complétez ce tableau en donnant pour chaque client le temps de


départ, le temps passé dans le système et le temps d’attente.
2- En vous servant de ces observations, estimez les quantités suivantes :
Pi, LS, WS, LQ et WQ.
Files d’attente
• M/M/1 :
n   n  0,1,2,
 n   n  1,2,3

– Régime permanent



Cn   n et S  1     2  
1
 1 S   p0  1    pn  (1   )  n
1 
Files d’attente
• M/M/1 :
– Grandeurs caractéristiques

LS  E ( X ) 
1 
L 1
WS  S 
  
1 
WQ  WS    WS
  
2
LQ  WQ   LS
1 

P ( station occupée)  1  p0  
Files d’attente
• M/M/S :
n   n  0,1,2,
 n  n n  1,2, , S   n  S n  S

– Régime permanent
n
 si n  S
 n!
Cn   S nS
     si n  S
 S!  S 
nS
S 1
 n
 
S  S 1
n S S
 SS       
n 0 n! S! n  S  S  n 0 n! S! S  
Files d’attente
• M/M/S :
– Régime permanent
1
 
S 1 n
 S
S 
p0     
 n 0 n! S ! S   
n 
 p si n  S pn 1 si n  S
 n!
0

n
pn   S nS  
     p si n  S   p si n  S
 S!  S  0  S n 1

S S
P ( stations occupées )   (  , S )  p0
S! S  
Files d’attente
• M/M/S :
– Grandeurs caractéristiques


LQ   ( , S )
S
LQ
WQ 

1
WS  WQ 

LS  WS
Phénomènes Aléatoires
&
Files d’Attente

Chaîne de Markov Cachée


Modèles de Markov Cachés
La séquence observée est l’évidence d’une chaîne de Markov
sous-jacente cachée

Observations S S N P S P S

Etat interne
s1 s2 s1 s3 s2 s2 s1
(caché)

L’émission d’un état observé n’est pas déterministe ! Chaque état caché émet,
de manière aléatoire, un parmi N symboles d’un alphabet
Exemple
 Trames sonores représentatives de trois mots
différents
 pad

 bad

 spat

Mot sous jacent signal sonore observable


Composantes d’un MMC (« HMM »)
 Les probabilités initiales des états cachés ={i=P(si)}
 Le modèle de transition des états cachés
 L’alphabet ={s1,...,sm} décrivant les états cachés
 La matrice des probabilités de transitions entre eux A={aij= P(sj|si)}
 Le modèle d’observation des symboles émis par les états cachés
 L’alphabet ={o1,...,ok} des symboles émis par les si pour un HMM discret
 Les probabilités d’émission B={bi(ok)=P(ok|si)}

b1(.)
On suppose généralement un s1 s2
processus stationnaire (les A b2(.)
probabilités ne dépendent pas
du temps) s3
b3(.)
Exemple de HMM
 États :
 ={‘Printemps’, ‘Été ’,‘Automne’, ‘Hiver’}
 A={aij}
 Symboles observables émis par chaque état N=0.2
P=0.5
 ={‘N’, ‘P ’, ‘S’} S=0.3
 B={bj(.)} : loi multinomiale

Printemps Hiver
N=0.1
P=0.45
S=0.45 0.25
N=0.05
Eté Automne P=0.55
S=0.4
N=0.01
P=0.13 0.25 0.25
S=0.86
0.25
Que peut-on faire avec un HMM ?

 Évaluation d’un modèle proposé pour expliquer


une séquence d’observations

 Explication d’une séquence d’observation par un


modèle donné

 Modélisation d’un processus (caractérisation d’un


HMM)
Évaluation de modèle

 Quel HMM ={,,,A,B} est le plus probable


d’avoir donné lieu à une séquence d’observations
O=o1,...,on ?

 Il faut trouver le maximum de P(O|) :


• Calcul direct
• Algorithme Forward-Backward
Explication d’un séquence
d’observations
• Connaissant un HMM , quelle séquence d’états
S=s1,...,sn est la plus probable d’avoir donné lieu à
une séquence d’observations O=o1,...,on ?

 Il faut trouver le maximum de P(S|O,) :


 Calcul direct
 L’algorithme de Viterbi
Modélisation (Apprentissage)

 Partant d’un ensemble d’observations O,


comment régler les paramètres d’un HMM 
pour maximiser la vraisemblance de P(O|) ?

 L’entraînement de Viterbi
 L’algorithme de Baum-Welch
Quelques domaines d’application
 Reconnaissance de formes  Analyse géopolitique
 Reconnaissance de la  Robotique
parole  Diagnostic
 Traitement de la langue  Etc.
naturelle
 Commande automatique
Avec les SVM, les HMM sont
 Traitement du signal
les méthodes statistiques les
 Analyse des séquences plus efficaces en dehors des
biologiques approches neuro-mimétiques
 Économie
Évaluation de modèle
 Étant donné un modèle HMM ={,,,A,B} et une
séquence d’observations O, quelle est la probabilité que
O soit dû à , P(O|) ?
 Supposons que O est généré par la séquence Th. de Bayes

d’états Si = si(1),…,si(n) :
P(Si|)=P(si(1),…,si(n)|)=i(1)*ai(1),i(2)*ai(2),i(3)*…*ai(n-1),i(n)
P(O|Si ,)=P(O| si(1),…,si(n),)=bi(1)(o1)* bi(2)(o2)*…* bi(n)(on)

Par conséquent : Indép. des


observations

P (O  )   P (O Si ,  ) P ( Si  )
i
Th. de Bayes
   i (1) * ai (1),i ( 2 ) * bi (1) (o1 ) * ... * ai ( n 1),i ( n ) * bi ( n 1) (on 1 ) * bi ( n ) (on )
i

Si Si génère n observations, il faut 2n-1 multiplications, chacune portant sur un


état possible; pour m états  Complexité computationnelle : o(2n*mn) !
Évaluation de modèle : L’algorithme forward-backward
 De nombreuses multiplications sont répétées (portions de
sous-séquences communes => Calculer P(O|) de manière
incrémentale
 Soit t(i)=P(o1, o2…ot, Si(t)=si| ) la probabilité d’avoir O=o1,…,ot
avec la dernière observation émise par l’état si , on a :

bi(ot)
 Par induction :
s1
m
P( O  )  t ( i ) 1( i ) i*bi ( o1 )
i1

m 
sj si  t1( i )  t ( j )a ji *bi ( ot1 )
 j1 
Chacun de s1..sm
aurait pu sm Probabilité que si complète
émettre ot Forward la sous-séquence finissant à
t

Pour n observations et m états, on a 2m2 multiplications à chaque


étape  Complexité computationnelle o(2m2n) au lieu de o(n*mn)
L’algorithme forward-backward (suite)
 Soit t(i)=P(ot+1, ot+2…on|Si(t)=si,  ) la probabilité d’observer la
sous- séquence ot+1,…,on en partant de l’état Si(t)=si; partant de t=1,
on a :
t+1(1)  Par induction :
m
P( O  )  b ( o ) ( i ) b (o ) s1 On part toujours
i i 1 1
i1
1 t+1 d’un étant initial
ai,j 1 (i )  1
si sj t+1(j)
Chacun de s1..sm m 
 t (i )   aij b j (ot 1 ) *  t 1 (i )
aurait pu émettre o1 bj(ot+1)  j 1 
bm(ot+1) sm

t+1(m) Probabilité que si précède


Backward la sous-séquence qui suit
à t+1

Pour m état et n observations, on a 2m2 multiplications à chaque étape 


Complexité o(2m2n) en temps, o(m) en espace (idem pour l ’algorithme forward)
Explication
 On veut identifier la séquence d’états Si=si(1),…,si(n) ayant
la probabilité maximale d’avoir généré O=o1,...,on
 Il faut trouver :
max P ( Si | O,  ) :i P(O, Si )
ou, de manière équivalentemax
i

Observations o1 o2 … on-1 on

s? s? … s? s?
Explication : L’algorithme de Viterbi

max P (O, Si  )
b1(.) i
s1 s2
A b2(.)
Recherche parmi tous les
chemins possibles : o(mn) !
b3(.) s3

 Algorithme de Viterbi (ou règle du petit poucet ) :


 Chaque symbole est émis par un seul état caché
 La séquence d’états la plus probable pour expliquer la
séquence d’observations à l’instant t dépend seulement de la
séquence la plus probable à t-1
 On peut trouver la séquence en procédant de proche en proche !
Algorithme de Viterbi(suite)

 Le séquence d’etats optimale est la somme des meilleurs


segments en allant de gauche à droite
 d(si,t,sj,t+1)=ai,j*bj(ot+1)
o1 o2 o3 on-1 on
s1 s1 s1 s1 s1

s2 s2 s2 s2 s2

si si si si si

sn-1 sn-1 sn-1 sn-1 sn-1

sn sn sn sn sn
Algorithme de Viterbi (fin)
 Soit  t (i )  max
i
P (o1 , o2 ,..., ot , si ( t )  si  ) la probabilité du
meilleur état finissant la sous-séquence o1,…,ot à l’instant t

1 (i )   i * bi (o1 )
 Règle d’induction:  (i )  max  ( j ) * a * b (o )
t 1 t ji i t 1
j 1..m

 On mémorise, à chaque t, l’état optimal sj menant à si au temps t+1

 t 1 (i)  arg max j  t ( j ) * a ji 


j 1..m

On garde trace ainsi des n-1 meilleurs états successifs du parcours

Résultat final: Prendre le chemin qui maximise  n (i ) =>


Complexité en o(m2*n) en temps, o(m*N) en espace (un chemin par état)
L’algorithme de Viterbi
1. Initialisation : Pour t=1 et  (i )   i * bi (o1 )
1
1i m, 1 (i )  0

2. Récurrence :

t 1
 
(i )  max  t ( j ) * a j ,i * bi (ot 1 )
Pour t = 2,…,n, j  1..m
et 1  i  m ,  (i )  arg max j ( t 1 ( j ) * a j ,i )
t
j  1..m
3. Terminaison :
s(n) = argmaxiT ( i )
4. Retour en arrière :
Pour t = n-1,…,1, s(t) = Ψt+1(s(t+1))
Exemple
 Une personne en vacances envoie une carte
postale mentionnant les activités suivantes :
 jour 1: plage ; jour 2 : magasinage ; jour 3 : sieste.
 On veut en déduire la séquence météorologique
sous-jacente probable sachant que :
 Les conditions météorologiques suivent une chaîne de
Markov à 2 états : Pluie et soleil
 On possède des statistiques sur le comportement des
touristes selon les états
Modèle HMM
0.4 0.3 0.6
0.7 0.3
A= B= 0.1 0.6 = 0.4
0.4 0.6
0.5 0.1
Transition d’état émission de symboles par les états état initial
 ={pluie=1, soleil=2}, ={magasinage=1, plage=2, sieste=3}

 Séquence d’observations : O = 2,1,3


 Probabilité du meilleur chemin menant à l’état j au temps t :
 t ( j )  max P(o1 , o2 ,..., ot , Si (t )  s j  )
I
 État optimal à l’instant t-1 pour aboutir à l’état j au temps t :
 (i )  arg max j ( t 1 ( j ) * a j ,i )
t
j  1..m
O 2 ,1,3
 ( i ) i*bi ( o1 )
Calculs
1
 ( i ) max  t ( j )*a j ,i *bi ( ot1 )
t 1 j 1..2
 ( i )arg max j (  t1( j )*a j ,i )
t
 Étape 1 j 1..m
 1(1) = π1*b1(2) = 0.6*0.1 = 0.06,
 1(2) = π2*b2(2) = 0.4*0.6 = 0.24,
 Ψ1(1) = Ψ1(2)=0
 Étape 2
 t=2
 2(1) = maxj (1(j)*aj 1)*b1(1)
= max {0.06*0.7, 0.24*0.4}*0.4 = 0.0384
=> Ψ2(1) = argmaxj (1(j)*aj 1)= 2
 2(2) = maxj (1(j)*aj2)*b2(1)
= max{0.06*0.3, 0.24*0.6}*0.3 = 0.0432
=> Ψ2(2) = 2
O 2 ,1,3
 ( i ) max  t ( j )*a j ,i *bi ( ot1 )
t 1 j 1..2

 t=3
 3(1) = maxj (2(j)*aj1)*b1(3)
= max{0.0384*0.7, 0.0432*0.4}*0.5 = 0.01344
=> Ψ3(1) = 1
 3(2) = maxj (2(j)*aj2)*b2(3)
= max{0.0384*0.3, 0.0432*0.6}*0.1 = 0.002592
=> Ψ3(2) = 2

 Étape 3 : s(3) = argmax {3(1), 3(2)} = 1


 Étape 4 : s(2) = Ψ3(s(3)) = 1, s(1) = Ψ2(s(2)) = 2

La séquence d’états cachés la plus probable est 2,1,1, avec


une vraisemblance P(O|λ) = 0.01344.
Vérification par la force brute !

P(s1=i,s2=j,s3=k,o1=2,o2=1,o3=3|)=i*bi(2)*aij*bj(1)*ajk*bk(3)

S πi bi aij bj ajk bk P
1,1,1 0.6 0.1 0.7 0.4 0.7 0.5 0.005880
1,1,2 0.6 0.1 0.7 0.4 0.3 0.1 0.000504
1,2,1 0.6 0.1 0.3 0.3 0.4 0.5 0.001080
1,2,2 0.6 0.1 0.3 0.3 0.6 0.1 0.000324
2,1,1 0.4 0.6 0.4 0.4 0.7 0.5 0.01344
2,1,2 0.4 0.6 0.4 0.4 0.3 0.1 0.001152
2,2,1 0.4 0.6 0.6 0.3 0.4 0.5 0.008640
2,2,2 0.4 0.6 0.6 0.3 0.6 0.1 0.002592
Caractérisation d’un HMM par
apprentissage
 Partant d’un ensemble de séquences d’observations
O={O1,...,OT}, comment ajuster =<,,,A,B> pour
maximiser P(O|) ?

 Choix du nombre d’états (fixé, automatique (critères globaux,


fusions d’états))
 Choix de la fonction d’émission (loi multinomiale, normale,
Student)
 Méthodes d’apprentissage (Viterbi, Baum-Welch, NN)
Choix du nombre d’états
 Si on est chanceux, on peut associer une sémantique aux états.
Ex :

0
1
0 0

Article Adjectif Nom Verbe

le=0.4 bon:0.1 possède:0.3


la=0.4 modèle:0.3
optimal:0.5 permet:0.4
du=0.2 ouvrier:0.1
grand:0.4 travaille:0.3
choix:0.6
Choix du nombre d ’états
 On peut aussi partir d’observations
 Exemple d’un HMM continu gaussien en 2D, bi() ~ N(,)
Observations Etats

1,1 2,2

3,3

Nombre de composantes dans le mélange ~ Nombre d ’états dans le


HMM
Entraînement de Viterbi

On dispose d’un ensemble d’observations O={O1,...,OT}


T

 Principe du max. de vraisemblance: P(   ) P(  i  )


i 1

 Max. de vraisemblance suivant les chemins de Viterbi:


T
P(   ,V ) P(  i  ,V i )
i 1

- Approche moins rigoureuse


+ Hypothèse de Viterbi: « Tous les autres chemins ont une
probabilité nulle ou négligeable »
P(   ) P(   ,V )
+ Algorithme optimal
Entraînement de Viterbi

 bj() : loi multinomiale sur l’alphabet 

Rappel : P(O Si , )   i (1) * ai (1),i ( 2) * bi (1) (o1 ) * ... * ai ( n1),i ( n ) * bi ( n ) (on )

M ijl : Nombre d’émissions de ol par sj pour la séquence Si


N ijk : Nombre de transitions de s à s pour la séquence S
j k i

m  m m
i,  M
j 1 l 1
i
jl   N ijk  1   i
j 1 k 1

 
P(   ,V ) i ( 1 )* b j ( ol ) a j ,k
M ijl N ijk
i i

s jS  ol 

sk S 
Entraînement de Viterbi

 Pj 
P(   ,V )  j b j ( ol ) jl a j ,kjk 
M N

s jS 

ol sk S 
N jk : Nombre de passages sj en sk pour l ’ensemble des séquences
M jl : Nombre d’émissions du symbole ol par sj pour l ’ensemble des
séquences
Pj : Nombre de fois où sj est premier dans le chemin de Viterbi

Maximiser cette formule <=> Maximiser les 3 sous-produits

Pj N jk M jl
ˆ j  , aˆ j , k  m
, bˆ j(ol )  m
T
N
i 1
ji M
i 1
il
Entraînement de Viterbi
1. Choix du paramétrage initial du HMM
2. Répéter
· Initialiser les compteurs N jk M jl Pàj 0
· Pour chaque séquence d’observations Oi
· Calculer le chemin de Viterbi pour le HMM courant
· Mettre à jour des compteurs N jk M jl Pj
Fin pour
· Re-estimer les paramètres du HMM avec les formules
précédentes
Jusqu’à stabilité des paramètres;
Algorithme de Baum-Welch
T

On veut toujours estimer    ) , mais sans connaissance de


i
P(
i 1
chemin !!
Probabilité dans  de passer par si à t et sj à t+1 pour l’a séquence
observations Ok :
 t (i, j )  P ( S k (t )  si , S k (t 1)  s j O k ,  )
Avec la règle de Bayes: ot+1
P ( sk (t )  si , sk (t 1)  s j , O k  ) aij
 t (i, j )  si sj
P (O  )k

 t (i ) * ai , j * b j (ot 1 ) *  t 1 ( j )
 t (i, j ) 
P (O k  ) t t((ii))PP((oo1t,..., o ,s  s H)
1 ,...,t onk i( t )  i , iH )
Algorithme de Baum-Welch (2)

Conséquences pour une séquence d’observations donnée :


m
 t (i )    t (i, j ) : Probabilité dans  de se retrouver à l’instant t dans
j 1
l’état si
n 1

  (i, j )
t 1
t : Espérance du nombre de transitions par sj à l’instant t
n 1


t 1
t (i ) : Espérance du nombre total de passages par si

=> on aboutit à des estimateurs simples ...


Algorithme de Baum-Welch (3)
n 1

  (i, j )
t
Espérance du nombre de transitions de s i vers s j
aˆi , j  t 1
n 1

Espérance du nombre de passages par s i
  t (i)
t 1

ˆ i   1 (i )

n n

  t ( j ) ot  t ( j )(ot  ˆ j )T (ot  ˆ j )
ˆ j  t 1
n
ˆ j  t 1
n

 t ( j) 
t 1
t ( j)
t 1

Formules à étendre pour T séquences !


Algorithme de Baum-Welch (fin)
· Choix du paramétrage initial du HMM
· Répéter
· Pour chaque séquence Oi
· Calculer  ti ( j ) avec l ’algorithme forward
· Calculer  i ( j ) avec l ’algorithme backward
t
· Calculer  i ( j )
t
· Calculer  i ( j )
t
· Fin pour
· Ré estimer les paramètres du HMM avec les formules
précédentes
· Jusqu ’à stabilité des paramètres;

Croissance monotone de la vraisemblance => optimum local

Vous aimerez peut-être aussi