Vous êtes sur la page 1sur 42

FAA - M1S2

Hadrien
Glaude

Introduction

Fondements de l’Apprentissage Automatique Exemple


introductif

Chaı̂nes de Markov Propriétés


Distribution
stationnaire
Convergence
Page Rank
Hadrien Glaude Apprentissage
et
hadrien.glaude@univ-lille1.fr utilisations

Université Lille 1 - CRIStAL (SequeL) - Thales Systèmes Aéroportés

Master 1 Info

1/33
1 Introduction

2 Exemple introductif

3 Propriétés
Distribution stationnaire
Convergence
Page Rank

4 Apprentissage et utilisations
Chaı̂nes de Markov
Introduction

FAA - M1S2

Hadrien
Modèle probabiliste sur des séquences d’observations Glaude

P (x1 , x2 , ..., xn ) Introduction


Exemple de séquences : Exemple
introductif
le langage naturel,
Propriétés
la parole, les gestes, Distribution
en finances, les valeurs boursières, stationnaire
Convergence
en bioinformatique, l’ADN. Page Rank

Apprentissage
Exemple d’usages : et
utilisations
classification (ex : soit deux chaı̂nes M1 , M2 , on peut
comparer les vraisemblances
P (x1 , x2 , ..., xn |M1 ) ≶ P (x1 , x2 , ..., xn |M2 ))
partitionnement (en utilisant un mélange de chaı̂ne de
Markov, voir cours précédent)
prédiction des prochaines observations / génération de
séquences

2/33
1 Introduction

2 Exemple introductif

3 Propriétés
Distribution stationnaire
Convergence
Page Rank

4 Apprentissage et utilisations
Exemple introductif
Repas de l’étudiant

Supposons que l’étudiant se nourrisse exclusivement de quatre FAA - M1S2

plats. Hadrien
Glaude

Introduction

Exemple
introductif

Propriétés
Distribution
stationnaire
Convergence
Page Rank
(a) Pâtes (b) Pizza surgelée Apprentissage
et
utilisations

(c) Steak et conserve (d) Omelette


Figure: Les quatres plats de l’étudiant
3/33
Exemple introductif
Repas de l’étudiant

Objectif : prédire le repas de ce soir FAA - M1S2

Hadrien
Glaude

Introduction

Exemple
introductif

Propriétés
Distribution
stationnaire
Convergence
Page Rank

Apprentissage
et
utilisations

4/33
Exemple introductif
Analyse statique

FAA - M1S2
Première approche : faire un sondage dans la résidence
concernant le dernier repas pris par chaque étudiant. Hadrien
Glaude

Introduction

Exemple
introductif

Propriétés
Distribution
Table: Résultat du sondage stationnaire
Convergence
Page Rank

Apprentissage
Ce qui nous donne les probabilités suivantes : et
utilisations

2 4
P (R = omelette) = 14 ≈ 0.14 P (R = pizza) = 14 ≈ 0.29
3 5
P (R = steak) = 14 ≈ 0.21 P (R = p âtes) = 14 ≈ 0.36
Table: Probabilité pour le repas de ce soir

Ce soir je prédis que vous allez manger des pâtes avec une
probabilité de 0.36.
5/33
Exemple introductif
Analyse statique

FAA - M1S2

 Ah non, j’en ai déjà mangé hier, j’en ai marre des pâtes  Hadrien
Glaude

Introduction

Exemple
introductif

Propriétés
Distribution
stationnaire
Convergence
Page Rank

Apprentissage
et
utilisations

Le modèle actuel ne prend pas en compte le repas précédent.


Enrichissons notre modèle.
6/33
Exemple introductif
Analyse dynamique

Faisons un sondage sur les deux derniers repas mangés par les FAA - M1S2

étudiants de la résidence. Hadrien


Glaude

Introduction

Exemple
introductif

J1 Propriétés
Distribution
J2 stationnaire
Convergence
Page Rank
Table: Résultat du sondage Apprentissage
et
utilisations

Résumons les probabilités dans une matrice


o pi pa s
 
o 0 3/4 0 0
p  0 0 4/5 0 
T = i 
pa 1/2
 0 1/5 1 
s 1/2 1/4 0 0
7/33
Exemple introductif
Matrice de transition

FAA - M1S2

Hadrien
Dis moi ce que tu as mangé hier, je te prédis ce que tu Glaude
mangeras ce soir. Exemple :
Introduction
 Hier j’ai mangé des pâtes (Rt−1 = pa ) Exemple
introductif
Prédiction :  ce soir tu mangeras une pizza avec une Propriétés
probabilité de P (Rt = pi |Rt−1 = pa ) = 0.8 ou bien encore Distribution
stationnaire
des pâtes avec une probabilité de Convergence
Page Rank
P (Rt = pa |Rt−1 = pa ) = 0.2  Apprentissage
et
o pi pa s utilisations
 
o 0 3/4 0 0
p  0 0 4/5 0 
T = i 
pa  1/2 0 1/5 1 
s 1/2 1/4 0 0
On appelle T la matrice de transition.

8/33
Exemple introductif
Représentation sous forme de graphe

On peut aussi représenter la dynamique sous forme de graphe. FAA - M1S2

Hadrien
Glaude

1/5 Introduction

4/5 1/4 Exemple


introductif
1
Propriétés
Distribution
stationnaire
Convergence
Page Rank

3/4 Apprentissage
et
utilisations

1/2 1/2

Figure: Graphe de la chaı̂ne de Markov


9/33
Exemple introductif
Vecteur d’état

FAA - M1S2

Soit rt−1 le vecteur indiquant le dernier repas. On appelle rt−1 le Hadrien


Glaude
vecteur d’état au temps t − 1. Dans notre exemple,
Introduction

Exemple
  introductif
o 0 Propriétés
p 0 Distribution
= i

rt−1  stationnaire
pa 1 
 Convergence
Page Rank
s 0 Apprentissage
et
utilisations
La probabilité du prochain repas est donné par,
 
0
4/5
P (Rt |Rt−1 = pa ) = rt = T rt−1 = 
1/5
0

10/33
Exemple introductif
Hypothèse de Markov

FAA - M1S2
On peut aussi donner la probabilité du repas de demain :
Hadrien
Glaude
rt+1 = P (Rt+1 |Rt−1 = pa )
Introduction
X
= P (Rt+1 , Rt = r |Rt−1 = pa )
Exemple
r introductif
X
= P (Rt+1 |Rt = r , Rt−1 = pa ) P (Rt = r |Rt−1 = pa ) Propriétés
Distribution
stationnaire
r Convergence
Markov Page Rank
X
= P (Rt+1 |Rt = r ) P (Rt = r |Rt−1 = pa ) Apprentissage
r et
utilisations
= Tr
t    
0 3/4 0 0 0 12/20
 0 0 4/5 0
 4/5  4/25 
   
= 1/2 0 1/5 1 1/5 =  1/25 

1/2 1/4 0 0 0 4/20

Hypothèse de Markov : on a fait l’hypothèse que le repas du


jour ne dépend que de celui de la veille. 11/33
Exemple introductif
Hypothèse de Markov

FAA - M1S2

Hadrien
Glaude

R0 R1 R2 R3 R4 Introduction

Exemple
introductif
Figure: Dépendance Markovienne
Propriétés
Distribution
stationnaire
Convergence
Propriété de Markov Page Rank

Toute l’information pertinente pour la prédiction du futur est contenue Apprentissage


et
dans l’état présent utilisations

P (Rt+1 = r |Rt = rt , Rt−1 = rt−1 , ..., R0 = r0 ) = P (Rt+1 = r |Rt = rt )

Lorsque la chaı̂ne est homogène les probabilités de transitions sont


indépendantes du temps. Pour tout t, on a

P (Rt+1 = i|Rt = j) = P (R1 = i|R0 = j) = Tij

T est appelé la matrice de transition.


12/33
Exemple introductif I
Hypothèse de Markov d’ordre supérieur

FAA - M1S2

Hadrien
Glaude

Introduction

Exemple
R0 R1 R2 R3 R4 introductif

Propriétés
Distribution
Figure: Dépendance Markovienne d’ordre 2 stationnaire
Convergence
Page Rank

Apprentissage
et
utilisations

R0 R1 R2 R3 R4

Figure: Dépendance Markovienne d’ordre 3


13/33
Exemple introductif II
Hypothèse de Markov d’ordre supérieur

FAA - M1S2

Hadrien
Glaude

Introduction

Exemple
introductif
R0 R1 R2 R3 R4 Propriétés
Distribution
stationnaire
Convergence
Page Rank

Apprentissage
R1 R2 R3 R4 R5 et
utilisations

R0 R1 R2 R3 R4

Figure: Concaténation des états : transformation d’une chaı̂ne


Markovienne d’ordre 2 en une chaı̂ne Markovienne d’ordre 1.

14/33
Exemple introductif
Distribution initiale et à t pas de temps

FAA - M1S2

Hadrien
Glaude

Introduction

On appelle distribution initiale de la chaı̂ne de Markov, la Exemple


introductif
distribution sur le premier état de la chaı̂ne : r0 = P (R0 ).
Propriétés
Dans notre exemple, on a pris P (R0 = pa ) = 1. En Distribution
stationnaire
l’absence d’information, on aurait pu prendre une Convergence
Page Rank
distribution uniforme. Apprentissage
et
La probabilité à t pas de temps s’écrit alors, utilisations

P (Rt |R0 ) = T t r0

15/33
Exemple introductif
Convergence vers la distribution stationnaire

FAA - M1S2

Hadrien
Glaude
Supposons que notre étudiant commence l’année en
Introduction
mangeant des pâtes.
Exemple
On peut calculer : introductif

Propriétés
Distribution
stationnaire
       
0 0 0.6 0.12 Convergence
0 0.2 0.16 0.032 Page Rank
r0 = 
1
 r1 =  
0.8 r2 = 
0.04
 r3 = 
0.508
 Apprentissage
et
0 0 0.2 0.34 utilisations
       
0.230 0.204 0.206 0.207
0.319 0.282 0.276 0.276
r10 ≈ 
0.303
 r20 ≈ 
0.346
 r30 ≈ 
0.345
 r40 ≈ 
0.345

0.149 0.169 0.172 0.172

16/33
Exemple introductif
Convergence vers la distribution stationnaire

FAA - M1S2

Hadrien
Glaude

Introduction

Exemple
introductif

Propriétés
Distribution
stationnaire
Convergence
Page Rank

Apprentissage
et
utilisations

Figure: Convergence vers la distribution stationnaire

17/33
Exemple introductif
Convergence vers la distribution stationnaire

FAA - M1S2

Hadrien
Glaude

Introduction

Exemple
introductif

Propriétés
Distribution
stationnaire
Convergence
Page Rank

Apprentissage
et
utilisations

Figure: Convergence vers la distribution stationnaire

18/33
1 Introduction

2 Exemple introductif

3 Propriétés
Distribution stationnaire
Convergence
Page Rank

4 Apprentissage et utilisations
1 Introduction

2 Exemple introductif

3 Propriétés
Distribution stationnaire
Convergence
Page Rank

4 Apprentissage et utilisations
Distribution stationnaire
Définition

FAA - M1S2

Hadrien
Glaude

Distribution stationnaire Introduction


Soit une chaı̂ne de Markov homogène, S ses états et T sa Exemple
introductif
matrice de transition, le vecteur π est une distribution
Propriétés
stationnaire si, pour tout état j ∈ S, Distribution
stationnaire
Convergence

∀j ∈ S 0 ≤ π j ≤ 1 Page Rank

X Apprentissage
et
πi = 1 utilisations
i∈S
π = Tπ

Ainsi tout vecteur propre de T associé à la valeur propre 1 est


une distribution stationnaire.

19/33
Distribution stationnaire
Existence

FAA - M1S2

Hadrien
Glaude
Dans la suite du cours, on suppose que l’espace d’état est fini.
Introduction

Récurrence Exemple
introductif
Un état r est dit récurrent si la probabilité que la chaı̂ne de Propriétés
Markov repasse par cet état au bout d’un temps fini vaut 1. Distribution
stationnaire
Convergence
Page Rank
P (inf n ≥ 1, Rn = r < +∞) = 1 Apprentissage
et
utilisations
Sinon, l’état est dit transitoire.

Un chaı̂ne de Markov fini possède au moins un état récurrent.


Soit r un état récurrent, alors la chaı̂ne de Markov possède au
moins une distribution stationnaire π tel que π i > 0.

20/33
Distribution stationnaire
Existence

FAA - M1S2

Hadrien
Glaude

1 Introduction
1
1/2 Exemple
introductif

Propriétés
Distribution
stationnaire
Convergence
Page Rank
1/2 Apprentissage
et
utilisations

Figure: Pâtes est le seul état récurrent.

21/33
Distribution stationnaire
Unicité

FAA - M1S2

Hadrien
Glaude

Introduction
Chaı̂ne de Markov irréductible
Exemple
Une chaı̂ne de Markov est irréductible si pour chaque couple introductif

d’état il existe un chemin dans son graphe les reliant. Propriétés


Distribution
stationnaire
Convergence
∀i, j ∈ S, ∃k, P (Rk = i|R0 = j) > 0 Page Rank

Apprentissage
et
Une chaı̂ne de Markov irréductible possède au plus une utilisations

distribution stationnaire.
Ainsi, une chaı̂ne de Markov fini irréductible possède une unique
distribution stationnaire. De plus, tous ses états sont récurrents.

22/33
Distribution stationnaire
Existence

FAA - M1S2

Hadrien
Glaude

Introduction

Exemple
introductif

Propriétés
Distribution
stationnaire
Convergence
Page Rank

Apprentissage
et
utilisations

Figure: La chaı̂ne n’est pas irréductible.

23/33
1 Introduction

2 Exemple introductif

3 Propriétés
Distribution stationnaire
Convergence
Page Rank

4 Apprentissage et utilisations
Distribution stationnaire
Convergence

FAA - M1S2

Hadrien
Glaude
État apériodique
Introduction
Un état est apériodique si la chaı̂ne peut retourner dans cet état
Exemple
à des temps irréguliers. L’état r est apériodique si, introductif

Propriétés
∃t 0 ∀t ≥ t 0 P (Rt = r |R0 = r ) > 0 Distribution
stationnaire
Convergence
Page Rank

Un chaı̂ne de Markov dont tous les états sont apériodiques est Apprentissage
et
dı̂tes apériodique. utilisations

Dans une chaı̂ne de Markov irréductible, si un état est


apériodique alors la chaı̂ne l’est.
Dans une chaı̂ne de Markov fini irréductible et apériodique, T t
converge vers une matrice dont chaque colonne correspond à la
distribution stationnaire π.

24/33
Distribution stationnaire
Convergence

FAA - M1S2

Hadrien
Glaude

Introduction

1 1 Exemple
introductif

Propriétés
Distribution
stationnaire
Convergence
Page Rank

Apprentissage
et
utilisations

1 1

Figure: La chaı̂ne n’est pas apériodique.

25/33
1 Introduction

2 Exemple introductif

3 Propriétés
Distribution stationnaire
Convergence
Page Rank

4 Apprentissage et utilisations
Page rank
Définition

FAA - M1S2
Lors d’une recherche sur internet, de nombreuse pages web
Hadrien
peuvent contenir les mots de la requête. Dans quel ordre les Glaude
afficher ?
Introduction
En 1998, deux étudiants de Stanford proposent d’utiliser le Exemple
PageRank. Ils donnent naissance à Google. introductif

Propriétés
Distribution
Première définition du PageRank stationnaire
Convergence
La fonction Page Rank PR vérifie, pour une page i Page Rank

Apprentissage
X PR(j) et
utilisations
PR(i) =
L(j)
j∈Si

où Si est l’ensemble des pages qui ont un lien vers i et L(j) est le
nombre de pages accessible depuis j. On considère que chaque page
pointe vers elle-même et donc L(j) ≥ 1. De plus, on contraint PR à
être normalisé : X
PR(i) = 1
i∈S
26/33
Page rank
Intuition

FAA - M1S2
Popularité : une page est populaire si de nombreuses pages Hadrien
populaires pointent vers elle et surtout vers elle. Glaude

Marche aléatoire : Introduction

Imaginons un internaute naviguant aléatoirement de page Exemple


introductif
en page.
Propriétés
La probabilité qu’il passe de la page i à la page j vaut Distribution
1
Ti j = L(i) si i possède un lien vers la page j, 0 sinon. stationnaire
Convergence
Représentons ce processus par chaı̂ne de Markov où les Page Rank

Apprentissage
états sont les pages. et
Soit π un vecteur tel que π i = PR(i) alors, utilisations

π = Tπ

π est donc une distribution stationnaire de cette chaı̂ne de


Markov.
Algorithme : π est aussi le point fixe de T . En pratique, on
trouve π par itérations successives : π = lim T k π 0
k→+∞
27/33
Page rank
Unicité

FAA - M1S2
Problème : certains pages sont des culs-de-sac, la chaı̂ne
Hadrien
n’est donc pas irréductible et la fonction PageRank n’est Glaude
pas unique.
Introduction

Exemple
Deuxième définition du PageRank introductif

1−d X PR(j) Propriétés


PR(i) = +d Distribution
stationnaire
N L(j) Convergence
j∈Si Page Rank

Apprentissage
où d = 0.85 est le facteur d’amortissement (damping factor). et
utilisations

La chaı̂ne de Markov associée à cette fonction est


irréductible et apériodique.
 PageRank can be thought of as a model of user behavior.

We assume there is a ”random surfer” who is given a web


page at random and keeps clicking on links, never hitting
”back” but eventually gets bored and starts on another
random page. 
28/33
1 Introduction

2 Exemple introductif

3 Propriétés
Distribution stationnaire
Convergence
Page Rank

4 Apprentissage et utilisations
Apprentissage
Estimation des paramètres de la chaı̂nes de Markov

FAA - M1S2

Hadrien
Naturellement, les probabilités de transition ont été Glaude

estimées par comptage. Est-ce justifié ? Introduction

Oui, par le maximum de vraisemblance. Exemple


introductif
Soit N séquences Dl = {r0l , ..., rtli }
d’observations. On Propriétés
cherche les paramètres Θ = {π, T } qui maximise Distribution
stationnaire
Convergence
Page Rank
N  
X Apprentissage
L(D; Θ) = log P (D1 , ...DN |Θ) = log P r0l , ..., rtll Θ
et
utilisations
l=1

avec,
   Y tl  
P r0l , ..., rtll Θ = P r0l π P rtl rt−1
l
,T

t=1

29/33
Apprentissage I
Estimation des paramètres de la chaı̂nes de Markov

FAA - M1S2
l tel que, z l = 1 si r l = k, 0
On introduit les variables ztk tk t
Hadrien
sinon. Ainsi, Glaude

tl Y Y Introduction
zl ztil ×z(t−1)j
l
  Y Y
P r0l , ..., rtll Θ = π k0k × Tij

Exemple
introductif
k t=1 i j
Propriétés
Distribution
On revient à la log vraisemblance stationnaire
Convergence
Page Rank
N X tl X X
Apprentissage
X X
l
L(D; Θ) = z0k log(π k ) + (ztil × z(t−1)j
l
) log(Tij ) et
utilisations
l=1 k t=1 i j

On définit les comptes suivants :


N
X tl
N X
X
l
Nk = z0k Nij = ztil z(t−1)j
l

l=1 l=1 t=1

(nombre de fois où le premier état vaut k et nombre de


transitions observées entre i et j) 30/33
Apprentissage II
Estimation des paramètres de la chaı̂nes de Markov

FAA - M1S2
On peut réécrire, Hadrien
Glaude
X XX
L(D; Θ) = Nk log(π k ) + Nij log(Tij ) Introduction
k i j Exemple
introductif

que l’on cherche à maximiser sous la contrainte Propriétés


Distribution
stationnaire
Convergence
X X
πk = 1 ∀j Tij = 1 Page Rank

k i Apprentissage
et
utilisations
Ce qui donne le Lagrangien suivant,
X XX
L(π, θ, λ, {γj } = Nk log(π k ) + Nij log(Tij )
k i j
X X X
+ λ(1 − πk ) + γj (1 − Tij )
k j i

31/33
Apprentissage III
Estimation des paramètres de la chaı̂nes de Markov

FAA - M1S2

Hadrien
Glaude

Introduction

Exemple
En dérivant et en annulant, on retrouve bien introductif

Propriétés
Nk Nij Distribution
πk = Tij = P stationnaire
N k Nik
Convergence
Page Rank

Apprentissage
Cela correspond bien aux formules que l’on a utilisé dans et
utilisations
l’exemple sans justification.

32/33
Utilisation des chaı̂nes de Markov
Modélisation du langage

FAA - M1S2

Hadrien
Glaude
Modélisation statistique du langage = probabilité de distribution
sur des séquences de mots. Utilisations : Introduction

Exemple
Complétion de phrase : prédire le mot suivant en fonction introductif
des précédents Propriétés
Distribution
Classification de texte : associer une chaı̂ne à chaque type stationnaire
Convergence
de texte (C1 , ..., Cn ). Trouver la chaı̂ne qui maximise la Page Rank

vraisemblance des données arg maxi P (X1 , ..., Xt |Ci ). Apprentissage


et
utilisations
Partitionnement de documents : apprendre un mélange de
K chaı̂nes de Markov. Associer chaque documents à une
chaı̂ne de Markov.
Génération de texte aléatoire : échantillonner selon
P (X1 , ..., Xt )

33/33
5 TP

1/1
Complétion de phrase
FAA - M1S2

Hadrien
Glaude

TP
1 Télécharger un corpus de texte français ou anglais
http://corpora.uni-leipzig.de/download.html
2 Apprendre les probabilités de transitions d’une chaı̂ne de
Markov où les états sont les mots apparaissant dans le
corpus.
3 Générer les prochains mots les plus probables après :
Le but de la vie est ...
4 Recommencer en utilisant un modèle d’ordre 2 puis d’ordre
3.

1/1