Vous êtes sur la page 1sur 55

MAP 433 : Introduction aux méthodes statistiques

23 août 2023

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 1 / 51


1 Présentation
Organisation
Matériel

2 Statistique

3 Paradigme statistique

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

6 Exemples

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 2 / 51


Organisation : équipe enseignante

Cours / PC
Eric Moulines, Professeur, Ecole Polytechnique, responsable du module
Aymeric Dieuleveut, Professeur, Ecole Polytechnique
Gersende Fort, DR CNRS, Institut de Mathématiques de Toulouse
Sébastien Gadat, Professeur, Toulouse School of Economics, Toulouse
Matthieu Lerasle, Professeur, ENSAE
Marylou Gabrié, Professeur, Ecole Polytechnique

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 3 / 51


Organisation : matériel

Transparents du cours
https://moodle.polytechnique.fr/course/view.php?id=17313
Polycopié
https://moodle.polytechnique.fr/pluginfile.php/608833/mod_resource/
content/8/mainpoly.pdf
Les documents et exercices de PC. [des corrections détaillées seront données]
2 DM avec des illustrations numériques.
3 Exercices Numériques

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 4 / 51


Présentation du cours

Introduction à l’inférence statistique


Modèles statistiques et introduction à l’estimation.
Construction d’estimateurs ponctuels. Introduction aux tests.
Construction de tests statistiques, intervalles de confiance.
Introduction à la théorie de la décision
Risque, perte, optimalité, borne de Cramer-Rao
Théorie de Neyman-Pearson, test du rapport de vraisemblance, tests UPP
Statistiques asymptotiques
Statistiques asymptotiques (consistance, normalité asymptotique),
théorie asymptotique des M-estimateurs, maximum de vraisemblance.
Apprentissage statistique
Introduction à l’apprentissage, classifieur bayésien, génératif / discriminatif.
Risque empirique, excès de risque, inégalité d’Hoeffding, bornes PAC élémentaires
Convexification du risque, entropie de Rademacher, etc.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 5 / 51


1 Présentation

2 Statistique
Historique
Exemples
Tendance

3 Paradigme statistique

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

6 Exemples

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 6 / 51


Qu’est ce que c’est ?

La statistique est l’étude de


la collecte,
la modélisation,
le traitement,
des données.
La Statistique est un domaine des mathématiques appliquées formalisé au début du
XXème siècle (K. Pearson, R. Fisher, J. Neyman...), mais dont les prémices
remontent au XVIII siècle (Le mot statistique a été utilisé pour la première fois par G. Achenwall,
au 18e siècle, comme la science de la collecte et l’utilisation de données par l’État).
Aujourd’hui, la statistique s’inscrit dans un vaste champ interdisciplinaire,
l’Intelligence Artificielle qui vont des probabilités appliquées à l’informatique
(apprentissage statistique - ou machine learning-).
Nombreuses connexions avec : probabilité, optimisation, traitement du signal et des
images, calcul scientifique, recherche opérationnelle.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 7 / 51


Médecine, Santé

épidémiologie
génomique, protéomique
médecine de précision

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 8 / 51


Environnement

pollution
météorologie
ressources

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 9 / 51


Assurance finance

Finance : modélisation
des actifs (actions,
options, indices, future).
Assurance et actuariat :
calcul des risques,
primes, défaut.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 10 / 51


Apprentissage statistique & traitement du signal

Reconnaissance de
parole
Vision par ordinateur
Traduction automatique

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 11 / 51


Marketing

Système de recommandation
Optimisation séquentielle (site web, etc)
Scoring clients

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 12 / 51


Classement Forbes 10 Best Jobs for 2019

https://www.forbes.com/sites/louiscolumbus/2019/01/23/
data-scientist-leads-50-best-jobs-in-america-for-2019-according-to-glassdo

1 Data Scientist
8 Data Engineer

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 13 / 51


1 Présentation

2 Statistique

3 Paradigme statistique
Données
Modélisation statistique
Sondage

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

6 Exemples

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 14 / 51


Problématique statistique
Point de départ : des données
(x1 , . . . , xn ).

numériques (scalaires, vectorielles, matricielles) : xi ∈ Rd ou xi ∈ Rp×q


symboliques (labels, catégorielles) : xi ∈ {0, 1} (par exemple)
mixtes
mais aussi des graphes, des fonctions, des textes, etc...
N15
N43

N210

N42

N74 N292

N114 N254
N266
N316
N33
N24
N191
N11 N187

N194
N92
N101
N287 N160
N180 N153
N233
N330
N302 N294
N47 N196
N299
N300 N242
N335
N228
N94
N126
N256 N346
N18 N260
N206 N204 N5
N340
N53

N38
N57 N249
N244 N317
N183
N12 N76 N283
N301 N221
N209
N1
N10
N80 N146 N87 N235
N117 N246
N130
N178 N345
N282 N77
N234 N320
N154 N213
N37
N135 N48 N45
N73 N133 N168
N158 N7
N132 N136 N129
N127 N165 N303

N184 N270
N66
N88 N3
N219 N280 N224
N90 N36 N236
N248 N315
N108 N30 N274 N22
N139
N327 N121

N322 N276 N347


N281 N291 N339
N272 N142
N54 N105 N141 N285 N156
N179
N197
N147 N6 N309 N60
N122 N304 N185 N308 N50
N232
N332 N169 N25
N159 N75 N96
N251
N284 N231

N182 N69 N200 N186 N323 N62


N89 N40 N21 N277 N67
N31
N85
N95 N97
N125
N336 N39
N145 N9 N188 N334
N257 N324 N113 N26 N103
N56
N71 N164
N329 N341
N319
N161 N290
N72 N98 N109
N288 N297 N239 N271 N148

N0
N253
N167 N311
N201
N307
N70 N258 N84
N208 N119 N199 N203 N252 N134 N170
N55
N216
N27 N51
N106 N331
N32 N305
N243 N172 N313 N104 N128 N223 N314
N264
N337 N176
N298
N289
N212
N207 N344 N342 N118 N261
N230 N325 N123 N318 N237
N259

N310 N137 N120


N265 N65
N17
N79 N82 N13
N93 N295
N247 N8
N29 N83
N140
N41 N238 N211 N190
N229 N91

N111 N14 N150


N59
N338
N163 N63
N19
N279 N28 N250
N16
N214 N144
N222 N110

N151 N312 N268


N217 N245
N100
N64
N326 N124
N23 N193
N44 N115 N116 N174

N343
N20
N269
N152
N102 N61
N189
N226
N149 N138 N175

N293 N263 N155


N112
N162
N240

N205 N296 N157


N2 N192
N220 N227
N99
N81
N333
N267
N321 N278
N52
N262 N68
N202 N275
N181

N171 N86
N225
N143
N78 N4
N131
N215
N49

N286 N177
N195 N46
N273

N218
N35

N328
N166
N306 N241

N255

N58

N173

N198

N34

N393
N441

N464
N351

N364
N476

N399

N454 N107

N349

N427
N384
N478

N390

N361
N491
N446
N490
N474

N396 N414

N434

N470
N359 N496
N405 N450
N394
N488
N489 N482
N436 N391
N382
N379 N367
N475 N366
N354
N410 N428
N423 N425
N355
N378
N376 N363
N492
N481 N452
N438
N403 N392
N458
N353
N480 N374 N373
N420 N483
N456 N398
N400
N429
N426 N422 N352
N487
N497 N412 N431
N386 N418 N348
N461
N463 N484 N479
N407
N395
N455 N465 N408
N370
N432
N460 N473
N466 N350 N471
N409
N404 N375
N402 N417
N444
N372
N388
N385 N493
N397 N495
N401 N430
N387 N419
N433 N462
N368
N449 N439

N445
N494
N442 N360
N435 N421
N413
N389 N362

N369
N416 N440
N451

N377 N415 N472


N383 N469

N424 N448

N477
N357

N457
N459
N371
N365
N381
N447
N437
N498
N486
N380
N356

N485

N406

N411

N358
N453
N467
N499

N468

N443

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 15 / 51


Problématique statistique

Modélisation statistique :
Données = réalisation d’un élément aléatoire
Z = (X1 , . . . , Xn ) , Z(ω) = (X1 (ω), . . . , Xn (ω)) = (x1 , . . . , xn ) .

Idée : modéliser variabilité des données


bruit de mesure
échantillonnage
variabilité individuelle
...

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 16 / 51


Modèle statistique

Modèle statistique : la loi du vecteur aléatoire

Z = (X1 , . . . , Xn )

est partiellement connue : connaissance a priori du phénomène étudié.


Hypothèse la loi de Z est un élément d’une famille C de lois, appelée modèle
statistique
Le modèle est dit paramétrique si C = {Pθ : θ ∈ Θ} où Θ ⊆ Rd .
Le modèle est dit non-paramétrique si C = {Pθ : θ ∈ Θ} où Θ ⊆ H est de
dimension infinie.
Problématique : à partir d’une réalisation Z(ω) = (x1 , . . . , xn ) et du modèle C, on
cherche à affiner notre connaissance de la loi de l’observation.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 17 / 51


Modèle statistique

Définition (Modèle statistique)


un espace mesurable (Z, Z), l’espace des observations,
une famille de probabilités C sur (Z, Z).
Le modèle est paramétrique lorsque C = {Pθ , θ ∈ Θ}, où Θ est un sous-ensemble
de Rd , avec d ≥ 1
Le modèle est non paramétrique lorsque l’ensemble Θ est de dimension infinie.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 18 / 51


Sondage

population de N individus qui doivent élire les candidats A ou B.


N θ votent A... la proportion θ ∈ Θ = {0, 1/N, . . . , N/N } est inconnue.
Typiquement, N est très grand... on pratique donc un sondage : tirage sans remise
de n ≪ N individus dans cette population.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 19 / 51


Construction du modèle statistique

Population de taille N .
Échantillon (sans remise) de taille n.
Espace de probabilité : Z = {0, 1}n muni de la tribu des parties Z = P({0, 1}n ).
Observation : Z = (X1 , . . . , Xn ) où pour tout (x1 , . . . , xn ) ∈ Z,
Xi (x1 , . . . , xn ) = xi .
Données : (x1 , x2 , . . . , xn ) ∈ {0, 1}n une réalisation de l’observation
Z = (X1 , . . . , Xn ) :
1 xi = 1 : le i-ème sondé vote A,
2 xi = 0 : le i-ème sondé vote B.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 20 / 51


Sondage

la Loi de l’observation : dépend du paramètre inconnu θ.


Population totale N , N θ votent A, (N − N θ) votent B

pθ (x1 ) = (N θ)x1 (N − N θ)1−x1 /N x1 ∈ {0, 1},

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 21 / 51


Sondage

la Loi de l’observation : dépend du paramètre inconnu θ.


Population totale N , N θ votent A, (N − N θ) votent B

pθ (x1 ) = (N θ)x1 (N − N θ)1−x1 /N x1 ∈ {0, 1},

Population totale N − 1, N θ − x1 votent A, (N − 1 − (N θ − x1 )) votent B

(N θ − x1 )x2 (N − 1 − (N θ − x1 ))1−x2
pθ (x1 , x2 ) = × (N θ)x1 (N − N θ)1−x1 /N
N −1

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 21 / 51


Sondage

Pn−1
P sondage, population totale N − (n − 1), N θ −
Au n-ème i=1 xi votent A,
(N θ − n−1
i=1 xi ) votent B
Pn−1 xn Pn−1 1−xn
Nθ − i=1 xi N − n + 1 − Nθ − i=1 xi
pθ (xn |x1 , . . . , xn−1 ) = .
N −n+1
En appliquant récursivement la règle de Bayes :

pθ (x1 , . . . , xn ) = pθ (x1 )pθ (x2 |x1 ) . . . pθ (xn |x1 , . . . , xn−1 ) .

La loi de l’observation dépend d’un paramètre inconnu θ ∈ Θ la proportion qui vote A.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 22 / 51


1 Présentation

2 Statistique

3 Paradigme statistique

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

6 Exemples

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 23 / 51


Statistique

Définition (Statistique)
Soient (Z, Z, C) un modèle statistique et (T, T ) un espace mesurable.
On appelle statistique sur (Z, Z, C) une application mesurable T de (Z, Z) à valeurs dans
(T, T ).

Exemples : Si (Z, Z, C) = (Rn , B(Rn ), {Pθ , θ ∈ Θ}), et Z = (X1 , . . . , Xn ) avec


Xi (x1 , . . . , xn ) = xi , alors
X1 +...+Xn
S1 (Z) = n
S2 (Z) = min{Xi , i = 1 . . . n}
S3 (Z) = med(X1 , . . . , Xn )

Définition (Statistiques indépendantes)


Nous dirons que les statistiques S et T sur (Z, Z, C) sont indépendantes si pour toute loi
P ∈ C, les éléments aléatoires S et T sont indépendants sous P.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 24 / 51


Exemple : n-échantillon gaussien

Considérons le modèle (Z, Z, C) = (Rn , B(Rn ), {Pθ , θ ∈ Θ := R × R∗+ }) où pour tout
θ ∈ Θ, Pθ := pθ · Leb⊗n où pθ est une densité gaussienne sur Rn de moyenne µ1n et de
covariance σ 2 In×n :
n
!
2 −n/2 1 X 2
pθ (x1 , . . . , xn ) = (2πσ ) exp − 2 (xi − µ) .
2σ i=1

Notons Xi la i-ème observation, i ∈ {1, . . . , n} : pour x = (x1 , . . . , xn ) ∈ Rn ,


Xi (x) = xi .
Sous Pθ , les statistiques Z = (X1 , . . . , Xn ) sont i.i.d. (indépendantes et identiquement
distribuées) de densité gaussienne de moyenne µ ∈ R et variance σ 2 ∈ R∗+ :
n
Y
pθ (x1 , . . . , xn ) = pX i
θ (xi ) .
i=1

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 25 / 51


Loi image d’une statistique et modèle induit

Soit T une statistique sur (Z, Z, C).


À une probabilité P ∈ C on associe la loi image PT de P par T , définie par, pour tout
A ∈ T , par :
PT (A) = P(T ∈ A) .
Pour h mesurable positive sur T,
Z Z
T
h(t)P (dt) = h ◦ T (z)P(dz) = E[h(T )] .
T Z

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 26 / 51


Loi image d’une statistique et modèle induit

Soit T une statistique sur (Z, Z, C).


À une probabilité P ∈ C on associe la loi image PT de P par T , définie par, pour tout
A ∈ T , par :
PT (A) = P(T ∈ A) .

En écrivant C T = PT , P ∈ P , on obtient ainsi le modèle statistique (T, T , C T )




induit par la statistique T .

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 26 / 51


n-échantillon

Définition (n-échantillon)

Soient (X, X , C) un modèle statistique et n ∈ N∗ . On appelle n-échantillon de (X, X , C)


le modèle statistique

(X, X , C)n = (Xn , X ⊗n , P = Q⊗n , Q ∈ C ) .




On appelle i-ème observation canonique la statistique Xi définie pour


z = (x1 , . . . , xn ) ∈ Xn par Xi (z) = xi .

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 27 / 51


n-échantillon

Lemme
Soit (X, X , C)n un n-échantillon du modèle (X, X , C).
(i) Les observations Z = (X1 , . . . , Xn ) sont indépendantes.
(ii) Pour tout i ∈ {1, . . . , n}, le modèle induit par la statistique Xi est (X, X , C).

Démonstration.
pour tout P = Q⊗n ∈ C ⊗n et (A1 , . . . , An ) ∈ X n , nous avons

PZ (A1 × · · · × An ) = P(X1 ∈ A1 , . . . , Xn ∈ An )
n
Y n
Y
= Q⊗n (A1 × · · · × An ) = Q(Ai ) = P(Xi ∈ Ai ) .
i=1 i=1

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 28 / 51


Terminologie

“(X1 , . . . , Xn ) est un n-échantillon du modèle (X, X , C)”

On dispose d’un n-échantillon (X, X , C)n d’un modèle statistique (X, X , C).
L’observation (X1 , . . . , Xn ) est définie pour i ∈ {1, . . . , n} par Xi : Xn → X,
Xi (x1 , . . . , xn ) = xi
Les statistiques X1 , . . . , Xn sont indépendantes et de même loi, et le modèle induit
par Xi est (X, X , C).

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 29 / 51


1 Présentation

2 Statistique

3 Paradigme statistique

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

6 Exemples

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 30 / 51


Statistique et Probabilité

Probabilité : les lois sont supposées connues... Etant donnée une loi de probabilité P
sur un espace mesurable (Ω, F) et un vecteur aléatoire Z, l’objet du calcul des
probabilités est d’évaluer
des quantités de la forme
P(f (Z) ≥ c), E[f (Z)],

et des grandeurs beaucoup plus compliquées !..


Statistiques : on cherche à résoudre un problème inverse. Etant donnée une
réalisation z = (x1 , . . . , xn ) d’un élément aléatoire Z = (X1 , . . . , Xn ), on cherche à
inférer certaines caractéristiques de la loi de ce vecteur aléatoire.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 31 / 51


Les grands problèmes statistiques

estimation ponctuelle : donner une valeur plausible du paramètre θ,


estimation par région : déterminer un sous-ensemble Θ0 (Z) ⊂ Θ auquel le
paramètre θ appartient de façon plausible
test : décider si le paramètre θ appartient à un sous-ensemble Θ0 et évaluer la
plausiblité de la décision.
prédire : donner une valeur plausible pour une quantité non observée

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 32 / 51


Les grands problèmes

La nature et la complexité des modèles varient considérablement en fonction


des phénomènes étudiés,
des connaissances dont nous disposons a priori
- dans des problèmes inverses issus de la physique, le modèle de génération des données
peut être extrêmement sophistiqué (systèmes d’EDP décrivant notre connaissance des
phénomènes physiques sous-jacents).
- dans les problèmes de protéomiques, la connaissance a priori de la fonction des gènes,
les réseaux de régulation, la clinique sont intégrées dans le modèle.
- ...
de la complexité des problèmes d’inférence que nous sommes prêts à considérer...
- Qualité des sources d’information et de l’échantillonnage,
- Aggrégation de sources d’informations inhomogènes.
- Observations obtenues en lots ou séquentiellement.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 33 / 51


Modèle de sondage : Estimation de la proportion

Pour estimer la proportion θ, il est naturel de “compter” le nombre θ̂n d’individus


votant A dans l’échantillon
n
1{1} (Xi ) .
X
θ̂n = θ̂n (X1 , . . . , Xn ) = n−1
i=1

Une telle statistique des observations est appelée un estimateur


Le modèle statistique induit par nθ̂n est donné, pour tout
θ ∈ Θ = {0, 1/N, . . . , N/N }, par Z = {0, . . . , n}, Z = P({0, . . . , n}) et pour tout
k ∈ {0, . . . , n},
Nθ N −N θ
 
k n−k
Pθ (θ̂n = k/n) = N
 .
n

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 34 / 51


Estimation de la proportion

0.020
0.010
y
population N = 50 × 106 ,

0.000
échantillon n = 1000, 0 200 400 600 800 1000
x
θ = 0.52.
Graphes de
(N θ)(N −N θ)
0.020

k −→ k Nn−k
(n)
0.010
y
0.000

400 450 500 550 600


x

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 35 / 51


θ̂n donné par :
n
1{Xi =1} .
X
θ̂n = θ̂n (X1 , . . . , Xn ) = n−1
i=1

est un estimateur ponctuel du paramètre θ.


Questions naturelles :
Comment quantifier l’erreur que nous commettons en estimant θ par θ̂n (régions de
confiance) ?
Existe-t-il de meilleurs estimateurs ?
Peut-on tester l’hypothèse θ > 1/2 ?

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 36 / 51


1 Présentation

2 Statistique

3 Paradigme statistique

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

6 Exemples
Modèle de régression
Systèmes de recommandation

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 37 / 51


Anomalie température moyenne

1.5

0.5

-0.5
1880 1900 1920 1940 1960 1980 2000 2020

Figure – anomalie de température moyenne à l’échelle du globe par rapport à la période


1951-1980, NASA, Goddard Institute for Space Studies
MAP 433 : Introduction aux méthodes statistiques 23 août 2023 38 / 51
Construction du modèle

Observations : déviation des températures annuelles par rapport à la moyenne


1951-1980 : (x1 , . . . , xn ) ∈ Rn
Modèle statistique paramétrique
n  
Y 1 1
pβ,σ2 (x1 , . . . , xn ) = √ exp − 2 {xi − m(β, i)}2
i=1 2πσ 2 2σ

où β = (β1 , . . . , βp ) est un paramètre et pour tout β ∈ Rp , i 7→ m(β, i) est une


fonction.
Paramètres θ = (β1 , . . . , βp , σ 2 ) ∈ Θ = Rp × R∗+

(Rn , B(Rn ), {pθ · Lebn , θ ∈ Θ})

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 39 / 51


Hypothèses du modèle

Ici Z = Rn et Z = (X1 , . . . , Xn ) où Xi (x1 , . . . , xn ) = xi pour i ∈ {1, . . . , n}


Pour tout θ ∈ Θ, Xi et Xj , i ̸= j, sont indépendants sous Pθ
Sous Pθ , et tout i ∈ {1, . . . , n}, la distribution de Xi est gaussienne de variance σ 2
Sous Pθ , la moyenne de Xi est m(β, i)
Ce sont des hypothèses de modélisation, qui peuvent être discutées etc...
Est-il raisonnable de supposer que la variance constante ?
A-t-on une bonne raison de penser que la distribution des erreurs est Gaussienne ?
Les observations sont elles indépendantes ?

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 40 / 51


Tendance linéaire

Hypothèse 1 : tendance linéaire sur l’ensemble de la période :

m(β, i) = β0 + β1 t(i)

où t(i) est l’index de temps


Construction de l’estimateur les paramètres en minimisant l’erreur quadratique
n
X
β̂ = arg min (Xi − β0 − β1 i)2
β∈R2 i=1
n
X
σ̂ 2 = (n − 2)−1 (Xi − β̂0 − β̂1 i)2
i=1

ce qui correspond dans le modèle gaussien à maximiser la vraisemblance des


observations :
(β̂, σ̂ 2 ) = arg max pβ,σ2 (X1 , . . . , Xn )
β,σ 2

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 41 / 51


Solution
La solution est explicite !
" n n
#
X X
βb0 = Xi − βb1 × t(i) /n,
i=1 i=1
(" n
# " n # n
) (" n
#2 n
)
X X X X X
βb1 = t(i) × Xi /n − t(i) × Xi / t(i) /n − [t(i)]2
i=1 i=1 i=1 i=1 i=1

ou, de façon plus compacte,


   
1 t(1) X1
b = (Φ⊤ Φ)−1 Φ⊤ X  . ..   . 
β with Φ =  .. .  and X =  .. 
n t(n) Xn
La variance est donnée par
n
X
σ̂ 2 = (n − 2)−1 {Xi − βb0 − βb1 t(i)}2 = (n − 2)−1 ∥X − Φβ∥2
i=1

La distribution de ces estimateurs est connue : pour tout (β, σ 2 ) ∈ R2 × R+ , sous Pβ,σ2
b ∼ N(β, σ 2 (Φ⊤ Φ)−1 )
β
(n − 2)σ̂ 2 /σ 2 ∼ χ2 (n − 2)

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 42 / 51


Tendance linéaire
1

0.5

-0.5
1880 1900 1920 1940 1960 1980 2000 2020

Figure – anomalie de température moyenne à l’échelle du globe par rapport à la période


1951-1980, NASA, GISS. Intervalle de confiance βb1 ± seβ1 = 0.0072◦ C/a ± 0.0008◦ C/a

0.5

-0.5
1880 1900 1920 1940 1960 1980 2000 2020

Figure – résidu de l’ajustement : R̂i = Xi − β̂0 − β̂1 t(i)

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 43 / 51


Modèle avec rupture de pente

Modèle 2 : rupture de pente

m(β, i) = β0 + β1 i + β2 (i − β3 )1{i≥β3 }

Construction des estimateurs Minimisation de l’erreur quadratique


n
X
β̂ = arg min (Xi − m(β, i))2
β∈R2 i=1
n
X
2 −1
σ̂ = n (Xi − m(β̂, i))2
i=1

qui est aussi l’estimateur du maximum de vraisemblance

(β̂, σ̂ 2 ) = arg max pβ,σ2 (X1 , . . . , Xn )


β,σ 2

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 44 / 51


Pour β3 - position de la rupture de pente - fixé, les paramètres (β0 , β1 , β2 ) peuvent être
calculés de façon explicite
 
β̂0 (β3 )
β̂(β3 ) =  β̂1 (β3 )  = (Φ(β3 )⊤ Φ(β3 ))−1 Φ(β3 )X
β̂1 (β3 )

où
1 t(1) 0
 
 .. .. 

 1 . . 

 1 t(β3 ) 0 
Φ(β2 ) =  

 1 t(β3 + 1) t(β3 + 1) − t(β3 ) 

 .. .. .. 
 . . . 
1 t(n) t(n) − t(β3 )
On estime β3 en minimisant la vraisemblance profilée

βˆ3 = arg min ∥X − Φ(β3 )β̂(β3 )∥2


β3

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 45 / 51


Modèles avec rupture de pente

2
0.25

1.9 0.2

0.15
1.8
0.1

1.7 0.05

0
1.6
-0.05

1.5 -0.1

-0.15
1.4
-0.2

1.3 -0.25
1900 1920 1940 1960 1980 2000 1880 1900 1920 1940 1960 1980 2000 2020

Figure – Gauche : vraisemblance profilée - Droite : résidu de prédiction

1.5

0.5

-0.5
1880 1900 1920 1940 1960 1980 2000 2020

Figure – anomalie de température moyenne à l’échelle du globe par rapport à la période


1951-1980, NASA, GISS

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 46 / 51


Systèmes de recommandation

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 47 / 51


Une formalisation statistique possible

m1 : le nombre d’utilisateurs
m2 : le nombre de produits
Y : matrice m1 × m2 avec

Yi,j = note de l’individu i au produit j

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 48 / 51


Une formalisation statistique possible

m1 : le nombre d’utilisateurs
m2 : le nombre de produits
Y : matrice m1 × m2 avec

Yi,j = note de l’individu i au produit j

données : Yi,j pour (i, j) ∈ I

n = nombre d’observations = card(I) ≪ m1 m2

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 48 / 51


Une formalisation statistique possible

Les notes Yi,j sont indépendantes et distribuées suivant une loi multinomiale
exp(θi,j,1 ) exp(θi,j,K )
PK , . . . , PK
k=1 exp(θi,j,k ) k=1 exp(θi,j,k )

Par convention, on fixe θi,j,K = 0 autrement le modèle n’est pas identifiable


La densité de l’observation par rapport à la mesure de comptage est
K
!1{y =ℓ}
i,j
Y Y exp(θi,j,ℓ )
pθ ({yi,j }(i,j)∈I ) = PK .
(i,j)∈I ℓ=1 k=1 exp(θi,j,k )

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 49 / 51


Une hypothèse sur la structure de θ

Nécessité de faire une hypothèse sur la structure de θ, qui soit raisonnable pour
l’application considérée
plusieurs possibilités ! Par exemple, si le nombre de modalités K = 1, il est souvent
les préférences des utilisateurs sont mélanges d’un petit nombre de comportement
“prototype”, i.e la matrice θ est de rang ≤ q

θ = LDU
où
L est une matrice triangulaire inférieure m1 × q (éléments diagonaux = 1),
U est une matrice triangulaire supérieure q × m2
D est une matrice diagonale q × q.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 50 / 51


Une hypothèse sur la structure de θ

plusieurs possibilités ! Par exemple, si le nombre de modalités K = 1, il est souvent


les préférences des utilisateurs sont mélanges d’un petit nombre de comportement
“prototype”, i.e la matrice θ est de rang ≤ q

θ = LDU
où
L est une matrice triangulaire inférieure m1 × q (éléments diagonaux = 1),
U est une matrice triangulaire supérieure q × m2
D est une matrice diagonale q × q.
Le nombre total de paramètres est égal à q(m1 + m2 ) et le rang q est souvent choisi
de telle sorte que
q(m1 + m2 ) ≪ n ≪ m1 m2

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 50 / 51


Recommandation

Estimer les matrices L, D et U ... Dans ce cas (comme dans la plupart des
applications ”réelles”), il n’y a pas de méthodes d’estimation ”élémentaires” (voir
Cours 2 méthodes d’estimation)
Imputer les données manquantes .
C’est la base des systèmes de recommandations ou de filtrage collaboratif (dans un
système ”opérationnel”, il y a bien entendu un certain nombre de raffinements à
apporter, mais c’est la ”base”).

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 51 / 51

Vous aimerez peut-être aussi