Académique Documents
Professionnel Documents
Culture Documents
23 août 2023
2 Statistique
3 Paradigme statistique
6 Exemples
Cours / PC
Eric Moulines, Professeur, Ecole Polytechnique, responsable du module
Aymeric Dieuleveut, Professeur, Ecole Polytechnique
Gersende Fort, DR CNRS, Institut de Mathématiques de Toulouse
Sébastien Gadat, Professeur, Toulouse School of Economics, Toulouse
Matthieu Lerasle, Professeur, ENSAE
Marylou Gabrié, Professeur, Ecole Polytechnique
Transparents du cours
https://moodle.polytechnique.fr/course/view.php?id=17313
Polycopié
https://moodle.polytechnique.fr/pluginfile.php/608833/mod_resource/
content/8/mainpoly.pdf
Les documents et exercices de PC. [des corrections détaillées seront données]
2 DM avec des illustrations numériques.
3 Exercices Numériques
2 Statistique
Historique
Exemples
Tendance
3 Paradigme statistique
6 Exemples
épidémiologie
génomique, protéomique
médecine de précision
pollution
météorologie
ressources
Finance : modélisation
des actifs (actions,
options, indices, future).
Assurance et actuariat :
calcul des risques,
primes, défaut.
Reconnaissance de
parole
Vision par ordinateur
Traduction automatique
Système de recommandation
Optimisation séquentielle (site web, etc)
Scoring clients
https://www.forbes.com/sites/louiscolumbus/2019/01/23/
data-scientist-leads-50-best-jobs-in-america-for-2019-according-to-glassdo
1 Data Scientist
8 Data Engineer
2 Statistique
3 Paradigme statistique
Données
Modélisation statistique
Sondage
6 Exemples
N210
N42
N74 N292
N114 N254
N266
N316
N33
N24
N191
N11 N187
N194
N92
N101
N287 N160
N180 N153
N233
N330
N302 N294
N47 N196
N299
N300 N242
N335
N228
N94
N126
N256 N346
N18 N260
N206 N204 N5
N340
N53
N38
N57 N249
N244 N317
N183
N12 N76 N283
N301 N221
N209
N1
N10
N80 N146 N87 N235
N117 N246
N130
N178 N345
N282 N77
N234 N320
N154 N213
N37
N135 N48 N45
N73 N133 N168
N158 N7
N132 N136 N129
N127 N165 N303
N184 N270
N66
N88 N3
N219 N280 N224
N90 N36 N236
N248 N315
N108 N30 N274 N22
N139
N327 N121
N0
N253
N167 N311
N201
N307
N70 N258 N84
N208 N119 N199 N203 N252 N134 N170
N55
N216
N27 N51
N106 N331
N32 N305
N243 N172 N313 N104 N128 N223 N314
N264
N337 N176
N298
N289
N212
N207 N344 N342 N118 N261
N230 N325 N123 N318 N237
N259
N343
N20
N269
N152
N102 N61
N189
N226
N149 N138 N175
N171 N86
N225
N143
N78 N4
N131
N215
N49
N286 N177
N195 N46
N273
N218
N35
N328
N166
N306 N241
N255
N58
N173
N198
N34
N393
N441
N464
N351
N364
N476
N399
N454 N107
N349
N427
N384
N478
N390
N361
N491
N446
N490
N474
N396 N414
N434
N470
N359 N496
N405 N450
N394
N488
N489 N482
N436 N391
N382
N379 N367
N475 N366
N354
N410 N428
N423 N425
N355
N378
N376 N363
N492
N481 N452
N438
N403 N392
N458
N353
N480 N374 N373
N420 N483
N456 N398
N400
N429
N426 N422 N352
N487
N497 N412 N431
N386 N418 N348
N461
N463 N484 N479
N407
N395
N455 N465 N408
N370
N432
N460 N473
N466 N350 N471
N409
N404 N375
N402 N417
N444
N372
N388
N385 N493
N397 N495
N401 N430
N387 N419
N433 N462
N368
N449 N439
N445
N494
N442 N360
N435 N421
N413
N389 N362
N369
N416 N440
N451
N424 N448
N477
N357
N457
N459
N371
N365
N381
N447
N437
N498
N486
N380
N356
N485
N406
N411
N358
N453
N467
N499
N468
N443
Modélisation statistique :
Données = réalisation d’un élément aléatoire
Z = (X1 , . . . , Xn ) , Z(ω) = (X1 (ω), . . . , Xn (ω)) = (x1 , . . . , xn ) .
Z = (X1 , . . . , Xn )
Population de taille N .
Échantillon (sans remise) de taille n.
Espace de probabilité : Z = {0, 1}n muni de la tribu des parties Z = P({0, 1}n ).
Observation : Z = (X1 , . . . , Xn ) où pour tout (x1 , . . . , xn ) ∈ Z,
Xi (x1 , . . . , xn ) = xi .
Données : (x1 , x2 , . . . , xn ) ∈ {0, 1}n une réalisation de l’observation
Z = (X1 , . . . , Xn ) :
1 xi = 1 : le i-ème sondé vote A,
2 xi = 0 : le i-ème sondé vote B.
(N θ − x1 )x2 (N − 1 − (N θ − x1 ))1−x2
pθ (x1 , x2 ) = × (N θ)x1 (N − N θ)1−x1 /N
N −1
Pn−1
P sondage, population totale N − (n − 1), N θ −
Au n-ème i=1 xi votent A,
(N θ − n−1
i=1 xi ) votent B
Pn−1 xn Pn−1 1−xn
Nθ − i=1 xi N − n + 1 − Nθ − i=1 xi
pθ (xn |x1 , . . . , xn−1 ) = .
N −n+1
En appliquant récursivement la règle de Bayes :
2 Statistique
3 Paradigme statistique
6 Exemples
Définition (Statistique)
Soient (Z, Z, C) un modèle statistique et (T, T ) un espace mesurable.
On appelle statistique sur (Z, Z, C) une application mesurable T de (Z, Z) à valeurs dans
(T, T ).
Considérons le modèle (Z, Z, C) = (Rn , B(Rn ), {Pθ , θ ∈ Θ := R × R∗+ }) où pour tout
θ ∈ Θ, Pθ := pθ · Leb⊗n où pθ est une densité gaussienne sur Rn de moyenne µ1n et de
covariance σ 2 In×n :
n
!
2 −n/2 1 X 2
pθ (x1 , . . . , xn ) = (2πσ ) exp − 2 (xi − µ) .
2σ i=1
Définition (n-échantillon)
Lemme
Soit (X, X , C)n un n-échantillon du modèle (X, X , C).
(i) Les observations Z = (X1 , . . . , Xn ) sont indépendantes.
(ii) Pour tout i ∈ {1, . . . , n}, le modèle induit par la statistique Xi est (X, X , C).
Démonstration.
pour tout P = Q⊗n ∈ C ⊗n et (A1 , . . . , An ) ∈ X n , nous avons
PZ (A1 × · · · × An ) = P(X1 ∈ A1 , . . . , Xn ∈ An )
n
Y n
Y
= Q⊗n (A1 × · · · × An ) = Q(Ai ) = P(Xi ∈ Ai ) .
i=1 i=1
On dispose d’un n-échantillon (X, X , C)n d’un modèle statistique (X, X , C).
L’observation (X1 , . . . , Xn ) est définie pour i ∈ {1, . . . , n} par Xi : Xn → X,
Xi (x1 , . . . , xn ) = xi
Les statistiques X1 , . . . , Xn sont indépendantes et de même loi, et le modèle induit
par Xi est (X, X , C).
2 Statistique
3 Paradigme statistique
6 Exemples
Probabilité : les lois sont supposées connues... Etant donnée une loi de probabilité P
sur un espace mesurable (Ω, F) et un vecteur aléatoire Z, l’objet du calcul des
probabilités est d’évaluer
des quantités de la forme
P(f (Z) ≥ c), E[f (Z)],
0.020
0.010
y
population N = 50 × 106 ,
0.000
échantillon n = 1000, 0 200 400 600 800 1000
x
θ = 0.52.
Graphes de
(N θ)(N −N θ)
0.020
k −→ k Nn−k
(n)
0.010
y
0.000
2 Statistique
3 Paradigme statistique
6 Exemples
Modèle de régression
Systèmes de recommandation
1.5
0.5
-0.5
1880 1900 1920 1940 1960 1980 2000 2020
m(β, i) = β0 + β1 t(i)
La distribution de ces estimateurs est connue : pour tout (β, σ 2 ) ∈ R2 × R+ , sous Pβ,σ2
b ∼ N(β, σ 2 (Φ⊤ Φ)−1 )
β
(n − 2)σ̂ 2 /σ 2 ∼ χ2 (n − 2)
0.5
-0.5
1880 1900 1920 1940 1960 1980 2000 2020
0.5
-0.5
1880 1900 1920 1940 1960 1980 2000 2020
m(β, i) = β0 + β1 i + β2 (i − β3 )1{i≥β3 }
où
1 t(1) 0
.. ..
1 . .
1 t(β3 ) 0
Φ(β2 ) =
1 t(β3 + 1) t(β3 + 1) − t(β3 )
.. .. ..
. . .
1 t(n) t(n) − t(β3 )
On estime β3 en minimisant la vraisemblance profilée
2
0.25
1.9 0.2
0.15
1.8
0.1
1.7 0.05
0
1.6
-0.05
1.5 -0.1
-0.15
1.4
-0.2
1.3 -0.25
1900 1920 1940 1960 1980 2000 1880 1900 1920 1940 1960 1980 2000 2020
1.5
0.5
-0.5
1880 1900 1920 1940 1960 1980 2000 2020
m1 : le nombre d’utilisateurs
m2 : le nombre de produits
Y : matrice m1 × m2 avec
m1 : le nombre d’utilisateurs
m2 : le nombre de produits
Y : matrice m1 × m2 avec
Les notes Yi,j sont indépendantes et distribuées suivant une loi multinomiale
exp(θi,j,1 ) exp(θi,j,K )
PK , . . . , PK
k=1 exp(θi,j,k ) k=1 exp(θi,j,k )
Nécessité de faire une hypothèse sur la structure de θ, qui soit raisonnable pour
l’application considérée
plusieurs possibilités ! Par exemple, si le nombre de modalités K = 1, il est souvent
les préférences des utilisateurs sont mélanges d’un petit nombre de comportement
“prototype”, i.e la matrice θ est de rang ≤ q
θ = LDU
où
L est une matrice triangulaire inférieure m1 × q (éléments diagonaux = 1),
U est une matrice triangulaire supérieure q × m2
D est une matrice diagonale q × q.
θ = LDU
où
L est une matrice triangulaire inférieure m1 × q (éléments diagonaux = 1),
U est une matrice triangulaire supérieure q × m2
D est une matrice diagonale q × q.
Le nombre total de paramètres est égal à q(m1 + m2 ) et le rang q est souvent choisi
de telle sorte que
q(m1 + m2 ) ≪ n ≪ m1 m2
Estimer les matrices L, D et U ... Dans ce cas (comme dans la plupart des
applications ”réelles”), il n’y a pas de méthodes d’estimation ”élémentaires” (voir
Cours 2 méthodes d’estimation)
Imputer les données manquantes .
C’est la base des systèmes de recommandations ou de filtrage collaboratif (dans un
système ”opérationnel”, il y a bien entendu un certain nombre de raffinements à
apporter, mais c’est la ”base”).