Cours 1 MAP433

MAP 433 : Introduction aux méthodes statistiques
23 août 2023
MAP 433 : Introduction aux méthodes statistiques 23 août 2023 1 / 51

1 Présentation
Organisation
Matériel
2 Statistique
3 Paradigme statistique
4 Statistique, modèle induit, n-échantillon
5 Estimation, tests, prédiction
6 Exemples

Organisation : équipe enseignante
Cours / PC
Eric Moulines, Professeur, Ecole Polytechnique, responsable du module
Aymeric Dieuleveut, Professeur, Ecole Polytechnique
Gersende Fort, DR CNRS, Institut de Mathématiques de Toulouse
Sébastien Gadat, Professeur, Toulouse School of Economics, Toulouse
Matthieu Lerasle, Professeur, ENSAE
Marylou Gabrié, Professeur, Ecole Polytechnique

Organisation : matériel
Transparents du cours
https://moodle.polytechnique.fr/course/view.php?id=17313
Polycopié
https://moodle.polytechnique.fr/pluginfile.php/608833/mod_resource/
content/8/mainpoly.pdf
Les documents et exercices de PC. [des corrections détaillées seront données]
2 DM avec des illustrations numériques.
3 Exercices Numériques

Présentation du cours
Introduction à l’inférence statistique

Modèles statistiques et introduction à l’estimation.
Construction d’estimateurs ponctuels. Introduction aux tests.
Construction de tests statistiques, intervalles de confiance.
Introduction à la théorie de la décision
Risque, perte, optimalité, borne de Cramer-Rao
Théorie de Neyman-Pearson, test du rapport de vraisemblance, tests UPP
Statistiques asymptotiques
Statistiques asymptotiques (consistance, normalité asymptotique),
théorie asymptotique des M-estimateurs, maximum de vraisemblance.
Apprentissage statistique
Introduction à l’apprentissage, classifieur bayésien, génératif / discriminatif.
Risque empirique, excès de risque, inégalité d’Hoeffding, bornes PAC élémentaires
Convexification du risque, entropie de Rademacher, etc.

1 Présentation
2 Statistique
Historique
Exemples
Tendance
6 Exemples

Qu’est ce que c’est ?
La statistique est l’étude de

la collecte,
la modélisation,
le traitement,
des données.
La Statistique est un domaine des mathématiques appliquées formalisé au début du
XXème siècle (K. Pearson, R. Fisher, J. Neyman...), mais dont les prémices
remontent au XVIII siècle (Le mot statistique a été utilisé pour la première fois par G. Achenwall,
au 18e siècle, comme la science de la collecte et l’utilisation de données par l’État).
Aujourd’hui, la statistique s’inscrit dans un vaste champ interdisciplinaire,
l’Intelligence Artificielle qui vont des probabilités appliquées à l’informatique
(apprentissage statistique - ou machine learning-).
Nombreuses connexions avec : probabilité, optimisation, traitement du signal et des
images, calcul scientifique, recherche opérationnelle.

Médecine, Santé
épidémiologie
génomique, protéomique
médecine de précision

Environnement
pollution
météorologie
ressources

Assurance finance
Finance : modélisation
des actifs (actions,
options, indices, future).
Assurance et actuariat :
calcul des risques,
primes, défaut.

Apprentissage statistique & traitement du signal
Reconnaissance de
parole
Vision par ordinateur
Traduction automatique

Marketing
Système de recommandation
Optimisation séquentielle (site web, etc)
Scoring clients

Classement Forbes 10 Best Jobs for 2019
https://www.forbes.com/sites/louiscolumbus/2019/01/23/
data-scientist-leads-50-best-jobs-in-america-for-2019-according-to-glassdo
1 Data Scientist
8 Data Engineer

1 Présentation
2 Statistique
Données
Modélisation statistique
Sondage
6 Exemples

Problématique statistique
Point de départ : des données
(x1 , . . . , xn ).
numériques (scalaires, vectorielles, matricielles) : xi ∈ Rd ou xi ∈ Rp×q

symboliques (labels, catégorielles) : xi ∈ {0, 1} (par exemple)
mixtes
mais aussi des graphes, des fonctions, des textes, etc...
N15
N43
N210
N42
N74 N292
N114 N254
N266
N316
N33
N24
N191
N11 N187
N194
N92
N101
N287 N160
N180 N153
N233
N330
N302 N294
N47 N196
N299
N300 N242
N335
N228
N94
N126
N256 N346
N18 N260
N206 N204 N5
N340
N53
N38
N57 N249
N244 N317
N183
N12 N76 N283
N301 N221
N209
N1
N10
N80 N146 N87 N235
N117 N246
N130
N178 N345
N282 N77
N234 N320
N154 N213
N37
N135 N48 N45
N73 N133 N168
N158 N7
N132 N136 N129
N127 N165 N303
N184 N270
N66
N88 N3
N219 N280 N224
N90 N36 N236
N248 N315
N108 N30 N274 N22
N139
N327 N121
N322 N276 N347

N281 N291 N339
N272 N142
N54 N105 N141 N285 N156
N179
N197
N147 N6 N309 N60
N122 N304 N185 N308 N50
N232
N332 N169 N25
N159 N75 N96
N251
N284 N231
N182 N69 N200 N186 N323 N62

N89 N40 N21 N277 N67
N31
N85
N95 N97
N125
N336 N39
N145 N9 N188 N334
N257 N324 N113 N26 N103
N56
N71 N164
N329 N341
N319
N161 N290
N72 N98 N109
N288 N297 N239 N271 N148
N0
N253
N167 N311
N201
N307
N70 N258 N84
N208 N119 N199 N203 N252 N134 N170
N55
N216
N27 N51
N106 N331
N32 N305
N243 N172 N313 N104 N128 N223 N314
N264
N337 N176
N298
N289
N212
N207 N344 N342 N118 N261
N230 N325 N123 N318 N237
N259
N310 N137 N120

N265 N65
N17
N79 N82 N13
N93 N295
N247 N8
N29 N83
N140
N41 N238 N211 N190
N229 N91
N111 N14 N150

N59
N338
N163 N63
N19
N279 N28 N250
N16
N214 N144
N222 N110
N151 N312 N268

N217 N245
N100
N64
N326 N124
N23 N193
N44 N115 N116 N174
N343
N20
N269
N152
N102 N61
N189
N226
N149 N138 N175
N293 N263 N155

N112
N162
N240
N205 N296 N157

N2 N192
N220 N227
N99
N81
N333
N267
N321 N278
N52
N262 N68
N202 N275
N181
N171 N86
N225
N143
N78 N4
N131
N215
N49
N286 N177
N195 N46
N273
N218
N35
N328
N166
N306 N241
N255
N58
N173
N198
N34
N393
N441
N464
N351
N364
N476
N399
N454 N107
N349
N427
N384
N478
N390
N361
N491
N446
N490
N474
N396 N414
N434
N470
N359 N496
N405 N450
N394
N488
N489 N482
N436 N391
N382
N379 N367
N475 N366
N354
N410 N428
N423 N425
N355
N378
N376 N363
N492
N481 N452
N438
N403 N392
N458
N353
N480 N374 N373
N420 N483
N456 N398
N400
N429
N426 N422 N352
N487
N497 N412 N431
N386 N418 N348
N461
N463 N484 N479
N407
N395
N455 N465 N408
N370
N432
N460 N473
N466 N350 N471
N409
N404 N375
N402 N417
N444
N372
N388
N385 N493
N397 N495
N401 N430
N387 N419
N433 N462
N368
N449 N439
N445
N494
N442 N360
N435 N421
N413
N389 N362
N369
N416 N440
N451
N377 N415 N472

N383 N469
N424 N448
N477
N357
N457
N459
N371
N365
N381
N447
N437
N498
N486
N380
N356
N485
N406
N411
N358
N453
N467
N499
N468
N443

Problématique statistique
Modélisation statistique :
Données = réalisation d’un élément aléatoire
Z = (X1 , . . . , Xn ) , Z(ω) = (X1 (ω), . . . , Xn (ω)) = (x1 , . . . , xn ) .
Idée : modéliser variabilité des données

bruit de mesure
échantillonnage
variabilité individuelle
...

Modèle statistique
Modèle statistique : la loi du vecteur aléatoire
Z = (X1 , . . . , Xn )
est partiellement connue : connaissance a priori du phénomène étudié.

Hypothèse la loi de Z est un élément d’une famille C de lois, appelée modèle
statistique
Le modèle est dit paramétrique si C = {Pθ : θ ∈ Θ} où Θ ⊆ Rd .
Le modèle est dit non-paramétrique si C = {Pθ : θ ∈ Θ} où Θ ⊆ H est de
dimension infinie.
Problématique : à partir d’une réalisation Z(ω) = (x1 , . . . , xn ) et du modèle C, on
cherche à affiner notre connaissance de la loi de l’observation.

Modèle statistique
Définition (Modèle statistique)

un espace mesurable (Z, Z), l’espace des observations,
une famille de probabilités C sur (Z, Z).
Le modèle est paramétrique lorsque C = {Pθ , θ ∈ Θ}, où Θ est un sous-ensemble
de Rd , avec d ≥ 1
Le modèle est non paramétrique lorsque l’ensemble Θ est de dimension infinie.

Sondage
population de N individus qui doivent élire les candidats A ou B.

N θ votent A... la proportion θ ∈ Θ = {0, 1/N, . . . , N/N } est inconnue.
Typiquement, N est très grand... on pratique donc un sondage : tirage sans remise
de n ≪ N individus dans cette population.

Construction du modèle statistique
Population de taille N .
Échantillon (sans remise) de taille n.
Espace de probabilité : Z = {0, 1}n muni de la tribu des parties Z = P({0, 1}n ).
Observation : Z = (X1 , . . . , Xn ) où pour tout (x1 , . . . , xn ) ∈ Z,
Xi (x1 , . . . , xn ) = xi .
Données : (x1 , x2 , . . . , xn ) ∈ {0, 1}n une réalisation de l’observation
Z = (X1 , . . . , Xn ) :
1 xi = 1 : le i-ème sondé vote A,
2 xi = 0 : le i-ème sondé vote B.

Sondage
la Loi de l’observation : dépend du paramètre inconnu θ.

Population totale N , N θ votent A, (N − N θ) votent B
pθ (x1 ) = (N θ)x1 (N − N θ)1−x1 /N x1 ∈ {0, 1},

Sondage
la Loi de l’observation : dépend du paramètre inconnu θ.

Population totale N , N θ votent A, (N − N θ) votent B
pθ (x1 ) = (N θ)x1 (N − N θ)1−x1 /N x1 ∈ {0, 1},
Population totale N − 1, N θ − x1 votent A, (N − 1 − (N θ − x1 )) votent B
(N θ − x1 )x2 (N − 1 − (N θ − x1 ))1−x2
pθ (x1 , x2 ) = × (N θ)x1 (N − N θ)1−x1 /N
N −1

Sondage
Pn−1
P sondage, population totale N − (n − 1), N θ −
Au n-ème i=1 xi votent A,
(N θ − n−1
i=1 xi ) votent B
Pn−1 xn Pn−1 1−xn
Nθ − i=1 xi N − n + 1 − Nθ − i=1 xi
pθ (xn |x1 , . . . , xn−1 ) = .
N −n+1
En appliquant récursivement la règle de Bayes :
pθ (x1 , . . . , xn ) = pθ (x1 )pθ (x2 |x1 ) . . . pθ (xn |x1 , . . . , xn−1 ) .
La loi de l’observation dépend d’un paramètre inconnu θ ∈ Θ la proportion qui vote A.

1 Présentation
2 Statistique
6 Exemples

Statistique
Définition (Statistique)
Soient (Z, Z, C) un modèle statistique et (T, T ) un espace mesurable.
On appelle statistique sur (Z, Z, C) une application mesurable T de (Z, Z) à valeurs dans
(T, T ).
Exemples : Si (Z, Z, C) = (Rn , B(Rn ), {Pθ , θ ∈ Θ}), et Z = (X1 , . . . , Xn ) avec

Xi (x1 , . . . , xn ) = xi , alors
X1 +...+Xn
S1 (Z) = n
S2 (Z) = min{Xi , i = 1 . . . n}
S3 (Z) = med(X1 , . . . , Xn )
Définition (Statistiques indépendantes)

Nous dirons que les statistiques S et T sur (Z, Z, C) sont indépendantes si pour toute loi
P ∈ C, les éléments aléatoires S et T sont indépendants sous P.

Exemple : n-échantillon gaussien
Considérons le modèle (Z, Z, C) = (Rn , B(Rn ), {Pθ , θ ∈ Θ := R × R∗+ }) où pour tout
θ ∈ Θ, Pθ := pθ · Leb⊗n où pθ est une densité gaussienne sur Rn de moyenne µ1n et de
covariance σ 2 In×n :
n
!
2 −n/2 1 X 2
pθ (x1 , . . . , xn ) = (2πσ ) exp − 2 (xi − µ) .
2σ i=1
Notons Xi la i-ème observation, i ∈ {1, . . . , n} : pour x = (x1 , . . . , xn ) ∈ Rn ,

Xi (x) = xi .
Sous Pθ , les statistiques Z = (X1 , . . . , Xn ) sont i.i.d. (indépendantes et identiquement
distribuées) de densité gaussienne de moyenne µ ∈ R et variance σ 2 ∈ R∗+ :
n
Y
pθ (x1 , . . . , xn ) = pX i
θ (xi ) .
i=1

Loi image d’une statistique et modèle induit
Soit T une statistique sur (Z, Z, C).

À une probabilité P ∈ C on associe la loi image PT de P par T , définie par, pour tout
A ∈ T , par :
PT (A) = P(T ∈ A) .
Pour h mesurable positive sur T,
Z Z
T
h(t)P (dt) = h ◦ T (z)P(dz) = E[h(T )] .
T Z

Loi image d’une statistique et modèle induit
Soit T une statistique sur (Z, Z, C).

À une probabilité P ∈ C on associe la loi image PT de P par T , définie par, pour tout
A ∈ T , par :
PT (A) = P(T ∈ A) .
En écrivant C T = PT , P ∈ P , on obtient ainsi le modèle statistique (T, T , C T )

induit par la statistique T .

n-échantillon
Définition (n-échantillon)
Soient (X, X , C) un modèle statistique et n ∈ N∗ . On appelle n-échantillon de (X, X , C)

le modèle statistique
(X, X , C)n = (Xn , X ⊗n , P = Q⊗n , Q ∈ C ) .

On appelle i-ème observation canonique la statistique Xi définie pour

z = (x1 , . . . , xn ) ∈ Xn par Xi (z) = xi .

n-échantillon
Lemme
Soit (X, X , C)n un n-échantillon du modèle (X, X , C).
(i) Les observations Z = (X1 , . . . , Xn ) sont indépendantes.
(ii) Pour tout i ∈ {1, . . . , n}, le modèle induit par la statistique Xi est (X, X , C).
Démonstration.
pour tout P = Q⊗n ∈ C ⊗n et (A1 , . . . , An ) ∈ X n , nous avons
PZ (A1 × · · · × An ) = P(X1 ∈ A1 , . . . , Xn ∈ An )
n
Y n
Y
= Q⊗n (A1 × · · · × An ) = Q(Ai ) = P(Xi ∈ Ai ) .
i=1 i=1

Terminologie
“(X1 , . . . , Xn ) est un n-échantillon du modèle (X, X , C)”
On dispose d’un n-échantillon (X, X , C)n d’un modèle statistique (X, X , C).
L’observation (X1 , . . . , Xn ) est définie pour i ∈ {1, . . . , n} par Xi : Xn → X,
Xi (x1 , . . . , xn ) = xi
Les statistiques X1 , . . . , Xn sont indépendantes et de même loi, et le modèle induit
par Xi est (X, X , C).

1 Présentation
2 Statistique
6 Exemples

Statistique et Probabilité
Probabilité : les lois sont supposées connues... Etant donnée une loi de probabilité P
sur un espace mesurable (Ω, F) et un vecteur aléatoire Z, l’objet du calcul des
probabilités est d’évaluer
des quantités de la forme
P(f (Z) ≥ c), E[f (Z)],
et des grandeurs beaucoup plus compliquées !..

Statistiques : on cherche à résoudre un problème inverse. Etant donnée une
réalisation z = (x1 , . . . , xn ) d’un élément aléatoire Z = (X1 , . . . , Xn ), on cherche à
inférer certaines caractéristiques de la loi de ce vecteur aléatoire.

Les grands problèmes statistiques
estimation ponctuelle : donner une valeur plausible du paramètre θ,

estimation par région : déterminer un sous-ensemble Θ0 (Z) ⊂ Θ auquel le
paramètre θ appartient de façon plausible
test : décider si le paramètre θ appartient à un sous-ensemble Θ0 et évaluer la
plausiblité de la décision.
prédire : donner une valeur plausible pour une quantité non observée

Les grands problèmes
La nature et la complexité des modèles varient considérablement en fonction

des phénomènes étudiés,
des connaissances dont nous disposons a priori
- dans des problèmes inverses issus de la physique, le modèle de génération des données
peut être extrêmement sophistiqué (systèmes d’EDP décrivant notre connaissance des
phénomènes physiques sous-jacents).
- dans les problèmes de protéomiques, la connaissance a priori de la fonction des gènes,
les réseaux de régulation, la clinique sont intégrées dans le modèle.
- ...
de la complexité des problèmes d’inférence que nous sommes prêts à considérer...
- Qualité des sources d’information et de l’échantillonnage,
- Aggrégation de sources d’informations inhomogènes.
- Observations obtenues en lots ou séquentiellement.

Modèle de sondage : Estimation de la proportion
Pour estimer la proportion θ, il est naturel de “compter” le nombre θ̂n d’individus

votant A dans l’échantillon
n
1{1} (Xi ) .
X
θ̂n = θ̂n (X1 , . . . , Xn ) = n−1
i=1
Une telle statistique des observations est appelée un estimateur

Le modèle statistique induit par nθ̂n est donné, pour tout
θ ∈ Θ = {0, 1/N, . . . , N/N }, par Z = {0, . . . , n}, Z = P({0, . . . , n}) et pour tout
k ∈ {0, . . . , n},
Nθ N −N θ

k n−k
Pθ (θ̂n = k/n) = N
.
n

Estimation de la proportion
0.020
0.010
y
population N = 50 × 106 ,
0.000
échantillon n = 1000, 0 200 400 600 800 1000
x
θ = 0.52.
Graphes de
(N θ)(N −N θ)
0.020
k −→ k Nn−k
(n)
0.010
y
0.000
400 450 500 550 600

x

θ̂n donné par :
n
1{Xi =1} .
X
θ̂n = θ̂n (X1 , . . . , Xn ) = n−1
i=1
est un estimateur ponctuel du paramètre θ.

Questions naturelles :
Comment quantifier l’erreur que nous commettons en estimant θ par θ̂n (régions de
confiance) ?
Existe-t-il de meilleurs estimateurs ?
Peut-on tester l’hypothèse θ > 1/2 ?

1 Présentation
2 Statistique
6 Exemples
Modèle de régression
Systèmes de recommandation

Anomalie température moyenne
1.5
0.5
-0.5
1880 1900 1920 1940 1960 1980 2000 2020
Figure – anomalie de température moyenne à l’échelle du globe par rapport à la période

1951-1980, NASA, Goddard Institute for Space Studies
Construction du modèle
Observations : déviation des températures annuelles par rapport à la moyenne

1951-1980 : (x1 , . . . , xn ) ∈ Rn
Modèle statistique paramétrique
n
Y 1 1
pβ,σ2 (x1 , . . . , xn ) = √ exp − 2 {xi − m(β, i)}2
i=1 2πσ 2 2σ
où β = (β1 , . . . , βp ) est un paramètre et pour tout β ∈ Rp , i 7→ m(β, i) est une

fonction.
Paramètres θ = (β1 , . . . , βp , σ 2 ) ∈ Θ = Rp × R∗+
(Rn , B(Rn ), {pθ · Lebn , θ ∈ Θ})

Hypothèses du modèle
Ici Z = Rn et Z = (X1 , . . . , Xn ) où Xi (x1 , . . . , xn ) = xi pour i ∈ {1, . . . , n}

Pour tout θ ∈ Θ, Xi et Xj , i ̸= j, sont indépendants sous Pθ
Sous Pθ , et tout i ∈ {1, . . . , n}, la distribution de Xi est gaussienne de variance σ 2
Sous Pθ , la moyenne de Xi est m(β, i)
Ce sont des hypothèses de modélisation, qui peuvent être discutées etc...
Est-il raisonnable de supposer que la variance constante ?
A-t-on une bonne raison de penser que la distribution des erreurs est Gaussienne ?
Les observations sont elles indépendantes ?

Tendance linéaire
Hypothèse 1 : tendance linéaire sur l’ensemble de la période :
m(β, i) = β0 + β1 t(i)
où t(i) est l’index de temps

Construction de l’estimateur les paramètres en minimisant l’erreur quadratique
n
X
β̂ = arg min (Xi − β0 − β1 i)2
β∈R2 i=1
n
X
σ̂ 2 = (n − 2)−1 (Xi − β̂0 − β̂1 i)2
i=1
ce qui correspond dans le modèle gaussien à maximiser la vraisemblance des

observations :
(β̂, σ̂ 2 ) = arg max pβ,σ2 (X1 , . . . , Xn )
β,σ 2

Solution
La solution est explicite !
" n n
#
X X
βb0 = Xi − βb1 × t(i) /n,
i=1 i=1
(" n
# " n # n
) (" n
#2 n
)
X X X X X
βb1 = t(i) × Xi /n − t(i) × Xi / t(i) /n − [t(i)]2
i=1 i=1 i=1 i=1 i=1
ou, de façon plus compacte,

   
1 t(1) X1
b = (Φ⊤ Φ)−1 Φ⊤ X  . ..   . 
β with Φ =  .. .  and X =  .. 
n t(n) Xn
La variance est donnée par
n
X
σ̂ 2 = (n − 2)−1 {Xi − βb0 − βb1 t(i)}2 = (n − 2)−1 ∥X − Φβ∥2
i=1
La distribution de ces estimateurs est connue : pour tout (β, σ 2 ) ∈ R2 × R+ , sous Pβ,σ2
b ∼ N(β, σ 2 (Φ⊤ Φ)−1 )
β
(n − 2)σ̂ 2 /σ 2 ∼ χ2 (n − 2)

Tendance linéaire
1
0.5
-0.5
1880 1900 1920 1940 1960 1980 2000 2020

1951-1980, NASA, GISS. Intervalle de confiance βb1 ± seβ1 = 0.0072◦ C/a ± 0.0008◦ C/a
0.5
-0.5
1880 1900 1920 1940 1960 1980 2000 2020
Figure – résidu de l’ajustement : R̂i = Xi − β̂0 − β̂1 t(i)

Modèle avec rupture de pente
Modèle 2 : rupture de pente
m(β, i) = β0 + β1 i + β2 (i − β3 )1{i≥β3 }
Construction des estimateurs Minimisation de l’erreur quadratique

n
X
β̂ = arg min (Xi − m(β, i))2
β∈R2 i=1
n
X
2 −1
σ̂ = n (Xi − m(β̂, i))2
i=1
qui est aussi l’estimateur du maximum de vraisemblance
(β̂, σ̂ 2 ) = arg max pβ,σ2 (X1 , . . . , Xn )

β,σ 2

Pour β3 - position de la rupture de pente - fixé, les paramètres (β0 , β1 , β2 ) peuvent être
calculés de façon explicite
 
β̂0 (β3 )
β̂(β3 ) =  β̂1 (β3 )  = (Φ(β3 )⊤ Φ(β3 ))−1 Φ(β3 )X
β̂1 (β3 )
où
1 t(1) 0
 
 .. .. 

 1 . . 

 1 t(β3 ) 0 
Φ(β2 ) =  

 1 t(β3 + 1) t(β3 + 1) − t(β3 ) 

 .. .. .. 
 . . . 
1 t(n) t(n) − t(β3 )
On estime β3 en minimisant la vraisemblance profilée
βˆ3 = arg min ∥X − Φ(β3 )β̂(β3 )∥2

β3

Modèles avec rupture de pente
2
0.25
1.9 0.2
0.15
1.8
0.1
1.7 0.05
0
1.6
-0.05
1.5 -0.1
-0.15
1.4
-0.2
1.3 -0.25
1900 1920 1940 1960 1980 2000 1880 1900 1920 1940 1960 1980 2000 2020
Figure – Gauche : vraisemblance profilée - Droite : résidu de prédiction
1.5
0.5
-0.5
1880 1900 1920 1940 1960 1980 2000 2020

1951-1980, NASA, GISS

Systèmes de recommandation

Une formalisation statistique possible
m1 : le nombre d’utilisateurs
m2 : le nombre de produits
Y : matrice m1 × m2 avec
Yi,j = note de l’individu i au produit j

m1 : le nombre d’utilisateurs
m2 : le nombre de produits
Y : matrice m1 × m2 avec
Yi,j = note de l’individu i au produit j
données : Yi,j pour (i, j) ∈ I
n = nombre d’observations = card(I) ≪ m1 m2

Les notes Yi,j sont indépendantes et distribuées suivant une loi multinomiale
exp(θi,j,1 ) exp(θi,j,K )
PK , . . . , PK
k=1 exp(θi,j,k ) k=1 exp(θi,j,k )
Par convention, on fixe θi,j,K = 0 autrement le modèle n’est pas identifiable

La densité de l’observation par rapport à la mesure de comptage est
K
!1{y =ℓ}
i,j
Y Y exp(θi,j,ℓ )
pθ ({yi,j }(i,j)∈I ) = PK .
(i,j)∈I ℓ=1 k=1 exp(θi,j,k )

Une hypothèse sur la structure de θ
Nécessité de faire une hypothèse sur la structure de θ, qui soit raisonnable pour
l’application considérée
plusieurs possibilités ! Par exemple, si le nombre de modalités K = 1, il est souvent
les préférences des utilisateurs sont mélanges d’un petit nombre de comportement
“prototype”, i.e la matrice θ est de rang ≤ q
θ = LDU
où
L est une matrice triangulaire inférieure m1 × q (éléments diagonaux = 1),
U est une matrice triangulaire supérieure q × m2
D est une matrice diagonale q × q.

Une hypothèse sur la structure de θ
plusieurs possibilités ! Par exemple, si le nombre de modalités K = 1, il est souvent

les préférences des utilisateurs sont mélanges d’un petit nombre de comportement
“prototype”, i.e la matrice θ est de rang ≤ q
θ = LDU
où
L est une matrice triangulaire inférieure m1 × q (éléments diagonaux = 1),
U est une matrice triangulaire supérieure q × m2
D est une matrice diagonale q × q.
Le nombre total de paramètres est égal à q(m1 + m2 ) et le rang q est souvent choisi
de telle sorte que
q(m1 + m2 ) ≪ n ≪ m1 m2

Recommandation
Estimer les matrices L, D et U ... Dans ce cas (comme dans la plupart des
applications ”réelles”), il n’y a pas de méthodes d’estimation ”élémentaires” (voir
Cours 2 méthodes d’estimation)
Imputer les données manquantes .
C’est la base des systèmes de recommandations ou de filtrage collaboratif (dans un
système ”opérationnel”, il y a bien entendu un certain nombre de raffinements à
apporter, mais c’est la ”base”).

Cours 1 MAP433

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours 1 MAP433

Transféré par

Droits d'auteur :

Formats disponibles

MAP 433 : Introduction aux méthodes statistiques

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 1 / 51

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 2 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 3 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 4 / 51

Introduction à l’inférence statistique

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 5 / 51

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 6 / 51

La statistique est l’étude de

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 7 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 8 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 9 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 10 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 11 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 12 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 13 / 51

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 14 / 51

numériques (scalaires, vectorielles, matricielles) : xi ∈ Rd ou xi ∈ Rp×q

N322 N276 N347

N182 N69 N200 N186 N323 N62

N310 N137 N120

N111 N14 N150

N151 N312 N268

N293 N263 N155

N205 N296 N157

N377 N415 N472

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 15 / 51

Idée : modéliser variabilité des données

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 16 / 51

Modèle statistique : la loi du vecteur aléatoire

est partiellement connue : connaissance a priori du phénomène étudié.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 17 / 51

Définition (Modèle statistique)

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 18 / 51

population de N individus qui doivent élire les candidats A ou B.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 19 / 51

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 20 / 51

la Loi de l’observation : dépend du paramètre inconnu θ.

pθ (x1 ) = (N θ)x1 (N − N θ)1−x1 /N x1 ∈ {0, 1},

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 21 / 51

la Loi de l’observation : dépend du paramètre inconnu θ.

pθ (x1 ) = (N θ)x1 (N − N θ)1−x1 /N x1 ∈ {0, 1},

Population totale N − 1, N θ − x1 votent A, (N − 1 − (N θ − x1 )) votent B

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 21 / 51

pθ (x1 , . . . , xn ) = pθ (x1 )pθ (x2 |x1 ) . . . pθ (xn |x1 , . . . , xn−1 ) .

La loi de l’observation dépend d’un paramètre inconnu θ ∈ Θ la proportion qui vote A.

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 22 / 51

4 Statistique, modèle induit, n-échantillon

5 Estimation, tests, prédiction

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 23 / 51

Exemples : Si (Z, Z, C) = (Rn , B(Rn ), {Pθ , θ ∈ Θ}), et Z = (X1 , . . . , Xn ) avec

Définition (Statistiques indépendantes)

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 24 / 51

Notons Xi la i-ème observation, i ∈ {1, . . . , n} : pour x = (x1 , . . . , xn ) ∈ Rn ,

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 25 / 51

Soit T une statistique sur (Z, Z, C).

MAP 433 : Introduction aux méthodes statistiques 23 août 2023 26 / 51