Vous êtes sur la page 1sur 46

Quelle statistique

pour les Big Data?


Gilbert Saporta
CEDRIC- CNAM,
292 rue Saint Martin, F-75003 Paris
gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta
Journe Big Data, SFdS, 13 mars 2015

Plan
1.
2.
3.
4.
5.
6.
7.

Too big ?
Vous avez dit modles
Comment valider
La bote outils
Choix de modles
Big Data et statistique officielle
La fin de la science?

Journe Big Data, SFdS, 13 mars 2015

1. Too big ?
Estimation, tests, modles classiques
inadapts
Tout est significatif!
si n=106 un coefficient de corrlation gal 0,002 est
significativement diffrent de 0 mais bien inutile
Un modle de rgression pourri aura un R2
significatif mais la plupart des modles classiques
sont rejets puisque le moindre cart devient
significatif
Intervalles de confiance rduits nant
Journe Big Data, SFdS, 13 mars 2015

2. Vous avez dit modles


Vision classique (modles pour comprendre)
Fournir une certaine comprhension des donnes
et du mcanisme qui les a engendres travers
une reprsentation parcimonieuse dun
phnomne alatoire. Ncessite en gnral la
collaboration dun statisticien et dun expert du
domaine.
un modle doit tre simple, et ses paramtres
interprtables en termes du domaine
dapplication : elasticit, odds-ratio, etc.
Journe Big Data, SFdS, 13 mars 2015

Paradoxe n 1
Un bon modle statistique ne donne pas
ncessairement des prdictions prcises au
niveau individuel. eg: facteurs de risque en
pidmiologie

Paradoxe n2
On peut prvoir sans comprendre:
pas besoin dune thorie du consommateur pour faire
du ciblage
un modle nest quun algorithme

Journe Big Data, SFdS, 13 mars 2015

Vision Big Data Analytics : modle pour


prvoir
capacit prdictive sur de nouvelles observations
gnralisation
diffrent de lajustement aux donnes (prdire le
pass)
Un modle trop prcis sur les donnes se comporte de
manire instable sur de nouvelles donnes :
phnomne de surapprentissage
Un modle trop robuste (rigide) ne donnera pas un bon
ajustement sur les donnes

modles issus des donnes


Journe Big Data, SFdS, 13 mars 2015

3. Comment valider
Ncessit de marier Machine Learning et
statistique
Un bon modle est celui qui prdit bien
Diffrence entre ajustement et prvision
Ensembles dapprentissage et de validation

Journe Big Data, SFdS, 13 mars 2015

Guillaume dOckham 1320

Norbert Wiener 1948

Frank Rosenblatt 1962

Vladimir Vapnik 1982


Journe Big Data, SFdS, 13 mars 2015

Le dilemme biais-variance
=
y f ( x) +

)
+ ( E ( f ( x ) ) f ( x ) ) + V ( f ( x ) )

E ( y0 y 0 )

= + E f ( x0 ) f ( x0 ) =
2

biais

variance

variance

Journe Big Data, SFdS, 13 mars 2015

Adapted from Hastie et al.

Une dmarche avec 3 chantillons pour


choisir entre plusieurs familles de modles:
Apprentissage: pour estimer les paramtres des
modles
Test : pour choisir le meilleur modle
Restimation du modle final: avec toutes les donnes
disponibles

Validation : pour estimer la performance sur des


donnes futures
Estimer les paramtres estimer la performance

Journe Big Data, SFdS, 13 mars 2015

10

Sparer (une fois) les donnes en apprentissage,


test et validation ne suffit pas

Journe Big Data, SFdS, 13 mars 2015

11

Elmentaire?
Pas si sur
Voir publications en conomtrie, actuariat,
pidmiologie

Journe Big Data, SFdS, 13 mars 2015

12

4. La bote outils
Exploratoire ou non supervis
Analyses factorielles, k-means
Rgles dassociation

Prdictif ou supervis
Modles explicites de type rgression, avec
rgularisation, arbres ..
Modles de type bote noire (neurones, SVM

Journe Big Data, SFdS, 13 mars 2015

13

Journe Big Data, SFdS, 13 mars


2015

14

5. Choix de modles
5.1 La vision classique
Quand l "expert" hsite entre plusieurs
formulations
Dans une famille paramtre
Utilisation la plus frquente: slection de
variables

Parcimonie
Le rasoir dOckham : un principe scientifique pour
viter les hypothses inutiles
Journe Big Data, SFdS, 13 mars 2015

15

Guillaume dOccam (1285? 1349?), dit le docteur invincible


franciscain philosophe logicien et thologien scolastique.
Etudes Oxford, puis Paris. Enseigne quelques annes Oxford.
Accus d'hrsie, convoqu pour sexpliquer Avignon,
excommuni pour avoir fui Munich la cour de Louis IV de
Bavire. Meurt vraisemblablement de l'pidmie de peste noire.
Principe de raisonnement attribu Occam : Les multiples ne
doivent pas tre utiliss sans ncessit (pluralitas non est
ponenda sine necessitate).
A inspir le personnage du moine franciscain Guillaume de
Baskerville dans le Nom de la rose d'Umberto Eco. Premier

jour, vpres : il ne faut pas multiplier les explications et les


causes sans qu'on en ait une stricte ncessit.

Journe Big Data, SFdS, 13 mars 2015

16

Le principe de vraisemblance (Fisher, 1920)


chantillon de n observations iid :
n

L ( x1 ,.., xn ; ) = f ( xi ; )
i =1

Pour une famille f, la meilleure estimation de est


celle qui maximise la vraisemblance, ie la
probabilit davoir obtenu les donnes observes.
Le meilleur modle devrait galement avoir une
vraisemblance maximale.
Mais la vraisemblance crot avec le nombre de
paramtres..
Journe Big Data, SFdS, 13 mars 2015

17

Choix de modles par vraisemblance pnalise


Comparer des modles ayant des nombres de
paramtres diffrents: K nombre de paramtres
estimer.
Critre dAkaike :
AIC = -2 ln(L) + 2K

Critre de Schwartz :
BIC = -2 ln(L) + K ln(n)
On prfrera le modle pour lequel ces critres ont la
valeur la plus faible.

Journe Big Data, SFdS, 13 mars 2015

18

AIC et BIC ne sont semblables quen apparence:


Thories diffrentes
AIC : approximation de la divergence de
Kullback-Leibler entre la vraie distribution f et le
meilleur choix dans une famille paramtre
BIC : choix bayesien de modles parmi m
modles Mi paramtrs par i de probabilits a
priori galesP(Mi). Distribution a posteriori du
modle sachant les donnes
Illogisme utiliser les deux simultanment
Journe Big Data, SFdS, 13 mars 2015

19

Comparaison AIC BIC


Si n tend vers linfini la probabilit que le BIC
choisisse le vrai modle tend vers 1, ce qui est faux
pour lAIC.
Pour n fini: rsultats contradictoires. BIC ne choisit
pas toujours le vrai modle: il a tendance choisir
des modles trop simples en raison de sa plus forte
pnalisation

Journe Big Data, SFdS, 13 mars 2015

20

AIC BIC ralistes?


Vraisemblance pas toujours calculable.
Nombre de paramtres non plus (arbres, ..)
Vrai modle?
Essentially, all models are wrong, but some are useful
(G.Box,1987)

"The Truth Is Out There" (X-Files, 1993)


* Box, G.E.P. and Draper, N.R.: Empirical Model-Building and Response Surfaces, p. 424, Wiley, 1987

Journe Big Data, SFdS, 13 mars 2015

21
21

5.2 Lapport de la thorie de lapprentissage


La complexit ne se limite pas au nombre de
paramtres

Hastie et al. 2001

f(x,w) = sign (sin (w.x) ) c < x < 1, c>0


Un seul paramtre, VC dimension infinie
Journe Big Data, SFdS, 13 mars 2015

22

22 septembre 2014

Journe Big Data, SFdS, 13 mars 2015

23

Ingalit de Vapnik Chervonenkis


avec la probabilit 1- :

R < Remp +

h ( ln ( 2n h ) + 1) ln ( 4)
n

Journe Big Data, SFdS, 13 mars 2015

24

n fix, modle de complexit optimale

Journe Big Data, SFdS, 13 mars 2015

25

La borne dpend de n/h


Si n augmente on peut augmenter la complexit
du modle
Si h augmente moins vite que n, la capacit de
gnralisation samliore!

Contradiction avec le choix de modle par BIC


modle pour comprendre
versus
modle pour prvoir
Journe Big Data, SFdS, 13 mars 2015

26

5.3 Agrgation de modles


Pourquoi choisir?

Journe Big Data, SFdS, 13 mars 2015

27

Stacking
Combinaison non baysienne de m prdictions
obtenues par des modles diffrents
Premire ide : rgression linaire
f1 (x), f2 (x),..., fm (x)

min yi w j f j (x)
=i 1 =
j 1

Favorise les modles les plus complexes:


surapprentissage

Journe Big Data, SFdS, 13 mars 2015

28

Solution: utiliser les valeurs prdites en otant


chaque fois lunit i

i
min yi w j fj (x)
=i 1 =
j 1

Amliorations:
Combinaisons linaires coefficients positifs (et
de somme 1)
Rgression PLS ou autre mthode rgularise car
les m prvisions sont trs corrles
Journe Big Data, SFdS, 13 mars 2015

29

Avantages
Prvision meilleures quavec le meilleur modle
Possibilit de mlanger des modles de toutes
natures: arbres , ppv, rseaux de neurones etc.
alors que le Bayesian Model Averaging utilise des
modles paramtrs de la mme famille

Journe Big Data, SFdS, 13 mars 2015

30

Journe Big Data, SFdS, 13 mars 2015

31

The Netflix dataset contains more than 100 million


datestamped movie ratings performed by
anonymous Netflix customers between Dec 31, 1999
and Dec 31, 2005. This dataset gives ratings about
m = 480 189 users and n = 17 770 movies
The contest was designed in a training-test set
format. A hold-out set of about 4.2 million ratings
was created consisting of the last nine movies rated
by each user (or fewer if a user had not rated at least
18 movies over the entire period).The remaining
data made up the training set.

Journe Big Data, SFdS, 13 mars 2015

32

The winner : BellKor's Pragmatic Chaos


team. A blend of hundreds of different models
Test RMSE for Bellkor's Pragmatic Chaos: 0.856704
(10.06%)

The Ensemble Team. Blend of 24 predictions


Test RMSE for The Ensemble: 0.856714 (10.06%)

Bellkor's Pragmatic Chaos defeated The


Ensemble by submitting just 20 minutes
earlier!

Journe Big Data, SFdS, 13 mars 2015

33

Le stacking: un cas particulier des mthodes


densemble
Bagging, Boosting, Random Forests

Encore mieux (?):


Modles locaux: approches clusterwise

Journe Big Data, SFdS, 13 mars 2015

34

6.Statistique officielle et Big Data

Journe Big Data, SFdS, 13 mars 2015

35

La statistique officielle bouge!


UN global working group on Big Data for Official
Statistics
http://www1.unece.org/stat/platform/display/big
data/Big+Data+in+Official+Statistics#
ESS Big Data task Force
W.Radermacher (DG Eurostat):
passer dun monde denqutes un monde de donnes
multisources et multimode
Change the factory
Vers le iStatisticien

Journe Big Data, SFdS, 13 mars 2015

36

Quelques exemples
Donnes de tlphonie mobile (tourisme,
mobilit, pauvret, crime)
Collecte de prix sur le web
Offres demploi et taux de chomage
Compteurs lectriques et occupation des
logements

Avantages:
Rapidit
conomies
Journe Big Data, SFdS, 13 mars 2015

37

Journe Big Data, SFdS, 13 mars 2015

38

Inconvnients
Absence de contrle sur la production des donnes
Manque de vrit de terrain
qualit et prcision variables
Capteurs, camras, tlphonie
Rseaux sociaux, e-commerce

Prennit; public-priv
Risque de dgradation de limage des INS

Ncessit de protger la confidentialit


Risque de ridentification
thique
Journe Big Data, SFdS, 13 mars 2015

39

7. La fin de la science?

Petabytes allow us to say: "Correlation is enough." We can stop looking


for models. We can analyze the data without hypotheses about what it
might show. We can throw the numbers into the biggest computing
clusters the world has ever seen and let statistical algorithms find
patterns where science cannot.
Journe Big Data, SFdS, 13 mars 2015

40

Systmes de recommandation, filtrage


collaboratif sont efficaces
xi1..xip

xn1..xnp

0101...

...........

100....

z11...zq1

z1r ...zqr

n clients choisissent parmi q


produits. On connait les
caracteristiques des produits et
ou des clients

Corrlation nest pas causalit

Journe Big Data, SFdS, 13 mars 2015

41

Linfluence dun prdicteur ne se mesure pas


par son coefficient de rgression (P.Bhlmann)
Le toutes choses gales par ailleurs est
absurde
Faire varier un prdicteur entraine des variations
des autres prdicteurs (intervention vs
corrlation)
Ncessit dun schma causal

Journe Big Data, SFdS, 13 mars 2015

42

Stress au travail (M.Hocine, G.Russolillo, GS, 2014)


Item 1
.
.
.
Item 14
Item 15
.
.
.
Item 28
Item 29
.
.
.
Item 40

Work Context

Item 1

Job control

Stress
Relationship

Item 2
.
.
.
.
.
.
.
.
Item 24
Item 25

Item 41
.
.
Item 52

Tasks

Item 53
.
.
Item 58

Recognition
Journe Big Data, SFdS, 13 mars 2015

43

Conclusion
Les donnes massives ncessitent une
approche spcifique
Les vieilles mthodes restent efficaces, surtout
en non supervis
Quels statisticiens pour les Big Data?

Journe Big Data, SFdS, 13 mars 2015

44

Journe Big Data, SFdS, 13 mars 2015

45

Merci pour votre attention

Journe Big Data, SFdS, 13 mars 2015

46