Vous êtes sur la page 1sur 32

Probabilits et Statistiques: Quelques petits rappels

Christine Decaestecker & Marco Saerens ULB & UCL

LINF2275

Probabilits et Statistiques: Introduction


Dmarche statistique:
Etude dun ensemble dobjets (cas, individus, ...) sur lesquels on observe des caractristiques appeles variables . population = ensemble, collection d objets quivalents senss partager des proprits communes. Statistique = tude des proprits gnrales des populations plutt que des proprits particulires des individus.

Ex: contrle de qualit de pices usines:


Pour un certain type (une population) de pices (fabriques dans des conditions dtermines): proportion de pices dfectueuses?

Echantillonage:
Etude exhaustive d une population trop vaste (peut tre infinie), difficile et/ou coteuse; tude dune partie (reprsentative) ou chantillon
LINF2275 Introduction 2

Types de variable: (caractristique, descripteur, attribut)


qualitative: valeurs = labels dappartenance une catgorie
nominale (sans notion dordre, ex: sexe, type de traitement, ...); ordinale (ordre sur les labels, ex : faible, moyen, fort);

quantitative: valeurs numriques


entire (nombre fini ou dnombrable de valeurs, ex: nombre daccidents de la route par an); continue (toutes les valeurs dun intervalle rel sont observables, ex: temprature, pression sanguine, ...).

Variables quantitatives: les oprations arithmtiques (somme, moyenne, ...) ont un sens; Variables qualitatives: seules les oprations de comptage ont un sens!

LINF2275

Introduction 3

Analyse statistique = tude de la variabilit des caractristiques des individus.


Des individus apparemment semblables ont gnralement des valeurs diffrentes pour les diffrentes variables qui les caractrisent.

Utilits de lanalyse statistique:


prvoir (de faon probabiliste) le comportement dindividus non encore observs; rduire ou expliquer la variabilit laide dautres variables; utiliser la variabilit pour distinguer au mieux les individus (ou groupes dindividus) entre eux.

LINF2275

Introduction 4

Tableaux de donnes:
chantillon de n individus sur lesquels on observe p variables:
Variables X1 I n d i v i d u s 1 2 i n xij X2 Xj Xp

notations vectorielles: ime observation = vecteur xi = [xi1, xi2, ..., xip]T


ou x(i) = [x1(i), x2(i),..., xp(i)]T : ime ralisation du vecteur alatoire x

Le tableau de donnes = une matrice (xij)


LINF2275

avec i = 1, ..., n et j = 1, ..., p


Introduction 5

(utilisation d'outils du calcul matriciel)

Thorie des probabilits:


thorie mathmatique axiomatique (dconnecte de la ralit physique); permet de modliser des phnomnes o le hasard (l'alatoire) intervient et d'en faire l'tude thorique (analytique). = outil pour la statistique:

Statistique Observation de phnomnes concrets Observation de donnes: possibles imprcisions, erreurs Distribution des valeurs dune variable sur une population Echantillonage des individus observs par tirage au hasard (assurer la reprsentativit)

Probabilits Modlisation de phnomnes alatoires Modlisation des dviations entre vraies valeurs et valeurs observes Modlisation par des lois de probabilit thoriques (gaussienne, poisson, ) Proprits observes = variables alatoires tude des rpartitions, des liens ventuels

LINF2275

Introduction 6

Probabilits = outils essentiels pour extrapoler: observations sur chantillon(s) lois de comportement sur la population

STATISTIQUE INFERENTIELLE (essentiellement uni- et bi-varie) autre aspect de la statistique: STATISTIQUE EXPLORATOIRE (essentiellement multivarie)
LINF2275

1re partie du cours (revisions)

2me partie du cours


Introduction 7

Statistique exploratoire: (statistique descriptive, analyse de donnes, "data mining") But:


synthtiser, structurer (extraire) l'information contenue dans les donnes reprsentations des donnes: tableaux, graphiques (visualisations), indicateurs numriques

Dmarche

mise en vidence de proprits de l'chantillon

suggrer des hypothses sur la population, le phnomne, le problme tudi

outils de base: algbre linaire, calcul matriciel, gomtrie euclidienne,


informatique.
LINF2275 Introduction 8

Exemples de tches exploratoires:

Expliquer une variable


continue ordonne catgorielle problme supervis rgression classification (approx. de fct.) (discrimination)
y

o o o o o + o o o + + + + + + + + + + o o o o o + + + o o o

Recherche de structures naturelles

problme non-supervis clustering axes principaux


F2 F1

+ ++ + + ++ + + + + + + + + + + + +

+ + ++ + + + + ++

LINF2275

Introduction 9

Dmarche scientifique:
1) phase exploratoire (observations), 2) formulation d'hypothses, de modles, de rgles, 3) validation.

Outils de validation:
Infrence: s'appuie sur des modles probabilistes, => dmarche analytique, => modles mathmatiques relativement "simples", => vue simplifie parfois contestable du phnomne tudi: les donnes doivent "coller" suffisamment au modle pour que la dmarche soit valable. Procdure informatique: ne s'appuie que sur les donnes, => rchantillonnage et vrification ( recommencer x fois), => outils informatiques: tests intensifs pour avoir une bonne perception gnrale du phnomne => ncessite une quantit de donnes importante
LINF2275 Introduction 10

Exemple: estimation d'une moyenne, intervalle de confiance


chantillon de n valeurs d'une variable X: x1, x2,..., xn

1 n moyenne chantillon: x = xi n i= 1

dpend de l'chantillon analys

intervalle de confiance = intervalle autour de x : [ x - Dx , x + D x ] ayant une probabilit fixe (95%) de contenir la moyenne population m Mthode d'infrence: suppose une distribution thorique (ex: normale) pour dterminer l'intervalle. Mthode de rchantillonnage: (principes de base) gnre un grand nombre N d'chantillons similaires l'chantillon de dpart, calcule les N moyennes chantillon => distribution empirique, dtermine l'intervalle contenant 95% des valeurs.

LINF2275

Introduction 11

Outils probabilistes de base (rappels)


Exprience alatoire: exprience o le hasard intervient rendant le rsultat imprvisible (Ex: lancer un d) ensemble de tous les rsultats possibles = univers des possibles = W (Ex: W = {1, 2, ..., 6}) Evnement: assertion relative au rsultat d'une exprience, se ralise ou non (Ex: obtenir un nbre pair) = toute partie de W (Ex: {2, 4 , 6}) outils ensemblistes Soit C un ensemble d'vnements = ensemble de parties de W satisfaisant les proprits suivantes (algbre de Boole):

"A C : son contraire A C (A = W \ A ) "A1 , A2 ,K, An C : U Ai C W C


LINF2275 Proba. - rappels 12

(W , C ) est un espace
probabilisable

Loi de probabilit P: (W , C) [0,1] telle que P (W) = 1 et "A1 , A2 ,K, An C tels que Ai A j = ("i j ),

on a P (U Ai ) = P ( Ai )

(W , C , P) est un espace probabilis


Proprits lmentaires P () = 0 P (A) = 1 P (A) P (A) P (B) si A B P (A B) = P (A) + P (B) P (A B)

W A

Probabilits conditionelles - Indpendance Proba. conditionelle de A sachant B (de proba. non nulle): P (AB) = P (A B) P (B) A indpendant de B ssi P (AB) = P (A) ssi P (A B) = P (A) P (B)
LINF2275 Proba. rappels 13

Thorme des probabilits totales: " A1, A2, ..., An formant une partition de W (Ai Aj = " ij, et Ai = W) "B en particulier: P(B) = i P(B Ai) = i P(BAi) P(Ai) P(B) = P(BA) P(A) + P(BA) P(A)

Thorme de Bayes: P(AB) = P(BA) P(A)

/ P(B) / k P(BAk) P(Ak)

Gnralisation: si A1, A2, ..., An forment une partition de W P(AiB) = P(BAi) P(Ai)

Ex d'utilisation: aide au diagnostique: probabilit d'une affection tant donns les rsultats d'examens mdicaux.
LINF2275 Proba. rappels 14

Assignement d'une probabilit un vnement


vision classique (jeux de hasard): W est un ensemble fini de cas possibles dont chaque singleton (vnement lmentaire) a la mme probabilit de se raliser. (Ex: lancer un d parfait => W est constitu de 6 lments quiprobables) d'o: Nbre de cas favorables P(A) = Nbre de cas possibles utilisation de l'analyse combinatoire ne convient pas si W n'est pas fini vision utopiste de la ralit (quiprobabilit) vision "frquentiste" (loi des grands nombres): rpter un grand nbre de fois N l'exprience et observer le nbre de fois que l'vnement d'intrt A se produit: d'o: Nbre d'occurrences de A f(A) = Nbre d'expriences (N) et P(A) = lim f(A)
N

ne convient pas si l'vnement n'est pas reproductible!

!
LINF2275 Introduction 15

conception subjectiviste: La probabilit objective d'un vnement n'existe pas et n'est pas une grandeur mesurable! Probabilit = mesure d'incertitude variant avec les circonstances et l'observateur => mesure subjective Contrainte: satisfaire aux axiomes du calcul des probabilits => permet de probabiliser des vnements non reproductibles et non alatoires ! (Ex: Quelle est la probabilit qu'il pleuve demain?) => permet de modliser l'incertain

Modlisation de l'incertain et de l'imprcis: nouveaux dveloppements thoriques (depuis les annes 1950): thories des possibilits, des fonctions de croyance et des ensembles flous gnralisation des axiomes des probabilits => plus grande souplesse plus proche du raisonnement humain
LINF2275 Proba. rappels 16

Variables alatoires et distributions


Variable alatoire: entit prenant diffrentes valeurs ('variable'), chacune avec une certaine probabilit ('alatoire') nbre fini ou dnombrables de valeurs: variable discrte toute valeur dans un certain intervalle de : variable continue Loi de probabilit d'une variable alatoire X: assignation des probabilits sur les diffrentes valeurs de X (discrte) ou sur des intervalles de valeurs de X (continue) Pour une variable discrte: masses ponctuelles P(X = xi) Pour une variable continue: densit de probabilit P(a < X < b)
P(xi)

Ex: X = nbre d'enfants des familles europennes

0
LINF2275

10 >10
Proba. - rappel 17

Fonction de rpartition d'une variable alatoire X: F(x) = P(X < x) (fct monotone croissante) d'o: P(a X < b) = F(b) F(a) Ex: fct de rpartition d'une variable discrte :
F(x) 1

0 1 2 3 4 5 6 7 8 9 10

Ex: fct de rpartition d'une variable continue :


F(x) 1

LINF2275

Proba. - rappel 18

Densit de probabilit (variable continue): f(x) est la fct de densit pour une variable X si pour tout intervalle [a , b] de on a: b P(a < X < b) = d'o et
f(x) P(a < X < b)

f ( x )dx
a

= aire sous la courbe f(x) au dessus de [a, b]

f ( x )dx = 1
a

F(a) = P(X < a) =

f ( x )dx

a
LINF2275

x
Proba. - rappel 19

Moments d'une variable alatoire X: valeurs typiques: centrales: moyenne de dispersion: variance, cart-type (dviation standard) de forme de distribution: coefficient d'asymtrie ('skewness'), d'aplatissement ('kurtosis'). notion d'esprance mathmatique: E(X) = moyenne (= centre de masse): var. discrte: m = E ( X ) =

x P( X = x )
i i i

var. continue de densit f(x): m = E ( X ) =

x f ( x ) dx

(n'existe pas tjrs!)

proprits lmentaires: E(a) = a E(aX) = a E(X) E(X + Y) = E(X) + E(Y)

LINF2275

Proba. - rappel 20

variance: V(X) = s2 = E((X E(X))2) = E(X)2 2 cart-type: s = V ( X )

(moment centr d'ordre 2)

Dfinition gnrale: moment centr d'ordre k = mk = E((X E(X))k) Coefficients d'asymtrie g1 (skewness) et d'aplatissement g2 (kurtosis): m3 m4 g1 = g2 = 3 s s4 Mdiane et percentile: mdiane: valeur x50 telle que P(X x50) = 0.50 percentile p%: valeur xp telle que P(X xp) = p%

LINF2275

Proba. - rappel 21

Lois de probabilit d'usage courant


Usage: Modlisation de systmes physiques et de leurs rsultats, permet des prdictions propos de ces systmes.

Lois discrtes:
Loi discrte uniforme: X = {1, 2, ..., n} avec P(X = k) = 1/n
1 2 3

...
n

Loi ou schma de Bernouilli de paramtre p: X = {0,1} avec P(X = 1) = p (apparition d'un vnement) et P(X = 0) = 1 p (non-apparition d'un vnement) Loi binomiale B (n, p): n somme de n variables de Bernouilli Xi indpendantes X= Xi de mme paramtre p i =1

LINF2275

Proba. - rappels 22

Loi binomiale (suite) X = nbre d'apparitions d'un vnement parmi n expriences alatoires indpendantes dont le rsultat est l'apparition ou non d'un vnement de n! k n-k probabilit p. D'o: P( X = k ) = C k pk (1 - p)n -k = p (1 p ) n k ! (n - k )! Loi de Poisson P (l): X valeur naturelle (entire, positive ou nulle) et satisfait:

= probabilit d'obtenir x vnements indpendants pendant un temps T, si le nbre moyen d'vnements par unit de temps est c et l = cT Bonne approximation d'une binomiale lorsque p est petit (vnement rare): B (n, p) ~ P (n p) Ex d'application: loi du nbre de suicides par an dans un pays donn loi du nbre d'appels tlphoniques pendant un intervalle de temps T
LINF2275 Proba. - rappels 23

lk P( X = k ) = exp(-l) k!

Autres lois discrtes utilisant le schma de Bernouilli: Loi gomtrique: X = nbre d'essais jusqu'au 1er succs

P( X = k ) = p(1 - p)k -1
Loi binomiale ngative: X = nbre d'essais jusqu'au rme succs

P( X = k ) = C

r -1 k -1

p (1 - p )

k-r

Lois continues
Loi uniforme sur un intervalle [a, b]: mme probabilit sur tout l'intervalle: f(x) = 1/(b a)
f(x ) 1/(b a) a
LINF2275

x
Proba. - rappels 24

Loi normale (ou gaussienne): N(m , s) moyenne = m et variance = s2 standardisation: Z = (X m) s => m = 0 et s = 1

f ( x) =
f(x)

2 1 ( x m ) exp 2p s 2 s2

Rle fondamental, frquemment utilis: loi limite sur des chantillons de grandes tailles; approximation des lois binomiale (n grand) et poisson (l grand); thorme central-limite: la somme de n variables alatoires de mme loi de moyenne m et d'cart-type s tend vers une normale.
LINF2275

m-3s m-2s m-s m m+s m+2s m+3s 68% 95% 100%

Proba. - rappels 25

Exemples d'autres lois continues: loi log-normale: si ln X est distribu selon une gaussienne loi exponentielle: f(x) = l exp(- lx) pour x > 0 ...

Ingalit de Chebychev (1867):


Pour TOUTE variable alatoire (discrte ou continue) X de moyenne m et de variance s2, P(X m cs ) 1/c2 Ex: c 1.5 2.0 3.0 4.0 P(X m cs ) 44.4% 25.0% 11.1% 6.3% pour N(m, s) 13.4% 4.6% 0.27% 0.01%
Proba. - rappels 26

LINF2275

Couple de variables alatoires


Lois associes un couple (X, Y) de var. discrtes: loi jointe = loi du couple (X,Y) dfinit par la table: o pij = P(X = xi et Y = yj) lois marginales = lois des variables individuelles: q loi marginale de X:
y1 x1 xj xp p.j pij pi. yj yq

P( X = xi ) = pij = pi.
j =1 p

loi marginale de Y:

P(Y = y j ) = pij = p. j
i =1

lois conditionnelles: loi d'une variable tant donn la valeur prise par l'autre loi de X si Y = yj : pi|j = P(X = xi | Y = yj) = pij/ p.j loi de Y si X = xi : pj|i = P(Y = yj | X = xi) = pij/ pi. Indpendance de X et Y: ssi pij = pi. p.j ssi pi|j = pi. ssi pj|i = p.j
LINF2275 Proba. - rappels 27

Conditionnement d'une var. continue Y par une var. discrte X Fct de rpartition conditionnelle: FY|x(y) = P(Y < y | X = x) Fct de densit conditionnelle (si elle existe): fY|x(y) telle que P(a < Y < b | X = x) = Densit marginale de Y: fY(y) = x fY|x(y) P(X = x)
b

f
a

Y x

(y )dy

Couple (X, Y) de variables continues (espace 2 dimension) Fct de rpartition jointe de (X, Y): FXY(x, y) = P(X < x et Y < y) Fcts de rpartition marginales: FX(x) = P(X < x) = FXY(x, ) (pas de cond. sur y) FY(y) = P(Y < y) = FXY(, y) (pas de cond. sur x) Fct de densit jointe de (X, Y) (si elle existe): fXY(x, y) si pour toute rgion A de l'espace 2 dimensions: P((X,Y) A) = A fXY(x, y)dx dy = volume sous la courbe fXY(x, y) au-dessus de la rgion A Indpendance de X et Y:
LINF2275

FXY(x, y) = FX(x) FY(y) fXY(x, y) = fX(x) fY(y)


Proba. - rappels 28

Fcts de densit marginales: fX(x) = fXY(x, y)dy Loi conditionnelle : indpendance ssi

fY(y) = fXY(x, y) dx

fY|x(y) = fXY(y) fX(x) pour fX(x) > 0 fY|x(y) = fY(y) ssi fX|y(x) = fX(x)

Esprance conditionnelle: E(Y | x) = y fY|x(y) dy


(rappel: pour une variable X de densit f(x) : E(X) = x f (x) dx )

Gnralisation un nbre n > 2 de variables:


variables discrtes: P(X1 = x1, X2 = x2, ... Xn = xn ) variables continues: A une rgion dans l'espace n dimensions: P((X1, ..., Xn) A) = ... fX
A
1 ... Xn

(x1, ..., xn) dx1 ... dxn

distributions marginales, conditionnelles, conditions d'indpendance


LINF2275 Proba. - rappels 29

Covariance et corrlation: = mesures de la variation conjointe de 2 variables: covariance: sXY = cov(X,Y) = E((X E(X)) (Y E(Y))) = E(X Y) E(X) E(Y) avec E(X Y) = i j xi yj pij pour des variables X et Y discrtes = x y fXY(x, y)dx dy corrlation: rXY = cor(X,Y) = cov(X,Y) sX s Y Proprits: 1) V(X + Y) = V(X) + V(Y) + 2 cov(X,Y). 2) SI X et Y indpendantes ALORS cov(X,Y) = 0 (car E(X Y) = E(X) E(Y)) ! la rciproque est fausse: cov(X,Y) = 0 n'implique pas l'indpendance 3) -1 rXY 1 4) r2XY = 1 ssi Y = aX + b
LINF2275

"

"

continues

sXY et rXY = mesures de relation linaire


Proba. - rappels 30

Soit distribution quiprobable des points (x, y):


y y

0 < cor < 1

cor = 0

x y y

-1 < cor < 0

cor = 0

x
LINF2275

x
Proba. - rappels 31

Distribution normale bivarie

LINF2275

Proba. - rappels 32