Vous êtes sur la page 1sur 49

Analyse de données:

Notions de statistiques et probabilités


ISI 4207

NIAMSI EMALIO Yannick


Statisticien
Notions de statistiques et probabilités
 Statistique : Etude du résultat d’une expérience
aléatoire
 Probabilité : Etude des lois théoriques des
expériences aléatoires
 Expérience aléatoire : c’est une expérience
dont le résultat est soumis au hasard. L’ensemble
des résultats éventuels sont connus mais l’issue
n’est pas prévisible

2
Notions de statistiques et probabilités
 Univers des possibilités : c’est l’ensemble des
résultats possibles d’une expérience aléatoire.
C’est ensemble est généralement noté 𝛀.
 Evènement : C’est un sous-ensemble de 𝛀
 Exemples:
Lancer d’une pièce de monnaie Lancer d’un dé à 6 faces

Ω = {Pile, Face} Ω = {1, 2, 3, 4, 5, 6}

A = {P} B = {F} A = {3} B = {2, 4, 6}


C={1, 6}

3
Variables aléatoires
 Une variable aléatoire est une application X
définie sur l’univers 𝛀 et à valeur dans ℝ
• X : 𝛀➾ℝ
 Une variable aléatoire (v.a.) est généralement
notée en lettre majuscule : X,Y, Z, T etc.
 Toute v.a. est munie d’une probabilité
 Exemples : Durée de vie d’un composant
électronique; nb d’essais avant d’obtenir un
résultat, etc.
4
Variables aléatoires
 L’ensemble des valeurs possibles d’une v.a. X est
appelé son Support.On le note X(𝛀)
 Ex. 1: X = résultat d’un lancé de dé ➩ le
support de X: 𝛀 ={1, 2, 3, 4, 5, 6}
 Ex. 2: Lancer une balle, X = la distance
parcourue par la balle avant de s’arrêter
 ➩ X ∈ [0, d] en supposant qu’il y ait une distance
maximale d possible
 ➩ ou bien simplement X ∈ [0, +∞[
5
Variables aléatoires
 Une v.a. est dite discrète lorsqu’elle prend des
valeurs isolées
 Ex. Les prix de la loterie : 1er prix : 1 000 €; 2ème prix : 50 €;
3ème prix : 5,5 €
o 𝛀 = {0; 5,5; 50; 1 000}
 Une v.a. est dite continue lorsqu’elle peut prendre toutes
les valeurs d’un intervalle [a, b] de ℝ
 Ex. X= La taille d’un individu. xi = les valeurs (en cm) de
l’intervalle I =[150; 200]
• X : 𝛀 ➾ℝ
• 𝛀 = I = [150 ≤ xi ≤ 200]
6
Espérance de Variable aléatoire
 Ex. 1. Lancer un dé plusieurs fois de suite.
Supposons que pour une mise de 200F, on gagne
100F si le résultat obtenu est pair , 200F si le
résultat est 1 ou 3, et on perd 300F si le résultat
est 5.
 Question: Est-il intéressant de jouer à ce jeu?
Quel est le gain moyen?

7
Espérance de Variable aléatoire
 1) X est une variable DISCRÈTE à valeurs dans 𝔻= {x1, . . . , xn}
 L’espérance mathématique de X (Expected value en anglais), notée E(X) est donnée par
 𝐸 𝑋 = σ𝑛
𝑖=1 𝑥𝑖 𝑓(𝑥𝑖 )

 2) Si X est une variable DISCRÈTE à valeurs dans l’ensemble INFINI: 𝔻= {xi: i ≥1}, lorsque
la somme est bien définie, son espérance implique un calcul de LIMITE
 𝐸 𝑋 = σ+∞ 𝑛
𝑖=1 𝑥𝑖 𝑓 𝑥𝑖 = lim σ𝑖=1 𝑥𝑖 𝑓(𝑥𝑖 )
𝑛⇢∞

 3) Si X est une variable CONTINUE (à densité, f), son espérance est déterminée par une
+∞
INTÉGRALE généralisée 𝐸 𝑋 = ‫׬‬−∞ 𝑥𝑓 𝑥 𝑑𝑥
 Propriétés :
① L’espérance est LINÉAIRE: soient a et b ∈ ℝ, deux v.a.X et Y d’espérance FINIE
E[aX+bY] = a E[X] +b E [Y]
② Si X ≥ 0, alors 𝔼[X] ≥ 0
③ Si X ≤ Y , alors 𝔼[X] ≤ 𝔼[Y]
8
Espérance de Variable aléatoire
 Propriétés de l’espérance
 Règle ❶ ☞ Espérance d'une variable aléatoire à la puissance
 ☞ Espérance de X au carré :
 ☞ Espérance de X au cube :
 Règle ❷ ☞ SOMME et DIFFÉRENCE de Variables Aléatoires :
 𝔼(X+Y) = 𝔼(X) + 𝔼(Y)
 𝔼(X -Y) = 𝔼(X) - 𝔼(Y)
 Règle ❸ ☞ ADDITION d’une CONSTANTE à une v.a. : 𝔼(X+a) = 𝔼(X) + a
 Règle ❹ ☞ MULTIPLIER X par une CONSTANTE : 𝔼(b X) = b 𝔼(X) ∀ b∈ℝ
 Règle ❶ ☞ Espérance d'une variable aléatoire à la puissance
 Règle ❺ ☞ PRODUIT (dans le cas de variable indépendante) : 𝔼(XY) = 𝔼(X) 𝔼(Y)

9
Espérance de Variable aléatoire
 Propriétés de l’espérance:
 Proposition : Soit X une v. a. et 𝒽 une fonction quelconque définie sur ℝ (𝒽: ℝ⟼ℝ)
 ❶ si X est une VARIABLE DISCRÈTE à valeurs dans 𝔻= {x1, . . . , xn}
𝑛

𝐸ℎ 𝑋 = ෍ ℎ 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖)
𝑖=1
 ❷ si X est une VARIABLE DISCRÈTE à valeurs dans l’ensemble INFINI 𝔻 = {xi: i ≥1},
lorsque la somme est bien DÉFINIE :
+∞

𝐸ℎ 𝑋 = ෍ ℎ 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖)
𝑖=1

 ❸ si X est une VARIABLE CONTINUE (À DENSITÉ 𝕗) lorsque l’INTÉGRALE est bien


définie :
+∞

𝐸[ℎ 𝑋 ] = න ℎ 𝑋 𝑓 𝑥 𝑑𝑥
−∞

10
Variance et Ecart-Type
 La VARIANCE mesure l'écart des valeurs de la variable par rapport à l'espérance
 Var(X) = 𝔼 [(X – 𝔼(X))2] = 𝔼 [X2]– 𝔼[X]2

 Propriétés :
 ❶ Var(X) = 0 ⟷ X est CONSTANTE
 ❷ Soient a et b ∈ ℝ, alors 𝑉𝑎𝑟 𝑎𝑋 + 𝑏 = 𝑎2 𝑉𝑎𝑟(𝑋)

 L’ÉCART-TYPE : l’écart moyen (distance moyenne) entre la variable et sa moyenne

 𝜎 𝑋 = 𝑉𝑎𝑟(𝑋)
 ☞ plus l’écart-type est grand plus la var prend des valeurs qui peuvent être éloignées les
unes des autres
 ☞ plus l’écart-type est petit plus la var. prend des valeurs proches de sa moyenne

11
Variance et Ecart-Type
 La VARIANCE d’une variable aléatoire DISCRÈTE FINIE :
2
 𝑉𝑎𝑟 𝑋 = σ𝑛
𝑖=1 𝑥𝑖 − 𝐸 𝑋 𝑓(𝑥𝑖 ) = σ𝑛𝑖=1 𝑥𝑖2 𝑓 𝑥𝑖 − 𝐸(𝑋)2
 Ex. Calculer l’espérance et la variance de X:

12
Variance et Ecart-Type
 La VARIANCE d’une v. a. CONTINUE est, là encore, l'espérance de la moyenne
 des carrés de ses écarts par rapport à sa moyenne
+∞ 2
 𝑉𝑎𝑟 𝑋 = 𝐸(𝑋 − 𝐸(𝑋))2 = ‫׬‬−∞ 𝑥 − 𝐸 𝑋 𝑓 𝑥 𝑑𝑥

 EX: Vous donnez ordre à votre courtier de vous acheter 12 actions de la compagnie ABC
au prix du marché X. Supposons que µx = 27, σx = 3. Vous recevrez une facture dont le
montant Y est la valeur de vos actions, plus une commission forfaitaire de 50 $.
Déterminer l'espérance et l'écart-type de Y.

 EX: On suppose que le poids (en kg) des adultes suit une distribution de moyenne égale à
64 distribue et d’écart-type égal à 12. Soit X le poids total de 14 personnes qui
s'entassent dans un ascenseur. Calculez l'espérance mathématique et la variance de X.

13
Probabilité conjointe
 Probabilité Conjointe (fonction de densité conjointe des v. a.) X et Y ,
 𝑓 𝑥𝑖, 𝑦𝑗 = 𝑃(𝑋 = 𝑥𝑖, 𝑌 = 𝑦𝑗) , X et Y deux variables discrètes dont l’ensemble des
valeurs possibles sont respectivement {x1, … , xn} et {y1, …, ym}
 L’espérance conjointe est donnée par :

 EX:

14
Probabilité Marginale
 Lorsqu’on connaît la loi conjointe des X et Y , on peut aussi s’intéresser à la loi de proba
de X seule et de Y seule ➾les lois de probabilité marginales
 Soient X,Y deux v. a. admettant comme loi de probabilité conjointe f(x, y). Alors, les lois
de probabilité marginales de X et Y sont définies :

 Ex: Déterminons les distributions de X et de Y à partir des données de l’exemple


précédent.

15
Probabilité Conditionnelle
 Soient X et Y, deux v.a. admettant comme loi conjointe f(x, y) et comme lois marginales
𝑓𝑋 𝑋 et 𝑓𝑌 (𝑌)
 Si l’on suppose que la proba que X prenne xi n’est pas nulle, alors la proba conditionnelle
que Y prenne yj sachant que (X=xi), se réalise est :

 Ex: Des données de l’exemple précédent, déterminer les proba. Conditionnelles

16
Variables aléatoires Indépendantes
 X et Y sont indépendantes lorsque :
 - la loi conditionnelle de X, pour toute valeur de Y , est IDENTIQUE à la loi marginale
de X
 - la loi conditionnelle de Y , pour toute valeur de X, est IDENTIQUE à la loi marginale
de Y
 X et Y sont INDÉPENDANTES ssi les probas conjointes sont égales au produit des probas
 marginales :

 Ex: A partir des données de l’exemple précédent, déterminer si X et Y sont indépendant

17
Covariance
 La COVARIANCE de X et Y permet de déterminer l’intensité de leur dépendance

 A partir des données de l’exemple précédent, déterminer la covariance ente X et Y

18
Covariance
 Proposition :
 Si deux v.a. sont INDÉPENDANTES, leur covariance est
NULLE.
 Si deux v.a. sont DÉPENDANTES,
 𝔼(XY) = 𝔼(X) 𝔼(Y) + Cov(X, Y)
 Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
 N.B. : La Covariance mesure la force du lien qui peut exister
entre X & Y .
 ⨻ Limite : fortement influencée par les unités de mesure des
variables en présence

19
Corrélation
 La CORRÉLATION : mesure statistique destinée à rendre compte du sens et de la force
de la liaison mathématique qui peut exister entre deux variables quantitatives (X et Y)

20
Corrélation
 La CORRÉLATION (𝛒(X,Y)) : la mesure du degré de liaison entre X et Y .

 𝛒(X,Y) est leur covariance divisée par la racine carrée de leurs variances respectives.

 Avantage:
 Standardise la covariance et la corrige de l’influence des unités de mesure des variables
 𝛒(X,Y) est compris entre -1 et 1

 Ex: A partir des données de l’exemple précédent, déterminer le coefficient de


corrélation entre X et Y

21
Corrélation
 Proposition :
 ☞La covariance de deux v.a. indépendantes est zéro ⟿ leur corrélation
est NULLE.
 ☞ ATTENTION : La réciproque n’est pas vraie. Deux v.a. de corrélation
NULLE NE sont PAS obligatoirement indépendantes.
 ☞ Comme l'ESPÉRANCE est un opérateur linéaire, l’espérance de la
somme des v.a.
 pondérées est la somme des espérances des v.a. pondérées
 𝔼[c1X + c2Y] = c1𝔼(X) + c2𝔼(Y)

 La VARIANCE de la somme des v.a. pondérées :

22
Corrélation
 LIMITES de la corrélation :

 ⨻ Ne concerne qu’une relation linéaire. Lorsqu’elle ne l’est pas, ce


coefficient peut induire en erreur , surtout sur l’intensité de la liaison
entre variables.
 ⨻ Ne concerne que les variables quantitatives.
 ⨻ Ne permet ni d’établir une causalité, ni de mesurer l’impact d’une
variable sur l’autre. Permet simplement de rendre compte du sens et du
degré d’association éventuelle entre variables.
 ⨻ Ne peut tenir qu’à un facteur confondant ou artefact. Les deux
variables peuvent simplement être liées à un même phénomène-source :
une 3ème variable dont il faut neutraliser l’effet.

23
Loi de probabilité
 La loi de Probabilité d’une variable aléatoire permet de
connaître les chances d’apparition des différentes valeurs de
cette var. ⟿ l’espace de probabilité (𝛀, ℙ)

 Fonction de Densité, 𝕗(x)[Probability Density Function, PDF] :



 ☞ toutes les valeurs possibles prises par une VAR ALÉA avec
leurs chances de se produire
 ☞ permet de caractériser l’intensité de la proba d’apparition
des différentes valeurs

24
Loi de probabilité
 Fonction de Répartition, 𝔽x [Cumulative Distribution
Function, CDF] :
 ☞ la distribution des PROBABILITÉS CUMULÉES
 ☞ défini la loi de probabilité de X,
𝔽x : ℝ ➾ [0, 1]; x ⟼ ℙ (X ≤ x)

 Remarque 1 :
 ☞ deux v.a. X et Y ont la même loi si elles ont la même
fonction de répartition

25
Loi de probabilité
 Remarque 2 : Soit I un intervalle de ℝ. L’événement {X ≤ x}
représente l’ensemble des valeurs 𝛚 ∈ 𝛀 telles que X(𝛚) soit
inférieur à x : {X ≤ x} = {𝛚 ∈ 𝛀 : X (𝛚) ≤ x}

 Remarque 3 : ℙ(X ∈ ℝ) =1, car ℙ(X ∈ℝ) = ({𝛚 ∈ 𝛀 : X (𝛚)


∈ ℝ}) = ℙ (𝛀) =1

 Propriétés : La fonction de répartition est une fonction


croissante à valeurs dans [0, 1]

26
Loi de probabilité
 Loi d'une variable discrète : Soit X le résultat d'un lancé de dé,
 X (𝛀) = {1, 2, 3, 4, 5, 6}
 ☞Donner 𝓛(X)➟calculer les ℙ(X=x) pour toutes les valeurs x
possibles prises par X

27
Loi de probabilité : Loi uniforme
 Définition :
 X suit la loi uniforme sur {x1, …, xn}, lorsque
 X(𝛀) ={x1, …, xn} et que ℙ(X = xi) = 1/n pour tout 1≤ i ≤
n
 Ex. On lance deux dés et on s’intéresse à la somme des points,
notée X :
 où le nombre de cas (résultats) possibles est 36
 X : 𝛀 ➾ ℝ avec 𝛀 = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)};
 L’ensemble des valeurs possibles de X : 𝛀 = {2, 3, . . . , 12}

28
Loi de probabilité : Loi uniforme

29
Loi de probabilité : Loi uniforme
 Fonction de répartition d’une variable aléatoire discrète :
 fonction DISCONTINUE, constante par morceaux , ou fonction en
escalier

30
Loi de probabilité : Loi de Bernoulli
 Une v.a. qui ne prend que deux valeurs :
 Échec = 0 vs. Succès = 1
 Ex. On souhaite savoir si un composant électronique est défectueux.
1 = s’il est défectueux (succès) vs. 0 = sinon (échec)
➩ La loi est donnée par : P (X = 1) = 𝚙
P(X = 0)=1 − 𝚙
 Définition :
 ➩ X suit la loi de Bernoulli de paramètre p ∈ [0, 1]: X ~ 𝓑(p) si :
o X ∈ {0, 1}
o ℙ(X = 1)=p
o ℙ(X = 0)=1 – p

31
Loi de probabilité : Loi de Binomiale
 Loi Binomiale (X ~ 𝓑(n, p) avec p ∈ [0, 1], n ∈ ℕ, n ≥ 1)
 Loi du nb de succès lors de n ESSAIS indépendants d'une même
expérience probabiliste
 ☞ Épreuve de Bernoulli de paramètre p est renouvelée n fois de
manière INDÉPENDANTE
 ☞ Utilisée pour modéliser un « sondage avec remise »
 Notez X le nb de succès obtenus à l’issue des n épreuves et sa loi 𝓑(n,
p) :
 ☞ On peut écrire le nb de succès X à l’aide des résultats de chaque
épreuve de Bernoulli
 ☞ On note Xi le résultat de la ième expérience : X = X1+ … + Xn

32
Loi de probabilité : Loi de Binomiale
 Définition : X ~ 𝓑(n, p), avec (n ∈ ℕ, n≥1) et (p∈[0, 1]) lorsque X
∈ {0, 1, 2, …, n}

 Caractéristiques
o 𝔼[X] = n p
o Var(X) = n p(1 - p)

 Ex: On choisit au hasard une famille, parmi les familles ayant 5


enfants. Quelle est la probabilité qu’il y ait moins de deux filles dans
cette famille?
33
Loi de probabilité : Loi de Binomiale

34
Loi de probabilité : Loi de Poisson
 Loi de Poisson (X ~ 𝓟(𝛌), avec 𝛌 > 0 un réel) : « LOI DES PETITS NOMBRES »
 ☞comptage D’ÉVÉNEMENTS RARES
 ☞des événements ayant une FAIBLE PROBABILITÉ de RÉALISATION
 ☞ la proba d’apparition de k événements rares et INDÉPENDANTS (dans un laps de
temps)
 Ex. maladies rares, accidents mortels rares, le titrage d’une solution virale, mutations ou
 recombinaisons dans une séquence génétique, pannes, radioactivité… ~ 𝓛 de 𝓟(𝛌)
 Définition : Soit 𝛌 > 0. X suit la loi de Poisson de paramètre 𝛌 si pour tout entier k ≥ 0

35
Loi de probabilité : Loi de Poisson
 Caractéristiques :

 EX. Un étudiant fait la mise à jour de son ordinateur 2 fois par mois. Par an, quelle est la
probabilité pour cet étudiant de faire 30 mises à jour?

36
Loi de probabilité : Loi continue
 Définition : Fonction de Densité d’une Variable Continue : X est à
densité (ou continue) s’il existe une fonction f définie et intégrable
sur R et respectant les contraintes suivantes :

𝑏
 𝑃 𝑎≤𝑋≤𝑏 = ‫𝑓 𝑎׬‬ 𝑥 𝑑𝑥
 Définition : Fonction de Répartition d’une Variable Continue : si la
fonction de densité
 d’une VAR est 𝕗, alors la fonction 𝔽 : x⇾ Proba (X ≤ x) est la
fonction de répartition de X :

37
Loi de probabilité : Loi continue
 Propriétés :
 𝔽(-∞) = 0 ; F(+∞) = 1
 𝔽 est continue, croissante
 De la forme de la fonc. de densité dépend celle de la fonc. de
répartition (et vice-versa)

38
Loi de probabilité : Loi Normale
 La Loi Normale (Loi Gaussienne, Loi de Gauss ou Loi de Laplace-
Gauss) X ~ 𝒩 (𝛍, 𝛔2) :
 ☞ La plus utile et la plus adaptée des lois continues pour modéliser
des phénomènes issus de plusieurs événements aléatoires.

39
Loi de probabilité : Loi Normale
 Cas Particuliers : la Loi normale centrée réduite
 Si 𝛍 = 0, la loi normale est dite CENTREÉ
 Si 𝛔 = 1, elle est dite REDUITE
 X ~ 𝒩 (0, 1)
 EX. Z ~ 𝒩 (0, 1). Calculer les probabilités suivantes
 a) P[Z> 1,25]; b) P[Z ≤-1]; c) P[1,15 < Z ≤2,11];
 EX. Supposons que les montants correspondant à une population de
factures sont de moyenne µ = 200000F et d'écart-type σ= 40000F.
En supposant que les montants des factures soient de loi normale,
déterminer la probabilité qu'une facture tirée au hasard corresponde à
un montant compris entre 20000F et 280000F.

40
Loi de probabilité : Loi Gamma

41
Loi de probabilité : Loi du Khi-deux

42
Moments empiriques
 Moyenne empirique

43
Moments empiriques
 Variance empirique

44
Moments empiriques
 Variance empirique

45
Echantillon d’une loi normale

46
Théorème limite central

 EX.
 Considérons la distribution exponentielle. Si X a une distribution
exponentielle, alors sa fonction de densité est de la forme suivante
 Que peut on dire de la distribution de 𝑋𝑛 lorsque n tend vers l’infini

47
Approximation normale de la binomiale

48
49

Vous aimerez peut-être aussi