Vous êtes sur la page 1sur 37

Cours de Probabilités-Statistiques

SVT-L1S2
Par Dr BAGRE Remi Guillaume

Juin 2018
Première partie

Probabilités

1
Chapitre 1

Calcul de Probabilités

1.1 Calcul de probabilités


L’objet des probabilités est d’étudier d’un point de vu théorique les phenomèmes
aléatoires (phénomènes dont on ne peut pas prévoir le résultat. Ceci dependant du hasard)
en évaluant les
 chances  que tel ou tel phénomène se réalise.

1.1.1 Vocabulaire lié aux probabilités


Etant donné un phénomène aléatoire :
1. Tout résultat possible s’appelle une éventualité.
2. L’ensemble des éventualités s’appellent l’univers. On le note Ω sauf indication contraire.
3. Toute partie de l’univers s’appelle un événement.
4. Un événement qui n’a aucune événtualité s’appelle un événement impossible. On le
note ∅.
5. L’univers Ω s’appelle l’univers certain.
6. Un événement qui n’a qu’une seule éventualité s’appelle un événement élémentaire.
7. Si une éventualité a est élément d’un événement A. On dit que a réalise A ou que
A est réalisé par a ou que a est favorable à A. On note a ∈ A.
8. Si A est un événement, l’ensemble des éventualités qui ne réalisent pas A s’appelle
l’événement contraire de A et se note Ā.
9. Si A et B sont deux événements l’ensemble des événtualités qui réalisent A ou B
(resp A et B) s’appelle l’événement A ou B (resp A et B) et se note A ∪ B (resp
A ∩ B).
10. Si A ∩ B = ∅ on dit que A et B sont incompatibles.

2
1.1.2 Probabilité définie sur un univers

1.1.2 Probabilité définie sur un univers


Définition
Soit Ω un univers fini d’éventualité associé à une épreuve aléatoire.
Soit Ω = {ω1 , ω2 , . . . , ωn }, card(Ω) = n.
P(Ω) l’ensemble des parties(événements) de Ω.
Une probabilité définie sur Ω est toute application p définie de P(Ω) vers [0, 1] qui vérifie
les conditions suivantes :
P1 :
n
X
p({ωk }) = 1
k=1

P2 : Pour tout événement A,


Si A = ∅ alors p(A) = 0 et si A = {a1 , a2 , . . . , ak }
k
X
p(A) = p({ai })
i=1

p(A) s’appelle la probabilité de A.

Exemple 1.1
On lance un dé cubique dont les faces sont numerotées 1,2,3,4,5 et 6. Après immobilisa-
tion du dé, on lit le numéro superieur porté par la face supérieur du dé. Le dé est truqué
de tel sorte que les numeros paires ont la même chance d’apparaître, les numeros impaires
ont la même chance d’apparaître mais apparaissent deux fois moins vite que les numeros
paires. Quelle est la probabilité que le numero apparu sur la face superieure est le 2 ? soit
le 5 ? soit un numero paire ?

Solution : p({2}) = p({4}) = p({6}) = x


1
p({1}) = p({3}) = p({5}) = x
2
On a :

p({1}) + p({2}) + p({3}) + p({4}) + p({5}) + p({6}) = 1


9
x = 1
2
2
x =
9
2
La probabilité que le numero apparu soit 2 est
9
1
La probabilité que le numero apparu soit 5 est
9
Soit A l’événement :  Le numero apparu est paire.
A = {2, 4, 6}
2
p(A) + p({2}) + p({4}) + p({6}) =
3

3 Dr BAGRE Remi Guillaume


1.1.2 Probabilité définie sur un univers

Cas d’équiprobabilité
Soit Ω un univers fini d’événtualité associé à une épreuve aléatoire.
Deux événements A et B sont dits équiprobables lorsqu’ils ont la même probabilité.
On dit qu’il y a équiprobabilité sur Ω lorsque tous les événements élémentaires sont
équiprobables.

Conséquence de l’équiprobabilité
Soit Ω = {ω1 , ω2 , . . . , ωn }. S’il y a équiprobabilité sur Ω alors p({ω1 }) = p({ω2 }) = . . . =
p({ωn }). On a alors
n
X
p({ωi }) = 1
i=1

n
X 1
x = 1 i.e nx = 1 ⇐⇒ x =
i=1 n
.
Si A = {a1 , a2 , . . . , ak } alors :
n k
X X 1 k
p(A) = p({ai }) = =
i=1 i=1 n n
.

k card(A)
p(A) = =
n card(Ω)

Remarque :
Les expressions du genre : pièce parfaite, pièce non truqué, dé parfait, dé non pipé, cartes
bien battues, objets ou boules indiscernables au toucher, tirage au hasard traduisent
l’équiprobabilité.

Exemples 1.1

1
1. Si on jette un dé parfait à 6 faces. La probabilité d’apparition d’une face est .
6
1
2. Si on lance une pièce parfaite à pile ou face la probabilité d’obtenir pile est
.
2
3. Une urne contient trois boules rouges et quatres boules blanches indiscernables au
toucher. On tire simultanément trois boules de l’urne. Quelle est la probabilité des
événements suivants :
(a) A = les trois boules tirées sont blanches .
(b) B = les trois boules tirées sont de la même couleur .

4 Dr BAGRE Remi Guillaume


1.1.3 Probabilités conditionnelles

Solution : Soit Ω l’univers associée à ce tirage, les boules étant indiscernables au


toucher, il y a équiprobabilité des tirages.

card(A)
∀ A ⊂ Ω; p(A) =
card(Ω)
.
Chaque événtualité est un ensemble de trois boules tirées simultanément parmi 7 donc
card(Ω) = C73 = 35.
A = les trois boules tirées sont blanches . A est l’ensemble des tirages simultanés de
4
3 boules blanches. card(A) = C43 = 4 alors p(A) = .
35
B = les trois boules tirées sont de la même couleur .
5 1
card(B) = C33 + C43 = 5 donc p(B) = =
35 7

Propriétés
Soit Ω un univers fini d’éventualité. p une probabilité sur Ω.
1. p(∅) = 0
2. p(Ω) = 1
3. ∀ A ⊂ Ω, 0 ≤ p(A) ≤ 1
4. ∀ A ⊂ Ω, ∀ B ⊂ Ω, p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
Si A et B sont incompatibles alors p(A ∪ B) = p(A) + p(B) − p(A ∩ B) et p(Ā) =
1 − p(A)

1.1.3 Probabilités conditionnelles


Exemple 1.2
On tire une carte d’un jeu de 32 cartes bien battues.
1. (a) Décrire l’univers Ω des résultats possibles.
(b) Quelle est la probabilité de l’événement R : La carte tirée est un roi. On
notera cette probabilité p(R).
(c) Quelle est la probabilité p(T ) de l’événement T : La carte tirée est un trêfle ?
(d) Quel est l’événement R et T (R ∩ T ) ? Calculer sa probabilté noté p(R ∩ T ).
2. On arrive à savoir avant de découvrir la carte tirée : il s’agit d’un trêfle.
(a) Décrire alors l’univers Ω0 des résultats possibles.
(b) L’événement La carte tirée est un roi de l’univers Ω0 s’appelle alors l’évé-
nement sachant qu’elle est un trêfle et se note R/T (se lit R sachant T ).
p(R ∩ T )
Calculer p(R/T ) et la comparer à
p(T )
p(T ∩ R)
3. Définir l’événement T /R puis calculer p(T /R) et la comparer à
p(R)

5 Dr BAGRE Remi Guillaume


1.1.3 Probabilités conditionnelles

Solution : Composition d’un jeu de 32 cartes : 8 trêfles, 8 carreaux, 8 coeurs, 8


piques.
1. (a) Ω est l’ensemble des 32 cartes.
1
(b) Dans le jeu, il y a 4 rois. card(R) = 4 donc p(R) = .
8
1
(c) Dans le jeu, il y a 8 trêfles. card(T ) = 8 donc p(T ) = .
4
(d) R ∩ T :La carte tirée est un roi et un trêfle  donc :
1
R ∩ T :La carte tirée est le roi de trêfle et p(R ∩ T ) = .
32
2. (a) Ω0 est l’ensemble des tirages d’une carte parmi les 8 trêfles. card(Ω0 ) = 8
1
(b) p(R/T ) =
8
p(R/T ) 1
=
p(T ) 8
p(R ∩ T )
p(R/T ) =
p(T )

3. T /R est l’événement : La carte tirée est un trêfle sachant que c’est un roi. 
1 p(T ∩ R) 1
p(T /R) = et =
4 p(R) 4
p(T ∩ R)
p(T /R) =
p(R)

Définition
Soit Ω un univers fini d’éventualités. p une probabilité sur Ω, B un événement de Ω
tel que p(B) 6= 0. Soit A un événement quelconque.
La probabilité de A lorsque l’on sait que l’événement B est réalisé s’appelle la probabilité
conditionnelle de A sachant que B est réalisé. On la note p(A/B) ou pB (A).

p(A ∩ B)
p(A/B) =
p(B)

Evénements indépendants
Deux événements A et B de probabilité non nulle sont dits indépendants lorsque
p(A/B) = p(A) ou p(B/A) = p(B).
A et B sont indépendants sssi p(A ∩ B) = p(A) × p(B).
Remarque : L’événement impossible est indépendant de tout autre événement.

6 Dr BAGRE Remi Guillaume


1.1.3 Probabilités conditionnelles

Formules des probabilités totales et théorème de Bayes


Partition d’un univers
Soit Ω un univers fini d’éventualités. Des événements B1 , B2 , . . . , Bn forment une partition
de Ω lorsqu’aucun d’eux n’est impossible, lorsqu’ils sont deux à deux incompatibles leur
reunion égale à Ω.

Théorème
Soit Ω un univers fini d’éventualités. B1 , B2 , . . . , Bn des événements qui forment une
partition de Ω.
Pour tout événement A,
n
X
p(A) = p(A/B1 ) × p(B1 ) + p(A/B2 ) × p(B2 ) + . . . + p(A/Bn ) × p(Bn ) = p(A/Bi ) × p(Bi )
i=1

Exemple 1.3
On dispose de deux urnes U et V . L’urne U contient deux boules rouges et deux boules
noires, l’urne V contient 3 boules rouges et une boule noire. Toutes les boules contenues
dans chaque urne sont indiscernables au toucher.
Un joueur lance un dé parfait à 6 faces numérotées 1 ;2 ;3 ;4 ;5 et 6.
Si le numero porté par la face superieur du dé est un multiple de 3, le joueur tire une
boule dans l’urne U . Sinon il tire une boule dans l’urne V .
Calculer la probabilité que la boule tirée soit rouge.
Soit B1 :La boule est tirée dans U  et B2 :La boule est tirée dans V 

Solution : Soit Ω l’univers associé aux tirages. B1 et B2 forment une partition de Ω.


Soit R :La boule tirée est rouge 
2 2 3 4 2
p(A) = p(R/B1 ) × p(B1 ) + p(R/B2 ) × p(B2 ) = × + × =
4 6 4 6 3
Théorème 1.1 (bayes) Soit A1 , . . . , An un système complet d’événements, alors

P (Ai )P (B|Ai )
P (Ai |B) = Pn
j=1 P (Aj )P (B|Aj )

Exemple 1.4 Supposons qu’une population d’adultes soit composée de 30% de fumeurs
(A1 ) et de 70% de non-fumeurs (A2 ). Notons B l’événement “mourir d’un cancer du
poumon”. Supposons en outre que la probabilité de mourir d’un cancer du poumon est
égale à P r(B|A1 ) = 20% si l’on est fumeur et de P r(B|A2 ) = 1% si l’on est non-fumeur.
Le théorème de Bayes permet de calculer les probabilités a priori, c’est-à-dire la probabilité
d’avoir été fumeur si on est mort d’un cancer du poumon. En effet, cette probabilité est
notée P r(A1 |B) et peut être calculée par

P (A1 )P (B|A1 ) 0.3 × 0.2


P (A1 |B) = = ≈ 0.896
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) 0.3 × 0.2 + 0.7 × 0.01

7 Dr BAGRE Remi Guillaume


1.1.4 Schéma de Bernouilli

La probabilité de ne pas avoir été non-fumeur si on est mort d’un cancer du poumon vaut
quant à elle :

P (A2 )P (B|A2 ) 0.7 × 0.01


P (A2 |B) = = ≈ 0.104
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) 0.3 × 0.2 + 0.7 × 0.01

1.1.4 Schéma de Bernouilli


Définition
On appelle epreuve de Bernouilli toute experience aléatoire qui n’a que deux événtua-
lités et deux seuleument.
Exemple : Le jet d’une pièce à pile ou face. La naissance d’un enfant garçon ou fille.
Résultat d’un examen.

Théorème
Soit n un entier naturel non nul. On considère une épreuve de Bernouilli dont les
éventualités sont S et E(E = S̄) de probabilité p et q (p = 1 − q).
On considère l’experience aléatoire qui consiste à éffectuer n fois de suite la dite épreuve
de Bernouilli de tel manière que les probabilités p et q restent invariables au cours de
l’experience.
Pour tout entier naturel k ≤ n l’événement obtenir k fois l’issue S au bout des n
répétition  a pour probabilité Cnk pk (1 − p)n−k .

Exemple 1.5
Une urne contient trois boules rouges et une boule noire. On considère l’experience sui-
vante :
On tire une boule de l’urne. On note sa couleur puis on la remet dans l’urne et on effectue
un autre tirage dans les même conditions. On suppose l’équiprobabilié des tirages.
Quelle est la probabilité de tirer exactement trois fois une boule noire au bout de 7 tirages.

Solution :
A chaque tirage la boule est soit noire soit non noire.
Chaque tirage est une épreuve de Bernouilli.
1
Soit S : la boule tirée est noire. On a p(S) = .
4
L’experience consiste à éffectuer 7 tirages est un schéma de Bernouilli. La probabilité de
 3  4
7 1 3 2835
tirer exactement trois fois une boule noire est C3 = ' 0, 1730
4 4 16384

8 Dr BAGRE Remi Guillaume


Chapitre 2

Variable aléatoire

2.1 Définition et loi d’une variable aléatoire


Soit (Ω, A, P ) un espace probabilisé. Plutôt que de travailler avec des événements
de A, il est souvent plus commode d’associer une valeur numérique aux résultats d’une
expérience aléatoire. Par exemple, lors de n jets de pile ou face, il sera intéressant d’étudier
le nombre de piles obtenus. Cela motive l’introduction de la notion de variable aléatoire,
qui est une application X de Ω dans un ensemble E qui sera typiquement Nd , Zd , Rd (d ≥ 1).
Lorsque X ne prend qu’un nombre dénombrable de valeurs X(Ω) = {xj ; j ∈ J}, où
J est une partie non-vide finie ou dénombrable de N, alors X est appelée une variable
aléatoire discrète.

2.2 Fonction de répartition


Définition 2.1 Soit X une variable aléatoire à valeurs dans R. On appelle fonction de
répartition de X, l’application F définie sur R par :

∀ t ∈ R, F (t) = P (X ≤ t)

Propriétés 2.1 La fonction de répartition satisfait les propriétés suivantes :


1. F prend ses valeurs dans [0, 1].
2. F est une application croissante.
3. F est continue à droite et admet une limite à gauche.
4. lim F (t) = 0 et lim F (t) = 1
t−→−∞ t−→+∞

Proposition 2.1 Toute application définie de R dans [0, 1] qui possède les propriétés 2,3,4
est la fonction de répartition d’une unique loi de probabilité sur R.

Propriétés 2.2 Soit X une variable aléatoire de fonction de répartition F , alors :


– P (X > x) = 1 − F (x)
– P (x ≤ X ≤ y) = F (y) − F (x)

9
2.3. VARIABLES ALÉATOIRES DISCRÈTES

– P (X < x) = F (x− )

Pour la suite de la théorie, nous allons traiter trois cas séparément, selon que la variable
aléatoire soit discrète (finie ou infnie) ou continue et à densité.

2.3 Variables aléatoires discrètes


2.3.1 Définitions et exemples à connaître
Rappelons la restriction des définitions générales au cas discret. Soit (Ω, A, P ) un
espace probabilisé.

Définition 2.2 Une variable aléatoire X définie sur Ω est dite discrète si elle prend ses
valeurs dans un ensemble discret : X(Ω) = {xj ; j ∈ J} ⊂ R, où J est une partie non-vide
finie ou dénombrable de N.

Fonction de répartition
Soit (Ω, A, P ) un espace probabilisé. Considérons X une variable aléatoire discrète de
fonction de répartition F , alors on a :
X
F (x) = P (X = y)
y∈X(Ω);y≤x

Espérance
L’espérance d’une variable aléatoire représente sa moyenne pondérée par la probabilité
de chacune des issues.
• Cas où l’univers est fini
Soit X une variable aléatoire réelle définie sur Ω = {ω1 , ω2 , . . . , ωn }. On appelle
espérance de X, que l’on note E(X), la quantité :
n
X
E(X) = X(ωi )P ({ωi })
i=1

L’espérance satisfait les propriétés suivantes


Propriétés 2.3

1. (Linéarité). Si X et Y deux variables aléatoires définies sur Ω, si a, b sont deux


réelles, alors :
E(aX + bY ) = aE(X) + bE(Y )
2. (Monotonie). Si X et Y deux variables aléatoires définies sur Ω telle que X ≤
Y , alors E(X) ≤ E(Y ). En particulier |E(X)| ≤ E(|x|).
3. Si X est une variable aléatoire constante, X ≡ a alors E(X) = a.

10 Dr BAGRE Remi Guillaume


2.3.1 Définitions et exemples à connaître

4. Notons {x1 , . . . , xm } l’ensemble des valeurs prises par la variable aléatoire réelle
X, et soit f une application définie sur X(Ω), alors :
m
X
E(f (X)) = f (xk )P (X = xk )
k=1

• Cas où l’espace des états est quelconque et la variable aléatoire discrète


Soit (Ω, A, P ) un espace probabilisé et X une variable aléatoire discrète définie
sur Ω, à valeurs dans X(Ω) = {xj , j ∈ J} où J est une partie non vide, finie ou
dénombrable de N.
Définition 2.3

– La variable aléatoire discrète X est dite intégrable, si la série de terme général


|xj |pj converge.
– Si X est une variable aléatoire discrète intégrable, on définit son espérance, notée
E(X), par X
E(x) = xj P (X = xj )
j∈J

Définition 2.4 Soit X une variable aléatoire discrète intégrable. Si X est d’espérance
nulle, on dit que X est centrée.

Variance
Soit X une variable aléatoire discrète de carré intégrable, alors :
1. V ar(X) = E[(X − E(X))2 ]
2. V ar(X) ≥ 0,
3. ∀ a ∈ R, V ar(aX) = a2 V ar(X)
4. ∀ a ∈ R, V ar(X + a) = V ar(X)
5. V ar(X) = E(X 2 ) − (E(X))2

Définition 2.5 Soit X une variable aléatoire discrète. Si X est de variance égale à 1, on
dit que X est réduite.

11 Dr BAGRE Remi Guillaume


2.3.2 Inégalité de Markov et de Bienaymé Tchebychev

2.3.2 Inégalité de Markov et de Bienaymé Tchebychev


Proposition 2.2 (Inégalité de Markov)
Soit X une variable aléatoire admettant un moment d’ordre n ≥ 1. Alors,
E(|X|n )
∀ a > 0, P (|X| ≥ a) ≤
an
Proposition 2.3 (Inégalité de Bienaymé-Tchebychev)
Soit X une variable aléatoire discrète de carré intégrable. Alors,
V ar(X)
∀ a > 0, P (|X − E(X)| ≥ a) ≤
a2
Voici une liste des lois discrètes classiques à connaître.

Dénomination Loi E(X) V ar(X)


X ,→ B(1, p) P (X = 1) = p et P (X = 0) = q E(X) = p V ar(X) = pq
X ,→ B(n, p) P (X = k) = Cnk pk q n−k E(X) = np V ar(X) = npq
1 n+1 n2 − 1
X ,→ U(n) P (X = k) = E(X) = V ar(X) =
n 2 12
1 q
X ,→ G(p) P (X = k) = pq k−1 E(X) = V ar(X) = 2
p p
k
−λ λ
x ,→ P(λ) P (X = k) = e E(X) = λ V ar(X) = λ
k!

2.4 Variables aléatoires continues


2.4.1 Définitions
Soit (Ω, A, P ) un espace probabilisé et soit X une variable aléatoire définie sur Ω.

Définition 2.6 La variable aléatoire X est dite continue, s’il existe une fonction réelle
positive f n’ayant qu’un nombre fini de points de discontinuité, telle que la fonction de
répartition de la loi de probabilité de X s’écrit :
Z x
∀ x ∈ R, F (x) = f (t)dt
−∞

La fonction f est alors appelée densité de la loi de probabilité de X.

Propriétés 2.4 On a les propriétés suivantes :


Z +∞
1. f (x)dx = 1
−∞
2. La fonction de répartition F est continue sur R.
3. P (X = x) = 0
4. F 0 = f

12 Dr BAGRE Remi Guillaume


2.4.2 Espérance

2.4.2 Espérance
Définition 2.7 Soit X une variable aléatoire continue de densité f . On dit que la va-
riable
R +∞
aléatoire X est intégrable ou encore qu’elle admet une espérance si l’intégrale
−∞ |x|f (x)dx existe. Dans ce cas, son espérance noté E(X) est donné par :
Z +∞
E(X) = xf (x)dx
−∞

2.4.3 Exemples de variables aléatoires à densité


Loi de Gauss ou loi normale
!
2 1 (x − m)2
X ,→ N (m, σ ) =⇒ ∀ x ∈ R, f (x) = √ exp −
2πσ 2 2σ 2

Loi uniforme

1
X ,→ U(a, b) =⇒ ∀ x ∈ [a, b], f (x) = 1[a,b] (x)
b−a

Loi exponentielle

X ,→ Exp(λ) =⇒ ∀ x ∈ R, f (x) = λ exp(−λx)1[0,+∞[ (x)

13 Dr BAGRE Remi Guillaume


Chapitre 3

Couple de variables aléatoires

3.1 Couple de variables aléatoires discret


Soient X, Y deux variables aléatoires définies sur Ω. Le couple aléatoire Z = (X; Y )
est dit discret si chacune des variables aléatoires X et Y est discrète. Pour un couple de
variable aléatoire (X; Y ), on note : E = X(Ω), F = Y (Ω).

Proposition 3.1 (Définitions)

1. Loi des vecteurs aléatoires


– Si Z = (X; Y ) est un couple aléatoire discret défini sur Ω, alors la loi de probabilité
de Z est caractérisée par la donnée des nombres définis comme suit

P ({Z = (X, Y )}) = P ({X = x} ∩ {Y = y}) = P (X = x; Y = y)

2. Lois marginales d’un couple aléatoire. Connaissant la loi du couple aléatoire Z =


(X; Y ), on retrouve la loi des variables aléatoires X et Y , dites lois marginales de
Z, grâce aux formules suivantes :
X
∀ x ∈ E, P (X = x) = P ({Z = (X, Y )})
y∈F

X
∀ y ∈ F, P (Y = y) = P ({Z = (X, Y )})
x∈E

3. Loi Conditionnelle. La loi conditionnelle de Y sachant que X prend la valeur x, est


caractérisée par la donnée des nombres :

P ({X = x} ∩ {Y = y})
∀ y ∈ F, P{X=x} ({Y = y}) =
P ({X = x})

Espérance, covariance
(Ω, A, P ) un espace probabilisé. Toutes les variables aléatoires et couple de variable
aléatoires que l’on considère sont définis sur Ω.

14
3.1.1 Variables aléatoires indépendantes

Espérance
X
E(XY ) = xyP (X = x; Y = y)
(x,y)∈E×F

Covariance

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )

Propriétés 3.1 Soient X, Y deux variables aléatoires discrètes, de carré intégrable.


1. Cov(X, X) = V ar(X) et Cov(X, Y ) = Cov(Y, X).
2. Si a; b; c; d ; sont des constantes réelles, alors :

Cov(aX + b, cY + d) = acCov(X, Y )

3. La variance et la covariance sont reliées par l’égalité :

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X; Y )

4. La covariance vérifie l’inégalité :

|Cov(X; Y )| ≤ σ(X)σ(Y )

3.1.1 Variables aléatoires indépendantes


Soit (X; Y ) un couple de variables aléatoires discrètes. Les assertions suivantes sont
équivalentes.
1. Les variables aléatoires X et Y sont indépendantes.
2. ∀ (x, y) ∈ E × F, P (X = x, Y = y) = P (X = x)P (Y = y)

Proposition 3.2 Soient X et Y deux variables aléatoires discrètes de carré intégrable.


Alors, si X et Y sont indépendantes,
1. E(XY ) = E(X)E(Y )
2. Cov(X, Y ) = 0
3. V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) = V ar(X) + V ar(Y )

3.2 Couple de variables aléatoires continues


Espérance
Z
E(XY ) = xyf (x, y)dxdy
R2

15 Dr BAGRE Remi Guillaume


3.2. COUPLE DE VARIABLES ALÉATOIRES CONTINUES

Proposition 3.3 Connaissant la densité f (x, y) du couple (X, Y ), on retrouve les den-
sités dites marginales de X et Y par :
Z
∀ x ∈ R, FX (x) = f (x, y)dy
R

Z
∀ y ∈ R, FY (y) = f (x, y)dx
R

Proposition 3.4 Soit (X; Y ) un couple de variables aléatoires réelles. Si Xet Y sont
indépendants alors f (x, y) = fX (x)fY (y)

16 Dr BAGRE Remi Guillaume


Deuxième partie

Statistiques

17
Chapitre 1

Statistique descriptive à une variable

1.1 Vocabulaire
Définition 1.1.1. Individus, Population.
Chaque donnée collectée décrit une caractéristique d’un objet appelé “individu”. Chaque
caractéristique varie d’un individu à l’autre, et on appelle “population” l’ensemble des individus
dont on étudie les caractéristiques. Cet ensemble est généralement noté P, et on notera par N
le nombre d’éléments de P, c’est-à-dire le nombre total d’individus qui existent.

Remarque Bien qu’on les appelle conventionnellement individus, les éléments de la “popu-
lation” ne sont pas nécessairement des personnes, ils peuvent aussi être des objets ou même
des notions plus abstraites.

Exemples 1.1.2.
1. La population des étudiants inscrits en L1 de psychologie à l’université
de Bourgogne pour l’année 2016/2017.
Dans le contexte de cette population, un étudiant inscrit en médecine,
ou dans une autre université n’appartient pas à la population étudiée et
n’est donc pas qualifié d’“individu”.
2. L’ensemble des tablettes tactiles vendues chez Boulanger Quetigny au
cours de l’année 2016. Un “individu” est alors une tablette tactile.
3. L’ensemble des pays membres des nations unies. Un individu est alors
un pays.
Remarque Une définition précise des populations est importante. En particulier, pour
l’exemple 3, la république turque de Chypre du nord, le Donbass, le Kosovo, la Palestine,
Taı̈wan, le Vatican, etc. ne sont pas considérés comme “individus” car ils n’ont pas le statut de
membre de l’ONU.

3
4 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE VARIABLE

Une définition moins précise de la population comme “l’ensemble des pays du monde” aurait
été plus ambigüe, faute de consensus pour savoir, par exemple, si Taı̈wan et la Palestine sont
des pays.
En pratique il sera néanmoins fréquent d’utiliser des définitions ambigües et imprécises de la
population, lorsque cela n’a pas d’impact sur les questions posées (par exemple, si on demande
quel est le plus grand pays au monde, il importe peu de savoir si le Kosovo et le Vatican sont
des pays).
Définition 1.1.3. Échantillon.
C’est un sous ensemble d’une population. Ces échantillons sont en principe choisis au ha-
sard parmi l’ensemble de la population. Les observations seront faites sur l’échantillon dans
le but d’extrapoler les résultats à toute la population. Il peut par exemple être aléatoire et/ou
représentatif :
• Échantillon aléatoire : Dans ce cours, on parlera d’échantillon aléatoire si les éléments de
l’échantillon sont choisis l’un après l’autre de manière indépendante, avec à chaque fois autant
de chance pour individu de la population de départ d’être choisi pour être dans l’échantillon.
En pratique il est souvent trop difficile d’utiliser des échantillons aléatoires (par exemple parce
que certaines personnes n’ont pas de téléphone fixe), auquel cas on se contente d’échantillons
représentatifs :
• Échantillon représentatif : un échantillon qui reflète fidèlement la stratification de la po-
pulation et sa structure selon un critère donné est dit représentatif.
Notation On notera généralement par n la taille de l’échantillon, c’est-à-dire le nombre
d’individus de l’échantillon.
Exemples 1.1.4. • Pour la population P désignant l’ensemble des appareils photos vendus
en France en 2016, on peut considérer comme échantillon les appareils
photos vendus par la FNAC de Dijon en octobre 2016. Cet échantillon
n’est pas aléatoire, et a peu de raisons d’être représentatif.
• Les étudiants du groupe 3 de statistiques en L1 de psycho à l’uB peuvent
être considérés comme un échantillon de la population française. Il n’est
pas aléatoire et n’est pas représentatif, notamment en terme d’âge, et
de sexe.
Ce même groupe d’étudiants peut être considéré comme un échantillon
de la population des étudiants en L1 de psychologie à l’uB, dont il est
nettement plus représentatif.
Définition 1.1.5. Soit P une population.
Variable statistique : une variable statistique est une quantité ou une qualité définie sur P
et qui est susceptible de varier d’un individu à l’autre. Les différentes valeurs ou aspects de la
variable seront appelés modalités.
1.1. VOCABULAIRE 5

1. Variable quantitative : lorsque la variable désigne une quantité que l’on mesure, de
sorte que les modalités de la variable sont des nombres. Ces variables peuvent être de
deux types :
(a) Variables continues : les modalités de la variable peuvent prendre toutes les valeurs
comprises dans un intervalle donné, notamment un nombre infini de valeurs. C’est
notamment le cas pour des longueurs, des poids, etc.
(b) Variables discrètes : les valeurs possibles de la variable sont isolées. C’est par
exemple le cas si la variable ne prend que des valeurs entières.
2. Variable qualitative : Les modalités d’une variable qualitative ne sont pas objectivement
comparables. Ce sont souvent des noms ou des étiquettes qui permettent de répartir la
population en plusieurs groupes sans aucune hiérarchie entre ces groupes. On les appelle
aussi variables nominales.

Notation Les variables statistiques sont généralement notées par une lettre majuscule, par
exemple X ou Y .

Exemples 1.1.6. • Sur la population P des familles françaises, on désigne par X le nombre
d’enfants par famille. C’est une variable quantitative discrète.
• Sur la population des bébés de 6 mois, soit Y la variable taille. C’est
une variable quantitative continue.
• Les variables sexe et couleur des yeux sont des variables qualitatives.

Remarques importantes On utilise souvent et notamment en sciences humaine les notions


suivantes :
• Variables ordinales. Ce sont des variables qualitatives dont les modalités sont ordonnées
selon certains critères. Un exemple serait l’appréciation d’un professeur sur un élève exprimée
de la manière suivante : - très faible - faible - médiocre - moyen - assez bien - bien - très bien,
ou alors l’anxiété d’un individu : - très peu anxieux - peu anxieux - anxieux - pas anxieux - pas
anxieux du tout. On remarque alors une hiérarchie entre les modalités qui n’est pas exprimée
en terme de nombres réels.
• Souvent on associe aux modalités d’une variable qualitative des numéros pour les coder, ces
numéros sont de simples étiquettes pour distinguer les modalités et n’ont aucun rôle hiérarchique
entre les modalités. Par exemple attribuer à chaque groupe de TD un numéro de 1 à 10.
• Variable dépendante, variable indépendante En science humaines, on utilise aussi la
terminologie de variable dépendante (VD) et de variable indépendante (VI). Lorsqu’on a deux
variables que l’on pense être liées (par exemple le sexe et la taille, ou la taille et l’alimenta-
tion), on appelle variable “indépendente” la variable que l’expérimentateur peut contrôler, et
variable “dépendente” celle que l’on mesure à l’issue de l’expérience. Par exemple, dans le cas
6 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE VARIABLE

du couple “sexe, taille”, la variable indépendante est le sexe, car il est facile de choisir le sexe
des individus que l’on prend dans l’échantillon. Dans le cas du couple “taille, alimentation”,
la variable indépendante est l’alimentation car l’expérimentateur peut choisir l’alimentation
des sujets au cours de l’expérience. Il pourra sans doute constater que la taille d’individus
adulte dépend de l’alimentation qu’ils auront reçu pendant leur enfance, d’où la dénomination
1
“variable dépendante” pour désigner la taille .

1.2 Présentation des variables statistiques


1.2.1 Variables qualitatives
À l’issue du dépouillement d’une étude, on choisit généralement de présenter les données
en un tableau où apparaissent les différentes modalités (ou valeurs) du caractère ainsi que les
effectifs de ces modalités.
Modalités x1 x2 . . . xi . . . xr
effectifs n1 n2 . . . ni . . . nr

On a noté r le nombre de modalités possibles de la variable x étudiée.


ni représente le nombre d’individus pour lesquels la variable x prend la modalité xi .
La somme n1 + n2 + ⋅ ⋅ ⋅ + nr = n est l’effectif total c’est-à-dire la taille de la population
étudiée. Pour simplifier les notations, la définition n = n1 + n2 + ⋅ ⋅ ⋅ + nr est généralement notée
r
n = ∑i=1 ni .

Exemple 1.2.1. Lors d’une étude sur la mobilité géographique, on a demandé à 250 personnes
si elles passaient leurs vacances à l’étranger. Les effectifs obtenus sont les suivants :
Vacances à l’étranger jamais parfois souvent toujours Total
Effectifs 22 92 118 18 250

Définition 1.2.2. Fréquences relatives.


Soit X une variable statistique de modalité x1 , . . . , xr d’effectifs n1 . . . ,nr et n l’effectif total.
ni
La fréquence relative de la modalité xi est par définition le rapport fi = n .
r
Remarque La somme ∑i=1 fi = f1 + f2 + ⋅ ⋅ ⋅ + fr est égale à un (ou 100%).
Remarque Nous n’utiliserons pas cette dénomination dans ce cours, mais certaines per-
sonnes appellent parfois les effectifs “fréquences absolues” (terminologie utilisée notamment
1. On notera toutefois que cette dénomination de variable dépendante peut prêter à confusion car elle suggère
que l’alimentation ne dépend pas de la taille, alors qu’en fait la taille influe sur l’alimentation, par le biais d’une
faim différente et (dans la nature) d’un accès différent à la nourriture en fonction de la taille. Un protocole
expérimental précis (qui fixe l’alimentation des sujets) vise notamment à éliminer cet effet.
1.2. PRÉSENTATION DES VARIABLES STATISTIQUES 7

par certaines calculatrices). Dans ce cours, au contraire, le terme “fréquence” désignera tou-
jours la fréquence relative, même lorsque le terme relative est omis.
L’intérêt de la notion de fréquence (relative) est d’être un élément de comparaison pour un
même caractère sur deux populations différentes et surtout si elles n’ont pas la même taille.
Souvent il est plus commode pour l’interprétation d’exprimer ces fréquences en pourcentage.
Les représentations graphiques sont en général associées aux fréquences et rarement aux effectifs.
Le principe étant que la surface affectée à une modalité est proportionnelle à sa fréquence. Les
principales représentations graphiques pour des variables qualitatives sont les représentations
dites en barres (ou tuyaux d’orgue) ou en secteurs circulaires (ou camemberts).
Le plus simple étant la représentation en tuyaux d’orgues, où la hauteur de chaque barre
correspond à la fréquence de d’une modalité :
Vacances à l’étranger jamais parfois souvent toujours Total
Effectifs 22 92 118 18 250
Fréquences 0,088 0,368 0,472 0,072 1
Fréquences (%) 8,8 36,8 47,2 7,2 100

La figure 1.1 représente ces données sous la forme d’un diagramme en tuyaux d’orgues.

0.5

0.4
fréquence

0.3

0.2

0.1

0
s
s

t
is

ur
en
ai

fo
m

jo
uv
r
Pa
Ja

u
So

To

Figure 1.1 – Tuyaux d’orgue

1.2.2 Variables quantitatives


Série statistique
C’est la liste complète des scores obtenus par l’ensemble des individus (les données brutes).
Dans ce cours, on manipulera ces données pour un petit groupe d’individus. Par exemple voici
8 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE VARIABLE

les scores d’estime de soi sur une échelle de Coopersmith Self-Esteem Inventory (SEI) obtenu par
un groupe de 10 étudiantes de psychologie 2 : 26 30 32 37 28 38 40 27 41 36

Regroupement par modalités


Quand on travaille avec de grands échantillons, les données brutes recueillies ne parlent
pas d’elles-mêmes. Il faut les organiser de manière lisible sur un tableau des effectifs. Si la
variable est de nature discrète et qu’il y a peu de modalités, il faut regrouper les effectifs des
différentes valeurs comme pour le cas des variables qualitatives, mais en prenant garde à ranger
les modalités par ordre croissant. S’il y a trop de modalités (par exemple pour des variables
continues), on les organise en classes.
Les fréquences relatives des différente valeurs se calculent de la même façon que pour les
variables qualitatives :
ni
fi = n .
On peut dans le cas des variables quantitatives définir la notion de fréquences cumulées :
Définition 1.2.3. La fréquence cumulée Fi de la modalité xi est définie par :
n1 + n2 + ⋯ + ni
F i = f1 + f2 + ⋯ + fi = n .
Comme pour les fréquences relatives, on les transforme en pourcentages pour rendre leur
interprétation plus commode.
Notation importante Dans la suite on désigne par Pr [X < t] la fréquence totale des
modalités xi telles que xi < t (c’est-à-dire la proportion, au sein de notre échantillon, des
observations qui satisfont X < t). On peut définir de même Pr [X ⩽ t] ou Pr [X ⩾ t], et on
notera par exemple que Fi = Pr [X ⩽ xi ], et que pour i > j, Fi − Fj = Pr [xj < X ⩽ xi ].
Définition 1.2.4. La fonction qui à x associe Pr [X ⩽ x] s’appelle la fonction de répartition de
la variable statistique X. On note cette fonction FX , c’est-à-dire que l’on note FX (t) = Pr [X ⩽
t].
Exemple 1.2.5. On a demandé à un groupe d’adultes dont l’âge varie entre 40 et 50 ans de
donner une estimation qui exprime leur satisfaction de leur vie quotidienne sur une échelle en
9 points (1 : Extrêmement insatisfait, 9 extrêmement satisfait). Voici les résultats recueillis :

5 7 6 6 7 5 3 7 7 8 7 5 5 8 6 8 7 6 2 7 8 7 7 7 7 4
7 4 8 5 4 7 6 6 4 6 7 7 4 5 7 7 1 4 4 7 5 7 5 5 5 6
7 8 5 8 7 7 5 7 8 5 6 7 3 6 6 7 5 7 5 7 3 8 4 6 7 7
5 3 7 6 6 5 9 6 3 2 7 8 6 8 5 8 6 4 7 6 6 7 4 6 7 7
3 7 7 7 9 5 7 7 7 9 6 5 6 6 7 6 9 4 9 4 6
1.2. PRÉSENTATION DES VARIABLES STATISTIQUES 9

On a donc dans cette étude 125 individus. On doit alors synthétiser les valeur sur un tableau
où on donne les valeurs de 1 à 9 et pour chacune son effectif.
On peut donner une première forme de représentation sous forme de feuilles de la façon
suivante :

1
22
333333
444444444444
55555555555555555555
6666666666666666666666666
777777777777777777777777777777777777777777
888888888888
99999
Cette représentation nous indique une première idée sur la forme de la distribution statistique
des résultats. Toutefois, pour permettre de mieux visualiser cette distribution, on peut en
calculer les fréquences et fréquences cumulées :
Valeurs xi 1 2 3 4 5 6 7 8 9
Effectifs : ni 1 2 6 12 20 25 42 12 5
Effectifs Cumulés 1 3 9 21 41 66 108 120 125
Fréquences : fi (%) 0,8 1,6 4,8 9,6 16,0 20,0 33,6 9,6 4,0
Fréquences cumulées Fi (%) 0,8 2,4 7,2 16,8 32,8 52,8 86,4 96,0 100,0
et on peut tracer le diagramme en bâton de ses fréquences représenté en figure 1.2.

Regroupement en classes
Si le nombre de modalités est trop élevé, en particulier dans le cas des variables continues,
les données brutes sont simplifiées en les groupant en intervalles (classes). Ces intervalles sont
par convention semi-ouverts à droite.
L’amplitude d’une classe est la longueur de l’intervalle. Il n’est pas nécessaire que toutes
les classes aient la même amplitude : il est fréquent que les classes situées aux extrêmes de la
distribution soient plus larges et que les autres classes aient toutes la même taille.
Il est difficile d’établir une règle qui permet de décider du nombre de classes et de leurs
amplitudes éventuelles, exception faite de certaines variables dites régulières telles que les lois
normales par exemple.
ème
Les classes sont notées [a1 ; a2 [, [a2 ; a3 [, etc. La i classe est donc notée [ai ; ai+1 [. Il arrivera
parfois aussi de la noter [xi ,xi+1 [.
ème
L’effectif de la i classe est alors noté ni , et on note ci son centre, c’est-à-dire ci = ai +a2 i+1 .
On définit alors les fréquences et les fréquences cumulées des classes
10 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE VARIABLE

35% 33,6%

30%

25%
Fréquence

20%
20%
16%
15%
9,6% 9,6%
10%
4,8% 4%
5%
0,8%1,6%
0%
1 2 3 4 5 6 7 8 9
Estime de soi

Figure 1.2 – Représentations graphiques des données de l’exemple 1.2.5, sous la forme d’un
diagramme en bâtons.

Définition 1.2.6. La fréquence cumulée Fi de la classe [ai ; ai+1 [ est définie par :
n1 + n2 + ⋯ + ni
Fi = f1 + f2 + ⋯ + fi = n .
Remarque : la fréquence cumulée Fi n’est autre que la proportion Pr [X < ai+1 ]. Or dans
le cas d’une variable continue, on a en général Pr [X < ai+1 ] = Pr [X ⩽ ai+1 ], car les valeurs
prises par X sont des nombres avec en général beaucoup de chiffre après la virgule, qui ne
sont jamais exactement égaux ai+1 . Si on rapelle la définition 1.2.4 de la fonction de répartition
FX (t) = Pr [X ⩽ t], on a donc
Fi ≃ FX (ai+1 ) .

Exemple 1.2.7. Le tableau suivant représente la distribution statistique (sur un échantillon


de 180 enfants de 3 ans) de la variable statistique X qui associe, à chaque enfant, le nombre
de mots constituant son langage de base.
classes : [ai ; ai+1 [ [70; 110[ [110; 130[ [130; 150[ [150 − 170[ [170; 190[ [190; 210[ [total
effectifs : ni 11 19 58 55 22 15 180
fréquences : fi 0,06111 0,1056 0,3222 0,3056 0,1222 0,08333 1
fréquences cumulées : Fi 0,06111 0,1667 0,4889 0,7945 0,9167 1,000
Remarque Le regroupement des données en classes se fait généralement pour des variables
continues. On voit toutefois ici un exemple ou ce regroupement est fait pour une variable
discrète.
1.2. PRÉSENTATION DES VARIABLES STATISTIQUES 11

En effet, la variable nombre de mots n’est pas continue, mais les modalités (les entiers de 70
à 210) sont très nombreuses, ce qui impose un tel regroupement.

Histogramme des fréquences Le graphique utilisé pour représenter une variable continue
dont les données sont regroupées en classes est l’histogramme des fréquences. Au-dessus de
chaque classe on dessine un rectangle qui illustre la fréquence de la classe qui est représentée
par l’aire du rectangle associé sur l’histogramme et non la hauteur. La hauteur du rectangle
2
est donnée par la “fréquence corrigée” hi :
fi
hi = a − a
i+1 i

où l’on a corrigé la fréquence fi de la classe en la divisant par la largeur de la classe (c’est-à-
dire l’amplitude ai+1 − ai ), pour compenser le fait que les rectangles n’aient pas tous la même
largeur.
Pour les données de l’exemple 1.2.7, on obtient les hauteurs suivantes :
classes : [ai ; ai+1 [ [70; 110[ [110; 130[ [130; 150[ [150; 170[ [170; 190[ [190; 210[
fréquences corrigées hi 0,00153 0,00528 0,01611 0,01528 0,00611 0,00417
Celles-ci permettent de tracer l’histogramme de la figure 1.3a.

1
Fréquence cumulée

0.8

0.6

0.4

0.2

70 110 130 150 170 190 210 70 110 130 150 170 190 210
Nombre de mots Nombre de mots
(a) Histogramme (b) Polygone des fréquences cumulées

Figure 1.3 – Histogramme des fréquences et polygone des fréquences cumulées pour les données
de l’exemple 1.2.7.

Polygone des fréquences cumulées


2. Le terme fréquence corrigée est un abus de langage simplificateur : mathématiquement, hi ne s’exprime
plus en pourcentage, et ne devrait donc pas être appelée “fréquence”.
12 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE VARIABLE

Le polygone des fréquences cumulées représente une approximation de la fonction de répartition


FX définie en 1.2.4 par FX (t) ≃ Pr [X ⩽ t] :
Si on dispose de r classes [a1 ,a2 [. . . [ar ,ar+1 [, alors la fréquence cumulée de la classe [ai , ai+1 [
est FX (ai+1 ) (on convient que FX (a1 ) = 0). Cela donne les points (ronds bleus) de la figure
1.3b, et le reste de la courbe est estimé par approximation linéaire, comme en annexe 1.5 page
16). On obtient alors


⎪ 0 si a ⩽ a1



FX (a) ≈ ⎨ FX (ai ) +
FX (ai+1 )−FX (ai )
(a − ai ) si ai ⩽ a ⩽ ai+1

⎪ ai+1 −ai


⎩ 1 si a ⩾ ar+1

où FX (ai ) = Pr [X ⩽ ai ]

Remarque 1.2.8. Comme on a Pr [a ⩽ X ⩽ b] = Pr [X ⩽ b] − Pr [X < a], on peut utiliser


cette formule pour estimer FX (b) − FX (a) qui donne Pr [a ⩽ X ⩽ b].

Exemples : Pour les données de l’exemple 1.2.7, on a

FX (150) =0,4889 = 48,89%,


FX (150) − FX (130) 0,32220
FX (135) ≈FX (130) + (135 − 130) ≃ 0,1667 + × 5 ≃ 0,2472 = 24,72% .
150 − 130 20

On en déduit que Pr [135 ⩽ X ⩽ 150] ≈ 0,4889 − 0,2472 = 0,2417 = 24,17%.

1.3 Caractéristiques d’une distribution


1.3.1 Médiane
Idée de médiane La médiane est telle qu’environ la moitié des valeurs soient plus petites
que la médiane, et qu’environ la moitié des valeurs soient plus grandes que la médiane.
Plus précisément, la médiane est définie, pour une échantillon sur lequel on dispose des
données brutes, par :

Définition 1.3.1. La médiane des observations de la variable statistique X sur un échantillon


de taille n est
ème
• La n+12
valeur (dans l’ordre croissant), si n est impair.
n ème n+2 ème
• Le nombre a+b2
, où a est la 2
valeur (dans l’ordre croissant) et b est la 2
valeur,
dans le cas où n est pair.
1.3. CARACTÉRISTIQUES D’UNE DISTRIBUTION 13

Remarque 1.3.2. Si l’on veut utiliser cette définition pour calculer la médiane de la satisfac-
tion de soi des individus de l’exemple 1.2.5, on range d’abord les valeurs par ordre croissant
ème
(on a alors les valeurs 1, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, . . . ), puis on choisit la 63 (car
n = 125). On obtient ainsi que la médiane vaut 6. Heureusement, il y a en fait une façon plus
ème
simple de déterminer cette médiane, sans avoir à compter jusqu’à la 63 valeur :

Propriété 1.3.3. S’il existe une modalité xi dont la fréquence cumulée vaut 0.5, alors la
médiane est xi +x2 i+1 . Sinon, il existe une modalité xi telle que Fi > 0.5 et Fi−1 < 0.5 ; dans ce
cas la médiane est cette modalité xi .

Cas de données regroupées en classes :


on détermine une valeur approchée de la médiane en demandant que FX (Méd) ≈ 0.5.

Proposition 1.3.4. Pour une variable continue, il existe en général une classe [ai ,ai+1 [ telle
que FX (ai ) < 0.5 et FX (ai+1 ) > 0.5. On appelle cette classe la classe médiane, et l’interpolation
linéaire nous permet d’obtenir une valeur approchée de la médiane :
ai+1 − ai
Méd ≈ ai + × (0,5 − F (ai )) .
FX (ai+1 ) − FX (ai )

Exemple 1.3.5. Reprenons l’exemple 1.2.7 du nombre de mots.


Comme FX (150) = 48.89 < 50% et FX (170) = 79.45 > 50%, la classe médiane est [150; 170[.
L’interpolation linéaire donne donc :

170 − 150
Méd ≈ 150 + × (50 − 48.89) ≃ 150.73 mots.
79.45 − 48.89
Remarque : dans l’expression ci-dessus, on a exprimé FX (ai+1 ) et FX (ai ) en pourcentage. En
conséquence 0,5 est remplacé par 50%.

1.3.2 Quartiles
La notion de quartile est très analogue à celle de médiane : le premier quartile est tel
qu’environ un quart des valeurs soient plus petites que le premier quartile (et trois quarts
soient plus grandes), tandis que le troisième quartile est tel qu’environ trois quarts des valeurs
soient plus petites que le troisième quartile (et un quart soient plus grandes).
Toutefois la définition précise, dans le cas d’un échantillon pour lequel on dispose des
données brutes, diffère selon le livre consulté, ou le logiciel (ou la calculatrice) utilisé. Nous
nous intéresserons donc ici uniquement au cas de données regroupées en classes :
Pour données regroupées en classes, on estime les quartiles en résolvant les équations FX (Q1 ) ≈
0,25 et FX (Q3 ) ≈ 0,75.
14 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE VARIABLE

Exemple 1.3.6. Reprenons l’exemple nombre de mots :


Comme pour la médiane, on trouve des valeurs approchées de Q1 et Q3 en faisant des interpo-
lations linéaires :
• comme FX (130) = 16,67 ⩽ 25% et FX (150) = 48,89 > 25%, le premier quartile se trouve
entre 130 et 150 :
150 − 130
Q1 ≈ 130 + × (25 − 16,67) ≃ 135 mots.
48,89 − 16,67
• comme FX (150) = 48,89 ⩽ 75% et FX (170) = 79,45 > 75%, le troisième quartile se
trouve entre 150 et 170 :
170 − 150
Q3 ≈ 150 + × (75 − 48,89) ≃ 167 mots.
79,45 − 48,89
Définition 1.3.7. L’intervalle [Q1 ; Q3 ] est appelé intervalle interquartile ; il représente la
≪ moitié médiane ≫ de la population.

1.3.3 Moyenne
Définition 1.3.8. La moyenne d’une variable quantitative X, pour un échantillon de taille n,
est donnée par :
n
1
• m(X) = n ∑ xi
i=1
si l’on dispose de données brutes (typiquement si l’échantillon est de petite taille)
r
1
• m(X) = n ∑ ni xi
i=1
si la variable a r modalités x1 , x2 , . . . , xr d’effectifs respectifs n1 , n2 , . . . , nr .
r
1
• m(X) ≈ n ∑ ni ci
i=1
si les données sont regroupées en classes de centres respectifs c1 , c2 , . . . , cr et d’effectifs
n1 , n2 , . . . , nr (ci = ai +a2 i+1 désigne ici le centre de la classe [ai ; ai+1 [).

Variance et écart-type
Définition 1.3.9. La variance d’une variable X est la moyenne ≪ des carrés des écarts à la
moyenne de X ≫ :
2
Var(X) = m ((X − m (X)) ) .
On peut aussi la calculer avec la formule :
2 2
Var(X) = m (X ) − (m(X)) .
1.4. CALCULATRICE 15

L’écart-type est la quantité √


s(X) = Var(X) .
2
Remarque 1.3.10. On calcule m(X ) selon les expressions suivantes, analogues à la définition
1.3.8 : n
2 1 2
• m(X ) = n ∑ xi si on dispose des données brutes
i=1
r
2 1 2
• m(X ) = n ∑ ni xi si les données sont regroupées par modalités (avec des effectifs ni ).
i=1
r
2 1 2
• m(X ) ≈ n ∑ ni ci si les données sont regroupées en classes.
i=1

Exemple 1.3.11. Cas d’une variable discrète avec un petit échantillon


Pour un groupe de 17 candidats choisis au hasard, les résultats à une épreuve sont donnés
par :

xi 7 21 24 14 12 22 17 18 16.5 18 22 21 21 16 15 15 17.5
xi 7 21 24 14 12 22 17 18 16,5 18 22 21 21 16 15 15 17,5 297
On a 2
xi 49 441 576 196 144 484 289 324 272,25 324 484 441 441 256 225 225 306,25 5477,5

297 5477.5 297 2


m(x) = ≃ 17.4758; V ar(X) = −( ) ≃ 16,98443; s(X) ≃ 4,121217.
17 17 17
Exemple 1.3.12. Cas d’une variable continue
classes [70 ; 110[ [110 ; 130[ [130 ; 150[ [150 ; 170[ [170 ; 190[ [190 ; 210[ Total
effectifs ni 11 19 58 55 22 15 180
centres ci 90 120 140 160 180 200
ni ci 990 2280 8120 8800 3960 3000 27150
2
ni (ci ) 89100 273600 1136800 1408000 712800 600000 4220300
On obtient
27150 4220300 27150 2
m(x) ≈ ≃ 150,8; V (x) ≈ −( ) ≈ 695,4; s(x) ≈ 26,4
180 180 180

1.4 Calculatrice
On trouve dans le commerce de nombreuses calculatrices capables de calculer les moyenne,
écart-type, médiane, quartiles, etc. Le Formulaire associé à ce cours décrit la façon de procéder
pour des calculettes Casio et TI. Il est toutefois fortement recommandé de lire le manuel de sa
calculette et se familiariser avec celle-ci.
Chapitre 2

Statistiques descriptives : couple de


variables statistiques

2.1 Introduction
Dans ce chapitre, nous introduisons quelques outils utiles à l’étude et à l’examen de relations
et de liens entre différentes variables sur une même population. Le cas le plus simple est celui
de deux variables X et Y . Souvent, la variables X est “manipulable” par l’expérimentateur : il
peut s’agir par exemple du dosage d’un traitement, ou du sexe des personnes que l’on choisit
d’interroger. On l’appelle en sciences humaines variable indépendante.
L’autre variable (Y ) est alors appelée variable dépendante ; Par exemple si X est le dosage
d’un traitement, Y peut être l’intensité de la douleur manifestée par un malade, et si X est le
sexe des personnes interrogées, Y peut tout à fait être leur taille.
La variable Y est parfois aussi appelée variable prédite, sous-entendant une relation de cause
à effet entre X et Y . On cherche ainsi à prédire Y en fonction de X, c’est-à-dire à établir une
relation du type Y = f (X) entre les deux variables. Les relations les plus simples à étudier sont
1
les relations linéaires , auxquelles nous attacherons une attention particulière dans ce chapitre.
Dans ce chapitre, on abordera deux notions
la corrélation qui mesure l’intensité du lien entre deux variables
la régression linéaire qui est la relation de prédiction (affine) entre les deux variables.
Lorsque nous rassemblons des observations sur plusieurs variables statistiques sur une même
population, nous avons souvent besoin, avant l’élaboration d’une analyse fine, de représentations
graphiques qui nous donneront une première impression sur l’intensité du lien (qu’on doit
confirmer par des méthodes plus élaborées) entre les deux variables :

1. Ou plus généralement les relations “affines” que nous appellerons aussi “linéaires” par abus de langage.

17
18 CHAPITRE 2. STATISTIQUES DESCRIPTIVES BIVARIÉES

2.2 Nuage statistique


Pour un couple de variables (X; Y ) chaque individu est représenté dans le plan par un point
dont les coordonnées (xi ; yi ) sont les mesures de X et Y pour cet individu. L’ensemble de
ces points s’appelle le nuage statistique ou le diagramme de dispersion. Les deux va-
riables X et Y ont souvent des rôles distincts : lorsqu’une des deux variables (la variable dite
indépendante) est manipulable par l’expérimentateur on la note X et on la représente horizon-
talement (en abscisse). L’autre variable (notée généralement Y ) est représentée verticalement
(en ordonnée).

2.2.1 Exemple
Des chercheurs ont étudié la relation entre le stress et la santé mentale. Ils ont mis au point
une échelle qui permet de donner une mesure du stress pour chaque personne interrogée. Ils
ont demandé également aux personnes interrogées de remplir la liste de contrôle d’Hopkins, qui
évalue la présence ou l’absence d’un certain nombre de symptômes psychologiques.
Le tableau suivant représente les mesures du stress X et des symptômes Y pour 15 personnes.

A B C D E F G H I J K L M N O
X 12 30 27 9 20 3 12 15 5 10 23 34 23 10 17
Y 80 99 90 75 92 76 93 82 76 85 74 100 92 97 94

100
Y (symptomes)

90

80

0 5 10 15 20 25 30 35
X (stress)

Figure 2.1 – Nuage statistique


2.3. COEFFICIENTS DE CORRÉLATION 19

Sur ce nuage de point on remarque que la majorité des points sont assez proche d’une droite
qui est la diagonale du carré délimitant la figure. On peut donc déjà s’attendre, au vu du dessin,
à trouver un fort lien entre les variables, et que ce lien entre les variables soit linéaire.

2.3 Coefficients de corrélation


Dans ce cours, on abordera deux coefficients de corrélations différents :
Le coefficient de corrélation linéaire (ou “coefficient de corrélation de Pearson”) tra-
duit le fait que deux variables soient liées par une relation linéaire (ou affine), c’est-à-dire
le fait que les points du nuage statistique soient concentrés autour d’une droite.
Le coefficient de corrélation des rangs de Spearman traduit le fait qu’une des va-
riables augmente (ou diminue) quand l’autre augmente. Dans l’exemple précédent, ce
coefficient permettrait de confirmer que les symptômes augmentent quand le stress aug-
mente.
Le calcul du coefficient de corrélation linéaire s’appuiera sur un paramètre statistique appelé
covariance :

2.3.1 Covariance
Par définition la covariance de deux variables X et Y est la moyenne des produits des
écarts des deux variables. Ce qui donne la définition mathématique suivante
Cov(X; Y ) = m((X − m(X))(Y − m(Y )))
En pratique, on utilisera une définition plus simple à mettre en oeuvre, et rigoureusement
équivalente :

Cov(X; Y ) = m(XY ) − m(X)m(Y )


Sur des petits échantillons de taille n la covariance s’obtient en faisant les calculs suivants
∑ xi ∑ yi ∑ x i yi
m(X) = n , m(Y ) = n , m(XY ) = n ,
∑ xi y i ∑ xi ∑ y i
cov(X; Y ) = n − ( n ) ( n )

Calculs pour l’exemple 2.2.1 défini précédemment :


∑x
m(X) = n i = 12+30+⋅⋅⋅+17
15
= 250
15
≃ 16,67.
∑y
m(Y ) = n i = 80+99+⋅⋅⋅+94
15
= 1305
15
= 87.
m(X Y ) = 12×80+30×99+27×90+⋅⋅⋅+17×94
15
= 22465
15
≃ 1497,667.
Cov(X; Y ) = m(X Y ) − m(X) m(Y ) = 15 − 25022465 1305
15 15
≃ 47,667.
20 CHAPITRE 2. STATISTIQUES DESCRIPTIVES BIVARIÉES

2.3.2 Le coefficient de corrélation linéaire de Pearson


Par définition le coefficient de corrélation est le rapport entre la covariance et le produit des
écarts-type

Cov(X; Y )
r(X; Y ) = .
s(X)s(Y )
Calculs pour l’exemple 2.2.1 défini précédemment :
2 2 2 2
2 ∑ xi
m(X ) = N
= 12 +30 +⋅⋅⋅+17
15
= 5360
15
.
2 2 2
V ar(X) = m(X ) − m(X) = 5360
− ( 250 ) ≃ 79,56.
√ 15 15
s(X) = V ar(X) ≃ 8,92.
2 2 2 2
2 ∑ yi
m(Y ) = N
= 80 +99 +⋅⋅⋅+94
15
= 114725
15
.
2 2 1305 2
V ar(Y ) = m(Y ) − m(Y ) = 114725
− ( ) ≃ 79,33.
√ 15 15
s(Y ) = V ar(Y ) ≃ 8,91.
Cov(X;Y )
D’où r(X; Y ) = s(X)s(Y )
= 47,667
8,92×8,91
≃ 0,6.

Interprétation et Remarques
1. Le coefficient de corrélation est compris entre −1 et +1.
2. On dira qu’on a une corrélation très forte (positive ou négative) si ∣r(X; Y )∣ ⩾ 0,75. Dans
ce cas on doit s’attendre à ce que chaque variable soit un bon prédicteur pour l’autre.
Les droites de régression (que nous définirons ci-après en partie 2.4) sont alors un bon
outil de prédiction.
Dans ce cas,
(a) Si r est positif, le lien entre les variables X et Y signifie que Y augmente linéairement
quand X augmente.
(b) Si r est négatif, le lien entre les variables X et Y signifie que Y diminue linéairement
quand X augmente.

2.3.3 Le coefficient de corrélation des rangs


Le coefficient de corrélation de Spearman se fonde sur le calcul des rangs de valeurs prises
par chaque variable X et Y :
′ ′
On attribue le rang xi = 1 à la plus petite valeur xi , puis le rang xi = 2 à la deuxième plus
petite valeur, etc. On procède de même pour les yi , puis on définit le coefficient de corrélation
2.3. COEFFICIENTS DE CORRÉLATION 21

′ ′
de Spearman comme le coefficient linéaire des rangs x et y . En pratique ce coefficient se calcule
selon la formule suivante (équivalent à cette définition sauf s’il y a des ex-aequo) :
′ 2
6 ∑ (xi − yi )

rs (X; Y ) ≈ 1 − (2.1)
n(n2 − 1)
Calculs pour l’exemple 2.2.1 défini précédemment :
On commence par calculer les rangs, remplissant ainsi la table 2.1 :

On associe le rang xi = 1 à la colonne de la plus petite valeur, à savoir xi = 3 pour le sujet 6.
′ ′
De même on obtient xi = 2 pour le sujet 9 (deuxième plus petite valeur : xi = 5) et xi = 3 pour
le sujet 4 (troisième plus petite valeur : xi = 9). On constate ensuite que la valeur suivante est
′ ′
xi = 10 qui apparaı̂t deux fois (sujets 10 et 14). On devrait y associer les rangs xi = 4 et xi = 5,

mais pour éviter de choisir arbitrairement dans laquelle de ces deux colonnes mettre xi = 4 et
′ ′
dans laquelle mettre xi = 5, on met xi = 4,5 dans chacune de ces colonnes. On retient toutefois
que ce 4,5 correspond aux rangs 4 et 5, de sorte que le rang suivant est le rang 6. Mais comme
la valeur suivante est xi = 12 qui apparait deux fois, on associe les rangs 6 et 7, donc on marque
6,5 dans les colonnes 1 et 7. On continue ensuite jusqu’à avoir rempli toute la ligne des rangs

X.

On procède ensuite exactement pareil pour les rangs yi .
′ 2
Si on le souhaite, on peut aussi ajouter une colonne où l’on calcule les (xi − yi ) pour chaque

individu.
sujet 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
xi 12 30 27 9 20 3 12 15 5 10 23 34 23 10 17
yi 80 99 90 75 92 76 93 82 76 85 74 100 92 97 94

rang xi 6,5 14 13 3 10 1 6,5 8 2 4,5 11,5 15 11,5 4,5 9

rang yi 5 14 8 2 9,5 3,5 11 6 3,5 7 1 15 9,5 13 12
′ 2
(xi − yi )

2,25 0 25 1 0,25 6,25 20,25 4 2,25 6,25 110,25 0 4 72,25 9

Table 2.1 – Calcul des rangs pour le coefficient de Spearman

Une fois remplie la table, on calcule rs (X; Y ) ≈ 1 − (6 × 2 .25 +0 +25 +1 +0 .25 +⋅⋅⋅+9
15 (152 −1)
) ≃ 0,53.
Interprétation
1. Le coefficient de corrélation de Spearman est compris entre −1 et +1.
2. On dira qu’on a une corrélation très forte (positive ou négative) si ∣rs (X; Y )∣ ⩾ 0,75.
Dans ce cas, cela ne dit pas la nature précise du lien entre les deux variables (il peut être
linéaire, ou bien donné par une fonction plus compliquée), mais
(a) Si r est positif, le lien entre les variables X et Y signifie que Y augmente quand X
augmente.
(b) Si r est négatif, le lien entre les variables X et Y signifie que Y diminue quand X
augmente.
22 CHAPITRE 2. STATISTIQUES DESCRIPTIVES BIVARIÉES

2.4 Droites de régression


D’après ce qui précède, nous avons obtenu une corrélation linéaire assez importante de 0,6
entre le stress et les symptômes psychologiques. Si l’on souhaite prédire une variable à partir
d’une autre, on peut alors rechercher une relation linéaire entre les variables.
Dans le cas présent, deux situations peuvent apparaı̂tre :
1. On peut essayer de déterminer les symptômes attendus chez un patient étant son niveau
de stress. Dans ce cas on cherche une droite qui exprime Y en fonction de X, et que l’on
va noter DY∣X .
2. On peut aussi se trouver dans la situation contraire où l’on observe des symptômes chez
un patient, et on cherche à en déduire son niveau de stress. Dans ce cas on cherche une
droite qui exprime Y en fonction de X, et que l’on va noter DX∣Y .
On peut calculer, dans chacune de ces deux situations la droite qui passe “le plus près
2
possible” des points , et elle est donnée par les formules suivante :
• Droite DY∣X (détermination de Y en fonction de X) :
Cov(X; Y ) s(Y )
DY∣X ∶ Y = aX + b où a = = r(X; Y ) × , et b = m(Y ) − a ⋅ m(X)
V (X) s(X)
• Droite DX∣Y (détermination de X en fonction de Y ) :
Cov(X; Y ) s(X)
= r(X; Y ) × , et b = m(X) − a ⋅ m(Y )
′ ′ ′ ′ ′
DX∣Y ∶ X = a Y + b où a =
V (Y ) s(Y )
Remarque : Le cas échéant, le fait que le coefficient de corrélation soit proche de 1 (ou de
−1) se caractérise par le fait que ces deux droites soient assez proches l’une de l’autre.
Calculs pour l’exemple 2.2.1 défini précédemment :
Par exemple, on considère un individu dont le stress est de 20, et on souhaite estimer ses
Cov(X;Y )
symptômes. On calcule donc l’équation de la droite DX∣Y : on pose a = V ar(X) ≃ 47,667
79,56
≃ 0,599
et b = m(Y ) − a m(X) ≃ 87 − 0,599 × 16,667 ≃ 77,016.
On obtient donc l’équation de la droite DY ∣X ∶ Y = 0,599 X + 77.
Pour un niveau de stress x = 20, on s’attend donc à des symptômes y = 0,599 × 20 + 77 ≃ 89.

2. Mathématiquement, la définition de “le plus près possible” ne sera pas la même dans ces deux situations :
dans le premier cas, on mesures les distances verticalement, tandis que dans le deuxième cas on les mesure
horizontalement. C’est pourquoi on trouve deux droites d’équations distinctes.

Vous aimerez peut-être aussi