Cours Probabilité Statistiques-2

Cours de Probabilités-Statistiques
SVT-L1S2
Par Dr BAGRE Remi Guillaume
Juin 2018
Première partie
Probabilités
1
Chapitre 1
Calcul de Probabilités
1.1 Calcul de probabilités

L’objet des probabilités est d’étudier d’un point de vu théorique les phenomèmes
aléatoires (phénomènes dont on ne peut pas prévoir le résultat. Ceci dependant du hasard)
en évaluant les
chances que tel ou tel phénomène se réalise.
1.1.1 Vocabulaire lié aux probabilités

Etant donné un phénomène aléatoire :
1. Tout résultat possible s’appelle une éventualité.
2. L’ensemble des éventualités s’appellent l’univers. On le note Ω sauf indication contraire.
3. Toute partie de l’univers s’appelle un événement.
4. Un événement qui n’a aucune événtualité s’appelle un événement impossible. On le
note ∅.
5. L’univers Ω s’appelle l’univers certain.
6. Un événement qui n’a qu’une seule éventualité s’appelle un événement élémentaire.
7. Si une éventualité a est élément d’un événement A. On dit que a réalise A ou que
A est réalisé par a ou que a est favorable à A. On note a ∈ A.
8. Si A est un événement, l’ensemble des éventualités qui ne réalisent pas A s’appelle
l’événement contraire de A et se note Ā.
9. Si A et B sont deux événements l’ensemble des événtualités qui réalisent A ou B
(resp A et B) s’appelle l’événement A ou B (resp A et B) et se note A ∪ B (resp
A ∩ B).
10. Si A ∩ B = ∅ on dit que A et B sont incompatibles.
2
1.1.2 Probabilité définie sur un univers

Définition
Soit Ω un univers fini d’éventualité associé à une épreuve aléatoire.
Soit Ω = {ω1 , ω2 , . . . , ωn }, card(Ω) = n.
P(Ω) l’ensemble des parties(événements) de Ω.
Une probabilité définie sur Ω est toute application p définie de P(Ω) vers [0, 1] qui vérifie
les conditions suivantes :
P1 :
n
X
p({ωk }) = 1
k=1
P2 : Pour tout événement A,

Si A = ∅ alors p(A) = 0 et si A = {a1 , a2 , . . . , ak }
k
X
p(A) = p({ai })
i=1
p(A) s’appelle la probabilité de A.
Exemple 1.1
On lance un dé cubique dont les faces sont numerotées 1,2,3,4,5 et 6. Après immobilisa-
tion du dé, on lit le numéro superieur porté par la face supérieur du dé. Le dé est truqué
de tel sorte que les numeros paires ont la même chance d’apparaître, les numeros impaires
ont la même chance d’apparaître mais apparaissent deux fois moins vite que les numeros
paires. Quelle est la probabilité que le numero apparu sur la face superieure est le 2 ? soit
le 5 ? soit un numero paire ?
Solution : p({2}) = p({4}) = p({6}) = x

1
p({1}) = p({3}) = p({5}) = x
2
On a :
p({1}) + p({2}) + p({3}) + p({4}) + p({5}) + p({6}) = 1

9
x = 1
2
2
x =
9
2
La probabilité que le numero apparu soit 2 est
9
1
La probabilité que le numero apparu soit 5 est
9
Soit A l’événement : Le numero apparu est paire.
A = {2, 4, 6}
2
p(A) + p({2}) + p({4}) + p({6}) =
3
3 Dr BAGRE Remi Guillaume

Cas d’équiprobabilité
Soit Ω un univers fini d’événtualité associé à une épreuve aléatoire.
Deux événements A et B sont dits équiprobables lorsqu’ils ont la même probabilité.
On dit qu’il y a équiprobabilité sur Ω lorsque tous les événements élémentaires sont
équiprobables.
Conséquence de l’équiprobabilité
Soit Ω = {ω1 , ω2 , . . . , ωn }. S’il y a équiprobabilité sur Ω alors p({ω1 }) = p({ω2 }) = . . . =
p({ωn }). On a alors
n
X
p({ωi }) = 1
i=1
n
X 1
x = 1 i.e nx = 1 ⇐⇒ x =
i=1 n
.
Si A = {a1 , a2 , . . . , ak } alors :
n k
X X 1 k
p(A) = p({ai }) = =
i=1 i=1 n n
.
k card(A)
p(A) = =
n card(Ω)
Remarque :
Les expressions du genre : pièce parfaite, pièce non truqué, dé parfait, dé non pipé, cartes
bien battues, objets ou boules indiscernables au toucher, tirage au hasard traduisent
l’équiprobabilité.
Exemples 1.1
1
1. Si on jette un dé parfait à 6 faces. La probabilité d’apparition d’une face est .
6
1
2. Si on lance une pièce parfaite à pile ou face la probabilité d’obtenir pile est
.
2
3. Une urne contient trois boules rouges et quatres boules blanches indiscernables au
toucher. On tire simultanément trois boules de l’urne. Quelle est la probabilité des
événements suivants :
(a) A = les trois boules tirées sont blanches .
(b) B = les trois boules tirées sont de la même couleur .

1.1.3 Probabilités conditionnelles
Solution : Soit Ω l’univers associée à ce tirage, les boules étant indiscernables au

toucher, il y a équiprobabilité des tirages.
card(A)
∀ A ⊂ Ω; p(A) =
card(Ω)
.
Chaque événtualité est un ensemble de trois boules tirées simultanément parmi 7 donc
card(Ω) = C73 = 35.
A = les trois boules tirées sont blanches . A est l’ensemble des tirages simultanés de
4
3 boules blanches. card(A) = C43 = 4 alors p(A) = .
35
B = les trois boules tirées sont de la même couleur .
5 1
card(B) = C33 + C43 = 5 donc p(B) = =
35 7
Propriétés
Soit Ω un univers fini d’éventualité. p une probabilité sur Ω.
1. p(∅) = 0
2. p(Ω) = 1
3. ∀ A ⊂ Ω, 0 ≤ p(A) ≤ 1
4. ∀ A ⊂ Ω, ∀ B ⊂ Ω, p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
Si A et B sont incompatibles alors p(A ∪ B) = p(A) + p(B) − p(A ∩ B) et p(Ā) =
1 − p(A)

Exemple 1.2
On tire une carte d’un jeu de 32 cartes bien battues.
1. (a) Décrire l’univers Ω des résultats possibles.
(b) Quelle est la probabilité de l’événement R : La carte tirée est un roi. On
notera cette probabilité p(R).
(c) Quelle est la probabilité p(T ) de l’événement T : La carte tirée est un trêfle ?
(d) Quel est l’événement R et T (R ∩ T ) ? Calculer sa probabilté noté p(R ∩ T ).
2. On arrive à savoir avant de découvrir la carte tirée : il s’agit d’un trêfle.
(a) Décrire alors l’univers Ω0 des résultats possibles.
(b) L’événement La carte tirée est un roi de l’univers Ω0 s’appelle alors l’évé-
nement sachant qu’elle est un trêfle et se note R/T (se lit R sachant T ).
p(R ∩ T )
Calculer p(R/T ) et la comparer à
p(T )
p(T ∩ R)
3. Définir l’événement T /R puis calculer p(T /R) et la comparer à
p(R)

Solution : Composition d’un jeu de 32 cartes : 8 trêfles, 8 carreaux, 8 coeurs, 8

piques.
1. (a) Ω est l’ensemble des 32 cartes.
1
(b) Dans le jeu, il y a 4 rois. card(R) = 4 donc p(R) = .
8
1
(c) Dans le jeu, il y a 8 trêfles. card(T ) = 8 donc p(T ) = .
4
(d) R ∩ T :La carte tirée est un roi et un trêfle donc :
1
R ∩ T :La carte tirée est le roi de trêfle et p(R ∩ T ) = .
32
2. (a) Ω0 est l’ensemble des tirages d’une carte parmi les 8 trêfles. card(Ω0 ) = 8
1
(b) p(R/T ) =
8
p(R/T ) 1
=
p(T ) 8
p(R ∩ T )
p(R/T ) =
p(T )
3. T /R est l’événement : La carte tirée est un trêfle sachant que c’est un roi.
1 p(T ∩ R) 1
p(T /R) = et =
4 p(R) 4
p(T ∩ R)
p(T /R) =
p(R)
Définition
Soit Ω un univers fini d’éventualités. p une probabilité sur Ω, B un événement de Ω
tel que p(B) 6= 0. Soit A un événement quelconque.
La probabilité de A lorsque l’on sait que l’événement B est réalisé s’appelle la probabilité
conditionnelle de A sachant que B est réalisé. On la note p(A/B) ou pB (A).
p(A ∩ B)
p(A/B) =
p(B)
Evénements indépendants
Deux événements A et B de probabilité non nulle sont dits indépendants lorsque
p(A/B) = p(A) ou p(B/A) = p(B).
A et B sont indépendants sssi p(A ∩ B) = p(A) × p(B).
Remarque : L’événement impossible est indépendant de tout autre événement.

Formules des probabilités totales et théorème de Bayes

Partition d’un univers
Soit Ω un univers fini d’éventualités. Des événements B1 , B2 , . . . , Bn forment une partition
de Ω lorsqu’aucun d’eux n’est impossible, lorsqu’ils sont deux à deux incompatibles leur
reunion égale à Ω.
Théorème
Soit Ω un univers fini d’éventualités. B1 , B2 , . . . , Bn des événements qui forment une
partition de Ω.
Pour tout événement A,
n
X
p(A) = p(A/B1 ) × p(B1 ) + p(A/B2 ) × p(B2 ) + . . . + p(A/Bn ) × p(Bn ) = p(A/Bi ) × p(Bi )
i=1
Exemple 1.3
On dispose de deux urnes U et V . L’urne U contient deux boules rouges et deux boules
noires, l’urne V contient 3 boules rouges et une boule noire. Toutes les boules contenues
dans chaque urne sont indiscernables au toucher.
Un joueur lance un dé parfait à 6 faces numérotées 1 ;2 ;3 ;4 ;5 et 6.
Si le numero porté par la face superieur du dé est un multiple de 3, le joueur tire une
boule dans l’urne U . Sinon il tire une boule dans l’urne V .
Calculer la probabilité que la boule tirée soit rouge.
Soit B1 :La boule est tirée dans U et B2 :La boule est tirée dans V
Solution : Soit Ω l’univers associé aux tirages. B1 et B2 forment une partition de Ω.

Soit R :La boule tirée est rouge
2 2 3 4 2
p(A) = p(R/B1 ) × p(B1 ) + p(R/B2 ) × p(B2 ) = × + × =
4 6 4 6 3
Théorème 1.1 (bayes) Soit A1 , . . . , An un système complet d’événements, alors
P (Ai )P (B|Ai )
P (Ai |B) = Pn
j=1 P (Aj )P (B|Aj )
Exemple 1.4 Supposons qu’une population d’adultes soit composée de 30% de fumeurs
(A1 ) et de 70% de non-fumeurs (A2 ). Notons B l’événement “mourir d’un cancer du
poumon”. Supposons en outre que la probabilité de mourir d’un cancer du poumon est
égale à P r(B|A1 ) = 20% si l’on est fumeur et de P r(B|A2 ) = 1% si l’on est non-fumeur.
Le théorème de Bayes permet de calculer les probabilités a priori, c’est-à-dire la probabilité
d’avoir été fumeur si on est mort d’un cancer du poumon. En effet, cette probabilité est
notée P r(A1 |B) et peut être calculée par
P (A1 )P (B|A1 ) 0.3 × 0.2

P (A1 |B) = = ≈ 0.896
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) 0.3 × 0.2 + 0.7 × 0.01

1.1.4 Schéma de Bernouilli
La probabilité de ne pas avoir été non-fumeur si on est mort d’un cancer du poumon vaut
quant à elle :
P (A2 )P (B|A2 ) 0.7 × 0.01

P (A2 |B) = = ≈ 0.104
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) 0.3 × 0.2 + 0.7 × 0.01
1.1.4 Schéma de Bernouilli

Définition
On appelle epreuve de Bernouilli toute experience aléatoire qui n’a que deux événtua-
lités et deux seuleument.
Exemple : Le jet d’une pièce à pile ou face. La naissance d’un enfant garçon ou fille.
Résultat d’un examen.
Théorème
Soit n un entier naturel non nul. On considère une épreuve de Bernouilli dont les
éventualités sont S et E(E = S̄) de probabilité p et q (p = 1 − q).
On considère l’experience aléatoire qui consiste à éffectuer n fois de suite la dite épreuve
de Bernouilli de tel manière que les probabilités p et q restent invariables au cours de
l’experience.
Pour tout entier naturel k ≤ n l’événement obtenir k fois l’issue S au bout des n
répétition a pour probabilité Cnk pk (1 − p)n−k .
Exemple 1.5
Une urne contient trois boules rouges et une boule noire. On considère l’experience sui-
vante :
On tire une boule de l’urne. On note sa couleur puis on la remet dans l’urne et on effectue
un autre tirage dans les même conditions. On suppose l’équiprobabilié des tirages.
Quelle est la probabilité de tirer exactement trois fois une boule noire au bout de 7 tirages.
Solution :
A chaque tirage la boule est soit noire soit non noire.
Chaque tirage est une épreuve de Bernouilli.
1
Soit S : la boule tirée est noire. On a p(S) = .
4
L’experience consiste à éffectuer 7 tirages est un schéma de Bernouilli. La probabilité de
3 4
7 1 3 2835
tirer exactement trois fois une boule noire est C3 = ' 0, 1730
4 4 16384

Chapitre 2
Variable aléatoire
2.1 Définition et loi d’une variable aléatoire

Soit (Ω, A, P ) un espace probabilisé. Plutôt que de travailler avec des événements
de A, il est souvent plus commode d’associer une valeur numérique aux résultats d’une
expérience aléatoire. Par exemple, lors de n jets de pile ou face, il sera intéressant d’étudier
le nombre de piles obtenus. Cela motive l’introduction de la notion de variable aléatoire,
qui est une application X de Ω dans un ensemble E qui sera typiquement Nd , Zd , Rd (d ≥ 1).
Lorsque X ne prend qu’un nombre dénombrable de valeurs X(Ω) = {xj ; j ∈ J}, où
J est une partie non-vide finie ou dénombrable de N, alors X est appelée une variable
aléatoire discrète.
2.2 Fonction de répartition

Définition 2.1 Soit X une variable aléatoire à valeurs dans R. On appelle fonction de
répartition de X, l’application F définie sur R par :
∀ t ∈ R, F (t) = P (X ≤ t)
Propriétés 2.1 La fonction de répartition satisfait les propriétés suivantes :

1. F prend ses valeurs dans [0, 1].
2. F est une application croissante.
3. F est continue à droite et admet une limite à gauche.
4. lim F (t) = 0 et lim F (t) = 1
t−→−∞ t−→+∞
Proposition 2.1 Toute application définie de R dans [0, 1] qui possède les propriétés 2,3,4
est la fonction de répartition d’une unique loi de probabilité sur R.
Propriétés 2.2 Soit X une variable aléatoire de fonction de répartition F , alors :

– P (X > x) = 1 − F (x)
– P (x ≤ X ≤ y) = F (y) − F (x)
9
2.3. VARIABLES ALÉATOIRES DISCRÈTES
– P (X < x) = F (x− )
Pour la suite de la théorie, nous allons traiter trois cas séparément, selon que la variable
aléatoire soit discrète (finie ou infnie) ou continue et à densité.
2.3 Variables aléatoires discrètes

2.3.1 Définitions et exemples à connaître
Rappelons la restriction des définitions générales au cas discret. Soit (Ω, A, P ) un
espace probabilisé.
Définition 2.2 Une variable aléatoire X définie sur Ω est dite discrète si elle prend ses
valeurs dans un ensemble discret : X(Ω) = {xj ; j ∈ J} ⊂ R, où J est une partie non-vide
finie ou dénombrable de N.
Fonction de répartition
Soit (Ω, A, P ) un espace probabilisé. Considérons X une variable aléatoire discrète de
fonction de répartition F , alors on a :
X
F (x) = P (X = y)
y∈X(Ω);y≤x
Espérance
L’espérance d’une variable aléatoire représente sa moyenne pondérée par la probabilité
de chacune des issues.
• Cas où l’univers est fini
Soit X une variable aléatoire réelle définie sur Ω = {ω1 , ω2 , . . . , ωn }. On appelle
espérance de X, que l’on note E(X), la quantité :
n
X
E(X) = X(ωi )P ({ωi })
i=1
L’espérance satisfait les propriétés suivantes

Propriétés 2.3
1. (Linéarité). Si X et Y deux variables aléatoires définies sur Ω, si a, b sont deux

réelles, alors :
E(aX + bY ) = aE(X) + bE(Y )
2. (Monotonie). Si X et Y deux variables aléatoires définies sur Ω telle que X ≤
Y , alors E(X) ≤ E(Y ). En particulier |E(X)| ≤ E(|x|).
3. Si X est une variable aléatoire constante, X ≡ a alors E(X) = a.

2.3.1 Définitions et exemples à connaître
4. Notons {x1 , . . . , xm } l’ensemble des valeurs prises par la variable aléatoire réelle
X, et soit f une application définie sur X(Ω), alors :
m
X
E(f (X)) = f (xk )P (X = xk )
k=1
• Cas où l’espace des états est quelconque et la variable aléatoire discrète

Soit (Ω, A, P ) un espace probabilisé et X une variable aléatoire discrète définie
sur Ω, à valeurs dans X(Ω) = {xj , j ∈ J} où J est une partie non vide, finie ou
dénombrable de N.
Définition 2.3
– La variable aléatoire discrète X est dite intégrable, si la série de terme général

|xj |pj converge.
– Si X est une variable aléatoire discrète intégrable, on définit son espérance, notée
E(X), par X
E(x) = xj P (X = xj )
j∈J
Définition 2.4 Soit X une variable aléatoire discrète intégrable. Si X est d’espérance
nulle, on dit que X est centrée.
Variance
Soit X une variable aléatoire discrète de carré intégrable, alors :
1. V ar(X) = E[(X − E(X))2 ]
2. V ar(X) ≥ 0,
3. ∀ a ∈ R, V ar(aX) = a2 V ar(X)
4. ∀ a ∈ R, V ar(X + a) = V ar(X)
5. V ar(X) = E(X 2 ) − (E(X))2
Définition 2.5 Soit X une variable aléatoire discrète. Si X est de variance égale à 1, on
dit que X est réduite.

2.3.2 Inégalité de Markov et de Bienaymé Tchebychev
2.3.2 Inégalité de Markov et de Bienaymé Tchebychev

Proposition 2.2 (Inégalité de Markov)
Soit X une variable aléatoire admettant un moment d’ordre n ≥ 1. Alors,
E(|X|n )
∀ a > 0, P (|X| ≥ a) ≤
an
Proposition 2.3 (Inégalité de Bienaymé-Tchebychev)
Soit X une variable aléatoire discrète de carré intégrable. Alors,
V ar(X)
∀ a > 0, P (|X − E(X)| ≥ a) ≤
a2
Voici une liste des lois discrètes classiques à connaître.
Dénomination Loi E(X) V ar(X)

X ,→ B(1, p) P (X = 1) = p et P (X = 0) = q E(X) = p V ar(X) = pq
X ,→ B(n, p) P (X = k) = Cnk pk q n−k E(X) = np V ar(X) = npq
1 n+1 n2 − 1
X ,→ U(n) P (X = k) = E(X) = V ar(X) =
n 2 12
1 q
X ,→ G(p) P (X = k) = pq k−1 E(X) = V ar(X) = 2
p p
k
−λ λ
x ,→ P(λ) P (X = k) = e E(X) = λ V ar(X) = λ
k!
2.4 Variables aléatoires continues

2.4.1 Définitions
Soit (Ω, A, P ) un espace probabilisé et soit X une variable aléatoire définie sur Ω.
Définition 2.6 La variable aléatoire X est dite continue, s’il existe une fonction réelle
positive f n’ayant qu’un nombre fini de points de discontinuité, telle que la fonction de
répartition de la loi de probabilité de X s’écrit :
Z x
∀ x ∈ R, F (x) = f (t)dt
−∞
La fonction f est alors appelée densité de la loi de probabilité de X.
Propriétés 2.4 On a les propriétés suivantes :

Z +∞
1. f (x)dx = 1
−∞
2. La fonction de répartition F est continue sur R.
3. P (X = x) = 0
4. F 0 = f

2.4.2 Espérance
2.4.2 Espérance
Définition 2.7 Soit X une variable aléatoire continue de densité f . On dit que la va-
riable
R +∞
aléatoire X est intégrable ou encore qu’elle admet une espérance si l’intégrale
−∞ |x|f (x)dx existe. Dans ce cas, son espérance noté E(X) est donné par :
Z +∞
E(X) = xf (x)dx
−∞
2.4.3 Exemples de variables aléatoires à densité

Loi de Gauss ou loi normale
!
2 1 (x − m)2
X ,→ N (m, σ ) =⇒ ∀ x ∈ R, f (x) = √ exp −
2πσ 2 2σ 2
Loi uniforme
1
X ,→ U(a, b) =⇒ ∀ x ∈ [a, b], f (x) = 1[a,b] (x)
b−a
Loi exponentielle
X ,→ Exp(λ) =⇒ ∀ x ∈ R, f (x) = λ exp(−λx)1[0,+∞[ (x)

Chapitre 3
Couple de variables aléatoires
3.1 Couple de variables aléatoires discret

Soient X, Y deux variables aléatoires définies sur Ω. Le couple aléatoire Z = (X; Y )
est dit discret si chacune des variables aléatoires X et Y est discrète. Pour un couple de
variable aléatoire (X; Y ), on note : E = X(Ω), F = Y (Ω).
Proposition 3.1 (Définitions)
1. Loi des vecteurs aléatoires

– Si Z = (X; Y ) est un couple aléatoire discret défini sur Ω, alors la loi de probabilité
de Z est caractérisée par la donnée des nombres définis comme suit
P ({Z = (X, Y )}) = P ({X = x} ∩ {Y = y}) = P (X = x; Y = y)
2. Lois marginales d’un couple aléatoire. Connaissant la loi du couple aléatoire Z =

(X; Y ), on retrouve la loi des variables aléatoires X et Y , dites lois marginales de
Z, grâce aux formules suivantes :
X
∀ x ∈ E, P (X = x) = P ({Z = (X, Y )})
y∈F
X
∀ y ∈ F, P (Y = y) = P ({Z = (X, Y )})
x∈E
3. Loi Conditionnelle. La loi conditionnelle de Y sachant que X prend la valeur x, est

caractérisée par la donnée des nombres :
P ({X = x} ∩ {Y = y})
∀ y ∈ F, P{X=x} ({Y = y}) =
P ({X = x})
Espérance, covariance
(Ω, A, P ) un espace probabilisé. Toutes les variables aléatoires et couple de variable
aléatoires que l’on considère sont définis sur Ω.
14
3.1.1 Variables aléatoires indépendantes
Espérance
X
E(XY ) = xyP (X = x; Y = y)
(x,y)∈E×F
Covariance
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )
Propriétés 3.1 Soient X, Y deux variables aléatoires discrètes, de carré intégrable.

1. Cov(X, X) = V ar(X) et Cov(X, Y ) = Cov(Y, X).
2. Si a; b; c; d ; sont des constantes réelles, alors :
Cov(aX + b, cY + d) = acCov(X, Y )
3. La variance et la covariance sont reliées par l’égalité :
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X; Y )
4. La covariance vérifie l’inégalité :
|Cov(X; Y )| ≤ σ(X)σ(Y )
3.1.1 Variables aléatoires indépendantes

Soit (X; Y ) un couple de variables aléatoires discrètes. Les assertions suivantes sont
équivalentes.
1. Les variables aléatoires X et Y sont indépendantes.
2. ∀ (x, y) ∈ E × F, P (X = x, Y = y) = P (X = x)P (Y = y)
Proposition 3.2 Soient X et Y deux variables aléatoires discrètes de carré intégrable.

Alors, si X et Y sont indépendantes,
1. E(XY ) = E(X)E(Y )
2. Cov(X, Y ) = 0
3. V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) = V ar(X) + V ar(Y )
3.2 Couple de variables aléatoires continues

Espérance
Z
E(XY ) = xyf (x, y)dxdy
R2

3.2. COUPLE DE VARIABLES ALÉATOIRES CONTINUES
Proposition 3.3 Connaissant la densité f (x, y) du couple (X, Y ), on retrouve les den-
sités dites marginales de X et Y par :
Z
∀ x ∈ R, FX (x) = f (x, y)dy
R
Z
∀ y ∈ R, FY (y) = f (x, y)dx
R
Proposition 3.4 Soit (X; Y ) un couple de variables aléatoires réelles. Si Xet Y sont
indépendants alors f (x, y) = fX (x)fY (y)

Deuxième partie
Statistiques
17
Chapitre 1
Statistique descriptive à une variable
1.1 Vocabulaire
Définition 1.1.1. Individus, Population.
Chaque donnée collectée décrit une caractéristique d’un objet appelé “individu”. Chaque
caractéristique varie d’un individu à l’autre, et on appelle “population” l’ensemble des individus
dont on étudie les caractéristiques. Cet ensemble est généralement noté P, et on notera par N
le nombre d’éléments de P, c’est-à-dire le nombre total d’individus qui existent.
Remarque Bien qu’on les appelle conventionnellement individus, les éléments de la “popu-
lation” ne sont pas nécessairement des personnes, ils peuvent aussi être des objets ou même
des notions plus abstraites.
Exemples 1.1.2.
1. La population des étudiants inscrits en L1 de psychologie à l’université
de Bourgogne pour l’année 2016/2017.
Dans le contexte de cette population, un étudiant inscrit en médecine,
ou dans une autre université n’appartient pas à la population étudiée et
n’est donc pas qualifié d’“individu”.
2. L’ensemble des tablettes tactiles vendues chez Boulanger Quetigny au
cours de l’année 2016. Un “individu” est alors une tablette tactile.
3. L’ensemble des pays membres des nations unies. Un individu est alors
un pays.
Remarque Une définition précise des populations est importante. En particulier, pour
l’exemple 3, la république turque de Chypre du nord, le Donbass, le Kosovo, la Palestine,
Taı̈wan, le Vatican, etc. ne sont pas considérés comme “individus” car ils n’ont pas le statut de
membre de l’ONU.
3
4 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE VARIABLE
Une définition moins précise de la population comme “l’ensemble des pays du monde” aurait
été plus ambigüe, faute de consensus pour savoir, par exemple, si Taı̈wan et la Palestine sont
des pays.
En pratique il sera néanmoins fréquent d’utiliser des définitions ambigües et imprécises de la
population, lorsque cela n’a pas d’impact sur les questions posées (par exemple, si on demande
quel est le plus grand pays au monde, il importe peu de savoir si le Kosovo et le Vatican sont
des pays).
Définition 1.1.3. Échantillon.
C’est un sous ensemble d’une population. Ces échantillons sont en principe choisis au ha-
sard parmi l’ensemble de la population. Les observations seront faites sur l’échantillon dans
le but d’extrapoler les résultats à toute la population. Il peut par exemple être aléatoire et/ou
représentatif :
• Échantillon aléatoire : Dans ce cours, on parlera d’échantillon aléatoire si les éléments de
l’échantillon sont choisis l’un après l’autre de manière indépendante, avec à chaque fois autant
de chance pour individu de la population de départ d’être choisi pour être dans l’échantillon.
En pratique il est souvent trop difficile d’utiliser des échantillons aléatoires (par exemple parce
que certaines personnes n’ont pas de téléphone fixe), auquel cas on se contente d’échantillons
représentatifs :
• Échantillon représentatif : un échantillon qui reflète fidèlement la stratification de la po-
pulation et sa structure selon un critère donné est dit représentatif.
Notation On notera généralement par n la taille de l’échantillon, c’est-à-dire le nombre
d’individus de l’échantillon.
Exemples 1.1.4. • Pour la population P désignant l’ensemble des appareils photos vendus
en France en 2016, on peut considérer comme échantillon les appareils
photos vendus par la FNAC de Dijon en octobre 2016. Cet échantillon
n’est pas aléatoire, et a peu de raisons d’être représentatif.
• Les étudiants du groupe 3 de statistiques en L1 de psycho à l’uB peuvent
être considérés comme un échantillon de la population française. Il n’est
pas aléatoire et n’est pas représentatif, notamment en terme d’âge, et
de sexe.
Ce même groupe d’étudiants peut être considéré comme un échantillon
de la population des étudiants en L1 de psychologie à l’uB, dont il est
nettement plus représentatif.
Définition 1.1.5. Soit P une population.
Variable statistique : une variable statistique est une quantité ou une qualité définie sur P
et qui est susceptible de varier d’un individu à l’autre. Les différentes valeurs ou aspects de la
variable seront appelés modalités.
1.1. VOCABULAIRE 5
1. Variable quantitative : lorsque la variable désigne une quantité que l’on mesure, de
sorte que les modalités de la variable sont des nombres. Ces variables peuvent être de
deux types :
(a) Variables continues : les modalités de la variable peuvent prendre toutes les valeurs
comprises dans un intervalle donné, notamment un nombre infini de valeurs. C’est
notamment le cas pour des longueurs, des poids, etc.
(b) Variables discrètes : les valeurs possibles de la variable sont isolées. C’est par
exemple le cas si la variable ne prend que des valeurs entières.
2. Variable qualitative : Les modalités d’une variable qualitative ne sont pas objectivement
comparables. Ce sont souvent des noms ou des étiquettes qui permettent de répartir la
population en plusieurs groupes sans aucune hiérarchie entre ces groupes. On les appelle
aussi variables nominales.
Notation Les variables statistiques sont généralement notées par une lettre majuscule, par
exemple X ou Y .
Exemples 1.1.6. • Sur la population P des familles françaises, on désigne par X le nombre
d’enfants par famille. C’est une variable quantitative discrète.
• Sur la population des bébés de 6 mois, soit Y la variable taille. C’est
une variable quantitative continue.
• Les variables sexe et couleur des yeux sont des variables qualitatives.
Remarques importantes On utilise souvent et notamment en sciences humaine les notions

suivantes :
• Variables ordinales. Ce sont des variables qualitatives dont les modalités sont ordonnées
selon certains critères. Un exemple serait l’appréciation d’un professeur sur un élève exprimée
de la manière suivante : - très faible - faible - médiocre - moyen - assez bien - bien - très bien,
ou alors l’anxiété d’un individu : - très peu anxieux - peu anxieux - anxieux - pas anxieux - pas
anxieux du tout. On remarque alors une hiérarchie entre les modalités qui n’est pas exprimée
en terme de nombres réels.
• Souvent on associe aux modalités d’une variable qualitative des numéros pour les coder, ces
numéros sont de simples étiquettes pour distinguer les modalités et n’ont aucun rôle hiérarchique
entre les modalités. Par exemple attribuer à chaque groupe de TD un numéro de 1 à 10.
• Variable dépendante, variable indépendante En science humaines, on utilise aussi la
terminologie de variable dépendante (VD) et de variable indépendante (VI). Lorsqu’on a deux
variables que l’on pense être liées (par exemple le sexe et la taille, ou la taille et l’alimenta-
tion), on appelle variable “indépendente” la variable que l’expérimentateur peut contrôler, et
variable “dépendente” celle que l’on mesure à l’issue de l’expérience. Par exemple, dans le cas
du couple “sexe, taille”, la variable indépendante est le sexe, car il est facile de choisir le sexe
des individus que l’on prend dans l’échantillon. Dans le cas du couple “taille, alimentation”,
la variable indépendante est l’alimentation car l’expérimentateur peut choisir l’alimentation
des sujets au cours de l’expérience. Il pourra sans doute constater que la taille d’individus
adulte dépend de l’alimentation qu’ils auront reçu pendant leur enfance, d’où la dénomination
1
“variable dépendante” pour désigner la taille .
1.2 Présentation des variables statistiques

1.2.1 Variables qualitatives
À l’issue du dépouillement d’une étude, on choisit généralement de présenter les données
en un tableau où apparaissent les différentes modalités (ou valeurs) du caractère ainsi que les
effectifs de ces modalités.
Modalités x1 x2 . . . xi . . . xr
effectifs n1 n2 . . . ni . . . nr
On a noté r le nombre de modalités possibles de la variable x étudiée.

ni représente le nombre d’individus pour lesquels la variable x prend la modalité xi .
La somme n1 + n2 + ⋅ ⋅ ⋅ + nr = n est l’effectif total c’est-à-dire la taille de la population
étudiée. Pour simplifier les notations, la définition n = n1 + n2 + ⋅ ⋅ ⋅ + nr est généralement notée
r
n = ∑i=1 ni .
Exemple 1.2.1. Lors d’une étude sur la mobilité géographique, on a demandé à 250 personnes
si elles passaient leurs vacances à l’étranger. Les effectifs obtenus sont les suivants :
Vacances à l’étranger jamais parfois souvent toujours Total
Effectifs 22 92 118 18 250
Définition 1.2.2. Fréquences relatives.

Soit X une variable statistique de modalité x1 , . . . , xr d’effectifs n1 . . . ,nr et n l’effectif total.
ni
La fréquence relative de la modalité xi est par définition le rapport fi = n .
r
Remarque La somme ∑i=1 fi = f1 + f2 + ⋅ ⋅ ⋅ + fr est égale à un (ou 100%).
Remarque Nous n’utiliserons pas cette dénomination dans ce cours, mais certaines per-
sonnes appellent parfois les effectifs “fréquences absolues” (terminologie utilisée notamment
1. On notera toutefois que cette dénomination de variable dépendante peut prêter à confusion car elle suggère
que l’alimentation ne dépend pas de la taille, alors qu’en fait la taille influe sur l’alimentation, par le biais d’une
faim différente et (dans la nature) d’un accès différent à la nourriture en fonction de la taille. Un protocole
expérimental précis (qui fixe l’alimentation des sujets) vise notamment à éliminer cet effet.
1.2. PRÉSENTATION DES VARIABLES STATISTIQUES 7
par certaines calculatrices). Dans ce cours, au contraire, le terme “fréquence” désignera tou-
jours la fréquence relative, même lorsque le terme relative est omis.
L’intérêt de la notion de fréquence (relative) est d’être un élément de comparaison pour un
même caractère sur deux populations différentes et surtout si elles n’ont pas la même taille.
Souvent il est plus commode pour l’interprétation d’exprimer ces fréquences en pourcentage.
Les représentations graphiques sont en général associées aux fréquences et rarement aux effectifs.
Le principe étant que la surface affectée à une modalité est proportionnelle à sa fréquence. Les
principales représentations graphiques pour des variables qualitatives sont les représentations
dites en barres (ou tuyaux d’orgue) ou en secteurs circulaires (ou camemberts).
Le plus simple étant la représentation en tuyaux d’orgues, où la hauteur de chaque barre
correspond à la fréquence de d’une modalité :
Vacances à l’étranger jamais parfois souvent toujours Total
Effectifs 22 92 118 18 250
Fréquences 0,088 0,368 0,472 0,072 1
Fréquences (%) 8,8 36,8 47,2 7,2 100
La figure 1.1 représente ces données sous la forme d’un diagramme en tuyaux d’orgues.
0.5
0.4
fréquence
0.3
0.2
0.1
0
s
s
t
is
ur
en
ai
fo
m
jo
uv
r
Pa
Ja
u
So
To
Figure 1.1 – Tuyaux d’orgue
1.2.2 Variables quantitatives

Série statistique
C’est la liste complète des scores obtenus par l’ensemble des individus (les données brutes).
Dans ce cours, on manipulera ces données pour un petit groupe d’individus. Par exemple voici
les scores d’estime de soi sur une échelle de Coopersmith Self-Esteem Inventory (SEI) obtenu par
un groupe de 10 étudiantes de psychologie 2 : 26 30 32 37 28 38 40 27 41 36
Regroupement par modalités

Quand on travaille avec de grands échantillons, les données brutes recueillies ne parlent
pas d’elles-mêmes. Il faut les organiser de manière lisible sur un tableau des effectifs. Si la
variable est de nature discrète et qu’il y a peu de modalités, il faut regrouper les effectifs des
différentes valeurs comme pour le cas des variables qualitatives, mais en prenant garde à ranger
les modalités par ordre croissant. S’il y a trop de modalités (par exemple pour des variables
continues), on les organise en classes.
Les fréquences relatives des différente valeurs se calculent de la même façon que pour les
variables qualitatives :
ni
fi = n .
On peut dans le cas des variables quantitatives définir la notion de fréquences cumulées :
Définition 1.2.3. La fréquence cumulée Fi de la modalité xi est définie par :
n1 + n2 + ⋯ + ni
F i = f1 + f2 + ⋯ + fi = n .
Comme pour les fréquences relatives, on les transforme en pourcentages pour rendre leur
interprétation plus commode.
Notation importante Dans la suite on désigne par Pr [X < t] la fréquence totale des
modalités xi telles que xi < t (c’est-à-dire la proportion, au sein de notre échantillon, des
observations qui satisfont X < t). On peut définir de même Pr [X ⩽ t] ou Pr [X ⩾ t], et on
notera par exemple que Fi = Pr [X ⩽ xi ], et que pour i > j, Fi − Fj = Pr [xj < X ⩽ xi ].
Définition 1.2.4. La fonction qui à x associe Pr [X ⩽ x] s’appelle la fonction de répartition de
la variable statistique X. On note cette fonction FX , c’est-à-dire que l’on note FX (t) = Pr [X ⩽
t].
Exemple 1.2.5. On a demandé à un groupe d’adultes dont l’âge varie entre 40 et 50 ans de
donner une estimation qui exprime leur satisfaction de leur vie quotidienne sur une échelle en
9 points (1 : Extrêmement insatisfait, 9 extrêmement satisfait). Voici les résultats recueillis :
5 7 6 6 7 5 3 7 7 8 7 5 5 8 6 8 7 6 2 7 8 7 7 7 7 4
7 4 8 5 4 7 6 6 4 6 7 7 4 5 7 7 1 4 4 7 5 7 5 5 5 6
7 8 5 8 7 7 5 7 8 5 6 7 3 6 6 7 5 7 5 7 3 8 4 6 7 7
5 3 7 6 6 5 9 6 3 2 7 8 6 8 5 8 6 4 7 6 6 7 4 6 7 7
3 7 7 7 9 5 7 7 7 9 6 5 6 6 7 6 9 4 9 4 6
On a donc dans cette étude 125 individus. On doit alors synthétiser les valeur sur un tableau
où on donne les valeurs de 1 à 9 et pour chacune son effectif.
On peut donner une première forme de représentation sous forme de feuilles de la façon
suivante :
1
22
333333
444444444444
55555555555555555555
6666666666666666666666666
777777777777777777777777777777777777777777
888888888888
99999
Cette représentation nous indique une première idée sur la forme de la distribution statistique
des résultats. Toutefois, pour permettre de mieux visualiser cette distribution, on peut en
calculer les fréquences et fréquences cumulées :
Valeurs xi 1 2 3 4 5 6 7 8 9
Effectifs : ni 1 2 6 12 20 25 42 12 5
Effectifs Cumulés 1 3 9 21 41 66 108 120 125
Fréquences : fi (%) 0,8 1,6 4,8 9,6 16,0 20,0 33,6 9,6 4,0
Fréquences cumulées Fi (%) 0,8 2,4 7,2 16,8 32,8 52,8 86,4 96,0 100,0
et on peut tracer le diagramme en bâton de ses fréquences représenté en figure 1.2.
Regroupement en classes
Si le nombre de modalités est trop élevé, en particulier dans le cas des variables continues,
les données brutes sont simplifiées en les groupant en intervalles (classes). Ces intervalles sont
par convention semi-ouverts à droite.
L’amplitude d’une classe est la longueur de l’intervalle. Il n’est pas nécessaire que toutes
les classes aient la même amplitude : il est fréquent que les classes situées aux extrêmes de la
distribution soient plus larges et que les autres classes aient toutes la même taille.
Il est difficile d’établir une règle qui permet de décider du nombre de classes et de leurs
amplitudes éventuelles, exception faite de certaines variables dites régulières telles que les lois
normales par exemple.
ème
Les classes sont notées [a1 ; a2 [, [a2 ; a3 [, etc. La i classe est donc notée [ai ; ai+1 [. Il arrivera
parfois aussi de la noter [xi ,xi+1 [.
ème
L’effectif de la i classe est alors noté ni , et on note ci son centre, c’est-à-dire ci = ai +a2 i+1 .
On définit alors les fréquences et les fréquences cumulées des classes
35% 33,6%
30%
25%
Fréquence
20%
20%
16%
15%
9,6% 9,6%
10%
4,8% 4%
5%
0,8%1,6%
0%
1 2 3 4 5 6 7 8 9
Estime de soi
Figure 1.2 – Représentations graphiques des données de l’exemple 1.2.5, sous la forme d’un
diagramme en bâtons.
Définition 1.2.6. La fréquence cumulée Fi de la classe [ai ; ai+1 [ est définie par :
n1 + n2 + ⋯ + ni
Fi = f1 + f2 + ⋯ + fi = n .
Remarque : la fréquence cumulée Fi n’est autre que la proportion Pr [X < ai+1 ]. Or dans
le cas d’une variable continue, on a en général Pr [X < ai+1 ] = Pr [X ⩽ ai+1 ], car les valeurs
prises par X sont des nombres avec en général beaucoup de chiffre après la virgule, qui ne
sont jamais exactement égaux ai+1 . Si on rapelle la définition 1.2.4 de la fonction de répartition
FX (t) = Pr [X ⩽ t], on a donc
Fi ≃ FX (ai+1 ) .
Exemple 1.2.7. Le tableau suivant représente la distribution statistique (sur un échantillon

de 180 enfants de 3 ans) de la variable statistique X qui associe, à chaque enfant, le nombre
de mots constituant son langage de base.
classes : [ai ; ai+1 [ [70; 110[ [110; 130[ [130; 150[ [150 − 170[ [170; 190[ [190; 210[ [total
effectifs : ni 11 19 58 55 22 15 180
fréquences : fi 0,06111 0,1056 0,3222 0,3056 0,1222 0,08333 1
fréquences cumulées : Fi 0,06111 0,1667 0,4889 0,7945 0,9167 1,000
Remarque Le regroupement des données en classes se fait généralement pour des variables
continues. On voit toutefois ici un exemple ou ce regroupement est fait pour une variable
discrète.
En effet, la variable nombre de mots n’est pas continue, mais les modalités (les entiers de 70
à 210) sont très nombreuses, ce qui impose un tel regroupement.
Histogramme des fréquences Le graphique utilisé pour représenter une variable continue
dont les données sont regroupées en classes est l’histogramme des fréquences. Au-dessus de
chaque classe on dessine un rectangle qui illustre la fréquence de la classe qui est représentée
par l’aire du rectangle associé sur l’histogramme et non la hauteur. La hauteur du rectangle
2
est donnée par la “fréquence corrigée” hi :
fi
hi = a − a
i+1 i
où l’on a corrigé la fréquence fi de la classe en la divisant par la largeur de la classe (c’est-à-
dire l’amplitude ai+1 − ai ), pour compenser le fait que les rectangles n’aient pas tous la même
largeur.
Pour les données de l’exemple 1.2.7, on obtient les hauteurs suivantes :
classes : [ai ; ai+1 [ [70; 110[ [110; 130[ [130; 150[ [150; 170[ [170; 190[ [190; 210[
fréquences corrigées hi 0,00153 0,00528 0,01611 0,01528 0,00611 0,00417
Celles-ci permettent de tracer l’histogramme de la figure 1.3a.
1
Fréquence cumulée
0.8
0.6
0.4
0.2
70 110 130 150 170 190 210 70 110 130 150 170 190 210
Nombre de mots Nombre de mots
(a) Histogramme (b) Polygone des fréquences cumulées
Figure 1.3 – Histogramme des fréquences et polygone des fréquences cumulées pour les données
de l’exemple 1.2.7.
Polygone des fréquences cumulées

2. Le terme fréquence corrigée est un abus de langage simplificateur : mathématiquement, hi ne s’exprime
plus en pourcentage, et ne devrait donc pas être appelée “fréquence”.
Le polygone des fréquences cumulées représente une approximation de la fonction de répartition

FX définie en 1.2.4 par FX (t) ≃ Pr [X ⩽ t] :
Si on dispose de r classes [a1 ,a2 [. . . [ar ,ar+1 [, alors la fréquence cumulée de la classe [ai , ai+1 [
est FX (ai+1 ) (on convient que FX (a1 ) = 0). Cela donne les points (ronds bleus) de la figure
1.3b, et le reste de la courbe est estimé par approximation linéaire, comme en annexe 1.5 page
16). On obtient alors
⎧
⎪ 0 si a ⩽ a1
⎪
⎪
⎪
FX (a) ≈ ⎨ FX (ai ) +
FX (ai+1 )−FX (ai )
(a − ai ) si ai ⩽ a ⩽ ai+1
⎪
⎪ ai+1 −ai
⎪
⎪
⎩ 1 si a ⩾ ar+1
où FX (ai ) = Pr [X ⩽ ai ]
Remarque 1.2.8. Comme on a Pr [a ⩽ X ⩽ b] = Pr [X ⩽ b] − Pr [X < a], on peut utiliser

cette formule pour estimer FX (b) − FX (a) qui donne Pr [a ⩽ X ⩽ b].
Exemples : Pour les données de l’exemple 1.2.7, on a
FX (150) =0,4889 = 48,89%,

FX (150) − FX (130) 0,32220
FX (135) ≈FX (130) + (135 − 130) ≃ 0,1667 + × 5 ≃ 0,2472 = 24,72% .
150 − 130 20
On en déduit que Pr [135 ⩽ X ⩽ 150] ≈ 0,4889 − 0,2472 = 0,2417 = 24,17%.
1.3 Caractéristiques d’une distribution

1.3.1 Médiane
Idée de médiane La médiane est telle qu’environ la moitié des valeurs soient plus petites
que la médiane, et qu’environ la moitié des valeurs soient plus grandes que la médiane.
Plus précisément, la médiane est définie, pour une échantillon sur lequel on dispose des
données brutes, par :
Définition 1.3.1. La médiane des observations de la variable statistique X sur un échantillon

de taille n est
ème
• La n+12
valeur (dans l’ordre croissant), si n est impair.
n ème n+2 ème
• Le nombre a+b2
, où a est la 2
valeur (dans l’ordre croissant) et b est la 2
valeur,
dans le cas où n est pair.
1.3. CARACTÉRISTIQUES D’UNE DISTRIBUTION 13
Remarque 1.3.2. Si l’on veut utiliser cette définition pour calculer la médiane de la satisfac-
tion de soi des individus de l’exemple 1.2.5, on range d’abord les valeurs par ordre croissant
ème
(on a alors les valeurs 1, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, . . . ), puis on choisit la 63 (car
n = 125). On obtient ainsi que la médiane vaut 6. Heureusement, il y a en fait une façon plus
ème
simple de déterminer cette médiane, sans avoir à compter jusqu’à la 63 valeur :
Propriété 1.3.3. S’il existe une modalité xi dont la fréquence cumulée vaut 0.5, alors la
médiane est xi +x2 i+1 . Sinon, il existe une modalité xi telle que Fi > 0.5 et Fi−1 < 0.5 ; dans ce
cas la médiane est cette modalité xi .
Cas de données regroupées en classes :

on détermine une valeur approchée de la médiane en demandant que FX (Méd) ≈ 0.5.
Proposition 1.3.4. Pour une variable continue, il existe en général une classe [ai ,ai+1 [ telle
que FX (ai ) < 0.5 et FX (ai+1 ) > 0.5. On appelle cette classe la classe médiane, et l’interpolation
linéaire nous permet d’obtenir une valeur approchée de la médiane :
ai+1 − ai
Méd ≈ ai + × (0,5 − F (ai )) .
FX (ai+1 ) − FX (ai )
Exemple 1.3.5. Reprenons l’exemple 1.2.7 du nombre de mots.

Comme FX (150) = 48.89 < 50% et FX (170) = 79.45 > 50%, la classe médiane est [150; 170[.
L’interpolation linéaire donne donc :
170 − 150
Méd ≈ 150 + × (50 − 48.89) ≃ 150.73 mots.
79.45 − 48.89
Remarque : dans l’expression ci-dessus, on a exprimé FX (ai+1 ) et FX (ai ) en pourcentage. En
conséquence 0,5 est remplacé par 50%.
1.3.2 Quartiles
La notion de quartile est très analogue à celle de médiane : le premier quartile est tel
qu’environ un quart des valeurs soient plus petites que le premier quartile (et trois quarts
soient plus grandes), tandis que le troisième quartile est tel qu’environ trois quarts des valeurs
soient plus petites que le troisième quartile (et un quart soient plus grandes).
Toutefois la définition précise, dans le cas d’un échantillon pour lequel on dispose des
données brutes, diffère selon le livre consulté, ou le logiciel (ou la calculatrice) utilisé. Nous
nous intéresserons donc ici uniquement au cas de données regroupées en classes :
Pour données regroupées en classes, on estime les quartiles en résolvant les équations FX (Q1 ) ≈
0,25 et FX (Q3 ) ≈ 0,75.
Exemple 1.3.6. Reprenons l’exemple nombre de mots :

Comme pour la médiane, on trouve des valeurs approchées de Q1 et Q3 en faisant des interpo-
lations linéaires :
• comme FX (130) = 16,67 ⩽ 25% et FX (150) = 48,89 > 25%, le premier quartile se trouve
entre 130 et 150 :
150 − 130
Q1 ≈ 130 + × (25 − 16,67) ≃ 135 mots.
48,89 − 16,67
• comme FX (150) = 48,89 ⩽ 75% et FX (170) = 79,45 > 75%, le troisième quartile se
trouve entre 150 et 170 :
170 − 150
Q3 ≈ 150 + × (75 − 48,89) ≃ 167 mots.
79,45 − 48,89
Définition 1.3.7. L’intervalle [Q1 ; Q3 ] est appelé intervalle interquartile ; il représente la
≪ moitié médiane ≫ de la population.
1.3.3 Moyenne
Définition 1.3.8. La moyenne d’une variable quantitative X, pour un échantillon de taille n,
est donnée par :
n
1
• m(X) = n ∑ xi
i=1
si l’on dispose de données brutes (typiquement si l’échantillon est de petite taille)
r
1
• m(X) = n ∑ ni xi
i=1
si la variable a r modalités x1 , x2 , . . . , xr d’effectifs respectifs n1 , n2 , . . . , nr .
r
1
• m(X) ≈ n ∑ ni ci
i=1
si les données sont regroupées en classes de centres respectifs c1 , c2 , . . . , cr et d’effectifs
n1 , n2 , . . . , nr (ci = ai +a2 i+1 désigne ici le centre de la classe [ai ; ai+1 [).
Variance et écart-type
Définition 1.3.9. La variance d’une variable X est la moyenne ≪ des carrés des écarts à la
moyenne de X ≫ :
2
Var(X) = m ((X − m (X)) ) .
On peut aussi la calculer avec la formule :
2 2
Var(X) = m (X ) − (m(X)) .
1.4. CALCULATRICE 15
L’écart-type est la quantité √

s(X) = Var(X) .
2
Remarque 1.3.10. On calcule m(X ) selon les expressions suivantes, analogues à la définition
1.3.8 : n
2 1 2
• m(X ) = n ∑ xi si on dispose des données brutes
i=1
r
2 1 2
• m(X ) = n ∑ ni xi si les données sont regroupées par modalités (avec des effectifs ni ).
i=1
r
2 1 2
• m(X ) ≈ n ∑ ni ci si les données sont regroupées en classes.
i=1
Exemple 1.3.11. Cas d’une variable discrète avec un petit échantillon

Pour un groupe de 17 candidats choisis au hasard, les résultats à une épreuve sont donnés
par :
xi 7 21 24 14 12 22 17 18 16.5 18 22 21 21 16 15 15 17.5
xi 7 21 24 14 12 22 17 18 16,5 18 22 21 21 16 15 15 17,5 297
On a 2
xi 49 441 576 196 144 484 289 324 272,25 324 484 441 441 256 225 225 306,25 5477,5
297 5477.5 297 2

m(x) = ≃ 17.4758; V ar(X) = −( ) ≃ 16,98443; s(X) ≃ 4,121217.
17 17 17
Exemple 1.3.12. Cas d’une variable continue
classes [70 ; 110[ [110 ; 130[ [130 ; 150[ [150 ; 170[ [170 ; 190[ [190 ; 210[ Total
effectifs ni 11 19 58 55 22 15 180
centres ci 90 120 140 160 180 200
ni ci 990 2280 8120 8800 3960 3000 27150
2
ni (ci ) 89100 273600 1136800 1408000 712800 600000 4220300
On obtient
27150 4220300 27150 2
m(x) ≈ ≃ 150,8; V (x) ≈ −( ) ≈ 695,4; s(x) ≈ 26,4
180 180 180
1.4 Calculatrice
On trouve dans le commerce de nombreuses calculatrices capables de calculer les moyenne,
écart-type, médiane, quartiles, etc. Le Formulaire associé à ce cours décrit la façon de procéder
pour des calculettes Casio et TI. Il est toutefois fortement recommandé de lire le manuel de sa
calculette et se familiariser avec celle-ci.
Chapitre 2
Statistiques descriptives : couple de

variables statistiques
2.1 Introduction
Dans ce chapitre, nous introduisons quelques outils utiles à l’étude et à l’examen de relations
et de liens entre différentes variables sur une même population. Le cas le plus simple est celui
de deux variables X et Y . Souvent, la variables X est “manipulable” par l’expérimentateur : il
peut s’agir par exemple du dosage d’un traitement, ou du sexe des personnes que l’on choisit
d’interroger. On l’appelle en sciences humaines variable indépendante.
L’autre variable (Y ) est alors appelée variable dépendante ; Par exemple si X est le dosage
d’un traitement, Y peut être l’intensité de la douleur manifestée par un malade, et si X est le
sexe des personnes interrogées, Y peut tout à fait être leur taille.
La variable Y est parfois aussi appelée variable prédite, sous-entendant une relation de cause
à effet entre X et Y . On cherche ainsi à prédire Y en fonction de X, c’est-à-dire à établir une
relation du type Y = f (X) entre les deux variables. Les relations les plus simples à étudier sont
1
les relations linéaires , auxquelles nous attacherons une attention particulière dans ce chapitre.
Dans ce chapitre, on abordera deux notions
la corrélation qui mesure l’intensité du lien entre deux variables
la régression linéaire qui est la relation de prédiction (affine) entre les deux variables.
Lorsque nous rassemblons des observations sur plusieurs variables statistiques sur une même
population, nous avons souvent besoin, avant l’élaboration d’une analyse fine, de représentations
graphiques qui nous donneront une première impression sur l’intensité du lien (qu’on doit
confirmer par des méthodes plus élaborées) entre les deux variables :
1. Ou plus généralement les relations “affines” que nous appellerons aussi “linéaires” par abus de langage.
17
18 CHAPITRE 2. STATISTIQUES DESCRIPTIVES BIVARIÉES
2.2 Nuage statistique

Pour un couple de variables (X; Y ) chaque individu est représenté dans le plan par un point
dont les coordonnées (xi ; yi ) sont les mesures de X et Y pour cet individu. L’ensemble de
ces points s’appelle le nuage statistique ou le diagramme de dispersion. Les deux va-
riables X et Y ont souvent des rôles distincts : lorsqu’une des deux variables (la variable dite
indépendante) est manipulable par l’expérimentateur on la note X et on la représente horizon-
talement (en abscisse). L’autre variable (notée généralement Y ) est représentée verticalement
(en ordonnée).
2.2.1 Exemple
Des chercheurs ont étudié la relation entre le stress et la santé mentale. Ils ont mis au point
une échelle qui permet de donner une mesure du stress pour chaque personne interrogée. Ils
ont demandé également aux personnes interrogées de remplir la liste de contrôle d’Hopkins, qui
évalue la présence ou l’absence d’un certain nombre de symptômes psychologiques.
Le tableau suivant représente les mesures du stress X et des symptômes Y pour 15 personnes.
A B C D E F G H I J K L M N O
X 12 30 27 9 20 3 12 15 5 10 23 34 23 10 17
Y 80 99 90 75 92 76 93 82 76 85 74 100 92 97 94
100
Y (symptomes)
90
80
0 5 10 15 20 25 30 35
X (stress)
Figure 2.1 – Nuage statistique

2.3. COEFFICIENTS DE CORRÉLATION 19
Sur ce nuage de point on remarque que la majorité des points sont assez proche d’une droite
qui est la diagonale du carré délimitant la figure. On peut donc déjà s’attendre, au vu du dessin,
à trouver un fort lien entre les variables, et que ce lien entre les variables soit linéaire.
2.3 Coefficients de corrélation

Dans ce cours, on abordera deux coefficients de corrélations différents :
Le coefficient de corrélation linéaire (ou “coefficient de corrélation de Pearson”) tra-
duit le fait que deux variables soient liées par une relation linéaire (ou affine), c’est-à-dire
le fait que les points du nuage statistique soient concentrés autour d’une droite.
Le coefficient de corrélation des rangs de Spearman traduit le fait qu’une des va-
riables augmente (ou diminue) quand l’autre augmente. Dans l’exemple précédent, ce
coefficient permettrait de confirmer que les symptômes augmentent quand le stress aug-
mente.
Le calcul du coefficient de corrélation linéaire s’appuiera sur un paramètre statistique appelé
covariance :
2.3.1 Covariance
Par définition la covariance de deux variables X et Y est la moyenne des produits des
écarts des deux variables. Ce qui donne la définition mathématique suivante
Cov(X; Y ) = m((X − m(X))(Y − m(Y )))
En pratique, on utilisera une définition plus simple à mettre en oeuvre, et rigoureusement
équivalente :
Cov(X; Y ) = m(XY ) − m(X)m(Y )

Sur des petits échantillons de taille n la covariance s’obtient en faisant les calculs suivants
∑ xi ∑ yi ∑ x i yi
m(X) = n , m(Y ) = n , m(XY ) = n ,
∑ xi y i ∑ xi ∑ y i
cov(X; Y ) = n − ( n ) ( n )
Calculs pour l’exemple 2.2.1 défini précédemment :

∑x
m(X) = n i = 12+30+⋅⋅⋅+17
15
= 250
15
≃ 16,67.
∑y
m(Y ) = n i = 80+99+⋅⋅⋅+94
15
= 1305
15
= 87.
m(X Y ) = 12×80+30×99+27×90+⋅⋅⋅+17×94
15
= 22465
15
≃ 1497,667.
Cov(X; Y ) = m(X Y ) − m(X) m(Y ) = 15 − 25022465 1305
15 15
≃ 47,667.
2.3.2 Le coefficient de corrélation linéaire de Pearson

Par définition le coefficient de corrélation est le rapport entre la covariance et le produit des
écarts-type
Cov(X; Y )
r(X; Y ) = .
s(X)s(Y )
2 2 2 2
2 ∑ xi
m(X ) = N
= 12 +30 +⋅⋅⋅+17
15
= 5360
15
.
2 2 2
V ar(X) = m(X ) − m(X) = 5360
− ( 250 ) ≃ 79,56.
√ 15 15
s(X) = V ar(X) ≃ 8,92.
2 2 2 2
2 ∑ yi
m(Y ) = N
= 80 +99 +⋅⋅⋅+94
15
= 114725
15
.
2 2 1305 2
V ar(Y ) = m(Y ) − m(Y ) = 114725
− ( ) ≃ 79,33.
√ 15 15
s(Y ) = V ar(Y ) ≃ 8,91.
Cov(X;Y )
D’où r(X; Y ) = s(X)s(Y )
= 47,667
8,92×8,91
≃ 0,6.
Interprétation et Remarques
1. Le coefficient de corrélation est compris entre −1 et +1.
2. On dira qu’on a une corrélation très forte (positive ou négative) si ∣r(X; Y )∣ ⩾ 0,75. Dans
ce cas on doit s’attendre à ce que chaque variable soit un bon prédicteur pour l’autre.
Les droites de régression (que nous définirons ci-après en partie 2.4) sont alors un bon
outil de prédiction.
Dans ce cas,
(a) Si r est positif, le lien entre les variables X et Y signifie que Y augmente linéairement
quand X augmente.
(b) Si r est négatif, le lien entre les variables X et Y signifie que Y diminue linéairement
quand X augmente.
2.3.3 Le coefficient de corrélation des rangs

Le coefficient de corrélation de Spearman se fonde sur le calcul des rangs de valeurs prises
par chaque variable X et Y :
′ ′
On attribue le rang xi = 1 à la plus petite valeur xi , puis le rang xi = 2 à la deuxième plus
petite valeur, etc. On procède de même pour les yi , puis on définit le coefficient de corrélation
2.3. COEFFICIENTS DE CORRÉLATION 21
′ ′
de Spearman comme le coefficient linéaire des rangs x et y . En pratique ce coefficient se calcule
selon la formule suivante (équivalent à cette définition sauf s’il y a des ex-aequo) :
′ 2
6 ∑ (xi − yi )
′
rs (X; Y ) ≈ 1 − (2.1)
n(n2 − 1)
On commence par calculer les rangs, remplissant ainsi la table 2.1 :
′
On associe le rang xi = 1 à la colonne de la plus petite valeur, à savoir xi = 3 pour le sujet 6.
′ ′
De même on obtient xi = 2 pour le sujet 9 (deuxième plus petite valeur : xi = 5) et xi = 3 pour
le sujet 4 (troisième plus petite valeur : xi = 9). On constate ensuite que la valeur suivante est
′ ′
xi = 10 qui apparaı̂t deux fois (sujets 10 et 14). On devrait y associer les rangs xi = 4 et xi = 5,
′
mais pour éviter de choisir arbitrairement dans laquelle de ces deux colonnes mettre xi = 4 et
′ ′
dans laquelle mettre xi = 5, on met xi = 4,5 dans chacune de ces colonnes. On retient toutefois
que ce 4,5 correspond aux rangs 4 et 5, de sorte que le rang suivant est le rang 6. Mais comme
la valeur suivante est xi = 12 qui apparait deux fois, on associe les rangs 6 et 7, donc on marque
6,5 dans les colonnes 1 et 7. On continue ensuite jusqu’à avoir rempli toute la ligne des rangs
′
X.
′
On procède ensuite exactement pareil pour les rangs yi .
′ 2
Si on le souhaite, on peut aussi ajouter une colonne où l’on calcule les (xi − yi ) pour chaque
′
individu.
sujet 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
xi 12 30 27 9 20 3 12 15 5 10 23 34 23 10 17
yi 80 99 90 75 92 76 93 82 76 85 74 100 92 97 94
′
rang xi 6,5 14 13 3 10 1 6,5 8 2 4,5 11,5 15 11,5 4,5 9
′
rang yi 5 14 8 2 9,5 3,5 11 6 3,5 7 1 15 9,5 13 12
′ 2
(xi − yi )
′
2,25 0 25 1 0,25 6,25 20,25 4 2,25 6,25 110,25 0 4 72,25 9
Table 2.1 – Calcul des rangs pour le coefficient de Spearman
Une fois remplie la table, on calcule rs (X; Y ) ≈ 1 − (6 × 2 .25 +0 +25 +1 +0 .25 +⋅⋅⋅+9
15 (152 −1)
) ≃ 0,53.
Interprétation
1. Le coefficient de corrélation de Spearman est compris entre −1 et +1.
2. On dira qu’on a une corrélation très forte (positive ou négative) si ∣rs (X; Y )∣ ⩾ 0,75.
Dans ce cas, cela ne dit pas la nature précise du lien entre les deux variables (il peut être
linéaire, ou bien donné par une fonction plus compliquée), mais
(a) Si r est positif, le lien entre les variables X et Y signifie que Y augmente quand X
augmente.
(b) Si r est négatif, le lien entre les variables X et Y signifie que Y diminue quand X
augmente.
2.4 Droites de régression

D’après ce qui précède, nous avons obtenu une corrélation linéaire assez importante de 0,6
entre le stress et les symptômes psychologiques. Si l’on souhaite prédire une variable à partir
d’une autre, on peut alors rechercher une relation linéaire entre les variables.
Dans le cas présent, deux situations peuvent apparaı̂tre :
1. On peut essayer de déterminer les symptômes attendus chez un patient étant son niveau
de stress. Dans ce cas on cherche une droite qui exprime Y en fonction de X, et que l’on
va noter DY∣X .
2. On peut aussi se trouver dans la situation contraire où l’on observe des symptômes chez
un patient, et on cherche à en déduire son niveau de stress. Dans ce cas on cherche une
droite qui exprime Y en fonction de X, et que l’on va noter DX∣Y .
On peut calculer, dans chacune de ces deux situations la droite qui passe “le plus près
2
possible” des points , et elle est donnée par les formules suivante :
• Droite DY∣X (détermination de Y en fonction de X) :
Cov(X; Y ) s(Y )
DY∣X ∶ Y = aX + b où a = = r(X; Y ) × , et b = m(Y ) − a ⋅ m(X)
V (X) s(X)
• Droite DX∣Y (détermination de X en fonction de Y ) :
Cov(X; Y ) s(X)
= r(X; Y ) × , et b = m(X) − a ⋅ m(Y )
′ ′ ′ ′ ′
DX∣Y ∶ X = a Y + b où a =
V (Y ) s(Y )
Remarque : Le cas échéant, le fait que le coefficient de corrélation soit proche de 1 (ou de
−1) se caractérise par le fait que ces deux droites soient assez proches l’une de l’autre.
Par exemple, on considère un individu dont le stress est de 20, et on souhaite estimer ses
Cov(X;Y )
symptômes. On calcule donc l’équation de la droite DX∣Y : on pose a = V ar(X) ≃ 47,667
79,56
≃ 0,599
et b = m(Y ) − a m(X) ≃ 87 − 0,599 × 16,667 ≃ 77,016.
On obtient donc l’équation de la droite DY ∣X ∶ Y = 0,599 X + 77.
Pour un niveau de stress x = 20, on s’attend donc à des symptômes y = 0,599 × 20 + 77 ≃ 89.
2. Mathématiquement, la définition de “le plus près possible” ne sera pas la même dans ces deux situations :
dans le premier cas, on mesures les distances verticalement, tandis que dans le deuxième cas on les mesure
horizontalement. C’est pourquoi on trouve deux droites d’équations distinctes.

Cours Probabilité Statistiques-2

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Probabilité Statistiques-2

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Probabilités-Statistiques

1.1 Calcul de probabilités

1.1.1 Vocabulaire lié aux probabilités

1.1.2 Probabilité définie sur un univers

P2 : Pour tout événement A,

p(A) s’appelle la probabilité de A.

Solution : p({2}) = p({4}) = p({6}) = x

p({1}) + p({2}) + p({3}) + p({4}) + p({5}) + p({6}) = 1

3 Dr BAGRE Remi Guillaume

4 Dr BAGRE Remi Guillaume

Solution : Soit Ω l’univers associée à ce tirage, les boules étant indiscernables au

1.1.3 Probabilités conditionnelles

5 Dr BAGRE Remi Guillaume

Solution : Composition d’un jeu de 32 cartes : 8 trêfles, 8 carreaux, 8 coeurs, 8

6 Dr BAGRE Remi Guillaume

Formules des probabilités totales et théorème de Bayes

Solution : Soit Ω l’univers associé aux tirages. B1 et B2 forment une partition de Ω.

P (A1 )P (B|A1 ) 0.3 × 0.2

7 Dr BAGRE Remi Guillaume

P (A2 )P (B|A2 ) 0.7 × 0.01

1.1.4 Schéma de Bernouilli

8 Dr BAGRE Remi Guillaume

2.1 Définition et loi d’une variable aléatoire

2.2 Fonction de répartition

Propriétés 2.1 La fonction de répartition satisfait les propriétés suivantes :

Propriétés 2.2 Soit X une variable aléatoire de fonction de répartition F , alors :

2.3 Variables aléatoires discrètes

L’espérance satisfait les propriétés suivantes

1. (Linéarité). Si X et Y deux variables aléatoires définies sur Ω, si a, b sont deux

10 Dr BAGRE Remi Guillaume

• Cas où l’espace des états est quelconque et la variable aléatoire discrète

– La variable aléatoire discrète X est dite intégrable, si la série de terme général

11 Dr BAGRE Remi Guillaume

2.3.2 Inégalité de Markov et de Bienaymé Tchebychev

Dénomination Loi E(X) V ar(X)

2.4 Variables aléatoires continues

La fonction f est alors appelée densité de la loi de probabilité de X.

Propriétés 2.4 On a les propriétés suivantes :

12 Dr BAGRE Remi Guillaume

2.4.3 Exemples de variables aléatoires à densité

X ,→ Exp(λ) =⇒ ∀ x ∈ R, f (x) = λ exp(−λx)1[0,+∞[ (x)

13 Dr BAGRE Remi Guillaume

Couple de variables aléatoires

3.1 Couple de variables aléatoires discret

Proposition 3.1 (Définitions)

1. Loi des vecteurs aléatoires

P ({Z = (X, Y )}) = P ({X = x} ∩ {Y = y}) = P (X = x; Y = y)

2. Lois marginales d’un couple aléatoire. Connaissant la loi du couple aléatoire Z =

3. Loi Conditionnelle. La loi conditionnelle de Y sachant que X prend la valeur x, est

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )

Propriétés 3.1 Soient X, Y deux variables aléatoires discrètes, de carré intégrable.

3. La variance et la covariance sont reliées par l’égalité :

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X; Y )

4. La covariance vérifie l’inégalité :

3.1.1 Variables aléatoires indépendantes

Proposition 3.2 Soient X et Y deux variables aléatoires discrètes de carré intégrable.

3.2 Couple de variables aléatoires continues

15 Dr BAGRE Remi Guillaume

16 Dr BAGRE Remi Guillaume

Statistique descriptive à une variable

Remarques importantes On utilise souvent et notamment en sciences humaine les notions

1.2 Présentation des variables statistiques

On a noté r le nombre de modalités possibles de la variable x étudiée.

Définition 1.2.2. Fréquences relatives.