Vous êtes sur la page 1sur 22

Faculté des Sciences de Gabès LGLSI2 A.

U : 2022-2023

Chp 1 : Statistiques Descriptives


I. Introduction
La statistique descriptive est un ensemble de méthodes qui permettent de récolter des données,
de les synthétiser, de les représenter et de les résumer à l’aide de certaines caractéristiques
appelées paramètres statistiques. La statistique descriptive a pour objet alors de fournir, à l’aide
de représentations graphiques ou à l’aide d’un nombre limité de valeurs, une visualisation ou une
description simple et aussi complète que possible d’un phénomène.

Méthodes Statistiques :

➢ On collecte des données.


➢ On trie les données que l’on organise en tableaux, diagrammes ...
➢ On interprète les résultats.

Terminologie :

➢ Population : Ensemble que l'on observe et qui sera soumis à une analyse statistique.
Chaque élément de cet ensemble est un individu ou unité statistique.
Exemple : La population Tunisienne, le groupe LGLSI2 de la fsg ...
➢ Échantillon : C'est un sous ensemble de la population considérée. Le nombre d'individus
dans l’échantillon est la taille de l'échantillon.
➢ Caractère : C'est la propriété ou l'aspect singulier que l'on se propose d'observer dans la
population ou l'échantillon. Un caractère qui fait le sujet d'une étude porte aussi le nom de
variable statistique
Exemple : la couleur, le sexe, le poids, l'âge, la marque, l'espèce, le prix, la surface ...
➢ Modalités : Les formes que prend le caractère.
Exemple : masculin, féminin ...

Différents types de variables statistiques :

➢ Variable quantitative : La variable peut être exprimée numériquement. Dans ce cas,


elle peut être discrète ou continue.
• Elle est discrète si elle ne prend que des valeurs isolées les unes des autres.
Exemple : nombre d'enfants d'une famille.
• Elle est dite continue lorsqu'elle peut prendre toutes les valeurs d'un intervalle
donné.
Exemple : le poid, l'âge ...

1 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

➢ Variable qualitative : La variable ne se prête pas à des valeurs numériques. Dans ce


cas, elle peut être nominale ou ordinale.
• Elle est nominale si ses modalités sont exprimées par des noms et non hiérarchisées.
Exemple : Couleur des yeux, Nationalité ...
• Elle est dite ordinale si elle traduit le degré d’un état sans que ce degré ne puisse être
défini par un nombre.
Exemple : Mention : Passable, Assez bien, Bien, Très Bien.

II. Collecte des données


Exemple : Les notes sur 20 obtenus lors d'un devoir de probabilités et statistiques dans une
classe de la FSG sont les suivantes :
10, 8, 11, 9, 12, 10, 8, 10, 7, 9, 10, 11, 12, 10, 8, 9, 10, 9, 10, 11.

Tableaux statistiques : On appelle tableau statistique un tableau dont la première colonne


comporte l’ensemble des r observations distinctes de la variable 𝑋 (modalités) rangées par
ordre croissant et non répétées ; nous les noterons 𝑥𝑖 ; 𝑖 = 1, … , 𝑟. Dans une seconde
colonne, on dispose, en face de chaque valeur 𝑥𝑖 , le nombre de réplications qui lui sont
associées. Ces réplications sont appelées effectifs et notées 𝑛𝑖 . On utilise également les
𝑛
fréquences 𝑓𝑖 = 𝑖 .
𝑛
Dans l’exemple précédant, les modalités sont 7, 8, 9, 10, 11 et 12 (𝑛 = 20 𝑒𝑡 𝑟 = 6).

Modalité : 𝑥𝑖 7 8 9 10 11 12 Total
Effectif : 𝑛𝑖 1 3 4 7 3 2 𝑛 = 𝑛1 + ⋯ + 𝑛6 = 20
Fréquence : 𝑓𝑖 0.05 0.15 0.2 0.35 0.15 0.1 𝑓1 + ⋯ + 𝑓6 = 1

L’effectif cumulé EC d’une modalité 𝑥𝑖 est le nombre d’individus de la population


présentant une modalité d’indice inférieur ou égal à 𝑖.
La fréquence cumulée croissantes FC d’une modalité 𝑥𝑖 est la propotion d’individus de la
population présentant une modalité d’indice inférieure ou égale à 𝑖.
La fréquence cumulée décroissantes FD d’une modalité 𝑥𝑖 est la propotion d’individus de
la population présentant une modalité d’indice supérieure ou égale à 𝑖.

2 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Exemple :
1. Les notes sur 20 obtenus lors d'un devoir de probabilités et statistiques dans une
classe de la FSG.
Modalité : 𝑥𝑖 7 8 9 10 11 12
Effectif : 𝑛𝑖 1 3 4 7 3 2
EC 1 4 8 15 18 20
Fréquence : 𝑓𝑖 0.05 0.15 0.2 0.35 0.15 0.1
FC 0.05 0.2 0.4 0.75 0.9 1
FD 1 0.95 0.8 0.6 0.25 0.1

2. Les performances en saut en hauteur (en cm) de 100 athlètes sont :


Modalité : 𝑥𝑖 191 194 197 200 203 Total
Effectif : 𝑛𝑖 6 17 41 27 9 100
EC 6 23 64 91 100 -
Fréquence : 𝑓𝑖 0.06 0.17 0.41 0.27 0.09 1
FC 0.06 0.23 0.64 0.91 1 -
FD 1 0.94 0.77 0.36 0.09 -

Dans le cas des caractères continus, les valeurs sont mises en classes [𝑥𝑖 , 𝑥𝑖+1 [ .
Leurs valeurs extrêmes sont appelées bornes.
L’amplitude de la classe ∆ = borne supérieure - la borne inférieure.
𝑥𝑖 +𝑥𝑖+1
Le point central est le milieu de la classe est 𝑐𝑖 = .
2
𝑓
En cas de classes d’amplitudes différentes, la densité de fréquence ∆𝑖 permet de comparer les
𝑖
effectifs ou les fréquences d’une classe à l’autre.

Exemple : Temps passé devant les écrans par 36 étudiants pendant une certaine journée.

Classe [𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[
Amplitude ∆𝑖 15 15 30 60 60
Centre 𝑐𝑖 7.5 22.5 45 90 150
Effectif 𝑛𝑖 7 5 8 12 4
𝑛𝑖
Densité d'effectif 0.466 0.333 0.266 0.2 0.06
∆𝑖

Fréquence 𝑓𝑖 0.194 0.140 0.222 0.333 0.111


𝑓𝑖
Densité de fréquence 0.013 0.009 0.007 0.005 0.001
∆𝑖

3 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Remarque : Pour dresser le tableau statistique d'une variable quantitative continue, on pourra
suivre les étapes suivantes :
i. Déterminer 𝑝 le nombre de classes à considérer dans l’étude. Pour 𝑛 l’effectif de la
population ou de l’échantillon, on peut le calculer selon l’une des deux règles suivantes :
• Règle de Sturge : 𝑃 = 1 + 3.3 ∗ log10 𝑛.
• Règle de Yule : 𝑃 = 2.5 ∗ √𝑛 .
4

Avec 𝑝 = l’entier naturel le plus proche de 𝑃.


ii. Calculer l’étendue 𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 .
iii. Diviser l’étendue 𝑒 par 𝑝 le nombre de classes, pour avoir une idée sur la valeur de
𝑒
l’amplitude des classes que l’on notera 𝑎. on a, 𝑎 = 𝑝.
iv. On construit alors les classes
[𝑥𝑚𝑖𝑛 , 𝑥𝑚𝑖𝑛 + a], ]𝑥𝑚𝑖𝑛 + a, 𝑥𝑚𝑖𝑛 + 2a], ··· , ]𝑥𝑚𝑖𝑛 + (p − 1)a, 𝑥𝑚𝑖𝑛 + pa = 𝑥𝑚𝑎𝑥 ]
v. S’assurer que chaque observation appartient à une et une seule classe.

Exemple : Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle :


6.11, 6.05, 5.98, 5.77, 5.18, 5.66, 5.28, 5.11, 5.58, 5.49, 5.62, 5.33, 5.55, 5.45, 5.76, 5.23,
5.57, 5.52, 5.8, 6.0.
Pour la méthode de Sturge 𝑃 = 1 + 3.3 ∗ log10 20 = 5.293.
4
Pour la méthode de Yule 𝑃 = 2.5 ∗ √20 = 5.287.
D’où le nombre de classe est 𝑝 = 5.
1
Nous avons 𝑥𝑚𝑖𝑛 = 5.11 et 𝑥𝑚𝑎𝑥 = 6.11, d’ou 𝑒 = 1 et 𝑎 = 5 = 0.2.

Consommation
Effectifs 𝑛𝑖 Fréquences 𝑓𝑖 FC
en litre
0.2
[5.11, 5.31] 4 0.2
]5.31, 5.51] 0.15
3 0.35
0.3
]5.51, 5.71] 6 0.65
0.15
]5.71, 5.91] 3 0.8

]5.91, 6.11] 4 0.2 1

Total 20 1

4 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Exemple (caractère qualitatif) : Pour un groupe de 15 étudiants, on a observé les valeurs des
variables : Couleur des Yeux, Sexe, Mention au Bac .

Couleur des Mention au Couleur des Bleu Marron Noir Vert


Sex
Yeux Bac Yeux
V H P Effectif : 𝑛𝑖 4 3 4 4
B H AB Fréquence : 𝑓𝑖 0.267 0.2 0.267 0.267
N H P
M H P Sex H F
B F AB Effectif : 𝑛𝑖 8 7
V F P Fréquence : 𝑓𝑖 0.533 0.467
N H B
M H AB Mention P AB B TB
B F P Effectif : 𝑛𝑖 8 4 2 1
V F B Fréquence : 𝑓𝑖 0.533 0.267 0.133 0.067
N F P
B F TB
V H AB
N H P
M F P

Représentation graphique des données :


Les modalités d’un caractère qualitatif ne sont pas ordonnées, on les représente généralement
par des graphiques utilisant des surfaces.
Diagramme sectoriel : la surface attribuée à chaque catégorie est proportionnelle à
l’importance de la catégorie dans l’ensemble de la population étudiée. on associe à chaque
cathégorie l’angle 𝜃𝑖 = 360 × 𝑓𝑖 .
Diagramme à barres : On trace des barres dont les hauteurs sont proportionnelles aux
effectifs associés (ou encore aux fréquences).

Mentions Couleur des Yeux


5
6.7%
P 4 Vert
13.3% AB 3 Noir
26.7% 53.3% B 2 Marron
TB 1 Bleu

5 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Un caractère quantitatif discret est représenté par un diagramme en bâtons. On trace


parallèlement à l’axe des ordonnées, en regard des 𝑥𝑖 qui sont portés en abscisse, un segment de
longueur proportionnel à 𝑓𝑖 ou 𝑛𝑖 .
0.4 0.45
0.35 0.4
0.3 0.35
0.25 0.3
0.25
0.2
0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
7 8 9 10 11 12 191 194 197 200 203
Diagramme en bâtons pour la
variable note Diagramme en bâtons pour la
variable saut

Un caractère quantitatif continu est représenté à l’aide d’un histogramme composé de rectangles
ayant comme base l’intervalle de classe et comme hauteur la densité d’effectif ou de fréquence.

Exemple :

1. Soit la variable suivante :

Classe [𝑥𝑖 , 𝑥𝑖+1 [ [500, 700[ [700, 900[ [900, 1100[ [1100, 1300]
fréquence 𝑓𝑖 0.21 0.34 0.25 0.2

0.4

0.3
Fréquence

0.2

0.1

0
500 700 900 1100 1300

6 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

2. Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle.

0.35
0.3
0.25

Fréquence
0.2
0.15
0.1
0.05
0
5.11 5.31 5.51 5.71 5.91 6.11

Remarque : Si les classes ne sont pas de même amplitude, on doit obligatoirement corriger les
effectifs et les fréquences (c’est à dire rendre les classes de même amplitude on prendra la plus
petite amplitude) avant de :
• Construire l’histogramme.
• Construire le polygône des fréquences.
• Déterminer la classes modale.
Exemple : Temps passé devant les écrans par 36 étudiants pendant une certaine journée.

Classe [𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[
Amplitude ∆𝑖 15 15 30 60 60
Effectif 𝑛𝑖 7 5 8 12 4

Les classes ne sont pas de même amplitude, il faut donc corriger les données, la plus petite
amplitude est 𝑎 = 15.
Classe [𝑥𝑖 , 𝑥𝑖+1 [ Effectif corrigé
[0, 15[ 7
[15, 30[ 5
[30, 45[ 4
[45, 60[ 4
[60, 75[ 3
[75, 90[ 3
[90, 105[ 3
[105, 120[ 3
[120, 135[ 1
[135, 150[ 1
[150, 165[ 1
[165, 180[ 1

7 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Effectifs
4

0
0 15 30 45 60 75 90 105 120 135 150 165 180

La fonction cumulative souvent notée par 𝐹, est la fonction qui associe à tout nombre réel 𝑡, la
proportion 𝐹(𝑡), des individus pour lesquels on a observé une valeur de la variable plus petite ou
égale à 𝑡.
Remarque : Les fréquences cumulées et la fonction cumulative ne sont pas définies pour les
caractères qualitatifs nominaux.

1.2
Fonction Cumulative pour la Fonction Cumulative pour la
variable note variable consomation en litre
1 1.2
0.8 1
0.8
0.6
0.6
0.4
0.4
0.2 0.2
0
0
4.91 5.11 5.31 5.51 5.71 5.91 6.11 6.31
6 7 8 9 10 11 12 13 14

III. Indicateurs statistiques


Le Mode : C’est la modalité qui admet l’effectif le plus élevé. Une série peut etre unimodale
(un seul mode) ou plurimodale (plusqu’un mode).
Exemple : Les notes sur 20 obtenus lors d'un devoir de probabilités et statistiques dans une
classe de la FSG.
Modalité : 𝑥𝑖 7 8 9 10 11 12
Effectif : 𝑛𝑖 1 3 4 7 3 2
Ici le mode correspond au note 10.

8 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

La Médiane (𝑀𝑒) : C'est la valeur de la variable qui permet de scinder la population étudiée
en deux sous-populations de même effectif.
Plus précisément, il y a autant d’individus pour lesquels on a observé une valeur supérieure à
𝑀𝑒 que d’individus pour lesquels on a observé une valeur inférieure à 𝑀𝑒.
La médiane est alors la valeur de la variable à laquelle est associée une fréquence cumulée de
50%.
Données brutes : On considère la série ordonnée : 𝑥1 ≤ 𝑥2 ≤ . . . ≤ 𝑥𝑛 .
• Si 𝑛 est impair : 𝑀𝑒 = 𝑥𝑛+1 .
2
1
• Si 𝑛 est pair : 𝑀𝑒 = 2 (𝑥𝑛 + 𝑥𝑛+2 ).
2 2
Exemple : On considère les séries statistiques suivantes
6, 6, 6, 8, 9, 9, 𝟏𝟐
⏟ , 13, 13, 13, 17, 17, 17
𝑀𝑒
L'effectif total est impair (𝑛 = 13) : la médiane est 𝑀𝑒 = 𝑥7 = 12.
7, 7, 8, 9, 10,11
⏟ , 11, 14, 16, 16
𝑀𝑒
𝑥5 +𝑥6 10+11
L'effectif total est pair (𝑛 = 10) : la médiane est 𝑀𝑒 = = = 10.5.
2 2
Données classées dans un tableau :

𝑥𝑖
10 20 30 40 50 60
𝑥𝑖
𝑛𝑖
3 8 4 9 3 3
𝑛𝑖
C
3 11 15 24 27 30
EC

𝑛 𝑥15 +𝑥16 30+40


On a 𝑛 = 30, donc 𝑛 est pair d’où 2 = 15 et 𝑀𝑒 = = = 35.
2 2
𝑥16 = 40 car le premier effectif cumulé supérieur ou égal à 16 est 24 et 𝑥24 = 40.

𝑥𝑖
10 20 30 40 50 60
𝑥𝑖
𝑛𝑖
4 9 5 8 3 4
𝑛𝑖
C
4 13 18 26 29 33
EC

𝑛+1
On a 𝑛 = 33, donc 𝑛 est impair d’où = 17 et 𝑀𝑒 = 𝑥17 = 30 car le premier effectif cumulé
2
supérieur ou égal à 17 est 18 et 𝑥18 = 30.

9 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Exemple : Les notes sur 20 obtenus lors d'un devoir de probabilités et statistiques dans une classe
de la FSG.
Modalité : 𝑥𝑖 7 8 9 10 11 12
Effectif : 𝑛𝑖 1 3 4 7 3 2
EC 1 4 8 15 18 20

𝑛 𝑥10 +𝑥11 10+10


On a 𝑛 = 20, donc 𝑛 est pair d’où 2 = 10 et 𝑀𝑒 = = = 10.
2 2
𝑥10 = 10 car le premier effectif cumulé supérieur ou égal à 10 est 15 et 𝑥15 = 10.

Les quantiles :
➢ Les quartiles sont les valeurs de la variable qui partagent la population en 4 groupes
de même effectif. 𝑄3 − 𝑄1 est dit l'écart inter-quartile.
➢ Les déciles sont les valeurs de la variable qui partagent la population en 10 groupes
de même effectif.
➢ Les centiles sont les valeurs de la variable qui partagent la population en 100 groupes
de même effectif.
Exemple :
Données brutes : On considère les séries statistiques suivantes
6, 6, 𝟔,
⏟ 𝟖 , 9, 9, 𝟏𝟐
⏟ , 13, 13, 𝟏𝟑,
⏟ 𝟏𝟕 , 17, 17
⏟ 𝑸𝟏 𝑸𝟐 =𝑴𝒆 ⏟ 𝑄3
𝑆1 𝑆2
𝑛−1 12 𝑛1
On a 𝑛1 = = = 6, donc 𝑛1 est pair d’où = 3 et on a
2 2 2
𝑥3 +𝑥4 6+8 𝑥3 +𝑥4 13+17
𝑄1 = 𝑀𝑒(𝑆1 ) = = = 7, 𝑄2 = 𝑀𝑒 = 12 et 𝑄3 = 𝑀𝑒(𝑆2 ) = = = 15.
2 2 2 2

7, 7, ⏟
𝟖 , 9, 10 , 11, 11, 𝟏𝟒
⏟ , 16, 16
⏟ 𝑸𝟏 ⏟ 𝑸𝟑
𝑆1 𝑆2
𝑛 10 𝑛1 +1
On a 𝑛1 = = = 5, donc 𝑛1 est impair d’où = 3 et on a
2 2 2
𝑄1 = 𝑀𝑒(𝑆1 ) = 𝑥3 = 8, 𝑄2 = 𝑀𝑒 = 10.5 et 𝑄3 = 𝑀𝑒(𝑆2 ) = 𝑥3 = 14.

Données classées dans un tableau :


𝑛 30 𝑛1 +1
𝑥𝑖 𝑥𝑖 On a 𝑛1 = = = 15, donc 𝑛1 est impair d’où = 8 et on a
2 2 2
10 20 30 40 50 60
𝑥𝑖 𝑥𝑖 𝑄1 = 𝑀𝑒(𝑆1 ) = 𝑥8 = 20,
𝑄2 = 𝑀𝑒 = 35 e
𝑛𝑖 𝑛𝑖 𝑄3 = 𝑀𝑒(𝑆2 ) = 𝑥8 = 40.
3 8 4 9 3 3
𝑛𝑖 𝑛𝑖
C
3 11 15 9 12 15
EC EC

10 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

𝑥𝑖 𝑥𝑖 60 On a 𝑛1 =
𝑛−1
=
32
= 16, donc 𝑛1 est pair d’où
𝑛1
= 8 et on a
10 20 30 30 40 50 2 2 2
𝑥𝑖 𝑥𝑖 𝑥8 +𝑥9 20+20
𝑄1 = 𝑀𝑒(𝑆1 ) = = = 20
2 2
𝑛𝑖 𝑛𝑖 𝑄2 = 𝑀𝑒 = 30
4 9 3 1 9 3 3
𝑛𝑖 𝑛𝑖 𝑥8 +𝑥9 40+40
𝑄3 = 𝑀𝑒(𝑆2 ) = = = 40.
2 2
C C
4 13 16 1 10 13 16
EC EC

Exemple : Les notes sur 20 obtenus lors d'un devoir de probabilités et statistiques dans une classe
de la FSG.
𝑥𝑖 7 8 9 10 𝑥𝑖 10 11 12
𝑛𝑖 1 3 4 2 𝑛𝑖 5 3 2
EC 1 4 8 10 EC 5 8 10

𝑛 20 𝑛1
On a 𝑛1 = = = 10, donc 𝑛1 est pair d’où = 5 et on a
2 2 2
𝑥5 +𝑥6 9+9 𝑥5 +𝑥6 10+11
𝑄1 = 𝑀𝑒(𝑆1 ) = = = 9, 𝑄2 = 𝑀𝑒 = 10 et 𝑄3 = 𝑀𝑒(𝑆2 ) = = = 10.5.
2 2 2 2
Diagramme en boîtes :

Diagramme en boîte pour la variable note

Remarque : Quand la variable est continue, le calcul se fait par approximation : on traite les
variables par interpolation linéaire comme si les effectifs étaient uniformément répartis à
l’intérieur d’une classe.

11 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Exemple :
1. Soit la variable suivante :

Classe [𝑥𝑖 , 𝑥𝑖+1 [ [500, 700[ [700, 900[ [900, 1100[ [1100, 1300]
fréquence 𝑓𝑖 0.21 0.34 0.25 0.2

La fréquence maximale est 0.34, donc la classe modale est [700, 900[. On a
𝑓i − 𝑓i+1
𝑀𝑜𝑑𝑒 = xi+1 − a ∗
(𝑓𝑖 − 𝑓𝑖+1 ) + (𝑓𝑖 − 𝑓𝑖−1 )
où xi+1 est la borne supérieure de la classe modale, 𝑎 l’amplitude commune à toutes les classes,
𝑓𝑖 la fréquence de la classe modale, 𝑓𝑖−1 la fréquence de la classe qui précède la classe modale et
𝑓𝑖+1 la fréquence de la classe qui suit la classe modale.
Application numérique : 𝑥𝑖+1 = 900, 𝑎 = 200, 𝑓𝑖 = 0.34, 𝑓𝑖−1 = 0.21 et 𝑓𝑖+1 = 0.25 , on a
0.34 − 0.25
𝑀𝑜𝑑𝑒 = 900 − a ∗ = 818.1818182
(0.34 − 0.25) + (0.34 − 0.21)

2. Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle :


Consommation
Effectifs 𝑛𝑖 Fréquences 𝑓𝑖 FC
en litre
0.2
[5.11, 5.31] 4 0.2
]5.31, 5.51] 0.15
3 0.35
0.3
]5.51, 5.71] 6 0.65
0.15
]5.71, 5.91] 3 0.8

]5.91, 6.11] 4 0.2 1

Total 20 1

L'effectif maximale est 6, donc la classe modale est ]5.51, 5.71] . On a


𝑥𝑖+1 = 5.71, 𝑎 = 0.2 , 𝑛𝑖 = 6, 𝑛𝑖−1 = 3 et 𝑛𝑖+1 = 3
6−3
𝑀𝑜𝑑𝑒 = 5.71 − 0.2 ∗ = 5.61
(6 − 3) + (6 − 3)
La médiane est la solution de l'équation 𝐹(𝑥) = 0, 5. Pour la déterminer, on commence par
déterminer la 𝐜𝐥𝐚𝐬𝐬𝐞 𝐦é𝐝𝐢𝐚𝐧𝐞 ]𝐱 𝐢 , 𝑥𝑖+1 ] qui vérifie
𝐹(𝑥𝑖 ) ≤ 0, 5 et 𝐹(𝑥𝑖+1 ) ≥ 0, 5

12 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

La médiane 𝑀𝑒 (qui appartient à la classe médiane) est


0.5 − 𝐹(𝑥𝑖 )
𝑀𝑒 = 𝑥𝑖 + (𝑥𝑖+1 − 𝑥𝑖 )
𝐹(𝑥𝑖+1 ) − 𝐹(𝑥𝑖 )
Exemple :
1. Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle. La classe
médiane est ]5.51, 5.71] et on a
0.5 − 0.35
𝑀𝑒 = 5.51 + 0.2 ∗ = 5.54
0.65 − 0.35

2. Temps passé devant les écrans par 36 étudiants pendant une certaine journée.

[𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[
𝑓𝑖 0.194 0.140 0.222 0.333 0.111
FC 0.194 0.334 0.556 0.889 1

La classe médiane est [30, 60[ et on a


0.5 − 0.334
𝑀𝑒 = 30 + 30 ∗ = 52.432
0.556 − 0.334

Des techniques similaires à celles utilisées pour déterminer la médiane dans le cas continue
permettent de déterminer les quartiles.
• Pour le premier quartile
𝑥𝑖 < 𝑄1 ≤ 𝑥𝑖+1 0.25−𝐹(𝑥𝑖 )
{ et 𝑄1 = 𝑥𝑖 + (𝑥𝑖+1 − 𝑥𝑖 )
𝐹(𝑥𝑖 ) < 0.25 ≤ 𝐹(𝑥𝑖+1 ) 𝐹(𝑥𝑖+1 )−𝐹(𝑥𝑖 )
• Pour le troisième quartile
𝑥𝑖 < 𝑄3 ≤ 𝑥𝑖+1 0.75−𝐹(𝑥𝑖 )
{ et 𝑄3 = 𝑥𝑖 + (𝑥𝑖+1 − 𝑥𝑖 )
𝐹(𝑥𝑖 ) < 0.75 ≤ 𝐹(𝑥𝑖+1 ) 𝐹(𝑥𝑖+1 )−𝐹(𝑥𝑖 )
Exemple :
1. Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle.
On a 𝑄1 ∈]5.31,5.51] et 𝑄3 ∈]5.71, 5.91] avec
0.25 − 0.2
𝑄1 = 5.31 + 0.2 ∗ = 5.376
0.35 − 0.2
0.75 − 0.65
𝑄3 = 5.71 + 0.2 ∗ = 5.84
0.8 − 0.65

13 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

2. Temps passé devant les écrans par 36 étudiants pendant une certaine journée.
On a 𝑄1 ∈ [15,30[ et 𝑄3 ∈ [60, 120[ avec
0.25 − 0.194
𝑄1 = 15 + 15 ∗ = 21
0.334 − 0.194
0.75 − 0.556
𝑄3 = 60 + 60 ∗ = 94.95
0.889 − 0.556

Diagramme en boîte pour la variable temps

La Moyenne :

• Données brutes :
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
• Données groupées pour caractère discret :
𝑟 𝑟
1
𝑥̅ = ∑ 𝑛𝑖 𝑥𝑖 = ∑ 𝑓𝑖 𝑥𝑖
𝑛
𝑖=1 𝑖=1

• Données classées pour caractère continus : Il suffit de remplacer 𝑥𝑖 par 𝑐𝑖


𝑟 𝑟
1
𝑥̅ = ∑ 𝑛𝑖 𝑐𝑖 = ∑ 𝑓𝑖 𝑐𝑖
𝑛
𝑖=1 𝑖=1
Exemple :
- On considère la serie suivante
10, 8, 11, 9, 12, 10, 8, 10, 7, 9, 10, 11, 12, 10, 8, 9, 10, 9, 10, 11.
On a
10+8+11+9+12+10+8+10+7+9+10+11+12+10+8+9+10+9+10+11
𝑥̅ = = 9.7.
20

14 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Autrement,
Modalité : 𝑥𝑖 7 8 9 10 11 12 Total
Effectif : 𝑛𝑖 1 3 4 7 3 2 𝑛 = 𝑛1 + ⋯ + 𝑛6 = 20
6
𝑛𝑖 𝑥𝑖 7 24 36 70 33 24 ∑ 𝑛𝑖 𝑥𝑖 = 194
𝑖=1
Fréquence : 𝑓1 + ⋯ + 𝑓6 = 1
0.05 0.15 0.2 0.35 0.15 0.1
𝑓𝑖

1 ∗ 7 + 3 ∗ 8 + 4 ∗ 9 + 7 ∗ 10 + 3 ∗ 11 + 2 ∗ 12
𝑥̅ =
20
= 0.05 ∗ 7 + 0.15 ∗ 8 + 0.2 ∗ 9 + 0.35 ∗ 10 + 0.15 ∗ 11 + 0.1 ∗ 12 = 9.7.

Classe [𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[ Total
Centre 𝑐𝑖 7.5 22.5 45 90 150 -
5
Effectif 𝑛𝑖 7 5 8 12 4 𝑛=∑ 𝑛𝑖 = 36
𝑖=1

𝑛𝑖 𝑐𝑖 52.5 112.5 360 1080 600 ∑5𝑖=1 𝑛𝑖 𝑐𝑖 =2205

7 ∗ 7.5 + 5 ∗ 22.5 + 8 ∗ 45 + 12 ∗ 90 + 4 ∗ 150


𝑥̅ = = 61.25
36

Classe [𝑥𝑖 , 𝑥𝑖+1 [ [500, 700[ [700, 900[ [900, 1100[ [1100, 1300] Total

𝑐𝑖 600 800 1000 1200 -

fréquence 𝑓𝑖 0.21 0.34 0.25 0.2 1


5
𝑓𝑖 𝑐𝑖 126 272 250 240 ∑ 𝑓𝑖 𝑐𝑖 = 800
𝑖=1

𝑥̅ = 0.21 ∗ 600 + 0.34 ∗ 800 + 0.25 ∗ 1000 + 0.2 ∗ 1200 = 888

Remarque :
• La médiane n’est pas influencée par les valeurs extrêmes de la variable mais elle se prête
mal aux calculs statistiques.
• La moyenne est facile à calculer mais elle est fortement influencée par les valeurs
extrêmes.
• La somme des écarts à la moyenne est nulle :
15 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

∑(𝑥𝑖 − 𝑥̅ ) = 0
𝑖=1
L’étendue : On appelle étendue, la différence entre la plus grande et la plus petite modalité
du caractère.
L'Ecart type : 𝑠 Il mesure l’écart entre les données et leur moyenne.

La Variance : 𝑠 2 le carré de l'écart type.


• Données brutes :
𝑛 𝑛
1 1
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = ∑ 𝑥𝑖2 − 𝑥̅ 2
2
𝑛 𝑛
𝑖=1 𝑖=1
• Données groupées pour caractère discret :
𝑟 𝑟
1 1
𝑠 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = ∑ 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2
2
𝑛 𝑛
𝑖=1 𝑖=1
• Données classées pour caractère continus :
𝑟 𝑟
1 1
𝑠 = ∑ 𝑛𝑖 (𝑐𝑖 − 𝑥̅ )2 = ∑ 𝑛𝑖 𝑐𝑖2 − 𝑥̅ 2
2
𝑛 𝑛
𝑖=1 𝑖=1
Exemple :

Modalité : 𝑥𝑖 7 8 9 10 11 12 Total
Effectif : 𝑛𝑖 1 3 4 7 3 2 𝑛 = 𝑛1 + ⋯ + 𝑛6 = 20
6
𝑛𝑖 𝑥𝑖2 49 192 324 700 363 288 ∑ 𝑛𝑖 𝑥𝑖2 = 1916
𝑖=1

On a
1 ∗ 72 + 3 ∗ 82 + 4 ∗ 92 + 7 ∗ 102 + 3 ∗ 112 + 2 ∗ 122
𝑠2 = − 𝑥̅ 2
20
1916
= − 9.72 = 1.71
20
D'où 𝑠 = √𝑠 2 = 1.308

16 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Classe [𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[ Total
Centre 𝑐𝑖 7.5 22.5 45 90 150 -
5
Effectif 𝑛𝑖 7 5 8 12 4 𝑛=∑ 𝑛𝑖 = 36
𝑖=1

𝑛𝑖 𝑐𝑖2 393.75 2531.25 16200 97200 90000 ∑5𝑖=1 𝑛𝑖 𝑐𝑖2 =206325


On a
7 ∗ 7.52 + 5 ∗ 22.52 + 8 ∗ 452 + 12 ∗ 902 + 4 ∗ 1502
𝑠2 = − 𝑥̅ 2
36
206325
= − 61.252 = 1979.6875
36
D'où 𝑠 = √𝑠 2 = 44.49

IV. Couples de variables statistiques et corrélation


L’étude statistique peut se porter sur deux caractères présents dans tous les membres de la
population. Ces deux caractères sont représentés par deux variables 𝑋 et 𝑌 . On peut utiliser
l’information dont on dispose pour étudier la liaison qui existe éventuellement entre ces deux
caractères.

Dans cette partie, consacrée à l'étude simultanée de deux variables quantitatives, tableau à deux
entrées, nous allons ainsi introduire le graphique appelé nuage de points et les notions de
covariance, de coefficient de corrélation linéaire et de régression linéaire.

Représentation graphique du nuage de points

Une étude simultanée sur deux variables quantitatives 𝑋 et 𝑌 sur une population de n individus a
donné les différents points de mesures :

(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), (𝑥3 , 𝑦3 ),··· , (𝑥𝑛 , 𝑦𝑛 )

On représente une distribution statistique à deux caractères quantitatifs par l’ensemble des points
𝐴𝑖 , de coordonnées (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1 ··· 𝑛, chaque individu correspond à un point du plan.

On appelle nuage de points l’ensemble des points 𝐴𝑖 , de coordonnées (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1,··· , 𝑛.

La représentation graphique du nuage de points est essentielle pour déterminer s’il existe ou non
une relation entre les variables 𝑋 et 𝑌.

17 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Exemple : On mesure la taille 𝑋 et le poids 𝑌 et de 20 individus.

𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑦𝑖 105
155 60 180 75 100
162 61 175 76 95
90
157 64 173 78 85

poids
80
170 67 175 80 75
164 68 179 85 70
65
162 69 175 90 60
55
169 70 180 96 50
170 70 185 96 150 155 160 165 170 175 180 185 190 195
178 72 189 98 taille
173 73 187 101

Les variables 𝑋 et 𝑌 peuvent être analysées séparément. On peut calculer tous les paramètres
dont les moyennes et les variances :
𝑛 𝑛
1 1
𝑥̅ = ∑ 𝑥𝑖 , 𝑠𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛 𝑛
𝑖=1 𝑖=1

𝑛 𝑛
1 1
𝑦̅ = ∑ 𝑦𝑖 , 𝑠𝑦2 = ∑(𝑦𝑖 − 𝑦̅)2
𝑛 𝑛
𝑖=1 𝑖=1

Le point 𝐺 de coordonnées (𝑥̅ , 𝑦̅) est appelé le point moyen du nuage de points.

Ajustement linéaire

L’objectif est de mettre en évidence l’existence d’une relation entre deux variables quantitatives
(continues ou discrètes). On cherche un modèle de la forme : 𝑌 = 𝑎𝑋 + 𝑏 + 𝜀 où

• 𝑌 est la variable dépendante.


• 𝑋 est la variable explicative.
• 𝜀 est l’erreur introduite par le modèle.
• 𝑎 et 𝑏 sont les paramètres du modèle avec 𝑎 est la pente de la droite d’ajustement et 𝑏 est
l’ordonné à l’origine.
• 𝑦𝑖∗ = 𝑎𝑥𝑖 + 𝑏 ; 𝑖 = 1,··· , 𝑛 les valeurs ajustées.
• 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖∗ ; 𝑖 = 1,··· , 𝑛 les résidus.

18 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Covariance et coefficient de corrélation


La covariance des variables X et Y s’écrit :
𝑛 𝑛
1 1
𝑠𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑛 𝑛
𝑖=1 𝑖=1
La covariance dépend des unités de mesures dans lesquelles sont exprimées les variables.
De même, on définit le coefficient de corrélation :
𝑠𝑥𝑦
𝜌𝑥𝑦 = .
𝑠𝑥 𝑠𝑦
C'est un nombre sans dimension destiné à mesurer l’intensité de la liaison entre les variations de
la variable 𝑋 et celles de 𝑌 .
Remarque :
• −1 ≤ 𝜌𝑥𝑦 ≤ 1.
• Si |𝜌𝑥𝑦 | = 1 les points (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1 ··· , 𝑛 sont alignés, alors il existe une liaison
linéaire entre 𝑋 et 𝑌 c’est à dire, il existe deux réels 𝑎 et 𝑏 tel que 𝑌 = 𝑎 𝑋 + 𝑏.
• Si 𝜌𝑥𝑦 = 0 les variables 𝑋 et 𝑌 sont non corrélées linéairement c’est à dire il n’existe pas
de liaison linéaire entre 𝑋 et 𝑌 .
• Si 𝜌𝑥𝑦 > 0, les points sont alignés le long d’une droite croissante.
• Si 𝜌𝑥𝑦 < 0, les points sont alignés le long d’une droite décroissante.

En pratique si |𝜌𝑥𝑦 | est proche de 1, on dit qu’il y a corrélation linéaire entre les variables 𝑋 et 𝑌.
La corrélation est d’autant plus forte que |𝜌𝑥𝑦 | est proche de 1.

19 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

Exemple : On mesure la taille 𝑋 et le poids 𝑌 et de 20 individus.

𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖2 𝑦𝑖2
155 60 9300 24025 3600
162 61 9882 26244 3721
157 64 10048 24649 4096
170 67 11390 28900 4489
164 68 11152 26896 4624
162 69 11178 26244 4761
169 70 11830 28561 4900
170 70 11900 28900 4900
178 72 12816 31684 5184
173 73 12629 29929 5329
180 75 13500 32400 5625
175 76 13300 30625 5776
173 78 13494 29929 6084
175 80 14000 30625 6400
179 85 15215 32041 7225
175 90 15750 30625 8100
180 96 17280 32400 9216
185 96 17760 34225 9216
189 98 18522 35721 9604
187 101 18887 34969 10201
3458 1549 269833 599592 123051

3458 1549
𝑥̅ = = 172.9, 𝑦̅ == 77,45
20 20
599592 123051
𝑠𝑥2 = − 172.92 = 85.19, 𝑠𝑦2 = − 77.452 = 154.0475
20 20
269833 100.545
𝑠𝑥𝑦 = − 172.9 ∗ 77.45 = 100.545, 𝜌𝑥𝑦 = = 0.88
20 √85.19 ∗ 154.0475
Le coefficient de corrélation étant proche de 1 on peut conclure que le poids augmente en même
temps que la taille.

Droite de régression
Si 𝜌𝑥𝑦 est proche de 1 (|𝜌𝑥𝑦 | > 0.8) et si l’examen du nuage de points indique qu’on peut
supposer une relation de type linéaire entre 𝑋 et 𝑌 , alors on cherche à déterminer les réels 𝑎 et 𝑏
de la droite 𝑌 = 𝑎 𝑋 + 𝑏 telle que la distance entre cette droite et chaque point du nuage soit la
plus petite possible.
La méthode des moindres carrés propose cette notion de proximité entre la droite et le nuage des
points. elle consiste à minimiser la fonction
𝑛

𝜑(𝑎, 𝑏) = ∑(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)2


𝑖=1
Si on note 𝑥̅ et 𝑦̅ les moyennes respectives de 𝑋 et 𝑌, alors le couple (𝑎̂, 𝑏̂) qui minimise la
fonction 𝜑 est

20 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

𝑠𝑥𝑦
𝑎̂ =
{ 𝑠𝑥2
𝑏̂ = 𝑦̅ − 𝑎̂𝑥̅
Remarque : La droite de régression 𝑦 = 𝑎̂ 𝑥 + 𝑏̂ passe par le point moyen 𝐺(𝑥̅ , 𝑦̅).

Résidus et valeurs ajustées


Les valeurs ajustées sont : 𝑦𝑖∗ = 𝑎̂ 𝑥𝑖 + 𝑏̂ , 𝑖 = 1,··· , 𝑛 . Ils sont les “prédictions” des 𝑦𝑖
réalisées au moyen de la variable 𝑋 et de la droite de régression de 𝑦 en 𝑥.
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées : 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖∗ .
Ils sont de moyenne nulle. En effet,
𝑛 𝑛 𝑛
1 1 1
∑ 𝑒𝑖 = ∑(𝑦𝑖 − 𝑦𝑖∗ ) = 𝑦̅ − ∑ 𝑦𝑖∗
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
et
𝑛 𝑛 𝑛
1 1 1
∑ 𝑦𝑖∗ = ∑(𝑎̂ 𝑥𝑖 + 𝑏̂ ) = 𝑎̂ ∑ 𝑥𝑖 + 𝑏̂ = 𝑎̂𝑥̅ + 𝑏̂ = 𝑦̅
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

Equation de la variance
• On appelle somme des carrés totale la quantité positive : 𝑆𝑇 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = 𝑛𝑠𝑦2 .
• On appelle somme des carrés de la régression la quantité positive : 𝑆𝑅 = ∑𝑛𝑖=1(𝑦𝑖∗ − 𝑦̅)2 .
• On appelle somme des carrés résiduelle la quantité positive : 𝑆𝐸 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖∗ )2.
• On appelle équation de la variance : 𝑆𝑇 = 𝑆𝑅 + 𝑆𝐸 .
En effet
𝑛 𝑛

𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦𝑖 − 𝑦𝑖∗ + 𝑦𝑖∗ − 𝑦̅)2


2

𝑖=1 𝑖=1
𝑛 𝑛 𝑛

= ∑(𝑦𝑖 − 𝑦𝑖∗ )2 + ∑(𝑦𝑖∗ − 𝑦̅) − 2 ∑(𝑦𝑖 − 𝑦𝑖∗ )(𝑦𝑖∗ − 𝑦̅)


2

𝑖=1 𝑖=1 𝑖=1

Montrons que ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖∗ )(𝑦𝑖∗ − 𝑦̅) = 0. En remplaçant 𝑦𝑖∗ par 𝑎̂ 𝑥𝑖 + 𝑏̂, on a
𝑛 𝑛

∑(𝑦𝑖 − 𝑦𝑖∗ )(𝑦𝑖∗ − 𝑦̅) = ∑(𝑦𝑖 − 𝑎̂ 𝑥𝑖 − 𝑏̂)(𝑎̂ 𝑥𝑖 + 𝑏̂ − 𝑦̅)


𝑖=1 𝑖=1

21 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023

en remplaçant 𝑏̂ par 𝑦̅ − 𝑎̂𝑥̅ , on obtient


𝑛 𝑛

∑(𝑦𝑖 − 𝑦𝑖∗ )(𝑦𝑖∗ − 𝑦̅) = ∑((𝑦𝑖 − 𝑦̅) − 𝑎̂ (𝑥𝑖 − 𝑥̅ ))𝑎̂ (𝑥𝑖 − 𝑥̅ )


𝑖=1 𝑖=1
𝑛 𝑛

= 𝑎̂ ∑(𝑦𝑖 − 𝑦̅)(𝑥𝑖 − 𝑥̅ ) − 𝑎̂ ∑(𝑥𝑖 − 𝑥̅ )2 = 𝑎̂ 𝑛𝑠𝑥𝑦 − 𝑎̂ 2 𝑛𝑠𝑥2


2

𝑖=1 𝑖=1

𝑠𝑥𝑦
et en remplaçant 𝑎̂ par , on trouve
𝑠𝑥2
2 2
2
𝑛𝑠𝑥𝑦 𝑠𝑥𝑦
𝑎̂ 𝑛𝑠𝑥𝑦 − 𝑎̂ 𝑛𝑠𝑥2 = 2 − 4 𝑛𝑠𝑥2 = 0
𝑠𝑥 𝑠𝑥
2
𝑆 ∑𝑛 ∗
𝑖=1(𝑦𝑖 −𝑦
̅)
• On appelle coefficient de détermination la quantité positive : 𝑅 2 = 𝑆𝑅 = ∑𝑛 ̅)2
𝑇 𝑖=1(𝑦𝑖 −𝑦
On a 0 ≤ 𝑅 2 ≤ 1.
En effet 0 ≤ 𝑆𝑅 ≤ 𝑆𝑅 + 𝑆𝐸 = 𝑆𝑇 . En divisant le tout par 𝑆𝑇 , on a le résultat.

Le coefficient de détermination 𝑅 2 nous donne le pourcentage expliqué par la régression.


Plus 𝑅² est proche de 1, plus la qualité de la prédiction par le modèle de régression linéaire est
bonne : le nuage de points est resserré autour de la droite . A l'inverse, plus 𝑅² est proche de 0,
plus la qualité de la prédiction est mauvaise. Un 𝑅² égal à 1 est synonyme de prédiction parfaite.

Exemple : On prend les variables la taille 𝑋 et le poids 𝑌 et de 20 individus. On a trouvé


𝑥̅ = 172.9, 𝑦̅ = 77,45, 𝑠𝑥2 = 85.19, 𝑠𝑦2 = 154.0475, 𝑠𝑥𝑦 = 100.545, 𝜌𝑥𝑦 = 0.88
𝜌𝑥𝑦 = 0.88 > 0.8 donc on peut approché 𝑌 par la droite 𝑎 𝑋 + 𝑏 avec
𝑠𝑥𝑦 100.545 100.545
𝑎̂ = 2 = = 1.18, 𝑏̂ = 𝑦̅ − 𝑎̂𝑥̅ = 77.45 − ∗ 172.9 = −126.614
𝑠𝑥 85.19 85.19
La droite de régression est 𝑦 = 1.18 ∗ 𝑥 − 126.614 . Elle passe par les points (0, −126.614) et
(172.9, 77.45).

105 • Somme des carrés totale: 𝑆𝑇 = 3080.95.


100
95 y = 1.180x - 126.6 • Somme des carrés de la régression la quantité
90
85 R² = 0.77 positive : 𝑆𝑅 = 2373.353.
poids

80
75
70
• Somme des carrés résiduelle : 𝑆𝐸 = 707.597.
65
60
• Coefficient de détermination : 𝑅 2 = 0.77.
55
50
150 155 160 165 170 175 180 185 190 195
taille

22 JMAEI ASMA
Cours de Statistiques Descriptives

Vous aimerez peut-être aussi