Académique Documents
Professionnel Documents
Culture Documents
U : 2022-2023
Méthodes Statistiques :
Terminologie :
➢ Population : Ensemble que l'on observe et qui sera soumis à une analyse statistique.
Chaque élément de cet ensemble est un individu ou unité statistique.
Exemple : La population Tunisienne, le groupe LGLSI2 de la fsg ...
➢ Échantillon : C'est un sous ensemble de la population considérée. Le nombre d'individus
dans l’échantillon est la taille de l'échantillon.
➢ Caractère : C'est la propriété ou l'aspect singulier que l'on se propose d'observer dans la
population ou l'échantillon. Un caractère qui fait le sujet d'une étude porte aussi le nom de
variable statistique
Exemple : la couleur, le sexe, le poids, l'âge, la marque, l'espèce, le prix, la surface ...
➢ Modalités : Les formes que prend le caractère.
Exemple : masculin, féminin ...
1 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Modalité : 𝑥𝑖 7 8 9 10 11 12 Total
Effectif : 𝑛𝑖 1 3 4 7 3 2 𝑛 = 𝑛1 + ⋯ + 𝑛6 = 20
Fréquence : 𝑓𝑖 0.05 0.15 0.2 0.35 0.15 0.1 𝑓1 + ⋯ + 𝑓6 = 1
2 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Exemple :
1. Les notes sur 20 obtenus lors d'un devoir de probabilités et statistiques dans une
classe de la FSG.
Modalité : 𝑥𝑖 7 8 9 10 11 12
Effectif : 𝑛𝑖 1 3 4 7 3 2
EC 1 4 8 15 18 20
Fréquence : 𝑓𝑖 0.05 0.15 0.2 0.35 0.15 0.1
FC 0.05 0.2 0.4 0.75 0.9 1
FD 1 0.95 0.8 0.6 0.25 0.1
Dans le cas des caractères continus, les valeurs sont mises en classes [𝑥𝑖 , 𝑥𝑖+1 [ .
Leurs valeurs extrêmes sont appelées bornes.
L’amplitude de la classe ∆ = borne supérieure - la borne inférieure.
𝑥𝑖 +𝑥𝑖+1
Le point central est le milieu de la classe est 𝑐𝑖 = .
2
𝑓
En cas de classes d’amplitudes différentes, la densité de fréquence ∆𝑖 permet de comparer les
𝑖
effectifs ou les fréquences d’une classe à l’autre.
Exemple : Temps passé devant les écrans par 36 étudiants pendant une certaine journée.
Classe [𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[
Amplitude ∆𝑖 15 15 30 60 60
Centre 𝑐𝑖 7.5 22.5 45 90 150
Effectif 𝑛𝑖 7 5 8 12 4
𝑛𝑖
Densité d'effectif 0.466 0.333 0.266 0.2 0.06
∆𝑖
3 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Remarque : Pour dresser le tableau statistique d'une variable quantitative continue, on pourra
suivre les étapes suivantes :
i. Déterminer 𝑝 le nombre de classes à considérer dans l’étude. Pour 𝑛 l’effectif de la
population ou de l’échantillon, on peut le calculer selon l’une des deux règles suivantes :
• Règle de Sturge : 𝑃 = 1 + 3.3 ∗ log10 𝑛.
• Règle de Yule : 𝑃 = 2.5 ∗ √𝑛 .
4
Consommation
Effectifs 𝑛𝑖 Fréquences 𝑓𝑖 FC
en litre
0.2
[5.11, 5.31] 4 0.2
]5.31, 5.51] 0.15
3 0.35
0.3
]5.51, 5.71] 6 0.65
0.15
]5.71, 5.91] 3 0.8
Total 20 1
4 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Exemple (caractère qualitatif) : Pour un groupe de 15 étudiants, on a observé les valeurs des
variables : Couleur des Yeux, Sexe, Mention au Bac .
5 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Un caractère quantitatif continu est représenté à l’aide d’un histogramme composé de rectangles
ayant comme base l’intervalle de classe et comme hauteur la densité d’effectif ou de fréquence.
Exemple :
Classe [𝑥𝑖 , 𝑥𝑖+1 [ [500, 700[ [700, 900[ [900, 1100[ [1100, 1300]
fréquence 𝑓𝑖 0.21 0.34 0.25 0.2
0.4
0.3
Fréquence
0.2
0.1
0
500 700 900 1100 1300
6 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
0.35
0.3
0.25
Fréquence
0.2
0.15
0.1
0.05
0
5.11 5.31 5.51 5.71 5.91 6.11
Remarque : Si les classes ne sont pas de même amplitude, on doit obligatoirement corriger les
effectifs et les fréquences (c’est à dire rendre les classes de même amplitude on prendra la plus
petite amplitude) avant de :
• Construire l’histogramme.
• Construire le polygône des fréquences.
• Déterminer la classes modale.
Exemple : Temps passé devant les écrans par 36 étudiants pendant une certaine journée.
Classe [𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[
Amplitude ∆𝑖 15 15 30 60 60
Effectif 𝑛𝑖 7 5 8 12 4
Les classes ne sont pas de même amplitude, il faut donc corriger les données, la plus petite
amplitude est 𝑎 = 15.
Classe [𝑥𝑖 , 𝑥𝑖+1 [ Effectif corrigé
[0, 15[ 7
[15, 30[ 5
[30, 45[ 4
[45, 60[ 4
[60, 75[ 3
[75, 90[ 3
[90, 105[ 3
[105, 120[ 3
[120, 135[ 1
[135, 150[ 1
[150, 165[ 1
[165, 180[ 1
7 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Effectifs
4
0
0 15 30 45 60 75 90 105 120 135 150 165 180
La fonction cumulative souvent notée par 𝐹, est la fonction qui associe à tout nombre réel 𝑡, la
proportion 𝐹(𝑡), des individus pour lesquels on a observé une valeur de la variable plus petite ou
égale à 𝑡.
Remarque : Les fréquences cumulées et la fonction cumulative ne sont pas définies pour les
caractères qualitatifs nominaux.
1.2
Fonction Cumulative pour la Fonction Cumulative pour la
variable note variable consomation en litre
1 1.2
0.8 1
0.8
0.6
0.6
0.4
0.4
0.2 0.2
0
0
4.91 5.11 5.31 5.51 5.71 5.91 6.11 6.31
6 7 8 9 10 11 12 13 14
8 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
La Médiane (𝑀𝑒) : C'est la valeur de la variable qui permet de scinder la population étudiée
en deux sous-populations de même effectif.
Plus précisément, il y a autant d’individus pour lesquels on a observé une valeur supérieure à
𝑀𝑒 que d’individus pour lesquels on a observé une valeur inférieure à 𝑀𝑒.
La médiane est alors la valeur de la variable à laquelle est associée une fréquence cumulée de
50%.
Données brutes : On considère la série ordonnée : 𝑥1 ≤ 𝑥2 ≤ . . . ≤ 𝑥𝑛 .
• Si 𝑛 est impair : 𝑀𝑒 = 𝑥𝑛+1 .
2
1
• Si 𝑛 est pair : 𝑀𝑒 = 2 (𝑥𝑛 + 𝑥𝑛+2 ).
2 2
Exemple : On considère les séries statistiques suivantes
6, 6, 6, 8, 9, 9, 𝟏𝟐
⏟ , 13, 13, 13, 17, 17, 17
𝑀𝑒
L'effectif total est impair (𝑛 = 13) : la médiane est 𝑀𝑒 = 𝑥7 = 12.
7, 7, 8, 9, 10,11
⏟ , 11, 14, 16, 16
𝑀𝑒
𝑥5 +𝑥6 10+11
L'effectif total est pair (𝑛 = 10) : la médiane est 𝑀𝑒 = = = 10.5.
2 2
Données classées dans un tableau :
𝑥𝑖
10 20 30 40 50 60
𝑥𝑖
𝑛𝑖
3 8 4 9 3 3
𝑛𝑖
C
3 11 15 24 27 30
EC
𝑥𝑖
10 20 30 40 50 60
𝑥𝑖
𝑛𝑖
4 9 5 8 3 4
𝑛𝑖
C
4 13 18 26 29 33
EC
𝑛+1
On a 𝑛 = 33, donc 𝑛 est impair d’où = 17 et 𝑀𝑒 = 𝑥17 = 30 car le premier effectif cumulé
2
supérieur ou égal à 17 est 18 et 𝑥18 = 30.
9 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Exemple : Les notes sur 20 obtenus lors d'un devoir de probabilités et statistiques dans une classe
de la FSG.
Modalité : 𝑥𝑖 7 8 9 10 11 12
Effectif : 𝑛𝑖 1 3 4 7 3 2
EC 1 4 8 15 18 20
Les quantiles :
➢ Les quartiles sont les valeurs de la variable qui partagent la population en 4 groupes
de même effectif. 𝑄3 − 𝑄1 est dit l'écart inter-quartile.
➢ Les déciles sont les valeurs de la variable qui partagent la population en 10 groupes
de même effectif.
➢ Les centiles sont les valeurs de la variable qui partagent la population en 100 groupes
de même effectif.
Exemple :
Données brutes : On considère les séries statistiques suivantes
6, 6, 𝟔,
⏟ 𝟖 , 9, 9, 𝟏𝟐
⏟ , 13, 13, 𝟏𝟑,
⏟ 𝟏𝟕 , 17, 17
⏟ 𝑸𝟏 𝑸𝟐 =𝑴𝒆 ⏟ 𝑄3
𝑆1 𝑆2
𝑛−1 12 𝑛1
On a 𝑛1 = = = 6, donc 𝑛1 est pair d’où = 3 et on a
2 2 2
𝑥3 +𝑥4 6+8 𝑥3 +𝑥4 13+17
𝑄1 = 𝑀𝑒(𝑆1 ) = = = 7, 𝑄2 = 𝑀𝑒 = 12 et 𝑄3 = 𝑀𝑒(𝑆2 ) = = = 15.
2 2 2 2
7, 7, ⏟
𝟖 , 9, 10 , 11, 11, 𝟏𝟒
⏟ , 16, 16
⏟ 𝑸𝟏 ⏟ 𝑸𝟑
𝑆1 𝑆2
𝑛 10 𝑛1 +1
On a 𝑛1 = = = 5, donc 𝑛1 est impair d’où = 3 et on a
2 2 2
𝑄1 = 𝑀𝑒(𝑆1 ) = 𝑥3 = 8, 𝑄2 = 𝑀𝑒 = 10.5 et 𝑄3 = 𝑀𝑒(𝑆2 ) = 𝑥3 = 14.
10 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
𝑥𝑖 𝑥𝑖 60 On a 𝑛1 =
𝑛−1
=
32
= 16, donc 𝑛1 est pair d’où
𝑛1
= 8 et on a
10 20 30 30 40 50 2 2 2
𝑥𝑖 𝑥𝑖 𝑥8 +𝑥9 20+20
𝑄1 = 𝑀𝑒(𝑆1 ) = = = 20
2 2
𝑛𝑖 𝑛𝑖 𝑄2 = 𝑀𝑒 = 30
4 9 3 1 9 3 3
𝑛𝑖 𝑛𝑖 𝑥8 +𝑥9 40+40
𝑄3 = 𝑀𝑒(𝑆2 ) = = = 40.
2 2
C C
4 13 16 1 10 13 16
EC EC
Exemple : Les notes sur 20 obtenus lors d'un devoir de probabilités et statistiques dans une classe
de la FSG.
𝑥𝑖 7 8 9 10 𝑥𝑖 10 11 12
𝑛𝑖 1 3 4 2 𝑛𝑖 5 3 2
EC 1 4 8 10 EC 5 8 10
𝑛 20 𝑛1
On a 𝑛1 = = = 10, donc 𝑛1 est pair d’où = 5 et on a
2 2 2
𝑥5 +𝑥6 9+9 𝑥5 +𝑥6 10+11
𝑄1 = 𝑀𝑒(𝑆1 ) = = = 9, 𝑄2 = 𝑀𝑒 = 10 et 𝑄3 = 𝑀𝑒(𝑆2 ) = = = 10.5.
2 2 2 2
Diagramme en boîtes :
Remarque : Quand la variable est continue, le calcul se fait par approximation : on traite les
variables par interpolation linéaire comme si les effectifs étaient uniformément répartis à
l’intérieur d’une classe.
11 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Exemple :
1. Soit la variable suivante :
Classe [𝑥𝑖 , 𝑥𝑖+1 [ [500, 700[ [700, 900[ [900, 1100[ [1100, 1300]
fréquence 𝑓𝑖 0.21 0.34 0.25 0.2
La fréquence maximale est 0.34, donc la classe modale est [700, 900[. On a
𝑓i − 𝑓i+1
𝑀𝑜𝑑𝑒 = xi+1 − a ∗
(𝑓𝑖 − 𝑓𝑖+1 ) + (𝑓𝑖 − 𝑓𝑖−1 )
où xi+1 est la borne supérieure de la classe modale, 𝑎 l’amplitude commune à toutes les classes,
𝑓𝑖 la fréquence de la classe modale, 𝑓𝑖−1 la fréquence de la classe qui précède la classe modale et
𝑓𝑖+1 la fréquence de la classe qui suit la classe modale.
Application numérique : 𝑥𝑖+1 = 900, 𝑎 = 200, 𝑓𝑖 = 0.34, 𝑓𝑖−1 = 0.21 et 𝑓𝑖+1 = 0.25 , on a
0.34 − 0.25
𝑀𝑜𝑑𝑒 = 900 − a ∗ = 818.1818182
(0.34 − 0.25) + (0.34 − 0.21)
Total 20 1
12 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
2. Temps passé devant les écrans par 36 étudiants pendant une certaine journée.
[𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[
𝑓𝑖 0.194 0.140 0.222 0.333 0.111
FC 0.194 0.334 0.556 0.889 1
Des techniques similaires à celles utilisées pour déterminer la médiane dans le cas continue
permettent de déterminer les quartiles.
• Pour le premier quartile
𝑥𝑖 < 𝑄1 ≤ 𝑥𝑖+1 0.25−𝐹(𝑥𝑖 )
{ et 𝑄1 = 𝑥𝑖 + (𝑥𝑖+1 − 𝑥𝑖 )
𝐹(𝑥𝑖 ) < 0.25 ≤ 𝐹(𝑥𝑖+1 ) 𝐹(𝑥𝑖+1 )−𝐹(𝑥𝑖 )
• Pour le troisième quartile
𝑥𝑖 < 𝑄3 ≤ 𝑥𝑖+1 0.75−𝐹(𝑥𝑖 )
{ et 𝑄3 = 𝑥𝑖 + (𝑥𝑖+1 − 𝑥𝑖 )
𝐹(𝑥𝑖 ) < 0.75 ≤ 𝐹(𝑥𝑖+1 ) 𝐹(𝑥𝑖+1 )−𝐹(𝑥𝑖 )
Exemple :
1. Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle.
On a 𝑄1 ∈]5.31,5.51] et 𝑄3 ∈]5.71, 5.91] avec
0.25 − 0.2
𝑄1 = 5.31 + 0.2 ∗ = 5.376
0.35 − 0.2
0.75 − 0.65
𝑄3 = 5.71 + 0.2 ∗ = 5.84
0.8 − 0.65
13 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
2. Temps passé devant les écrans par 36 étudiants pendant une certaine journée.
On a 𝑄1 ∈ [15,30[ et 𝑄3 ∈ [60, 120[ avec
0.25 − 0.194
𝑄1 = 15 + 15 ∗ = 21
0.334 − 0.194
0.75 − 0.556
𝑄3 = 60 + 60 ∗ = 94.95
0.889 − 0.556
La Moyenne :
• Données brutes :
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
• Données groupées pour caractère discret :
𝑟 𝑟
1
𝑥̅ = ∑ 𝑛𝑖 𝑥𝑖 = ∑ 𝑓𝑖 𝑥𝑖
𝑛
𝑖=1 𝑖=1
14 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Autrement,
Modalité : 𝑥𝑖 7 8 9 10 11 12 Total
Effectif : 𝑛𝑖 1 3 4 7 3 2 𝑛 = 𝑛1 + ⋯ + 𝑛6 = 20
6
𝑛𝑖 𝑥𝑖 7 24 36 70 33 24 ∑ 𝑛𝑖 𝑥𝑖 = 194
𝑖=1
Fréquence : 𝑓1 + ⋯ + 𝑓6 = 1
0.05 0.15 0.2 0.35 0.15 0.1
𝑓𝑖
1 ∗ 7 + 3 ∗ 8 + 4 ∗ 9 + 7 ∗ 10 + 3 ∗ 11 + 2 ∗ 12
𝑥̅ =
20
= 0.05 ∗ 7 + 0.15 ∗ 8 + 0.2 ∗ 9 + 0.35 ∗ 10 + 0.15 ∗ 11 + 0.1 ∗ 12 = 9.7.
Classe [𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[ Total
Centre 𝑐𝑖 7.5 22.5 45 90 150 -
5
Effectif 𝑛𝑖 7 5 8 12 4 𝑛=∑ 𝑛𝑖 = 36
𝑖=1
Classe [𝑥𝑖 , 𝑥𝑖+1 [ [500, 700[ [700, 900[ [900, 1100[ [1100, 1300] Total
Remarque :
• La médiane n’est pas influencée par les valeurs extrêmes de la variable mais elle se prête
mal aux calculs statistiques.
• La moyenne est facile à calculer mais elle est fortement influencée par les valeurs
extrêmes.
• La somme des écarts à la moyenne est nulle :
15 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
∑(𝑥𝑖 − 𝑥̅ ) = 0
𝑖=1
L’étendue : On appelle étendue, la différence entre la plus grande et la plus petite modalité
du caractère.
L'Ecart type : 𝑠 Il mesure l’écart entre les données et leur moyenne.
Modalité : 𝑥𝑖 7 8 9 10 11 12 Total
Effectif : 𝑛𝑖 1 3 4 7 3 2 𝑛 = 𝑛1 + ⋯ + 𝑛6 = 20
6
𝑛𝑖 𝑥𝑖2 49 192 324 700 363 288 ∑ 𝑛𝑖 𝑥𝑖2 = 1916
𝑖=1
On a
1 ∗ 72 + 3 ∗ 82 + 4 ∗ 92 + 7 ∗ 102 + 3 ∗ 112 + 2 ∗ 122
𝑠2 = − 𝑥̅ 2
20
1916
= − 9.72 = 1.71
20
D'où 𝑠 = √𝑠 2 = 1.308
16 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
Classe [𝑥𝑖 , 𝑥𝑖+1 [ [0, 15[ [15, 30[ [30, 60[ [60, 120[ [120, 180[ Total
Centre 𝑐𝑖 7.5 22.5 45 90 150 -
5
Effectif 𝑛𝑖 7 5 8 12 4 𝑛=∑ 𝑛𝑖 = 36
𝑖=1
Dans cette partie, consacrée à l'étude simultanée de deux variables quantitatives, tableau à deux
entrées, nous allons ainsi introduire le graphique appelé nuage de points et les notions de
covariance, de coefficient de corrélation linéaire et de régression linéaire.
Une étude simultanée sur deux variables quantitatives 𝑋 et 𝑌 sur une population de n individus a
donné les différents points de mesures :
On représente une distribution statistique à deux caractères quantitatifs par l’ensemble des points
𝐴𝑖 , de coordonnées (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1 ··· 𝑛, chaque individu correspond à un point du plan.
La représentation graphique du nuage de points est essentielle pour déterminer s’il existe ou non
une relation entre les variables 𝑋 et 𝑌.
17 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑦𝑖 105
155 60 180 75 100
162 61 175 76 95
90
157 64 173 78 85
poids
80
170 67 175 80 75
164 68 179 85 70
65
162 69 175 90 60
55
169 70 180 96 50
170 70 185 96 150 155 160 165 170 175 180 185 190 195
178 72 189 98 taille
173 73 187 101
Les variables 𝑋 et 𝑌 peuvent être analysées séparément. On peut calculer tous les paramètres
dont les moyennes et les variances :
𝑛 𝑛
1 1
𝑥̅ = ∑ 𝑥𝑖 , 𝑠𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛 𝑛
𝑖=1 𝑖=1
𝑛 𝑛
1 1
𝑦̅ = ∑ 𝑦𝑖 , 𝑠𝑦2 = ∑(𝑦𝑖 − 𝑦̅)2
𝑛 𝑛
𝑖=1 𝑖=1
Le point 𝐺 de coordonnées (𝑥̅ , 𝑦̅) est appelé le point moyen du nuage de points.
Ajustement linéaire
L’objectif est de mettre en évidence l’existence d’une relation entre deux variables quantitatives
(continues ou discrètes). On cherche un modèle de la forme : 𝑌 = 𝑎𝑋 + 𝑏 + 𝜀 où
18 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
En pratique si |𝜌𝑥𝑦 | est proche de 1, on dit qu’il y a corrélation linéaire entre les variables 𝑋 et 𝑌.
La corrélation est d’autant plus forte que |𝜌𝑥𝑦 | est proche de 1.
19 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖2 𝑦𝑖2
155 60 9300 24025 3600
162 61 9882 26244 3721
157 64 10048 24649 4096
170 67 11390 28900 4489
164 68 11152 26896 4624
162 69 11178 26244 4761
169 70 11830 28561 4900
170 70 11900 28900 4900
178 72 12816 31684 5184
173 73 12629 29929 5329
180 75 13500 32400 5625
175 76 13300 30625 5776
173 78 13494 29929 6084
175 80 14000 30625 6400
179 85 15215 32041 7225
175 90 15750 30625 8100
180 96 17280 32400 9216
185 96 17760 34225 9216
189 98 18522 35721 9604
187 101 18887 34969 10201
3458 1549 269833 599592 123051
3458 1549
𝑥̅ = = 172.9, 𝑦̅ == 77,45
20 20
599592 123051
𝑠𝑥2 = − 172.92 = 85.19, 𝑠𝑦2 = − 77.452 = 154.0475
20 20
269833 100.545
𝑠𝑥𝑦 = − 172.9 ∗ 77.45 = 100.545, 𝜌𝑥𝑦 = = 0.88
20 √85.19 ∗ 154.0475
Le coefficient de corrélation étant proche de 1 on peut conclure que le poids augmente en même
temps que la taille.
Droite de régression
Si 𝜌𝑥𝑦 est proche de 1 (|𝜌𝑥𝑦 | > 0.8) et si l’examen du nuage de points indique qu’on peut
supposer une relation de type linéaire entre 𝑋 et 𝑌 , alors on cherche à déterminer les réels 𝑎 et 𝑏
de la droite 𝑌 = 𝑎 𝑋 + 𝑏 telle que la distance entre cette droite et chaque point du nuage soit la
plus petite possible.
La méthode des moindres carrés propose cette notion de proximité entre la droite et le nuage des
points. elle consiste à minimiser la fonction
𝑛
20 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
𝑠𝑥𝑦
𝑎̂ =
{ 𝑠𝑥2
𝑏̂ = 𝑦̅ − 𝑎̂𝑥̅
Remarque : La droite de régression 𝑦 = 𝑎̂ 𝑥 + 𝑏̂ passe par le point moyen 𝐺(𝑥̅ , 𝑦̅).
Equation de la variance
• On appelle somme des carrés totale la quantité positive : 𝑆𝑇 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = 𝑛𝑠𝑦2 .
• On appelle somme des carrés de la régression la quantité positive : 𝑆𝑅 = ∑𝑛𝑖=1(𝑦𝑖∗ − 𝑦̅)2 .
• On appelle somme des carrés résiduelle la quantité positive : 𝑆𝐸 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖∗ )2.
• On appelle équation de la variance : 𝑆𝑇 = 𝑆𝑅 + 𝑆𝐸 .
En effet
𝑛 𝑛
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
Montrons que ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖∗ )(𝑦𝑖∗ − 𝑦̅) = 0. En remplaçant 𝑦𝑖∗ par 𝑎̂ 𝑥𝑖 + 𝑏̂, on a
𝑛 𝑛
21 JMAEI ASMA
Cours de Statistiques Descriptives
Faculté des Sciences de Gabès LGLSI2 A.U : 2022-2023
𝑖=1 𝑖=1
𝑠𝑥𝑦
et en remplaçant 𝑎̂ par , on trouve
𝑠𝑥2
2 2
2
𝑛𝑠𝑥𝑦 𝑠𝑥𝑦
𝑎̂ 𝑛𝑠𝑥𝑦 − 𝑎̂ 𝑛𝑠𝑥2 = 2 − 4 𝑛𝑠𝑥2 = 0
𝑠𝑥 𝑠𝑥
2
𝑆 ∑𝑛 ∗
𝑖=1(𝑦𝑖 −𝑦
̅)
• On appelle coefficient de détermination la quantité positive : 𝑅 2 = 𝑆𝑅 = ∑𝑛 ̅)2
𝑇 𝑖=1(𝑦𝑖 −𝑦
On a 0 ≤ 𝑅 2 ≤ 1.
En effet 0 ≤ 𝑆𝑅 ≤ 𝑆𝑅 + 𝑆𝐸 = 𝑆𝑇 . En divisant le tout par 𝑆𝑇 , on a le résultat.
80
75
70
• Somme des carrés résiduelle : 𝑆𝐸 = 707.597.
65
60
• Coefficient de détermination : 𝑅 2 = 0.77.
55
50
150 155 160 165 170 175 180 185 190 195
taille
22 JMAEI ASMA
Cours de Statistiques Descriptives