Vous êtes sur la page 1sur 30

ECOLE PRIVEE SUPERIEURE DES SCIENCES DE L’EAU

ET DE L’ENVIRONNEMENT

(Ep-2SE)

COURS DE STATISTIQUE ET ANALYSE DES DONNÉES

Chargé du cours :
AWEL IBRAHIM Harouna
Ingénieur Statisticien Économiste

ANNEE 2021-2022
Table des matières

1 Statistique descriptive univariée et bivariée 5


I Les types de variables en statistique . . . . . . . . . . . . . . . . . . . . . . . . . 5
II Statistique descriptive univariée . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.1 Caractéristiques de tendance centrale . . . . . . . . . . . . . . . . . . . . 6
La moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . . . . . 6
La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
II.2 Caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . 9
La variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
L’écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Le coefficient de variation . . . . . . . . . . . . . . . . . . . . . . . . . . 12
III Statistique descriptive bivariée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
III.1 Le modèle linéaire simple (deux variables quantitatives) . . . . . . . . . . 13
Estimation des paramètres par les Moindres Carrées Ordinaires (MCO) . 15
III.2 Test d’Indépendance du Khi2 (Cas de deux variables qualitatives) . . . . 23
Le Chi-Deux du tableau de contingence . . . . . . . . . . . . . . . . . . . 24
Le coefficient de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
III.3 Analyse de la variance ANOVA (Une variable quantitative et une variable
qualitative) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1
Liste des tableaux

1.1 Consommation d’eau des 25 ménages . . . . . . . . . . . . . . . . . . . . . . . . 7


1.2 Consommation d’eau des 25 ménages, calcul de la médiane . . . . . . . . . . . . 8
1.3 Calcul de la variance de la consommation d’eau . . . . . . . . . . . . . . . . . . 10
1.4 Consommation d’eau (m3 ) de deux groupes des ménages . . . . . . . . . . . . . 12
1.5 Consommation d’eau et revenus des ménages . . . . . . . . . . . . . . . . . . . . 14
1.6 Données fictives sur la consommation en eau et revenu des ménages . . . . . . . 21
1.7 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8 Répartition par Sexe et par Série . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.9 Tableau des effectifs théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.10 Distribution du revenu par milieu de résidence . . . . . . . . . . . . . . . . . . . 28

2
Table des figures

1.1 Nuage des points de la consommation d’eau et du revenu des ménages . . . . . . 15


1.2 Nuage des points de la consommation d’eau et du revenu des ménages avec la
droite d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3
Introduction générale

La statistique est une discipline scientifique regroupant l’ensemble des méthodes qui per-
mettent l’étude systématique par analyse et synthèse de l’information chiffrée.

Dans le cadre de ce cours, nous allons nous intéresser à la statistique descriptive, qui est
un ensemble des méthodes quantitatives permettant de résumer les caractéristiques de la dis-
tribution de la population statistique : moyenne, médiane, écart-type, dispersion, mode,
etc. en traitant dans un premier chapitre de la statistique descriptive univariée et bivariée ;
dans ce chapitre, il sera question de la description de chacun des caractères statistiques un par
un, sans prendre en compte leurs liens éventuels. Parmi les principaux caractéristiques nous
verrons la moyenne, la médiane, l’écart-type et le coefficient de variation. La statistique biva-
riée concerne le cas où deux variables sont mesurées simultanément sur les mêmes individus ;
Nous traiterons du modèle linéaire simple (lorsque les deux variables sont quantitatives), du
test d’indépendance (lorsque les deux variables sont qualitatives) et l’analyse de la variance
(lorsqu’une des variables est quantitative et l’autre qualitative).

Le deuxième chapitre traite des analyses factorielles, qui sont des méthodes d’analyse des
données qui sont utilisées lorsqu’on est en face de plusieurs 1 variables observées sur les mêmes
individus. Parmi les analyses factorielles on peut citer :
3 L’Analyse en Composantes Principales (ACP)
Cette méthode est utilisée lorsqu’on dispose de plusieurs individus décrits par plusieurs
variables quantitatives.
3 L’Analyse Factorielle des Correspondances (AFC)
L’AFC est utilisée lorsqu’on dispose des données relatives à deux variables qualitatives
sur plusieurs individus.
3 Analyse des Correspondances Multiples (ACM)
Lorsque plus de deux variables qualitatives sont observées sur les mêmes individus, on
utilise l’Analyse des Correspondances Multiples.

1. Lorsque plus de deux variables sont observées sur les mêmes individus.

4
Statistique descriptive univariée et bivariée
1
I Les types de variables en statistique
Il existe principalement deux types de variables en statistique : les variables quantitatives
et les variables qualitatives.

Une variable est quantitative si elle ne prend que des valeurs entières ou réelles, c’est une
variable qui reflète une notion de grandeur ; on dit qu’elle est quantitative discrète si elle prend
des valeurs entières par exemple : le nombre d’années d’étude après le BAC, le nombre d’enfants
à charge pour les employés d’une entreprise, le nombre d’élèves pratiquant le sport dans une
classe, la taille d’un ménage etc.
Une variable est dite quantitative continue si en plus des valeurs entières, elle peut aussi
prendre des valeurs réelles par exemple : le revenu d’un médecin, la consommation d’électricité
en KW, la consommation d’eau d’un ménage en m3 etc.

Une variable est dite qualitative si elle permet de capter des caractéristiques des individus
sur lesquels elle est observée ; ces caractéristiques sont appelées les modalités de la variable ;
lorsqu’il existe une relation d’ordre entre les modalités de la variable, elle est dite ordinale par
exemple : le type de mention obtenue par les étudiants au BAC (Passable, Assez bien, Bien,
Très bien), qualité de soins (Bonne, mauvaise, très mauvaise), type de consommation d’eau
(Faible, moyenne, élevée) etc.
Lorsqu’il n’existe pas de relation d’ordre entre les modalités de la variable, elle est dite quali-
tative nominale par exemple : Sexe (Homme, Femme), Milieu de résidence (Urbain, Rural),
Catégorie socioprofessionnelle (Manoeuvre, Ouvrier, Cadre, Ingénieur) etc.

II Statistique descriptive univariée


Cette section est consacrée à l’étude des caractéristiques de tendance centrale et de disper-
sion. Le type de variables qui seront étudiées sont les variables quantitatives.

5
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

II.1 Caractéristiques de tendance centrale


On considère une variable aléatoire 1 X observée sur n individus ; la première caractéristique
de tendance centrale de X à laquelle on va s’intéresser est la moyenne arithmétique simple.

La moyenne arithmétique

Elle est définie par le rapport entre la somme des valeurs de X sur tous les individus et
l’effectif total n. n
X
Xi
i=1
X=
n
Xi est la valeur prise par l’individu i de la variable X, i = 1, · · · , n.

Exemple
Le tableau 1.1 donne la consommation en eau de 25 ménages en m3 , calculons la consommation
moyenne de ces 25 ménages.
1. X est une variable quantitative

6
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

Tableau 1.1 – Consommation d’eau des 25 ménages


numéro du ménage Consommation d’eau (X)
1 38
2 64
3 54
4 50
5 68
6 49
7 42
8 26
9 48
10 41
11 54
12 29
13 26
14 60
15 68
16 56
17 57
18 55
19 27
20 46
21 25
22 37
23 50
24 23
25 44
X25
Somme Xi = 1137
i=1

Corrigé
On utilise la moyenne arithmétique pour calculer la consommation moyenne de ces ménages.

n
X 20
X
Xi Xi
i=1 i=1
X= =
n 20
25
X 1137
Xi = 1137 =⇒ X = = 45, 48m3
i=1
25

Interprétation :
X = 45, 48m3 , cela signifie que la consommation moyenne de ces ménages est 45, 48m3 , autre-
ment dit en moyenne chaque ménage consomme 45, 48m3 .

7
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

La médiane

La médiane est la valeur de la variable telle qu’il existe autant d’individus qui ont une valeur
inférieure et supérieure à elle. Pour calculer la médiane, on ordonne les valeurs de la variable
de la plus petite à la plus grande, la valeur de la variable qui divise la série en deux effectifs
égaux constitue la médiane.
Exemple
Reprenons l’exemple précédent sur la consommation d’eau afin de calculer la médiane.

Tableau 1.2 – Consommation d’eau des 25 ménages, calcul de la médiane


numéro Consommation d’eau (X) valeurs triées
1 38 23
2 64 25
3 54 26
4 50 26
5 68 27
6 49 29
7 42 37
8 26 38
9 48 41
10 41 42
11 54 44
12 29 46
13 26 48
14 60 49
15 68 50
16 56 50
17 57 54
18 55 54
19 27 55
20 46 56
21 25 57
22 37 60
23 50 64
24 23 68
25 44 68
X25
Somme Xi = 1137
i=1

La médiane correspondant à cette série est Me = 48.


Interprétation :
Cela signifie que 50% des ménages ont une consommation inférieure ou égale à 48 et 50% ont
une consommation d’eau supérieure à 48.

Limite de la moyenne arithmétique


La principale limite de la moyenne arithmétique est qu’elle peut ne pas refléter la réalité dans
le cas où il existe des individus qui possèdent des valeurs trop faibles et aussi certains individus
peuvent posséder des valeurs très élevées ; pour notre exemple sur la consommation d’eau des
25 ménages, il peut exister des ménages qui ont une faible consommation d’eau et aussi certains

8
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

peuvent avoir un niveau de consommation très élevé et dans ce cas, les différentes observations
vont trop s’écarter de la moyenne et finalement cette dernière n’aura aucun sens.

Une moyenne arithmétique est d’autant plus pertinente que les différentes observations
ne s’écartent pas trop de cette dernière ; raison pour laquelle après le calcul d’une moyenne
arithmétique, on doit s’intéresser à la dispersion des différentes valeurs autour de la moyenne
et l’indicateur permettant de mesurer la dispersion des valeurs d’une variable autour de sa
moyenne est la variance.

II.2 Caractéristiques de dispersion


La variance

Elle mesure la dispersion des différentes valeurs d’une variable autour de sa moyenne arith-
2
métique, elle sera notée SX et obtenue à partir de la formule suivante :
n
X 2
Xi − X
2 i=1
SX =
n

Exemple
Reprenons l’exemple précédent et calculons la variance de la variable consommation d’eau.

Corrigé
 2
Nous ajoutons au tableau précédent les colonnes Xi − X et Xi − X

9
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

Tableau 1.3 – Calcul de la variance de la consommationd’eau


2
numéro Consommation (X) Xi − X Xi − X
1 38 -7,48 55,95
2 64 18,52 342,99
3 54 8,52 72,59
4 50 4,52 20,43
5 68 22,52 507,15
6 49 3,52 12,39
7 42 -3,48 12,11
8 26 -19,48 379,47
9 48 2,52 6,35
10 41 -4,48 20,07
11 54 8,52 72,59
12 29 -16,48 271,59
13 26 -19,48 379,47
14 60 14,52 210,83
15 68 22,52 507,15
16 56 10,52 110,67
17 57 11,52 132,71
18 55 9,52 90,63
19 27 -18,48 341,51
20 46 0,52 0,27
21 25 -20,48 419,43
22 37 -8,48 71,91
23 50 4,52 20,43
24 23 -22,48 505,35
25 44 -1,48 2,19
25 25
X X 2
Somme Xi = 1137 Xi − X = 4566, 24
i=1 i=1

La variance vaut :
n 25
X 2 X 2
Xi − X Xi − X
2 i=1 i=1
SX = =
n 20
25
X 2 2 4566, 24 2
Xi − X = 4566, 24 =⇒ SX = = 182, 65 m3
i=1
25

Interprétation :
2 2
SX = 182, 65 (m3 ) , on constate que la variance de X n’est pas exprimée dans la même unité
que X, il serait mieux de déterminer une autre grandeur de dispersion exprimée dans une même
unité que X.

10
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

L’écart-type

L’écart-type de la variable X noté σX correspond à la racine carrée de la variance on a


donc : v
uX n
2
X − X
u
q u i
t
2 i=1
σ X = SX =
n
Pour l’exemple de la consommation d’eau des ménages, l’écart-type vaut :
q q
σX = SX = 182, 65 (m3 )2 = 13, 51m3
2

Interprétation :
σX = 13, 51m3 , cela signifie qu’en moyenne les observations s’écartent de 13, 51m3 par rapport
à la moyenne, autrement dit l’écart moyen entre les observations et la moyenne arithmétique
est de 13, 51m3 . L’écart-type a l’avantage d’être exprimé dans la même unité que la variable X
comparativement à la variance qui ne l’est pas.
Limite de l’écart-type
L’écart-type mesure la dispersion moyenne entre les observations et la moyenne arithmétique ;
mais il se trouve que lorsqu’on souhaite comparer la dispersion d’une variable au sein de deux
groupes différents, on sera amené à calculer l’écart-type dans chaque sous population. La limite
de cette procédure de comparaison réside dans le fait que l’écart-type peut être le même mais
les moyennes différentes.

11
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

Le coefficient de variation

Tableau 1.4 – Consommation d’eau (m3 ) de deux groupes des ménages


 2  2
X Xi − X Xi − X Y Yi − Y Yi − Y
38 -9,9 98,01 98 17,4 302,76
64 16,1 259,21 43 -37,6 1413,76
54 6,1 37,21 80 -0,6 0,36
50 2,1 4,41 71 -9,6 92,16
68 20,1 404,01 81 0,4 0,16
49 1,1 1,21 89 8,4 70,56
42 -5,9 34,81 56 -24,6 605,16
26 -21,9 479,61 53 -27,6 761,76
48 0,1 0,01 105 24,4 595,36
41 -6,9 47,61 99 18,4 338,56
54 6,1 37,21 98 17,4 302,76
29 -18,9 357,21 87 6,4 40,96
26 -21,9 479,61 101 20,4 416,16
60 12,1 146,41 105 24,4 595,36
68 20,1 404,01 86 5,4 29,16
56 8,1 65,61 66 -14,6 213,16
57 9,1 82,81 72 -8,6 73,96
55 7,1 50,41 88 7,4 54,76
27 -20,9 436,81 47 -33,6 1128,96
46 -1,9 3,61 87 6,4 40,96
20 20 20
X X  X 2
958 0 3429,8 Yi = 1612 Yi − Y = 0 Yi − Y = 7076, 8
i=1 i=1 i=1

Calculons l’écart-type de la variable X pour chaque sous population. Pour la première sous
population, on a :
20
1X 958
X= Xi = = 47, 9m3
n i=1 20
v
u 20
uX 2
u
u Xi − X r
t i=1 3429, 8 p
σX = = = 171, 49 = 13, 09m3
n 20
La moyenne au niveau de la deuxième sous population vaut :

20
X
Yi
i=1 1612
Y = = = 80, 6
20 20

12
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

Pour la deuxième sous population, l’écart-typr vaut :


v
u 20
uX 2
u
u Yi − Y r
t i=1 7076, 8 p
σY = = = 353, 84 = 18, 81m3
n 20

En récapitulant les résultats, nous avons :



X = 47, 9m3 , σX = 13, 09m3
Y = 80, 6m3 , σY = 18, 81m3

L’écart-type dans la première sous population est plus petit que celui calculé dans l’autre sous
population (σX < σY ) ; mais on ne peut pas se limiter à l’écart-type seulement car il s’agit d’un
écart par rapport à la moyenne qui peut être élevée ou faible. En rapportant chaque écart-type
à la moyenne correspondante et en faisant une comparaison on aura :

σY 18, 81m3 σX 13, 09m3


= = 23, 33% < = = 27, 33%
Y 80, 6m3 X 47, 9m3

Cela signifie qu’en réalité il y a moins de dispersion dans la deuxième sous population contrai-
rement à ce que laisse penser l’écart-type.

σX
Le rapport est appelé coefficient de variation (CV) de la variable X.
Y
σX
CV (X) =
Y
Interprétation :
Pour les calculs précédent, on dira que l’écart-type dans la deuxième sous population (σY )
s’écarte de 23,33% de la valeur de la moyenne alors que dans la première sous population, ce
dernier s’écarte de 27,33% de la valeur moyenne.
Remarque : Etant données deux sous populations, celle qui présente moins de dispersion est
celle ayant un coefficient de variation plus faible.

III Statistique descriptive bivariée


Dans cette section, on considère deux variables observées sur plusieurs individus ; ainsi les
deux variables peuvent être soient quantitatives, qualitatives, ou-bien une variable quantitative
et une variable qualitative.

III.1 Le modèle linéaire simple (deux variables quantitatives)


Lorsque les deux variables dont on souhaite étudier la relation sont quantitatives, alors on
peut utiliser le modèle linéaire simple en essayant d’expliquer une des variables en fonction de

13
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

l’autre. Par exemple, on souhaite étudier la relation entre la consommation en eau de 30 ménages
et leur revenu, c’est à dire essayer d’expliquer comment le revenu impacte la consommation
d’eau. Les données sont résumées dans le tableau 1.4.

Tableau 1.5 – Consommation d’eau et revenus des ménages


Consommation d’eau (Y ) Revenu (X)
3 5
4 6
2 2
9 8
16 16
12 13
8 6
2 1
3 1
5 7
11 13
14 14
7 7
8 8
1 1
5 5
18 17
15 16
21 22
27 28
29 29
23 25
24 28
20 23
27 30
25 20
17 22
18 15
30 31
23 26
Source : Données fictives

La première des choses à faire lorsqu’on souhaite étudier la relation entre deux variables
quantitatives, c’est de faire une représentation graphique afin de constater si les données peuvent
être ajustées par une droite ; cela signifie qu’on peut présager l’existence d’une relation linéaire
entre ces deux variables. La figure 1.1 donne le nuage des points entre la consommation en eau
et le revenu des ménages.

14
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

Figure 1.1 – Nuage des points de la consommation d’eau et du revenu des ménages

Source : Données fictives

L’analyse de la figure 1.1 montre que ces données peuvent être ajustées par une droite, donc
on peut supposer que la relation entre le revenu des ménages et la consommation en eau est
linéaire.

En notant Y la consommation en eau et X le revenu, on peut écrire la relation suivante :

Y = aX + b + ε

avec :      
Y1 X1 ε1
 .   .   . 
Y = .  .  . 
 . , X=
 . , ε=
 . 
Y30 X30 ε30
a et b sont les paramètres à estimer. Pour un ménage i, on a : Yi = aXi + b + εi

Estimation des paramètres par les Moindres Carrées Ordinaires (MCO)

Les MCO est une méthode d’estimation des paramètres qui consiste à minimiser la somme
des carrées des résidus. L’objectif des moindres carrées est donc de déterminer les paramètres
a et b pour lesquels la somme des carrées des résidus est minimale.

15
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

n
X n
X
Notons S(a, b) = ε2i = (Yi − aXi − b)2 , le problème est le suivant :
i=1 i=1

n
X
M inS(a, b) = M in (Yi − aXi − b)2
a,b a,b
i=1

Conditions du premier ordre


 n
! Xn
  ∂ X 2
 ∂S(a, b) = 0 (Yi − aXi − b) =0 −2Xi (Yi − aXi − b) = 0

 

  ∂a
 

∂a =⇒ i=1 ! =⇒ i=1
n
∂S(a, b) n
=0 ∂ X X
(Yi − aXi − b)2
  

∂b


 ∂b
 =0


 −2 (Yi − aXi − b) = 0
i=1 i=1

Xn Xn n
X n
X
2
Xi (Yi − aXi − b) = 0 X Y − a X − b Xi = 0 (1)
 
i i

 
 i
 
i=1 i=1 i=1 i=1
X n =⇒ X n X X n n
 


 (Yi − aXi − b) = 0 

 Yi − a Xi − b=0 (2)
i=1 i=1 i=1 i=1
n
X n
X n
X n
X
(2) =⇒ Yi − a Xi − nb = 0 =⇒ Yi − a Xi = nb
i=1 i=1 i=1 i=1
n n
1X 1X
b= Yi − a Xi =⇒ b = Y − aX
n i=1 n i=1

En remplaçant b par sa valeur dans l’équation (1) on aura :


n
X n
X n
X n
X n
X n
X
Xi Yi − a Xi2 −b Xi = 0 =⇒ Xi Yi − a Xi2 − Y − aX Xi = 0
i=1 i=1 i=1 i=1 i=1 i=1
Xn Xn n
X n
X
=⇒ Xi Yi − a Xi2 − Y Xi + aX Xi = 0
i=1 i=1
n n
!i=1 n
i=1
n
X X X X
=⇒ a − Xi2 + X Xi + Xi Yi − Y Xi = 0
i=1 i=1 i=1 i=1
n n
! n n
X X X X
=⇒ a Xi2 − X Xi = Xi Yi − Y Xi
i=1 i=1 i=1 i=1
Xn n
X
X i Yi − Y Xi
i=1 i=1
=⇒ a = n n
X X
Xi2 − X Xi
i=1 i=1

16
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

On sait que :  n n
1X X
X = X =⇒ Xi = nX

i

n i=1


i=1
n n
 1 X X
Y = Yi =⇒ Yi = nY


n i=1 i=1

n
X n
X n
X n
X
  
Xi Yi − Y Xi = Xi Yi − Y nX = Xi Yi − n X Y
i=1 i=1 i=1 i=1
n
X      
= Xi Yi − n X Y −n X Y +n X Y
i=1
n
X      
= Xi Yi − nX Y − X nY + n X Y
i=1
Xn n
X n
X  
= Xi Yi − Xi Y − Yi X + n X Y
i=1 i=1 i=1
n
X n
X n
X n
X  
= Xi Yi − Xi Y − Yi X + X Y
i=1 i=1 i=1 i=1
n
X  
= Xi Yi − Xi Y − Yi X + XY
i=1
Xn
  
= Xi Yi − Y − X Yi − Y
i=1
n
X  
= Yi − Y Xi − X
i=1
n
X n
X n
X  
Xi Yi − Y Xi = Xi − X Yi − Y
i=1 i=1 i=1

17
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

n n n n
X X X X 2
Xi2 Xi2 Xi2 − n X

−X Xi = − X nX =
i=1 i=1 i=1 i=1
n
X
Xi2 − X nX − X nX + X nX
  
=
i=1
n n n
X X X 2
= Xi2 −X Xi − X Xi + n X
i=1 i=1 i=1
n n n n
X X X X 2
= Xi2 − Xi X − Xi X + X
i=1 i=1 i=1 i=1
n h i
X 2
= Xi2 − Xi X − Xi X + X
i=1
n
X   
= Xi Xi − X − X Xi − X
i=1
Xn
 
= Xi − X Xi − X
i=1
n n n
X X X 2
Xi2 − X Xi = Xi − X
i=1 i=1 i=1

Donc finalement on a :
n n
X   1X  
Xi − X Yi − Y Xi − X Yi − Y
i=1
n i=1 Cov (X, Y)
a= n = n = 2
X 2 1X 2 SX
Xi − X Xi − X
i=1
n i=1

Cov (X, Y )
a= 2
, b = Y − aX
SX
Conditions du second ordre
On calcule la matrice Hessienne définie par :

∂ 2 S(a, b) ∂ 2 S(a, b)
 
2
H =  2 ∂a ∂a∂b 

∂ S(a, b) ∂ 2 S(a, b) 
∂b∂a ∂b2
 n n
∂S(a, b) X ∂ 2 S(a, b) X
= −2Xi (Yi − aXi − b) =⇒ =2 Xi2


2



 ∂a i=1
∂a i=1
 !
 2 n n
∂ S(a, b) ∂ ∂S(a, b) ∂

 X X
 ∂a∂b = ∂b ∂a = −2Xi (Yi − aXi − b) = 2 Xi = 2nX



∂b i=1 i=1
n 2 n
 ∂S(a, b) X ∂ S(a, b) ∂ ∂S(a, b) X

 = −2 (Yi − aXi − b) =⇒ = =2 Xi = 2nX
∂b ∂b∂a ∂a ∂b



 i=1 i=1
n n

∂S(a, b) X ∂ 2 S(a, b) X


−2 − −



 ∂b = (Y i aX i b) =⇒ 2
= 2 = 2n
i=1
∂b i=1

18
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

La matrice Hessienne H est donnée par :


 n
X

 2 Xi2 2nX 
H= i=1 
2nX 2n

n n n n
X 2 X 2 X X 2 2
Xi − X = Xi2 − nX =⇒ Xi2 = Xi − X + nX
i=1 i=1 i=1 i=1
n
   n
! 
X X 2 2
 2 Xi2 2nX   2 Xi − X + nX 2nX 
H= i=1  =⇒ H =  i=1 
2nX 2n 2nX 2n
 n
! 
1X 2 2

2 2
 !
2n X i − X + X 2nX 2n S X + X 2nX
H=
 n i=1 =

2nX 2n
2nX 2n
 2
 !
2
SX +X X
H = 2n
X 1
 
Cov (X, Y )
L’extremum a = 2
, b = Y − aX correspond à un minimum si la matrice Hes-
SX !
0
sienne H est définie positive. Soit h = (h1 , h2 )0 6= et q(h) la forme quadratique associée
0
à la matrice H, on a :
 2
 ! !
2
0
SX +X X h1
q(h) = h Hh = (h1 , h2 )
X 1 h2

!

2
 2
  h1
q(h) = h1 SX +X + h2 X, h1 X + h2
h2
 2

q(h) = h21 SX2
+ X + h1 h2 X + h1 h2 X + h22
2
q(h) = (h1 SX )2 + h1 X + 2h1 h2 X + h22
2
q(h) = (h1 SX )2 + h1 X + h2
2
q(h) = (h1 SX )2 + h1 X + h2 =⇒ q(h) > 0, donc la fonction S(a, b) est convexe comme elle
admet un extrémum, il s’agit d’un minimum global.
 
On notera â, b̂ l’estimateur de (a, b) avec :

 
  Cov(X, Y )
â, b̂ = 2
, Y − âX
SX

19
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

avec : n
1X  
Cov (X, Y ) = Xi − X Yi − Y
n i=1

La covariance mesure la nature de la relation entre deux variables quantitatives ; une covariance
positive signifie que les deux variables évoluent dans le même sens et inversement si la covariance
est négative, cela signifie que les deux variables évoluent en sens inverse autrement dit une
augmentation de l’une entraine une baisse de l’autre.
Limites de la covariance :
Parmi les limites de la covariance, on peut citer :
2 Problème d’échelle
La valeur de la covariance peut changer si on change d’unité de mesure ; par exemple une
variable exprimée en Kg peut faire varier considérablement la valeur de la covariance si
on l’exprime en g ;
2 Problème d’unité de mesure
Si les deux variable sont exprimées en des unités différentes, il va se poser un problème
au niveau de l’interprétation ;
2 Problème de l’intensité de la liaison
La covariance permet seulement de déterminer la nature de la liaison entre deux variables
(relation positive ou négative), or il serait intéressant de savoir s’il existe une liaison entre
deux variables, alors qu’elle est l’intensité de cette liaison.
En vue de remédier à ces insuffisances de la covariance, un indicateur de mesure de l’intensité
de la liaison entre deux variables est proposé ; il s’agit du coefficient de corrélation linéaire noté
ρ. La formule de calcul du coefficient de corrélation est donnée par :

Cov(X, Y )
ρ (X, Y ) =
SX SY

avec : v v
u n u n
u1 X 2 u1 X 2
SX = t Xi − X , SY = t Yi − Y
n i=1 n i=1

Remarque :

4 Le coefficient de corrélation est sans unité


4 Il est compris entre −1 et 1, −1 6 ρ 6 1 (La démonstration sera faite en TD)
4 Si |ρ| < 0, 5, on dit que la liaison est faible
4 Si 0, 5 6 |ρ| < 0, 7, on dit que la liaison est moyenne
4 Si |ρ| > 0, 7, on dit que la liaison est forte.
Exemple
On considère les données relatives à la consommation d’eau et du revenu des 30 ménages et on
souhaite étudier l’impact du revenu des ménages sur la consommation en eau. En notant Y la
consommation en eau et X le revenu, on souhaite déterminer la droite d’équation Y = aX + b

20
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

qui ajuste au mieux les données observées. Le tableau 1.5 donne quelques grandeurs qui seront
utiles pour le calcul des paramètres.

Tableau 1.6 – Données fictives sur la consommation en eau et revenu des ménages
  2 2
Y X Yi − Y Xi − X Xi − X Yi − Y Xi − X Yi − Y
3 5 -11,23 -9,83 110,46 96,69 126,19
4 6 -10,23 -8,83 90,39 78,03 104,72
2 2 -12,23 -12,83 156,99 164,69 149,65
9 8 -5,23 -6,83 35,76 46,69 27,39
16 16 1,77 1,17 2,06 1,36 3,12
12 13 -2,23 -1,83 4,09 3,36 4,99
8 6 -6,23 -8,83 55,06 78,03 38,85
2 1 -12,23 -13,83 169,23 191,36 149,65
3 1 -11,23 -13,83 155,39 191,36 126,19
5 7 -9,23 -7,83 72,33 61,36 85,25
11 13 -3,23 -1,83 5,93 3,36 10,45
14 14 -0,23 -0,83 0,19 0,69 0,05
7 7 -7,23 -7,83 56,66 61,36 52,32
8 8 -6,23 -6,83 42,59 46,69 38,85
1 1 -13,23 -13,83 183,06 191,36 175,12
5 5 -9,23 -9,83 90,79 96,69 85,25
18 17 3,77 2,17 8,16 4,69 14,19
15 16 0,77 1,17 0,89 1,36 0,59
21 22 6,77 7,17 48,49 51,36 45,79
27 28 12,77 13,17 168,09 173,36 162,99
29 29 14,77 14,17 209,19 200,69 218,05
23 25 8,77 10,17 89,13 103,36 76,85
24 28 9,77 13,17 128,59 173,36 95,39
20 23 5,77 8,17 47,09 66,69 33,25
27 30 12,77 15,17 193,63 230,03 162,99
25 20 10,77 5,17 55,63 26,69 115,92
17 22 2,77 7,17 19,83 51,36 7,65
18 15 3,77 0,17 0,63 0,03 14,19
30 31 15,77 16,17 254,89 261,36 248,59
23 26 8,77 11,17 97,89 124,69 76,85
427 445 2553,17 2782,17 2451,37
Source : Données fictives

On sait que les paramètres a et b sont estimés par :

Cov(X, Y )
â = 2
et b̂ = Y − âX
SX
n
1X   2553, 17
Cov (X, Y ) = Xi − X Yi − Y = = 85, 10
n i=1 30
n
2 1X 2 2782, 17
SX = Xi − X = = 92, 73
n i=1 30

21
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

Donc :
85, 10
â = = 0, 917
92, 73
n n
1X 427 1X 445
Y = Yi =⇒ Y = = 14, 23; X= Xi =⇒ X = = 14, 83
n i=1 30 n i=1 30

b̂ = Y − âX =⇒ b̂ = 14, 23 − 0, 917 × 14, 83 = 0, 630

Les valeurs des paramètres estimés sont donc : â = 0, 917 et b̂ = 0, 63.

La droite d’ajustement a pour équation : Y = 0, 917X + 0, 63


La figure 1.2 donne le nuage des points ainsi qu’une représentation graphique de la droite
d’ajustement estimée. Il s’agit de la droite qui approche le mieux (au sens des moindres carrées)
la relation linéaire entre la variable X et Y .

Figure 1.2 – Nuage des points de la consommation d’eau et du revenu des ménages avec la
droite d’ajustement

Source : Données fictives

Interprétation des paramètres

22
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

L’impact de X sur Y , c’est à dire du revenu sur la consommation d’eau est calculé à travers
la dérivée de Y par rapport à X, on obtient :

dY d
= (0, 917X + 0, 63) = 0, 917
dX dX

Cela signifie qu’une augmentation du revenu d’unité entraine celle de la consommation d’eau
de 0,917.
Calculons le coefficient de corrélation entre le revenu et la consommation d’eau
ρ (X, Y )
Cov (X, Y )
ρ (X, Y ) =
SX SY
Cov(X, Y) = 85, 10 ; calculons SX et SY
v
u n r
u1 X 2 2782, 17 p
SX = t Xi − X = = 92, 73 = 9, 63
n i=1 30

v
u n r
u1 X 2 2451, 37 p
SY = t Yi − Y = = 81, 71 = 9, 03
n i=1 30

Donc :
85, 10 85, 10
ρ (X, Y ) = = = 0, 97
9, 63 × 9, 03 86, 96
|ρ| > 0, 7 donc la liaison entre le revenu et la consommation d’eau est forte.

III.2 Test d’Indépendance du Khi2 (Cas de deux variables qualita-


tives)
Pour étudier la relation entre deux variables qualitatives, on construit un tableau appelé
tableau de contingence.
Considérons deux variables qualitatives X et Y avec respectivement p et q modalités. Soit n le
nombre d’individus sur lesquels sont observées les variables X et Y . Le tableau de contingence
observée est un tableau croisé où les colonnes correspondent aux q modalités de la variable Y
et les lignes aux p modalités de la variable X. On note nij le nombre d’individus possédant à la
fois la modalité i de la variable X et la modalité j de la variable Y . Le tableau de contingence
se présente de la façon suivante :

23
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

Tableau 1.7 – Tableau de contingence


Y1 · · · Yj · · · Yq Total
X1 n11 · · · n1j · · · n1q n1.
.. .. .. .
.. .. .
.. ..
. . . . .
Xi ni1 · · · nij · · · niq ni.
.. .. .. .. .. .. ..
. . . . . . .
Xp np1 · · · npj · · · npq np.
Total n.1 · · · n.j · · · n.q n..

Etudier le lien entre deux variables qualitatives revient à vérifier pour chaque modalité d’une
des deux variables si sa distribution dans la population totale est la même que sa distribution
dans les classes des modalités de la deuxième variable. On dit qu’il y a indépendance entre la
variable Y et la variable X si pour chaque modalité j de Y , on a :

n.j nij ni. × n.j


= =⇒ nij = ∀i = 1, · · · , p
n ni. n
n.j
est la proportion des individus ayant la modalité j de la variable Y ;
n
nij
est la proportion des individus ayant la modalité i de la variable X sachant qu’ils ont la
ni.
modalité j de la variable Y . En terme de probabilité, on écrira :

n.j nij
= =⇒ P (avoir j) = P (avoir j/ i)
n ni.

où P (avoir j) signifie la probabilité d’avoir la modalité j de la variable Y et P (avoir j/ i)


signifie la probabilité d’avoir la modalité j de la variable Y sachant qu’on a la modalité i de la
variable X, cela signifie que le fait de posséder la modalité i de X, ne modifie pas la probabilité
de posséder la modalité j de Y et on dit que les deux variables sont indépendantes.
Remarque :
Lorsque les deux variables sont indépendantes alors il n’existe pas de lien entre elles.

ni. × n.j
Définition : On appelle effectif théorique la quantité ET = , cette quantité cor-
n
respond à la situation d’indépendance entre les deux variables.

Le Chi-Deux du tableau de contingence

Le Chi-Deux du tableau de contingence permet de mesurer l’écart à l’indépendance par


rapport aux effectifs réellement observés ; il est noté X 2 et sa formule est la suivante :
p q
2
X X (EO − ET )2
X =
i=1 j=1
ET

où EO sont les effectifs réellement observés au niveau du tableau de contingence.


Si X 2 = 0, il y a indépendance entre les deux variables. Si X 2 est petit, les effectifs théoriques

24
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

sont presque identiques aux effectifs observés et les variables sont peu liées entre elles. Par
contre si X 2 est grand, les effectifs théoriques sont différents des effectifs observés et dans ce
cas, on s’écarte de la situation d’indépendance et les variables sont liées entre elles.

Le coefficient de Cramer

Afin de mesurer le degré de relation entre deux variables qualitatives, on peut calculer de
coefficient de Cramer noté V qui varie entre 0 et 1. Si le coefficient est proche de 0, les variables
ne sont pas liées et s’il est proche de 1, les deux variables sont liées. La formule de calcul de V
de Cramer est la suivante.
s
X2
V =
n × min (p − 1, q − 1)
Exemple :
On souhaite évaluer le lien entre la variable sexe et la variable choix de la série pour 50
élèves. Les données sont renseignées dans le tableau de contingence ci-dessous.

Tableau 1.8 – Répartition par Sexe et par Série


Série A Série D Série C Total
Masculin 5 22 11 38
Feminin 8 3 1 12
Total 13 25 12 50

On construit le tableau des effectifs théoriques :

Tableau 1.9 – Tableau des effectifs théoriques


Série A Série D Série C Total
Masculin 9,88 19 9,12 38
Feminin 3,12 6 2,88 12
Total 13 25 12 50

On calcule ensuite le X 2 :
2 X
3
2
X (EO − ET )2
X =
i=1 j=1
ET

(5 − 9, 88)2 (22 − 19)2 (11 − 9, 12)2 (8 − 3, 12)2 (3 − 6)2 (1 − 2, 88)2


X2 = + + + + +
9, 88 19 9, 12 3, 12 6 2, 88
X 2 = 13, 63

On calcule ensuite le V de Cramer :


s s s
2
X 13, 63 13, 63
V = =V = =V =
n × min (p − 1, q − 1) 50 × min (2 − 1, 3 − 1) 50 × min (1, 2)

25
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)
r r
13, 63 13, 63 p
V = = = 0, 2726 = 0, 522
50 × 1 50
V = 0, 522 qui est plus proche de 1 que de 0, on dira qu’il existe un lien entre le sexe et le choix
de la série, autrement dit, le fait d’être un homme ou une femme peut avoir une influence sur
le choix de la série.

III.3 Analyse de la variance ANOVA (Une variable quantitative et


une variable qualitative)
Lorsqu’on souhaite étudier le lien entre une variable quantitative et une variable qualitative
avec k modalités, on crée k et on mesure la valeur prise pour chaque individu du groupe
h = 1, · · · , k on a : 


 Groupe 1 : Y11 , · · · , Y1n1 d’effectif n1


Groupe 2 : Y21 , · · · , Y2n2 d’effectif n2




.. ..



 . .


 Groupe h : Yh1 , · · · , Yhnh d’effectif nh
.. ..





 . .


Groupe k : Y , · · · , Y

d’effectif nk
k1 knk

Yhi est la valeur de la variable Y prise par l’individu i de la classe h ; nh est l’effectif de la classe
h et n est l’effectif total des individus sur lesquels la variable Y est observée on a :

k
X
nh = n
h=1

La variance de Y est donnée par l’expression suivante :

k h n
1 XX 2
Var (Y ) = Yhi − Y
n h=1 i=1

avec :
k nh
1 XX
Y = Yhi moyenne de Y sur l’échantillon de taille n
n h=1 i=1
nh
1 X
Y = Yhi moyenne de Y dans la classe h
nh i=1

26
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

nh
k X nh
k X
X 2 X   2
Yhi − Y = Yhi − Y h + Y h − Y
h=1 i=1 h=1 i=1
nh h
k X
X 2 2  i
= Yhi − Y h + Yh−Y +2 Yh−Y Yhi − Y h
h=1 i=1
k X nh nh
k X nh
k X
X 2 X 2 X  
= Yhi − Y h + Yh−Y +2 Yh−Y Yhi − Y h
h=1 i=1 h=1 i=1 i=1
| h=1 {z }
=0

nh
k X
X nh
k X
  X 
Yh−Y Yhi − Y h = Y h − Y Yhi − Y h
h=1 i=1 h=1 i=1
k
"n nh
#
X X h X

= Yh−Y Yhi − Yh
h=1 i=1 i=1
Xk
  
= Yh−Y nh Y h − nh Y h = 0
h=1
nh
k X
X  
Yh−Y Yhi − Y h = 0
h=1 i=1

Donc :
nh
k X nh
k X nh
k X
X 2 X 2 X 2
Yhi − Y = Yh−Y + Yhi − Y h
h=1 i=1 h=1 i=1 h=1 i=1
| {z }
2
=nh (Y h −Y )
nh
k X k nh
k X
X 2 X 2 X 2
Yhi − Y = nh Y h − Y + Yhi − Y h
h=1 i=1 h=1 h=1 i=1
k X nh k nh
k X
1 X 2 1 X 2 1X 2
Yhi − Y = nh Y h − Y + Yhi − Y h
n h=1 i=1
n h=1
n h=1 i=1
k
X nh k nh
2 X nh 1 X 2
Var (Y ) = Yh−Y + × Yhi − Y h
h=1
n h=1
n nh i=1
k k
X nh 2 X nh
Var (Y ) = Yh−Y + σh2
h=1
n h=1
n

k
X nh 2
variance inter classe = Yh−Y
n h=1
C’est la variance des moyennes ou la variance de Y expliquée par les k modalités de la variable
X, en d’autres termes il s’agit de la part de la variance de Y qui est expliquée par les modalités
de X.

27
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

k
X nh
variance intra classe = σh2
h=1
n
Elle est aussi appelée variance résiduelle, plus elle est faible, plus les individus appartenant à
une classe sont homogènes au sens ou la valeur de Y prise par chaque individu est proche de la
moyenne de la classe ou il appartient ; on dira donc que la variable X permet de bien regrouper
les individus qui ont des caractéristiques proches.

L’indicateur permettant de mesurer le lien entre une variable quantitative et une variable
qualitative est le rapport de corrélation noté η.

Vinter
η= =⇒ 0 6 η 6 1
Vtotale

Démonstration :

Vtotale = Vinter + Vintra =⇒ 0 6 Vinter 6 Vtotale


0 Vinter Vtotale
=⇒ 6 6
Vtotale Vtotale Vtotale
=⇒ 0 6 η 6 1

Si η < 0, 2, on dira que la liaison est faible ;


Si 0, 2 6 η < 0, 5 on dira que la liaison est moyenne ;
Si η > 0, 5 on dira que la liaison est forte.
Exemple
On souhaite étudier le lien entre le revenu et le milieu de résidence de 30 individus, le tableau
suivant donne la distribution du revenu dans chaque modalité de la variable milieu de résidence.

Tableau 1.10 – Distribution du revenu par milieu de résidence


  2  2
Urbain (G1) Y1i − Y Y1i − Y Rural (G2) Y2i − Y Y2i − Y
106 34,2 1169,64 52 -19,8 392,04
105 33,2 1102,24 22 -49,8 2480,04
102 30,2 912,04 26 -45,8 2097,64
109 37,2 1383,84 50 -21,8 475,24
112 40,2 1616,04 40 -31,8 1011,24
103 31,2 973,44 55 -16,8 282,24
112 40,2 1616,04 55 -16,8 282,24
95 23,2 538,24 40 -31,8 1011,24
114 42,2 1780,84 30 -41,8 1747,24
104 32,2 1036,84 35 -36,8 1354,24
89 17,2 295,84 24 -47,8 2284,84
86 14,2 201,64 48 -23,8 566,44
80 8,2 67,24 20 -51,8 2683,24
84 12,2 148,84 49 -22,8 519,84
114 42,2 1780,84
93 21,2 449,44
16 16 14 14
X X 2 X X 2
Y1i = 1608 Y1i − Y = 15073, 04 Y2i = 546 Y2i − Y = 17187, 76
i=1 i=1 i=1 i=1
Source : Données fictives

28
Ecole Supérieure des Sciences de l’Eau et de l’Environnement (E-2SE)

k = 2 =⇒ h = 1, 2 on a donc deux classes car la variable qualitative a deux modalités.


n1 = 16, c’est le nombre d’individus appartenant à la classe 1 et n2 = 14 est le nombre d’indi-
vidus appartenant à la classe 2. En notant Y le revenu, on a :
Calcul de la moyenne sur l’échantillon global

k n 2 n n1 n2
! 16 14
!
h h
1 XX 1 XX 1 X X 1 X X
Y = Yhi = Yhi = Y1i + Y2i = × Y1i + Y2i
n h=1 i=1 n h=1 i=1 n i=1 i=1
30 i=1 i=1

1 1
× (1608 + 546) =
Y = × 2154 = 71, 8 =⇒ Y = 71, 8
30 30
Calcul de la moyenne dans chaque classe
n1 n2
1 X 1 1 X 1
Y1 = Y1i = × 1608 = 100, 5; Y2 = Y2i = × 546 = 39
n1 i=1 16 n2 i=1 14

Calcul de la variance totale

hk n h 2 n
1 XX 2 1 XX 2
Var (Y ) = Yhi − Y = Yhi − Y
n h=1 i=1 n h=1 i=1
n1 n2
! 16 14
!
1 X 2 X 2 1 X 2 X 2
= × Y1i − Y + Y2i − Y = × Y1i − Y + Y2i − Y
n i=1 i=1
30 i=1 i=1
1 1
= × (15073, 04 + 17187, 76) = × 32260, 8 = 1075, 36
30 30
Var (Y ) = 1075, 36

Calcul de la variance inter classe

k 2
X nh 2 X nh 2 n1  2 n2 2
Vinter = Yh−Y = Yh−Y = Y1−Y + Y2−Y
h=1
n h=1
n n n
16 14
Vinter = × (100, 5 − 71, 8)2 + × (39 − 71, 8)2
30 30
16 14 16 14
Vinter = × (28, 7)2 + × (−32, 8)2 = × 823, 69 + × 1075, 84
30 30 30 30
Vinter = 941, 36

Calcul du rapport de corrélation η

Vinter 941, 36
η= = = 0, 875
Vtotale 1075, 36
η = 0, 875 > 0, 5 donc on conclut que la liaison entre les deux variables est forte : le milieu de
résidence a donc un impact sur le revenu de ces individus, c’est à dire que le fait de vivre en
milieu urbain ou rural a un impact sur le revenu de ces individus.

29

Vous aimerez peut-être aussi