Vous êtes sur la page 1sur 51

Statistiques appliquées

Année universitaire 2019-2020


Filière GLT 1 - ESTO
CH4: Statistiques descriptives à
deux variables
Introduction
 La statistique à double dimensions permet de :
caractériser les relations qui existent entre
deux séries d’observations considérées
simultanément. Autrement dit, elle met en
évidence le lien qui peut exister entre deux
variables.

 Les variables étudiées simultanément peuvent


être soit quantitatives, soit qualitatives ou les
deux à la fois.
Introduction
 Situations :
 Séries appariées : même variable mesurée dans
deux circonstances :
 Avant - Après traitement.
 Cas – Témoins : on apparie un témoin
dépourvu de la maladie que l'on veut étudier
sur différents points que l'on sait lier au
phénomène étudié (par exemple, pour une
étude de la mortalité, on apparie sur âge,
sexe, ...
 Séries non appariées :
 Même variable mesurée dans des groupes
différents.
Exemple :
Afin d'étudier la répartition des terres agricoles
d'une région, on a noté un certain nombre de
renseignements sur chaque exploitation,
notamment :
 sa taille (surface, en hectares),
 l'âge du chef d'exploitation,
 le type de culture pratiquée,
 le nombre de personnes employées à temps plein
sur l'exploitation
Le résultat est présenté sous la forme du tableau ci-dessous ,
individus  variables

Age du chef Nombre de


N° Taille Culture
d'exploitation personnes
Exploitatio (ha) dominante
(années) employées
n
1 50 50 blé 2
2 50.5 45 vigne 4
3 35 38 orge 3
4 62.1 25 blé 6
5 20 65 vigne 1
6 10 57 vigne 1
... ... ... ... ...
198 56 45 blé 2
Nous pouvons maintenant décrire chacun des
caractères, un par un :
 Taille
 Age
 Culture
 employés
Mais ceci ne nous permet pas de mettre en évidence
les liens existant peut-être entre la taille et l'âge :
les jeunes exploitants ont-ils des surfaces
comparables, inférieures, supérieures à celles de
leurs aînés ?

De même, le type de culture pratiqué est-il le


même quelle que soit la surface ? Le nombre
d'employés est-il fonction du type de culture, etc.
1. Les tableaux statistiques :
1.1 série statistique double :

Nombre de Nombre de
visites de commandes yi
prospection xi
152 26
155 27
160 28
155 28
162 29
164 30

Y-a-t-il une liaison entre les deux


variables présentées?
Tableau de contingence :
Considérons N individus décrits simultanément selon
deux caractères X et Y.
X possède k modalités : x1, x2, x3, ……., xi, …….xk
Y possède p modalités: y1, y2, y3,…….., yj,……..yp

Tableau de contingence : un tableau dénombrant les


modalités croisées des deux caractères X et Y.
yj Y1 y2 y3…………….yj…………………yq ni.
xi
x1 n11 n 1.
x2 …………….n32 n 2.
. .
. .
. .
xi ……………………….....nij n i.
. .
. .
. .
xp …………………………………………………npq n p.

n .j n.1 n.2 n.3……….…n.j……………….n.q n ..


Exemple 1:Tableaux à 2
dimensions
 Série, distribution de fréquences : tables de
contingence.
Sujet Poids Taille
1 70 170
2 80 180
3 65 165
4 75 175
5 90 182
6 73 170
7 60 162
8 68 165
9 83 180
…. … …
Exemple 1:Tableaux à 2
dimensions
 Série, distribution de fréquences : tables de
contingence.
Sujet Poids Taille Poids
1 70 170 Taille 60 65 68 70 73 75 80 83 90 Tot.
2 80 180 162 1 1
3 65 165 165 1 1 2
4 75 175 170 1 12 13
5 90 182 175 10 10
6 73 170 180 4 15 1 2 22
7 60 162 182 1 1
8 68 165 Tot. 1 1 1 5 12 25 1 1 3 48
9 83 180
…. … …
Table de contingence
 Nombre de mesures totale n
 Total de chaque ligne = li
 Total de chaque colonne = cj
 Effectif d'un cas = nij
 Fréquences relatives: Cheveux
 nij / li : % en ligne Yeux Blonds Bruns Autres Tot. (li)
 nij / cj % en colonne Clairs 50 20 30 100
 nij / n % Foncés 60 80 60 200
 li / n Tot. (cj) 110 100 90 300
 cj / n
Attention
Cheveux
Yeux Blonds Bruns Autres Tot. (li)
Clairs 50 20 30 100
Foncés 60 80 60 200
Tot. (cj) 110 100 90 300
300 = Nombre total de mesures.
100 = Nombre d'individus ayant les yeux clairs.
110 = Nombre d'individus ayant les cheveux blonds.
50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs.
50 / 110 = % d'individus parmi les blonds ayant les yeux clairs.
50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds.
Représentation graphique 2
variables quantitatives
 Nuage de points
Le nuage de points décrit la relation entre deux variables quantitatives,
mesurées sur les mêmes unités statistiques.

90
85
80
75
70
65
60
55
160 165 170 175 180 185
Exemple 2: de tableau de contingence :

Montant du CA Montant des achats : yj Total


mensuel xi 0- 200- 400- 600- 800- 1200-
200 400 600 800 1200 1500
[0 - 2000[ 6 4 1 2 0 0 13
[2 000 - 4 000[ 5 3 4 2 0 0 14
[4 000 - 6 000[ 4 8 9 1 3 0 25
[6 000 - 8 000[ 11 78 55 5 5 4 158
[8 000 - 10 000[ 7 8 82 56 21 11 185
[10 000 - 12 000[ 0 2 6 47 35 15 105
[12 000 - 14 000[ 0 3 14 49 22 9 97
[14 000 - 16 000[ 1 4 23 12 6 5 51
[16 000 - 20 000[ 2 0 3 6 0 3 14
Total 36 110 197 180 92 47 662
On appelle distribution marginale de X la distribution à une
dimension des individus de la population qui présente une
modalité de X quelque soit la modalité de Y. De façon analogue,
on définit celle de Y.
3. Réduction des données :
Les paramètres utilisés pour caractériser les
distributions à deux variables sont de deux
types :
- Les paramètres qui concernent une seule variable,
ils servent à caractériser les diverses
distributions marginales.
- Les paramètres qui servent à décrire les relations
qui existent entre les deux séries d'observations
considérées simultanément.
a- Moyennes et variances marginales :

1
x   xi
N i
y  1  yi
N i
V (x)  1  (xi  x)²
N i
V (Y)  1  (yi  y)²
N i
Exemple :
Reprenons la série précédente :

Nombre de visites de Nombre de commandes


prospection xi yi
152 26
155 27
160 28
155 28
162 29
164 30
948 168
Exemple :
Reprenons la série précédente :

Nombre de visites de Nombre de commandes


prospection xi yi
152 26
155 27
160 28
155 28
162 29
164 30
948 168

x  948 158
6
y 168  28
6
Nombre de visites Nombre de (xi-x)² (yi-y)²
de prospection xi commandes yi
152 26 36 4
155 27 9 1
160 28 4 0
155 28 9 0
162 29 16 1
164 30 36 4
948 168 110 10

V(x) 1 (xi x)²110 18.33


N i 6

V(y)  1 (yi  y)² 10 1.67


N i 6
Pour avoir une idée sur la variation simultanée de X et Y on
peut utiliser la covariance :

 On appelle covariance de X et Y le nombre

 il est aussi égal à :

1
cov( x, y ) 
n
 xiyi  x y
Utilité de la covariance :
La covariance est positive si X et Y ont tendance à
varier dans le même sens, et négative si elles ont
tendance à varier en sens contraire.
Exemple :10 étudiants ont passé l'examen partiel et l'examen
général et ont obtenu les notes suivantes :

Partiel ( X) Général (Y) XY


71 83 5893
49 62 3038
80 76 6080
73 77 5621
93 89 8277
85 74 6290
58 48 2784
82 78 6396
64 76 4864
32 51 1632
Total 687 714 50875
Exemple :10 étudiants ont passé l'examen partiel et l'examen
général et ont obtenu les notes suivantes :

Partiel ( X) Général (Y) XY


71 83 5893
49 62 3038
80 76 6080
73 77 5621
93 89 8277
85 74 6290
58 48 2784
82 78 6396
64 76 4864
32 51 1632
Total 687 714 50875
Cov (x , y) =(50875 / 10) – (687/10)x(714/10) = 182.32
La covariance est positive, donc il y a une relation croissante entre X et Y.
Autrement dit les deux variables varient dans le même sens.
La Corrélation linéaire :

Dans le cas où les points du nuage se situent tous sur


une droite, on dit que la relation entre x et y
représente une dépendance fonctionnelle linéaire .

Si les points du nuage de points ne sont pas tous


alignés sur une même droite, on peut mesurer le
degré de dépendance linéaire entre les deux
variables X et Y .
Comment ?
Coefficient de corrélation linéaire

 Le coefficient de corrélation linéaire a pour objet


de mesurer l'intensité de la liaison linéaire entre les
deux variables X et Y . Le coefficient de
corrélation est la covariance divisé par les deux
écart-types marginaux :
cov( x, y )
r
 ( x) ( y )
Cette définition montre que le coefficient de corrélation
possède le même signe que la covariance et sa valeur est
comprise entre ‑1 et 1.
Coefficient de corrélation linéaire

Le signe du coefficient de corrélation


indique le sens de la relation entre X et
Y:
r > 0 veut dire que les deux variables X et Y
varient dans le même sens. Si X est grande alors
Y est grande, si X est petite alors Y est petite .
On parle de corrélation positive.
Coefficient de corrélation linéaire

 Si le coefficient de corrélation est positif,


les points sont alignés le long d’une droite
croissante.
 Si le coefficient de corrélation est négatif,

les points sont alignés le long d’une droite


décroissante.
Coefficient de corrélation linéaire

 Si le coefficient de corrélation est nul ou


proche de zéro, il n’y a pas de dépendance
linéaire.
 On peut cependant avoir une dépendance

non-linéaire avec un coefficient de


corrélation nul.
Remarque :
Pour pouvoir parler de forte liaison entre x et
y il faut que la valeur absolue de r atteigne au
moins 0.87
Exemple :reprenons la série suivante

Nombre de visites de Nombre de commandes


prospection xi yi
152 26
155 27
160 28
155 28
162 29
164 30
948 168

Calculer le coefficient de corrélation


Exemple :reprenons la série suivante

Nombre de visites de Nombre de commandes


prospection xi yi
152 26
155 27
160 28
155 28
162 29
164 30
948 168

r = 0.93 donc x et y sont fortement corrélés, ainsi plus le


nombre de visites augmente, plus le nombre de
commandes augmente.
La corrélation, outil d’aide à la prévision :

L’intérêt d’une forte corrélation tient au fait que la


connaissance de l’une des variables entraîne la
connaissance de l’autre avec un faible risque
d’erreur.
Dés lors, il convient de trouver la double relation
mathématique qui existe entre les deux variables
xi et yi :
- la relation de type yi=f(xi) décrit l’évolution de la
variable y en fonction de xi et
- la relation de type xi=f(yi) décrit l’évolution de la
variable x en fonction de yi
Corrélation VS Causalité

 Deux variables sont corrélées entre elles ne


signifie pas que l’une soit la conséquence de
l’autre, c’est-à-dire qu’il y ait un lien de cause à
effet.
 « Par exemple en France au 20ème siècle, le nombre de
mariages a augmenté ainsi que le nombre de suicides.
Ces deux variables sont sûrement corrélées, ce qui ne
montre en aucun cas l’existence d’un lien de cause à
effet d’un phénomène à l’autre (en fait ces deux
augmentations peuvent être directement reliées à une
augmentation commune : l’augmentation de la
démographie ». Cours Y. Morel
Les propriétés de covariance
 Trois propriétés de covariance:
 La covariance est symétrique cov( x, y )  cov( y, x)

 La covariance d’une variable elle-même est la variance.

cov( x, x)  V ( x)

cov( x, y  v( x)  v( y )   x   y
La droite de régression

 La droite de régression est la droite qui ajuste au


mieux un nuage de points au sens des moindres
carrés.
 On considère que la variable X est explicative et que
la variable Y est dépendante.
 L’équation d’une droite est :

yiaxib
 Le problème consiste à identifier une droite qui ajuste
bien le nuage de points.
La droite de régression

 Si les coefficients a et b étaient connus, on pourrait


calculer les résidus de la régression définis par :
ei = yi − a − bxi.

Le résidu ei est l’erreur que l’on commet en utilisant la


droite de régression pour prédire yi à partir de xi. Les
résidus peuvent être positifs ou négatifs.
La droite de régression
La droite de régression
 Pour déterminer la valeur des coefficients a et b, on utilise
le principe des moindres carrés.
La méthode des moindres carrés est une méthode
d’ajustement qui consiste à minimiser la somme des carrés
des différence entre les valeurs observées, yi et les valeurs
estimées, par l'équation de la droite de régression :

yiaxib
cov( x, y )
a
V( x)

b  y  ax
 Exemple
Exemple : reprenons l’exemple précédent ou r=0.93

Nombre de Nombre de
visites de commandes
prospection xi yi
152 26
155 27
160 28
155 28
162 29
164 30
948 168

Donnez la droite de régression


Exemple : reprenons l’exemple précédent ou r=0.93

Nombre de Nombre de (xi-x)² (yi-y)² (xi-x)(yi-


visites de commandes y)
prospection xi yi
152 26 36 4 12
155 27 9 1 3
160 28 4 0 0
155 28 9 0 0
162 29 16 1 4
164 30 36 4 12
948 168 110 10 31
x  158
y  28 V ( x )  18.33

V ( y )  1.67 cov(x, y)  31 5.17


6
cov(x, y) 5.17
a  0.28 b  y  a x  16
V(x) 18.33
On aura donc l’équation suivante :
yi = 0.28xi – 14

Si on se donne comme objectif pour le mois


prochain 170 visites (xi), quel sera le nombre de
de commande prévisionnel (yi) approximatif?
On aura donc l’équation suivante :
yi = 0.28xi – 16.24

le nombre de de commande prévisionnel (yi)


approximatif:

yi = 0,28 x 170 –16,24 = 31,36 soit


approximativement 31 commandes
Exercice
Exercice1
 Neuf étudiants émettent un avis pédagogique vis-à-
vis d’un professeur selon une échelle d’appréciation
de 1 à 20. On relève par ailleurs la note obtenue par
ces étudiants l’année précédente auprès du
professeur.
 Etudiants
 y = Avis 5 7 16 6 12 14 10
9 8
 x = Résultat 8 11 10 13 9 17 7
15 16
 1. Déterminez le coefficient de corrélation entre
les variables X et Y. Ensuite, donnez une
interprétation de ce coefficient.
 2. Déterminez la droite de régression Y en fonction
de X.
 3. Etablissez, sur la base du modèle, l’avis pour un
étudiant ayant obtenu 12/20.

Vous aimerez peut-être aussi