Vous êtes sur la page 1sur 11

Statistique à deux dimensions. Séries doubles.

1 Introduction
La statistique descriptive à deux dimensions a essentiellement pour but de mettre en évidence les
relations qui existent entre deux séries d’observations considérées simultanément. Comme précédemment,
ces observations peuvent être de nature qualitative ou quantitative et il n’est d’ailleurs pas exclu de
considérer simultanélment deux séries d’observations de nature différente.

Comme pour la statistique à une dimension, trois aspects doivent être envisagés :
1. l’élaboration de tableaux statistiques permettant de condenser les données sous forme de distribu-
tions de fréquences à deux dimensions ou distributions conjointes,
2. la représentation graphique des observations,
3. la réduction des données sous forme de paramètres servant à caracériser numériquement les relations
existant entre les deux variables.

2 Distribution de fréquences
Les observations relatives à deux variables sur n individus se présentent le plus simplement sous la
forme d’une série statistique double, à savoir d’une suite de n couples de valeurs observées (x i , yi ).
x1 , x2 , ···, xn .
y1 , y2 , ···, yn .
Comme dans le cas de distribution unidimensionel, il peut être utile, lorsque n est grand de condenser
les données en une distribution d’effectifs (de fréquences). Celle-ci se présente sous la forme d’un tableau
à double entrée dont une colonne est réservée aux observations x et une ligne aux observations y. Les
effectifs ni,j représentent pour chaque cellule du tableau le nombre d’observations du couple (xi, yj ).

L’ensemble des valeurs xi et yj d’une part et des effectifs ni,j d’autre part constitue une distribution d’
effectifs à deux dimensions.

Cette distribution se présente sous la forme :

HH y
H y y2 ··· yj ··· yq Totaux
x HH 1
x1 n11 n12 ··· n1j ··· n1q n1∗
x2 n21 n22 ··· n2j ··· n2q n2∗
..
.
xp np1 np2 ··· npj ··· npq np∗
Totaux n∗1 n∗2 ··· n∗j ··· n∗q n

Lorsque le nombre de lignes et le nombre de colonnes du tableau à double entrée sont encore trop
grands (ou si les caractères sont de type continu), il est possible de condenser les observations en une
distribution groupée en réunissant en classes les diverses valeurs observées de x et de y. Les symboles x i
et yj représentent alors les valeurs centrales des classes.

Exemple 1. On considère un ensemble de 22 vaches laitières dont on mesure la longueur du corps et


la profondeur de poitrine (en cm).

1
– le sujet : l’ensemble des vaches,
– la population : les vaches laitières,
– les caractères sont : la longueur du corps (x) et la pronfondeur de poitrine (y) exprimés en cm.

x 168 169 150 148 154 145 165 163 148 161 151
y 71 68 65 67 67 66 69 69 68 69 70
x 176 159 159 151 155 169 158 157 161 146 150
y 74 70 73 69 71 74 70 71 73 71 65

On obtiendra la distribution suivante (ici les caractères étant traités comme des caractères discrets) :

H y
H 65 66 67 68 69 70 71 73 74 Totaux
HH
x H
145 1 1
146 1 1
148 1 1 2
150 2 2
151 1 1 2
154 1 1
155 1 1
157 1 1
158 1 1
159 1 1 2
161 1 1 2
163 1 1
165 1 1
168 1 1
169 1 1 2
176 1 1
Totaux 2 1 2 2 4 3 4 2 2 22

3 Distributions conditionnelles
Lorsque l’on n’envisage qu’une colonne particulière de la distribution de fréquences, on obtient une
distribution à une dimension appelée distribution conditionnelle ou liée de x sous la condition y = yj . Il
en serait de même si l’on ne considérait qu’une ligne particulière de la distribution. On obtiendraitune
distribution à une dimension appelée distribution conditionnelle ou liée de y sous la condition x = xj .
Il y a autant de distributions conditionnelles de x que de classes de y et autant de distributions
conditionnelles de y que de classes de x.

4 Distributions marginales
Les totaux relatifs aux différentes colonnes et aux différentes lignes de la distribution de fréquences
constituent les fréquences marginales (les effectifs marginaux ). On définit de la sorte deux distributions
marginales, une pour x et une pour y.
Dans l’exemple précédent, nous avons les deux distributions marginales suivantes :
– de x

2
Bornes Effectifs Fréquences Fréq cumulées
145 1 0.045 0.045
146 1 0.045 0.090
148 2 0.091 0.181
150 2 0.091 0.272
151 2 0.091 0.363
154 1 0.045 0.409
155 1 0.045 0.454
157 1 0.045 0.500
158 1 0.045 0.545
159 2 0.091 0.636
161 2 0.091 0.727
163 1 0.045 0.772
165 1 0.045 0.818
168 1 0.045 0.863
169 2 0.091 0.954
176 1 0.045 1.000
Total 22

De moyenne x= 157.41
De variance s2x = 68.97
D’écart type sx = 8.30

– de y
Bornes Effectifs Fréquences Fréq cumulées
65 2 0.091 0.091
66 1 0.045 0.136
67 2 0.091 0.227
68 2 0.091 0.318
69 4 0.182 0.500
70 3 0.136 0.636
71 4 0.182 0.818
73 2 0.091 0.909
74 2 0.091 1.000
Total 22

De moyenne y= 69.55
De variance s2y = 6.61
D’écart type sy = 2.57

4.1 Regroupement des données


Nous allons envisager le cas où un regroupement des données est recommandé. Nous aurons une
distribution groupée en réunissant en classes les diverses valeurs observées de x et,ou, de y. Le nombre
de classe ne dépassant pas 10 ou 15 pour chacune des deux variables.

Exemple 2. On considère le poids des feuilles et le poids des racines de 1000 individus de Cichorium
intybus en grammes

3
– le sujet : les plantes,
– la population : les Circhorum intybus,
– les caractères sont continus : le poids des feuilles (x) et le poids des racines (y) exprimés en gr.

On a la distribution de fréquences suivante :

HH y
H [40, 80[ [80, 120[ [120, 160[ [160, 200[ [200, 240[ [240, 280[ [280, 320[ [320, 360[ Tot
x HH
[0, 80[ 2 2
[80, 160[ 49 46 5 2 102
[160, 240[ 86 137 46 11 280
[240, 320[ 27 153 89 25 7 301
[320, 400[ 5 45 91 40 6 187
[400, 480[ 10 33 21 16 1 1 82
[480, 560[ 1 4 11 10 3 29
[560, 640[ 2 1 2 4 1 10
[640, 720[ 1 3 2 6
[720, 800[ 1 1
Totaux 169 392 270 112 42 11 3 1 1000

Dans cette distribution nous allons remplacer les classes par leur valeur centrale. On obtient :
H y
H 60 100 140 180 220 260 300 340 Tot
HH
x H
40 2 2
120 49 46 5 2 102
200 86 137 46 11 280
280 27 153 89 25 7 301
360 5 45 91 40 6 187
440 10 33 21 16 1 1 82
520 1 4 11 10 3 29
600 2 1 2 4 1 10
680 1 3 2 6
760 1 1
Totaux 169 392 270 112 42 11 3 1 1000

Nous aurons alors les deux distributions marginales


– de x
x (poids feuilles) Effectifs Fréquences Fréq cumulées Centres
[0, 80[ 2 0.002 0.002 40
[80, 160[ 102 0.102 0.104 120
[160, 240[ 280 0.280 0.384 200
[240, 320[ 301 0.301 0.685 280
[320, 400[ 187 0.187 0.872 360
[400, 480[ 82 0.082 0.954 440
[480, 560[ 29 0.029 0.983 520
[560, 640[ 9 0.009 0.992 600
[640, 720[ 6 0.006 0.998 680
[720, 800[ 2 0.002 1.000 760
Totaux 1000

4
De moyenne x= 281.4
De variance s2x = 11690
D’écart type sx = 108.12

– de y
y (poids racines) Effectifs Fréquences Fréq cumulées Centres
[40, 80[ 169 0.169 0.169 60
[80, 120[ 392 0.392 0.561 100
[120, 160[ 270 0.270 0.831 140
[160, 200[ 112 0.112 0.943 180
[200, 240[ 42 0.042 0.985 220
[240, 280[ 11 0.011 0.996 260
[280, 320[ 3 0.003 0.999 300
[320, 360[ 1 0.001 1.000 340
Totaux 1000

De moyenne y= 120.1
De variance s2y = 2058
D’écart type sy = 45.37

5 Représentation graphique
1. Les séries statistiques doubles peuvent être représentées graphiquement sous la forme de diagrammes
de dispersion ou nuage de points. Ceux-ci sont obtenus en représentant chaque couple d’observation
(xi, yi ) par un point dans le plan. Les échelles des diagrammes de dispersion sont généralement
choisies de manière à donner à ces diagrammes une forme approximativement carrée.

2. Quant aux distributions de fréquences à deux dimensions, elles peuvent être représentées dans
l’espace à trois dimensions sous la forme de diagrammes en bâtons, essentiellement pour les dis-
tributions non groupées, ou de stéréogrammes pour les distributions groupées. Les diagrammes en
bâtons sont établis en traçant perpendiculairement au plan (x, y), et en chaque point (xi , yi ) un
segment de longueur nij . Les stéréogrammes sont composés de parallélipipèdes rectangles juxtapo-
sés dont les bases correspondent chacune à une cellile du tableau statistique à double entrée et dont
la hauteur est égale à nij .

6 Réduction des données. Paramètres


Les paramètres utilisés pour caractériser les séries statistiques doubles sont de deux types.
1. Les uns ne caractérisent qu’une variable à la fois, ils servent à caractériser individuellement les
diverses distributions conditionnelles et marginales.

5
Pour caractériser ces distributions on utilise les paramètres habituels de la statistique descriptive à
une dimension. Ce sont principalement les moyennes marginales (x et y) et conditionnelles (x i et y j )
ainsi que les variances marginales (s2x et s2y ) et conditionnelles (s2xi et s2yj ) d’où sont déduits les
écart-type..
Pour les deux exemples traités ci-dessus retourner aux pages 3 et 5.
2. Les autres servent à décrire les relations existant entre les deux séries d’observations qui sont donc
considérées simultanément. L’étude simultanée des deux séries d’observations fait intervenir des
notions nouvelles dont les principales sont :
– la covariance,
– les droites de régression au sens des moindres carrés,
– le coefficient de corrélation et le coefficient de détermination.

La notion de corrélation concerne la netteté ou l’intensité de la relation existant entre les deux
séries de résultats, tandis que la notion de droite de régression est liée à l’allure, supposée linéaire,
de cette relation.

6.1 La covariance
La covariance se note cov(x, y) ou encore V (x, y). Si n est l’effectif de l’échantillon alors son calcul est
donné par la formule
n
1X
cov(x, y) = (xi − x)(yi − y)
n i=1
Cette formule, après transformation, peut encore s’écrire :
n
X xi y i
cov(x, y) = −xy
i=1
n

C’est sous cette forme que nous calculerons la covariance dans les exercices.
La covariance sera positive ou négative selon que la relation entre les deux séries de données est croissante
ou décroissante, ou, la covariance sera
– positive si aux valeurs élevées d’une variable correspondent les valeurs élevées de l’autre variable,
– négative si aux valeurs élevées d’une variable correspondent les valeurs peu élevées de l’autre va-
riable.

Exemple 1. (page 1)
cov(x, y) = 12.73
Exemple 2. (page 3)
cov(x, y) = 3232

6.2 Coefficient de corrélation linéaire.Coefficient de détermination


1. Le coefficient de corrélation noté r est donné par
V (x, y)
r=
sx sy
Comme ci-dessus, nous allons rendre la formule plus lisible( !) pour effectuer les calculs :
n
X xi y i
−xy
i=1
n
r= v v
u n x2i u n yi2
uX uX
2 t
t( −x ) ( − y2)
i=1
n i=1
n

6
On conclut :
– r est un nombre abstrait ∈ [−1, 1],
– r = 1 si tous les points observés se trouvent sur une même droite de coefficient angulaire positif,
– r ' 1 si tous les points observés se trouvent à proximité d’une telle droite,
– 0 < r < 1 si le nuage de points est allongé parallèlement à une telle droite,
– r = 0 ou r ' 0 si le nuage de points est allongé parallèlement à l’un des axes de coordonnées ou
s’il a une forme arrondie,
– −1 < r < 0 si le nuage de points est allongé parallèlement à une droite de coefficient angulaire
négatif,
– r ' −1 si tous les points observés se trouvent à proximité d’une telle droite,
– r = −1 si tous les points observés se trouvent sur une telle droite,
– plus |r| est proche de 1 plus la corrélation linéaire est forte.

Voici un tableau reprenant quelques formes typiques de diagrammes de dispersion.

r=1

r'1

0<r<1

r=0

−1 < r < 0

r ' −1

r = −1

Le coefficient de corrélation mesure donc la netteté de la liaison entre les deux séries pour autant
que cette liaison soit linéaire ou approximativement linéaire.
2. Le coefficient de détermination est le carré du coefficient de corrélation.

7 Ajustement des données


Dans de nombreux cas, il apparaît entre les données une relation forte entre les variables étudiées. Il
est alors utile de rechercher l’ajustement d’une courbe de régression au nuage des données observées.
Le diagramme de régression de y en x est formé des points moyens conditionnels (xi , yi ). Il donne une
idée de la façon dont varie en moyenne la variable y, dite dépendante, en fonction de la variable x, dite
indépendante.

7.1 Ajustement linéaire. Les droites de régression au sens des moindres carrés
Lorsque l’on a représenté dans le plan le nuage de points donnés par les observations dans la série
double, et si l’on s’apperçoit que la distribution de ces points est linéaire ou approximativement linéaire,

7
on peut s’efforcer de rechercher une droite qui s’ajuste au mieux à cette distribution : cette droite est
appelée droite de régression. Elle sera déterminée par la méthode des moindres carrés. Cette méthode
consiste à minimiser la somme des carrés des différences entre l’ordonnée des points du nuage et l’ordonnée
des points de la droite cherchée pour la même abscisse.

7.1.1 Droite de régression de y en x : y = mx + p


Il s’agit de déterminer les deux paramètres m et p. Nous ne démontrerons pas les formules ici, cotentons
nous de savoir que
V (x, y)
m= et p = y − mx
s2x
Toutefois, pour simplifier les calculs, il est commode de transformer la formule qui donne m. Voici donc
la formule a utiliser : n
X xi y i
−x y
i=1
n
m= n 2
Xx
i
− x2
n
i=1

On remarquera que y = mx + p (*) et que par conséquent


– le point (x, y) se trouve sur cette doite,
– de plus, si on fixe une valeur de x, soit x0, et si on remplace dans (*) on aura y xo = mxo + p qui
est la moyenne des y pour xo fixé.

Exemple 1.
12.73 12.73
m= = 0.185, p = 69.55 − 157.41 = 40.50
68.97 68.97
d’où l’équation de la première droite de régression :

y = 0.185 x + 40.50

On obtient :

74

72
dr1
70

68

66
145 150 155 160 165 170 175

8
Exemple 2.
3232 3232
m= = 0.276, p = 120.1 − 281.4 = 42.3
11690 11690
d’où l’équation de la première droite de régression :
y = 0.277 x + 42.3

7.1.2 Droite de régression de x en y : x = m0 y + p0


Ici non plus nous ne ferons pas le calcul qui permet de déterminer les paramètres m0 et p0.
V (x, y)
m0 = et p0 = x − m0 y
s2y
De même pour pour simplifier les calculs transformons m0 en
n
X xi y i
−xy
i=1
n
0
m = n
X yi2
− y2
n
i=1
0 0
On remarquera que x = m y + p (**) et que par conséquent
– le point (x, y) se trouve sur cette doite (les deux droites de régression se coupent donc en un point
qui est : (x, y)),
– de plus, si on fixe une valeur de y, soit yo , et si on remplace dans (**) on aura xyo = m0 yo + p0 qui
est la moyenne des x pour yo fixé.

Exemple 1.
12.73 12.73
m0 = = 1.926, p0 = 157.41 − 69.55 = 23.47
6.61 6.61
d’où l’équation de la deuxième droite de régression :
x = 1.926 y + 23.47
On obtient :

77.5 dr2
75
72.5
70
67.5
65
62.5
145 150 155 160 165 170 175

En superposant les deux droites et le nuage on obtient :

77.5 dr2
75
72.5
dr1
70
67.5
65
62.5
145 150 155 160 165 170 175

9
Exemple 2.
3232 3232
m0 = = 1.571, p0 = 281.4 − 120.1 = 92.79
2058 2058
d’où l’équation de la deuxième droite de régression :

x = 1.571 y + 92.79

Remarquons :

V 2 (x, y) V (x, y) V (x, y)


r2 = = = m m0
s2x s2y s2x s2y
Exemple 1.
12.73
r= = 0.59
8.30 × 2.57
Exemple 2.
3232
r= = 0.66
108.15 × 45.36

7.2 Régression curvilinéaire


Il peut arriver qu’une relation forte apparaisse entre les variables étudiées sans que cette relation
soit de type linéaire. Il faut alors rechercher la courbe qui épouse au mieux le nuage de points ainsi que
les paramètres intervenant dans l’équation de cette courbe. Les raisonnements théoriques, basés sur la
résolution d’équations différentielles, ne seront pas faits ici. Nous envisagerons deux cas.
1. Le cas d’une population de développement illimité où le taux de croissance est constant. L’équation
de la courbe d’ajustement est de type exponentielle :

y = a bx

2. Le cas fréquemment utilisé en biologie connu sous le nom de relation d’allométrie. Il s’agit ici d’un
ajustement de type puissance :
y = a xb
Dans les deux cas, il s’agira de linéariser l’équation en passant par les logarithmes.

7.2.1 Ajustement exponentiel ou puissance


Modèle exponentiel. Modèle puissance
Type d’équation à rechercher :
y = a bx y = a xb
Linéarisons en passant par les logarithmes.
ln y = ln(a bx) ln y = ln(a xb)
ln y = ln a + x ln b ln y = ln a + b ln x
 En posant

 Y = ln y  Y = ln y
m = ln b m=b
p = ln a X = ln x
 
On obtient :
Y = mx+ p Y = mx +p
équation d’une droite dont les paramètres peuvent etre
déterminés par les méthodes précédentes et qui nous
permettront de déterminer a et b.
Cette droite passe par le point moyen
(x, Y ) (X, Y )
et non par le point moyen (x, y)

10
Exemple 1 : On a mesuré les résidus d’un produit fongicide sur des laitues sur trois parcelles. Des
raisons théoriques justifient l’ajustement à une loi exponentielle. Les résultats en parts par million sont
donnés ci après.
Dates (x) Résidus (y) X = ln x Y = ln y
1 8.96 0 2.19
1 11.50 0 2.44
1 13.12 0 2.57
3 6.72 1.1 1.91
3 7.68 1.1 2.04
3 8.00 1.1 2.08
7 3.84 1.95 1.35
7 3.84 1.95 1.35
7 6.08 1.95 1.81
14 1.92 2.64 0.65
14 2.24 2.64 0.81
14 2.56 2.64 0.94

On obtient l’équation de la droite de régression de Y en x (dr1) : Y = −0.120 x + 2.425

m = ln b = −0.120 b = e−0.120 = 0.887


⇐⇒
p = ln a = 2.425 a = e2.425 = 11.307
et donc l’équation de la courbe est donnée par

y = 11.307 × 0.887x

Le coefficient de corrélation est :


r = −0.96
Exemple 2 : Reprenons l’exemple précédent et envisageons un ajustement puissance.
On obtient l’équation de la droite de régression de Y en X (dr1) : Y = −0.593 X + 2.415

m = b = −0.593 b = −0.593
⇐⇒
p = ln a = 2.519 a = e2.519 = 12.416
et donc l’équation de la courbe est donnée par

y = 12.416 × x−0.593

Le coefficient de corrélation est :


r = −0.94

11