Vous êtes sur la page 1sur 19

1° Année MI coordination – Statistique Double

Partie II
Séries statistiques à deux variables

1- Introduction :
Lors de l’étude des certains phénomènes, il est courant d’avoir affaire à plus d’une
variable statistique (on parle alors d’analyse statistique multivariée), pour chaque
observation, on recueille plusieurs informations. Ceci complique énormément la
construction des tableaux statistiques et les représentations graphiques résumant ces
études. Nous nous contenterons dans ce chapitre, d’étudier les séries à deux variables
(analyse statistique bivariée). Le but est de savoir s’il existe une relation entre ces
deux variables.

2- Définition :
On appelle statistique à deux dimensions, ou Statistique Double, toute applications
2
C définie d’un ensemble  fini vers R
C :   R 2
 C     X ( ), Y ( ) 


X   : Est la réponse de l’individu  au caractère X, X est appelée la première


statistique marginale.

Y   : Est la réponse de l’individu  au caractère Y , Y est appelée la deuxième


statistique marginale.

3- Présentation des tableaux statistiques à doubles entrées :


Tableau de Contingence :
On considère deux caractères quantitatifs X et Y, mesurés sur n individus,

Le caractère X présente k modalités x1  x2  ...  xk


Le caractère Y présente l modalités y1  y 2  ...  yl

Les observations sont classées dans un tableau, où figurent dans:

La 1° colonne, les modalités de X.


La 1° ligne les modalités de Y.

Le tableau comportera k lignes et l colonnes, le nombre inscrit dans la case i, j  :


i ème ligne et j ème colonne est notée n i j qui est l’effectif du groupe d’individus qui
présentent à la fois la modalité x i de X et la modalité y j de Y

On rassemble toutes ces données dans un tableau de contingence (un tableau à double
entrée):

La coordinatrice F .Laboudi Page 1


1° Année MI coordination – Statistique Double
Y y1 y2 ……. yj ….. yl total
X
x1 n11 n12 n1 j n1l n 1.
x2 n21 n22 n2 j n2l n 2.
.
.
xi ni1 ni 2 nij nil n i.
.
.
.
xk nk1 nk 2 nkj nkl n k.

Total n .1 n. 2 n. j n. l n

n i . : est l’effectif du groupe d’individus présentant la modalité x i de X


l
ligne : n i .   n i j
ème
C’est la somme des effectifs de la i
j 1
n. j : est l’effectif du groupe d’individus présentant la modalité y j de Y
k
colonne : n. j   n i j
ème
C’est la somme des effectifs de la j
i 1
k l
Remarque : n   n i. =  n . j
i 1 j 1

On définit aussi les fréquences :

ni j
fij est la proportion du groupe d’individus présentant la modalité x i de X et la
n
modalité y j de Y.

ni .
fi .  : la fréquence du groupe d’individus présentant la modalité x i de X
n
n. j
f.j ; la fréquence du groupe d’individus présentant la modalité y j de Y
n

k l k l
 f i . =  f . j =   fi j  1
i 1 j 1 i 1 j 1

De la même manière, on donne le tableau de contingence des fréquences


La coordinatrice F .Laboudi Page 2
1° Année MI coordination – Statistique Double

Y y1 y2 ……. yj ….. yl total


X
x1 f11 f12 f1j f1l f 1.
x2 f 21 f 22 f2 j f 2l f 2.
.
.
xi fi1 fi2 f ij f il f i.
.
.
xk f k1 fk 2 f kj f kl f k.

total f .1 f. 2 f. j f. l 1

4- Distributions marginales :
 Les sommes des effectifs ou des fréquences en lignes, définissent la
distribution marginale du caractère X : appelé 1° distribution marginale.

X x1 x2 ….. xi ….. xk Total

n i. n 1. n 2. n i. n k. N

 Les sommes des effectifs ou des fréquences en colonnes, définissent la


distribution marginale du caractère Y : appelé 2° distribution marginale.

Y y1 y2 ….. yj ….. yl Total

n.j n .1 n .2 n.j n .l N

Exemple 1:
Le tableau suivant indique la répartition de 50 logements d’une cité, en fonction de la surface
X exprimée en m 2 et le nombre de pièces principales Y.

X\Y 3 4 5 6 n i.
70 4 5 1 10
80 2 8 3 13
90 2 6 8
100 1 8 10 19
n. j 6 16 18 10 50

1- Le nombre de logements de 4 pièces dont la surface est supérieure à 80 m 2 :


2- Le pourcentage de logements de superficie  90 m :
2

3- Le nombre de logements de surface  80 m 2 :

La coordinatrice F .Laboudi Page 3


1° Année MI coordination – Statistique Double
4- Le nombre de logements de 4 pièces ?
5- Que représentent la colonne ni . et la ligne n. j ?
6- Les distributions marginales de X et Y :

X ni . ni . xi
70 10 700
80 13 1040
90 8 720
100 17 1700
4160

Y n. j
3 6
4 16
5 18
6 10

4160
7- La surface moyenne de l’ensemble des logements : X   83,2 m 2
50

5- Distributions conditionnelles:
Considérons les n i . individus qui présentent la modalité x i de X , parmi ceux là, il y
ni j
a une proportion qui présentent simultanément la modalité y j de Y.
n i.
ni j
Cette proportion est appelée fréquence conditionnelle de la modalité y j
n i.
ni j
sachant la modalité x i de X. et on note : fY  y / X  x  .
j i n i.
ni j
f X  xi / Y  y j  : est la fréquence conditionnelle de la modalité x i de X
n. j
sachant la modalité y j de Y.
6- moyenne et variance :
Les moyennes et variances sont définies de la même manière que dans le chapitre
précédent :
2
1 k 1 k
et  ( X )  V ( X )   ni . xi  X 
2
X   n i . xi
n i 1 n i 1
2
1 l
Y   n. j y j
n j 1
et  (Y )  V (Y ) 
2 1 l

 n . j y j Y
n j 1

La coordinatrice F .Laboudi Page 4


1° Année MI coordination – Statistique Double
7- moyenne conditionnelle :
k
m X / Y  y   f X  xi / Y  y j . x i
j i 1
l
m Y / X  x   f Y  y j / X  xi . y j
i j 1

Exemple :(Reprenez les données de l’exemple 1) :

X\Y 3 4 5 6 n i.
70 4 5 1 10
80 2 8 3 13
90 2 6 8
100 1 8 10 19
n. j 6 16 18 10 50

 Calculer et donner les significations des fréquences conditionnelles suivantes :


8 4 4 6
f X 80 / Y 4  f X 70 / Y 3  f Y 3 / X 70  fY 5 / X 90 
16 6 10 8

 Donner la surface moyenne des logements de 4 pièces est 79.37 m


2

X 70 80 90 100 Total
f 5 8 2 1 1
X  xi / Y  4
16 16 16 16
xi f X  xi / Y  4 350 640 180 100 1270
 79 .37
16 16 16 16 16

8- propriétés :
ni j fi j
f X  xi / Y  y j    f i j  f X  xi / Y  y j . f . j
n. j f. j
ni j fij
f Y  y j / X  xi    f i j  fY  y j / X  xi . f i .
n i. f i.

9- indépendance :
X et Y sont dites indépendantes ssi f i j  f i . . f . j , i 1,..., k
 j 1,...,l
Remarque :
Si X et Y sont deux variables indépendantes, alors
f X  x i / Y  y j  f X  xi
fY  y j / X  xi  f Y  y j

La coordinatrice F .Laboudi Page 5


1° Année MI coordination – Statistique Double
10- Covariance entre X et Y :
On appelle covariance de la série statistique double de variables X et Y, le nombre
réel noté par Cov  X , Y  ou  X Y et défini par :

  n x  X  y j  Y 
k l
Cov  X , Y    X Y
1
 ij i
n i 1 j 1

1 k l
   ni j xi y j  X Y
n i 1 j 1
Démonstration :

  n x  X  y j  Y 
k l
Cov  X , Y    X Y 
1
i j i
n i 1 j 1

  ni j xi y j  ni j xi Y  ni j y j X  ni j X Y 
1 k l

n i 1 j 1
1 k l 1 k l 1 k l 1 k l
   ni j xi y j    ni j xi Y    ni j y j X    ni j X Y
n i 1 j 1 n i 1 j 1 n i 1 j 1 n i 1 j 1
1 k l 1 k l
1 k l 1 k l
   ij i j n
n i 1 j 1
n x y  Y
i 1
xi  i j
j 1
n  X  ij j
n i 1 j 1
n y  X Y   ni j
n i 1 j 1
1 k l 1 k 1 l k
1 k l
   ij i j n
n i 1 j 1
n x y  Y
i 1
n x
i. i  X
n

j 1
yj  ni j  X Y
i 1
  ni j
n i 1 j 1
k l l
1 1
  
n i 1 j 1
ni j xi y j  Y X  X  n. j y j  X Y
n j 1
1 k l
   ni j xi y j  X Y
n i 1 j 1

Remarque : Cov  X , X    X X  V  X 

11- Coefficient de corrélation linéaire :


Le coefficient de corrélation linéaire d’une série statistique de variables x et y, est le
nombre r défini par :
 XY Cov X , Y 
r  r X ,Y    ,
 X Y  X Y
Avec  X et  Y sont les écart types de X et Y.
 1  r  X ,Y   1
Ce coefficient sert à mesurer la qualité d’un ajustement linéaire (ajustement affine).
Plus le coefficient de corrélation linéaire est proche de 1 en valeur absolue, meilleur
est l’ajustement linéaire.

En général; si  0.75  r  X , Y   0.75 alors on a une faible corrélation linéaire


Et si r  X , Y   0.75 on a une forte corrélation linéaire
La coordinatrice F .Laboudi Page 6
1° Année MI coordination – Statistique Double
Propriété :
Si X et Y sont deux variables indépendantes, alors r  X , Y   0 .

Démonstration :
Cov X , Y 
r X ,Y  
 X Y

  n x  X  y j  Y 
k l
Cov  X , Y  
1
ij i
n i 1 j 1

xi  X y j  Y 
k l ni j
 
i 1 j 1 n
k l
   f i j xi y j  X Y
i 1 j 1

Si X et Y sont indépendantes alors f i j  f i . . f. j


k l
cov  X , Y     f i j xi y j  X Y
i 1 j 1
k l
   fi. f. j xi
i 1 j 1
yj  X Y
k l
  f i . xi  f. j y j  X Y
i 1 j 1

 XY  XY
0
Exemple 2:
On désire étudier la corrélation entre
La variable X : le nombre d’absences
La variable Y : la moyenne générale obtenue de 30 étudiants.
Les résultats sont donnés dans le tableau de contingence suivant :

Y [0,4[ [4,8[ [8,12[ [12,16[ ni .


X

0 0 0 3 5

1 0 3 1 0

2 3 4 1 0

3 5 3 2 0

n. j

La coordinatrice F .Laboudi Page 7


1° Année MI coordination – Statistique Double
1- Calculer la moyenne et la variance des deux variables X et Y.
2- Les variables X et Y sont-elles indépendantes ?
3- Calculer la covariance des variables X et Y. déduire le coefficient de corrélation
linéaire.

Réponse : tous les calculs sont donnés dans le tableau suivant


Y [0,4[ [4,8[ [8,12[ [12,16[ ni . ni . xi
X 2 6 10 14
ni . xi2

0 0 0 3 5 8 0 0
0 0 0 0
1 0 3 1 0 4 4 4
0 18 10 0
2 3 4 1 0 8 16 32
12 48 20 0
3 5 3 2 0 10 30 90
30 54 60 0
n. j 8 10 7 5 30 50 126

n. j y j
16 60 70 70 216

n. j y 2j 32 360 700 980 2072 252


k
1 50
X  
n i 1
ni . xi 
30
1.66
,
l
1 216
Y   n .j y j   7.2
n j 1 30
1 k
V  X    ni . xi  X 2 
126
 X  1.44   x  1.2
2 2

n i 1 30
k
V Y    n. j y j  Y 2 
1 2072
 Y  17.23   Y  4.15
2 2

n i 1 30

Les variables X et Y sont-elles indépendantes ?


8 8
f11  0  .  f1. . f .1 . Donc X et Y ne sont pas indépendantes.
30 30
La covariance entre X et Y.
1 252
Cov( X , Y )  
n i j
ni j xi y j  X .Y =
30
 (1.66).(7.2)   3.55 .

La covariance est négative, les variables varient en sens opposé.

Le coefficient de corrélation linéaire. Interpréter.


 3.55
r X ,Y 
cov ( X , Y )
   0.71 . : Une faible corrélation linéaire
 X Y (1.2).(4.15)

La coordinatrice F .Laboudi Page 8


1° Année MI coordination – Statistique Double
12- Régression linéaire :
a. Nuage de points et le point moyen:
On considère deux variables statistiques numériques X et Y observées sur une même
population de n individus.
On note x1 , x2 ,..., xn les valeurs relevées pour la première variable et
y1 , y 2 ,..., y n les valeurs relevées pour la deuxième variable.

Dans un repère orthogonal, on appelle nuage de points, l'ensemble des points:


M 1  x1 , y1  , M 2  x 2 , y 2 …… M n  x n , yn  . Le nuage donne immédiatement
des informations de nature qualitative. Pour en tirer des informations plus
quantitatives. Le tracé met en évidence la possibilité de "reconnaitre" graphiquement
la relation fonctionnelle entre les deux variables observées. Ce nuage peut avoir une
forme allongée (au voisinage d’une droite) ou curviligne ou parabolique ou très
dispersée.
Dans le cas où le nuage a une forme allongée au voisinage d’une droite, on cherche à
trouver l’équation de la droite qui passe par le maximum de points, c’est la droite de
régression. Dans le cas où le nuage de point à une forme curviligne ou parabolique ou
autres, on cherche à établir une relation fonctionnelle entre les deux variables : c’est
le problème de l’ajustement.

 
Le point moyen, c’est le point de coordonnées X , Y , ce point est noté
G  X , Y  on l’appelle aussi le centre de gravité ou le barycentre.

b. Coefficient de détermination :
Il est à noter que, pour laisser de côté le signe du coefficient de corrélation r  X , Y  ,
on préfère s’intéresser au coefficient de détermination de la série, qui est le nombre
noté R  r  X , Y  (le carré du coefficient de corrélation)
2 2

Ce coefficient varie entre 0 et 1. C’est un indicateur, qui permet de juger la qualité


d’une régression linéaire simple. Il mesure l’adéquation entre le modèle et les
données observées ou encore, à quel point l’équation de régression est adaptée
pour décrire la distribution des points.
 Si R² est nul, cela signifie que l’équation de la droite de
régression détermine 0 % de la distribution des points, et que le modèle
mathématique utilisé n’explique absolument pas la dispersion des points.
 Si R² vaut 1, cela signifie que l’équation de la droite de régression est
capable de déterminer 100 % de la distribution des points.

Plus le coefficient de détermination se rapproche de 0, plus le nuage de points se


disperse autour de la droite de régression. Et plus le coefficient de détermination
tend vers 1, plus le nuage de points se resserre autour de la droite de régression.

 Si R²= 1 tous les points sont exactement alignés sur la droite de régression.

La coordinatrice F .Laboudi Page 9


1° Année MI coordination – Statistique Double
Par exemple, un coefficient de détermination égal à 0,8, indique que 80% de la
dispersion totale est « expliquée » par la droite de régression linéaire.
(La notation du coefficient de détermination en MAJUSCULE)

Exemple 3 :
Le tableau suivant donne l’évolution du nombre d’adhérents à un club, de 2008 à 2013.
Année 2008 2009 2010 2011 2012 2013

rang Xi 1 2 3 4 5 6
Y i :le nombre 70 90 115 140 170 220
d’adhérents

On donne :
6 6 6 6 6


i 1
xi  21 ,  yi  805 ,  x
i 1 i 1
2
i  91 , 
i 1
y 2
i  213125 , 
i 1
xi y i  3325
Le but est d’étudier cette série statistique de deux variables (le rang et le nombre d’adhérents),
afin de prévoir l’évolution du nombre d’adhérents pour les années suivantes.

La première étape consiste à représenter graphiquement les données :

On peut remarquer que le nuage de points a une forme allongée au voisinage d’une droite,
donc un ajustement linéaire est envisageable.
1 6 21
X 
6 i1
xi   3.5
6 ,
6
1 805
Y  yj 134 .17
6 j 1 6

1 6 2
V  X    xi  X 2 
91
 X  2.92   x  1.71
2

6 i1 6
6
V Y    y j  Y 2 
1 213125
 Y  2519 .25   Y  50.19
2 2

6 i1 6

La coordinatrice F .Laboudi Page 10


1° Année MI coordination – Statistique Double
La covariance entre X et Y.
1 6
 3.5134 .17   84.58
3325
Cov( X , Y )  
6 i1
xi y j  X .Y 
6

Le coefficient de corrélation linéaire. Interpréter.

r X ,Y 
cov ( X , Y ) 84.58
  0.98
 X Y (1.71).(50.19)

Le coefficient de détermination : R  r
2 2
 X ,Y   0.96
Donc 96% de la dispersion est expliquée par la régression linaire
Une très forte corrélation linéaire.

Exemple 4 :
Lors d’un examen d’une durée de 04h, on a relevé la durée de composition (c’est-à-dire
au bout de combien de temps chacun a rendu sa copie) : Y
et la note (sur 20) X des12 étudiants qui se sont présentés.

Numéro de 1 2 3 4 5 6 7 8 9 10 11 12
l’étudiant
La note : Xi 8 14 9 17 19 3 7 15 12 11 9 16

La durée Y i 2h45 3h25 2h15 4h 3h50 1h 3h30 4h 4h 3h15 2h50 3h30


La durée en 165 205 135 240 230 60 210 240 240 195 170 210
(mn)

Le nuage de points est dispersé, l’ajustement linéaire n’est pas approprié, le coefficient de
détermination R  r  X , Y   0.5 , donc une faible corrélation linéaire.
2 2

La coordinatrice F .Laboudi Page 11


1° Année MI coordination – Statistique Double

13. Droites de régressions :(ajustement linéaire) :

On peut avoir besoin d’effectuer une approximation du nuage par une courbe, dépendant
de sa distribution, afin d’obtenir, par exemple, une prévision d’un certain phénomène.
C’est cette approximation que l’on appelle ajustement.
Dans un premier temps, nous allons nous intéresser à des ajustements par des fonctions
affines, ce qui n’a un sens que lorsque le nuage de points semble être distribué le long
d’une droite.

a. Ajustement affine par la droite de Mayer


Une des méthodes les plus simples, consiste à partager le nuage de points en deux
groupes (choisis en fonction de la forme du nuage, mais, très souvent, on partage le
nuage en deux groupes de points de même effectif). Chacun de ces nouveaux nuages
admet un point moyen (G1 pour le premier nuage, G2 pour le second) ; la droite
(G1G2), appelée droite de Mayer, constitue alors une approximation du nuage.

b. Ajustement affine par la méthode des moindres carrés


Le moyen le plus couramment employé pour approcher un nuage de points par une
droite, est la méthode des moindres carrés. L’objectif est de choisir la droite de telle
sorte que la somme des carrés des « distances » entre les points du nuage et la droite
soit la plus petite possible.

 Droite de régression de Y en X :
La droite D d’équation Y  a X  b est appelée droite de régression de Y en X , si
et seulement si, la quantité suivante est minimale
n n 2
 M i Qi     yi  a xi  b 
2
i 1 i 1

Y a X b :
Cov X , Y 
a , b Y  a X .
V (X )
b est tel que , la droite passe par le point moyen G  X ,Y : le centre de gravité.

 Droite de régression de X en Y:
La droite D d’équation X  Y   est appelée droite de régression de X en Y ,
n 2
si et seulement si la quantité  xi   yi    est minimale
i 1
D:X  Y  
Cov X , Y 
 ,   X  Y
V (Y )
 est tel que la droite passe par le point moyen G  X ,Y : le centre de gravité.

La coordinatrice F .Laboudi Page 12


1° Année MI coordination – Statistique Double

Remarque :

- Les deux droites D  et D  passent par le même point G X , Y : le 
point moyen ou centre de gravité.

- D  et D sont perpendiculaires si et seulement si r  X ,Y   0 :


D  : Y  Y car :
Cov X , Y 
a  0 , b Y  a X  Y
V (X )

D:
X  X car :
Cov X , Y 
 0 , X
V (Y )

- D  et D sont identiques (confondues) si et seulement si


r  X , Y   1 : ceci correspond, aux cas où les points sont alignés, la
corrélation est maximale.

La coordinatrice F .Laboudi Page 13


1° Année MI coordination – Statistique Double
Exemple 5:

La distance de freinage d’un véhicule sur une route sèche, en fonction de sa vitesse est
donnée par le tableau suivant :

X 30 40 50 60 70 80 90 100 110 120


vitesse(km/h)
Y 12 14 28 36 48 64 80 96 114 148
distance (m)

1. Représenter graphiquement la série (X,Y). Que peut-on dire sur la liaison entre X et Y.
2. Calculer le coefficient de corrélation linéaire entre X et Y. donner le coefficient de
détermination, que peut-on conclure ?
3. Donner les équations des deux droites de régression.
4. Peut-on estimer la distance de freinage, si le véhicule roule à 130 km/h ?

On donne :
10 10 10 10 10
2 2
 xi  750 ,  yi  640 ,  xi  64500 ,  yi  59336 ,  xi y i  60060
i 1 i 1 i 1 i 1 i 1

Réponse :

X  75 V  X   6450  75   825  X  28,72


2

Y  64 V Y   5933,6  64  1837 ,6 ,  y  42,86


2

COV  X , Y   6006  75 64  1206

Le coefficient de corrélation linéaire entre X et Y :


COV  X , Y  1206
r  X ,Y    0.98
 X Y 28,72 42,86 
R 2  r 2  X , Y   0,96 Très forte corrélation linéaire

La coordinatrice F .Laboudi Page 14


1° Année MI coordination – Statistique Double
 La droite de régression de Y en X : Y  1,45 X  45,5
Cov  X , Y  1206
a   1,46
V X  825
b  Y  a X   45,5

 La droite de régression de X en Y : X  0,66Y  32,96


Cov  X , Y  1206
   0,66
V Y  1837 ,6
  X   Y  32,96

Si X =130 Alors Y  1,45130   45,5  143 mètres

14. Autres ajustements :


Un ajustement linéaire (affine) est adapté, lorsque les points du nuage semblent être
répartis le long d’une ligne droite. Lorsque le nuage est « allongé » mais a une autre
forme, on a recours à un ajustement différent, il en existe de nombreux, reposant sur
différentes familles de fonctions : les fonctions logarithmes, exponentielles,
puissances, logistiques, etc.

a. Ajustement exponentiel
C’est un ajustement qui s’applique pour des phénomènes à croissance forte ou à
décroissance rapide, il peut être recommandé d’approcher la forme générale du nuage
a x b
par une fonction exponentielle de la forme x  e . Pour déterminer les valeurs
de a et b on effectue un ajustement affine (par la méthode des moindres carrés) sur
la série  xi , ln yi  . en posant zi  ln yi
aX b
Faire un ajustement : Z  ln Y  aX  b  Y  e
Cov  X , Z 
Avec ; a 
V X 

b Z a X
Exemple 6 :
Le tableau ci-dessous indique le salaire brut annuel, en euros, perçu par un cadre.

Année 2005 2006 2007 2008 2009

rang Xi 1 2 3 4 5
Y i : le salaire annuel 42900 50200 64100 81600 125000
zi  ln yi 10.66 10.83 11.07 11.31 11.73
5 5 5 5 5
On donne : 
i 1
xi  15 ,  zi  55.6 ,  x
i 1 i 1
2
i  55 , 
i 1
z 2
i  618 .98 , 
i 1
xi z i  169 .4

La coordinatrice F .Laboudi Page 15


1° Année MI coordination – Statistique Double

La répartition des points au sein du nuage laisse penser que l’augmentation du salaire
de ce cadre est de plus en plus rapide au fil des années, phénomène qui ne peut pas être
modélisé pas une droite.

On fait une régression entre X et Z  ln Y :

X 3 V  X   11  3  2  X  1.41
2

Z 11.12 V Z   0.14 ,  Z  0.37

COV  X , Z   33.88  311.12   0.52

Le coefficient de corrélation linéaire entre X et Z :


COV  X , Z 
r  X , Z 
0.52 0.52
   0.9967
 XZ 1.410.37  0.5217
R2  r 2  X , Z  0.9934  1
La droite de régression de Z en X :
Z  a X b
Cov  X , Z  0.52 
a   0.26 et b  Z  a X  10.34
V X  2

Z  ln Y  0.26 X  10.34
Y  e0.26 X 10.34
Un très bon ajustement fonctionnel entre les variables X et Y :
Y  e0.26 X 10.34  exp 0.26 X 10.34

La coordinatrice F .Laboudi Page 16


1° Année MI coordination – Statistique Double

Le coefficient de corrélation linéaire entre X et Z = ln(Y) est très proche de 1.


( R  X , Y   0.9935 ), Un très bon ajustement est justifié entre X et Z  ln Y
2

Une prédiction (estimation) du salaire annuel de ce cadre en 2020 est :

Z  ln Y  0,26 X  10,34
X  6 : ln Y  0,26 6  10,34 11,9
Y  exp 11,9 147266 ,62 euros

b. Ajustement logarithmique
A l’opposé des fonctions exponentielles, les fonctions logarithmes x  a ln x  b
sont tout à fait indiquées dans la modélisation des phénomènes à décroissance lente.
Pour cela, on effectue un ajustement affine sur la série  ln xi , yi  , en posant
zi  ln xi , faire un ajustement affine entre Y et Z , c’est trouver l’équation de la
droite de régression de Y en Z, par la méthode des moindres carrées.
Y  a Z  b  a ln X  b
Avec :
Cov Z , Y 
a et b Y  a Z
V Z 
Exemple 6:
Le tableau ci-dessous donne la production d’électricité d’origine nucléaire en France,
exprimée en milliards de kWh entre 1995 et 2019 (source : site web du Ministère de
l’industrie).
Année 1995 1998 2001 2004 2007 2010 2013 2016 2019

rang X i de 5 8 11 14 17 20 23 26 29
l’année
Y i : la 137.9 213.1 297.9 358.8 395.2 401.3 416.5 420.7 427.7
production
zi  ln xi 1.61 2.08 2.40 2.64 2.83 3.00 3.14 3.26 3.37

La coordinatrice F .Laboudi Page 17


1° Année MI coordination – Statistique Double

Le nuage de points M i  x i , yi  :

On remarque que le nuage de points n’a pas une forme allongée au voisinage d’une
droite, donc un ajustement linéaire n’est pas approprié.

La distribution des points du nuage suggère un ajustement logarithmique.


Pour l’effectuer, nous allons travailler sur la série  zi , yi  =  ln xi , yi  avec zi  ln xi
Et de trouver l’ajustement linéaire : Y  a Z  b  a ln X  b
Avec
Cov Z , Y 
a
V Z 
b Y  a Z

Le nuage de points M i  z i , yi  :

Le nuage de points donne une allure d’une droite, donc un ajustement linéaire sera
adapté.

La coordinatrice F .Laboudi Page 18


1° Année MI coordination – Statistique Double

(Un calcul par excel nous donne l’équation de la droite de régression ainsi que le coefficient
de détermination) :

L’ajustement fonctionnel entre Y et X est :

Y  173,86 ln X  128,71

Le coefficient de détermination R 2 Z , Y   R 2 ln X , Y   0.95


Une prédiction de la production d’électricité pour l’année 2021, correspond au rang X  31
Pour
X  31  Y  173,86 ln 31  128,71
Y  468,32 KWH

La coordinatrice F .Laboudi Page 19

Vous aimerez peut-être aussi