Vous êtes sur la page 1sur 23

CHAPITRE I

NOTIONS DE LA STATISTIQUE
DESCRIPTIVE

17/02/2018

 La statistique descriptive est une branche de la statistique qui


s’intéresse comme son nom l’indique à décrire les données, à les
classer, à les présenter, à les résumer par des indicateurs
statistiques….
 Une terminologie de base est nécessaire pour tout travail statistique:
 Population : ensemble d’individus sur lesquels on effectue une étude
statistique.
 Échantillon : sous-ensemble de la population.
 Recensement : enquête dans laquelle les observations (mesures, questions…)
portent sur la population entière.
 Sondage : enquête dans laquelle les observations portent sur un échantillon de
la population.
 Données: faits et chiffres qui sont collectés, analysés, résumés, et
interprétés
◦ En coupe transversale: collectées au même moment
◦ Des séries temporelles: sur plusieurs périodes de temps (des années, des
semaines..)
 Éléments (individus): entités auprès desquelles les données sont collectées

17/02/2018

1
 Variable (caractère): caractéristique des éléments que l’on désire étudier
 Modalité: les différentes valeurs que peuvent prendre une variable
 Observations: l’ensemble des mesures collectées pour un élément
particulier
 Un caractère est une propriété des individus d’une population, que l’on
décide d’observer et analyser.
Dans une même étude statistique, on pourra considérer plusieurs
caractères simultanément sur une même population.
On distingue deux types de caractères :
 Les caractères qualitatifs: lorsqu’il prend des modalités non numériques,
il est dans ce cas nominal ou ordinal.
 Les caractères quantitatifs: quand les modalités sont numériques.
- Si le caractère ne prend qu’un nombre fini de valeurs, on dira de
plus qu’il est discret (nombre d’enfants par famille, nombre de jours de
retard d’un étudiant…).
- S’il peut prendre toute valeur dans un intervalle donné, il sera dit
continu (tailles, poids, durée…).

17/02/2018

SCHEMA RECAPITULATIF

17/02/2018

2
Dans le cas d’un caractère qualitatif ou quantitatif discret, On
recense les k différentes modalités prises par la variable.
 Pour chaque modalité, on compte le nombre d’individus
pour les quels la variable prend cette modalité. On appelle
ce nombre effectif de la modalité et on note ni l’effectif de
la i-ème modalité.
La somme des effectifs des différentes modalités doit être égale
à l’effectif totale, k n  n  n  ....  n  N

i 1
i 1 2 k

Souvent il est préférable de calculer le pourcentage d’individus


au lieu de l’effectif puisqu’il fait référence à l’effectif total.
 Ce pourcentage sera appelé proportion ou fréquence.
effectif de la valeur
proportion d' une valeur 
effectif total
n
On note pi la proportion de la i-ème modalité, pi  i
N
17/02/2018

VARIABLE QUALITATIVE NOMINALE

Exemple 1:
Dans une école d’ingénieurs, on a voulu connaitre les préférences des étudiants par rapport
Aux filières qu’ils voudront choisir à la fin du 1er cycle, l’enquête a donné les résultats
Suivants:
Modalités Effectifs Fréquences %
GCI 60 0.200 20,0
GIA 160 0,533 53,3
GMA 40 0,133 13,3
GLA 40 0,133 13,3
Total : 300 1 100
Diagramme circulaire ou camembert Diagramme en barres
180
GMAA GCI 160
160
13%
20%
140

GLA 120
13% 100

80
60
60
40 40
40

20
GIA 0
54%
GCI
Bleu GIA
Noir GMA
Noisette GLA
Vert

3
Exemple 2:
On a questionné les étudiants de la classe 2AP2 sur le nombre des modules estimés
Par eux les plus difficiles dans ces deux années préparatoires, les réponses recensés
sont les suivantes:
2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 8
Modalité Effectif Fréquence
(fréquence relative
absolue) (proportion)

Nombre de ni fi = (ni / n)
chambres
2 6 0,0741
3 25 0,3086
4 29 0,3580
5 10 0,1235
6 8 0,0988
7 2 0,0247
8 1 0,0123

Total  ni = n = 81 1

LES DIAGRAMMES EN BÂTONS


Distribution
Distribution du du nombredesdemodules
nombre chambres Distribution de la proportion des modules
30 0,4

0,3
fréquence relative

20
E ffec tif

0,2

10
0,1

0
0
2 3 4 5 6 7 8
2 3 4 5 6 7 8
Nombre desde
Nombre modules
chambres Nombre dedes
chambres
Nombre modules

17/02/2018

4
Variable quantitative Continue
 Quand le nombre de modalités pour une variable statistique est assez grand,
on serait ramené des fois à regrouper les données dans des intervalles.
 Les intervalles ou les classes sont toujours adjacentes recouvrant l'ensemble
des valeurs : chaque individu appartient à une classe et une seule.
 Quel que soit le type de variable on a finalement, pour toute classe [ ei , ei+1 [,
un effectif ni , tel que k
n  n1  n2  ....  nk  N
i
i 1 n
et de fréquence (relative) f i la valeur f i  i ,que l'on peut aussi exprimer en
pourcentage par f x 100, c'est le pourcentage N d'individus pour lesquels la
i
variable a pris une valeur de la classe [ ei , ei+1 [.
o On note ci le centre de la classe [ ei , ei+1 [

ei  ei 1
ci 
2

Exemple 3:
Voici en ordre croissant la note sur 1000 obtenue par 81 élèves
bacheliers dans un test en culture générale:

45 46 48 48,5 48,5 49 49,5 49,5 49,5 49,5 50 56 57


46 68 69 69,5 69,5 70 70 71 72 73 75 75 75 79
79,5 80 88,5 89,5 91 91,5 92 92,5 93 94,5 95 96 100
104 104,5 114 118 120 120,5 136 136 137,5 137,5 138
138,3 130 148 150 150 152 157 161 163 164 170 179
190 194,5 200 230 266 270 324 339 340 352 365
370 390 403 430 511 524 754 988

17/02/2018

5
• Regroupons d’abord ces données dans des classes
de même amplitude
Classe des valeurs Effectif Fréquence
totales relative (%)
[ 0 ; 50[ 10 12,34%
[50 ; 100[ 28 34,56%
[100 ; 150[ 15 18,51%
[150 ; 200[ 11 13,58%
[200 ; 250[ 2 2,46%
[250 ; 300[ 2 2,46%
[300 ; 350[ 3 3,7%
[350 ; 400[ 4 4,93%
[400 ; 450[ 2 2,46%
[450 ; 500[ 0 0%
[500 ; 550[ 2 2,46%
[550 ; 600[ 0 0%
[600 ; 650[ 0 0%
[650 ; 700[ 0 0%
[700 ; 750[ 0 0%
[750 ; 800[ 1 1,23%
[800 ; 850[ 0 0%
[850 ; 900[ 0 0%
[900 ; 950[ 0 0%
[950 ; 1000[ 1 1,23%
Total 81 100%

Histogramme pour
Histogramme pour la superficie
la note desleterrains
obtenue dans test

30 28

20
15
Effectif

11
10
10

4
3
2 2 2 2
1 1
0

0 1 2 3 4 5 6 7 8 9 10
Acres

17/02/2018

6
Pour éliminer les classes dont l’effectif est nul, on passe à des
classes d’amplitudes différentes:
Classe des valeurs Effectif Fréquence
totales relative (%)
[ 0 ; 50[ 10 12,34%
[50 ; 100[ 28 34,56%
[100 ; 150[ 15 18,51%
[150 ; 200[ 11 13,58%
[200 ; 300[ 4 2,46%
[300 ; 400[ 7 8,46% Histogramme avec classes élargies:
[400 ; 500[ 2 2,46% exemple de ce qu’il ne faut pas faire!!
[500 ; 600[ 2 2,46%
[600 ; 1000[ 2 2,46% Histogramme pour lapour
Histogramme note obtenue des
la superficie dans le test
terrains

Total 81 100% 30 28

20
15

Effec tif
11
10
10
7
4
2 2 2
0

0 1 2 3 4 5 6 7 8 9 10
Acres

 Pour dessiner un histogramme représentant la distribution des


données dans le cas où nous avons des classes élargies, c ’est-à-
dire où les classes ne sont pas toutes d ’égales longueurs, il faut
absolument utiliser l’effectif corrigée ou la fréquence corrigée
en divisant par l’amplitude de la classe.

Histogramme pour
Histogramme la note
pour obtenuedes
la superficie dans le test
terrains

0,7
Échelle mathématique

0,6

0,5

0,4

0,3

0,2

0,1

0,0

0 1 2 3 4 5 6 7 8 9 10
Acres

7
 L'effectif cumulé croissant (ECC) d'une valeur (ou d'une classe)
est la somme des effectifs de cette valeur (ou de cette classe) et des
effectifs (ou des classes) précédentes.

 L'effectif cumulé décroissant (ECD) d'une valeur (ou d'une


classe) est la somme des effectifs de cette valeur (ou de cette
classe) et des effectifs (ou des classes) suivantes.

 La fréquence cumulée croissante (FCC) d'une valeur (ou d'une


classe) est la somme des fréquences de cette valeur (ou de cette
classe) et des fréquences (ou des classes) précédentes.
 La fréquence cumulée décroissante (FCD) d'une valeur (ou d'une
classe) est la somme des fréquences de cette valeur (ou de cette
classe) et des fréquences (ou des classes) suivantes.

Exemple: Prenons comme exemple de données statistiques la


répartition du nombre d’enfants dans un groupe de parents âgés de
plus de 50 ans.
Nombre d’enfants 0 1 2 3 4 5 6 7
par couple

Effectif 3 7 16 13 5 3 2 1

Fréquence 6% 14% 32% 26% 10% 6% 4% 2%

Effectif cumulé 3 10 26 39 44 47 49 50
croissant
Effectif cumulé 50 47 40 24 11 6 3 1
décroissant
Fréquence cumulée 6% 20% 52% 78% 88% 94% 98% 100
croissante %
Fréquence cumulée 100 94% 80% 48% 22% 12% 6% 2%
décroissante %

8
 Nous allons maintenant étudier les données relatives à la taille des
soldats incorporés dans un régiment.
Tailles des 1,50 ;1,60 1,60 ;1,70 1,70 ;1,80 1,80 ;1,90 1,90 ;2,00
soldats
Effectif 4 25 40 28 3

Fréquence 4% 25% 40% 28% 3%


E.C.C 4 29 69 97 100

F.C.C 4% 29% 69% 97% 100%

E.C.D 100 96 71 31 3

F.C.D 100% 96% 71% 31% 3%

Centre de 1,55 1,65 1,75 1,85 1,95


classe

 On pourrait définir La fréquence relative cumulée ou la


fréquence cumulative pour tout réel par:
F(r)=P[Xr]
C’est la proportion des individus de la population(ou de
l’échantillon) pour lesquels la valeur du caractère X est
inférieure ou égale à r.
 La fréquence relative cumulée est par définition une fonction
croissante.
 Si la variable est discrète, le graphique d ’une fonction de ce type
présentera toujours l ’aspect d ’un escalier.
Comme il s ’agit d ’une fonction de proportion cumulée, le premier
palier sera toujours à la hauteur 0 et le dernier palier à la hauteur 1.
 Si la variable est continue: nous considérons que le cumul des
données s ’effectue de façon linéaire entre le début et la fin de
chaque intervalle. La fonction est croissante, sa
valeur passe progressivement de 0 à 1.

9
LES PARAMETRES STATISTIQUES
 Les paramètres statistiques ou les indicateurs statistiques sont
des valeurs calculées pour les caractères quantitatifs, elles ont pour
but de résumer, à partir de quelques nombres clés, l'essentiel de
l'information et de permettre l’interprétation des données
statistiques.
 Les paramètres les plus utilisées sont ceux de position et de
dispersion:
Les indicateurs de position les plus utilisées sont ceux de tendance
centrale car ils représentent une valeur numérique autour de
laquelle les observations sont réparties.
Les indicateurs de dispersion permettent de nous renseigner sur la
manière dont les différentes observations sont réparties autour des
différentes caractéristiques de tendance centrale.

 Considérons une variable statistique quantitative


X : ( x1 , x2 , x3 ,......., xn ) avec ( x1 , x2 , x3 ,......., xn ) sont les
valeurs observées. La moyenne arithmétique observée de cette
série statistique (xi, 1 ≤i≤ n) se ncalcule de la manière suivante :
1
x   xi
n i 1
 Considérons la série statistique (xi, ni); avec xi les modalités et
ni les effectifs correspondants.
La moyenne arithmétique dans ce cas serait égale à:
1 m
x   ni xi
n i 1
n est l’effectif total, m le nombre de modalités.
Si fi est la fréquence correspondante à la modalité xi, la moyenne
arithmétique serait égale aussi à: m
x   f i xi
i 1

10
 Considérons la série statistique (xi, 1≤ i ≤ n) regroupée dans m
classes ei , ei 1  dont ci est le centre. On note ni les effectifs
correspondants aux mêmes classes. La moyenne arithmétique dans ce
cas serait égale à: 1 m
x   ni ci
n i 1
 Si fi est la fréquence correspondante à la classe ei , ei 1 , la
moyenne arithmétique est calculée par:
m
x   f i ci Abs Effectif Classes Effectif
i 1
Exemple: Un chef d’entreprise 5 3 [2000, 4000[ 20

demande au responsable des 6 1 [4000 – 6000[ 22


ressources humaines de lui calculer 7 13 [6000 – 8000[ 12
la moyenne des absences durant ce 8 16 [8000 – 10000[ 5
semestre et la moyenne des salaires 9 21 [10000 – 16000[ 4
en vue de préparer l’assemblée 10 19 [16000 – 30000[ 2
générale. 11 11 Total 65
Total 84

 Le mode est la valeur la plus fréquente.


 Cas d'une variable discrète : Le mode est la modalité dont la
fréquence ou l’effectif est le plus élevée.
 Cas d'une variable continue: Les données sont groupées en classes;
deux situations se présentent: les amplitudes sont égales ou non.
• Si les amplitudes sont égales : on définit la classe modale comme la
classe correspondant
100
à la fréquence la plus élevée.
90
80
70
60
50
40
30
20
10
0
900 1400 1900 2400 2900 3500 ou plus...

Mode Classe modale

11
 Supposons que [ei , ei 1[ est la classe modale et ai  ei 1  ei
l’amplitude de la classe modale.
 i  ni  ni 1 : la différence entre l’effectif de la classe modale et la
classe qui lui est inférieure.
 s  ni  ni 1: la différence entre l’effectif de la classe modale et la
classe qui lui est supérieure. La valeur modale est donnée
approximativement par la formule suivante:
i
M o  ei  ai
i   s
Si les amplitudes sont inégales : on définit la classe ei , ei 1 
modale comme étant la classe correspondant à la densité ou l’effectif
corrigé le plus élevé. La valeur modale est calculée dans ce cas
à l’aide des effectifs corrigés ou des densités.
ic
M o  ei  ai ;  i c  nic  ni 1c
i c   s c

 Cas d’une variable discrète: On range les valeurs observées par


ordre croissant. La médiane Me est la valeur du milieu de la série
d’observations, c.à.d. telle qu'il y ait autant d'observations « à
gauche » qu’ « à droite ».
• Si l’effectif total est impaire, la médiane est la valeur classée
(n+1)/2 qu’on note x n 1.
2

• Si l’effectif total est paire, on n’a pas une valeur médiane mais un
intervalle médian et on prend comme valeur médiane le centre de
cette classe: [ x n , x n 1[ càd
2 2
xn  x n
1
2 2
Me 
2

12
 Cas d’une variable continue: Pour déterminer la médiane on fait
L’interpolation dans la classe médiane. Considérons pour cela la série statistique
Suivante:
1
[ei – ei+1[ Fcc
0,9
0,8
[0-3[ 0,391 0,7
0,6
M [3-5[ 0,680 0,5 0,5 0,5
0,4
[ 5 - 10 [ 0,920 0,3
0,2

[10 - 20 [ 0,963 0,1


0

[20 - 30 [ 0,993 -10 Me


0 10 20 30 40 50 60

[30 - 50 [ 1
De manière générale si a et b sont les
M-3 0,5-0,391 bornes de la classe contenant la médiane,
 F(a) et F(b) les valeurs de la fréquence
5-3 0,680-0,391
0,5  0,391 cumulée croissante en a et b, alors
D'où M  3   5  3  3,22
0,680  0,391
0,5  F (a )
Me  a  (b  a )
F ( b)  F ( a )

PARAMETRES DE POSITION: LES QUARTILES


 Une distribution quelconque admet 3 quartiles Q1, Q2 et Q3.
25 % des valeurs de la série seront inférieures à Q1.
50 % des valeurs de la série seront inférieures à Q2. Il est claire que
Q2 est la médiane.
75 % des valeurs de la série seront inférieures à Q3 et plus de 25 %
lui seront supérieures.
 Dans le cas discret:
• Si n désigne l’effectif total, Q1 sera égal à xi, où i est calculé de
la manière suivante:
 Si n/4 n’est pas entier, i serait égale au plus petit entier supérieur
à n/4.
 Si n/4 est entier, xi serait égale à la moyenne de x(n/4) et de
x((n/4)+1).
• Q3 sera égal à xi, où i est le plus petit entier supérieur à 3n/4 s’il
n’est pas entier sinon i serait égale à la moyenne de 3n/4 et de
(3n/4)+1 .

13
Modalités 7 11 13 17 19
n / 4  39 / 4  9,75  i  10 et Q1  x10  7
Effectifs 11 12 7 4 5
ECC 11 23 30 34 39 3n / 4  29,25  i  30 et Q3  x30  13

 Dans le cas continue: On détermine d’abord les intervalles contenant


Q1 et Q3.Comme on a fait pour le calcul de la médiane on procède
par interpolation linéaire.
Exemple:
Classes [2,10[ [10,18[ [18,26[ [26,32[ [32,40[

Effectifs 6 10 8 8 6
Fréquence 15,78% 26,31% 21,05% 21,05% 15,78%
FCC 15,78% 42,09% 63,14% 84,19% 100%
Q1  10 0 , 25  0 ,1578

18  10 0 , 4209  0 ,1578
0 , 25  0 ,1578
 Q1  10  (18  10 )   12 ,8
0 , 4209  0 ,1578

PARAMETRES DE DISPERSION
 L’étendu d’une série statistique est la différence entre la plus
grande valeur de la série et la plus petite. Par nature très sensible
aux valeurs extrêmes.
Exemple:
S1: 3 4 8 9 12 15 17 21 39 E1=36
S2: 1 4 8 9 12 15 17 21 52 E2=51
 L’Ecart absolu Moyen: On calcule la moyenne des valeurs
absolues des écarts à la moyenne.
1 n
 La variance: e   xi  x
n i 1
Soit X une variable statistique définie par:
X : ( x1 , x2 , x3 ,......., xn ) ( x1 , x2 , x3 ,......., xn )
La variance observée est la moyenne arithmétique des carrés des
écarts par rapport à la moyenne: 1
 x  x 
2
V (X )  i
n i 17/02/2018

14
On simplifie la formule de la variance dans le cas observé pour
obtenir ce qu’on appelle Formule de Koenig :
i ni xi 2 1 2 2
V(X) 
1
n i

 i
x  x
2
1
n i
x2
 i i  2 x x  x2

1
i
n i
x 2
 2 x
n
 x   xi  x
n i
2
 xi2  x
 L’écart type est la racine carrée de la variance:  X  V (X )
• La variance et l’écart type sont toujours positifs.
• Considérons la distribution Y  aX  b , donc V (Y )  a 2V ( X )
et  Y  a  X .
 Coefficient de variation: Le coefficient de variation est un
coefficient sans unité défini par: C.V   X
x
• Plus ce coefficient est proche de 0 plus la série statistique est
homogène. Généralement on considère qu’une série est dispersée une
fois le coefficient de variation dépasse 0,15.

Les Effectif Les centres


x  24,05
classes
[0,5[ 15 2,5
1 2
[5,10[ 20 7,5 V (X )   ni ci2  x
n i
[10,15[ 15 12,5  1023,875  24,05 2

[15,20[ 10 17,5  445,4725


[20,30[ 10 25  X  445,4725
[30,50[ 12 40  21,106
[50,75[ 18 62,5
Total 100

15
On fait l’étude de deux caractères X et Y sur une population de n
individus.
Les modalités de X et Y sont:
X: x1, x2, …, xi, …, xk
Y: y1, y2, …, yj, …, yr
L’effectif de la classe (xi, yj) est noté : nij
 nij est le nombre d’individu ayant la modalité xi et la modalité yj.
 L’effectif total est : n   nij
i j

 On représente les données dans un tableau à double entrée qu’on


appelle tableau de contingence.
 ni    nij nombre d’individus ayant les modalités xi.
j
 (xi, ni) distribution marginale de X.
n
 j  i ij nombre d’individus ayant les modalités yj
n
 (yj, nj) distribution marginale de Y.

Y y1 y2 …. yj …. yr Marge
X
x1 n11 n12 n1j n1r n1.

x2 n21

xi ni1 nij ni.

xk nk1 nkr nk.

Marge n•1 n•j n•r n

16
n = 17500 salariés jeunes
X : âge
Y(x1000 Dh) : salaire
Y [5, 6[ [6, 7[ [7, 8[ ni•
X
[20, 22[ 1200 500 100 1800
[22, 24[ 2500 3500 600 6600
[24, 26[ 1800 5000 2300 9100
n•j 5500 9000 3000 17500

 Pour le calcul des fréquences on a:


 Fréquence du couple (xi, yj) : fij = nij / n
 Fréquence marginale de xi : fi• = ni./ n
 Fréquence marginale de yj : f•j = n.j / n

 Une série statistique à deux caractères quantitatifs,


(X, Y) est une série double dont les valeurs sont
données par les couples ( xi,yi), 1≤i ≤ N, N est
l’effectif total des observations pour les deux séries
statistiques
 L'ensemble de ces points forme un nuage de points.
Ce nuage peut avoir une forme allongée, curviligne
ou très dispersée.
 Point moyen du nuage
On appelle point moyen G(x; y) le point dont les coordonnées
sont les moyennes des valeurs xi et yi de la série.
xG   , yG  
xi yi
N N

17
 Exemple
Un responsable de ventes de magasin analyse l'évolution
de son chiffre d'affaires sur la dernière période. Il relève
pour cela le montant des frais de publicité engagés sur la
même période. Il dresse le tableau suivant (les montants
sont exprimés en centaines d'euros)
Frais de 10 6 6,5 11,5 11 8 7 6,5 11 9
publicité Xi
Chiffre 250 220 228 262 268 244 240 222 259 246
d'affaires yi

Nuage de points (C.A/ F.B)

280
270
260
250
C.A

240 C.A
230
220
210
200
5 6 7 8 9 10 11 12
F.B

18
95

90
Poids
Nom Taille xi (cm) Poids yi (kg)
85
ALI 175 73
80
AHMED 168 56
75
….. ….. …..
SALMA 185 87 70

65

60

55

50
Taille
150 160 170 180 190 200

La connaissance de la taille x apporte une certaine information sur le poids y


Il existe une relation de dépendance entre x et y

La connaissance de x n’apporte La connaissance de x permet de


aucune certaine information sur y connaître exactement la valeur de y

x et y sont indépendantes Il existe une relation fonctionnelle


entre x et y

19
DEFINITION DE LA COVARIANCE:

1 n
Cov  x,y  =   x i -x  y i -y 
n i=1
On simplifie cette formule pour retrouver la suivante:
Cov ( x , y )  xy  x y
Propriétés :
Cov  x,y   0  x et y varient dans le même sens

Cov  x,y   0  x et y varient en sens contraire

Cov  x,y   Cov  y,x 

Cov  x,x   V(x)


Cov  a x + b y , z   a Cov  x,z   b Cov  y,z 

 Revenons à l’exemple précédent:


Frais de 10 6 6,5 11,5 11 8 7 6,5 11 9 X
publicité Xi
8,65

Chiffre 250 220 228 262 268 244 240 222 259 246
d'affaires Y
243,9
yi
XiYi 2500 1320 1428 3013 2948 1952 1680 1443 2849 2214 XY
2140,1

COV(X,Y)=30,36

X et Y sont deux variables qui varient dans le même sens.

20
MESURE DE L’INFLUENCE MUTUELLE DE DEUX VARIABLES
STATISTIQUES (Corrélation linéaire)

cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)
Propriétés:

1  ρ  1
 ρ = 1 si a > 0
y=ax+b 
ρ = -1 si a < 0

ρ 1  Il existe une relation fonctionnelle entre x et y


  0  x et y sont independants
0  ρ 1  Il existe une dépendance linéaire d’autant plus forte que |r| est grand

95

90 y = Poids
85

80

75

70

65

60

55

50
x = Taille
150 160 170 180 190 200

Est-il possible de trouver une fonction numérique f telle que y = f (x) ?


Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.

x est la variable explicative.


y est la variable expliquée.

21
95

90 y = Poids
85

80

75

70

65

60

55

50
x = Taille
150 160 170 180 190 200

On désire trouver la droite qui passe « au mieux » à l’intérieur


du nuage de points

« au mieux »
n n
2
2
Minimiser S =  ei Minimiser S' =  e'i
i=1 i=1

95 95

90
y = Poids 90
y = Poids
85 85

80 80
e'i
75 ei 75

70 70

65 65

60 60

55 55

50
x = Taille 50
x = Taille
150 160 170 180 190 200 150 160 170 180 190 200

Droite de régression de y en x Droite de régression de x en y

22
95

90

85
y = Poids
80

Droite de régression 75 f(x) = y = ax+b


yi
linéaire de y en x 70

y = f(x) = ax + b axi+b
65
ei = |yi-axi-b|
60

55

50
150 155 160 165 170 175 180
x185= Taille
190

xi
n n
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = e i=1
i =   y -ax -b 
i=1
i i

  x -x  y -y 
i=1
i i
Cov  x,y  b = y - ax
a= n
=
2 V(x)
  x -x 
i=1
i Dy/x passe par le point moyen  x , y 

Ajustement linéaire (C.A/ F.B)


y = 7,4929x + 179,09
280
R2 = 0,9112
270
260
250
240 C.A
C.A

230 Linéaire (C.A)


220
210
200
5 6 7 8 9 10 11 12

F.B

23