Vous êtes sur la page 1sur 20

Statistiques

Table des matires


1

Statistique Descriptive pour Une Variable


1.1 Prsentation . . . . . . . . . . . . . . . . .
1.1.1 tapes dune statistique . . . . . . .
1.1.2 Vocabulaire statistique . . . . . . .
1.1.3 Graphiques . . . . . . . . . . . . .
1.2 Paramtres statistiques . . . . . . . . . . .
1.2.1 Paramtres de position . . . . . . .
1.2.2 Paramtres de dispersion . . . . . .
1.2.3 Changement dorigine et dchelle .
1.2.4 Centrage et rduction dun caractre
1.2.5 cart moyen la moyenne . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

3
3
3
3
6
6
6
7
8
8
9

tude Conjointe de Deux Variables


2.1 Srie statistique double . . . . . . . . . . . . . . . .
2.1.1 Deux caractres . . . . . . . . . . . . . . . .
2.1.2 Nuage de points . . . . . . . . . . . . . . . .
2.1.3 Point moyen . . . . . . . . . . . . . . . . .
2.2 Ajustement affine par une mthode graphique . . . .
2.2.1 Ajustement la rgle . . . . . . . . . . . . .
2.2.2 Droite de Mayer . . . . . . . . . . . . . . .
2.3 Mthodes utilisant des moyennes, lissage . . . . . .
2.3.1 mthode des moyennes mobiles . . . . . . .
2.3.2 mthode des moyennes chelonnes . . . . .
2.3.3 mthode des moyennes discontinues . . . . .
2.4 Ajustement affine par la mthode des moindres carrs
2.4.1 Covariance dune srie statistique double . .
2.4.2 Rgression linaire de y en x . . . . . . . . .
2.4.3 Rgression linaire de x en y . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

9
9
9
9
9
9
9
10
10
10
10
10
10
10
11
11

.
.
.
.

12
12
12
13
14

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

Corrlation linaire
3.1 Coefficient de corrlation linaire . . . . . . . .
3.2 Proprits du coefficient de corrlation linaire
3.3 Exemples de quelques cas possibles . . . . . .
3.4 Exemple de rgression exponentielle . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

1 Statistique Descriptive pour Une Variable


1.1 Prsentation
1.1.1 tapes dune statistique
Collecte des donnes Les observations sont effectues au sein dune population, relativement
un caractre, les rsultats constituent une srie statistique.
Par exemple les ges des lves dune classe, ou encore les nombres dlves du lyce reus au
BTS en 1997 ...
Analyse des donnes Il sagit de la dtermination de paramtres statistiques (effectifs, moyenne
...) qui permettent de caractriser la srie statistique.
Interprtation des rsultats laide de proprits mathmatiques et en laborant des tests on
espre obtenir des indications suffisantes pour une exploitation des rsultats (tudes de marchs
par exemple).
1.1.2 Vocabulaire statistique
Population La population est lensemble tudi, les lments de cette population sont appels
individus ou encore units statistiques.
Par exemple ltude du parc automobile en France se fera sur un ensemble de vhicules, la population est cet ensemble, les individus sont les vhicules.
chantillon Lorsque la population est importante on prfre prlever au hasard ou en tenant
compte de certains critres, une partie ou sous-ensemble de cette population cest lchantillon.
Sil est prlev au hasard on dira que cest un chantillon alatoire.
Variable statistique
Dfinition 1.1 La valeur statistique ou encore valeur du caractre est la mesure associe au caractre aprs avoir choisi une unit qui sera prcise.
Les diffrentes valeurs obtenues constituent la variable statistique.
Par exemple les ges des automobiles dans un chantillon seront 5, 2, ... (annes)
On distinguera deux types de variables statistiques suivant la nature mathmatique de lensemble
des valeurs que le caractre est susceptible de prendre.
Lorsque les valeurs du caractre sont isoles et appartiennent un ensemble fini de nombres ou
encore appartiennent un ensemble infini tel que N , Z, D, Q on dira que la variable est discrte.
Par exemple les ges des lves qui sont des nombres entiers positifs, mais ce pourrait tre dans un
autre contexte {20; 20, 5; 21; 21, 5 . . .} qui sont des dcimaux (dont le nombre de chiffres droite
de la virgule est fini : ici au plus un chiffre).
Ne pas confondre les dcimaux et les rels qui ont des critures dcimales illimites et ne sont pas tous
dcimaux.

On convient dordonner ces valeurs dans lordre croissant x1 < x2 < x3 < . . .
Au contraire, lorsque la variable peut prendre nimporte quelle valeur de R ou dun intervalle rel,
on dit quelle est continue

Dans le cas dune variable continue on ralise une partition de R ou de lintervalle de R contenant
les valeurs de la variable en k classes qui sont nots [a0 ; a1 [, [a1 ; a2 [, ..., [ai ; ai+1 [,..., [ak1 ; ak [ ou
bien [a1 ; a2 [, ..., [ai ; ai+1 [,..., [ak1 ; ak [, [ak ; ak+1 [ selon le cas.
Les centres des classes [ai ; ai+1 [ sont les rels ci = ai +a2 i+1 .
Effectif, frquence
Dfinition 1.2 Leffectif de la valeur xi dune variable est le nombre ni dobservations de la valeur
xi dans le cas discret ou le nombre dobservations dans la classe [a i ; ai+1 [ dans le cas continu.
en biologie, leffectif est appel la frquence absolue.
Leffectif total est le nombre total dobservations, cest la somme de tous les effectifs.
N = n1 + ... + nk1 + nk =

i=k
X

ni .

i=1

Dfinition 1.3 Les frquences sont les quotients des effectifs des valeurs du caractre ou des effectifs des classes par leffectif total.
fi =

ni
ni
= Pi=k
N
i=1 ni

Proprit 1.4 Pour tout i on a 0 fi 1.


En effet 0 ni

Pi=k
i=1

ni et donc en divisant par N =

Pi=k
i=1

ni on a 0

ni
N

N
N

= 1.

Proprit 1.5 La somme des frquences est 1,


i=k
X

fi = 1.

i=1

Pi=k
i=1

fi =

Pi=k

ni
i=1 N

1
N

Pi=k
i=1

ni =

1
N
N

= 1.

Histogramme : Les aires des rectangles de lhistogramme des effectifs sont proportionnelles aux
effectifs des classes, on ne porte pas dchelle sur le second axe lorsque les classes nont pas la
mme amplitude.

Exemple 1 (Voir fig.1)

Sil sagit de lhistogramme des frquences on agit de mme.


Srie statistique
Dfinition 1.6 Une srie statistique est lensemble des couples (xi ; ni ) ou ([ai ; ai+1 [; ni ).

amplitude de la classe
classe
effectif
2, 5 effectif / amplitude
(2, 5 est arbitraire)
hauteur en cm du rectangle

5
[0; 5[
4
2

5
[5; 10[
12
6

10
[10; 20[
12
3

20
[20; 40[
2
0, 25

2 cm

6 cm

3 cm

0, 25 cm

Amplitudes
6
5
4
3
2
1
0
-5

10

15

20

25

30

35

40

45

F IG . 1 Aires et Histogrammes.
Effectifs cumuls croissants, frquences cumules croissantes
Dfinition 1.7 Le tableau des effectifs cumuls croissants
sobtient en associant chaque classe
Pt=i
[ai ; ai+1 [, 1 i k, la somme des effectifs i = t=1
nt = n1 + n2 + ... + nt + ... + ni .

En gnral on dessine lhistogramme des effectifs cumuls croissants ou le polygone des effectifs
cumuls croissants.
Pt=i
i
On dfinit de mme les frquences cumules croissantes i = t=1
. On dessine aussi
ft = N
lhistogramme ou le polygone des frquences cumules croissantes.
Effectifs cumuls dcroissants, frquences cumules dcroissantes
nire semblable aux effectifs ou aux frquences cumuls croissants.

Se dfinissent dune ma-

Exemple 2 Dans le cas discret (Fig.2)


Exemple 3 Variable
Pt=k continue. chaque classe [ai ; ai+1 [, 1 i k, on associe la somme des
0
effectifs i = t=i nt = ni + ... + nt + ... + nk .
1.1.3 Graphiques
Les principaux graphiques sont
Lorsque la variable est discrte ou discontinue : le diagramme en btons, le polygone des effectifs
ou le polygone des frquences.
Lorsque la variable est continue : lhistogramme (les aires des rectangles de lhistogramme des
effectifs sont proportionnelles aux effectifs des classes).

1.2 Paramtres statistiques


1.2.1 Paramtres de position
Dominante ou mode

xi
ni
fi
frquences cumules croissantes
frquences cumules dcroissantes

0
0
1

2
2
0, 08
0, 008
0, 92

3
4
5
6
3
4
8
6
0, 12 0, 16 0, 32 0, 24
0, 2 0, 36 0, 60 0, 92
0, 8 0, 64 0, 32 0, 08

7
2
0, 08
1
0

Totaux
25
1

0.8

0.6

0.4

0.2

0
1

F IG . 2 Frquences cumules.

Dfinition 1.8 Lorsque la variable est discrte, une dominante ou mode est une valeur du caractre qui correspond un effectif maximum, la srie est unimodale, bimodale ... lorsque le nombre
de modes est 1, 2 ...
Lorsque la variable est continue, une classe modale correspondra un effectif maximum.

Remarque 1 Lexistence de plusieurs modes peut permettre de suspecter ou de mettre en vidence


lexistence au sein de la population de plusieurs sous-populations dorigines diffrentes.
Moyenne
Dfinition 1.9 Lorsque la variable est discrte la moyenne x de la srie statistique est la moyenne
pondre
Pi=k
n i xi
n 1 x1 + n 2 x2 + + n k xk
x = Pi=1
=
.
i=k
N
n
i
i=1
Lorsque la variable est continue la moyenne est
Pi=k
ni c i
x = Pi=1
i=k
i=1 ni

o les ci =

ai +ai+1
2

sont les centres des classes.

Mdiane
Dfinition 1.10 La mdiane est la valeur du paramtre x telle que la moiti de leffectif total
correspond la fois aux valeurs du paramtre infrieures et aux valeurs du paramtre suprieures
la mdiane.
Proprit 1.11 La mdiane est labscisse du point dintersection des polygones des effectifs cumuls croissants et dcroissants. Lordonne du point dintersection des deux polygones est N2 .

Lorsque la variable est continue et que la valeur de la mdiane se trouve dans la classe [a i ; ai+1 [,
les valeurs des frquences cumules croissantes sont i pour lensemble des classes prcdentes
et ensuite i+1 = i + fi (en ajoutant la frquence fi de la classe courante [ai ; ai+1 [), alors i
i )(0,5i )
0, 5 i+1 et la mdiane m se calcule par interpolation linaire : m ai = (ai+1a
qui se
i+1 i
simplifie en
ei (0, 5 i )
m = ai +
fi
o ei = ai+1 ai est lamplitude de la classe [ai ; ai+1 [.
En utilisant les effectifs cumuls on aurait


ei N
m = ai +
i .
ni 2
1.2.2 Paramtres de dispersion
Variance
Dfinition 1.12 Lorsque la variable est discrte, la variance est
Pi=k
ni (xi x)2
.
V = i=1Pi=k
n
i
i=1

Lorsque la variable est continue, la variance est


Pi=k
ni (ci x)2
V = i=1Pi=k
i=1 ni
o les ci sont les centres des classes.

Proprit 1.13 La variance est positive ou nulle : V 0.


Proprit 1.14 Lorsque la variable est discrte, la variance est
Pi=k
ni x2i
V = Pi=1
x2 .
i=k
i=1 ni

Lorsque la variable est continue, la variance est


Pi=k
ni c2i
x2
V = Pi=1
i=k
i=1 ni

o les ci sont les centres des classes.


cart-type

Dfinition 1.15 Lcart-type de la srie statistique est =

V.

Lorsque ltude porte sur un chantillon de la population, dont la moyenne x nest pas connue, on
constate que la variance et lcart-type calculs par les formules prcdentes sont infrieurs aux
valeurs relles et on utilise la dfinition suivante de lcart-type dun chantillon de taille N dune
population de grande taille (par rapport N ).

Dfinition 1.16 lcart-type dchantillon est


v
u
i=k
u 1 X
t
N 1 =
ni (xi x)2
N 1 i=1
o N est la taille de lchantillon.
Remarque 2 Sur la calculatrice on peut vrifier que
r
n
n1 =
n
n1
o n est leffectif total.
1.2.3 Changement dorigine et dchelle
Soit une variable statistique x dont les valeurs du caractre sont notes x i , 1 i k, avec des
effectifs ni de somme N et soient deux rels et , on peut alors dfinir une variable statistique y
dont les valeurs du caractre sont les yi = xi + avec les mmes effectifs ni .
Proprit 1.17 Avec les notations ci-dessus, on a :
y =
x + ,

y = ||x

o x, y sont les valeurs moyennes et x , y les carts-types des deux variables.


y =

1
N

y2 = N1
2 x2 .

ni y i =

1
N

(ni xi + ) =

ni (yi
y )2 =

1
N

1
N

((

ni xi + N )) = N1

ni (xi +
x)2 =

1
N

ni xi + =
x + .

2 ni (xi
x)2 = 2 N1

Exemple 4 Utilisation du changement de variable pour le calcul dune moyenne.


xi
ni
yi = 10xi 80
y =

91615+24+24+27+10
20

45
20

7.1
1
9

7.2
2
8

= 2, 25 donc x =

7.5
3
5

8.4
6
4

2,25+80
10

8.6
4
6

= 8, 225.

Exemple 5 Srie particulire


xi
ni
yi = xi 5

3
1
2

4
2
1

5
4
0

6
2
1

7
1
2

Le calcul y = 0 est immdiat do x = 5.

1
(4 + 2 + 2 + 4) 02 = 1, 6 donc x = y = 1, 6 1, 26.
y2 = 10

8.9
3
9

9
1
10

ni (xi
x)2 =

1.2.4 Centrage et rduction dun caractre


Par un changement dorigine y = x x, il est possible dobtenir un caractre y de moyenne
nulle y = 0.
Par un changement dchelle (ou dunit de mesure), si x 6= 0, et y = xx on obtient un
caractre y dcart-type 1.
En combinant les deux et en prenant
y=

x x
x

on obtient un caractre y centr et rduit, cest--dire de moyenne nulle et dcart-type 1.


Exemple 6 Srie centre et rduite.
xi
ni
yi =

xi 6
x

3
1
1, 68

5
3
0.56

6
4
0

8
1
1, 12

10
1
2, 24

x
x = 6 et x = 3, 2 1, 79 do y = x
x6
est centre et rduite (du moins approximativex
1,79
ment, dans le tableau, tant donn les erreurs darrondis).
1.2.5 cart moyen la moyenne
Avec les notations habituelles
Dfinition 1.18 Soit la variable statistique x, lcart moyen la moyenne est
Em =

1 X
ni |xi x|
N

Exemple 7 Calcul dun cart moyen la moyenne


xi
ni

3
1

5
3

6
4

8
1

10
1

x = 6 et Em = 13+31+40+12+14
= 12
= 1, 2
10
10
En moyenne les valeurs observes sont, en plus ou en moins, cartes de 1, 2 de la valeur moyenne
6 de la srie.

2 tude Conjointe de Deux Variables


2.1 Srie statistique double
2.1.1 Deux caractres
On tudie pour une mme population P deux caractres qualitatifs ou quantitatifs et on dfinit
une srie statistique sur lensemble des couples (x; y) de valeurs des deux caractres. Dans ce qui
suit, sauf indication contraire, chaque couple a pour effectif 1 et on nutilisera pas de notation n i
pour ces effectifs, leffectif total N est alors le nombre des couples (xi ; yi ) de la srie et i varie
donc de 1 N .

ge en annes x
Tension maximale y

36
11, 6

42
13, 2

48
14

55

60

54
14, 4

60
15, 5

66
15, 1

17
16
15
14
13
12
11
35

40

45

50

65

70

F IG . 3 Tension maximale.
2.1.2 Nuage de points
Dans un repre orthogonal on reprsente les points M (x; y) dont les coordonnes sont les
couples de valeurs des deux caractres, lensemble de ces points est communment appel le nuage
de points.
2.1.3 Point moyen
Dfinition 2.1 Le point
P moyen G 1duPnuage de points de la srie statistique double est le point de
xi et y = N
yi , o N est le nombre de points du nuage.
coordonnes x = N1
Exemple 1 Le tableau (voir Fig. 3) donne, dans une population fminine, la moyenne de la tension
artrielle maximale en fonction de lge.
La droite trace est la droite de Mayer, celle-c passe par le point moyen G du nuage (le placer).

2.2 Ajustement affine par une mthode graphique


2.2.1 Ajustement la rgle
Lorsque les points du nuage semblent presque aligns il peut tre envisageable de rechercher
une relation y = ax + b ou x = a0 y + b0 entre les deux caractres.
En traant une droite L la plus proche possible de tous les points, entre ces points et dans la
direction quils suggrent on obtient rapidement une assez bonne approximation de la relation
y = ax + b. Si besoin est, les coefficients a et b se calculent partir des coordonnes de deux points
de L, mais gnralement la mthode nest utilise que pour des lectures graphiques (interpolation
ou extrapolation).
2.2.2 Droite de Mayer
La droite de Mayer passe par le point moyen G du nuage et par deux autres points moyens G 1
et G2 de deux moitis du nuage obtenus en prenant les N1 premiers points et les N2 = N N1
autres.
Lorsque N1 = N2 le point G est le milieu du segment [G1 G2 ].

2.3 Mthodes utilisant des moyennes, lissage


2.3.1 mthode des moyennes mobiles
p
Consiste remplacer M1 , M2 , ..., Mp par M10 (xp ; y1 ++y
), puis les p points suivants par un
p
y
++y
point M20 (x2 p; p+1 p 2p ) et aisi de suite.

2.3.2 mthode des moyennes chelonnes


p
Consiste remplacer M1 , M2 , ..., Mp par leur point moyen M10 ( x1 ++x
;
p
recommencer avec les p points suivants ...

y1 ++yp
)
p

et de

2.3.3 mthode des moyennes discontinues


Consiste remplacer plusieurs points de mme valeur du caractre x par un seul point moyen
(ce point aura donc la mme abscisse x que ceux quil remplace).

2.4 Ajustement affine par la mthode des moindres carrs


2.4.1 Covariance dune srie statistique double
Dfinition 2.2 La covariance de la srie double (x; y) est
xy

i=N
1 X
[(xi x)(yi y)]
=
N i=1

Les variances de x et de y se notent x2 = N1


les carts-types de x et de y sont x et y .

[(xi x)2 ] et y2 =

1
N

[(yi y)2 ] .

2.4.2 Rgression linaire de y en x


Soient le nuage des points Mi (xi ; yi ) et une droite quelconque D dquation y = ax + b, non
parallle au second axe.
Soient alors les points Pi (xi ; axi + b) de mmes abscisses que les points Mi et situs sur la droite
D.
Si la droite D passait par tous les points Mi , ont aurait Pi = Mi et les distances Mi Pi seraient
nulles, mais en gnral une telle droite D nexiste pas.P
En dterminant une droite D telle que la somme S =
Mi Pi 2 des carrs des distances Mi Pi soit
minimale on obtiendra la droite appele droite de rgression linaire de y en x . (Voir Fig. 4).
Le calcul ci-dessous met en vidence les variances x2 , y2 et la covariance xy , il nest pas une
dmonstration
complte
des proprits :P
P
P
S = Mi Pi 2 = (yi axi b)2 = (yi y a(xi x) + y a
x b)2
en prenant y a
x b = 0 on obtient une droite passant par le point moyen G du nuage et la somme
devient
P
P
S = (yi y a(xi x))2 = [(yi y)2 2a(yi y)(xi x) + a2 (xi x)]
S = N (y2 2axy + a2 x2 )
En prenant a = xy2
x
2
2
2
S = N (y2 2xy
+ xy
) = N (y2 + xy
).
On montre que cest la valeur minimale de la somme et on admettra les proprits suivantes.

yi

ax i+ b

Pi

Mi

nuage

xi

F IG . 4 Droite de rgression linaire de y en x.

Dfinition 2.3 La droite de rgression de y en x est la droite D : y = ax + b passant par le point


moyen G du nuage et de coefficient directeur
xy
a= 2
x
Le calcul du coefficient b de lquation se fait laide des coordonnes du point G (
x; y) de la
droite D,
b = y a
x

Le signe de a est le signe de la covariance xy .


2.4.3 Rgression linaire de x en y

On peut remarquer que yx = xy .


Par symtrie, en changeant les lettres x et y dans les explications et rsultats du paragraphe prcdent :
On cherche une droite D 0 : x = a0 y + b0 non parallle au premier axe, telle que la somme des
carrs des longueurs Mi Qi soit minimale.
(Les points Qi sont sur D 0 et ont pour ordonnes les mmes yi que les Mi correspondants).
Dfinition 2.4 La droite de rgression de x en y est la droite D 0 : x = a0 y + b0 passant par le
point moyen G du nuage et de coefficient directeur
xy
a0 = 2
y
Le calcul du coefficient b0 de lquation se fait encore laide des coordonnes du point G (
x; y)
de la droite D 0 ,
b0 = x a0 y
(Voir Fig. 5).

Le signe de a est le signe de la covariance xy .


2
On peut voir que a0 = a x2 .
y

Lorsque a0 6= 0, lquation x = a0 y + b0 peut scrire y =


directeur a10 .

1
a0

b
a0

et D 0 a pour coefficient

Le produit des coefficients directeurs des droites D et D 0 est donc gal

a
a0

y2
x2

D
Mi

yi

Pi
nuage

xi

ay i + b

F IG . 5 Droite de rgression linaire de x en y.

3 Corrlation linaire
3.1 Coefficient de corrlation linaire
Dfinition 3.1
Le coefficient de corrlation linaire entre les valeurs des caractres x et y dune srie statistique
double est
xy
r=
x y
Les droites de rgression sont D : y = ax + b et D 0 : x = a0 y + b0 avec a =

xy
x2

et a0 =

xy
.
y2

3.2 Proprits du coefficient de corrlation linaire


Proprit 3.2 On a les relations suivantes entre le coefficient de corrlation linaire r et les coefficients a et a0 des droites de rgression de y en x et de x en y
aa0 = r 2 , r 2 = a2

aa =
0

r =

xy xy
x2 y2

2
xy
2
x y2

2
xy
2
x y2

2
xy
x2
4
x y2

et r =

xy
x2

2

xy
x y

x2
y2

2

Vx
x
x2
= a2 , r = a
2
y
Vy
y

2
xy
.
2
x y2

= a2 x2 = a2 VVxy .
y

Proprit 3.3 On a
1 r 1, le coefficient de corrlation linaire est compris entre 1 et 1
Les points du nuage sont aligns si et seulement si r = 1 ou r = 1
le coefficient de corrlation linaire a mme signe que les coefficients a et a 0 et r 2 = aa0
Si |r| = 1, lajustement affine est parfait.
Si |r| < 0, 7, lajustement affine nest pas justifi.
Si |r| > 0, 7 lajustement affine est envisageable et selon le domaine sur lequel porte la statistique
et le problme tudi, on dcide dun seuil au-del duquel la corrlation est suffisante pour justifier
un ajustement affine.

xi
yi

5.5
8.5

9.7
13.2
xi
yi

8.7
8.7
1.5
0.8

11.8
11.1
1.3
7.4

19.0
3.8
1.8
18.1

5.9
6.5
12.0
4.7

9.5
7.4
2.7
10.2

17.3
5.6
15.4
17.8

13.3
6.5
12.9
11.2

11.0
5.9
6.2
9.0

18.0
6.7

7.8
4.9

n = 20
x = 9.57, Vx = 28.90, x = 5.38
y = 8.40, Vy = 17.77, y = 4.22
xy = 1.79, r = 0.08
D : y = ax + b, a = 0.06, b = 8.99
D 0 : x = a0 y + b0 , a0 = 0.10, b0 = 10.41
18
16
14
12
10
8
6
4
2
2

10

12

14

16

18

F IG . 6 Corrlation Proche de 0.

Remarque 1 Une interprtation gomtrique du coefficient de corrlation linaire r que nous ne dtaillerons pas
ici montre que r = cos() o est un angle de deux vecteurs, le tableau ci-dessous donne quelques valeurs de langle :
r = cos
1
0, 87
0, 7
0, 5
0

Angle
radians et degrs
0, 0

6 , 30

4 , 45

3 , 60

2 , 90

Interprtation
mme direction, alignement

orthogonalit, indpendance

3.3 Exemples de quelques cas possibles


Exemple 1 Coefficient de corrlation nul ou presque
(Voir Fig. 6)
Exemple 2 Bonne corrlation
(Voir Fig. 7)
Exemple 3 Trs forte corrlation
(Voir Fig. 8)

3.4 Exemple de rgression exponentielle


Exemple 4 Allure exponentielle du nuage (Voir Fig. 9)
On remarque que les points du nuage ne paraissent pas aligns et quau contraire ils semblent

xi
yi
xi
yi

22.1
212.8
141.4
151.1

32.5
239.8
152.6
147.5

41.1
193.4
162.0
142.4

51.3
199.5
172.6
139.9

61.0
199.2
182.9
132.5

71.9
179.8
190.6
150.4

82.4
177.4
201.8
100.6

92.2
172.5
210.8
142.3

101.2
191.0
222.1
81.2

110.6
184.9
232.7
76.3

122.8
158.9
240.4
92.1

130.6
173.0
251.4
71.4

n = 24
x = 136.71, Vx = 4785.19, x = 69.18
y = 154.58, Vy = 1940.84, y = 44.05
xy = 2868.31, r = 0.94
D : y = ax + b, a = 0.60, b = 236.52
D 0 : x = a0 y + b0 , a0 = 1.48, b0 = 365.16
240
220
200
180
160
140
120
100
80
50

100

150

200

250

F IG . 7 Bonne Corrlation.

xi
yi

5.5
3.4

6.4
3.9

7.9
4.6

8.6
5.1

9.6
6.1

10.3
7.1

11.7
7.2

12.0
8.5

13.7
8.5

14

16

n = 12
x = 10.96, Vx = 11.22, x = 3.35
y = 7.12, Vy = 6.07, y = 2.46
xy = 8.14, r = 0.99
D : y = ax + b, a = 0.73, b = 0.84
D 0 : x = a0 y + b0 , a0 = 1.34, b0 = 1.41

11
10
9
8
7
6
5
4
6

10

12

F IG . 8 Trs Forte Corrlation.

14.3
9.1

15.2
10.7

16.3
11.2

xi
yi

xi
3.4
5.3
4.4
yi
2.1
2.9
2.1
15.2
16.2
18.4
12.8
15.2
21.4

7.5
4.1
19.6
26.6

6.1
3.0
19.7
27.7

8.5
9.3
9.8
11.0
11.2
12.9
14.7
4.9
5.0
5.6
6.4
7.1
9.1
12.0
20.5
22.0
21.9
25.0
25.4
24.6
26.4
30.8
39.9
38.9
64.5
69.8
60.9
81.8

n = 24
x = 14.96, Vx = 51.11, x = 7.15
y = 23.11, Vy = 559.98, y = 23.66
xy = 153.23, r = 0.91
D : y = ax + b, a = 3.00, b = 21.74
D 0 : x = a0 y + b0 , a0 = 0.27, b0 = 8.64

80
70
60
50
40
30
20
10
5

10

15

20

25

F IG . 9 Nuage en forme de courbe exponentielle.

disposs sur la courbe reprsentative dune fonction dallure exponentielle.

Exemple 5 Transformation par la fonction logarithme nprien


Ou transformation de y en z = ln(y) partir des donnes de lexemple prcdent.
(Voir Fig. 10)
On a un trs bon coefficient de corrlation linaire en tudiant la srie double des caractres x et
z = ln(y) au lieu de y (Voir lexemple prcdent Fig. 9).
Les calculs indiquent que z = ax + b avec a = 0.16, b = 0.16 et on peut en dduire que
y = e0,16x+0,16 , ou encore y = e0,16x e0,16 = 1, 17e0,16x car e0,16 1, 17.
Cest justement la courbe C dquation 1, 17e0,16x qui est trace sur la figure de lexercice prcdent.
Cet exemple montre comment on peut utiliser une transformation y 7 z = ln(y) pour pouvoir
effectuer une rgression linaire et enfin la transformation inverse z 7 y = e z pour obtenir la
rgression exponentielle.

xi
3.4
5.3
4.4
zi = ln(yi )
0.7
1.1
0.8
xi
15.2
16.2
18.4
zi = ln(yi )
2.6
2.7
3.1

7.5
1.4
19.6
3.3

6.1
1.1
19.7
3.3

8.5
9.3
9.8
11.0
11.2
12.9
14.7
1.6
1.6
1.7
1.9
2.0
2.2
2.5
20.5
22.0
21.9
25.0
25.4
24.6
26.4
3.4
3.7
3.7
4.2
4.2
4.1
4.4

n = 24
x = 14.96, Vx = 51.11, x = 7.15
z = 2.55, Vz = 1.31, z = 1.15
xz = 8.18, r = 1.00
D : z = ax + b, a = 0.16, b = 0.16
D 0 : x = a0 z + b0 , a0 = 6.24, b0 = 0.98

4
3.5
3
2.5
2
1.5
1
5

10

15

20

25

F IG . 10 Transformation z = ln(y).

Index
cart-type, 5
chantillon, 1
chantillon, 1, 5
chantillon alatoire, 1
chelle, 2
effectif, 2
effectif maximum, 3
effectif total, 2
effectifs cumuls croissants, 2
effectifs cumuls dcroissants, 3
lment, 1
ensemble, 1
ensemble fini, 1
entiers positifs, 1
quation, 9
tude de march, 1
exploitation des rsultats, 1
extrapolation, 7

ge, 7
aire, 2
ajuqtement affine, 7
ajustement la rgle, 7
ajustement affine, 8, 11
aligns, 7, 11
allure exponentielle, 12
amplitude, 2
analyse des donnes, 1
angle de deux vecteurs, 11
approximation, 7
second axe, 9
bimodale, 3
calculatrice, 5
caractre, 1
centrage, 6
centre, 5
centres des classes, 2, 5
changement dorigine et dchelle, 6
changement de variable, 6
chiffres, 1
classe modale, 3
classes, 2
coefficient de corrlation linaire, 10
coefficient directeur, 10
coefficients, 7
coefficients directeurs des droites, 10
continu, 2
coordonnes, 7
corrlation linaire, 10
couples, 7
courbe reprsentative, 12
covariance, 8
critre, 1

frquence, 2
frquence absolue, 2
frquences cumules croissantes, 2
frquences cumules dcroissantes, 3
graphique, 3
hasard, 1
histogramme, 2, 3
individus, 1
interpolation, 7
interprtation des rsultats, 1
intervalle, 2
isoles, 1
lectures graphiques, 7
lissage, 8
mdiane, 4
mthode des moindres carrs, 8
mthode des moyennes discontinues, 8
mthode des moyennes chelonnes, 8
mthode des moyennes mobiles, 8
mthode graphique, 7
milieu, 8
minimale, 9
mode, 3
modes, 3

dcimaux, 1
diagramme en btons, 3
direction, 7
discret, 2
distances, 9
dominante, 3
droite, 9
droite de Mayer, 7, 8
cart moyen la moyenne, 7

18

moitis du nuage, 8
moyenne, 4
moyenne pondre, 4
nombre des couples, 7
nuage de points, 7
ordonnes, 9
ordonner, 1
ordre croissant, 1
origines, 3
non parallle, 9
paramtres de dispersion, 5
paramtre de position, 3
paramtre statistique, 1, 3
parfait, 11
partie, 1
partition, 2
point dintersection, 4
point moyen, 7, 8
point moyen G du nuage, 10
polygone des effectifs, 3
polygone des frquences, 3
population, 1, 5
premier axe, 9
proportionnelles, 3
proprit, 1
rectangle, 2
rduction, 6
rgression exponentielle, 12
rgression linaire de y en x, 9
rgression linaire de x en y, 9
relation, 7
repre orthogonal, 7
segment, 8
srie statistique, 1, 2
srie statistique double, 7, 8
signe de la covariance, 9, 10
somme des carrs des longueurs, 9
sous-populations, 3
sous-ensemble, 1
symtrie, 9
tests, 1
unimodale, 3
unit, 1
unit de mesure, 6

unit statistique, 1
variable continue, 2
variable discrte, 1
variance, 5
variances, 8

Table des figures


1
2
3
4
5
6
7
8
9
10

Aires et Histogrammes. . . . . . . . . .
Frquences cumules. . . . . . . . . . .
Tension maximale. . . . . . . . . . . . .
Droite de rgression linaire de y en x.
Droite de rgression linaire de x en y.
Corrlation Proche de 0. . . . . . . . .
Bonne Corrlation. . . . . . . . . . . .
Trs Forte Corrlation. . . . . . . . . .
Nuage en forme de courbe exponentielle.
Transformation z = ln(y). . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

5
5
10
11
12
13
14
15
15
16