Académique Documents
Professionnel Documents
Culture Documents
SUPPORT DE COURS
DE STATISTIQUE DESCRIPTIVE
Licence 1
SCIENCES ECONOMIQUES ET GESTION
Elaboré par :
firminkkouadio@gmail.com
La statique descriptive désigne l’ensemble des techniques visant à résumer l’information
contenue dans un ensemble de données à l’aide de graphiques, de tableaux et l’aide de
graphiques, de tableaux et d’indicateurs numériques.
Plan du cours
- Bernard PY, 1996, Statistique descriptive, nouvelle méthode pour bien comprendre et
réussir, 4e édition, Economica.
1
STATISTIQUE 1ERE PARTIE
2
CHAPITRE 1 : STATISTIQUE À UNE VARIABLE
Ce sont les enquêteurs qui collectent les réactions de tous les individus de E
face à X. Le statisticien prépare les questionnaires à donner aux enquêteurs,
travaillent sur ces données collectées, les interprètent, les analysent et tirent
les conclusions.
I- Notions de base
Vocabulaire
3
d5. Le sujet d'étude X est appelé variable d'étude statistique ou caractère
statistique.
X prend alors une certaine " valeur " sur chaque individu de E. L'ensemble de
ces valeurs est connu à l'avance.
d6. Si les " valeurs " sont toutes des qualités d'individu, on dira que X est un
caractère qualitatif ou variable qualitative et ses " valeurs " sont appelées
modalités.
d7. Si toutes les " valeurs " sont des quantités mesurables ou repérables, on
dira que X est un caractère quantitatif ou variable quantitative et ses "
valeurs " sont des valeurs quantitatives.
Exemples:
▪ Les variables Q et Z ci-dessus sont qualitatives, alors que les variables K
sont quantitatives ;
▪ Une forêt comporte 8 essences d'arbres. La population est la forêt
(ensemble d'arbres). Chaque arbre constitue une unité dont l'essence
est un caractère qualitatif. Chaque type d'essence constitue une
modalité ;
▪ Chaque arbre de la forêt a un âge déterminé. L'âge constitue un
caractère quantitatif qui peut être mesuré par un nombre d'années.
On retiendra que les variables quantitatives sont celles prenant des valeurs numériques et que les variables
qualitatives sont celles prenant des valeurs non numériques (en faisant bien attention au fait qu'un codage ne
représente pas une valeur : même si on code 1 les hommes et 2 les femmes, la variable \sexe" demeure
qualitative).
d8. Si les valeurs sont isolées, on dira que X est une Variable quantitative
discrète ;
d9. Si ces valeurs peuvent être n'importe quel élément d'un intervalle de IR, on
dira que X est continue ;
4
Exemple : La taille des individus d'une population donnée, sans aucune
autre précision, le kilométrage K d'une voiture d'un parc automobile, ...
▪ Il arrive souvent que l'étude ne soit effectuée que sur une partie bien
définie de la population. On dira alors que l'on fait un sondage.
L'enquêteur n'est là que pour collecter les données. C'est à celui qui a en
charge l'étude de définir de manière précise les seules réponses acceptées
lors des enquêtes.
- Si X est quantitatif, ses valeurs sont désignés par xi , i = 1,...., k . Ces valeurs
étant de préférence classées par ordre, cet ensemble des valeurs est
noté par,
X = x1 , x 2 ,..., x k .
5
a1 , a2 , a2 , a3 ,......, ak −1, ak
- La largeur de la k-ième classe appelée aussi amplitude est la
différence :
Ak = ak − ak −1
a + ak −1
- Le centre de la k-ième classe est le nombre Ck = k (milieu de
2
l'intervalle).
A a − ak −1
On utilise généralement des classes d'égale amplitude égale à k = k .
k k
En joignant les points de coordonnées ( xi −1, i' ) , l’on obtient le polygone des
Effectifs Cumulés Décroissants (E.C.D) i 1, 2,.., k . ( )
Avec une graduation appropriée, les polygones précédents représentent
également les fréquences cumulées.
6
Variable quantitative continue ; Les valeurs sont regroupées en classes
d'égale amplitude.
Effectifs cumulés
y
24 Fréquences cumulées
22
20 y
18
16 60
14
12 50
10
8 40
6
4 30
2
20
0 15 17 19 21 23 25 27 29 31 33 x
10 Nombre de Demandes
0 15 17 19 21 23 25 27 29 31 33 x
Fig 2: Polygone des effectifs cumulés appelé Ogive
Fig 3 : Polygone des Fréquences cumulées
croissantes et décroissantes
b. Tableau statistique
On ajoute généralement une troisième ligne (ou colonne), celle des E.C.C
Exemples
Exemple - A1
Le relevé du nombre journalier d'interventions demandées à une
entreprise de réparations à domicile pour les 60 jours ouvrables d'un
trimestre est donné par le tableau suivant :
Nombre
[15 ; 18[ [18 ; 21[ [21 ; 24[ [24 ; 27[ [27 ; 30[ [30 ; 33[
d'interventions
Effectifs (Nb. de
1 5 16 24 12 2
jours)
Classes (Modalités Ai) [15;18[ [18; 21[ [21; 24[ [24 ; 27[ [27; 30[ [30; 33[
Effectifs (ni) 1 5 16 24 12 2
Effectifs Cumulés
Croissants(E.C.C) 1 6 22 46 58 60
Fréquences cumulées
0,02 0,10 0,37 0,77 0,97 1
croissantes
Effectifs Cumulés
60 59 54 38 14 2
Décroissants (E.C.D)
Fréquences Cumulées
1 0,98 0,90 0,63 0,23 0,03
Décroissantes
Exemple - A2
8
On étudie, selon un critère bien précis, le niveau de vie X de 64 chefs
de famille d'un village donné. Les " valeurs " possibles relativement au
critère donné sont:
A1 = Très Bas ; A2 = Faible ; A3 = Moyen ; A4 = Correct ; A5 = Elevé.
L'enquête a donné les résultats suivants:
4 chefs de famille d'un niveau de vie ………Elevé
5 …................................................................. Correct
25 …................................................................. Moyen
20 …................................................................. Faible
10. ................................................................... Très bas
Réponse
X est qualitative. La série statistique croissante est:
{ ( T Bas , 10 ) , ( Faible , 20 ) , ( Moyen , 25 ) , ( Correct , 5 ) , ( Elève , 4 ) }
Effectifs ni 10 20 25 5 4
Exemple – A3
9
Valeurs xi 0 1 2 3 4 5
Effectifs ni 16 18 14 11 3 2
E.C.C 16 34 48 59 62 64
E.C.D 64 48 30 16 5 2
Exemple A-4
La taille d’un chef de famille donné peut être n'importe quelle valeur
comprise entre 150 cm et 185 cm. X est une variable quantitative
continue. On les regroupe en classes. Si par exemple, on a décidé de
former 7 classes d'amplitude 5cm, alors on aura :[150, 155[, [155, 160[,
[160, 165 [, [165, 170[, [170,175 [, [175, 180[, [180, 185].
Effectifs 1 10 12 20 11 8 2
E.C.C 1 11 23 43 54 62 64
E.C.D 64 63 53 41 21 10 2
Remarque:
Pour avoir facilement une idée sur l'importance d'une valeur donnée, on
adjoint à ce tableau une troisième ligne (ou colonne), celle des fréquences
ou pourcentages (Fréquence multipliée par 100).
c. Les Graphiques
Pour permettre une lecture rapide des résultats d'enquêtes ou pour illustrer les
tableaux statistiques en vue d'une meilleure présentation, on utilise souvent les
graphiques. Les plus utilisés sont:
10
- Les diagrammes en bandes
- Les diagrammes en bâtons
- Les histogrammes
- Les diagrammes en secteurs circulaires
- les diagrammes en 3 Dimensions (3D) etc.
Tous ces graphiques sont conçus de telle sorte que l'on tienne compte de
l'importance relative d'une " valeur " en adoptant le principe suivant:
Ils peuvent être adaptés à tous les types de variables. L'utilisation de tel ou tel
graphique dépend en général du présentateur même si on a l'habitude
d'utiliser par exemple un histogramme plutôt que tout autre graphique,
lorsque l’on est en présence d'une variable quantitative continue. Voici
quelques uns de ces graphiques:
Diagrammes en bandes:
variable qualitative
( Exemple 2 )
Nombre de 15 17 19 21 23 25 27 29 31
demandes
Nombre de jours 1 1 2 4 6 9 5 1 1
12
Effectifs y
10-
Diagramme en
bâton
8-
Exemple A- 3
6-
4-
nombre de demandes
2-
x
0 15 17 19 21 23 25 27 29 31
Fig.6 : Diagramme en bâtons
Représentation 4 Histogramme :
Soit la série statistique à variables continues. Effectuer sa représentation
graphique.
Classes ]15; 18] ]18; 21] ]21 ; 24] ]24; 27] ] 27; 30 ] ]30; 33]
Effectifs 1 8 19 21 9 1
0 15 18 21 24 27 30 33 x
Fig 7 : Histogramme d’une série statistique continue et Polygone des effectifs cumulés
appelé Ogive.
Les Variables sont quantitatives continues ; Les valeurs sont regroupées en
classes d'égale amplitude.
13
Représentation 5 : Polygone
18
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5
70
60
50
40
30
20
10
0
0 1 2 3 4 5
14
IV - Caractéristiques d'une série statistique
d15. Le mode: C’est la valeur ou modalité d’une série statistique ayant le plus
grand effectif ni.
d16. La série est unimodale si elle n'a qu'un seul mode; sinon elle est
multimodale.
d17. L'amplitude totale (ou encore l’étendue): C’est la différence entre la plus
grande valeur de la variable et sa plus petite valeur (variable quantitative
continue).
- Si N est impair,
On détermine le nombre n'p dans le tableau des effectifs cumulés tel que
N +1
n'p =
2
En effet, l'Effectif Cumulé Croissant de la valeur xi de X est la somme de son
effectif et de ceux de toutes les valeurs de X qui lui sont inférieures. Si l’on
désigne par ni ' l’effectif cumulé relatif dans le tableau E.C.C, on a :
k
n ' = ni
k i=1
Valeurs xi 0 1 2 3 4 5
Effectifs (ni) 16 18 14 11 3 3
E.C.C(ni’) 16 34 48 59 62 65=N
N +1
N = 65, donc impair ; d’où, n'p = = 33. La troisième ligne du
2
tableau ci-dessus donne les effectifs cumulés croissants (E.C.C).
N +1
n'p = = 33 → x2 =1. Donc la médiane M e x2 = 1
2
Par conséquent, la 33-ième valeur de l’ECC correspond à ici à la
médiane Me = x2 =1
Rappel !!! L’on peut écrire explicitement toutes les valeurs de X et déterminer
la médiane de la série statistique.
Exemple 2
Considérons la série statistique X : {(-1 ; 1), (2 ; 3), (3 ; 2), (6 ; 3), (9 ; 1),
(11 ; 1)}.
Ici, N = 11 (Impair). Les valeurs classées et énumérées explicitement
donnent:
-1 ; 2 ; 2 ; 2 ; 3 ; 3 ; 6 ; 6 ; 6 ; 9 ; 11
La valeur médiane correspond évidemment à la variable x6 .
D’où M e x6 = 3
- Si N est pair,
La médiane qui est une valeur de la modalité correspond à une valeur
N N
comprise entre les nombres et + 1 du tableau des Effectifs Cumulés
2 2
Croissants. En effet, désignons par n'p et ' deux nombres de l’effectif
nq
cumulé croissant et posons :
16
N N
n'p = ' =
; nq +1.
2 2
• L'intervalle n'p ; nq
' de l’Effectif Cumulé Croissant (E.C.C) correspond
à l’intervalle x p ; xq de la ligne des modalités dans le tableau de la
série statistique donnée.
et nq' → xq
Remarque : Les nombres de l’effectif cumulé croissant n'p et ' peuvent
nq
Valeurs xi 0 1 2 3 4 5
Effectifs ni 16 18 14 11 3 2
E.C.C (ni’) 16 34 48 59 62 64
N N
N = 64 est pair. : n'p = = 32 et nq ' = + 1 = 33
2 2
Dans ce tableau,
n p ' = 32 → x p = 1
nq' = 33 → xq = 1
17
L'intervalle médian est x p ; xq = [1, 1] ;
x p + x p +1 1+1
D'où la médiane : M e = = = 1 , soit M e = 1
2 2
Solution
Dressons le tableau de la série statistique donnée :
Valeurs xi -1 2 3 6 9 11 12
Effectifs ni 1 3 2 3 1 1 1
E.C.C(ni’) 1 4 6 9 10 11 12
N N
N = 12 est pair ; n'p = =6 et ' =
nq +1 = 7
2 2
n3 ' = 6 → x3 = 3 et n4' = 9 → x4 = 6
avec p = 3 et q=4
x p + x p +1 3 + 6
L'intervalle médian est x3 ; x4 = [3 ; 6]. Donc, M e = = = 4,5
2 2
N ' = n1' , n2' , n3' ,...n'p ,..., nk' - l’ensemble des ECC dans le tableau de
la série statistique X,
N
n' = - un effectif relatif dans le tableau des ECC.
p 2
18
N
Alors, le nombre n' = de l’Effectif Cumulé Croissant correspond
p 2
forcément à un élément a p Me de la classe médiane engendrée par les
modalités de la série statistique à variables continues.
=
aq − al nq' − nl'
Dès lors,
n'p − n'
(
M e = al + aq − al
' )l
nq − nl'
avec
' N
np = 2
Effectifs 1 10 12 20 11 8 2
E.C.C 1 11 23 43 54 62 64
E.C.D 64 63 53 41 21 10 2
Classes
[15 ; 18[ [18 ; 21[ [21 ; 24[ [24 ; 27[ [27; 30[ [30 ; 33[
Effectifs(ni)
1 5 16 24 12 2
Effectifs
Cumulés 1 6 22 46 58 60
20
Fréquences
Cumulées
Croissantes 0,02 0,10 0,37 0,77 0,97 1
Effectifs
cumulés
Décroissants 60 59 54 38 14 2
Fréquences
cumulées 1 0,98 0,94 0,63 0,23 0,03
décroissantes
S’il existe une classe médiane, c'est celle qui contient la médiane, valeur
de la variable correspondant à 50 % des effectifs cumulés (croissants ou
décroissants).
' N 60
np = 2 = = 30
2
e − 24 30 − 22 8
d’où : = soit : e = 24 + 3 = 25.
27 − 24 46 − 22 24
Les quartiles sont des percentiles particuliers ; aussi, les étapes de calcul des
percentiles peuvent être directement appliquées au calcul des quartiles.
Il est souvent utile de diviser les données en quatre parts, chacune contenant
approximativement un quart, ou 25% des observations. La figure 3.1
représente un ensemble de données divisé en quatre parts. Les points de
division sont appelés quartiles et sont définis de la façon suivante :
Q1= premier quartile, ou 25e percentile
Q2= second quartile, ou 50e percentile (aussi la médiane)
Q3= troisième quartile, ou 75e percentile.
21
25% 25% 25% 25%
Q1 Q2 Q3
Premier quartile second quartile troisième quartile
(25e percentile) (50e percentile) (75e percentile)
(Médiane)
Figure 4 : Position des quartiles
Classes [15,18[ [18, 21[ [21, 24[ [24, 27[ [27, 30[ [30, 33[
Effectifs 1 5 16 24 12 2
E.C.C 1 6 22 46 58 60
Fréquence C.C 0,02 0,10 0,37 0,77 0,97 1
Solution
1
- Le premier quartile Q1 est la valeur de la variable qui correspond à 25 % ( )
4
des effectifs cumulés croissants.
- Le troisième quartile Q3 est la valeur de la variable qui correspond à 75 %
3
( ) des effectifs cumulés croissants.
4
Ces caractéristiques se déterminent comme la médiane ( e = Q2) par interpolation
linéaire. En effet,
N 60
= = 15
4 4
Or, dans le tableau des effectifs cumulés, l’on a : 6 < 15 < 22
Ce qui, dans la classe des modalités, correspond à : 21 Q1 24
D’où la suite des nombres proportionnels:
21 Q1 24
6 15 22
Par conséquent,
Q1 − 21 15 − 6 9 23
= Q1 = 21 + 3 22, 69 ; Q3 = 24 + 3 26,88 .
24 − 21 22 − 6 16 24
22
L'intervalle interquartile I = Q3 - Q1 = 4,19 est utilisé comme caractéristique de
dispersion.
Remarque
Soient X et Y des variables statistiques sur la même population. Les valeurs
de X sont { xi , i = 1 , ... , k }, celles de Y sont { yi , i = 1, .....k} ; donc le même
nombre de valeurs pour X et pour Y. Si l'on a la relation yi = a xi - b où a et b
sont des constantes, alors, on a : y = ax − b
Pour a = 1, on a y = x−b
Cette formule est très pratique quand on manipule de grandes valeurs de la
variable, si on a une certaine idée de la valeur de la moyenne. Il suffit de
considérer la variable Y qui, elle, aura des valeurs " raisonnables " car
représentant l'écart entre
les valeurs de X et de la valeur b, prenant b proche d'une estimation de la
moyenne de X.
23
On peut aussi définir une Moyenne géométrique, une Moyenne harmonique,
etc. Pour ceux qui seraient intéressés par ces notions, il suffit de se référer à un
livre traitant de Statistique Descriptive.
Série n°2
_
x
La moyenne est la même mais les valeurs de chacune des séries ne sont pas
réparties de la même manière. On ne pourra donc pas dire que ces deux
séries ont un comportement similaire quand on aura à tirer les conclusions.
C'est pour cette raison que l'on a besoin de critères supplémentaires pour
caractériser cette " dispersion " des valeurs autour de la valeur moyenne. Ce
sont les paramètres de dispersion. On peut citer:
6-1 L'écart moyen : C'est la moyenne des valeurs absolues des écarts des
valeurs à la moyenne x . Un écart de la valeur xi à la moyenne est la
différence xi - x .
On le note e :
k
1
e=
N
n
i =1
i xi − x
N i =1
En effet,
24
1 k
2
n ( x − x)
k k k k
1 1
n ( x
2
V (X ) = i i =i
2
i − 2 x xi + x ) =
n x
i i
2
− 2 x n x
i i + x ni
N i =1 i =1 N N i =1 i =1 i =1
1 2 1 2
( )
k k
= ni xi2 − 2 x N x + N x = ni xi2 − N x
N i =1 N i =1
Soit en définitive :
1 k
V ( X ) = ni xi2 − x
2
N i =1
6-3 L'écart-type noté x est de loin, le caractère de dispersion le plus
utilisé.
Il est de même dimension que les valeurs de X, et donc peut être directement
interprété.
1 k
2
x = V (X ) = ni xi2 − x
N i =1
Et ici encore, on peut valablement utiliser les machines à calculer. Elles
permettent pour la plupart des calculs systématiques de ces paramètres,
avec toujours des possibilités d'avoir les résultats intermédiaires utiles dans la
rédaction des devoirs.
Modalit
. [65,75[ [75,85[ [85,95[ [95,105[ [105,115[ [115,125[ [125,135[ [135,145[ [145,155[ Total
Classe
Effectifs
1 3 9 18 20 16 9 4 1 81
(ni)
ECC 1 4 13 31 51 67 76 80 81
25
ECD 80 79 76 68 50 30 14 5 1
2
ni c i 4900 72900 64800 180000 242000 230400 152100 78400 22500 1002400
Solution
1/ Le Mode est la modalité d’une série statistique ayant le plus grand
effectif ni. Ici, le Mode est : [105,115[
Calculons l’écart-type.
En considérant le tableau statistique obtenu, les sommes totalisées à la
4ème et 5ème lignes de la dernière colonne permettent de déterminer la
moyenne, la variance et l’écart-type ;
1 i =k 1 i =k
Moyenne : x = ni xi = nc
N i =1 N i =1 i i
1 8920
x = (1 70 + 3 80 + 8 90 + 18 100 + 20 110 + 16 120 + 9 130 + 4 140 + 1 150 ) =
81 81
Soit, x = 110,12
Calculons la Variance :
1 k 1
V ( X ) = ni ci2 − x = 1002400 − (110,12 ) = 12375,31 − 12126, 41 = 248,89
2 2
N i =1 81
Soit, V ( X ) = 248,89
Calculons l’écart-type : x = V ( X ) = 248,89 = 15, 78
26
VII- EXERCICES RÉSOLUS
Soit x1, x2, ..., xp les p valeurs d'une variable statistique, auxquelles sont associés
les effectifs respectifs : n1, n2, ..., np. On effectue sur la variable x le changement
défini par xi = a i + b ; ( a 0 ; i = 1, 2, ..., p).
1. Montrer que l'on a : x = a + b .
2. Montrer que l'on a : Vx = a2 Vx et X = a X .
Résolution
N ' = n1 + n2 + n3 + ... + n p + ... + nk
p p
1 1 1 p 1 p
1. =
N
i =1
ni xi =
N
i =1
ni ( ai + b ) = a ni x1 + b ni
N i =1 N i =1
1 p
1
= a n + N b ( N ) = a + b.
i i
N i =1
1 p
( ) 1 p
( )
2
ni xi − x ni ( ai + b ) − a + b .
2
2. Vx = =
N i =1 N i =1
1 p 1 p
( ) ( )
2
Vx = ni a i − = a x ni i − .
2
2
N i =1 N i =1
On a donc : Vx = a 2Vx et x = a x.
TOTAL
Valeur xi 0 1 2 3 4 5
Effectif ni 16 18 14 11 3 2 64 = N
E.C.C 16 34 48 59 62 64
ni x 2i
0 18 56 99 48 50 271
27
1/ Calculer son mode et sa médiane
2/ Déterminer son écart moyen et son écart-type
()
2
1 i =6 271 101
V ( X ) = ni xi2 − x =
2
− 1,74
N i =1 64 64
Ecart-type : x = V ( X ) = 1, 744 1, 32
ER 3.
Le relevé du nombre journalier d’interventions de l’entreprise de réparations
(exemple § 6) est donné avant regroupement par le tableau suivant :
Nombre de 15 18 19 20 21 22 23 24 25 26 27 28 29 30 32
demandes
Nombre de jours 1 1 2 2 4 6 6 7 9 8 4 5 3 1 2
Résolution
1. La représentation en bâtons est donnée à la figure 4.
2- Le mode est x7 = 25 car c’est la modalité qui a le plus grand effectif n7 = 9
Calculons la Médiane :
Si on classe les 60 demandes dans l'ordre croissant (15, 18, 19, 19, 20, 20, ...), la
médiane est la moyenne du nombre des demandes classées entre 30 et 31.
Nombre de 15 18 19 20 21 22 23 24 25 26 27 28 29 30 32
demandes
Nombre de jours 1 1 2 2 4 6 6 7 9 8 4 5 3 1 1
E.C.C 1 2 4 6 10 16 22 29 38 46 50 55 58 59 60
N N
En effet, N = 60 est pair. La moitié est = 30 et + 1 = 31
2 2
Effectifs 1 1 8 19 21 9 1
On trouve alors: x = 23, 95; V = 10, 9475; 3, 31
Les résultats sont voisins malgré des différences portant surtout sur la variance
29
VIII- Exercices d’Application
Exercice d’Application 1
ni 3 12 18 25 15 5 2
Exercice d’Application 2
Sur 1000 électeurs, on observe:
401 électeurs dont l'âge est compris entre 20 et 40 ans.
368 électeurs dont l'âge est compris entre 40 et 60 ans.
231 électeurs dont l'âge est compris entre 60 et 80 ans.
La variable statistique est l'âge de ces électeurs.
a) Préciser la nature de cette variable, ainsi que l'étendue de ses valeurs.
b) Donner le tableau statistique de cette série de valeurs.
c) Quelle est la classe modale ?
d) Calculer la médiane en utilisant les Effectifs Cumulés Croissants et en
supposant que les âges sont répartis de manière uniforme dans une classe
donnée.
e) Déterminer la moyenne et l'écart-type de cette série
Exercice d’Application 3
On a relevé les nombres X d'allumettes contenues respectivement dans 20
boites, lors d'un contrôle de fabrication dans une usine.
Les résultats sont les suivants: 40 ; 42 ; 32 ; 38 ; 40 ; 48 ; 30 ; 38 ; 36 ; 40 ; 34 ; 40 ;
34 ; 40 ; 38 ; 40 ; 42 ; 44 ; 36 ; 42.
Heure
d’arrivée [8h45 ; 8h55[ [8h55 ; 9h05[ [9h05 ; 9h15[ [9h15 ; 9h25 [ [9h 25 ; 9h 35[
Déterminer:
- la nature de la variable
- la classe modale
- l'heure moyenne d'arrivée des ouvriers
- l'écart-type de ces arrivées
- Tracer un l'histogramme des arrivées des ouvriers.
Les ouvriers de cette usine sont-ils ponctuels ?
N.B : Les calculs intermédiaires doivent être regroupés dans un tableau
31
CHAPITRE 2 : STATISTIQUE À DEUX VARIABLES :
REGRESSION LINÉAIRE
Il peut arriver que l'on veuille étudier simultanément deux variables statistiques
X et Y définies sur une même population pour essayer de voir s'il n'y a pas une
relation entre elles. On dira alors que l'on fait une étude statistique à 2
variables.
Notons X : ( x , x , x ,..., xm l'ensemble des valeurs prises par X.
1 2 3
Notons de même Y : ( y , y , y ,..., y celles prises par Y.
1 2 3 k
Si on désigne par :
i - l'effectif de la valeur xi de X
j - l'effectif de la valeur yj de Y,
- l'ensemble (xi, i) est appelé série statistique marginale de X.
- l'ensemble (yj, j) est appelé série statistique marginale de Y.
32
1 - Tableau à double entrée
d2. C’est le tableau représentant les couples (xi, yj) avec leurs effectifs nij.
Si l'effectif est nul, on ne marque rien.
▪ 1 est la somme de tous les effectifs ni1 de y1. La première ligne des
effectifs nij du tableau concerne tous les individus sur qui Y prend la
valeur y1.
On détermine ainsi les effectifs des deux séries marginales de X et de Y, à
partir du tableau à double entrée.
n + n + ....... + n = i
i1 i 2 ik
n + n + ..... + nmj = j
1j 2j
MX
x1 x2 x3 ...... ..... xi ..... .... xm E.S.M.
MY de Y
y1 n11 n21 n31 ni1 … … nm1 1
y2 n12 n22 n32 ni2 nm2 2
y3 3
. ….. ….. …… …. …. …. …. … … ..
33
2- Exemples Résolus
ER : 1
On considère un échantillon de 10 personnes, prises au hasard dans une
population et on mesure, pour chaque individu, la longueur X des bras (en
cm) et la tailles Y (en m). On obtient le tableau suivant:
Individu N° 1 2 3 4 5 6 7 8 9 10
Val. de X (cm) 68 69 70 72 72 74 75 75 80 80
Val. de Y (m) 1,60 1,68 1,70 1,68 1,75 1,80 1,80 1,85 1,90 1,75
L'ensemble des valeurs de X est {68, 69, 70, 72, 74, 75, 80}
L'ensemble des valeurs de Y est {1,60; 1,68; 1,70; 1,75; 1,80; 1,85; 1,90}. La série
statistique marginale de X est:
Val de X 68 69 70 72 74 75 80
Effectif 1 1 1 2 1 2 2
La série statistique marginale de Y est :
MX 68 69 70 72 74 75 80 ESM
MY Y
1,60 1 1
1,68 1 1 2
1,70 1 1
1,75 1 1 2
1,80 1 1 2
1,85 1 1
1,90 1 1
ESM
de X 1 1 1 2 1 2 2 10
Remarque:
- Une case vide correspond à un effectif nul.
- Si X ou Y est une variable qualitative, on remplace la i-ème valeur par la
i-ème modalité.
34
- Si X ou Y est une variable continue, on remplace la i-ème valeur par le
centre Ci de la i-ème classe.
3 - Représentation graphique
On ne parlera que de celle qui est de loin la plus utilisée:
On considère deux axes orthogonaux, avec pour chaque axe, son origine et
son échelle propres.
En abscisse, on porte les valeurs xi de X, rangées par ordre croissant (ou les
centres des classes des valeurs de X).
En ordonnée, on porte les valeurs yj de Y, rangées par ordre croissant (ou les
centres des classes des valeurs de Y).
5- 5-
B - Ajustement
On se pose maintenant la question de savoir s'il peut exister une relation entre
les valeurs de X et celles de Y.
Le nuage de points peut donner une idée sur la nature de cette relation, si
elle existe.
On va s'intéresser plus particulièrement au cas où cette relation est affine du
type
y = a x + b.
35
On dit que l'on fait de l'ajustement affine, et qu'il y a une corrélation linéaire
entre les variables X et Y.
Comment déterminer la " meilleure " droite ? Avec quels critères apprécie-t-
on la qualité des droites utilisées ?
Plusieurs démarches existent, mais nous allons choisir celle qui consiste à
déterminer la droite dite " des moindres carrés ".
a) Principe de la méthode
(D)
y R
R
S
y
S
y
P' Q
Q O
y
O
y
P
P
y
N M N
y
M
x x x x x x x x
M N O P Q R S
M(2) signifie que l'effectif du point M est 2 ; xM est son abscisse et yM sera son
ordonnée. Si l'effectif est 1, on ne le porte pas sur le schéma.
Notons P' le point de (D) de même abscisse xP: P’ (xP, yP' = axP + b).
(yP - (axP + b)) permet de caractériser la distance entre P et la droite (D) et
(yP - (axP + b))2 est le carré de la longueur du segment P P'
36
nij ( y j − ( axi + b ) )
2
Considérons alors la quantité A=
sur tous les po int s
A n'est autre que la somme des carrés des longueurs des segments reliant
un point quelconque du nuage au point de (D) de même abscisse, multipliés
à chaque fois par l'effectif de chaque point concerné.
(D) sera la meilleure droite d'ajustement au sens des moindres carrés si pour
cette droite, A prend sa valeur la plus petite.
Définitions:
1
nij xi y j − x y
Cov( X , Y ) =
N
où nij est l’effectif du couple (xi, yj) ;
Théorème
Dans le cas où la forme du nuage de points permet de supposer que l'on peut
effectuer un ajustement linéaire de ces points, la droite (D) permettant le
meilleur ajustement du nuage au sens des moindres carrés est d'équation:
y=ax+b
Cov ( X, Y )
avec a= ; b = y − ax
V( X )
ou encore
Cov ( X, Y )
y−y= ( x − x)
V( X )
37
▪ Point Moyen
Le point G( x, y ) de coordonnées est appelé Point Moyen ou centre d'inertie
du nuage. Il appartient à la droite (D).
1 b'
Tracée dans le même repère que (D), l'équation de (D’) est: y = x−
a' a'
( D' )
y R
R
y S
S
Q
y
Q O
y
O
y
P
P' P
y
N N
y
M M
x x x x x x x x
M N O P Q R S
Remarque !!!
Les deux droites (D) et (D’) se coupent au point G( x, y ) et ne sont
confondues que si tous les points sont sur une même droite.
Cov ( X, Y ) Cov ( X, Y )
r= = = a a'
( X ) ( Y )
V( X ) V( Y )
On a: -1r 1
38
Cette corrélation que l'on suppose linéaire est d'autant meilleure que I r I est
proche de 1.
Ce réel r sert à apprécier la qualité d'une corrélation que l'on suppose linéaire
mais ne peut pas prouver qu'une corrélation donnée est réellement linéaire.
Il existe des corrélations entre X et Y qui ne sont pas linéaires et pourtant les
valeurs de r correspondantes sont proches de 1.
(D')
D
G (D)
(D) = (D')
r=0
Remarque !!!
39
5 - Quelques ajustements pouvant se ramener à un ajustement
linéaire.
Supposons que l'intervalle dans lequel on a fait les expériences soit [a, b] :
7- Exemples d'application
ER n° 1
Considérons l’échantillon de 10 personnes, prises au hasard dans une
population. On mesure, pour chaque individu, la longueur X des bras (en cm)
et la taille Y (en m). On a obtenu le tableau suivant:
Val. de X (cm) 68 69 70 72 72 74 75 75 80 80
Val. de Y (m) 1,60 1,68 1,70 1,68 1,75 1,80 1,80 1,85 1,90 1,75
40
Représentons graphiquement le nuage de points correspondant à cette série
double.
1,70 1 1
1,75 1 1 2
1,80 1 1 2
1,85 1 1
1,90 1 1
ESM
de X 1 1 1 2 1 2 2 10
41
Remarque
Le tableau des ESM permet de déterminer sans détour, les valeurs x et y ,
V ( X ), V (Y ), x et y .
On a respectivement :
1 i =k
x= x ,
N i =1 i i
1 i =k
y= j xj
N i=1
i =6
y − ( y)
1 2
V (Y ) = i
2
i
N i =1
i =6
x − ( x)
1 2
V (X ) = 2
i i
N i =1
xi i i xi i xi2 yj j j yj j yi2
- -
Série marginale de X :
x + 2 x2 + 3 x3 + .... + k xk ( 68 + 69 + 70 + 2 72 + 74 + 2 75 + 2 80 )
x= 1 1 = = 73, 5
N 10
1 k =7
()
V(X) = k xk2 − x = 15,65
2
10 k =1
Série marginale de Y:
Détermination de la covariance
xi yj xi2 yi2 xi yj
68 1,60 4624 2,56 108,8
69 1,68 4761 2,8224 115,92
70 1,70 4900 2,89 119
72 1,68 5184 2,8224 120,96
72 1,75 5184 3,0625 126
74 1,80 5476 3,24 133,2
75 1,80 5625 3,24 135
75 1,85 5625 3,4225 138,75
80 1,90 6400 3,61 152
80 1,75 6400 3,0625 140
TOTAL 735 17,51 54179 30,723 1 289,63
1
Cov( X , Y ) =
N
nij xi y j − x y
Selon le tableau ci-dessus, l’on a
43
1 1289, 63
N
n ij xi y j =
10
= 128,963
1
nij xi y j − x y = 128,963 − (73,5).1,571 13,50
Donc Cov( X , Y ) =
N
Nous en déduisons alors les équations des droites (D) et (D‘).
y=ax+b
Cov( X , Y ) 13,50
avec a= = = 0,862
V (X ) 15,65
b = y − ax = 1,751-(0,862).73,5 =-61.61
Soit y = 0, 0008 x + 1, 69
ER n° 2
On a étudié la moyenne Y des maxima de tension artérielle et l'âge X de 6
individus d'une population féminine.
Âge 36 42 48 54 60 66
Droite de régression de Y en X:
Cov( X , Y )
y = a x + b avec a = = 0,11143 et b = 8,31714
V (X )
y = 0,111 x + 8,317
1 b'
Droite de régression de X en Y: y = x −
a' a'
Cov( X , Y )
Avec a ' = = 6,2345 et b' = -36,2824 ; y = 0,160 x + 5,820
V (Y )
Le coefficient de corrélation est r = 0,83: bonne corrélation si elle est linéaire.
Commentaires:
Un individu de 50 ans a une tension artérielle de 14. L'estimation à l'aide de
(D) donne sa tension à 13,89. On a effectué là une interpolation car 50 est
dans l'intervalle d'étude. Au vu de ce qui a été observé sur l'échantillon, on
ne peut pas, à priori, dire que la tension est anormale, bien que l'échantillon
de travail soit trop petit!
La tension d'une femme de 70 ans issue de la population d'où est tiré cet
échantillon est de 16,2. Que peut-on en penser?
45
STATISTIQUE 2EME PARTIE
46
CHAPITRE 3 : LES INDICES
Les séries statistiques que I'on a appris à examiner dans les chapitres
précédents sont a priori des séries d'observations simultanées (les notes de
statistique des étudiants d'un groupe, la dépense mensuelle des étudiants L1,
etc.).
On peut dès lors étudier l'évolution dans le temps de cette grandeur à I ‘aide
d'un indice. Les indices synthétiques permettront de donner une mesure
globale de l'évolution simultanée de plusieurs grandeurs, en particulier dans le
cas des prix.
47
48
49
EXEMPLES : Evolutions successives et taux de croissance moyen.
50
51
52
53
CHAPITRE 4 : LES SERIES CHRONOLOGIQUES
54
55
56
57
58
59
60
EXEMPLE 1
61
EXEMPLE 2
62
63
64
65
66
67