Vous êtes sur la page 1sur 68

MINISTERE DE L’ENSEIGNEMENT SUPERIEUR REPUBLIQUE DE COTE D’IVOIRE

ET DE LA RECHERCHE SCIENTIFIQUE Union-Discipline-Travail

UNIVERSITE INTERNATIONALE DE COTE D’IVOIRE (UICI)


FACULTE DES SCIENCES ECONOMIQUES ET DE GESTION
Email : contacts@uici.info; Site : www.uici.info

ANNEE ACADEMIQUE : 2019-2020

ANNEE ACADEMIQUE : 2023-2024

SUPPORT DE COURS
DE STATISTIQUE DESCRIPTIVE

Licence 1
SCIENCES ECONOMIQUES ET GESTION

Elaboré par :

Dr. Firmin KOUADIO


Economiste,
Enseignant-chercheur à l’Université Péléforo GON COULIBALY de Korhogo
Consultant Formateur au CAMPC (Centre Africain de Management et de
Perfectionnement des Cadres)

firminkkouadio@gmail.com
La statique descriptive désigne l’ensemble des techniques visant à résumer l’information
contenue dans un ensemble de données à l’aide de graphiques, de tableaux et l’aide de
graphiques, de tableaux et d’indicateurs numériques.

Plan du cours

STATISTIQUE 1ERE PARTIE

Chapitre 1 : Séries statistiques à une variable

Chapitre 2 : Séries statistiques à deux variables

STATISTIQUE 2EME PARTIE

Chapitre 1 : Les indices

Chapitre 2 : Séries chronologiques

Quelques références bibliographiques


- Alain PILLER, 2004, Statistique Descriptive, éditions Premium.

- David S. MOORE & George P. MCCABE, 2002, Introduction to the Practice of


Statistics, 4e édition, W.H. Freeman & Company.

- Bernard PY, 1996, Statistique descriptive, nouvelle méthode pour bien comprendre et
réussir, 4e édition, Economica.

- Bernard PY, 1994, Exercices corrigés de statistique descriptive, 2e édition,


Economica.

1
STATISTIQUE 1ERE PARTIE

2
CHAPITRE 1 : STATISTIQUE À UNE VARIABLE

La Statistique trouve son origine dans l'étude des données, nombreuses,


collectées auprès des individus de la population d'un Etat. C'est ce qui
explique l'utilisation des mots comme individu, population, effectif, etc.

Soit, E - un ensemble donné d'objets ou de personnes ;


X - un sujet d'étude à effectuer sur E, une sorte de " question " que l'on
pose à chaque élément de E.

Ce sont les enquêteurs qui collectent les réactions de tous les individus de E
face à X. Le statisticien prépare les questionnaires à donner aux enquêteurs,
travaillent sur ces données collectées, les interprètent, les analysent et tirent
les conclusions.

La plupart des informations statistiques contenues dans les journaux, les


magazines, les rapports et autres publications sont des données résumées et
présentées sous forme facilement compréhensible par le lecteur. On appelle
de tels résumés sous forme de tableaux, de graphiques ou sous forme
numérique, des statistiques descriptives.

I- Notions de base
Vocabulaire

d1. L’ensemble E, formé d’éléments ou individus sur lesquels l’on étudie le


comportement de X, est appelé population ou univers d'étude statistique.

d2. Un élément quelconque de E est appelé individu de la population.

Exemple: Un citoyen d'un état, une pièce quelconque produite par la


machine, le kilométrage des voitures du parc, etc.

d3. Une partie d'un ensemble d'individus ou d'unités statistiques de E est


appelé échantillon ;

Exemple: La Population de la Région de la MARAHOUE de Côte d'Ivoire,


l'ensemble des pièces produites en une journée par une machine,
l'ensemble des voitures d'un parc automobile etc.

d4. Le nombre d’éléments de E est sa taille ou son effectif.

On se propose d'étudier le comportement du sujet d'étude X sur chaque


élément de E et se poser la question suivante: Combien a-t-on d'éléments de
E qui correspondent à un " même aspect " donné de X? Dans ce cas précis, "
même aspect " de X est appelé caractère de X ;

3
d5. Le sujet d'étude X est appelé variable d'étude statistique ou caractère
statistique.

X prend alors une certaine " valeur " sur chaque individu de E. L'ensemble de
ces valeurs est connu à l'avance.

Exemple: L'intention de vote Z (oui ou non ou abstention, par exemple)


au profit d'un candidat à une élection, la qualité Q (conforme aux
normes ou non) des pièces produites, le kilométrage K des voitures
d'un parc automobile, etc.

d6. Si les " valeurs " sont toutes des qualités d'individu, on dira que X est un
caractère qualitatif ou variable qualitative et ses " valeurs " sont appelées
modalités.

d7. Si toutes les " valeurs " sont des quantités mesurables ou repérables, on
dira que X est un caractère quantitatif ou variable quantitative et ses "
valeurs " sont des valeurs quantitatives.

Exemples:
▪ Les variables Q et Z ci-dessus sont qualitatives, alors que les variables K
sont quantitatives ;
▪ Une forêt comporte 8 essences d'arbres. La population est la forêt
(ensemble d'arbres). Chaque arbre constitue une unité dont l'essence
est un caractère qualitatif. Chaque type d'essence constitue une
modalité ;
▪ Chaque arbre de la forêt a un âge déterminé. L'âge constitue un
caractère quantitatif qui peut être mesuré par un nombre d'années.

On retiendra que les variables quantitatives sont celles prenant des valeurs numériques et que les variables
qualitatives sont celles prenant des valeurs non numériques (en faisant bien attention au fait qu'un codage ne
représente pas une valeur : même si on code 1 les hommes et 2 les femmes, la variable \sexe" demeure
qualitative).

Variable quantitative discrète et Variable quantitative continue

d8. Si les valeurs sont isolées, on dira que X est une Variable quantitative
discrète ;

Exemples: Nombre d'enfants dans une famille, l'âge en années des


élèves d'une classe ;
la taille en mètre, mais avec seulement un chiffre après la virgule...

d9. Si ces valeurs peuvent être n'importe quel élément d'un intervalle de IR, on
dira que X est continue ;

4
Exemple : La taille des individus d'une population donnée, sans aucune
autre précision, le kilométrage K d'une voiture d'un parc automobile, ...

Remarques importantes !!!

▪ Il arrive souvent que l'étude ne soit effectuée que sur une partie bien
définie de la population. On dira alors que l'on fait un sondage.

▪ Une étude effectuée sur la population entière est un recensement.

Les exemples courants et parlants d'étude statistique sont: les recensements


de population d'un état les sondages d'opinion (à l'approche d'une élection
par exemple ou bien avant la sortie d'un nouveau produit de
consommation),les contrôles (sondage) de qualité dans les usines de
fabrication, les contrôle d'efficacité d'un médicament nouveau, etc.

II- Notations de " valeurs " de X.


En statistique, il importe de bien connaître à l'avance toutes les " valeurs "
possibles d'un caractère donné. Ceci, pour qu'aucune ambiguïté
n'apparaisse au niveau des réponses données par les individus au cours des
enquêtes.

L'enquêteur n'est là que pour collecter les données. C'est à celui qui a en
charge l'étude de définir de manière précise les seules réponses acceptées
lors des enquêtes.

Dans le cas général,


- Si X est qualitatif, ses valeurs sont appelées modalités que l’on désigne
par ai , i = 1, 2,..., k , k étant le nombre total de ces modalités. Dans ce
cas, on note : X = { a1 , a2 ,...., ak }.

- Si X est quantitatif, ses valeurs sont désignés par xi , i = 1,...., k . Ces valeurs
étant de préférence classées par ordre, cet ensemble des valeurs est
noté par,
X = x1 , x 2 ,..., x k .

- Si ces valeurs sont en trop grand nombre ou si X est continue, on les


regroupera en classes; une classe étant un intervalle de IR :
 a1 , a2  , a2 , a3  ,......, ak −1, ak 

- Si a1 est la plus petite valeur que peut prendre X, et ak la plus grande


valeur, et si l’on décide de considérer k classes, les classes de valeurs
seront :

5
 a1 , a2  , a2 , a3  ,......, ak −1, ak 
- La largeur de la k-ième classe appelée aussi amplitude est la
différence :
Ak = ak − ak −1
a + ak −1
- Le centre de la k-ième classe est le nombre Ck = k (milieu de
2
l'intervalle).
A a − ak −1
On utilise généralement des classes d'égale amplitude égale à k = k .
k k

III- Quantités attachées à une variable statistique


d10. Effectif total: C’est le nombre total d'individus de la population. On le
notera N.

d11. Effectif relatif ni ou fréquence absolue d'une valeur xi , i = 1,...., k ou d'une


modalité Ai ou d'une classe [ai-1 , ai [ d'une variable statistique X : C’est le
nombre d'individus pour lesquels la variable X prend la valeur xi ou la
modalité Ai ou est dans la classe [ai-1, ai [.
n
d12. Fréquence relative: C’est le rapport f i = i .
N
i =k i =k
Remarque : N =  ni = n1 + n2 + .... + nk ; f i =1
i =1 i =1

3.1 Effectifs et fréquences cumulés d'une valeur de X

d12. L'effectif cumulé croissant (E.C.C) de la classe [ai-1, ai[ de centre ci


(variable quantitative) est le nombre  i = ni + ni +1 + ...nk des valeurs supérieures
ou égales à xi −1. . Autrement dit, c'est la somme des effectifs de toutes les
valeurs inférieures ou égales à xi , ou toutes les classes telles que les centres
soient inférieurs ou égaux à ci.

d13. Ogive : On fait des effectifs cumulés une représentation spécifique. En


joignant les points de coordonnées ( xi , i ) , l’on obtient le polygone des
Effectifs Cumulés Croissants (E.C.C) appelé aussi ogive (voir fig.3)

En joignant les points de coordonnées ( xi −1, i' ) , l’on obtient le polygone des
Effectifs Cumulés Décroissants (E.C.D) i  1, 2,.., k  . ( )
Avec une graduation appropriée, les polygones précédents représentent
également les fréquences cumulées.

6
Variable quantitative continue ; Les valeurs sont regroupées en classes
d'égale amplitude.

Effectifs cumulés
y
24 Fréquences cumulées
22
20 y
18
16 60
14
12 50
10
8 40
6
4 30
2
20
0 15 17 19 21 23 25 27 29 31 33 x
10 Nombre de Demandes

0 15 17 19 21 23 25 27 29 31 33 x
Fig 2: Polygone des effectifs cumulés appelé Ogive
Fig 3 : Polygone des Fréquences cumulées
croissantes et décroissantes

3.2 Série statistique d'une variable donnée:

d13. On appelle série statistique ou distribution statistique d’une variable X,


l'ensemble des couples ( xi , ni ) ou ( ai , ni ) ou ( [ ai-1 , ai [ ) pour i = 1,..., k.
Par extension, la série statistique peut se présenter sous la forme :
X : ( x1 , n1 ), ( x2 , n2 ), ( x3 , n3 ),..., ( xk , nk )

a. Présentation rapide des résultats

Chaque individu a sa propre réaction face à l'étude X. L'enquêteur enregistre


donc autant de réactions, de résultats, que d'individus lors de sa collecte,
même si les réponses possibles, les " valeurs possibles " sont en nombre
relativement restreint.
Ces résultats d'enquête, pour être " manipulables ", doivent être présentés
sous une forme plus compacte ; l’écriture en extension des éléments de la
série étant parfois très encombrante. Des tableaux statistiques, complétés
souvent par un graphique approprié sont alors utilisés pour la commodité.

b. Tableau statistique

d14. C’est un tableau à 2 lignes ou 2 colonnes au moins présentant la série


statistique. On distingue :

- Cas d'une présentation par colonnes


7
Colonne 1: les valeurs de X ou ses modalités
Colonne 2: les effectifs de chaque valeur ou modalité ,
- Cas d'une présentation par lignes
Ligne 1: les valeurs de X ou ses modalités
Ligne 2: les effectifs de chaque valeur ou modalité

On ajoute généralement une troisième ligne (ou colonne), celle des E.C.C

Exemples

Exemple - A1
Le relevé du nombre journalier d'interventions demandées à une
entreprise de réparations à domicile pour les 60 jours ouvrables d'un
trimestre est donné par le tableau suivant :

Nombre
[15 ; 18[ [18 ; 21[ [21 ; 24[ [24 ; 27[ [27 ; 30[ [30 ; 33[
d'interventions
Effectifs (Nb. de
1 5 16 24 12 2
jours)

1°/ Tracer l'histogramme et le polygone des effectifs


2°/ Dresser le tableau des effectifs et des fréquences cumulés et tracer sur
un même graphique les polygones correspondants.
Solution

1. Le polygone des effectifs est tracé (figure 2).

2. Le tableau des effectifs et des fréquences cumulés est dressé ci-dessous.


La représentation est faite sur la figure 3 ;

Classes (Modalités Ai) [15;18[ [18; 21[ [21; 24[ [24 ; 27[ [27; 30[ [30; 33[
Effectifs (ni) 1 5 16 24 12 2
Effectifs Cumulés
Croissants(E.C.C) 1 6 22 46 58 60

Fréquences cumulées
0,02 0,10 0,37 0,77 0,97 1
croissantes
Effectifs Cumulés
60 59 54 38 14 2
Décroissants (E.C.D)
Fréquences Cumulées
1 0,98 0,90 0,63 0,23 0,03
Décroissantes

Exemple - A2

8
On étudie, selon un critère bien précis, le niveau de vie X de 64 chefs
de famille d'un village donné. Les " valeurs " possibles relativement au
critère donné sont:
A1 = Très Bas ; A2 = Faible ; A3 = Moyen ; A4 = Correct ; A5 = Elevé.
L'enquête a donné les résultats suivants:
4 chefs de famille d'un niveau de vie ………Elevé
5 …................................................................. Correct
25 …................................................................. Moyen
20 …................................................................. Faible
10. ................................................................... Très bas

X est une variable statistique qualitative, à 5 modalités. L'effectif total


est N = 64

L'univers est l'ensemble des 64 chefs de famille. Un individu est un


quelconque chef de famille parmi les 64. Les effectifs de chacune des
modalités sont donnés ci-dessus.

Réponse
X est qualitative. La série statistique croissante est:
{ ( T Bas , 10 ) , ( Faible , 20 ) , ( Moyen , 25 ) , ( Correct , 5 ) , ( Elève , 4 ) }

Modalités Ai T Bas Faible Moyen Correct Elevé

Effectifs ni 10 20 25 5 4

Exemple – A3

On peut travailler sur le même univers et considérer la variable d'étude


X est le nombre d'enfants de chaque chef de famille. X est une variable
quantitative discrète, à valeurs dans  x1 , x2 ,..., xk  = {0,1, 2, 3,4, 5} par
exemple. L'enquête a donné les résultats suivants :
16 chefs de famille ont pour nombre d’enfants…0
18 ….......................................................................... 1
14…........................................................................... 2
11 ….......................................................................... 3
3 ............................................................................. 4
2 ……………………………………………………........5

X est quantitative discrète. La série statistique présentée en extension est la


suivante :
X : { (0 , 16 ) , ( 1 , 18 ) , ( 2 , 14 ) , ( 3 , 11 ) , ( 4 , 3 ) , ( 5 , 2 ) }

9
Valeurs xi 0 1 2 3 4 5
Effectifs ni 16 18 14 11 3 2

E.C.C 16 34 48 59 62 64

E.C.D 64 48 30 16 5 2

L'E.C.C de la valeur 1 est 34 qui est la sommes de l’E.C.C de la valeur


précédente 0 ici égal à16 et de 18 qui est l'effectif de 1.

Exemple A-4

On garde toujours le même univers mais cette fois-ci, X est la taille de


chaque chef de famille. Des études au préalable ont permis de situer
leurs tailles dans l'intervalle des valeurs [150,185] en cm.

La taille d’un chef de famille donné peut être n'importe quelle valeur
comprise entre 150 cm et 185 cm. X est une variable quantitative
continue. On les regroupe en classes. Si par exemple, on a décidé de
former 7 classes d'amplitude 5cm, alors on aura :[150, 155[, [155, 160[,
[160, 165 [, [165, 170[, [170,175 [, [175, 180[, [180, 185].

X est quantitative continue et les valeurs sont regroupées en classes.

Classes [150,155[ [155,160[ [160,165 [ [165,170 [ [170,175 [ [175,180 [ [180,185]

Effectifs 1 10 12 20 11 8 2

E.C.C 1 11 23 43 54 62 64

E.C.D 64 63 53 41 21 10 2

F.C.C 0,02 0,17 0,36 0,67 0,84 0,97 1

Remarque:
Pour avoir facilement une idée sur l'importance d'une valeur donnée, on
adjoint à ce tableau une troisième ligne (ou colonne), celle des fréquences
ou pourcentages (Fréquence multipliée par 100).

c. Les Graphiques
Pour permettre une lecture rapide des résultats d'enquêtes ou pour illustrer les
tableaux statistiques en vue d'une meilleure présentation, on utilise souvent les
graphiques. Les plus utilisés sont:
10
- Les diagrammes en bandes
- Les diagrammes en bâtons
- Les histogrammes
- Les diagrammes en secteurs circulaires
- les diagrammes en 3 Dimensions (3D) etc.
Tous ces graphiques sont conçus de telle sorte que l'on tienne compte de
l'importance relative d'une " valeur " en adoptant le principe suivant:

L'aire ou le volume de ce qui représente une " valeur "


doit être proportionnelle à l'effectif de cette " valeur ".

Ils peuvent être adaptés à tous les types de variables. L'utilisation de tel ou tel
graphique dépend en général du présentateur même si on a l'habitude
d'utiliser par exemple un histogramme plutôt que tout autre graphique,
lorsque l’on est en présence d'une variable quantitative continue. Voici
quelques uns de ces graphiques:

Représentation 1 : Diagrammes en bandes (variable qualitative)

Diagrammes en bandes:
variable qualitative
( Exemple 2 )

Fig.4 : Diagrammes en bandes

Représentation 2 : Diagrammes circulaires (variable qualitative)

Diagramme en secteurs circulaires


Variable qualitative
(Exemple 2)

Fig.5 : Diagramme circulaire


Détermination des secteurs circulaires et les pourcentages respectifs :
Soit i l'angle du secteur représentant la valeur xi de la variable, d'effectif
ni. D'après le principe ci-dessus,
(1)
11
Si pour 360° − − − − − − − − − − −−  N
ni
 i ?  − − − − − − − − − − − − ni   i = 360 
; soit  i = 360  fi
N
Dès lors, l’on peut exprimer ce secteur circulaire en pourcentage. En effet, si
pour
100 − − − − − − − − − − −−  360° (2)
i
 ?  − − − − − − − − − − − −  i (donné )   = 100% 
360
En tenant compte de (1), on obtient :
 n 100
 = i 100   = i  360  ,
360 N 360
n
soit  = 100%  i ;   = 100%  fi
N
En définitive, on a :
i = 360  fi et  = 100%  fi (3)

Considérons l’Exemple 2 ; calculons le secteur circulaire correspondant au


niveau de vie Moyen. En effet, selon (1), on a :
n 25
 i = i  360   3 =  360 = 140, 625 ; et selon (3)
N 64
25
 3 = 100   3 = 39  
64
On procède de la même manière pour déterminer les autres pourcentages
relatifs à T Bas, Faible, Correct, Elevé (Voir graphique de l’Exemple 3)

Représentation 3 Diagramme en bâtons

Le relevé du nombre journalier d’interventions de l’entreprise de réparations est


donné avant regroupement par le tableau suivant :

Nombre de 15 17 19 21 23 25 27 29 31
demandes
Nombre de jours 1 1 2 4 6 9 5 1 1

Effectuer la représentation en bâtons de cette série.


Résolution
On construit un système d'axes rectangulaires (Système cartésien). Les unités
de chaque axe ne sont pas nécessairement les mêmes. On place dans le
repère ainsi constitué (O, I, J), les points de coordonnées M (xi, ni).
Puis, pour que cela soit mieux visible, on trace un trait épais (un bâton)
parallèle à l'axe des ordonnées et reliant un point M et l'axe des abscisses.

12
Effectifs y

10-
Diagramme en
bâton
8-

Exemple A- 3
6-

4-
nombre de demandes
2-

x
0 15 17 19 21 23 25 27 29 31
Fig.6 : Diagramme en bâtons

Représentation 4 Histogramme :
Soit la série statistique à variables continues. Effectuer sa représentation
graphique.
Classes ]15; 18] ]18; 21] ]21 ; 24] ]24; 27] ] 27; 30 ] ]30; 33]

Effectifs 1 8 19 21 9 1

Le principe de tracé est le même que celui du diagramme en bâtons, à la


seule différence qu'au lieu de tracer un trait d'une largeur quelconque, la
largeur du trait est égale à l'amplitude des classes. On trace donc un
rectangle de largeur, l'amplitude de la classe, de hauteur égale à l'effectif de
la classe.
Effectifs Cumulés
y
24
22
20
18
16
14
12
10
8
6
4
2

0 15 18 21 24 27 30 33 x
Fig 7 : Histogramme d’une série statistique continue et Polygone des effectifs cumulés
appelé Ogive.
Les Variables sont quantitatives continues ; Les valeurs sont regroupées en
classes d'égale amplitude.
13
Représentation 5 : Polygone

18
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5

Fig 8 : Diagramme en Courbe ou polygone

Représentation 6 : Diagramme des Effectifs Cumulés ou Ogive

70
60
50
40
30
20
10
0
0 1 2 3 4 5

Remarque: La tendance actuelle est la personnalisation des présentations.


On utilise des éléments plus " fantaisistes ", plus personnels, comme l'atteste
l’exemple ci-dessous.

14
IV - Caractéristiques d'une série statistique

La présentation des résultats sous forme de tableau ou sous forme de


graphique ne permet pas une exploitation quantitative de ces résultats. Pour
décrire quantitativement une série statistique, on définit certains paramètres
tels que :

4.1 Les Paramètres de position ou Caractéristiques de tendance centrale

d15. Le mode: C’est la valeur ou modalité d’une série statistique ayant le plus
grand effectif ni.

d16. La série est unimodale si elle n'a qu'un seul mode; sinon elle est
multimodale.

d17. L'amplitude totale (ou encore l’étendue): C’est la différence entre la plus
grande valeur de la variable et sa plus petite valeur (variable quantitative
continue).

d18. La médiane: C’est la valeur de la variable telle que de part et d'autre de


celle-ci l'on ait la moitié de l'effectif total. (Variable quantitative). On la note
Me .

Comment déterminer la médiane Me ?


1°/ Ranger d’abord les valeurs de la variable par ordre croissant
2°/ Déterminer les effectifs cumulés de la série ;
3°/ Distinguer la nature des variables :

4.2 Cas des Variables qualitatives ou des Variables quantitatives discrètes


D'après cette définition, il y a lieu de considérer deux cas:
N est impair ou N est pair.

- Si N est impair,
On détermine le nombre n'p dans le tableau des effectifs cumulés tel que
 N +1
n'p =  
 2 
En effet, l'Effectif Cumulé Croissant de la valeur xi de X est la somme de son
effectif et de ceux de toutes les valeurs de X qui lui sont inférieures. Si l’on
désigne par ni ' l’effectif cumulé relatif dans le tableau E.C.C, on a :
k
n ' =  ni
k i=1

n'p est le p-ième effectif cumulé de la série statistique donnée et correspond


dans la ligne des valeurs prises par X du tableau de la série statistique à un
nombre appelé modalité. Ce nombre est la médiane notée Me .
15
Ainsi, si l’on désigne par xp - la modalité médiane, alors l’on a la
correspondance suivante :
 N +1 
M e = x p → n'p =  
 2 
Exemple 1 : Soit le tableau statistique suivant.

Valeurs xi 0 1 2 3 4 5

Effectifs (ni) 16 18 14 11 3 3

E.C.C(ni’) 16 34 48 59 62 65=N

 N +1
N = 65, donc impair ; d’où, n'p =   = 33. La troisième ligne du
 2 
tableau ci-dessus donne les effectifs cumulés croissants (E.C.C).
 N +1
n'p =   = 33 → x2 =1. Donc la médiane M e  x2 = 1
 2 
Par conséquent, la 33-ième valeur de l’ECC correspond à ici à la
médiane Me = x2 =1

Rappel !!! L’on peut écrire explicitement toutes les valeurs de X et déterminer
la médiane de la série statistique.

Exemple 2
Considérons la série statistique X : {(-1 ; 1), (2 ; 3), (3 ; 2), (6 ; 3), (9 ; 1),
(11 ; 1)}.
Ici, N = 11 (Impair). Les valeurs classées et énumérées explicitement
donnent:
-1 ; 2 ; 2 ; 2 ; 3 ; 3 ; 6 ; 6 ; 6 ; 9 ; 11
La valeur médiane correspond évidemment à la variable x6 .
D’où M e  x6 = 3

- Si N est pair,
La médiane qui est une valeur de la modalité correspond à une valeur
N N 
comprise entre les nombres   et  + 1  du tableau des Effectifs Cumulés
2 2 
Croissants. En effet, désignons par n'p et ' deux nombres de l’effectif
nq
cumulé croissant et posons :

16
N N
n'p = ' =
; nq +1.
2 2
• L'intervalle  n'p ; nq
'  de l’Effectif Cumulé Croissant (E.C.C) correspond
 
à l’intervalle  x p ; xq  de la ligne des modalités dans le tableau de la
 
série statistique donnée.

• L’intervalle  x p ; xq  est appelé intervalle médian des valeurs de X.


 
On note dans ce tableau que
n'p → xp

et nq' → xq
Remarque : Les nombres de l’effectif cumulé croissant n'p et ' peuvent
nq

être identiques ou distincts ; pareil pour les modalités x p et xq . Dès lors, la

modalité recherchée ne peut être qu’entre xp et xq . On choisit de prendre


la demi-somme de ces deux valeurs de X comme valeur médiane, soit :
x p + xq
Me =
2

Exemple 3 Déterminons la médiane des valeurs de la variable ci-dessous. On


a repris la variable de l'exemple 2, X désignant le nombre d'enfants de
chaque chef de famille.

Pour déterminer les bornes de l'intervalle médian, dressons le tableau des


effectifs cumulés croissants :

Valeurs xi 0 1 2 3 4 5

Effectifs ni 16 18 14 11 3 2

E.C.C (ni’) 16 34 48 59 62 64

N N
N = 64 est pair. : n'p = = 32 et nq ' = + 1 = 33
2 2
Dans ce tableau,
n p ' = 32 → x p = 1
nq' = 33 → xq = 1

17
L'intervalle médian est  x p ; xq  = [1, 1] ;
 
x p + x p +1 1+1
D'où la médiane : M e = = = 1 , soit M e = 1
2 2

Exemple 4 : Soit une série statistique donnée en extension :


X : {(-1 ; 1), (2 ; 3), (3 ; 2), (6 ; 3), (9 ; 1), (11 ; 1), (12 ; 1)}. Déterminer sa
médiane.

Solution
Dressons le tableau de la série statistique donnée :

Valeurs xi -1 2 3 6 9 11 12

Effectifs ni 1 3 2 3 1 1 1

E.C.C(ni’) 1 4 6 9 10 11 12

N N
N = 12 est pair ; n'p = =6 et ' =
nq +1 = 7
2 2
n3 ' = 6 → x3 = 3 et n4' = 9 → x4 = 6
avec p = 3 et q=4

x p + x p +1 3 + 6
L'intervalle médian est  x3 ; x4  = [3 ; 6]. Donc, M e = = = 4,5
  2 2

4.3 Cas des variables quantitatives continues :


1°/ A l'aide des Effectifs Cumulés Croissants, on détermine d’abord la classe
médiane, celle qui contient la médiane.

2°/ Ensuite, la valeur de la médiane est déterminée à l'aide d'une


interpolation linéaire, en supposant que la répartition des valeurs reste
uniforme au sein de chaque classe.
En effet, soit
X = ( a1 , a2  ; n1 ), ( a2 , a3  ; n2 ), ( a3 , a4  ; n3 ),..., ( ak −1 , ak ; nk ) - l’ensemble des
classes modales ;
N = n1 , n2 , n3 ,..., nk ) - l’ensemble de l’effectif total des classes modales :

 
N ' = n1' , n2' , n3' ,...n'p ,..., nk' - l’ensemble des ECC dans le tableau de
la série statistique X,

N
n' = - un effectif relatif dans le tableau des ECC.
p 2
18
N
Alors, le nombre n' = de l’Effectif Cumulé Croissant correspond
p 2
forcément à un élément a p  Me de la classe médiane engendrée par les
modalités de la série statistique à variables continues.

En supposant que la répartition des valeurs de X reste uniforme à l'intérieur


d’une classe et en particulier au sein de la classe médiane, alors la
médiane Me peut être déterminée à l’aide d’une interpolation linéaire ;
a p Me
−−−− +−−−−−−−
al + −−−−−−− + −−
aq
Ligne des mod alités

−−−− + −−−−−−− + − − − − − − − + − − − Lignes des E.C .C


n' '
np = N nq'
l 2

En effet, selon les relations de similitude de Thalès :


Me − al n p − nl
' '

=
aq − al nq' − nl'
Dès lors,
n'p − n'
(
M e = al + aq − al
' )l
nq − nl'
avec
' N
np = 2

Exemple Appliqué 1: Considérons le tableau statistique suivant :


Classes [150,155[ [155,160[ [160,165 [ [165,170 [ [170,175 [ [175,180 [ [180,185]

Effectifs 1 10 12 20 11 8 2

E.C.C 1 11 23 43 54 62 64

E.C.D 64 63 53 41 21 10 2

F.C.C 0,02 0,17 0,36 0,67 0,84 0,97 1

La troisième ligne est celle des effectifs cumulés croissants. N = 64


' N
Donc np = 2 = 32
D'après la ligne des E.C.C,

n'p = 32   23; 43


23  32  43
D’autre part, nous observons les correspondances suivantes :
19
'
n = 23 → [160,165 [
l
'
Et nq = 43 → [165; 170 [
Or,
a = 165 < ap = Me < aq = 170
l
D’où les relations :
165 < Me< 170
23  32  43
En supposant que les valeurs de X restent uniformément réparties dans une
classe, les deux suites obtenues restent proportionnelles et une combinaison
linéaire entre ses éléments peuvent être effectuée (Théorème de Thalès).
Entre autres, l’on peut écrire :
Me − 165 32 − 23
=
170 − 165 43 − 23
D'où:
5
Me = 165 +  ( 32 − 23 ) = 165 + 2,5 = 167,5 cm.
( 43 − 23 )

Avec:  A =170-165 = 5 cm est l’amplitude de la classe ;

 (43 - 23): la différence entre l'E.C.C de la classe médiane et celle de


la classe qui est juste avant celle-ci. Cette quantité n'est autre que l'effectif
de la classe médiane ;
N
 (32 - 23): L’écart en effectif entre la − ième valeur et la première de
2
la classe médiane.
− − − − + − − − − − − − + − − − − + − − Ligne des mod alités
165 a p Me 170

− − − − + − − − − − − − − − + − − − − − − + − − − Lignes des E.C.C


23 32 43

Exemple appliqué 2. Considérons le tableau des effectifs et des


fréquences cumulées dressé ci-dessous. Déterminer la Médiane

Classes
[15 ; 18[ [18 ; 21[ [21 ; 24[ [24 ; 27[ [27; 30[ [30 ; 33[

Effectifs(ni)
1 5 16 24 12 2

Effectifs
Cumulés 1 6 22 46 58 60

20
Fréquences
Cumulées
Croissantes 0,02 0,10 0,37 0,77 0,97 1

Effectifs
cumulés
Décroissants 60 59 54 38 14 2

Fréquences
cumulées 1 0,98 0,94 0,63 0,23 0,03
décroissantes

S’il existe une classe médiane, c'est celle qui contient la médiane, valeur
de la variable correspondant à 50 % des effectifs cumulés (croissants ou
décroissants).

' N 60
np = 2 = = 30
2

Elle peut s'obtenir graphiquement comme abscisse du point d'intersection


des polygones des effectifs cumulés (fig. 3).

La médiane Me se calcule par interpolation linéaire en supposant la


répartition des effectifs uniforme à l'intérieur de la classe médiane.

Dans le cas de l'exemple ci-dessus, la classe médiane correspondant à un


effectif cumulé de 30 (moitié de l'effectif total), est [24 ; 27[. On a les 2
suites proportionnelles :
24 e 27
22 30 46

 e − 24 30 − 22 8
d’où : = soit :  e = 24 + 3 = 25.
27 − 24 46 − 22 24

4.4 Les Quartiles et Percentiles

Les quartiles sont des percentiles particuliers ; aussi, les étapes de calcul des
percentiles peuvent être directement appliquées au calcul des quartiles.

Il est souvent utile de diviser les données en quatre parts, chacune contenant
approximativement un quart, ou 25% des observations. La figure 3.1
représente un ensemble de données divisé en quatre parts. Les points de
division sont appelés quartiles et sont définis de la façon suivante :
Q1= premier quartile, ou 25e percentile
Q2= second quartile, ou 50e percentile (aussi la médiane)
Q3= troisième quartile, ou 75e percentile.

21
25% 25% 25% 25%

Q1 Q2 Q3
Premier quartile second quartile troisième quartile
(25e percentile) (50e percentile) (75e percentile)
(Médiane)
Figure 4 : Position des quartiles

4.5 Calculs des quartiles, percentiles et déciles

Exemple : Considérons le tableau de la série statistique suivante :

Classes [15,18[ [18, 21[ [21, 24[ [24, 27[ [27, 30[ [30, 33[

Effectifs 1 5 16 24 12 2
E.C.C 1 6 22 46 58 60
Fréquence C.C 0,02 0,10 0,37 0,77 0,97 1

1 / Déterminer le premier quartile Q1


2/ Le troisième quartile Q3

Solution
1
- Le premier quartile Q1 est la valeur de la variable qui correspond à 25 % ( )
4
des effectifs cumulés croissants.
- Le troisième quartile Q3 est la valeur de la variable qui correspond à 75 %
3
( ) des effectifs cumulés croissants.
4
Ces caractéristiques se déterminent comme la médiane ( e = Q2) par interpolation
linéaire. En effet,
N 60
= = 15
4 4
Or, dans le tableau des effectifs cumulés, l’on a : 6 < 15 < 22
Ce qui, dans la classe des modalités, correspond à : 21  Q1  24
D’où la suite des nombres proportionnels:
21  Q1  24
6  15  22
Par conséquent,
Q1 − 21 15 − 6 9 23
=  Q1 = 21 + 3  22, 69 ; Q3 = 24 + 3  26,88 .
24 − 21 22 − 6 16 24

22
L'intervalle interquartile I = Q3 - Q1 = 4,19 est utilisé comme caractéristique de
dispersion.

V- Les moyennes d’une série statistique


Ce sont les paramètres les plus importants dont on se servira beaucoup pour
caractériser une série statistique.

d19. Moyenne arithmétique : La moyenne la plus utilisée pour un échantillon


de N observations est appelée Moyenne arithmétique. On note x cette
moyenne.
x + x + ........ + xk 1 i = k
x= 1 2 =  xi
N N i =1

d20. Moyenne pondérée


Soit la série statistique X : ( x1 , n1 ),( x2 , n2 ),( x3 , n3 ),...,( xk , nk ) .
Si des regroupements ont été effectués et si la variable prend k valeurs
distinctes x1 x2, ..., xk alors : la moyenne de la variable statistique est la
moyenne pondérée :
n x + n x + ........ + nk xk 1 i = k k
x= 1 1 2 2 =  ni xi =  f i xi
N N i =1 i =1

Les calculatrices actuelles permettent d'effectuer de tels calculs sans


difficulté.
Il suffit pour cela de " saisir " les valeurs de X ainsi que les effectifs
correspondants.
La machine " fait " le reste: résultats des calculs intermédiaires et résultats
finaux.
DATA
En général, la touche pour saisir les données est:
x
Celle de la moyenne est :

Remarque
Soient X et Y des variables statistiques sur la même population. Les valeurs
de X sont { xi , i = 1 , ... , k }, celles de Y sont { yi , i = 1, .....k} ; donc le même
nombre de valeurs pour X et pour Y. Si l'on a la relation yi = a xi - b où a et b
sont des constantes, alors, on a : y = ax − b

Pour a = 1, on a y = x−b
Cette formule est très pratique quand on manipule de grandes valeurs de la
variable, si on a une certaine idée de la valeur de la moyenne. Il suffit de
considérer la variable Y qui, elle, aura des valeurs " raisonnables " car
représentant l'écart entre
les valeurs de X et de la valeur b, prenant b proche d'une estimation de la
moyenne de X.

23
On peut aussi définir une Moyenne géométrique, une Moyenne harmonique,
etc. Pour ceux qui seraient intéressés par ces notions, il suffit de se référer à un
livre traitant de Statistique Descriptive.

VI- Les Paramètres de dispersion


La moyenne à elle seule ne suffit pas pour caractériser une série statistique.
Deux séries peuvent avoir la même moyenne dans une situation similaire à
celle schématisée ci-dessous:
_
x
Série n°1

Série n°2
_
x
La moyenne est la même mais les valeurs de chacune des séries ne sont pas
réparties de la même manière. On ne pourra donc pas dire que ces deux
séries ont un comportement similaire quand on aura à tirer les conclusions.

C'est pour cette raison que l'on a besoin de critères supplémentaires pour
caractériser cette " dispersion " des valeurs autour de la valeur moyenne. Ce
sont les paramètres de dispersion. On peut citer:

6-1 L'écart moyen : C'est la moyenne des valeurs absolues des écarts des
valeurs à la moyenne x . Un écart de la valeur xi à la moyenne est la
différence xi - x .
On le note e :
k
1
e=
N
n
i =1
i xi − x

où k est le nombre de valeurs de X, N son effectif total et nk l'effectif relatif


xk de X.

6-2 La variance V(X)


La variance de X notée V(X) est la moyenne des carrés des écarts entre les
valeurs xi et la moyenne x :
2
V (X ) =
1 k
 n x
N i =1 i i(− x )

Dans la pratique, la variance se calcule plutôt avec la formule


1 k
V ( X ) =  ni xi2 − x
2

N i =1
En effet,

24
1  k 
2

 n ( x − x)
k k k k
1 1
n ( x   
2
V (X ) = i i =i
2
i − 2 x xi + x ) =
n x
i i
2
− 2 x n x
i i + x ni 
N i =1 i =1 N N  i =1 i =1 i =1 
1  2 1  2
( )
k k
=   ni xi2 − 2 x N x + N x  =   ni xi2 − N x 
N  i =1  N  i =1 

Soit en définitive :

1 k
V ( X ) =  ni xi2 − x
2

N i =1
6-3 L'écart-type noté  x est de loin, le caractère de dispersion le plus
utilisé.
Il est de même dimension que les valeurs de X, et donc peut être directement
interprété.
1 k

2
x = V (X ) = ni xi2 − x
N i =1
Et ici encore, on peut valablement utiliser les machines à calculer. Elles
permettent pour la plupart des calculs systématiques de ces paramètres,
avec toujours des possibilités d'avoir les résultats intermédiaires utiles dans la
rédaction des devoirs.

▪ Calcul de l’écart type dans le cas où X est une variable continue.


Soit la série statistique quantitative continue :
X : ( a1 , a2  ; n1 ), ( a2 , a3  ; n2 ), ( a3 , a4  ; n3 ),..., ( ak −1 , ak ; nk )
Dans ce cas, l’on remplace dans les formules précédentes x i par c i où c i
est le centre de la i-ème classe :
a i −1 + a i
Ci =
2
Exemple Appliqué 3 : Considérons le tableau des effectifs dressé ci-dessous :
1/ Déterminer le Mode et la Médiane de cette série statistique ;
2/ Calculer l’écart-type

Modalit
. [65,75[ [75,85[ [85,95[ [95,105[ [105,115[ [115,125[ [125,135[ [135,145[ [145,155[ Total
Classe

Effectifs
1 3 9 18 20 16 9 4 1 81
(ni)

ECC 1 4 13 31 51 67 76 80 81

25
ECD 80 79 76 68 50 30 14 5 1

ci 70 80 90 100 110 120 130 140 150

n i ci 70 240 9100 1800 2200 1920 1170 560 150 8920

2
ni c i 4900 72900 64800 180000 242000 230400 152100 78400 22500 1002400

Solution
1/ Le Mode est la modalité d’une série statistique ayant le plus grand
effectif ni. Ici, le Mode est : [105,115[

2/ N=81 est impair, donc np’= 40,5, or 31<40,5<51, ce qui correspond


dans la ligne de modalités à 105< Me<115. D’où les relations de
similitude :
105< Me<115
31< 40,5 < 51

Une interpolation linéaire en supposant la répartition des effectifs


uniforme à l'intérieur de la classe médiane, donne :

 e − 105 40,5 − 31 9,50


=   e = 105 + 10 ; soit  e = 109,75
115 − 105 51 − 31 20

Calculons l’écart-type.
En considérant le tableau statistique obtenu, les sommes totalisées à la
4ème et 5ème lignes de la dernière colonne permettent de déterminer la
moyenne, la variance et l’écart-type ;
1 i =k 1 i =k
Moyenne : x =  ni xi =  nc
N i =1 N i =1 i i
1 8920
x = (1 70 + 3  80 + 8  90 + 18 100 + 20 110 + 16 120 + 9  130 + 4  140 + 1 150 ) =
81 81
Soit, x = 110,12

Calculons la Variance :
1 k 1
V ( X ) =  ni ci2 − x =  1002400 − (110,12 ) = 12375,31 − 12126, 41 = 248,89
2 2

N i =1 81
Soit, V ( X ) = 248,89
Calculons l’écart-type :  x = V ( X ) = 248,89 = 15, 78

26
VII- EXERCICES RÉSOLUS

ER 1. Formules de changement de variables

Soit x1, x2, ..., xp les p valeurs d'une variable statistique, auxquelles sont associés
les effectifs respectifs : n1, n2, ..., np. On effectue sur la variable x le changement
défini par xi = a  i + b ; ( a  0 ; i = 1, 2, ..., p).
1. Montrer que l'on a : x = a  + b .
2. Montrer que l'on a : Vx = a2 Vx et  X = a X .

Résolution
N ' = n1 + n2 + n3 + ... + n p + ... + nk
p p
1 1 1 p 1 p
1. =
N

i =1
ni xi =
N

i =1
ni ( ai + b ) = a  ni x1 + b ni
N i =1 N i =1

1 p
 1
 = a  n   + N b ( N ) = a  + b.
i i
N i =1 

1 p
( ) 1 p 
( )
2
 ni xi − x  ni ( ai + b ) − a  + b  .
2
2. Vx = =
N i =1 N i =1  

1 p  1 p
( ) ( )
2
Vx =  ni a i −  = a x  ni i −  .

2
2

N i =1   N i =1

On a donc : Vx = a 2Vx et  x = a x.

ER 2. : Soit le tableau de la série statistique X présenté ci-dessous :

TOTAL
Valeur xi 0 1 2 3 4 5 

Effectif ni 16 18 14 11 3 2 64 = N

E.C.C 16 34 48 59 62 64
ni x 2i
0 18 56 99 48 50 271

xi − x 1,58 0,58 0,42 1,42 2,42 3,42

n i xi − x 25,28 10,44 5,88 15,62 7,26 6,84 71,32

27
1/ Calculer son mode et sa médiane
2/ Déterminer son écart moyen et son écart-type

Solution : X est une série statistique quantitative discrète.

Mode = 1 car, c’est la modalité qui a le plus grand effectif n2 = 18

Médiane : Pour déterminer la médiane, ajoutons au tableau une 3ème ligne,


la ligne des effectifs cumulés croissants. Rappelons que l’effectif cumulé
croissant (E.C.C) de xi est la somme des effectifs de toutes les valeurs
inférieures ou égale à xi ;
N N 
N = 64 est pair. La moitié est   = 32 et  + 1 = 33
2 2 
Dans le tableau ci-dessus,
32 → x2 = 1
33 → x2 = 1
1+1
Donc, L'intervalle médian est  x2 , x2  = [1, 1] ; D'où la médiane M e = =1
2
1 i =6
0 16 + 118 + 2 14 + 3 11 + 4  3 + 5  2 101
Moyenne: x =
N
n x
i =1
i i =
64
=
64
 1,58

Ecart moyen: En complétant le tableau ci-dessus, on trouve l'écart moyen


de cette variable :
1 k 71,32
e =  ni xi − x = = 11,11
N i =1 64

Variance : La quatrième ligne créée est pratique pour le calcul de la


variance.

()
2
1 i =6 271  101
V ( X ) =  ni xi2 − x =
2
−   1,74
N i =1 64  64 

Ecart-type :  x = V ( X ) = 1, 744  1, 32

ER 3.
Le relevé du nombre journalier d’interventions de l’entreprise de réparations
(exemple § 6) est donné avant regroupement par le tableau suivant :

Nombre de 15 18 19 20 21 22 23 24 25 26 27 28 29 30 32
demandes
Nombre de jours 1 1 2 2 4 6 6 7 9 8 4 5 3 1 2

1. Effectuer la représentation en bâtons de cette série.


28
2. Donner le mode. Calculer la médiane et les quartiles Q1 et Q3 .
3. Calculer la moyenne, la variance et l'écart- type.
4. On regroupe les valeurs suivant les classes :
] 12 ; 15] ] 15 ; 18] ] 18; 21] ] 21 ; 24] 24; 27 ] 27 ; 30] ] 30 ; 33].
Dresser le tableau des effectifs et calculer la moyenne, la variance et l'écart-
type.

Résolution
1. La représentation en bâtons est donnée à la figure 4.
2- Le mode est x7 = 25 car c’est la modalité qui a le plus grand effectif n7 = 9
Calculons la Médiane :
Si on classe les 60 demandes dans l'ordre croissant (15, 18, 19, 19, 20, 20, ...), la
médiane est la moyenne du nombre des demandes classées entre 30 et 31.

Nombre de 15 18 19 20 21 22 23 24 25 26 27 28 29 30 32
demandes
Nombre de jours 1 1 2 2 4 6 6 7 9 8 4 5 3 1 1

E.C.C 1 2 4 6 10 16 22 29 38 46 50 55 58 59 60

N N 
En effet, N = 60 est pair. La moitié est   = 30 et  + 1 = 31
2 2 

Dans le tableau ci-dessus,


30 → x9 = 25
31 → x9 = 25
25 + 25
Donc, L'intervalle médian est  x9 , x9  = [25, 25] ; d’où M e = = 25
2
3- Le quartile Q1 est situé entre les 15ème et les 16ème demandes. Comme leur
nombre est pour toutes deux de 22, on a : Q, = 22.
De même Q3 est situé entre les 45ème et les 46ème demandes et vaut donc
26.3. En utilisant une calculatrice programmée on obtient:
x = 24, 38 V = 9,8031  = 3,13

4- Tableau des effectifs après regroupement :


Classes ]12; 15] ]15; 18] ]18; 21] ]21 ; 24] ]24;27] ] 27; 30 ] ]30; 33]

Effectifs 1 1 8 19 21 9 1
On trouve alors: x = 23, 95; V = 10, 9475;   3, 31
Les résultats sont voisins malgré des différences portant surtout sur la variance

29
VIII- Exercices d’Application
Exercice d’Application 1

Le tableau suivant donne les résultats de la mesure X (en mètre) des


longueurs de 80 piquets. X est considérée comme une variable discrète.

xi 1,57 1,62 1,67 1,72 1,77 1,82 1,87

ni 3 12 18 25 15 5 2

a) Ecrire explicitement les éléments de la série statistique de X


b) Déterminer le mode, l'étendue, la médiane des valeurs de cette série.
c) Tracer un diagramme en bâtons illustrant cette série.
d) Calculer la moyenne, la variance, l'écart moyen et l'écart-type de cette
variable.

Exercice d’Application 2
Sur 1000 électeurs, on observe:
401 électeurs dont l'âge est compris entre 20 et 40 ans.
368 électeurs dont l'âge est compris entre 40 et 60 ans.
231 électeurs dont l'âge est compris entre 60 et 80 ans.
La variable statistique est l'âge de ces électeurs.
a) Préciser la nature de cette variable, ainsi que l'étendue de ses valeurs.
b) Donner le tableau statistique de cette série de valeurs.
c) Quelle est la classe modale ?
d) Calculer la médiane en utilisant les Effectifs Cumulés Croissants et en
supposant que les âges sont répartis de manière uniforme dans une classe
donnée.
e) Déterminer la moyenne et l'écart-type de cette série

Exercice d’Application 3
On a relevé les nombres X d'allumettes contenues respectivement dans 20
boites, lors d'un contrôle de fabrication dans une usine.
Les résultats sont les suivants: 40 ; 42 ; 32 ; 38 ; 40 ; 48 ; 30 ; 38 ; 36 ; 40 ; 34 ; 40 ;
34 ; 40 ; 38 ; 40 ; 42 ; 44 ; 36 ; 42.

1°) Quelle est la nature de cette variable X?


2°) Donner le tableau statistique de la série correspondante.
3°) Calculer la médiane, la moyenne et l'écart-type de cette série.
On décide de considérer cette variable comme une variable continue.
4°) Ranger ces résultats en classes d'intervalle 4 allumettes, borne supérieure
exclue.
5°) Tracer l'histogramme de la série correspondante.
6°) Calculer sa moyenne et son écart-type.
7°) Comparer les résultats obtenus avec ceux de la question 3°).
30
Exercice d’Application 4
On relève chaque matin les horaires d'arrivée des 800 ouvriers d'une usine. Le
travail commence à 9h 15mn.
Le jour de ce relevé, les 800 ouvriers sont tous venus au travail.
Le tableau statistique des arrivées est le suivant, où on a utilisé 5 classes
d'arrivée d'amplitude 10 mn. La première arrivée a été enregistrée à 8h 45 et
la dernière entre 9h30 et 9h35.

Heure
d’arrivée [8h45 ; 8h55[ [8h55 ; 9h05[ [9h05 ; 9h15[ [9h15 ; 9h25 [ [9h 25 ; 9h 35[

Effectifs 14 136 350 250 50


centre
des classes 8h 50 9h 9h 10 9h 20 9h 30

Déterminer:
- la nature de la variable
- la classe modale
- l'heure moyenne d'arrivée des ouvriers
- l'écart-type de ces arrivées
- Tracer un l'histogramme des arrivées des ouvriers.
Les ouvriers de cette usine sont-ils ponctuels ?
N.B : Les calculs intermédiaires doivent être regroupés dans un tableau

31
CHAPITRE 2 : STATISTIQUE À DEUX VARIABLES :
REGRESSION LINÉAIRE
Il peut arriver que l'on veuille étudier simultanément deux variables statistiques
X et Y définies sur une même population pour essayer de voir s'il n'y a pas une
relation entre elles. On dira alors que l'on fait une étude statistique à 2
variables.

Comme pour toute étude statistique, on effectue les enquêtes auprès de la


population ou de l'échantillon choisi.

- Comment présente-t-on les résultats d'enquêtes dans ce cas?


- Quel type de graphiques peut-on utiliser?
- Comment peut-on exploiter quantitativement les données recueillies?
- Quel lien peut-il exister entre les caractères X et Y ?

A - Présentation des résultats d'enquêtes

Séries statistiques doubles

 
Notons X : ( x , x , x ,..., xm l'ensemble des valeurs prises par X.
1 2 3

 
Notons de même Y : ( y , y , y ,..., y celles prises par Y.
1 2 3 k

Pour un même individu de la population ou de l'échantillon, (xi, yj) est un


couple de valeurs pouvant être prises sur un individu de la population de
travail.

Notons nij le nombre d'individus correspondant à la valeur xi de X et yj de


Y, donc au couple de valeurs (xi, yj) ; nij est appelé l'effectif du couple.

d1. On appelle série statistique double de variable (X, Y) l'ensemble des


couples ((xi, yj), nij) où xi de X et yj de Y sont les valeurs respectives de X et
de Y et nij, l’effectif du couple (xi, yj), avec i = 1, 2, …m ; j = 1, 2, …k.

Si on désigne par :
i - l'effectif de la valeur xi de X
j - l'effectif de la valeur yj de Y,
- l'ensemble (xi, i) est appelé série statistique marginale de X.
- l'ensemble (yj, j) est appelé série statistique marginale de Y.

32
1 - Tableau à double entrée
d2. C’est le tableau représentant les couples (xi, yj) avec leurs effectifs nij.
Si l'effectif est nul, on ne marque rien.

E.S.M de X signifie " Effectif de la Série Marginale de X "


E.S.M de Y signifie " Effectif de la Série Marginale de Y ".
La première ligne des effectifs nij du tableau concerne tous les individus sur
qui X prend la valeur x1.
▪ 1 est la somme de tous les effectifs n1j de x1. La première colonne des
effectifs nij du tableau concerne tous les individus sur qui X prend la
valeur x1.

▪ 1 est la somme de tous les effectifs ni1 de y1. La première ligne des
effectifs nij du tableau concerne tous les individus sur qui Y prend la
valeur y1.
On détermine ainsi les effectifs des deux séries marginales de X et de Y, à
partir du tableau à double entrée.
n + n + ....... + n = i
i1 i 2 ik
n + n + ..... + nmj =  j
1j 2j

MX 
x1 x2 x3 ...... ..... xi ..... .... xm E.S.M.
MY de Y
 
y1 n11 n21 n31 ni1 … … nm1 1
y2 n12 n22 n32 ni2 nm2 2
y3 3
. ….. ….. …… …. …. …. …. … … ..

yj n1j n2j n3j nij nmj j


… … … … … … … … … … …
… … … … … … … … … … …
yk n1k n2k n3k nik nmk k

E.S.M 1 2 3 ...... .... i ...... ...... m N


de X

Convention: Si l'effectif du couple est nul, on ne le représente pas.

33
2- Exemples Résolus
ER : 1
On considère un échantillon de 10 personnes, prises au hasard dans une
population et on mesure, pour chaque individu, la longueur X des bras (en
cm) et la tailles Y (en m). On obtient le tableau suivant:

Individu N° 1 2 3 4 5 6 7 8 9 10

Val. de X (cm) 68 69 70 72 72 74 75 75 80 80

Val. de Y (m) 1,60 1,68 1,70 1,68 1,75 1,80 1,80 1,85 1,90 1,75

L'ensemble des valeurs de X est {68, 69, 70, 72, 74, 75, 80}
L'ensemble des valeurs de Y est {1,60; 1,68; 1,70; 1,75; 1,80; 1,85; 1,90}. La série
statistique marginale de X est:

Val de X 68 69 70 72 74 75 80
Effectif 1 1 1 2 1 2 2
La série statistique marginale de Y est :

Val de Y 1,60 1,68 1,70 1,75 1,80 1,85 1,90


Effectif 1 2 1 2 2 1 1

Et le tableau statistique à double entrée est:

 MX 68 69 70 72 74 75 80 ESM
MY Y


1,60 1 1
1,68 1 1 2
1,70 1 1
1,75 1 1 2
1,80 1 1 2
1,85 1 1
1,90 1 1

ESM
de X 1 1 1 2 1 2 2 10

Remarque:
- Une case vide correspond à un effectif nul.
- Si X ou Y est une variable qualitative, on remplace la i-ème valeur par la
i-ème modalité.
34
- Si X ou Y est une variable continue, on remplace la i-ème valeur par le
centre Ci de la i-ème classe.

3 - Représentation graphique
On ne parlera que de celle qui est de loin la plus utilisée:

La représentation par un nuage de points.

On considère deux axes orthogonaux, avec pour chaque axe, son origine et
son échelle propres.

En abscisse, on porte les valeurs xi de X, rangées par ordre croissant (ou les
centres des classes des valeurs de X).

En ordonnée, on porte les valeurs yj de Y, rangées par ordre croissant (ou les
centres des classes des valeurs de Y).

On place les points du plan Mi j de coordonnées (xi , yj) , d'effectif nij  0, à


côté desquels on marquera ces effectifs (si ceux-ci sont supérieurs à 1) pour
préciser leurs importances. On obtient ainsi un nuage de points.

Chiffre d’affaires Chiffre d’affaires


(106 F) (106 F)
45- 45-
40- 40-
35- B 35- G2
30- 30-
25- G+ 25- G+
20- A 20-
15- 15-
10- 10- G1

5- 5-

dates (en années)


dates (en années)
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

B - Ajustement
On se pose maintenant la question de savoir s'il peut exister une relation entre
les valeurs de X et celles de Y.

Le nuage de points peut donner une idée sur la nature de cette relation, si
elle existe.
On va s'intéresser plus particulièrement au cas où cette relation est affine du
type
y = a x + b.
35
On dit que l'on fait de l'ajustement affine, et qu'il y a une corrélation linéaire
entre les variables X et Y.

1 - Ajustement affine - Corrélation linéaire

On se place dans le cas où le nuage de points semble indiquer qu'il peut y


avoir une relation affine entre les valeurs de X et celles de Y. Cette hypothèse
est capitale.

Sous cette hypothèse, on cherche alors à déterminer une droite (D)


d'équation y = a x + b qui traduit " au mieux " cette relation affine.

Comment déterminer la " meilleure " droite ? Avec quels critères apprécie-t-
on la qualité des droites utilisées ?

Plusieurs démarches existent, mais nous allons choisir celle qui consiste à
déterminer la droite dite " des moindres carrés ".

2 - Droite des moindres carrés

a) Principe de la méthode
(D)

y R
R
S
y
S
y
P' Q
Q O
y
O
y
P
P

y
N M N
y
M

x x x x x x x x
M N O P Q R S

M(2) signifie que l'effectif du point M est 2 ; xM est son abscisse et yM sera son
ordonnée. Si l'effectif est 1, on ne le porte pas sur le schéma.

Supposons que (D) d'équation y = a x + b soit la meilleure droite au sens des


moindres carrés. Considérons le point P de la figure ci-dessus. P est d'effectif
m, par exemple. P = P (xP, yP).

Notons P' le point de (D) de même abscisse xP: P’ (xP, yP' = axP + b).
(yP - (axP + b)) permet de caractériser la distance entre P et la droite (D) et
(yP - (axP + b))2 est le carré de la longueur du segment P P'

36
 nij ( y j − ( axi + b ) )
2
Considérons alors la quantité A=
sur tous les po int s

A n'est autre que la somme des carrés des longueurs des segments reliant
un point quelconque du nuage au point de (D) de même abscisse, multipliés
à chaque fois par l'effectif de chaque point concerné.

(D) sera la meilleure droite d'ajustement au sens des moindres carrés si pour
cette droite, A prend sa valeur la plus petite.

C'est cette condition qui va nous permettre de déterminer les coefficients a


et b de la droite (D), appelée droite des moindres carrés ajustant le nuage
ou droite de régression du nuage.
Remarque: A ne sera nulle que si tous les points sont sur (D).

b) Détermination de (D): droite d'ajustement de Y en X


On aura besoin de la définition suivante:

Définitions:

▪ Covariance d'une série statistique double


d3 . On appelle covariance de la série statistique double de variables (X, Y),
de moyennes x et y le réel de signe quelconque noté Cov( X , Y ), égal à
:

1
 nij xi y j − x y
Cov( X , Y ) =
N
où nij est l’effectif du couple (xi, yj) ;

Théorème

Dans le cas où la forme du nuage de points permet de supposer que l'on peut
effectuer un ajustement linéaire de ces points, la droite (D) permettant le
meilleur ajustement du nuage au sens des moindres carrés est d'équation:

y=ax+b

Cov ( X, Y )
avec a= ; b = y − ax
V( X )
ou encore
Cov ( X, Y )
y−y= ( x − x)
V( X )

37
▪ Point Moyen
Le point G( x, y ) de coordonnées est appelé Point Moyen ou centre d'inertie
du nuage. Il appartient à la droite (D).

3 - Détermination de (D'): droite d'ajustement de X en Y

La droite de régression de X en Y se détermine de la même manière. C'est la


droite d'équation :
x = a' y + b'
avec
Cov ( X, Y )
a' = et b ' = x − a' y
V( Y )

1 b'
Tracée dans le même repère que (D), l'équation de (D’) est: y = x−
a' a'

( D' )
y R
R
y S
S
Q
y
Q O
y
O
y
P
P' P
y
N N
y
M M

x x x x x x x x
M N O P Q R S

Remarque !!!
Les deux droites (D) et (D’) se coupent au point G( x, y ) et ne sont
confondues que si tous les points sont sur une même droite.

4 - Qualité d'une corrélation linéaire

La quantité notée r telle que

Cov ( X, Y ) Cov ( X, Y )
r= = =  a a'
( X ) ( Y )
V( X ) V( Y )

est appelée coefficient de corrélation linéaire entre X et Y.

On a: -1r 1
38
Cette corrélation que l'on suppose linéaire est d'autant meilleure que I r I est
proche de 1.

Empiriquement, la corrélation est:


- très forte si I r I [0,9 ; 1]
- forte si I r I [0,8 ; 0,9]
- moyenne si I r I [0,6 ; 0,8]
- mauvaise si I r I [0,3 ; 0,6]
- nulle si I r I [0 ; 0,3]

Ce réel r sert à apprécier la qualité d'une corrélation que l'on suppose linéaire
mais ne peut pas prouver qu'une corrélation donnée est réellement linéaire.

Il existe des corrélations entre X et Y qui ne sont pas linéaires et pourtant les
valeurs de r correspondantes sont proches de 1.

Figures pour différentes valeurs de r.


(D)

(D')

D
G (D)

r>0 r<0 (D)

(D) = (D')

r=0

Remarque !!!

Le tableau des Effectifs de la Série Marginale (ESM) permet de calculer


aisément les valeurs x et y

39
5 - Quelques ajustements pouvant se ramener à un ajustement
linéaire.

▪ Si le nuage de points de ( X , Y ), ou une autre indication, permet de


penser qu'il peut y avoir une relation entre les valeurs de X et de Y du
type:
y = a x2 + b. (ajustement parabolique).

Il suffit de poser v = y et u = x2, et les valeurs de v et u sont telles que v = a u


+ b et v = y ; u = x2. On recherche un ajustement linéaire des valeurs de u et
de v. Ce qui donnera a et b.

▪ y =  e  x, où y et  sont de même signe (ajustement exponentiel)


Il suffit de poser v = ln I y I ; u = x, et v =  u + ln I  I. Un ajustement linéaire
des valeurs de v et u permet d'avoir  et ln II.

6 - Utilité d'un ajustement


On effectue un ajustement des points d'un nuage dans le but de pouvoir
calculer une valeur approchée d'une des variables X ou Y en des points où
on n'a pas de valeurs empiriques. On dit que l'on fait de l'estimation.

Cela ne sera intéressant que si le type de corrélation est bien déterminé et


que si la corrélation est bonne. Ce qui sera supposé pour la suite.

Supposons que l'intervalle dans lequel on a fait les expériences soit [a, b] :

- si l'estimation est demandée pour des valeurs de X à l'intérieur de [a, b], on


dit que l'on fait de l'interpolation. Plus le type de corrélation est le bon et la
corrélation bonne, meilleure sera l'estimation ainsi faite.

- si cette estimation est demandée pour des valeurs se trouvant à l'extérieur


de l'intervalle d'étude [a, b], on dit que l'on effectue une extrapolation (ou
une prévision) ; il faut alors s'assurer que le modèle d'ajustement utilisé est
toujours valable.

7- Exemples d'application

ER n° 1
Considérons l’échantillon de 10 personnes, prises au hasard dans une
population. On mesure, pour chaque individu, la longueur X des bras (en cm)
et la taille Y (en m). On a obtenu le tableau suivant:

Val. de X (cm) 68 69 70 72 72 74 75 75 80 80
Val. de Y (m) 1,60 1,68 1,70 1,68 1,75 1,80 1,80 1,85 1,90 1,75
40
Représentons graphiquement le nuage de points correspondant à cette série
double.

Les points du nuage semblent se situer autour d'une droite. Un ajustement


linéaire peut être envisagé. Le tableau suivant permet de regrouper toutes les
étapes de calculs:
MX ESM
MY 68 69 70 72 74 75 80 Y
 
1,60 1
1
1,68 1 1 2

1,70 1 1

1,75 1 1 2

1,80 1 1 2

1,85 1 1

1,90 1 1

ESM
de X  1 1 1 2 1 2 2 10

41
Remarque
Le tableau des ESM permet de déterminer sans détour, les valeurs x et y ,
V ( X ), V (Y ),  x et  y .
On a respectivement :

1 i =k
x=   x ,
N i =1 i i
1 i =k
y=   j xj
N i=1

i =6

  y − ( y)
1 2
V (Y ) = i
2
i
N i =1

i =6

 x − ( x)
1 2
V (X ) = 2
i i
N i =1

Représentation du Tableau de la série statistique avec les Effectifs de la Série


Marginale (ESM)

xi i  i xi  i xi2 yj j  j yj  j yi2

 - -

L’exemple ci-dessus nous donne le tableau suivant :


xi i  i xi  i xi2 yj j  j yj  j yi2

68 1 68 4624 1,60 1 1,60 2,56

69 1 69 4761 1,68 2 3,36 5,6448

70 1 70 4900 1,70 1 1,70 2,89

72 2 144 10368 1,75 2 3,50 6,125


42
74 1 74 5476 1,80 2 3,60 6,48

75 2 150 11250 1,85 1 1,85 3,4225

80 2 160 12800 1,90 1 1,90 3,61

Total - 10 735 54 179 - 10 17,51 30,7323

Déterminons alors les séries marginales de X et Y

Série marginale de X :
 x +  2 x2 +  3 x3 + .... +  k xk ( 68 + 69 + 70 + 2  72 + 74 + 2  75 + 2  80 )
x= 1 1 = = 73, 5
N 10
1 k =7
()
V(X) =   k xk2 − x = 15,65
2

10 k =1

Série marginale de Y:

1 y1 +  2 y2 + ... +  m ym 1, 60 + 1, 68  2 + 1, 70 + 1, 75  2 + 1,80  2 + 1,85 + 1, 75


y= = = 1, 75
N 10
m =7
1
  j y 2j − y ( ) 30, 7323
2
V(Y) = = − (1, 75)2 = 0, 011
10 j =1 10

Détermination de la covariance

Pour déterminer la covariance, il faut obligatoirement calculer les produits xy


dans l’ordre indiqué et en obtenir la somme ; on dresse le tableau suivant :

xi yj xi2 yi2 xi yj
68 1,60 4624 2,56 108,8
69 1,68 4761 2,8224 115,92
70 1,70 4900 2,89 119
72 1,68 5184 2,8224 120,96
72 1,75 5184 3,0625 126
74 1,80 5476 3,24 133,2
75 1,80 5625 3,24 135
75 1,85 5625 3,4225 138,75
80 1,90 6400 3,61 152
80 1,75 6400 3,0625 140
TOTAL 735 17,51 54179 30,723 1 289,63

1
Cov( X , Y ) =
N
 nij xi y j − x y
Selon le tableau ci-dessus, l’on a
43
1 1289, 63
N
n ij xi y j =
10
= 128,963

1
 nij xi y j − x y = 128,963 − (73,5).1,571  13,50
Donc Cov( X , Y ) =
N
Nous en déduisons alors les équations des droites (D) et (D‘).
y=ax+b

Cov( X , Y ) 13,50
avec a= = = 0,862
V (X ) 15,65
b = y − ax = 1,751-(0,862).73,5 =-61.61

Donc, l’équation de la droite de régression (D) de Y en X est :


y = 0,86 x -61.61

D’autre part, l’équation de la droite de régression (D’) de X en Y est :


x = a' y + b'
avec
Cov( X , Y ) 13,5
a' = = = 1227, 27
V (Y ) 0,011
b ' = x − a ' y = 73,5 − (1227, 27).1,751  2075, 45
Par conséquent, la droite de régression (D’) de X en Y est :
x = 1227,27 y -2075,45
1 2075, 45
Ou bien y= x+
1227, 27 1227, 27

Soit y = 0, 0008 x + 1, 69

ER n° 2
On a étudié la moyenne Y des maxima de tension artérielle et l'âge X de 6
individus d'une population féminine.

On a obtenu le tableau statistique suivant:

Âge 36 42 48 54 60 66

Tension 11,80 14,00 12,60 15,00 15,50 15,10

Etudions cette série statistique double.


Peut-on, en observant le nuage de points correspondant à cette série,
envisager un ajustement affine?

Détermination des équations des deux droites de régression (D) de Y en X et


(D') de X en Y.
44
Solution
Donnons directement les résultats, mais il est fortement conseillé de refaire
tous les calculs, d'utiliser pour cela un tableau similaire à celui utilisé à
l'exemple 1, car c'est cette présentation qui sera exigée à l'examen.

Séries statistiques marginales:


306
x= = 51 V ( X ) = 105  ( X ) = 10, 25
6
84
y= = 14 V ( Y ) = 1, 8766  ( X ) = 1, 370
6
1
Calcul de COV(X, Y): Cov( X , Y ) =  nij xi y j − x y = 11, 70
N

Droite de régression de Y en X:
Cov( X , Y )
y = a x + b avec a = = 0,11143 et b = 8,31714
V (X )
y = 0,111 x + 8,317
1 b'
Droite de régression de X en Y: y = x −
a' a'
Cov( X , Y )
Avec a ' = = 6,2345 et b' = -36,2824 ; y = 0,160 x + 5,820
V (Y )
Le coefficient de corrélation est r = 0,83: bonne corrélation si elle est linéaire.

Commentaires:
Un individu de 50 ans a une tension artérielle de 14. L'estimation à l'aide de
(D) donne sa tension à 13,89. On a effectué là une interpolation car 50 est
dans l'intervalle d'étude. Au vu de ce qui a été observé sur l'échantillon, on
ne peut pas, à priori, dire que la tension est anormale, bien que l'échantillon
de travail soit trop petit!

La tension d'une femme de 70 ans issue de la population d'où est tiré cet
échantillon est de 16,2. Que peut-on en penser?

On effectue là une extrapolation car 70 ans n'est plus une valeur de


l'intervalle de travail. On doit donc supposer que le phénomène observé reste
encore valable pour des valeurs se trouvant au-delà de 70 ans.
Dans ce cas, la tension de cette femme serait de 17,02, utilisant la droite (D'):
droite de régression de X en Y.
Remarque :
La différence entre les valeurs peut provenir:
- de l'échantillon qui n'est pas représentatif de cette population.
- s'il est représentatif, de la taille trop petite de l'échantillon
- de l'extrapolation elle-même: on est assez loin de la valeur limite de
66 ans.

45
STATISTIQUE 2EME PARTIE

46
CHAPITRE 3 : LES INDICES

Les séries statistiques que I'on a appris à examiner dans les chapitres
précédents sont a priori des séries d'observations simultanées (les notes de
statistique des étudiants d'un groupe, la dépense mensuelle des étudiants L1,
etc.).

Un autre type de données mesure la même grandeur observée à différentes


périodes (le salaire d'un individu, la production différentes périodes (le salaire
d'un individu, la production d'un paysan, le PNB d'un pays, etc.).

On peut dès lors étudier l'évolution dans le temps de cette grandeur à I ‘aide
d'un indice. Les indices synthétiques permettront de donner une mesure
globale de l'évolution simultanée de plusieurs grandeurs, en particulier dans le
cas des prix.

47
48
49
EXEMPLES : Evolutions successives et taux de croissance moyen.
50
51
52
53
CHAPITRE 4 : LES SERIES CHRONOLOGIQUES

54
55
56
57
58
59
60
EXEMPLE 1

61
EXEMPLE 2

62
63
64
65
66
67

Vous aimerez peut-être aussi