Vous êtes sur la page 1sur 57

Université de Tunis

Institut Supérieur de Gestion de Tunis

Cours
Statistique descriptive et probabilités
Mme. Hanen SDIRI ALOUI

Année universitaire
2019-2020
TABLE DES MATIÈRES

I Statistiques descriptives iv

1 Notions de base 1

Notions de base 1
1 Les concepts de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Population (ensemble statistique) . . . . . . . . . . . . . . . . 2
1.2 Unité statistique ou individu . . . . . . . . . . . . . . . . . . . 2
1.3 Caractère (variable) . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.1 Caractère qualitatif . . . . . . . . . . . . . . . . . . . 3
1.3.2 Caractère quantitatif . . . . . . . . . . . . . . . . . . 3
1.4 Modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Tableaux et graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 Présentation des caractères qualitatifs . . . . . . . . . . . . . . 5
2.1.1 Tableau statistique . . . . . . . . . . . . . . . . . . . 5
2.1.2 Représentation graphique . . . . . . . . . . . . . . . 7
2.2 Présentation des caractères quantitatifs discrets . . . . . . . . 9
2.2.1 Effectifs et fréquences . . . . . . . . . . . . . . . . . 9
2.2.2 Représentation graphique des effectifs et des fréquences 9
2.2.3 Effectifs et fréquences cumulé(e)s . . . . . . . . . . . 10
2.2.4 Fonction de répartition . . . . . . . . . . . . . . . . . 11
2.3 Présentation des caractères quantitatifs continus . . . . . . . . 14

i
2.3.1 Les modalités et le tableau statistique . . . . . . . . 14
2.3.2 Représentations graphiques des effectifs et fréquences 15

2 Tendance centrale et de dispersion 19


1 Les paramètres de tendance centrale . . . . . . . . . . . . . . . . . . 19
1.1 Le Mode (noté MO ) . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 La Médiane (noté Me ) . . . . . . . . . . . . . . . . . . . . . . 23
1.2.1 Données brutes . . . . . . . . . . . . . . . . . . . . . 23
1.2.2 Données collectées dans un tableau . . . . . . . . . . 23
1.3 Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . 26
1.3.1 Cas d’une variable discrète . . . . . . . . . . . . . . 26
1.3.2 Cas d’une variable continue . . . . . . . . . . . . . . 27
2 Les caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . 28
2.1 L’étendue (ou intervalle de variation) . . . . . . . . . . . . . . 28
2.2 Les écarts interquartiles . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Les quartiles . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Les déciles . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3 Les centiles . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Les écarts par rapport à une valeur de tendance centrale . . . 31
2.3.1 L’écart absolu moyen . . . . . . . . . . . . . . . . . . 31
2.3.2 La variance et l’écart type . . . . . . . . . . . . . . . 31
2.3.3 Le cœfficient de variation . . . . . . . . . . . . . . . 32
2.3.4 Moments d’une série statistique . . . . . . . . . . . . 32

3 Caractéristique de forme et de concentration 33


1 L’asymétrie (skewness) . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2 L’aplatissement (kurtosis) . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Les caractéristiques de concentration . . . . . . . . . . . . . . . . . . 34
3.1 Valeurs globales et valeurs globales relatives . . . . . . . . . . 35
3.2 La médiale (Mle ) . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 La courbe de concentration . . . . . . . . . . . . . . . . . . . 36
3.4 Indice de concentration : Indice de Gini . . . . . . . . . . . . . 37
3.4.1 Surface de concentration . . . . . . . . . . . . . . . . 37

ii
3.4.2 Définition de l’indice de Gini . . . . . . . . . . . . . 37
3.4.3 Calcul de l’indice de Gini . . . . . . . . . . . . . . . 38

4 Distribution à deux variables 39


1 Présentation générale des tableaux à double entrée (tableau de contin-
gence) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2 Distributions marginales . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3 Les moyennes marginales . . . . . . . . . . . . . . . . . . . . . 43
2.4 Les variances marginales . . . . . . . . . . . . . . . . . . . . . 43
3 Distributions conditionnelles . . . . . . . . . . . . . . . . . . . . . . . 44
3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Les moyennes conditionnelles . . . . . . . . . . . . . . . . . . 45
3.4 Les variances conditionnelles . . . . . . . . . . . . . . . . . . . 46
4 Notion d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 Corrélation et ajustement linéaire . . . . . . . . . . . . . . . . . . . . 48
5.1 Covariance entre X et Y . . . . . . . . . . . . . . . . . . . . . 48
5.2 Cœfficient de corrélation linéaire entre x et y . . . . . . . . . . 48
5.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.3 Interprétation de la valeur de r(x, y) . . . . . . . . . 49
5.3 L’ajustement linéaire d’un nuage de point . . . . . . . . . . . 49
5.3.1 La droite de régression de y sur x . . . . . . . . . . . 50
5.4 Cœfficient de détermination . . . . . . . . . . . . . . . . . . . 51

iii
Première partie

Statistiques descriptives

iv
CHAPITRE 1

NOTIONS DE BASE

Il est nécessaire, avant d’exposer les différentes méthodes utilisées, de donner la


définition des termes statistiques qui vont êtres utilisés tout au long de ce cours.

Nous devons tout d’abord faire la distinction entre les deux notions suivantes :
− Statistiques : désigne des collections de chiffres ou d’observations et qui regroupent
toutes les informations relatives à un même phénomène et qui sont généralement is-
sues d’une enquête, étude. . ..

Exemple : les statistiques économiques sont les renseignements relatifs aux prix,
salaires, la production industrielle, échanges extérieurs, la consommation . . ..

On remarque bien que ces statistiques sont importantes et nécessaires pour le


travail d’un statisticien mais elles sont insuffisantes d’où la définition de la deuxième
notion à savoir

− Statistique : est constituée par l’ensemble des procédés ou des méthodes avec

lesquels on va pouvoir étudier les statistiques. Donc la statistique est l’outil de travail
de la matière première constituée par les statistiques.

1
1 Les concepts de base

1.1 Population (ensemble statistique)

Une population est un ensemble d’individus, ce qui ne veut pas dire des êtres
humains ça peut êtres des objets, des animaux, des villes, des êtres humains. . .

Exemples : la population des ménages d’une cité, les entreprises industrielles en

Tunisie, les étudiants de la 1ère année LFSG de l’ISG Tunis, les pays arabes.

1.2 Unité statistique ou individu

C’est un seul élément de l’ensemble de la population. Une population est donc


composée de plusieurs unités statistiques ou individus.
Exemples : Un ménage, une entreprise, un étudiant, un pays . . .
Remarque : une population comporte toujours des unités homogènes (de même

type, même nature) dont le nombre est fini. Une population ne peut pas comporter
en même temps des voitures et des étudiants.

1.3 Caractère (variable)

Un caractère est un aspect observable du phénomène étudié : c’est une dimension


du phénomène. Une unité statistique peut être observée selon plusieurs caractères.
Nous distinguons deux types de caractères : qualitatifs et quantitatifs

Exemples : L’âge, la marque, la taille, le salaire, le chiffre d’affaire, la nationa-


lité,. . .

2
1.3.1 Caractère qualitatif

Un caractère est qualitatif si ses diverses modalités ne sont pas mesurables, elles
sont plutôt identifiées. Comme par exemple les caractères : sexe, couleur, gouverno-
rat d’appartenance, marque. . .
On distingue deux types de caractères qualitatifs : caractère qualitatif ordinal et ca-

ractère qualitatif nominal

Caractère qualitatif ordinal : il est exprimé sur une échelle ordinale : les
modalités peuvent être classées dans un certain ordre les unes par rapport aux autres.

Exemple : le niveau de scolarisation (primaire, secondaire et supérieur), catégorie


socioprofessionnelle (cadre supérieur, cadre moyen, ouvrier)
Caractère qualitatif nominal : il est exprimé sur une échelle nominale : Chaque
modalité est exprimée par un nom ou un code. Les différentes modalités ne sont pas
ordonnées.

Exemple : la couleur, les pays arabes, la nationalité, . . .etc.

1.3.2 Caractère quantitatif

Un caractère est quantitatif s’il possède des modalités mesurables chiffrées telle
que par exemple : la taille, l’âge, le revenu. . .on distingue :

1. Variable quantitative discrète : si les valeurs qu’elle peut prendre sont

des valeurs isolées. Le cas le plus fréquent de variable discrète est celui où les
valeurs possibles sont des nombres entiers. Exemple : le nombre d’enfant d’un
ménage, nombre d’ouvrier d’une usine.

2. Variable quantitative continue : les modalités sont des valeurs qui ap-
partiennent à un intervalle donné : des nombres infinis. Exemple : âge, taille,
salaire . . .

3
1.4 Modalités

Les modalités sont les différentes valeurs possibles que peuvent prendre un carac-
tère ou une variable statistique (v.s).
Exemples

Caractère Modalités
X Sexe masculin/féminin
X Situation matrimoniale marié/célibataire/veuf/divorcé
X Nombre d’enfants 1/2/3 . . .
X Moyenne au bac [0,5[,[5,10[,[10,15[,[15,20[

2 Tableaux et graphiques

L’information statistique collectée sous forme de données individuelles, n’est pas


facilement exploitable et sa manipulation est lourde, il est donc nécessaire de résu-
mer les caractères sous forme de tableaux. Le tableau statistique se compose en deux
colonnes. La première colonne contient les différentes modalités de la variable étu-

diée (notées Xi ). La deuxième colonne contient les effectifs correspondants à chaque


modalité (notés ni )

La distribution statistique est une répartition de la population observée selon les

différentes modalités du (des) caractère(s) retenu(s). Si on retient un seul caractère,


alors la distribution statistique est dite à une seule dimension et on présente alors
un tableau à une seule dimension ou encore un tableau à simple entrée.

Pour être utilisable, un tableau doit comporter un certain nombre d’éléments

dont les principaux sont les suivants :


— Le titre qui indique l’objet du tableau. Il doit être complet (pays, dates, phé-

4
nomène présenté).
— L’unité utilisée : dinars, millions de tonne, milliers de personnes.

— Les titres des lignes et des colonnes.


— Des notes, générales ou particulières, qui éclairent le lecteur pour l’interpré-
tation
— Les sources qui doivent être bien citées.

La distribution peut aussi être représentée par un graphique qui a l’avantage de don-
ner une lecture visuelle immédiate des aspects dominants.

Comme nous l’avons cité précédemment, la variable peut être qualitative ou quan-
titative.

2.1 Présentation des caractères qualitatifs

2.1.1 Tableau statistique

Si les modalités ne sont pas mesurables, dans ce cas on parle d’un caractère
qualitatif. Le tableau statistique a la forme suivante :

Tableau 1.1 –
Modalités (Xi ) Effectifs de chaque modalité (ni )
X1 n1
X2 n2
X3 n3
.. ..
Xk nP
k
Total N = ni

Avec ni le nombre des individus de la population qui présentent la modalité Xi


d’un caractère C. ni est l’effectif ou la fréquence effective (absolue) de la modalité
P
Xi et on a N = ni l’effectif total.

5
Exemple : variable qualitative nominale
Répartition de 303 entreprises tunisiennes par secteur d’activités.

Tableau 1.2 –
Secteurs Effectif ni Fréquences fi fi (%)
Mécanique et Métallurgie (IMM) 64 0.2112 21.12
Agro-alimentaire (IAA) 102 0.3367 33.67
Textile et Habillement (ITH) 110 0.363 36.3
Pâtes, Papiers et Cartons(IPPC) 10 0.033 3.3
Cuir et chaussure (ICC) 17 0.0561 5.61
Total 303 1 100
source : Ministère de l’enseignement supérieur

NB : Les secteurs ne sont pas ordonnés.


ni
P
Où fi = N
représente la fréquence relative. On note que fi = 1 (ou 100%).
P : Population étudiée : les entreprises tunisiennes
C : Caractère ou variable : secteur d’activités

M : Ensemble des modalités : IMM, IAA, ITH, IPPC et ICC


Exemple : variable qualitative ordinale
107 chefs d’entreprises ont été interrogés sur le degré d’importance de l’utilisation de
l’Internet. Dans ce cas, les modalités sont ordonnées (classée par ordre)

Tableau 1.3 –
Modalités Effectifs ni
Pas d’importance (A) 10
Faible importance (B) 25
Importance moyenne (C) 40
Grande importance (D) 32
Total 107

6
2.1.2 Représentation graphique

Variable qualitative nominale Pour les caractères qualitatifs nominales, deux


types de graphiques sont utilisés :

Diagramme en secteurs

La distribution est représentée par un cercle divisé en k secteurs (chaque modalité


sera représentée à l’aide d’un secteur sur le cercle), la superficie du secteur (l’angle
de chaque secteur noté αi ) est proportionnelle à l’effectif ou à la fréquence de cette
modalité. On a donc αi = 360◦.fi

Reprenons les données du tableau 1.2 :

Secteurs Fréquences fi angle αi


Mécanique et Métallurgie (IMM) 0.2112 76.032
Agro-alimentaire (IAA) 0.3367 121.212
Textile et Habillement (ITH) 0.363 130.68
Pâtes, Papiers et Cartons(IPPC) 0.033 11.88
Cuir et chaussure (ICC) 0.0561 20.196
Total 1 360
source : Ministère de l’enseignement supérieur

La représentation graphique est donnée comme suit :


3%
6% Mécanique et M´etallurgie
21% (IMM)
Agro!alimentaire (IAA)

Textile et Habillement (ITH)


36%
Pâtes, Papiers et
Cartons(IPPC)
34%
Cuir et chaussure
h ((ICC))

Diagramme en tuyaux d’orgue ou diagramme en barres


C’est une représentation graphique d’un ensemble de rectangles dans un repère or-

7
thonormé ayant :
En abscisses : les modalités du caractère (Xi ). La largeur de chaque rectangle est la

même quelle que soit la modalité, la largeur n’est pas une mesure ;
En ordonnées : les valeurs des effectifs ou des fréquences.
La présentation des rectangles peut se faire selon un ordre arbitraire des modalités.
La surface des rectangles est proportionnelle à la fréquence.

120

100

80

60

40

20

0
Mécanique et Agro!alimentaire Textile et Pâtes, Papiers et Cuir et chaussure
Métallurgie (IMM) (IAA) Habillement (ITH) Cartons(IPPC) (ICC)

Variable qualitative ordinale Si les modalités sont ordonnées, on représente la


distribution sous forme de diagramme en barres ou diagramme en tuyaux d’orgue.

Reprenons les données du tableaux 1.3.

45
40
35
30
25
20
15
10
5
0
Pas Faible Importance Grande
d’importance importance (B) moyenne (C) importance (D)
(A)

8
2.2 Présentation des caractères quantitatifs discrets

2.2.1 Effectifs et fréquences

La forme du tableau statistique se présente comme suit :

Tableau 1.4 –
Modalités (Xi ) Effectifs de chaque modalité (ni )
X1 n1
X2 n2
X3 n3
.. ..
Xk nP
k
Total N = ni

où les Xi sont, dans la plupart des cas, des nombres entiers (variable discrète).

Exemple

La répartition de 150 ménages selon le nombre d’enfants est donnée dans le tableau
suivant :

Tableau 1.5 –
Nombre d’enfants effectifs ni fréquences fi
0 5 0.033
1 30 0.2
2 60 0.4
3 35 0.233
4 20 0.134
Total 150 1

2.2.2 Représentation graphique des effectifs et des fréquences

Les caractères quantitatifs discrets donnent lieu à une représentation graphique

appelée diagramme différentiel ou diagramme en bâtons. Dans ce diagramme, chaque


modalité est représentée par une droite verticale dont la hauteur est proportionnelle
à l’effectif ou la fréquence relative de cette modalité.

9
effectifni (fi)
0

0 1 2 3 4
nbre xi

2.2.3 Effectifs et fréquences cumulé(e)s

Effectifs cumulés croissants : Nombre d’individus pour lesquels la variable est


inférieure ou égale à xi . Résultat de l’addition, de proche en proche, des effectifs

d’une distribution observée en commençant par le 1er.


Effectifs cumulés décroissants : Nombre d’individus pour lesquels la variable est
supérieure ou égale à xi . Résultat de l’addition, de proche en proche, des effectifs
d’une distribution observée en commençant par le premier (ou le dernier).

Exemple
Reprenons l’exemple précédent (tableau 1.5)

Nombre Effectif Eff cum Eff cum fréquences fréquences cum


d’enfants ni croissant Ni ր décroiss Ni ց fi croissantes Fi ր
0 5 5 150 0.033 0.033
1 30 35 145 0.2 0.233
2 60 95 115 0.4 0.633
3 35 130 55 0.233 0.866
4 20 150 20 0.134 1
Total 150 - - 1

X 95 est le nombre de ménages possédant un nombre d’enfants inférieur ou égale


à 2 (dém : 1ère méthode : n1 + n2 + n3 ; 2ème méthode N(2) ր (qui correspond
au nombre d’enfants =2)).
X 55 est le nombre de ménages possédant un nombre d’enfants supérieur ou égale
à 3 (dém : 1ère méthode : n3 + n4 ; 2ème méthode N(3) ց (qui correspond au

10
nombre d’enfants =3)).
X La proportion de ménages possédant un nombre d’enfants inférieur ou égal

à 1 est de 23.3% (dém : 1ère méthode : f1 + f2 ; 2ème méthode F (1) ր (qui


correspond au nombre d’enfants =1)).
Remarques
• On peut aussi définir des effectifs cumulés croissants (ascendantes) ;

• On peut définir des effectifs cumulés décroissants et fréquences cumulées dé-


croissantes (descendantes) avec G(x) = P (X ≥ x) = 1 − F (x). C’est la
répartition d’individus ayant une valeur de la variable supérieur ou égale à x.
Même exemple

Tableau 1.6 –
Nombre d’enfants effectifs ni fréquences fi fréquences cum croissantes Fi ց
0 5 0.033 1
1 30 0.2 0.967
2 60 0.4 0.767
3 35 0.233 0.367
4 20 0.134 0.134
Total 150 1 0

2.2.4 Fonction de répartition

Les caractères quantitatifs discrets ont des modalités ordonnées (pas comme le
cas des caractères qualitatifs), de ce fait, on peut construire la fonction de répartition.
Notation : X est la valeur du caractère quantitatif discret ;

x est une valeur particulière donnée à ce caractère.


Définition : la fonction de répartition d’un caractère quantitatif discret est une
application F de ℜ dans l’intervalle [0,1] définie de la façon suivante :

F : ℜ → [0, 1]

x → F (x) = P (X ≤ x)

11
De cette définition de la fonction de répartition découlent les considérations sui-
vantes :

— F est définie quelle que soit x appartenant à ℜ, x correspond ou non à une


modalité de X ;
— F (M1 ) = f1 ∀ x ≤ M1 ;
— F (M2 ) = P (X ≤ M2 ) = P (X = M1 et X = M2 ) = f1 + f2 ;

— F (M3 ) = P (X ≤ M3 ) = P (X = M1 et X = M2 et X = M3 ) = f1 + f2 + f3 ;
— En générale pour i ≥ 2 ;

F (Mi ) = P (X < Mi ) = P (X = M1 et X = M2 . . . et X = Mi−1 )

= f1 + f2 + ... + fi

— F (x) = 1 ∀ x ≥ Mk ;
— F est une fonction non décroissante, elle est croissante ou constante puisque

ces valeurs sont de plus en plus grande ou constantes. D’une manière générale,
la fonction de répartition est constante par intervalle.

Tableau 1.7 –
Mi fi Fi ↑
M1 f1 f1
M2 f2 f1 + f2
M3 f3 f1 + f2 +f3
... .... ....
Mi fi f1 + f2 + .... + fi
... ... ...
Mk fk f1 + f2 + .... + fi + .... + fk = 1

Diagramme intégral ou courbe cumulative


C’est la courbe de la fonction de répartition, qui est une courbe en escalier et discon-
tinue. La courbe cumulative croissante est le tracé de la fonction N ր (ou F ր pour
les fréquences) qui à tout réel x associe N ր (x) = nombre d’observations inférieur

12
ou égal à x.

Fi
1
0.866 C
0.633 C

0.233 C

0 033
0.033 C

0 1 2 3 4 Xi

La courbe cumulative décroissante est le tracé de la fonction N ց (ou F ց pour

les fréquences) qui a tout réel x associe N ց (x) = nombre d’observations supérieur
strictement à x.

Fi
1
0.967
C
C
0.767
C
0.367

0.134
C

0 1 2 3 4 Xi

13
2.3 Présentation des caractères quantitatifs continus

2.3.1 Les modalités et le tableau statistique

Dans le cas d’une variable continue, les modalités appartiennent à des intervalles
[a, b] de ℜ. a et b sont respectivement la plus petite et la plus grande valeurs observées.

[a, b] sera donc subdivisé en k sous-intervalles disjoints [ei−1 , ei [ : par convention fermé
à gauche et ouvert à droite. Chaque sous-intervalle est appelé classe, la différence
ei − ei−1 = ai s’appelle amplitude de la classe.
On pose a = e0 et b = ek

On définit ainsi k modalités Xi constituées par les k classes :


X1 = [e0 , e1 [, X2 = [e1 , e2 [, ...Xi = [ei−1 , ei [, ...Xk = [ek−1 , ek [ ;
L’effectif ni de la classe Xi = [ei−1 , ei [ est le nombre d’individus qui ont une valeur
de la variable supérieur ou égale à ei−1 et strictement inférieur à ei .
Le tableau se présente alors de la manière suivante :

Tableau 1.8 –
Xi ni fi
[e0 , e1 [ n1 f1
[e1 , e2 [ n2 f2
[e2 , e3 [ n3 f3
[e3 , e4 [ n4 f4
... ... ...
[ek−1 , ek [ nk fk
total N 1

Exemple
Une étude statistique sur les salaires de 100 employés d’une entreprise a fourni les
données décrites par le tableau suivant :

— Le nombre d’employés ayant un salaire supérieur ou égale à 400DT.


nS≥400 = 30 + 13 + 6 = 49 ou N4 ց= 49
— Le nombre d’employés ayant un salaire strictement inférieur à 300DT.
nS<300 = 20 + 15 = 35 ou N2 ր= 35

14
Tableau 1.9 –
Xi ni Ni ր Ni ց fi (%) Fi ր (%) Fi ց (%) ai ci
[150, 200[ 20 20 100 20 20 100 50 175
[200, 300[ 15 35 80 15 35 80 100 250
[300, 400[ 16 51 65 16 51 65 100 350
[400, 500[ 30 81 49 30 81 49 100 450
[500, 600[ 13 94 19 13 94 19 100 550
[600, 700[ 6 100 6 6 100 6 100 650
total 100 100

Remarque
Il arrive souvent que les bornes e0 et ek ne soient pas définies avec précision c’est à
dire Modalité 1 : moins que e0 et Modalité k : plus que ek .

Cette imprécision provient du fait que les valeurs limites e0 et ek sont assez éloignées.
Alors par convention : pour fixer e0 , on prend la même amplitude que la classe
suivante, de même pour fixer ek on prend l’amplitude de la classe précédente. Cette
procédure est donnée par le tableau suivant :

Tableau 1.10 –
Xi ni fi
Moins de 10 n1 f1
[10, 15[ ... ...
[50, 60[ ... ...
Plus 60 ... ...
total ... ...

ei−1 +ei
Nous pouvons aussi calculer les centres des classes : Ci = 2

2.3.2 Représentations graphiques des effectifs et fréquences

On représente les caractères quantitatifs continus sous forme d’un histogramme


ou diagramme différentiel. C’est un ensemble de k rectangles superposés (l’un à coté

de l’autre), il s’agit d’un rectangle par modalité ou par classe. La largeur de chaque
rectangle est égale à l’amplitude de la classe et la longueur est égale à son effectif ou
à sa fréquence.

15
Deux cas peuvent se présenter :
1er cas : toutes les amplitudes des classes sont égales : la représentation de l’his-

togramme est directe, c.a.d ni en fonction de Xi (ni = f (Xi )) ou fi en fonction


de Xi (fi = f (Xi ))
2ème cas : les classes ont des amplitudes inégales, on choisit par exemple la plus
petite amplitude ou la plus fréquente ou le plus petit diviseur commun comme

amplitude de référence et on calcule les effectifs (ou fréquences) corrigé(e)s


nci /fic qui vont représenter les longueurs des rectangles.
a
Où fic = fi · ai
et ai est l’amplitude de la classe i.
Les étapes de la construction d’un Histogramme

1. calculer l’amplitude de chaque classe.

2. il faut choisir l’amplitude de référence qui est la plus petite ou la plus répandue
ou le plus petit diviseur commun.

3. si les amplitudes ne sont pas égales, il faut calculer les fréquences corrigées ou
les effectifs corrigés.

4. on trace l’histogramme qui est un ensemble de k rectangles juxtaposés dont


la largeur est égale à l’amplitude initiale de la classe et dont la longueur égale

à la fréquence corrigée ou l’effectif corrigé.

Exemple
Reprenons l’exemple précédent : tableau 1.9 (Avec a = 50).

Tableau 1.11 –
Xi ni ai fi (%) fic (%)
[150, 200[ 20 50 20 20
[200, 300[ 15 100 15 7.5
[300, 400[ 16 100 16 8
[400, 500[ 30 100 30 15
[500, 600[ 13 100 13 6.5
[600, 700[ 6 100 6 3
Total 100 100

16
25

fi corrigé
20

15

10

0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[
xi

Polygone des fréquences


Le polygone des fréquences est aussi une représentation des effectifs et des fréquences
relatives d’une variable quantitative continue. Il reflète l’évolution de la concentration
de la population en fonction de la variable étudiée. Si les amplitudes des classes sont

égales on repère les points milieux des sommets des rectangles de l’histogramme et on
relie ces points par des segments de droite pour obtenir le polygone des fréquences.
Si les amplitudes ne sont pas égales on divise chaque rectangle en sous rectangles
dont le nombre est fonction de son amplitude puis on trace le polygone. Le polygone

des fréquences est donné par la figure ci-après.

fic
Polygone des
20 fréquences Histogramme

15

10

0 100 200 300 400 500 600 700 750 Xi

Courbe cumulative ou diagramme intégral


C’est la courbe de la fonction de répartition qui est une courbe croissante et continue.

17
La fonction cumulative est définie par :
F (x1 ) = P [X ≤ x1 ] = f1

F (x2 ) = P [X ≤ x2 ] = P [X = x1 ] + P [X = x2 ] = f1 + f2
.
.
F (xk ) = P [X ≤ xk ] = f1 + f2 + ... + fk

Voir l’exemple précédent pour les calculs


120

100

80

60

40

20

0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[

Fi cum croiss fi cum décroi

18
CHAPITRE 2

TENDANCE CENTRALE ET DE DISPERSION

Pour avoir une idée claire sur la distribution de la variable, nous ferons appel
aux paramètres de tendance centrale et de dispersion. L’étude d’une série statistique

doit être faite à trois points de vue : une analyse de la caractéristique centrale de
la série, dispersion ou fluctuation des différentes observations autour de cette valeur
centrale, forme (symétrie, aplatissement) du diagramme représentatif de la série.
Dans certaines conditions, on peut également calculer un indice de concentration.

1 Les paramètres de tendance centrale

1.1 Le Mode (noté MO )

Définition : Numériquement, le mode est la valeur de Xi correspondante au


plus grand effectif ou à la plus grande fréquence. On l’appelle encore valeur la plus
fréquente ou valeur dominante.

∗ Mode d’une variable qualitative : dans le cas qualitatif, la détermination


du Mo est immédiate, c’est la valeur de xi qui correspond à l’effectif ni (ou

19
fréquence fi ) le(a) plus élevé(e).

Exemple
Pour l’exemple suivant le Mode correspond au secteur Textile et Habillement
(ITH)

Tableau 2.1 –
Secteurs Effectif ni Fréquences fi
Mécanique et Métallurgie (IMM) 64 0.2112
Agro-alimentaire (IAA) 102 0.3367
Textile et Habillement (ITH) 110 0.363
Pâtes, Papiers et Cartons(IPPC) 10 0.033
Cuir et chaussure (ICC) 17 0.0561
Total 303 1
Mode=Textile et Habillement

∗ Mode d’une variable quantitative discrète : analytiquement, la déter-


mination du Mo est immédiate, c’est la valeur de xi qui correspond à l’effectif
ni (ou fréquence fi ) le(a) plus élevé(e).

Exemple

Tableau 2.2 –
Xi ni
0 103
1 115
2 95
3 35
4 10
5 2
Mode = 1

20
Graphiquement, il correspond à l’abscisse du bâton le plus élevée.

Mode

∗ Mode d’une variable continue : Dans le cas d’un caractère quantitatif


continue, il s’agit de déterminer une classe modale, deux cas sont possibles :
- Toutes les classes ont la même amplitude : la classe modale est celle qui
correspond à l’effectif le plus élevé ou à la fréquence la plus élevée.

- Les classes ont des amplitudes différentes : on calcule les fréquences corrigées,
la classe modale sera celle qui correspond à la fréquence corrigée la plus élevée.

Remarque La distribution statistique peut être bimodale (deux modes) ou mul-


timodales (3 modes).
Détermination analytique du Mode

Exemple Reprenons l’exemple précédent : tableau 1.9 :


On remarque que les amplitudes ne sont pas égales. Donc, afin de déterminer le
mode, il faut corriger soit les effectifs ou les fréquences.
La classe modale est [150, 200[
Le mode est donné par :

21
Xi ni ai fi fic
[150, 200[ 20 50 20 20
[200, 300[ 15 100 15 7.5
[300, 400[ 16 100 16 8
[400, 500[ 30 100 30 15
[500, 600[ 13 100 13 6.5
[600, 700[ 6 100 6 3
Total 100 100

d1
Mo = L1 + d1 +d2
(L2 − L1 )

Où L1 et L2 sont respectivement la borne inférieure et la borne supérieure de la

classe modale ;
d1 =fréquence par unité d’amplitude de la classe modale moins la fréquence par unité
d’amplitude de la classe qui précède
d2 =fréquence par unité d’amplitude de la classe modale moins la fréquence par unité

d’amplitude de la classe qui suit

20−0
Dans ce cas, le mode est Mo = 150 + (20−0)+(20−7.5)
(200 − 150) = 180.77
Détermination graphique du Mode
25
fi ccorrigé

20

15

10

0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[
Xi

Mode

22
1.2 La Médiane (noté Me )

Définition : la médiane Me est la valeur de la variable telle que 50% de l’effectif


total ait une valeur inférieur ou égale à Me et 50% ait une valeur supérieure stricte-
ment à Me . La médiane partage alors la population en deux parties d’effectifs égales.
Analytiquement et à partir de la fonction de répartition, la médiane Me est définie

comme suit :
F (Me ) = 0.5.

1.2.1 Données brutes

On considère n observations relatives à une variable statistique, pour déterminer


la médiane on classe d’abord les observations par ordre croissant ou décroissant :
n+1
z Si n est impair la médiane sera donnée par l’observation d’ordre 2

z Si n est pair on parle d’intervalle médiane dont les bornes sont les observations
n n+1
d’ordre 2
et 2
.
Exemple

Tableau 2.3 –
Nombre d’étudiants 0 0 1 1 2 3 3 3 4
Rang 1 2 3 4 5 6 7 8 9

1.2.2 Données collectées dans un tableau

Variable discrète
La médiane est la modalité xi tel que Fi−1 ր< 0.5 ≤ Fi ր
Exemple La répartition de 360 diplômés selon le nombre d’étude est donnée comme

suit
La médiane correspond à Fi−1 ր< 0.5 ≤ Fi ր. Donc d’après le tableau 2.4, la
Médiane=1.

23
Tableau 2.4 –
xi ni Fi ր
0 103 0.286
1 115 0.606
2 95 0.869
3 35 0.967
4 10 0.994
5 2 1
Total 360

Variable continue
Analytiquement : La détermination de la médiane nécessite tout d’abord la déter-
mination de la classe médiane. Ensuite on utilise la méthode d’interpolation linéaire
afin de calculer la valeur exacte de la Me . On précède au deux étapes suivantes :

1. Détermination de la classe médiane

2. Détermination de la valeur de la médiane Me en utilisant cette formule

Fi−1 ր< 0.5 ≤ Fi ր

Fi ( ei !1 ) Fi ( M e ) " 0.5 Fi ( ei )

ei !1 Me ei

D’après cette méthode, on obtient :

ei − ei−1 F ր (ei ) − Fiր (ei−1 )


= i ր
ei − Me Fi (ei ) − 0.5

Nous pouvons aussi appliquer la formule directement

L2 − L1
Me = L1 + (0.5 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )

Exemple
Première méthode : interpolation linéaire

24
Tableau 2.5 –
Xi Fi
[0, 3[ 0.391
[3, 5[ 0.68
[5, 10[ 0.92
[10, 20[ 0.963
[20, 30[ 0.993
[30, 50[ 1

La classe médiane : [3, 5[

Fi (3) ! 0.391 Fi ( M e ) ! 0.5 Fi (5) ! 0.68

3 Me 5

5−3 Fiր (5) − Fiր (3)


= donc Me = 3.75
5 − Me Fiր (5) − 0.5

Deuxième méthode : application directe de la formule


La classe médiane correspond à [3 − 5[

5−3
Me = 3 + (0.5 − 0.391) = 3.75
0.68 − 0.391

Graphiquement : En utilisant la courbe de la fonction de répartition (courbe cu-


mulative), on prend le point d’ordonnée 0.5 ; on le projette sur la courbe et ensuite

sur l’axe des abscisses ce qui nous permet d’obtenir la Médiane.

25
1.3 Moyenne arithmétique

1.3.1 Cas d’une variable discrète

La moyenne arithmétique notée X, d’une variable statistique discrète définie par


le couple (xi , fi ) i = 1, 2, 3, ...k est exprimée de la manière suivante : X = ki=1 fi xi
P

avec xi représente la modalité i et fi la fréquence relative.

Données non groupées


Soit une série statistique de N observations x1 , x2 , x3 , ...xn , la moyenne arithmétique

est la somme des valeurs observées divisées par le nombre d’observations

k
1 X
X= xi
N i=1

Exemple
On observe les notes en statistique d’un groupe de 10 étudiants 10, 13, 18, 6, 5, 16,
9, 14, 9, 11.

10
1 X 10 + 13 + 18 + 6 + 5 + 16 + 9 + 14 + 9 + 11
X= xi = = 11.1
N i=1 10

Données groupées
La moyenne est définie par

k k
1 X X
X= ni xi = fi xi
N i=1 i=1

Exemple

26
Tableau 2.6 –
Xi ni ni Xi
0 103 0
1 115 115
2 95 190
3 35 105
4 10 40
5 2 10
Total 360 460
Moyenne X 1.277778

1.3.2 Cas d’une variable continue

Dans ce cas, on parle uniquement des données groupées par classe. La moyenne
arithmétique d’une distribution statistique continue est donnée comme suit :

k k
1 X X
X= ni ci = fi ci
N i=1 i=1

où ci représente le centre de la classe i.

Exemple
On dispose des informations suivantes concernant la répartition de 90 entreprises
tunisiennes selon la taille (nombres d’employés).

Tableau 2.7 –
Xi ni ci ni ci
[0, 20[ 38 10 380
[20, 40[ 13 30 390
[40, 50[ 5 45 225
[50, 60[ 7 55 385
[60, 80[ 12 70 840
[80, 90[ 4 85 340
[90, 100[ 11 95 1045
Total 90 3605

7
1 X 3605
X= ni ci = = 40.055
N i=1 90

27
Remarque
Pour une population donnée, les deux propriétés suivantes sont toujours vérifiées :

X − Mo = 3(X − Me )
H<G<X <Q

2 Les caractéristiques de dispersion

Les paramètres de tendance centrale (Mode, Médiane, Moyenne) sont insuffisants


pour permettre de résumer et de comparer les séries statistiques. La raison réside
dans le fait qu’on peut avoir plusieurs séries qui possèdent les mêmes valeurs pour

ces paramètres mais avec des distributions qui se font d’une manière nettement dif-
férentes. D’où la nécessité de calculer d’autres indicateurs capables de rendre compte
des écarts entre les différentes valeurs observées et les valeurs centrales.

2.1 L’étendue (ou intervalle de variation)

On appelle étendue d’une série statistique, la différence entre la valeur maximale


et la valeur minimale.

e = xmax − xmin

2.2 Les écarts interquartiles

2.2.1 Les quartiles

En nombre de trois notés Q1 , Q2 et Q3 , ils partagent la population en 4 groupes


d’effectif égal.

1. Q1 : premier quartile : valeur de la variable telle que 25% des observations lui
soient inférieures. F (Q1 ) = 0.25 ;

28
2. Q2 : deuxième quartile : valeur de la variable telle que 50% des observations
lui soient inférieures. F (Q2 ) = 0.5 (Q2 = Me ) ;

3. Q3 : troisième quartile : valeur de la variable telle que 75% des observations


lui soient inférieures. F (Q3 ) = 0.75

L’expression de trois quartiles peut être dérivée de la même manière que la mé-
diane.

L2 − L1
Q1 = L1 + (0.25 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )
L2 − L1
Q2 = L1 + (0.5 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )
L2 − L1
Q3 = L1 + (0.75 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )

2.2.2 Les déciles

En nombre de neuf notés D1 , D2 , ..., D9 , ils partagent la population en 10 groupes

d’effectif égal.

D1 : premier décile : valeur de la variable telle que 10% des observations lui
soient inférieures. F (D1 ) = 0.1 ;

D2 : deuxième décile : valeur de la variable telle que 20% des observations lui
soient inférieures. F (D2 ) = 0.2 ;

...

D5 : cinquième décile : valeur de la variable telle que 50% des observations lui
soient inférieures. F (D5 ) = 0.5 (D5 = Me ) ;

...

D9 : neuvième décile : valeur de la variable telle que 90% des observations lui
soient inférieures. F (D9 ) = 0.9

29
2.2.3 Les centiles

En nombre de 99 notés C1 , C2 , ...C99 , ils partagent la population en 100 groupes


d’effectif égal.

C1 : premier centile : valeur de la variable telle que 1% des observations lui

soient inférieures. F (C1 ) = 0.01 ;

C2 : deuxième centile : valeur de la variable telle que 2% des observations lui


soient inférieures. F (C2 ) = 0.02 ;

...

...

C50 : cinquantième décile : valeur de la variable telle que 50% des observations
lui soient inférieures. F (C50 ) = 0.5 (C50 = Me ) ;

...

...

C99 : quatre vingt dix-neuvième décile : valeur de la variable telle que 99%
des observations lui soient inférieures. F (C99 ) = 0.99 ;

Les centiles sont aussi appelés les percentiles.

Remarques
Q2 = Me = D5 = C50
— Les quartiles et les déciles permettent de calculer les intervalles interquartiles.
— Plus la longueur de l’intervalle est grande, plus la dispersion est forte.

— L’écart interquartile est égale à la différence entre le troisième et le premier


quartile eQ = Q3 − Q1
L’intervalle interquartile contient 50% des observations.
— L’écart interdécile est égal à eD = D9 − D1
L’écart interdécile contient 80% des observations.

30
2.3 Les écarts par rapport à une valeur de tendance centrale

2.3.1 L’écart absolu moyen

On appelle écart absolu moyen noté, e x, d’une distribution statistique est égale
à la moyenne arithmétique de la valeur absolue des écarts entre les valeurs observées

et leur moyenne.
∗ Cas des données non groupées :

N
1 X
ex= |xi − x|
N i=1

∗ Cas des données groupées :

P P
1 X X
ex= ni |xi − x| = fi |xi − x|
N i=1 i=1

Cet indicateur de dispersion tient compte de tous les écarts entre chaque valeur

observée et la moyenne.

2.3.2 La variance et l’écart type

On appelle variance d’une variable, la moyenne des carrées des écarts de cette

variable à sa moyenne. Elle est exprimée comme suit :


∗ Cas des données non groupées :

N N
1 X 2 1 X 2
V (x) = (xi − x) = x − x2
N i=1 N i=1 i

∗ Cas des données groupées :

P P P
1 X 2
X
2
X
V (x) = ni (xi − x) = fi (xi − x) = fi x2i − x2
N i=1 i=1 i=1

p
On appelle écart type noté, σx , la racine carrée de variance. Il est défini par V (x).

31
Plus l’écart type est grand, plus la dispersion des observations autour de la moyenne
de la variable est forte.

2.3.3 Le cœfficient de variation

Afin de comparer la dispersion de deux ou plusieurs distributions exprimées dans

des unités différentes, il est indispensable d’utiliser un indicateur de dispersion indé-


pendamment de l’unité de mesure et de l’ordre de grandeur des valeurs observées.
Pour ce faire, on utilise le cœfficient de variation noté CV (x) défini par :

p
ecart type V (x) σx
CV (x) = = =
moyenne X X

2.3.4 Moments d’une série statistique

Moments non centrés


• Données non groupées : Le moment non centré d’ordre r qu’on note mr (x)
d’une série statistique est : mr (x) = N1 ni=1 xri
P

• Données groupées : Le moment non centré d’ordre r qu’on note mr (x) d’une

série statistique est : mr (x) = N1 pi=1 ni xri = pi=1 fi xri


P P

Remarque : le moment non centré d’ordre 1 est égal à la moyenne empirique.

Moments centrés

• Données non groupées : Le moment centré d’ordre µ qu’on note µr (x) d’une
série statistique est :µr (x) = N1 ni=1 (xi − x)r
P

• Données groupées : Le moment centré d’ordre µ qu’on note µr (x) d’une série
statistique est :µr (x) = N1 pi=1 ni (xi − x)r = pi=1 fi (xi − x)r VSD
P P

µr (x) = N1 pi=1 ni (ci − x)r = pi=1 fi (ci − x)r VSC


P P

32
CHAPITRE 3

CARACTÉRISTIQUE DE FORME ET DE

CONCENTRATION

Pour avoir une idée satisfaisante et plus précise sur la forme de la distribution,

il est recommandé de calculer les indicateurs de forme. On distingue les indicateurs


d’asymétrie et les indicateurs d’aplatissement.

1 L’asymétrie (skewness)

Une distribution est dite symétrique si les observations se répartissent dans la


même proportion de part et d’autre des trois valeurs centrales : mode, médiane et
moyenne (Mo = Me = X). Les mesures d’asymétrie permettent de quantifier le degré
de déviation de la forme de la distribution par rapport à une distribution symétrique.

Le cœfficient d’asymétrie de Pearson Dans une distribution faiblement asy-


métrique, c’est la position du mode par rapport à la moyenne (ou à la médiane) qui

caractérise l’asymétrie, pour traduire cette disposition par un nombre abstrait, il est

33
naturel de rapporter leur différence à l’écart type on obtient ainsi le cœfficient de
Pearson :
moyenne − mode X − Mo
CS = =
ecart type σx

1. Si CS = 0, la distribution est dite symétrique.

2. Si CS < 0, la distribution est dite étalée à gauche.

3. Si CS > 0, la distribution est dite étalée à droite

2 L’aplatissement (kurtosis)

Une distribution est d’autant plus plate que la dispersion des observations autour
des valeurs centrales est forte.

Le cœfficient d’aplatissement de Pearson Ce cœfficient est noté par CK . Il est


défini comme suit :

moment centré d’ordre 4 µ4


CK = 4
= 4
(ecart type) σ

1. Si CK = 3, la distribution est dite normale.

2. Si CK < 3, la distribution est dite hyponormale (plus aplatie que la normale)

3. Si CK > 3, la distribution est dite hypernormale (moins aplatie que le nor-

male)

3 Les caractéristiques de concentration

Le concept de concentration a été élaboré dans les années 1910–1914 par le sta-
tisticien italien CORRADO GINI (1884–1965). L’étude de concentration permet de
compléter l’analyse de position et de dispersion d’une distribution. Elle n’est pas cen-
trée sur le caractère de l’individu (observation), elle est plutôt globale, l’analyse porte

34
davantage sur la répartition de la masse totale. La notion de concentration ne s’ap-
plique que pour les variables quantitatives continues à valeurs positives cumulables,

exemple : salaires.

3.1 Valeurs globales et valeurs globales relatives

Soit X une variable statistique continue à valeurs positives cumulables, on appelle


valeur globale associée à la classe i ayant le centre ci et l’effectif ni , le produit défini
par : V Gi = ni .ci
Pk
On appelle valeur globale totale : V GT = i=1 ni .ci

On appelle valeur globale relative de la classe i, le rapport défini par :

V Gi ni .ci fi .ci X
qi = = Pk = Pk , qi = 1
V GT i=1 ni .ci i=1 fi .ci

On appelle valeur globale relative cumulée croissante notée Qi associée à la classe i :

i
X
Qi = qj
j=1

Exemple
Distribution des salaires d’une entreprise (salaire annuel net en DT) en 2008.

Tableau 3.1 –
Xi ni fi fi ր ci ni ci qi Qi Qi + Qi−1 fi (Qi + Qi−1 )
[0, 10[ 20 0.2 0.2 5 100 0.033 0.033 0.033 0.0066
[10, 22[ 10 0.1 0.3 16 160 0.053 0.086 0.119 0.0119
[22, 27[ 9 0.09 0.39 24.5 220.5 0.074 0.16 0.246 0.02214
[27, 45[ 45 0.45 0.84 36 1620 0.54 0.7 0.86 0.387
[45, 75[ 12 0.12 0.96 60 720 0.24 0.94 1.64 0.1968
[75, 120[ 4 0.04 1 43.5 174 0.06 1 1.94 0.0776
Total 100 1 2994.5 1 0.70204

35
3.2 La médiale (Mle)

La médiale d’une série statistique, notée Mle , est la valeur de la variable tel que
Q(Mle ) = 0.5.
La médiale est déterminée par la méthode d’interpolation linéaire de la même manière
que la médiane :

L’expression de la médiale est donnée par :

L2 − L1
Ml = L1 + (0.5 − Qi (ei−1 ))
Qi (ei ) − Qi (ei−1 )

3.3 La courbe de concentration

La courbe de concentration ou de Lorenz est le polygone obtenu en joignant, les

points de coordonnées (Fi , Qi ), dans un repère orthonormé. Cette représentation se


fait dans un carré de côté égal à l’unité. La courbe de Lorenz se situe toujours au

Qi
1 B

0,94

D:y! x
0
0,7

0 16
0,16 Surface de concentration

0,086
0,033 A
O 0,2 0,3 0,39 0,84 0,96 1 F
i

dessous de la diagonale du fait que quelque soit x on a : F (x) ≥ Q(x).


Plus la courbe de concentration se rapproche de la diagonale, plus la concentration

36
est faible c’est à dire la repartition est égalitaire et plus la courbe s’éloigne de
la diagonale, plus la distribution est concentrée ou encore inégalement repartie.

Il existe deux cas extremes :


Cas 1 : la courbe de concentration se confond avec la diagonale : on parle d’équi-
répartition parfaite ce qui signifie une concentration nulle ;
Cas 2 : La courbe de concentration se confond avec les côtés OA et AB du tri-

angle OAB : c’est le cas hypothétique où un seul individu possède toute la
richesse, on dit aussi que la série est totalement concentrée.

3.4 Indice de concentration : Indice de Gini

3.4.1 Surface de concentration

Notée S c’est la surface comprise entre la diagonale OB et la courbe de concen-

tration.
Plus la courbe s’éloigne de la diagonale, plus la surface de concentration est grande.

3.4.2 Définition de l’indice de Gini

C’est le rapport entre l’aire de la surface de concentration et l’aire du triangle


OAB. Il est défini comme suit :

S
IG = 1 = 2S
2

Propriétés

1. L’indice de Gini est toujours compris ente 0 et 1 puisque S est compris ente
1
0 et 2
;

2. Dans le premier cas extrême, l’indice de Gini est nul et dans le deuxième cas,
il est égal à 1 ;

3. Plus l’indice de Gini tend vers 1, plus la concentration est forte ;

37
4. Plus l’indice de Gini tend vers 0, plus la concentration est faible.

3.4.3 Calcul de l’indice de Gini

On retient la méthode des trapèzes qui consiste à calculer l’aire de la surface


complémentaire à S par rapport à l’aire du triangle OAB. Il suffit de créer une

nouvelle colonne fi (Qi + Qi−1 ) (voir tableau 3.1). Donc l’IG est définit comme suit :

n
X
IG = 1 − fi (Qi + Qi−1 )
i=1

Exemple
Selon les données de l’exemple précédent (tableau 3.1), l’indice de Gini IG = 1 −
0.70204 ≈ 0.30

38
CHAPITRE 4

DISTRIBUTION À DEUX VARIABLES

Pour l’étude de certains phénomènes complexes, il s’avère insuffisant de prendre


en compte un seul caractère. C’est pour cette raison qu’il en faut considérer plus de

deux caractères. Naturellement, l’analyse des tableaux statistiques correspondants et


leur représentation graphique deviennent plus difficiles. On est donc conduit, en dé-
finissant des distributions marginales et conditionnelles, à ramener la représentation
d’une distribution à plusieurs dimensions à celle de distribution à un seul carac-
tère. Les séries statistiques à deux caractères sont présentées sous forme de tableaux

statistiques à deux dimensions (ou à double entrée).

1 Présentation générale des tableaux à double en-

trée (tableau de contingence)

On considère une population de n individus mesurés simultanément (en même


temps) par les deux caractères X et Y , de modalités respectives x1 , x2 , . . . , xi , . . . , xL
et y1 , y2 , . . . , yj , . . . , yK . On désigne par nij le nombre d’individus appartenant à la

fois à une classe de rang i pour la variable X et de rang j pour la variable Y .

39
Généralement, le tableaux à deux dimensions se présente de la manière suivante :

Tableau 4.1 –

❍❍ Y

y1 y2 ... yj ... yK Total
X ❍❍
x1 n11 n12 n1j n1K n1•
x2 n21 n22 n2j n2K n2•
.
.
.
xi ni1 ni2 nij niK ni•
.
.
.
xL nL1 nL2 nLj nLK nL•
Total n•1 n•2 n•j n•K n•• = n

— Les effectifs situés à l’intérieur du tableau sont notés nij qui désigne le nombre
d’individus qui ont à la fois la modalité xi de la variable X et la modalité yj
de la variable Y ;

— L’effectif ni• s’appelle effectif marginal de X et il représente le nombre total


d’individus ayant la modalité xi de X quelque soit la modalité de Y ;
— L’effectif n•j s’appelle effectif marginal de Y et il représente le nombre total
d’individus ayant la modalité yj de Y quelque soit la modalité de X ;

— n•• est l’effectif total c’est à dire le nombre total d’individus de la population.
n•• = Li=1 K
P P PL PK
j=1 nij = i=1 ni• = j=1 n•j

Exemple
La répartition de 100 étudiants selon leurs résultats en Mathématiques (X) et en
Statistiques (Y) a donné les résultats suivants :

40
Tableau 4.2 –

❍❍ Y
2 6 8 12 14 Total
X ❍❍❍
7 9 7 1 0 0 17
11 2 26 3 0 1 32
12 2 4 15 4 2 27
15 0 1 4 17 2 24
Total 13 38 23 21 5 100

La valeur 26 indique que : parmi les 100 étudiants observés, il y a 26 étudiants ont
eu 11 et 6 comme moyennes en math et en statistique respectivement.

La valeur 27 indique que : parmi les 100 étudiants observés, il y a 27 qui ont 12 de
moyenne en Math indépendamment de sa moyenne en statistiques.
La valeur 5 indique que : parmi les 100 étudiants observés, il y a 5 qui ont 14 de
moyenne en Stat indépendamment de sa moyenne en Math.

NB : On peut aussi déterminer les fréquences conjointes. Elles sont données par :

nij
fij =
n

2 Distributions marginales

2.1 Définition

A partir de la distribution conjointe (tableau de contingence) des variables X et

Y , on peut déduire la distribution marginale de X et celle de Y , ce qui nous permet


d’analyser séparément chacune des variables.

On appelle distribution marginale de X, les données des L couples (xi , ni• ) c’est
à dire la première et la dernière colonne du tableau de contingence :

41
Tableau 4.3 – Distribution marginale de X
X Effectif marginal
x1 n1•
x2 n2•
.
.
.
xi ni•
.
.
.
xL nL•
Total n•• = n

On appelle distribution marginale de Y , les données des K couples (yi , n•j ) c’est
à dire la première et la dernière ligne du tableau de contingence :

Tableau 4.4 – Distribution marginale de Y


Y Effectif marginal
y1 n•1
y2 n•2
.
.
.
yj n•j
.
.
.
yK n•K
Total n•• = n

42
2.2 Exemple

Reprenons l’exemple précédent ;

Tableau 4.5 – DM de X Tableau 4.6 – DM de Y


X Effectif marginal Y Effectif marginal
7 17 2 13
11 32 6 38
12 27 8 23
15 24 12 21
Total 100 14 5
Total 100

n3• 27
La fréquence marginale de la modalité 3 de la variable X est : f3• = n
= 100
= 27%
n•1 13
La fréquence marginale de la modalité 1 de la variable Y est : f•1 = n
= 100
= 13%

2.3 Les moyennes marginales

Soit une population P , on fait une observation simultanément selon les caractères
X et Y . X (p modalités) et Y (q modalités).
1
PP
x : variable discrète : x = n•• i=1 ni• xi
1
PQ
y : variable discrète : y = n•• i=1 n•j yj
1
PP
x : variable continue : x = n•• i=1 ni• ci
1
PQ
y : variable continue : y = n•• i=1 n•j cj

2.4 Les variances marginales


1
PP
x : variable discrète : V (x) = n•• i=1 ni• (xi − x)2
1
PQ
y : variable discrète : V (y) = n•• i=1 n•j (yj − y)2
1
PP
x : variable continue : V (x) = n•• i=1 ni• (ci − x)2
1
PQ
y : variable continue : V (x) = n•• i=1 n•j (cj − y)2

43
3 Distributions conditionnelles

3.1 Définition

On appelle distribution conditionnelle de Y sachant que X = xi , la distribution


des individus correspondant à la modalité xi de X et suivant les modalités de Y . De
même, on appelle distribution conditionnelle de X sachant que Y = yj , la distribution
des individus correspondant à la modalité yj de Y et suivant les modalités de X. Ces
deux distributions sont deux distributions statistiques à une seule variable et peuvent

se présenter sous la forme suivante :

Tableau 4.7 –
Distribution conditionnelle de X sachant Y = yj
X/Y = yj ni /j
x1 n1j
x2 n2j
.
.
xi nij
.
.
xl nLj
Total n•j

Tableau 4.8 –
Distribution conditionnelle de Y sachant X = xi
Y /X = xi nj /i
y1 ni1
y2 ni2
.
.
yj nij
.
.
yK niK
Total ni•

44
3.2 Exemple

Tableau 4.9 – Distribution conditionnelle de X


X f i/Y = 2 f i/Y = 6 f i/Y = 8 f i/Y = 12 f i/Y = 14
7 0.7 0.18 0.04 0 0
11 0.15 0.7 0.13 0 0.2
12 0.15 0.1 0.65 0.2 0.4
15 0 0.02 0.18 0.8 0.4
Total 1 1 1 1 1

Tableau 4.10 – Distribution conditionnelle de Y


Y fj /x = 7 fj /x = 11 fj /x = 12 fj /x = 15
2 0.53 0.06 0.08 0
6 0.41 0.81 0.14 0.05
8 0.06 0.1 0.56 0.17
12 0 0 0.15 0.7
14 0 0.03 0.07 0.08
Total 1 1 1 1

3.3 Les moyennes conditionnelles

Moyenne conditionnelle de x sachant y :

xj = x/y
P
1 X
= nij xi
n•j i=1

Moyenne conditionnelle de y sachant x :

yi = y/x
Q
1 X
= nij yj
ni• i=1

45
3.4 Les variances conditionnelles

Variance conditionnelle de x sachant y :

P
1 X
Vj (x) = nij (xi − xj )2
n•j i=1
P
1 X
= nij x2i − x2j
n•j i=1

Variance conditionnelle de y sachant x :

Q
1 X
Vi (y) = nij (yj − yi )2
ni• i=1
P
1 X
= nij yj2 − yi2
ni• i=1

4 Notion d’indépendance

Deux variables aléatoires sont totalement indépendantes si les variations de l’une

n’interviennent pas dans la variation de l’autre.


— Dans le cas d’indépendance, les fréquences conditionnelles sont égales aux
fréquences marginales fi/j = fi• et fj/i = f•j
— Dans le cas d’indépendance, la fréquence conjointe est égale au produit des

fréquences marginales fij = fi• × f•j


— Dans le cas d’indépendance, les moyennes conditionnelles sont égales aux
moyennes marginales pour chaque variable.
Exemple
Répartition de 100 ménages selon le salaire et l’age. Vérifier l’indépendance des deux

variables.

Pou monter l’indépendance des deux variables, il faut vérifier si fij = fi• × f•j ou

46
Tableau 4.11 –

❍❍ A
[25,30[ [30,35[ [35,40[ [40,60[ Total
S ❍❍❍
[250, 300[ 18 6 12 24 60
[300, 600[ 6 2 4 8 20
[600, 800[ 6 2 4 8 20
Total 30 10 20 40 100

non.

Tableau 4.12 –

❍❍ A
[25,30[ [30,35[ [35,40[ [40,60[
S ❍❍❍
[250, 300[ 0.18 0.06 0.12 0.24
[300, 600[ 0.06 0.02 0.04 0.08
[600, 800[ 0.06 0.02 0.04 0.08

Tableau 4.13 –

❍❍ f•j
0.3 0.1 0.2 0.4 T
fi• ❍❍❍
0.6 0.18 0.06 0.12 0.24 0.6
0.2 0.06 0.02 0.04 0.08 0.2
0.2 0.06 0.02 0.04 0.08 0.2
T 0.3 0.1 0.2 0.4 1

47
Les deux tableaux sont identiques. Donc, les deux variables sont indépendantes.

5 Corrélation et ajustement linéaire

5.1 Covariance entre X et Y

a) Définition
La covariance est égale à la moyenne des écarts des couples (xi , yi ) de X et Y par
rapport au point (x, y)

N
1 X
cov(x, y) = (xi − x)(yi − y)
N i=1

La covariance indique la nature de la relation entre X et Y . Plusieurs cas se pré-

sentent :
— cov(x, y) > 0 la relation entre X et Y est positive, les deux variables varient
dans le même sens.
— cov(x, y) < 0 la relation entre X et Y est négative, les deux variables varient
en sens inverse.

— cov(x, y) = 0 pas de relation entre les deux variables.


b) Propriétés
i Cov(ax + b, cy + d) = a.cCov(x, y) ;
ii Cov(y, x) = Cov(x, y) ;

iii Cov(x, x) = V (x) ;

5.2 Cœfficient de corrélation linéaire entre x et y

5.2.1 Définition

Le cœfficient de corrélation linéaire permet de voir le degré de liaison linéaire


entre deux variables statistiques. Le cœfficient de corrélation linéaire entre x et y est

48
défini par :
cov(x, y) cov(x, y)
r(x, y) = p =
v(x)v(y) σx σy

On distingue trois cas suivants :


— si r > 0, les deux variables varient dans le même sens.
— si r < 0, les deux variables varient dans le sens inverse.

— si r = 0, les deux variables sont linéairement indépendantes.

5.2.2 Propriétés

— r(ax + b, cy + d) = sgn(a) × sgn(c) × r(x, y)


— r(x, y) ∈ [−1, 1]

5.2.3 Interprétation de la valeur de r(x, y)

— si r = 1, on dit qu’il y a une parfaite corrélation linéaire positive


— si r = −1, on dit qu’il y a une parfaite corrélation négative
— si r = 0, on dit qu’il y a absence de corrélation linéaire entre les deux variables.

5.3 L’ajustement linéaire d’un nuage de point

On considère deux variables statistiques quantitatives X et Y . la représentation

du nuage de points de coordonnées (xi , yi ) peut nous renseigner sur l’allure de la


courbe reliant Y à X.
Géométriquement, les n couples (xi , yi ) peuvent êtres représentés dans un repère
orthonormé par un nuage de n points. Si ce nuage est assimilé à une droite (ce qui
fera l’objet de cette section), le problème de l’ajustement sera la détermination de

la droite qui approche le mieux l’ensemble des n points. Le mieux signifie la plus
proche possible de tous les points.

49
5.3.1 La droite de régression de y sur x

Lorsqu’il s’agit d’une liaison linéaire entre les deux variables, on parle alors d’ajus-
tement linéaire. L’ajustement linéaire consiste à estimer les cœfficients de la droite
de régression de type y = ax + b c’est à dire à trouver la valeur de a et celle de b.

Cette droite reflète l’évolution moyenne de la variable y (variable expliquée) en


fonction de la variable explicative x. Afin de déterminer ces cœfficients, nous allons
utiliser une méthode dite Méthode des Moindres Carrés Ordinaire (MCO).
a) Le critère des moindres carrés

Considérons N couples d’observations (xi , yi ) telque yi = axi + b+ ui où ui représente


le résidu du couple (xi , yi ), on peut écrire alors ui = yi − (axi + b)

La méthode MCO consiste à ajuster le nuage des points par une droite de ma-
nière à minimiser la somme des carrés des distances entre les points de nuage de cette

droite. Cela revient à minimiser la somme des carrés des résidus.

b) La détermination des paramètres a et b par la méthode MCO


on a ui = yi − axi − b

u2i = (yi − axi − b)2


Min N
P 2
PN 2
i=1 ui = Min i=1 (yi − axi − b) = f (a, b)

Les
 conditions de premier ordre
 ∂f (a,b) = 0

∂a
∂f (a,b)


∂b
= 0
On trouve donc les valeurs â et b̂, estimateurs de a et de b par la méthode des MCO

50
comme suit :

cov(x, y)
â =
V ar(x)
PN
i=1 xi yi − Nx y
= P N 2 2
i=1 xi − Nx
b̂ = y − âx

5.4 Cœfficient de détermination

Afin de mesurer la qualité de cet ajustement, on définit le cœfficient de détermi-


nation noté R2 par la part de la variance expliquée dans la variance totale.

PN 2
2 variance explique SCE i=1 (ŷi − y)
R = = = PN
variance totale SCT i=1 (yi − y)
2

-si R2 = 1 on dit que l’ajustement est parfait


-si R2 = 0 pas de relation entre x et y.

51