Vous êtes sur la page 1sur 26

COURS DE STATISTIQUE DESCRIPTIVE

Année : 2022

Professeur : M. Serge Victorien RAMDE (Ingénieur Statisticien Economiste -ISE)

M. Serge Victorien W. RAMDE (ISE)


COURS DE STATISTIQUE DESCRIPTIVE

PLAN DETAILLE DU COURS


CHAPITRE 1 : GÉNÉRALITÉS ...........................................................................3
1.1. Terminologie et notation standard de la statistique -vocabulaire..................3
1.1.1. Statistiques ..............................................................................3
1.1.2. Population ...............................................................................3
1.1.3. Échantillon ...............................................................................3
1.1.4. Série statistique ........................................................................3
1.1.5. Variables ou caractères statistiques ................................................3
1.2. Effectif et fréquence ........................................................................5
1.3. But de la Statistique .........................................................................5
1.4. Divers domaines d’application ............................................................5
CHAPITRE 2 : CARACTERISTIQUES NUMERIQUES DES DISTRIBUTIONS A UN CARACTERE ...7
2.1 Caractéristiques de tendance centrale .....................................................7
2.1.1 Le mode .....................................................................................7
2.1.2 La médiane .................................................................................7
2.1.3 La moyenne ................................................................................9
2.2 CARACTERISTIQUES DE DISPERSION........................................................ 11
2.2.1 Étendue ................................................................................... 11
2.2.2 Variance ................................................................................... 11
2.2.3 Ecart type ................................................................................. 11
2.2.4 Le coefficient de variation ............................................................ 12
2.3 CARACTERISTIQUES DE FORME ............................................................. 12
2.3.1 La symétrie (skewness) ................................................................ 12
2.3.2 L’aplatissement (kurtosis) ............................................................. 13
2.4 CARACTERISTIQUES DE CONCENTRATION : L’indice de GINI ........................... 13
2.5. REPRÉSENTATIONS GRAPHIQUES USUELLES ................................................ 14
2.5.1 DISTRIBUTION A CARACTERE QUALITATIF ............................................. 14
2.5.2. DISTRIBUTION A CARACTERE QUANTITATIF .......................................... 15
2.5.3. CARACTERE QUANTITATIF CONTINU ................................................ 16
CHAPITRE 3 : LES DISTRIBUTIONS STATISTIQUES A DEUX CARACTERES .................... 17
3.1 TABLEAU D’UNE DISTRIBUTION STATISTIQUE A DEUX CARACTERES ................. 17
3.1.1 Présentation Générale ................................................................. 17
3.1.1.1 Effectifs ou fréquences absolues d'une distribution à deux variables ... 17
3.1.1.2. Fréquence d'une distribution à deux variables ............................. 20
3.1.2 Distributions marginales ............................................................... 21
3.1.3. Les distributions conditionnelles .................................................... 21
3.2 RELATIONS ENTRE CARACTERISTIQUES MARGINALES ET CONDITIONNELLES ....... 22

M. Serge Victorien W. RAMDE (ISE) 1


COURS DE STATISTIQUE DESCRIPTIVE

3.2.1. Relation entre la moyenne marginale et les moyennes conditionnelles. .. 22


3.2.1. Relation entre la variance marginale et les variances conditionnelles. ... 23
3.3 INDÉPENDANCE ET LIAISON FONCTIONNELLE ............................................ 23
3.3.1 Indépendance ............................................................................ 23
3.2.2. Covariance et coefficient de corrélation linéaire ................................ 23
3.3.3 Courbes de régression .................................................................. 24

M. Serge Victorien W. RAMDE (ISE) 2


COURS DE STATISTIQUE DESCRIPTIVE

CHAPITRE 1 : GÉNÉRALITÉS

1.1. Terminologie et notation standard de la statistique -vocabulaire

1.1.1. Statistiques
La Statistique, c'est l'étude des variations observables. C'est une méthode qui
consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les
analyser et à les interpréter.

1.1.2. Population
La population désigne un ensemble d’unités statistiques. Les unités statistiques,
aussi appelées individus, sont les entités abstraites qui représentent des
personnes, des animaux ou des objets. La statistique sert à décrire l’ensemble
des unités statistiques qui composent la population.

1.1.3. Échantillon
Lorsque la population est trop importante, on étudie un échantillon, c’est-à-
dire un sous-ensemble, beaucoup plus petit, de la population. L’échantillon
doit être bien choisi pour pouvoir représenter la population.

1.1.4. Série statistique


Une série statistique est la suite des observations d’une (ou plusieurs) variable(s),
relevées sur les individus d’une population.

1.1.5. Variables ou caractères statistiques


Un individu donné de la population peut être étudié selon certaines propriétés.
Ces propriétés sont appelées caractères ou variables statistiques.
Exemple : Une étude sur les étudiants de CPFA peut porter sur les différentes
variables : leur âge, leur sexe, leur moyenne de l’année, etc.
❖ Variables quantitatives
Une variable quantitative est une variable qui peut être exprimée selon une
unité de mesure et « peuvent être comparées entre elles, additionnées, faire
l’objet de calculs de moyenne, [...] etc. »

M. Serge Victorien W. RAMDE (ISE) 3


COURS DE STATISTIQUE DESCRIPTIVE

a) Variables discrètes et continues


Sur un intervalle donné, les valeurs que peut prendre une variable quantitative
discrète sont dénombrables (ex : nombre d’enfants d’un ménage). Au
contraire, une variable quantitative continue peut prendre toutes les valeurs à
l’intérieur d’un intervalle (ex : taille). En effet, entre une personne mesurant
160cm et 161cm, on peut imaginer une infinité de valeurs (ce qui n’existe pas
entre 1 et 2 enfants par exemple). Ce sont la précision des instruments de
mesure et les conventions qui font que la taille est traitée comme une variable
discrète.
b) Classes
Pour pouvoir décrire des variables continues, il est parfois nécessaire de les «
discrétiser », c’est à dire les répartir en classes : des intervalles de valeurs
successifs. Les classes peuvent être définies en fonction du nombre de classe
que l’on veut obtenir ou selon une amplitude fixe.

❖ Variables qualitatives
Une variable qualitative est une variable qui ne prend pas de valeur numérique
(elles ne répondent pas à une question « combien » mais à une question « est-
ce que »).
Exemple : sexe, nationalité.
a) Modalités
une variable qualitative a plusieurs modalités, ce sont l’ensemble des valeurs
que la variable peut prendre.
Exemple : pour la variable sexe, les modalités sont masculin / féminin.
b) Variables ordinales
Une variable qualitative ordinale prend des valeurs qui sont ordonnées,
hiérarchisées. On peut classer les modalités les unes par rapport aux autres mais
on ne peut pas dire à partir de cet ordre de « combien » est la différence entre
deux modalités.
Exemple : Les réponses à un sondage, du type « pas du tout », « un peu », «
assez », « beaucoup ».

M. Serge Victorien W. RAMDE (ISE) 4


COURS DE STATISTIQUE DESCRIPTIVE

1.2. Effectif et fréquence


L’effectif d’une valeur donnée d’une variable est le nombre d’individus pour
lesquelles la variable considérée prend la valeur en question. L’effectif total est
la somme de tous les effectifs d’une variable.
La fréquence d’une valeur donnée est le rapport de l’effectif correspondant à
l’effectif total. La fréquence totale est toujours égale à 1.
Exemple : une étude sur l’état matrimonial des salariés de la société X
– Population : salariés de la société X.
– Unité statistique (individu) : chaque salarié de la societé X.
– Variable (caractère) étudiée : état matrimonial avec 4 modalités :
célibataire, pacsé ou marié, veuf, divorcé.
– Effectif : l’effectif de la modalité célibataire = 𝑛𝐶 , pacsé ou marié = 𝑛𝑝,𝑚 , veuf
= 𝑛𝑣 , divorcé = 𝑛𝑑 .
– Effectif total : N =𝑛𝑐 + 𝑛𝑝,𝑚 + 𝑛𝑣 + 𝑛𝑑
𝑛𝑐 𝑛𝑝,𝑚
-Fréquence : fréquence de la modalité célibataire = , pacsé ou marié =
𝑁 𝑁
𝑛𝑣 𝑛𝑑
, veuf = , ; divorcé = .
𝑁 𝑁
𝑛𝑐 +𝑛𝑝,𝑚 +𝑛𝑣 +𝑛𝑑 𝑁
Fréquence totale = =𝑁=1
𝑁

1.3. But de la Statistique


Les données sont entachées d’incertitudes et présentent des variations pour
plusieurs raisons :
- le déroulement des phénomènes observés n’est pas prévisible à
l’avance avec certitude toute mesure est entâchée d’erreur
- les données sont issues de phénomènes aléatoires,
- l’intervention du hasard et des probabilités,
L’objectif de la statistique est de maîtriser au mieux cette incertitude pour
extraire des informations utiles des données, par l’intermédiaire de l’analyse
des variations dans les observations.

1.4. Divers domaines d’application

M. Serge Victorien W. RAMDE (ISE) 5


COURS DE STATISTIQUE DESCRIPTIVE

Economie, assurance, finance : études quantitatives de marchés, prévisions


économétriques, analyse de la consommation des ménages, taxation des
primes d’assurances et de franchises, gestion de portefeuille, évaluation
d’actifs financiers, ...
Biologie, médecine : essais thérapeutiques, épidémiologie, dynamique des
populations, analyse du génôme, ...
Sciences de la terre : prévisions météréologiques, exploration pétrolière, ...
Sciences humaines : enquêtes d’opinion, sondages, étude de population, ...
Sciences de l’ingénieur : contrôle qualité, sûreté de fonctionnement,
évaluation des performances, ...
Sciences de l’information : traitement des images et des signaux,
reconnaissance de forme et parole, machine learning, ...

M. Serge Victorien W. RAMDE (ISE) 6


COURS DE STATISTIQUE DESCRIPTIVE

CHAPITRE 2 : CARACTERISTIQUES NUMERIQUES DES


DISTRIBUTIONS A UN CARACTERE

2.1 Caractéristiques de tendance centrale


2.1.1 Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé ou la
valeur de la variable statistique la plus fréquente ; il est Noté 𝑥𝑀 .
Soit le tableau de la variable ‘Etat civil’ , dont le tableau statistique est le suivant
:

le mode est C : célibataire.


Remarque
– Le mode peut être calculé pour tous les types de variable, quantitative et
qualitative.
– Le mode n’est pas nécessairement unique.
– Quand une variable continue est découpée en classes, on peut définir une
classe modale (classe correspondant à l’effectif le plus élevé).

2.1.2 La médiane
La médiane est la valeur de la variable telle qu'il y ait autant d'observations, en
dessous d'elle qu'au dessus ou, ce qui revient au même, la valeur
correspondant à 50% des observations.
Notée 𝑥1/2 , elle est une valeur centrale de la série statistique obtenue de la
manière suivante :
– On trie la série statistique par ordre croissant des valeurs observées.
Exemple : Soit la série statistique suivante : 15, 7, 22, 4, 12, 30, 9, 18, 6.
Pour déterminer la médiane, il faut ordonner la série : 4, 6, 7, 9, 12, 15, 18, 22,
30. La médiane est le 12 car dans cette série, il y a 4 nombres inférieurs et 4
supérieurs de 12.
Calcul de médiane pour des données non réparties en classes

M. Serge Victorien W. RAMDE (ISE) 7


COURS DE STATISTIQUE DESCRIPTIVE

Nous allons examiner une manière simple de calculer la médiane. Deux cas
doivent être distingués.
– Si n est impair, il n’y a pas de problème (ici avec n = 7), alors 𝑥1/2 = 1 :
0 0 1 1 2 2 3.
– Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)
00112234
1+2
La médiane est alors la moyenne de ces deux valeurs : 𝑥1/2 = = 1.5
2

Exemple : Dans le tableau ci-dessus ; une étude sur le nombre d’enfant d’un
échantillon de 51 individus (2×25+1) est présentée. La médiane est la modalité
"1 enfant" qui correspond au foyer 26.
Exemple : Une série représentant les notes d’une classe : 15, 7, 20, 4, 12, 20, 9,
18, 6, 4 (série ordonnée : 4, 4, 6, 7, 9, 12, 15, 18, 20, 20), l’intervalle médian est 9
et 12. Dans ce cas là, une acception de la médiane est (9+12)/2= 10, 5. Il ne
s’agit pas d’une valeur observée.
Calcul de médiane pour des données réparties en classe
Pour une variable continue, on détermine la classe médiane de même façon
que pour une variable discrète en utilisant les effectifs cumulés.
Exemple :

Exemple d’effectif cumulé : notes d’une population de 21 étudiants.

Dans ce tableau, la classe médiane est la classe [10 ;12[.


On détermine la médiane au sein d’une classe par l’interpolation linéaire.

M. Serge Victorien W. RAMDE (ISE) 8


COURS DE STATISTIQUE DESCRIPTIVE

Soit une étude sur la note d’une population de 50 étudiants. D’après la colonne
"effectif cumulé", 18 personnes ont moins de 8 et 30 personnes ont moins de 12.
La médiane se trouve donc dans l’intervalle [8 ;12[.

Sur la figure suivante, les points A, X, B sont alignés et les droites AX, BX et AB
ont le même coefficient directeur (la pente est la même). Le coefficient
directeur d’une droite est déterminé par deux de ces points.

Le coefficient directeur de la droite AB se calcule par :


𝑦𝐵 − 𝑦𝐴
𝑚=
𝑥𝐵 − 𝑥𝐴
Pour trouver la valeur 𝑀𝑒 , on peut calculer 𝑚𝐴𝑋 et 𝑚𝑋𝐵 et résoudre la règle de
𝑀 −8 12−8
trois suivante : 𝑚𝐴𝐵 = 𝑚𝐴𝐵 ; donc 25−18
𝑒
= 30−18

La médiane 𝑀𝑒 est donc 10.33. Cela signifie qu’environ 50% des personnes ont
eu moins de 10.33 et 50% plus de 10.33.

Remarque : La médiane peut être calculée sur des variables quantitatives et


sur des variables qualitatives ordinales.

2.1.3 La moyenne
La moyenne ne peut être définie que sur une variable quantitative.
Elle définit une valeur autour de laquelle se répartissent les observations aussi
elle représente la valeur qu’auraient tous les individus s’ils prenaient la même
valeur.
M. Serge Victorien W. RAMDE (ISE) 9
COURS DE STATISTIQUE DESCRIPTIVE

La moyenne est la somme des valeurs observées divisée par leur nombre, elle
est notée 𝑥̅ :
𝑁
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 + ⋯ . +𝑥𝑁 1
𝑥̅ = = ∑ 𝑥𝑖
𝑁 𝑁
𝑖=1

Où N est le nombre d’observations.


Moyenne pondérée
La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
ou encore lorsque les valeurs sont affectées de coefficients (ici d’effectifs), on
parle de « moyenne pondérée ».
La moyenne pondérée de X se calcule de la manière suivante :
𝐼
1
𝑥̅ = ∑ 𝑥𝑖 𝑛𝑖
𝑁
𝑖=1

Dans cette formule, 𝑛1 , 𝑛2 , · · · , 𝑛𝐼 sont les effectifs correspondants aux


modalités 𝑥1 , 𝑥2 , · · · , 𝑥𝐼

Moyenne de la variable qualité de service (QS) : QS = 35/12 = 2.9


Exemple : Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3,
4.
Exemple : Lors d’une étude sur la résistance d’un métal, on a réalisé 100
expériences de rupture en charge d’un fil de même épaisseur et l’on a noté
les poids limites dans chaque cas.
Le tableau ci-dessous représente la répartition par classes des résultats.
On calcule la moyenne de la charge de rupture d’un fil, à partir des effectifs.

M. Serge Victorien W. RAMDE (ISE) 10


COURS DE STATISTIQUE DESCRIPTIVE

2.2 CARACTERISTIQUES DE DISPERSION

2.2.1 Étendue
L’étendue d’une série statistique quantitative est la différence entre la plus
grande valeur de la variable (discrète ou continue) et la plus petite valeur.

2.2.2 Variance
La variance est un indicateur de la dispersion d’une série par rapport à sa
moyenne. La définition de la variance d’une série statistiques est donnée par
la formule :
𝑁 𝑁
1 1
𝑉(𝑥) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = ∑ 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑁 𝑁
𝑖=1 𝑖=1
V (x) désigne la variance des N valeurs associées aux N unités statistiques de la
population et 𝑥̅ est la moyenne de ces unités statistiques.

2.2.3 Ecart type


La définition de l’écart-type d’une série est donnée par la formule : 𝜎(𝑥) = √𝑉(𝑥).
Si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées
autour de la moyenne et si l’écart-type est élevé, cela veut dire au contraire
que les valeurs sont plus dispersées autour de la moyenne.

M. Serge Victorien W. RAMDE (ISE) 11


COURS DE STATISTIQUE DESCRIPTIVE

2.2.4 Le coefficient de variation


L’étendue, la variance et l’écart type sont des paramètres de dispersion
absolue qui mesurent la variation absolue des données. Cependant, un écart
type de 6 mm n’a pas la même signification s’il se rapporte à des mesures de
l’ordre de 160 mm ou à des mesures de l’ordre de 80 mm. Le coefficient de
variation est indice de dispersion relative, noté CV. Par définition, le coefficient
de variation est égal à
100𝜎(𝑋)
𝐶𝑉(𝑋) =
𝑥̅
Ce coefficient de variation a l’avantage d’être comparable pour toutes les
séries statistiques.

2.3 CARACTERISTIQUES DE FORME


2.3.1 La symétrie (skewness)
Le moment centré d’ordre trois est défini par
𝑁
1
𝑚3 = ∑(𝑥𝑖 − 𝑥̅ )3
𝑁
𝑖=1

Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie se mesure


au moyen du coefficient d’asymétrie de Fisher
𝑚3 (𝑋)
𝑔(𝑋)3 =
𝜎(𝑋)3
Tous les coefficients d’asymétrie ont les mêmes propriétés.
Ils sont nuls si la distribution est symétrique, négatifs si la distribution est allongée
à gauche (left asymmetry) et positifs si la distribution est allongée à droite (right
asymmetry) comme montré sur la Figure.

Asymétrie d’une distribution

M. Serge Victorien W. RAMDE (ISE) 12


COURS DE STATISTIQUE DESCRIPTIVE

2.3.2 L’aplatissement (kurtosis)


L’aplatissement est mesuré par le coefficient d’aplatissement de Pearson
𝑚4 (𝑋)
𝛽2 (𝑋) =
𝜎(𝑋)4
Ou le coefficient d’aplatissement de Fisher
𝑚4 (𝑋)
𝑔2 (𝑋) = 𝛽2 (𝑋) − 3 = −3
𝜎(𝑋)4
Où 𝑚4 est le moment centré d’ordre 4.
On a :
- Une courbe mésokurtique si 𝑔2 ≅ 0
- Une courbe leptokurtique si 𝑔2 < 0. Elle est plus pointue et possède des
queues plus longues.
- Une courbe platykurtique si 𝑔2 > 0. Elle est plus arrondie et possède des
queues plus courtes.
La figure suivante présente un exemple de deux distributions de même
moyenne et de même variance. La distribution plus pointue est leptokurtique,
l’autre est mésokurtique. La distribution leptokurtique a une queue plus épaisse.

Distributions mésokurtique et leptokurtique

2.4 CARACTERISTIQUES DE CONCENTRATION : L’indice de GINI


L’indice de Gini, noté G est égal à deux fois la surface comprise entre la courbe
de Lorenz et la diagonale. Il est possible de montrer que :
1
∑𝑛 ∑𝑛 |𝑥 − 𝑥𝑗 |
𝑛(𝑛 − 1) 𝑖=1 𝑗=1 𝑖
𝐺=
2𝑥̅
L’indice de Gini est compris entre 0 et 1. S’il est proche de 0, tous les revenus
sont égaux. S’il est proche de 1, les revenus sont très inégaux.

M. Serge Victorien W. RAMDE (ISE) 13


COURS DE STATISTIQUE DESCRIPTIVE

2.5. REPRÉSENTATIONS GRAPHIQUES USUELLES

Les diagrammes sont l'une des techniques employées pour présenter des
données de façon visuelle pour que le lecteur puisse rapidement reconnaître
un motif ou une tendance.

2.5.1 DISTRIBUTION A CARACTERE QUALITATIF

❖ Diagramme sectoriel, en secteur ou camenberts


L’effectif total est représenté par un disque. Chaque modalité est représentée
par un secteur circulaire dont la surface (pratiquement : l’angle au centre) est
proportionnelle à l’effectif correspondant.
L’angle de chaque modalité se calcule par :
𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑙𝑎 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é
𝑋 3600
𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙

❖ Diagramme à bandes ou à tuyau d’orgue


Un diagramme à bandes peut être horizontal ou vertical. Les diagrammes à
bandes présentent habituellement des variables nominales et numériques
groupées par intervalles de classe. Les bandes montrent les fréquences de
différentes valeurs ou simplement les différentes valeurs elles-mêmes. Les
nombres sur l'axe des x d'un diagramme à bandes horizontales ou sur l'axe des
y d'un diagramme à bandes horizontales sont appelés l'échelle.

M. Serge Victorien W. RAMDE (ISE) 14


COURS DE STATISTIQUE DESCRIPTIVE

2.5.2. DISTRIBUTION A CARACTERE QUANTITATIF


❖ Caractère quantitatif discret
Diagramme en bâtons
A chaque modalité correspond un rectangle vertical dont la hauteur est
proportionnelle à la fréquence absolue ou relative de la modalité.

Diagramme cumulatif (La courbe de cumulation ou encore courbe


des fréquences cumulées)
Il permet de connaître le nombre d’observations supérieures ou inférieures à
une valeur donnée. On distingue 2 types de courbes de cumulation :
✓ la courbe cumulative croissante : elle permet de connaître le nombre
d’observations inférieures à une valeur donnée.
✓ la courbe cumulative décroissante : elle permet de connaître le nombre
d’observations supérieures à une valeur donnée.
❖ Cas d’une variable continue :

M. Serge Victorien W. RAMDE (ISE) 15


COURS DE STATISTIQUE DESCRIPTIVE

2.5.3. CARACTERE QUANTITATIF CONTINU


❖ Histogrammes
On utilise l’histogramme pour les variables classées. C’est un ensemble de
rectangles. Chaque rectangle est associé à une classe et il a une surface
proportionnelle à l’effectif (ou fréquence) de cette classe.
– Amplitudes égales : Si les classes ont la même amplitude, on reporte en
ordonnée l’effectif (ou fréquence) des classes.
– Amplitudes diverses : si les amplitudes sont différentes, on reporte en
ordonnée la densité di (effectif divisé par l’amplitude de la classe) pour que la
surface de chaque rectangle soit proportionnelle à l’effectif (ou fréquence).

M. Serge Victorien W. RAMDE (ISE) 16


COURS DE STATISTIQUE DESCRIPTIVE

CHAPITRE 3 : LES DISTRIBUTIONS STATISTIQUES A DEUX


CARACTERES

3.1 TABLEAU D’UNE DISTRIBUTION STATISTIQUE A DEUX CARACTERES

3.1.1 Présentation Générale


3.1.1.1 Effectifs ou fréquences absolues d'une distribution à deux variables

Lorsque l'on étudie simultanément deux séries statistiques sur une population,
on présente les résultats sous la forme d'un tableau à double entrée appelé
tableau croisé. Les deux variables étudiées peuvent être qualitatives ou
quantitatives.

Soit deux variables X et Y, quantitatives ou qualitatives, ayant comme


modalités respectives xi ( avec i  {1...r}) et yj (avec j  {1...s}), étudiées sur une

population de taille N. Les nij (nombre d'individus), trouvés après comptage,

ayant simultanément la modalité xi et la modalité yj peuvent être mis dans un

tableau croisé :

Y
y1 ... yj ... ys Total
X
j =s

x1 n11 ... n1j ... n1s n


j =1
1j = n1•

... ... ... ... ... ... ...


j =s

xi ni1 ... nij ... nis n


j =1
ij = ni•

... ... ... ... ... ... ...


j =s

xr nr1 ... nrj ... nrs n


j =1
rj = nr•

i=r i=r i=r

Total  ni1 = n•1 ...


i =1
 nij = n• j ....
i =1
n
i =1
is = n•s N

On dit que l'on étudie la distribution statistique du couple (X, Y). Le couple (xi,
yj) possède un poids nij (ou un effectif nij).

M. Serge Victorien W. RAMDE (ISE) 17


COURS DE STATISTIQUE DESCRIPTIVE

Remarques :

- Dans le cas où les deux variables de la distribution statistique (X, Y) est


constituée de variable quantitatives (les couples de modalités (xi, yj) sont des

valeurs numériques), la moyenne, le mode, la médiane et la variance


peuvent être calculés pour chacune des lignes et des colonnes.
- Dans le cas où les deux variables de la distribution statistique (X, Y) sont
qualitatives alors seuls les tableaux des effectifs (fréquences absolues) et des
fréquences (fréquences relatives) sont utilisées. En effet, les couples (xi, yj)

représentent alors des qualités et le calcul des résumés statistiques ne sont


plus possibles.
- on peut utiliser une écriture plus condensée :
j= 3 i=4
n 11 + n 12 + n 13 =  n 1 j = n 1• n11 + n21 + n31 + n41 =  ni1 = n•1
- j=1 et i =1

- la ligne total et la colonne total du tableau ci-dessus sont appelées marges


du tableau croisé. L'effectif ni• correspond au nombre d'individus de la

population qui représente la modalité xi de la variable X indépendamment

des modalités de la variable Y. Il en va de même pour n•j et la modalité yj .;

La somme des valeurs contenues dans les marges colonnes est égale à la
somme des valeurs contenues dans les marges lignes qui est elle même égale
à la taille N de la population P :
- n1• +....+ ni• +....+ nr• = n•1 +....+ n• j +....+ n• s = N
i= r j= s

n i• =  n• j = N
- i =1 j=1

Que l’on peut également écrire :


i= r  j=s  j=s  i= r 
  n ij  =   n ij  = N
 j=1  i=1 
- i =1 j=1

i = r j= s j= s i = r

  n ij =   n ij = N
- i =1 j=1 j=1 i =1

Exemple 1 : on s'intéresse au nombre d'étudiants par discipline dans une


université pour chacun des trois cycles.

M. Serge Victorien W. RAMDE (ISE) 18


COURS DE STATISTIQUE DESCRIPTIVE

Y="Cycles" 1er Cycle 2ième Cycle 3ième Cycle Total

X="Disciplines"

ST 924 409 50 1 383

Sciences Économiques 1 168 772 257 2 197

Médecine 102 386 227 715

Droit 3 518 1 596 625 5 739

Total 5 712 3 163 1 159 10 034

Dans le tableau ci-dessus la population totale a pour taille N=10 034, le chiffre
n11=924 correspond au nombre d'étudiants qui sont en premier cycle (modalité

1 de Y) et en ST (modalité 1 de X),..., n23= 257,... . On peut par exemple, calculer

les sommations suivantes :


j=3
- pour ST, on écrit : 1383 = 924 + 409 + 50 = n11 + n12 + n13 =  n1j = n1• tous cycles
j =1

confondus ; la somme porte sur le deuxième indice de n, le premier indice reste


égal à 1,

- pour le 1er cycle, on écrit : 5712 = 924 + 1168 + 102 + 3518 =


i=4
n11 + n21 + n31 + n41 =  ni1 = n•1
i=1

Exemple 2 : avec l’exemple suivant, on peut construire un tableau croisé ou les


distributions de fréquences des couples (X, Y) sont les variables X = "note en
statistique" et Y = "note en mathématique" ; comme les deux séries statistiques
sont relativement longues, on peut les regrouper en classes en fixant, par
exemple (arbitrairement) 4 classes d'amplitudes égales à 5 :
modalité 1 modalité 2 modalité 3 modalité 4
Y [0,5[ [5,10[ [10,15[ [15,20]

centres de Total
X classes yj y1=2,5 y2=7,5 y3=12,5 y4=17,5 ou
xi Marge

modalité 1 j =4
[0,5[ x1=2,5 n11= 7 n12= 6 n13= 1 n14= 0 n1• =  n1 j =14
j =1
modalité 2 j =4

[5,10[ x2=7,5 n21= 4 n22= 3 n23= 2 n24= 3 n2• =  n2 j =12


j =1

M. Serge Victorien W. RAMDE (ISE) 19


COURS DE STATISTIQUE DESCRIPTIVE

modalité 3 j =4
[10,15[ x3=12,5 n31= 0 n32= 7 n33= 3 n34= 1 n3• =  n3 j =11
j =1
modalité 4 j =4
[15,20] x4=17,5 n41= 0 n42= 1 n43= 5 n44= 7 n4• =  n4 j =13
j =1
Total ou Marge i =4 i =4 i =4 i =4 N=50
n•1 =  ni1 =11 n•2 =  ni 2 =17 n•3 =  ni 3 =11 n•4 =  ni 4 =11
i =1 i =1 i =1 i =1

3.1.1.2. Fréquence d'une distribution à deux variables

La fréquence relative (ou effectif relatif) du couple (xi, yj) est notée fij. Elle est le
résultat du rapport entre la fréquence absolue nij et l'effectif global N de la
nij
population P étudiée : fij =
N
Remarque : si l’on considère la fréquence relative fij du couple (xi, yi), alors nous
avons la relation suivante :
i = r j= s i = r j= s n ij
f ij = 
N
i =1 j=1 i =1 j=1
i = r j= s

 
1 1
n ij = • N = 1
N i=1 j=1 N
i = r j= s

f ij =1
i =1 j=1

Exemple : à partir de l'exemple ci-dessus on obtient le tableau des fréquences


relatives suivant :
Y="Cycles" 1er Cycle 2ième Cycle 3ième Cycle Total
X="disciplines"

ST 0,092 0,041 0,005 0,138

Sciences Économiques 0,116 0,077 0,026 0,219

Médecine 0,010 0,038 0,023 0,071

Droit 0,351 0,159 0,062 0,572

Total 0,569 0,315 0,116 1

Le tableau peut-être commenté à l'aide des pourcentages; ainsi, par exemple :


13,8% des étudiants fréquentent ST (marge X = disciplines),
56,9% des inscrits le sont en 1er Cycle (marge Y = cycles),
35,1% des inscrits le sont en 1er Cycle et en Droit.

M. Serge Victorien W. RAMDE (ISE) 20


COURS DE STATISTIQUE DESCRIPTIVE

3.1.2 Distributions marginales


Les distributions marginales d'un couple de variables (X, Y) sont les distributions
statistiques à une variable telle que : (xi, ni•) et (yj, n•j. . Ces deux distributions

sont indépendantes des effectifs nij relatifs au couple (xi, yj) avec i  {1...r} et j

 {1...s}. Il existe donc deux distributions marginales pour le couple (X, Y). Les
distributions marginales peuvent être exprimées en fonction des fréquences
relatives marginales dans ce cas les couples étudiés sont (xi, fi•) et (yj, f•j)

Modalités de X x1 ... xi ... xr Total Modalités de Y y1 ... yi ... ys Total

Effectifs ou n1• ... ni• ... nr• N Effectifs ou n•1 ... n• j ... n• s N

fréquences absolues fréquences absolues

Effectifs relatifs ou fréquences


f1.• ... fi• ... fr• 1 Effectifs relatifs ou f•1 ... f•j ... f•s 1
relatives fréquences relatives

Distribution marginale de la variable X Distribution marginale de la variable Y

Remarque 1 : La somme des fréquences des deux distributions marginales X et


Y est égale à 1.
i= r i= r
n i• 1 i = r
 f i• =  N = N  n i• aussi
i =1 i =1 i =1
j=s

f •j =1
j =1

Application numérique :

Remarque 2 : lorsque les variables statistiques X et Y sont quantitatives, on


calcule la moyenne et la variance pour chacune des distributions marginales
(xi, ni•) et (yj, n•j) :
j=s j=s
1 i =r i =r
1
X =  ni • xi =  f i • xi et Y =  n• j y j =  f • j y j
N i =1 i =1 N j =1 j =1
j=s j=s
1 i =r i =r
s2X
V(X) = 
N i =1
n (
i• ix − X )2
= 
i =1
f i • ( xi − X ) etV(Y)sY2 =
2 1
N j =1
(
 n• j y j − Y )2
=  f• j ( y j − Y )
j =1
2

3.1.3. Les distributions conditionnelles

Si on étudie le caractère X uniquement sur les individus vérifiant, ou


satisfaisant, à la modalité y j de Y alors on définit un nouveau type de
distribution d’une série à une variable appelée « distribution conditionnelle ».

M. Serge Victorien W. RAMDE (ISE) 21


COURS DE STATISTIQUE DESCRIPTIVE

Définition : on appelle distribution conditionnelle de X sachant Y = y j ,


𝑛
X


 Y = y j  , la donnée du couple

( x , f ) , i = 1,....., r avec 𝑓 = 𝑛𝑖𝑗.𝑗 (lire
i i
j
𝑖
𝑗
f i si j ).

Pour la variable X , il y a s distributions conditionnelles ( X Y ) .


Par analogie on dit que la variable Y admet r distributions conditionnelles
( )
Y
X .

Moyennes conditionnelles :
r

Y = y j xj = 
Pour X , fi j xi , il y a donc s moyennes conditionnelles x j .
i =1

Pour Y , 𝑦̅𝑖 = ∑𝑠𝑗=1 𝑓𝑗𝑖 𝑦𝑗 , il y a donc r moyennes conditionnelles yi .


X = xi
Variances conditionnelles :
Pour X , on notera cette variance conditionnelle par V j ( x ) , par  y2 et
Y = yj
2

(x − x )
r
V j ( x ) =  fi j
i j avec (j=1,…,s) .
i =1

Pour Y , la variance conditionnelle est : 𝑉𝑖 (𝑌) = ∑𝑠𝑗=1 𝑓𝑗𝑖 (𝑦𝑗 − 𝑦̅𝑗 )2 , avec
X = xi
( i = 1,......, r ) .

3.2 RELATIONS ENTRE CARACTERISTIQUES MARGINALES ET CONDITIONNELLES

Lorsqu’une population est décrite suivant 2 caractères X et Y la référence


aux distributions conditionnelles permet de considérer la population comme
un mélange de sous populations. En effet, la distribution marginale de X

résulte du mélange des s distributions conditionnelles X avec (j=1,…,s),


Y = yj
𝑛.𝑗
représentées en proportion 𝑓.𝑗 ou . avec (𝑁 = 𝑛.. ).
𝑁
De même, la distribution marginale de Y résulte du mélange des r distributions
conditionnelles 𝑌⁄𝑋 = 𝑥 avec ( i = 1,....., r ) , représentées en proportions par 𝑓𝑖.
𝑖

𝑛𝑖.
ou .
𝑁
3.2.1. Relation entre la moyenne marginale et les moyennes conditionnelles.

M. Serge Victorien W. RAMDE (ISE) 22


COURS DE STATISTIQUE DESCRIPTIVE

La moyenne marginale est la moyenne des moyennes conditionnelles,


pondérée par les 𝑓𝑖. ou les 𝑓.𝑗 selon la variable considérée.
D’où : 𝑥̅ = ∑𝑠𝑗=1 𝑓.𝑗 𝑥̅𝑗 et 𝑦̅ = ∑𝑟𝑖=1 𝑓𝑖. 𝑦̅𝑖

3.2.1. Relation entre la variance marginale et les variances conditionnelles.

La technique de la composition de la variance globale dans le cadre des


mélanges de sous populations donne :
Variance globale = moyenne des variances conditionnelles + variance des moyennes conditionnelles

D’où les résultats suivants :

𝑠 𝑠

𝑉(𝑥) = ∑ 𝑓.𝑗 𝑉𝑗 (𝑥) + ∑ 𝑓.𝑗 (𝑥̅𝑗 − 𝑥̅ )2


𝑗=1 𝑗=1

𝑟 𝑟

𝑉(𝑦) = ∑ 𝑓𝑖. 𝑉𝑖 (𝑦) + ∑ 𝑓𝑖. (𝑦̅𝑖 − 𝑦̅)2


𝑖=1 𝑖=1

3.3 INDÉPENDANCE ET LIAISON FONCTIONNELLE

3.3.1 Indépendance
Pour chaque valeur y j de Y, si la distribution conditionnelle de X est
Y = yj

identique à la distribution marginale de X , on dit que X est statistiquement


indépendante de Y .
𝑛𝑖𝑗 𝑛𝑖. 𝑗
X est statistiquement indépendante de Y si et seulement si : = et 𝑓𝑖 =
𝑛.𝑗 𝑁

𝑓𝑖. ∀ (𝑖, 𝑗).


Propriétés :
Si X est statistiquement indépendante de Y , alors Y est aussi indépendante
de X . On dit que X et Y sont indépendantes.
Si y = yi ( i ) , alors on a x = x j ( j ) (Attention la réciproque est fausse).

3.2.2. Covariance et coefficient de corrélation linéaire


Covariance :
La covariance de X et de Y la quantité notée cov ( X , Y ) qui est égale à la

moyenne des produits ( xi − x ) ( y j − y ) pondérée par les fréquences fij .

M. Serge Victorien W. RAMDE (ISE) 23


COURS DE STATISTIQUE DESCRIPTIVE

D’où : 𝑐𝑜𝑣 (𝑋, 𝑌) = ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑓𝑖𝑗 (𝑥𝑖 − 𝑥̅ ) (𝑦𝑗 − 𝑦̅) = ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑓𝑖𝑗 𝑥𝑖 𝑦𝑗 − 𝑥𝑦
̅̅̅

Coefficient de corrélation :
Le coefficient de corrélation linéaire entre X et Y est le rapport noté r ( x, y )

cov ( X , Y )
défini par r ( x, y ) = .
 y x

Propriétés : a) −1  r ( x, y )  1 ou encore r ( x, y )  1

b) r ( x, y ) = r ( y, x )

c) Si r ( x, y ) = 0 , il n’existe pas de corrélations linéaires entre X et Y

d) Si r ( x, y ) =1 (c’est-à-dire r ( x, y ) = 1 ), on dit qu’il existe une

relation avérée entre X et Y , c’est-à-dire il existe un couple ( a, b ) tel que :

y = ax + b .

e) r ( x, y ) mesure donc la dépendance linéaire entre X et Y et il

n’est intéressant que si r ( x, y ) est proche de 1.

Application numérique :

3.3.3 Courbes de régression


On veut donner une interprétation graphique, à la notion de corrélation entre
2 variables X et Y . Le critère utilisé est celui « des moindres carrés ». Le
problème de sa détermination relève de la méthode dite de l’ajustement
linéaire.
La droite aura pour équation : y = ax + b .

Équation de la droite
ˆ + bˆ , car les valeurs exactes de a et de b
On notera cette équation par y = ax

ne seront jamais connues, dans les problèmes statistiques, on travaille surtout


avec des échantillons.

â et b̂ sont donc, pour un échantillon donné, des valeurs approchées de a et


de b , c’est-à-dire des valeurs « estimées ».
cov ( X , Y )
aˆ = , c’est la pente ou le coefficient directeur de la droite.
V (x)

M. Serge Victorien W. RAMDE (ISE) 24


COURS DE STATISTIQUE DESCRIPTIVE

bˆ = y − ax
ˆ , c’est l’ordonnée à l’origine de la droite.

M. Serge Victorien W. RAMDE (ISE) 25

Vous aimerez peut-être aussi