Académique Documents
Professionnel Documents
Culture Documents
Année : 2022
CHAPITRE 1 : GÉNÉRALITÉS
1.1.1. Statistiques
La Statistique, c'est l'étude des variations observables. C'est une méthode qui
consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les
analyser et à les interpréter.
1.1.2. Population
La population désigne un ensemble d’unités statistiques. Les unités statistiques,
aussi appelées individus, sont les entités abstraites qui représentent des
personnes, des animaux ou des objets. La statistique sert à décrire l’ensemble
des unités statistiques qui composent la population.
1.1.3. Échantillon
Lorsque la population est trop importante, on étudie un échantillon, c’est-à-
dire un sous-ensemble, beaucoup plus petit, de la population. L’échantillon
doit être bien choisi pour pouvoir représenter la population.
❖ Variables qualitatives
Une variable qualitative est une variable qui ne prend pas de valeur numérique
(elles ne répondent pas à une question « combien » mais à une question « est-
ce que »).
Exemple : sexe, nationalité.
a) Modalités
une variable qualitative a plusieurs modalités, ce sont l’ensemble des valeurs
que la variable peut prendre.
Exemple : pour la variable sexe, les modalités sont masculin / féminin.
b) Variables ordinales
Une variable qualitative ordinale prend des valeurs qui sont ordonnées,
hiérarchisées. On peut classer les modalités les unes par rapport aux autres mais
on ne peut pas dire à partir de cet ordre de « combien » est la différence entre
deux modalités.
Exemple : Les réponses à un sondage, du type « pas du tout », « un peu », «
assez », « beaucoup ».
2.1.2 La médiane
La médiane est la valeur de la variable telle qu'il y ait autant d'observations, en
dessous d'elle qu'au dessus ou, ce qui revient au même, la valeur
correspondant à 50% des observations.
Notée 𝑥1/2 , elle est une valeur centrale de la série statistique obtenue de la
manière suivante :
– On trie la série statistique par ordre croissant des valeurs observées.
Exemple : Soit la série statistique suivante : 15, 7, 22, 4, 12, 30, 9, 18, 6.
Pour déterminer la médiane, il faut ordonner la série : 4, 6, 7, 9, 12, 15, 18, 22,
30. La médiane est le 12 car dans cette série, il y a 4 nombres inférieurs et 4
supérieurs de 12.
Calcul de médiane pour des données non réparties en classes
Nous allons examiner une manière simple de calculer la médiane. Deux cas
doivent être distingués.
– Si n est impair, il n’y a pas de problème (ici avec n = 7), alors 𝑥1/2 = 1 :
0 0 1 1 2 2 3.
– Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)
00112234
1+2
La médiane est alors la moyenne de ces deux valeurs : 𝑥1/2 = = 1.5
2
Exemple : Dans le tableau ci-dessus ; une étude sur le nombre d’enfant d’un
échantillon de 51 individus (2×25+1) est présentée. La médiane est la modalité
"1 enfant" qui correspond au foyer 26.
Exemple : Une série représentant les notes d’une classe : 15, 7, 20, 4, 12, 20, 9,
18, 6, 4 (série ordonnée : 4, 4, 6, 7, 9, 12, 15, 18, 20, 20), l’intervalle médian est 9
et 12. Dans ce cas là, une acception de la médiane est (9+12)/2= 10, 5. Il ne
s’agit pas d’une valeur observée.
Calcul de médiane pour des données réparties en classe
Pour une variable continue, on détermine la classe médiane de même façon
que pour une variable discrète en utilisant les effectifs cumulés.
Exemple :
Soit une étude sur la note d’une population de 50 étudiants. D’après la colonne
"effectif cumulé", 18 personnes ont moins de 8 et 30 personnes ont moins de 12.
La médiane se trouve donc dans l’intervalle [8 ;12[.
Sur la figure suivante, les points A, X, B sont alignés et les droites AX, BX et AB
ont le même coefficient directeur (la pente est la même). Le coefficient
directeur d’une droite est déterminé par deux de ces points.
La médiane 𝑀𝑒 est donc 10.33. Cela signifie qu’environ 50% des personnes ont
eu moins de 10.33 et 50% plus de 10.33.
2.1.3 La moyenne
La moyenne ne peut être définie que sur une variable quantitative.
Elle définit une valeur autour de laquelle se répartissent les observations aussi
elle représente la valeur qu’auraient tous les individus s’ils prenaient la même
valeur.
M. Serge Victorien W. RAMDE (ISE) 9
COURS DE STATISTIQUE DESCRIPTIVE
La moyenne est la somme des valeurs observées divisée par leur nombre, elle
est notée 𝑥̅ :
𝑁
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 + ⋯ . +𝑥𝑁 1
𝑥̅ = = ∑ 𝑥𝑖
𝑁 𝑁
𝑖=1
2.2.1 Étendue
L’étendue d’une série statistique quantitative est la différence entre la plus
grande valeur de la variable (discrète ou continue) et la plus petite valeur.
2.2.2 Variance
La variance est un indicateur de la dispersion d’une série par rapport à sa
moyenne. La définition de la variance d’une série statistiques est donnée par
la formule :
𝑁 𝑁
1 1
𝑉(𝑥) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = ∑ 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑁 𝑁
𝑖=1 𝑖=1
V (x) désigne la variance des N valeurs associées aux N unités statistiques de la
population et 𝑥̅ est la moyenne de ces unités statistiques.
Les diagrammes sont l'une des techniques employées pour présenter des
données de façon visuelle pour que le lecteur puisse rapidement reconnaître
un motif ou une tendance.
Lorsque l'on étudie simultanément deux séries statistiques sur une population,
on présente les résultats sous la forme d'un tableau à double entrée appelé
tableau croisé. Les deux variables étudiées peuvent être qualitatives ou
quantitatives.
tableau croisé :
Y
y1 ... yj ... ys Total
X
j =s
On dit que l'on étudie la distribution statistique du couple (X, Y). Le couple (xi,
yj) possède un poids nij (ou un effectif nij).
Remarques :
La somme des valeurs contenues dans les marges colonnes est égale à la
somme des valeurs contenues dans les marges lignes qui est elle même égale
à la taille N de la population P :
- n1• +....+ ni• +....+ nr• = n•1 +....+ n• j +....+ n• s = N
i= r j= s
n i• = n• j = N
- i =1 j=1
i = r j= s j= s i = r
n ij = n ij = N
- i =1 j=1 j=1 i =1
X="Disciplines"
Dans le tableau ci-dessus la population totale a pour taille N=10 034, le chiffre
n11=924 correspond au nombre d'étudiants qui sont en premier cycle (modalité
centres de Total
X classes yj y1=2,5 y2=7,5 y3=12,5 y4=17,5 ou
xi Marge
modalité 1 j =4
[0,5[ x1=2,5 n11= 7 n12= 6 n13= 1 n14= 0 n1• = n1 j =14
j =1
modalité 2 j =4
modalité 3 j =4
[10,15[ x3=12,5 n31= 0 n32= 7 n33= 3 n34= 1 n3• = n3 j =11
j =1
modalité 4 j =4
[15,20] x4=17,5 n41= 0 n42= 1 n43= 5 n44= 7 n4• = n4 j =13
j =1
Total ou Marge i =4 i =4 i =4 i =4 N=50
n•1 = ni1 =11 n•2 = ni 2 =17 n•3 = ni 3 =11 n•4 = ni 4 =11
i =1 i =1 i =1 i =1
La fréquence relative (ou effectif relatif) du couple (xi, yj) est notée fij. Elle est le
résultat du rapport entre la fréquence absolue nij et l'effectif global N de la
nij
population P étudiée : fij =
N
Remarque : si l’on considère la fréquence relative fij du couple (xi, yi), alors nous
avons la relation suivante :
i = r j= s i = r j= s n ij
f ij =
N
i =1 j=1 i =1 j=1
i = r j= s
1 1
n ij = • N = 1
N i=1 j=1 N
i = r j= s
f ij =1
i =1 j=1
sont indépendantes des effectifs nij relatifs au couple (xi, yj) avec i {1...r} et j
{1...s}. Il existe donc deux distributions marginales pour le couple (X, Y). Les
distributions marginales peuvent être exprimées en fonction des fréquences
relatives marginales dans ce cas les couples étudiés sont (xi, fi•) et (yj, f•j)
Effectifs ou n1• ... ni• ... nr• N Effectifs ou n•1 ... n• j ... n• s N
f •j =1
j =1
Application numérique :
Moyennes conditionnelles :
r
Y = y j xj =
Pour X , fi j xi , il y a donc s moyennes conditionnelles x j .
i =1
(x − x )
r
V j ( x ) = fi j
i j avec (j=1,…,s) .
i =1
Pour Y , la variance conditionnelle est : 𝑉𝑖 (𝑌) = ∑𝑠𝑗=1 𝑓𝑗𝑖 (𝑦𝑗 − 𝑦̅𝑗 )2 , avec
X = xi
( i = 1,......, r ) .
𝑛𝑖.
ou .
𝑁
3.2.1. Relation entre la moyenne marginale et les moyennes conditionnelles.
𝑠 𝑠
𝑟 𝑟
3.3.1 Indépendance
Pour chaque valeur y j de Y, si la distribution conditionnelle de X est
Y = yj
D’où : 𝑐𝑜𝑣 (𝑋, 𝑌) = ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑓𝑖𝑗 (𝑥𝑖 − 𝑥̅ ) (𝑦𝑗 − 𝑦̅) = ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑓𝑖𝑗 𝑥𝑖 𝑦𝑗 − 𝑥𝑦
̅̅̅
Coefficient de corrélation :
Le coefficient de corrélation linéaire entre X et Y est le rapport noté r ( x, y )
cov ( X , Y )
défini par r ( x, y ) = .
y x
Propriétés : a) −1 r ( x, y ) 1 ou encore r ( x, y ) 1
b) r ( x, y ) = r ( y, x )
y = ax + b .
Application numérique :
Équation de la droite
ˆ + bˆ , car les valeurs exactes de a et de b
On notera cette équation par y = ax
bˆ = y − ax
ˆ , c’est l’ordonnée à l’origine de la droite.