Académique Documents
Professionnel Documents
Culture Documents
de Kenitra
Statistique descriptive
I. Introduction à la statistique
Exemple
On parle des statistiques du chômage pour désigner l’évolution du taux de
chômage sur une période de temps
Dans cette optique, il n’est pas fait appel à des modèles probabilistes.
Exemple :
Sur un ensemble de 150 élèves, on note les notes des individus. Un bon
résumé des 150 valeurs est obtenu en calculant la moyenne et l’écart type de
cette distribution. On peut aussi donner une représentation graphique qui peut
résumer les 150 résultats.
Exemple
1. Une école comporte 500 élèves. On mesure la taille de 20 d’entre eux.
L’objectif est de répondre à la problématique suivante: Comment, à partir
d’informations (moyenne/écart type) calculées sur l’ensemble des 20 élèves
(une partie de la population), retrouver ou plutôt estimer celles de l’ensemble
de la population des 500 élèves ?
Exemples
• La population des élèves inscrit au baccalauréat au titre de l’année 2012-
2013
• La population des S.A sises à la ville de Rabat
• La population des ordinateurs disponibles à la CRMEF
• La population des moutons à sacrifier le jour de l’aïd
• La population marocaine
II.3. Echantillon : Une partie (sous ensemble) de la population sur lequel sont
Remarque : la méthode des sondages est utilisée pour essayer d’en déduire
des informations sur la totalité de la population. Cette méthode comprend deux
parties, l’échantillonnage et l’estimation.
II.6. Modalités : Les modalités d’un caractère sont les différentes valeurs ou
Exemples
Les modalités que peut présenter un caractère doivent vérifier deux principes :
Le caractère est dit qualitatif si les modalités d’un caractère ne sont pas
mesurables mais s’expriment par des expressions littérales.
VARIABLES
Quantitative
Qualitatives
- Elles doivent être ordonnées et classer par ordre croissant ou décroissant dans
des tableaux statistiques.
- Transformer les effectifs 𝑛𝑖 en fréquence 𝑓𝑖 .
- Donner des visualisations graphiques, qui donnent un résumé plus clair et
facilite l’interprétation des données
élémentaire xi, la somme des fréquences de toutes les valeurs qui lui sont
égales ou inférieures) ou descendantes f i , 𝑓𝑖− ou ou 𝑓𝑖𝑐𝑑 = ∑𝑛𝑘=𝑖 𝑓𝑘 (pour
ni
pi = f i 100 = 100 .
N
Remarques :
k
- n
i =1
i = N et 0 ni N , ou k est le nombre des valeurs différentes.
k k
-
i =1
f i = 1 et p
i =1
i = 100 .
0 38
1 15
2 11
3 6
4 3
5 2
Total 75
Effectifs cumulés.
Par la lecture du tableau ; répondre aux des questions suivantes :
• Quel est le nombre d’individus pour lesquels la variable X prend au moins xi ?
• Quel est le nombre d’individus pour lesquels la variable X prend au plus xj ?
0 38 38 75
1 15 53 37
2 11 64 22
3 6 70 11
4 3 73 5
5 2 75 2
Total 75
Tableau -1-
Remarque :
De la même manière on peut définir
Fréqu
Valeurs de
Histogramme des fréquences : Dans ce cas, on utilise une représentation
proportionnelle aux surfaces. Cette représentation est principalement adoptée
aux distributions en classes. Les valeurs des différentes classes sont disposées
en abscisse et on représente les fréquences par des rectangles ayant pour
base la classe et une surface dont l’aire est proportionnelle à la fréquence
correspondante. On peut également utiliser cette représentation avec les
fréquences cumulées.
450
400
350
Effectif ou fréquence
300
250
200
150
100
50
0
1 2 3 4 5 6 7 8 9
Valeur de la variable xi
7%
33% 13%
20%
27%
35
30
25
20
15
10
5
0 161 163 165 167 169 171 173 175 177 179
X 0 1 2 3 4 5 6 7
𝑛𝑖 82 55 30 16 9 5 2 1
𝑓𝑖 0.410 0.275 0.150 0.080 0.045 0.025 0.010 0.005
Ci 161 163 165 167 169 171 173 175 177 179
ni 2 8 10 22 28 32 18 11 7 2
fi 0.0143 0.0571 0.1140 0.1571 0.2000 0.2286 0.1286 0.0786 0.0500 0.0143
En résume :
Dans le cas d’une variable continue, théoriquement les valeurs recueillies sont
infinies et très proches l’une de l’autre. Alors, pour simplifier l’étude on construit
des classes (intervalles) en divisant l’étendue de la série statistique en
plusieurs intervalles.
• L’étendue d’une série statistique est la différence entre la plus grande et la
plus petite valeur dans la série.
• Les classes sont des intervalles de la forme [ai , ai+ 1[, tel que
k −1
[a , a
i =1
i i +1 [ = [a 0 , a k ] ; ou a0 et ak sont respectivement la plus petite et la plus
∑ 80
Tableau -2-
i =n
ni
On peut écrire x = m = fi xi , fi =
i =1 N
Lorsque la variable est continue, les modalités sont regroupées en classes,
chacune représentée par un centre noté ci la moyenne est alors donnée par
i =n
1
x=
N
n c
i =1
i i
Remarques :
i= p
1
- Si n1 = n2 = n3 = .... = n p , on aura tout simplement : x=m=
N
x
i =1
i
G ( X ) = n x1n1.x2n 2 ...........xknk
1
log G = n1 log( x1 ) + n2 log( x2 ) + .... + nk log( xk )
n
Ce type de moyenne est surtout utilisé pour calculer des pourcentages moyens.
1 8 266
- Pour l’exemple de [ Tableau -2-], on a x =
80 i =1
ni x i = = 3.325 = x .
80 − −− − −− − −− − −
Les classes Les centres de classes xi Les effectifs ni ni xi
[2.2 , 2.5[ 2.35 2 4.7
[2.5 , 2.8[ 2.65 5 13.25
[2.8 ,3.1[ 2.95 20 59
[3.1 , 3.4[ 3.25 19 61.75
[3.4 , 3.7[ 3.55 20 71
[3.7 , 4.0[ 3.85 8 30.8
[4.0 , 4.3[ 4.15 4 16.6
[4.3 , 4.6[ 4.45 2 8.9
Total 80 266
Propriétés de la moyenne
- La moyenne ne change pas si on remplace un nombre déterminé de valeurs
par leur moyenne multipliée par la somme de leurs effectifs.
- La moyenne conserve les changements de l’axe et l’origine
X ( xi , ni ) → Y ( y i = axi + b, ni )
x y = ax + b
𝑏
Formule pour obtenir le mode 𝑀𝑜 = 𝑎 + 𝑐 𝑏+𝑑
x p +1 + x p
- Si N est impaire i. e. N = 2p, alors la médiane est donnée par Me = .
2
Exemples :
• Soient les résultats obtenus par un étudiant dans le module de statistiques
10 9 12 10 13 14 18 13 15
La série ordonnée est : 9 10 10 12 13 13 14 15 15
4 valeurs 4 valeurs
n j et n(i+1) = n
j =1 j =1
tgb = = , où nic =
ai +1 − ai Me − ai
j
j =1 j =1
N i −1
− nj
2 j =1
Donc Me = ai + i i −1
(ai +1 − ai ).
n − n
j =1
j
j =1
j
Exemple :
Reprenons l’exemple [Tableau -2-], comme N/2 = 80/2 = 40, on en déduit d’après le
[tableau -2-] que Me 3.1, 3.4 , donc on utilisant l’interpolation linéaire on obtient
46 − 27 40 − 27 46 − 27
tg = = Me = 3.1 + (3.4 − 3.1) = 3.3053kg = Me
3.4 − 3.1 Me − 3.1 3.4 − 3.1 −−−−−−−−−−−−−−−−−
Les quartiles
Les quartiles sont les valeurs qui partagent la série statistique ordonnée en 4
parties de même effectifs et Leur détermination peut s’obtenir comme suit
• Le premier quartile est le nombre Q1 tel que 25% des valeurs sont
inférieur ou égale à Q1, correspondant à une fréquence cumulée
𝑁
égale à 4 .
• Le troisième quartile est le nombre Q3 tel que 75% des valeurs sont
inférieur ou égale à Q3, correspondant à une fréquence cumulée
3𝑁
égale à 4
Remarques :
Ecart interquartile.
L’écart interquartile est le nombre IQR tel que IQR = Q3 – Q1. Il donne
l’étendue de la moitié centrale des observations.
Exemples :
1) Soient les résultats obtenus par un étudiant dans le module de statistiques
10 9 12 10 13 14 18 13 15
La série ordonnée est : 9 10 10 12 13 13 14 15 15
4 valeurs 4 valeurs
27 − 7 20 − 7 27 − 7
tgb = = Q1 = 2.8 + (3.1 − 2.8) = 2.995kg = Q1 .
3.1 − 2.8 Q1 − 2.8 3.1 − 2.8 −−−−−−−−−−−−−−−−−
n | x − x |
i i
em := i =1
n
L'écart médian absolu, noté eM est la moyenne des valeurs absolues des
différences entre les observations et la médiane Me:
n | x − Me |
i i
eM := i =1
n
d . Variance et Ecart type :
Ces écarts peuvent être positifs ou négatifs. La somme de ces écarts est :
n = i =1 ni ( xi − x) = i =1 ni xi − i =1 ni x = n x − n x = 0
i=n i=n i=n i=n
i =1 i i
1 i=n
i =1 ni xi et
i=n
En effet x= i =1
x = nx
N
Ce qu’on veut établir, c’est l’écart quadratique moyen : x
i =n
n i i2
x = i =1
N
i =n
ni i2
La variance est le carré de l’écart type : x2 = ( i =1
)2
N
On utilise très souvent une méthode plus pratique pour calculer la variance x2
i =n i =n
1 1
n (x n (x
2
x2 = i i − x) 2 = i
2
i − 2 xi x + x )
N i =1 N i =1
i =n i =n
1 1
n x n x
2 2 2 2
x2 = i
2
i − 2x + x = i
2
i −x = x2
− x
N i =1 N i =1 moyenne.des.carrés carré.de.la. moyenne
i =n
= f i .xi2 − x
2 2
Dans le cas des données organisées en fréquences 𝑓𝑖 : x
i =1
1 i =n i =n
= ni .ci − c = c = f i .ci2 − c
2 2 2 2 2
c (𝑐𝑖 = centres des classes).
N i=1 i =1
Proposition
Soit X une variable statistique et a; b deux réels. On pose 𝑌 = 𝑎𝑋 + 𝑏.
(i.e. les modalités de Y sont donnés par ax1 + b; : : : ; axk + b avec des effectifs
correspondants n1; : : : ; nk.)
i =n
ni
N .x
2
1. V ( X ) = = − x (Formule de Koenig)
2 2
x i
i =1
2. V (Y ) = a V ( X )
2
3. (Y ) =| a | ( X )
Exemple
Reprenons l’exemple [ Tableau -1-], on a
xi ni ni xi2
0 38 0
1 15 15
2 11 44
3 6 54
4 3 48
5 2 50
Total 75 211
Propriétés de la variance.
1) La variance est toujours positive ou nulle.
2) Changement d’échelle et d’origine
X ( xi , ni ) → Y ( y i = axi + b, ni )
V X VY = a 2V X
Coefficient de variation.
95 %
99 %
Les moments
1 k
m0 = 1 , m1 = x et m2 =
n i =1
ni xi2
0 = 1 , 1 = 0 et 2 = 2
1 k
2
Comme 2 = ni xi2 − x . Nous avons 2 = m2 − m12
n i =1
Le coefficient d’asymétrie
On mesure l’aplatissement d’une distribution par rapport à une distribution
théorique normale ( distribution de Gauss-Laplace).
Là encore, il existe plusieurs coefficients pour mesurer l’aplatissement d’une
distribution. On retient le coefficient de Fisher notée 𝐹2
4
F2 = −3
22