Vous êtes sur la page 1sur 13

Partie 1 : Statistiques descriptives (suite)

Ecole Mohammedia D’ingénieurs


Année 2017-2018

Zoubida CHORFI :
zd.chorfi@gmail.com
zoubidachorfi@research.emi.ac.ma
1ère partie (suite) :
Description des données

1- Les caractéristiques de localisation ou de la tendance centrale

2- Les caractéristiques de dispersion

3- Les caractéristiques de forme


1. Les caractéristiques de tendance centrale ou de localisation:
1-1. Moyenne arithmétique
• Cas 1 : n données non réparties en classes :
𝑛
1
x = 𝑥𝑖
𝑛
𝑖=1
• Cas 2 : n données réparties en k classes, la classe i étant d’effectif 𝑛𝑖 et de fréquence 𝑓𝑖 :
𝑘 𝑘
1
x = 𝑛𝑖 𝑥𝑖 = 𝑓𝑖 𝑥𝑖
𝑛
𝑖=1 𝑖=1
Changement d’origine et changement d’échelle :

On pose pour toutes les données 𝑦𝑖 = 𝑎 𝑥𝑖 + 𝑏 (a et b étant des constantes)


on obtient : y=ax+𝑏
1-2. Moyenne pondérée
𝑛
𝑖=1 𝑤𝑖 𝑥𝑖
𝑢𝑤 = 𝑛 𝑎𝑣𝑒𝑐 𝑤𝑖 𝑙𝑒 𝑝𝑜𝑖𝑑𝑠 𝑑𝑒 𝑥𝑖
𝑖=1 𝑤𝑖
1-3. Mode
- Un mode est une valeur du caractère ayant le plus grand effectif.
- Une classe modale est une classe du caractère ayant le plus grand effectif.
Exemple :
• Soit la série {8,4,4,3,4,3,8,2,5} , La valeur la plus fréquente de cette série est 4, Le
mode est donc égal à 4. L'effectif associé à ce mode est 3
• Soit le relevé des tailles des élèves d'une classe de seconde :

La seule classe modale est [165,170[, classe correspondant au plus grand effectif 7.
• On peut avoir deux modes ou plus et on peut ne pas avoir de mode (chaque
valeur se répète une seule fois ou toutes les classes ont le même effectif)
1-4. Médiane

• La médiane est la valeur de la variable qui partage la population, dont les unités
statistiques ont préalablement été classées par ordre croissant des valeurs (de la variable
considérée), en deux sous populations égales.
 Méthode de calcul : (série discontinue)
• Toujours se ramener à une série : Si les données se présentent sous forme d'une
distribution, convertir la distribution en série.
• Classer la série : Une fois la série constituée, l'ordonner en classant les chiffres par ordre
croissant. On désignera par k le rang d’une valeur dans la série (voir tableau ci-après).
• Déterminer si la série comprend un nombre pair ou impair d’unités statistiques : Soit n
le nombre d’unités statistiques. Deux cas peuvent alors se présenter : celui ou n est pair et
celui ou n est impair.
𝑛+1
Si n est impair : le rang de la médiane est
2
𝑛 𝑛
Si n est pair: la médiane se situe entre les deux observations de rang et +1.
2 2
On prend généralement la valeur moyenne des deux observations comme valeur médiane.
Exemple:
Cas 1 : n pair
si l'on prend la série S1 = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}.
On a donc le tableau suivant (où les valeurs sont classées par ordre croissant):

a(k) +a (k+1)
Me = =3
2
Cas 2: n impair
si l'on prend la série précédente mais que l’on enlève le 20ème élément
On a donc le tableau suivant (où les valeurs sont classées par ordre croissant):

Me = a (k+1)= 3
1-5. Classe médiane et médiane d’une série continue
• On définit la classe médiane comme la première classe dont la fréquence cumulée égale
ou dépasse 0.5 (ou 50%).
Exemple :

Question : Déterminez la médiane ?

Utilisons la colonne des effectifs cumulés pour déterminer la médiane : il y a 50 notes, 50


% de l'effectif total c'est 25, la médiane est ici la note correspondant à l'effectif cumulé
25. D'après la colonne "effectif cumulé" : 18 personnes ont moins de 8, 30 personnes ont
moins de 12 .La classe médiane est l'intervalle [8;12[. La médiane se trouve donc dans
l'intervalle [8;12[. On va la déterminer par interpolation linéaire.
Les points A, M, B sont alignés ce qui se traduit par les droites (AM) et (AB) ont
même coefficient directeur.

La médiane (Me) est environ 10,33


50 % environ des personnes ont eu moins de 10,33 et 50 % plus de 10,33
2. Les caractéristiques de dispersion:
2-1. L’étendue
L’étendue d’une série est simplement une façon de résumer le minimum et le
maximum de la série en un seul chiffre. On l’obtient ainsi :
Etendue d’une série = valeur maximale – Valeur minimale

fréq. fréq.
(a) (b)

0 1 7 0 1 7

Même étendue mais données plus dispersées en b

NB: L’étendue est une mesure de la dispersion peu satisfaisante (dépend des valeurs extrêmes, souvent peu
fiables)
2-2. Quantiles :
• Les quantiles sont des caractéristiques de position partageant la série statistique ordonnée en k
parties égales.
Pour k = 4, les quantiles, appelés quartiles, sont trois nombres Q1, Q2, Q3 tels que :
Au moins 25 % des valeurs prises par la série sont inférieures ou égales à Q1,
Au moins 75% des valeurs prises par la série sont inférieurs ou égales à Q3,
Q2 est la médiane Me,
Q3− Q1 est l’intervalle interquartile, il contient 50 % des valeurs de la série.
Pour k = 10, les quantiles sont appelés déciles, il y a neuf déciles D1, D2...10 % des valeurs de la
série sont inférieures à D1...
Pour k = 100, les quantiles sont appelés centiles, il y a 99 centiles, chacun correspondant à 1 % de
la population.
Exemples : soit la série classée par ordre croissant suivante S={1,2,3,7,8,9}
- N=6 et N/4=1,5 donc le 1er quartile est la 2ème valeur (Au moins 25% des valeurs sont inférieurs ou
égales à 2)  Q1 =2
- N=6 et 3N/4=4,5 ; les trois premiers groupes réunis doivent contenir 5 valeurs ( au moins 75% des
valeurs sont inférieurs ou égales à 8) Q3 =8
- N=6 (pair), la médiane est la moyenne de la 3ème et la 4ème valeur soit Médiane=5
2-3. La variance et l’écart type:
Soit (x1 , …... xn ) un échantillon, et sa moyenne empirique, On appelle Variance
corrigée ou variance observée de l’échantillon, la quantité notée S2 définie par:

𝑛
1
S2 = (𝑥𝑖 −𝑥 ) 2
𝑛−1
𝑖=1
C’est un estimateur sans biais de la variance. On appelle écart-type de l’échantillon la
racine carrée de la variance. L'avantage de l'écart-type sur la variance est qu'il s'exprime,
comme la moyenne, dans la même unité que les données.
Cas 2 : n données réparties en k classes, la classe i étant d’effectif absolu ni . Dans ces
conditions, on obtient : 𝑘
1
S2 = 𝑛𝑖 (𝑥𝑖 − 𝑥 ) 2
𝑛−1
𝑖=1

• On appelle écart-type de l'échantillon la racine carrée de la variance σ= S2


2.4- Coefficient de variation
On utilise aussi le coefficient de variation, qui est le rapport de l'écart-type sur la moyenne.
σ𝑥
Cv =
𝑥
3. Les caractéristiques de forme:
3.1-Distribution symétrique
Une distribution est symétrique si les valeurs de la variable statistique sont également
distribuées de part et d’autre d’une valeur centrale. Pour une distribution symétrique :
mode = médiane = moyenne arithmétique
3.2 Coefficient d’asymétrie ou de dissymétrie ou skewness

3.3 Coefficient d’aplatissement ou kurtosis