Vous êtes sur la page 1sur 38

Statistique descriptive : cas univarié

Université Hassan Premier


Faculté des sciences et techniques Settat

ccc
P. 2 / 36 Plan
1 Vocabilaires

2 Distribution des effectifs et des fréquences

3 Distribution des effectifs cumulés et des fréquences cumulées

4 Indicateurs de position d’une variable quantitative

5 Indicateurs de dispersion d’une variable quantitative

6 Indicateurs de forme d’une variable quantitative

7 Représentation graphique

8 Représentation graphique

9 Représentation graphique

10 Représentation graphique

ccc Statistique descriptive : cas univarié


P. 3 / 36 Vocabilaires

Définition
On appelle statistique descriptive l’ensemble des méthodes et techniques
mathématiques permettant de présenter, décrire et résumer un ensemble
de données.

Définition
Une population statistique est l’ensemble sur lequel on effectue des
observations. Les éléments de cette ensemble sont appelées des individus.

Définition
Un échantillon est un sous ensemble de la population. Il doit être
représentatif de la poupulation :
 Pour extendre les résultats obtenus sur l’échantillon à la population
 L’intérêt porte sur la population et non pas su l’échantillon

ccc Statistique descriptive : cas univarié


P. 4 / 36 Vocabulaires

Définition
Une variable statistique (appelée aussi caractères) est ce qui est observée
ou mesurée sur les individus.
Une variable statistique peut être
 Quantitative : ses valeurs sont des nombres exprimant une quantité,
sur lesquels on peut effectuer les opérations arithmétiques. Cette
variable peut être
I discrète : ses valeurs sont isolées
I continue : ses valeurs sont regroupées par classe (intervalle de R)
 Qualitative : ses valeurs sont des modalités (ou catégories)
exprimées sous forme latérale ou par codage numérique.
I ordinales : on peut ordonner les modalités de cette variable
I nominales : on ne peut pas ordonner ses valeurs.

ccc Statistique descriptive : cas univarié


P. 5 / 36 Exemples
Exemple 1.
Sur 20 lancers d’un dé de 6 faces, on a obtenu 8 fois le 2 ; 4 fois le 3 ; 3
fois le 4 ; 4 fois le 5 et 1 fois le 1. Donner la médiane de cette série
statistique
Exemple 2.
On a effectué une enquête auprès de 20 ménages d’un quartier. Deux
types d’informations ont été recueillies : le statut matrimonial du ménage
et l’opinion du ménage sur la qualité du voisinage. On résume les
données dans les tables de fréquence suivantes :
La qualité du voisinage
le statut matrimonial
modalités effectifs
modalités effectifs
Mauvaise 1
Marié 12
Passable 5
Célibataire 3
Moyenne 6
Veuf 3
Bonne 3
Dévorcé 2
T.bonne 5

ccc Statistique descriptive : cas univarié


P. 6 / 36 Exemples

Exemple 3.
La série statistique suivante représente les notes obtenues par 30 élèves,

Notes Nombres d’étudiants

0 à moins de 1 2
1 à moins de 2 3
2 à moins de 3 5
3 à moins de 4 6
4 à moins de 5 4
5 à moins de 6 3
6 à moins de 7 1
7 à moins de 8 3
8 à moins de 9 2
9 à moins de 10 1

ccc Statistique descriptive : cas univarié


P. 7 / 36 Distribution des Effectifs

Soit X une variable statistique prenant les valeurs (ou modalités)


x1 , . . . , xn . On commence par faire l’inventaire des valeurs rencontrées la
série x1 , . . . , xn .
Effectif de xi : Nombre de fois de xi dans la série. On suppose qu’on a k
modalités distinctes.
Variable x1 x2 ... xk
Effectifs n1 n2 ... nk
Tableau de la distribution des effectifs
Les effectifs des modalités vérifient
k
X
n= ni
i=1

est ’effectif total de la série des données.

ccc Statistique descriptive : cas univarié


P. 8 / 36 Distribution des fréquences
Soit X une variable statistique prenant les valeurs (ou modalités)
x1 , . . . , xn . On suppose qu’il y a k modalités distinctes. Soit ni l’effectif
de la modalité xi .
Soit le tableau des effectifs
Fréquence de xi : est la rapport
ni
fi =
n
elle représente la proportion d’apparition de xi dans la série.
Variable x1 x2 ... xk
fréquence f1 f2 ... fk
Tableau de la distribution des fréquences
Les fréquences des modalités vérifient
k
X
1= fi
i=1

ccc Statistique descriptive : cas univarié


P. 9 / 36 Distribution des effectifs cumulés et des
fréquences cumulées
Soit X une variable statistique prenant les Soit X une variable statistique
prenant les valeurs (ou modalités) x1 , . . . , xn . On suppose qu’il y a k modalités
distinctes. Soit ni , fi l’effectif et la fréquence de la modalité xi .
Effectif cumulées de xi : est donné par
i
X
Ni = nj
j=1

Fréquence cumulées de xi :
i
X
Fi = fj
j=1

On peut représenter ces distributions sur un tableau


Variable x1 x2 ... xk
Effectifs n1 n2 ... nk
Effectifs cumulé N1 N2 ... n
fréquence f1 f2 ... fk
fréquence cumulée F1 F2 ... 1
Tableau de des distributions
ccc Statistique descriptive : cas univarié
P. 10 / 36 Indicateurs de position d’une variable quantitative
La moyenne cas discret

La moyenne est le résumé statistique le plus utilisé pour caractériser la


position de la variable X . on la note X̄ .
Somme des valeurs observées
Moyenne =
Effectif total
Si la variable statistique X parcourt les valeurs x1 , . . . , xn . Alors la
moyenne est
n
1X
X̄ = xi
n
i=1

Si k valeurs dans la série sont distinctes et si ni , fi désignent l’effectif et


la fréquence de xi . Alors
k k
1X X
X̄ = n i xi = fi xi
n
i=1 i=1

ccc Statistique descriptive : cas univarié


P. 11 / 36 Indicateurs de position d’une variable quantitative
La moyenne, cas continu

Soit une série statistique de taille n, classée suivant la partition


[d1 , d2 [, [d2 , d3 [, . . . , [dk , dk+1 [, . . . , [dn−1 , dn [. On note respectivement
nk , fk , ck l’effectif, la fréquence et le centre de la classe [dk , dk+1 [.
La moyenne est
k k
1X X
X̄ = ni c i = fi ci
n
i=1 i=1

ccc Statistique descriptive : cas univarié


P. 12 / 36 Indicateurs de position d’une variable quantitative
La médiane

La médiane est la valeur observée ou possible de la série ordonnée en


ordre croissant ou décroissant, qui partage cette série en deux sous-séries,
chacune comprenant le même nombre d’observations.
Calcul de la médiane cas discret
Soit la série statistique des valeurs x1 , x2 , . . . , xn . On ordonne par ordre
croissant ces valeurs,
x1 ≤ x2 ≤ . . . ≤ xn
et on calcule la médiane par la formule

xn+1/2 si n est impair
Me = xn/2 +xn/2+1
2 si n est pair

NB : Si la variable est discrète et n pair, il se peut qu’il n’y ait pas de


valeur médiane car Me doit correspondre à une valeur possible de la série.
Exemple

ccc Statistique descriptive : cas univarié


P. 13 / 36 Indicateurs de position d’une variable quantitative
La médiane

Calcul de la médiane cas continu


Soit une série statistique de taille n, classée suivant la partition
[d1 , d2 [, [d2 , d3 [, . . . , [dk , dk+1 [, . . . , [dn−1 , dn [. On note respectivement
nk , Nk et ak l’effectif, l’effectif cumulé et l’amplitude de la classe
[dk , dk+1 [
 Repérer la classe la première classe contenant au moins 50% des
effectifs cumulés. Supposons que c’est [dj , dj+1 [
 Calculer la médiane par la méthode

n/2 − Nj−1
Me = dj + aj
nj

ccc Statistique descriptive : cas univarié


P. 14 / 36 Indicateurs de position d’une variable quantitative
La médiane

Approximation de la médiane Me à partir de la table des effectifs


cumulées par interpolation linéaire.

ccc Statistique descriptive : cas univarié


P. 15 / 36 Indicateurs de position d’une variable quantitative
La médiane

Limites
La médiane est plus robuste que la moyenne (pas influencée par les
valeurs extrêmes) mais elle est influencée par le nombre d’observations.
Remarque La médiane correspond à la valeur telle que la fréquence
cumulée est égale à 1/2

ccc Statistique descriptive : cas univarié


P. 16 / 36 Indicateurs de position d’une variable quantitative
les quantiles

Les quantiles correspondent à des valeurs de la variable statistique qui


partagent la série ordonnée en l parties égales. Si l = 4, les quantiles sont
appelés quartiles. Il y a 3 quartiles, appelés Q1 , Q2 et Q3 :

ccc Statistique descriptive : cas univarié


P. 17 / 36 Indicateurs de position d’une variable quantitative
les quartiles
Calcul des quartiles, cas discret Soit la série statistique x1 , x2 , . . . , xn de taille
n
 Ordonner la série statistique par ordre croissant

x1 ≤ x2 ≤ . . . ≤ xn
 faire la division euclidienne de n par 4. On calcul Q1 , Q2 Q3 selon les 4
cas :
 Cas n = 4p :
xp + xp+1 x2p + x2p+1 x3p + x3p+1
Q1 = Q2 = Me = Q3 =
2 2 2
 Cas n = 4p + 1 :
xp + xp+1 x3p+1 + x3p+2
Q1 = Q2 = Me = x2p+1 Q3 =
2 2
 Cas n = 4p + 2 :
x2p+1 + x2p+2
Q1 = xp+1 Q2 = Me = Q3 = x3p+2
2
 Cas n = 4p + 2 :
Q1 = xp+1 Q2 = Me = x2p+2 Q3 = x3p+3
ccc Statistique descriptive : cas univarié
P. 18 / 36 Indicateurs de position d’une variable quantitative
les quartiles
Calcul des quartiles, cas continu
Soit une série statistique de taille n, classée suivant la partition
[d1 , d2 [, [d2 , d3 [, . . . , [dk , dk+1 [, . . . , [dn−1 , dn [. On note respectivement
nk , Nk et ak l’effectif, l’effectif cumulé et l’amplitude de la classe
[dk , dk+1 [
Calcul Q1
 Repérer la première classe contenant au moins 25% des effectifs
cumulés. Supposons que c’est [dj , dj+1 [
 Calculer Q1
n/4 − Nj−1
Q1 = dj + aj
nj
Calcul Q3
 Repérer la première classe contenant au moins 75% des effectifs
cumulés. Supposons que c’est [dj , dj+1 [
 Calculer Q3
3n/4 − Nj−1
Q3 = dj + aj
nj
ccc Statistique descriptive : cas univarié
P. 19 / 36 Indicateurs de position d’une variable quantitative
le mode

c’est la valeur de la série statistique observée le plus grand nombre de


fois.
NB : Dans le cas d’une variable continue en classes, ce critère est peu
objectif. On parlera plutôt de classe modale : classe ayant la fréquence la
plus élevée.
Le mode n’est pas unique.

ccc Statistique descriptive : cas univarié


P. 20 / 36 Indicateurs de dispersion d’une variable quantitative

Les indicateurs de dispersions sont


 Etendue
 intervalle interquartiles
 Variance et Ecart type

ccc Statistique descriptive : cas univarié


P. 21 / 36 Indicateurs de dispersion d’une variable quantitative
Etendue, Intervalle interquartile

 Etendue =xmax − xmin


 Intervalle interquartile est IQ = Q3 − Q1

ccc Statistique descriptive : cas univarié


P. 22 / 36

Exemples

ccc Statistique descriptive : cas univarié


P. 22 / 36 Indicateurs de dispersion d’une variable quantitative
variance,Ecart type

La variance est la somme pondérée des carrés des écarts des valeurs de la
série à la moyenne. Soit la série statistique des valeurs x1 , x2 , . . . , xn . La
variance de la série est
n
1X
sx2 = (xi − x̄)2
n
i=1

L’écart type est p


sx = sx2
Pour une variable continue, on remplace, dans la formule ci dessus, xi par
ci le centre de la i ème classe.

ccc Statistique descriptive : cas univarié


P. 23 / 36 Indicateurs de dispersion d’une variable quantitative
variance,Ecart type

Lorsque la série est un échantillon issu d’une population et que l’on


s’intéresse aux caractéristiques de cette population via l’échantillon, on
utilise plutôt,
n
1 X
s̄x2 = (xi − x̄)2
n−1
i=1

appelée la variance d’échantillonnage. Qui est un meilleur estimateur de


la variance théorique de la population. Lorsque la taille n de la série est
assez grande,
s̄x2 ' sx2

ccc Statistique descriptive : cas univarié


P. 24 / 36 Indicateurs de dispersion d’une variable quantitative
Propriétés de la variance

 La variance (ou écart-type) est toujours positive ou nulle

sx2 ≥ 0 sx ≥ 0

 La variance est une forme quadratique


2
sax+b = |a|2 sx2 sax+b = |a|sx

 Theorème de Koeing
n−1 2
sx2 = s̄
n x
 Un écart-type est faible entraı̂ne Une série peu dispersée (les valeurs
de la série sont regroupées autour de la valeur moyenne)

ccc Statistique descriptive : cas univarié


P. 25 / 36 Indicateurs de dispersion d’une variable quantitative
Calcul partique de la variance

 Par définition
 A partir de la table des fréquences (des effectifs).
I Cas discret, si k valeurs sont distinctes, ni (resp fi ) désigne l’effectif
(resp la fréquence) de la valeurs xi
k k
1X X
sx2 = ni (xi − x̄)2 (resp sx2 = fi (xi − x̄)2 )
n i=1 i=1

I Cas continu, si on a k classes [di , di+1 [ de centre, d’effectif et de


fréquence resp ci , ni , fi
k k
1X X
sx2 = ni (ci − x̄)2 (resp sx2 = fi (xi − x̄)2 )
n i=1 i=1

ccc Statistique descriptive : cas univarié


P. 26 / 36 Indicateurs de dispersion d’une variable quantitative
Coefficient de variation

Le coefficient de variation (CV) est le rapport de l’écart-type à la


moyenne.
sx
CV =

 Il permet d’apprécier la représentativité de la moyenne par rapport à


l’ensemble des observations.
 Il donne une bonne idée du degré d’homogénéité d’une série.
 Plus CV est grande, plus la dispersion autour de la moyenne est
grande.

ccc Statistique descriptive : cas univarié


P. 27 / 36 Indicateurs de forme d’une variable quantitative
Symétire

Une série a une distribution symétrique si ses valeurs sont également


dispersées de part et d’autre de la valeur centrale, c’est-âton en
fréquences - admet une axe de symétrie.

Dans une distribution symétrique, la médiane = la moyenne :

Me = x̄

ccc Statistique descriptive : cas univarié


P. 28 / 36 Indicateurs de forme d’une variable quantitative
Coefficient de Pearson et coefficient de Yule

XCoefficient de Pearson XCoefficient de Yule


x̄ − Me Q3 + Q1 − 2Me
δ= q=
sx Q3 − Q1
On a −1 ≤ δ ≤ 1
 δ = 0 ⇒ symétrie parfaite  q = 0 ⇒ symétrie parfaite
 δ < 0 ⇒ série étalée à gauche  q < 0 ⇒ série étalée à gauche
 δ > 0 ⇒ série étalée à droite  q > 0 ⇒ série étalée à droite

ccc Statistique descriptive : cas univarié


P. 29 / 36 Indicateurs de forme d’une variable quantitative
Applatissement

Une distribution est plus ou moins aplatie selon que les fréquences des
valeurs voisines des valeurs centrales diffèrent peu ou beaucoup les une
par rapport aux autres.
Coefficient de Fisher :
n
1 X
a= (xi − x̄)4
sx4 n
i=1

 Si a = 3, alors la distribution est approchée par une loi normale


 Si a < 3, alors la concentration autour de la moyenne est forte, la
distribution n’est pas applatie
 Si a > 3, alors la concentration autour de la moyenne est faible, la
distribution est applatie

ccc Statistique descriptive : cas univarié


P. 30 / 36 Représentation graphique
Introduction

 L a représentation graphique est une synthèse de l’information qui


fait apparaitre la forme globale de la distribution des données.
 Le choix du type de graphe dépend de la nature des variables.
Un graphique comprend trois parties :
 Titre
 Deux axes : les modalités de la variable sur l’axe (x) et les éffectifs
(ni ) ou les fréquence (%) sur l’axe des (y)
 Echelle

ccc Statistique descriptive : cas univarié


P. 31 / 36 Représentation graphique
Cas d’une variable quantitative continue

L’histogramme consiste à représenter les effectifs (ou les fréquences) des


classes par des rectangles adjacents dont les surfaces correspondent aux
effectifs. La hauteur hj du rectangle correspondant à la classe j est
donnée par
nj
hj =
aj
où nj et aj sont l’effectif et l’amplitude de la classe j.

ccc Statistique descriptive : cas univarié


P. 31 / 36 Représentation graphique
Cas d’une variable quantitative continue

L’histogramme consiste à représenter les effectifs (ou les fréquences) des


classes par des rectangles adjacents dont les surfaces correspondent aux
effectifs. La hauteur hj du rectangle correspondant à la classe j est
donnée par
nj
hj =
aj
où nj et aj sont l’effectif et l’amplitude de la classe j. Exemple :
Distribution des effectifs et des fréquences de la taille de 36 plantes.

ccc Statistique descriptive : cas univarié


P. 32 / 36 Représentation graphique

L’histogramme des fréquence de la taille des plantes

ccc Statistique descriptive : cas univarié


P. 33 / 36 Représentation graphique
Cas d’une variable quantitative discrète

Si les variables sont quantitative discrètes, la distribution des effectifs (ou


des fréquences) est souvent représentée par un diagramme en bâton.

Exemple

ccc Statistique descriptive : cas univarié


P. 34 / 36 Représentation graphique
Cas d’une variable qualitative nominale

Une série statistique d’une variable qualitative nominale peut être


représentée par 2 types de graphique : les effectifs sont représentés par un
diagramme en barre et les fréquences par un diagramme en secteur
(camembert ou cercle)

Le principe consiste à déviser un cercle en secteurs proportionnels aux


fréquences des classes.

Exemple : Répartition de 25 sujets en fonction de la couleur des cheveux.

ccc Statistique descriptive : cas univarié


P. 35 / 36 Représentation graphique

La représentation par un diagramme en secteur

ccc Statistique descriptive : cas univarié


P. 36 / 36 Boxplot
Pays US Ja Al Fr It Esp Por RU
2004 4,3 4,4 2 2,6 1,4 2,6 1,4 3,4
2005 3,5 2,3 1,8 2,3 1,9 2,9 2,2 2,5

4.5
4.0
3.5
3.0
2.5
2.0
1.5

1 2
ccc Statistique descriptive : cas univarié

Vous aimerez peut-être aussi