Vous êtes sur la page 1sur 7

Chapitre II - Statistique descriptive à un caractère (analyse univariée)

La Statistique descriptive univariée (statistique descriptive à un caractère ou analyse


univariée) consiste en la description de chacun des caractères statistiques, un par
un, et non des liens éventuels existant entre eux.

II. 1. Représentation graphique

La représentation graphique des données relatives à un caractère unique repose sur


la proportionnalité des longueurs, ou des aires, des graphiques, aux effectifs, ou aux
fréquences, des différentes modalités du caractère.

II. 1. 1. Caractère qualitatif.

Pour un caractère qualitatif, on utilise principalement trois types de représentation


graphique : le diagramme en bâtons, la représentation par tuyaux d'orgue et la
représentation par secteurs.

II. 1. 2. Caractère quantitatif.

La variable statistique est la mesure du caractère. Celle-ci peut être discrète ou


continue. Il existe deux types de représentation graphique d'une distribution
statistique à caractère quantitatif :
Le diagramme différentiel correspond à une représentation des effectifs ou des
fréquences.
Le diagramme intégral correspond à une représentation des effectifs cumulés,
ou des fréquences cumulées.

II. 2. Paramètres caractéristiques

Le but de l'étude statistique est aussi de résumer des données par des paramètres
ou synthétiseurs.
Il existe 3 types de paramètres :

II. 2. 1. Paramètres de position

Les paramètres de position (mode, médiane, moyenne) permettent de savoir autour


de quelles valeurs se situent les valeurs d'une variable statistique.

II. 2. 1. 1. Le mode

Le mode noté Mo, est la valeur de la variable qui a l'effectif le plus élevé ou qui
présente la fréquence la plus élevée.

1
Exemple1
Situation matrimoniale Effectifs (ni)
Célibataire 4
Marié 3
Divorcé 1
veuf 2
Le mode est « célibataire »

Exemple2
Nombre de retrait ni
0 10
1 13
3 8
4 6
5 5
6 5
7 1
Le mode est « 1 »

Exemple3
Classes ni
[2-3[ 10
[3-4[ 20
[4-5[ 15
[5-6[ 18

La classe modale est la classe [3-4[. Pour certaines écoles de statistiques, le mode
est (3+4)/2=3,5. Pour d’autres n’importe quelle valeur de la classe modale est le
mode.

II. 2. 1. 2. La médiane

La médiane Me est telle que l'effectif des observations dont les modalités sont
inférieures à Me est égal à l'effectif des observations dont les modalités sont
supérieures à Me. Cette définition n'a de sens que si les modalités sont toutes
ordonnées.

Exemple1
Caractère quantitatif discret : série de notes
6 6 7 8 8 9 10 11 12 dans ce cas la médiane est 8
6 6 7 8 8 9 10 11 12 12 dans ce cas le mode est (8+9)/2=8,5

2
Exemple2
Caractère continu
CA Effectifs (ni) ni cumulé croissant
[50-55[ 1 1
[55-60[ 2 3
[60-65[ 5 8
[65-70[ 3 11
[70-75[ 5 16
[75-80[ 3 19
[80-85[ 1 20
20

Utilisons la colonne des effectifs cumulés croissants :


La lecture du tableau montre que :
8 entreprises ont un CA inférieur à 65
11 entreprises ont un CA inférieur à 70
Or nous cherchons le chiffre d’affaire de la 10e entreprise (N = 20 N/2 = 20/2=10). Le
nombre 10 étant compris entre 8 et 11, le ca médian est compris entre 65 et 70 d’où
65<Me<70
8<10<11
(Me-65)/(70-65)=(10-8)/(11-8) Me = 68,333

Les quartiles sont les valeurs Q1, Q2, Q3 de la variable qui partagent l’effectif en
quatre sous ensemble de même effectif. Chaque ensemble contient 25 % de l’effectif.

II. 2. 1. 3. La moyenne

La moyenne est un indicateur de centralité (marquant la position) des valeurs de la


1
série. La moyenne d’une série statistique est le nombre noté 𝑋 défini par 𝑋 = ∑ 𝑛𝑖𝑥𝑖
𝑁
Exemple1
L'étude de 21 familles a conduit à la distribution suivante suivante le nombre
d'enfants dans la famille
Nombre d'enfants (xi) 0 1 2 3 4 5
Nombre de familles (ni) 5 3 6 1 3 3
1
Le nombre moyen d'enfants par famille est 𝑋 = ∑ 𝑛𝑖𝑥𝑖
𝑁
1
𝑋= (0 × 5 + 1 × 3 + 2 × 6 + 3 × 1 + 4 ×3 + 5 × 3)
21

15
𝑋=
7

Naturellement, cette moyenne ne représente pas une "famille moyenne" mais donne
une estimation du nombre d'enfants dans une famille dont est extrait l'échantillon :
nous pourrons dire que, dans cette population, il faudra, en moyenne, 7 familles pour
avoir 15 enfants, ou que 100 familles auront, en moyenne, 214 enfants (15/7 égal à
2,14).

3
Exemple2
Salaire horaire Centres des Effectifs xini Fréquences xifi
classes (xi) (ni) (fi)
[8-8,4[ 8,2 10 82 0,04 0,328
[8,4-8,8[ 8,6 30 258 0,12 1,032
[8,8-9,0[ 8,9 60 534 0,24 2,136
[9,0-9,2[ 9,1 72 655,2 0,288 2,6208
[9,2-9,6[ 9,4 40 376 0,16 1,504
[9,6-10,2[ 9,9 24 237,6 0,096 0,9504
[10,2-10,9[ 10,55 14 147,7 0,056 0,5908
250 2290,5 1,000 9,162
ni
La fréquence fi est 𝑓𝑖 =
N
∑xini
Le salaire horaire moyen est m =
∑ni
2290,5
m= m = 9,162
250
ou m = ∑𝑥𝑖𝑓𝑖 m = 9,162

II. 2. 2. Paramètres de dispersion

Les paramètres de dispersion (étendue, intervalle interquartile,) sont calculés pour


les variables statistiques quantitatives. Ils ne donnent pas une information complète
sur une variable statistique X : en effet, deux variables qui ont la même moyenne
peuvent se présenter avec des dispersions très différentes. L'histogramme, ou le
diagramme, des fréquences donnent déjà une idée qualitative de la dispersion.

II. 2. 2. 1. Etendue

Soit X une variable statistique réelle discrète.


L'étendue ω de X est la différence entre la plus grande valeur de X et la plus petite
valeur de X.

ω = xmax - xmin

II.2.2.2. Quartiles et déciles.

a) Variable statistique continue.

Pour une variable statistique quantitative réelle continue X, on appelle quartiles les
nombres réels Q1, Q2, Q3, pour lesquels les fréquences cumulées de X sont
respectivement 0,25, 0,50, 0,75. Ce sont les valeurs pour lesquelles l'ordonnée de la
courbe cumulative des fréquences est respectivement égale à 0,25, 0,50, 0,75. Les
quartiles partagent l'étendue en quatre intervalles qui ont le même effectif. Le
deuxième quartile, Q2, est égal à la médiane. L'intervalle interquartile est la
différence entre les valeurs des troisième et premier quartiles : Q3– Q1. L'intervalle
[Q1, Q3] contient 50 % des valeurs de X.

4
c) Déciles et percentiles.

Les 9 déciles sont les nombres réels qui partagent l'étendue en dix intervalles de
même effectif.

Utilisation : en matière de salaires, le rapport D9/D1est un paramètre de dispersion


fréquemment utilisé. Les 99 percentiles sont les nombres réels qui partagent
l'étendue en cent intervalles de même effectif.

II.2.2.3. Ecart absolu moyen

a) Définition

On appelle écart absolu moyen de X la moyenne arithmétique des valeurs absolues


1
des écarts de X à sa moyenne : 𝑒 = ∑ 𝑛𝑖 |𝑥𝑖 − 𝑋̅ |
𝑁

II.2.2.4. Variance et écart-type

a) Définition.

On appelle variance de X, la moyenne arithmétique des carrés des écarts de X à sa


1
moyenne : 𝑉(𝑋) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑋̅ )2
𝑁

On appelle écart-type de X la racine carrée s (X) de la variance de X, 𝑆(𝑋) = √𝑉(𝑋)

II.2.2.5. Coefficient de variation

Pour une variable statistique réelle X, on appelle coefficient de variation le rapport


𝑆(𝑋)
𝑐=
𝑋̅

II. 2. 3. Paramètres de forme

Il s’agit des coefficients d'asymétrie et des coefficients d'aplatissement.

5
Exercice

Voici le nombre de minutes de connexion Internet d’un échantillon d’abonnés d’une


compagnie spécialisée dans ce type de service :

Nombre de minutes de connexion Nombre d’abonnés


[0, 60[ 8
[60, 90[ 20
[90, 120[ 0
[120, 150[ 60
[150, 180[ 100
[180, 210[ 12

a) Quel est le caractère étudié ?


b) Préciser le type de ce caractère.
c) Construire la table des fréquences relatives cumulées.
d) Tracer l’histogramme de cette distribution.
e) Tracer la courbe des fréquences relatives cumulées.
f) Évaluer :
 le mode
 la médiane
 la moyenne
 l’écart type
 le 29e centile
 le 6e décile
g) À quel centile correspond une durée de147 minutes ?
h) Entre quels quartiles se situe un nombre de minutes de 130 ?

Corrigé

(a) X : le nombre de minutes de connexion d’un abonné


(b) Caractère quantitatif, continu
(c) Table des fréquences relatives cumulées

classes ni fi Largeur Centre Hauteur Fréquence


des des de l’histo relative
classes classes cumulée
[0, 60[ 8 8/200= 60 30 0,04/2= 0,04
0,04 0,02 240
[60, 90[ 20 0,1 30 75 0,1 0,14 1500
[90, 120[ 0 0 30 105 0 0,14 0
[120, 60 0,3 30 135 0,3 0,44
150[ 8100

6
[150, 100 0,5 30 165 0,5 0,94
180[ 16500
[180, 12 0,06 30 195 0,06 1
210[ 2340
200 1 28680
143,4

(d) L’histogramme de cette distribution à construire


(e) La courbe des fréquences relatives cumulées.
(f)- classe modale : [150,180[
0,5  0,44
- Médiane = Me  150   (150  120)  153,6 minutes
0,5
- Moyenne =   30  0,04  .....  195  0,06  143,4 minutes

ou   
xi ni 28680
  143,4 minutes
n i 200
- Ecart type Ø = 37,37 minutes
0,29  0,14
- Le 29e centile C29  120   (120  150)  135 minutes
0,3
- Le 60e décile C60 = 159,6 minutes
27
(g) On sait que 147=120+27= 120  * 30 et (27/30) de la classe [120,150)
30
représente (27/30)*0,3=27% qu’on doit ajouter à 14% (correspondant à l’intervalle
[0, 150) de minutes de connexion). Donc 147 minutes correspondent à C41

(h) On sait que Q1 =x0.25=120+(22/60)*30=131, un nombre de minutes de 130 se


situe avant Q1