Académique Documents
Professionnel Documents
Culture Documents
Statistique Descriptive Univariée 1
Statistique Descriptive Univariée 1
TANGER
STATISTIQUE DESCRIPTIVE
Contenu.
1. Statistique descriptive.
2
Partie 1 : STATISTIQUE DESCRIPTIVE A UNE DIMENSION
La Statistique :
La Statistique descriptive :
L’ensemble des données (ou informations) que l’on possède sur un sujet. Elle a pour objet de
proposer une description simple, clairement présentée et aussi complète que possible de ces
données.
Exemple : âge, poids, taux du cholestérol, durée de vie d’une bactérie, etc.
3
- Pendant combien de temps doit-on effectuer la collecte ?
- Combien de données doit-on collecter ?
- Comment est-ce que les données seront collectées ?
4
Un caractère est appelé aussi variable statistique. Les différentes situations possibles prises
par un caractère sont appelées modalités, notées xi , yi ,... (lettres minuscules). Leur ensemble
est noté Μ.
Définition : un caractère est dit quantitatif si ses modalités sont mesurables, sinon le
caractère est dit qualitatif.
Exemples :
- Caractère quantitative : diamètre d’un axe, température, poids, taille, etc.
- Caractère qualitatif : couleur d’un certain type de fleur, favorable ou défavorable, la
pièce conforme ou non conforme, types de défauts, etc.
Définition. Un caractère quantitatif est dit discret si elle ne peut prendre qu’un nombre limité
de valeurs (souvent des valeurs entières). Lorsque le caractère peut prendre toutes les valeurs
d’un intervalle, il est alors dit continu.
5
b) Détermination de l’amplitude de chaque classe.
Définition : l’écart entre la plus grande et la plus petite modalité d’un caractère est appelé
étendue, noté E.
E
L’amplitude de la classe est égale à .
k
Remarque.
- Comme la valeur de E sera rarement un nombre entier, on arrondit au plus grand ou au
plus petit entier. Le choix définitif de l’amplitude de chaque classe s’effectuera dans le
but de faciliter la présentation et la compréhension de la distribution des fréquences.
- Une amplitude trop grande aura comme effet de donner un petit nombre de classes et
une amplitude trop petite donnera un nombre de classes trop élevé.
c) Effectif-Fréquence.
Définition. - Le nombre d’individus présentant une modalité x i donnée, est appelé effectif ou
- Dans le cas d’un caractère continu, on parle de l’effectif d’une classe ou de son centre.
- Le nombre d’individus pour lesquels le caractère X prend une valeur inférieure ou égale
à α est appelé effectif cumulé jusqu’à l’ordre α. On le note N ( ) .*
N ( ) n
i: xi
i .
6
Dans le cas des classes, F et N ne sont connues que pour les extrémités des classes.
a) Tableaux statistiques.
1. - Cas discret.
x1 n1 f1
x2 n2 f2
xp np fp
N 1
2. - Cas continu.
Classe effectif fréquence Ni Fi
e1 , e2 n1 f1
e2 , e3 n2 f2
ek 1 , ek np fp
N 1
7
b) Représentations graphiques.
Les représentations graphiques ont l’avantage de renseigner immédiatement sur l’allure
générale de la distribution. Elles facilitent l’interprétation des données recueillies.
1. Diagramme en bâtons.
Lorsque le caractère est discret, la représentation graphique de la distribution de fréquences
absolues (ou relatives) s’effectue à l’aide d’un diagramme en bâtons où la hauteur des bâtons
correspond à l’effectif ni (ou la fréquence relative f i de chaque modalité x i ).
Exemple. Une entreprise vérifie régulièrement si l’assemblage d’un appareil complexe a été
effectué correctement. Le responsable du contrôle a effectué une compilation du nombre
d’erreurs d’assemblage pour chaque appareil contrôlé. On a le tableau suivant.
8
Si l’amplitude d’une classe de fréquence f i est m fois plus grande (ou plus petite) que
fi
l’amplitude de base, son rectangle aura pour hauteur ( ou m f i ).
m
iii) La surface de chaque rectangle est : = amplitude de la classe x fréquence corres-
pondante. La surface de l’histogramme est égale à 1.
Polygone de fréquence.
Il est obtenu en joignant les milieux des sommets de chaque rectangle de l’histogramme par des
segments de droites. La seule utilité est de présenter l’allure générale de la distribution de
fréquences de la variable étudiée.
Exemple 1: Dans un centre avicole, on mesure le poids d’un échantillon de 36 œufs. Les
mesures sont données dans le tableau suivant :
Nombre de classes: k = 7.
Classe ni fi Ni
[50-52[ 3 0.0833 3
[52-54[ 11 0.3055 14
[54-56[ 13 0.3611 27
[56-58[ 5 0.1388 32
[58-60[ 2 0.0555 34
[60-62[ 1 0.0277 35
[62-64[ 1 0.0277 36
9
N 4 32 : 32 œufs ayant le poids inférieur strict à 53.
On représente l’histogramme des fréquences de cette série statistique :
5,10 10 0.1
10,15 30 0.3
Total 100 1
10
Classes Effectif réel Effectif
des rectifié
salaires
(en DH)
7.5, 10 20 40
10,15 60 60
15, 20 80 80
20, 25 40 40
Total 200
Polygone cumulé.
C’est la ligne composée de segments dont les extrémités ont pour abscisse les sommets des
rectangles et pour ordonnées les effectifs cumulés (ou les fréquences relatives cumulées)
correspondant à ces sommets de classes.
a) Indicateurs de positions.
- Moyenne.
Définition. - Soit un échantillon de n valeurs observées x1 , x2 ,...., xn d’un caractère quantitatif
n
x i
X. On définit sa moyenne X par : X i 1
.
n
- La moyenne du caractère X de distribution xi , ni ou xi , f i est définie par :
k
n x i i k
X i 1
, avec n ni
n i 1 .
k
f i xi .
i 1
11
La moyenne de l’échantillon est simplement la moyenne arithmétique des observations. Elle
fournit une estimation de la tendance centrale de la variable statistique, c’est-à-dire une valeur
autour de laquelle se trouvent les valeurs du caractère étudié pour l’ensemble de la population.
- Médiane.
Définition. La médiane, notée Me, est la valeur du caractère pour laquelle la fréquence cumulée
est égale à 0.5. Elle correspond au centre de la série statistique classée par ordre croissant ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures.
Donc Me est telle que : F ( Me) 0.5.
Détermination de la médiane.
i- Données non groupées :
X ( m 1) , si n 2m 1
M e X ( m ) X ( m 1)
, si n 2m
2
avec X (1) X ( 2) .... X ( m) X ( m1) .... X ( n) les valeurs ordonnées de manière croissante
de x1 , x2 ,...., xn .
- Quartiles.
Définition. On appelle quartiles, les trois modalités du caractère, notés Q1 , Q2 et Q3 , qui
partagent la série en quatre parties égales. On a:
F (Q1 ) 0,25 , F (Q2 ) 0,5 , F (Q3 ) 0,75 .
12
- Q2 Me .
- Q1 ,Q3 est appelé intervalle interquartile : il contient 50% d’observations.
Remarque. Le calcul se fait comme pour la médiane.
0,46 0,43 0,47 0,63 1,67 1,75 2,18 2,55 2,62 2,80 3,56 3,61 3,71 3,76
3,95 4,19 4,80 5,03 5,55 5,69 5,79 5,94 5,99 6,63 7,99 8,87 9,71 10,14
13
Diagramme en boîte de la teneur en benzène du CO2
Règle pratique pour détecter une valeur aberrante : Une valeur aberrante est une donnée
qui s’écarte de façon marquée de l’ensemble des données. On peut déclarer une valeur donnée
aberrante si elle est supérieure à b Q3 1,5(Q3 Q1 ) ou si elle est inférieure à
a Q1 1,5(Q3 Q1 ) .
- Mode
Le mode, noté Mo, est la valeur du caractère X la plus fréquente ou dominante de l’échantillon.
Le mode correspond à la classe de fréquence maximale. On peut considérer le mode comme la
valeur milieu de la classe modale (de fréquence maximale).
Remarque.
Une distribution de fréquences peut présenter un seul mode (distribution unimodale) ou
deux modes (distribution bimodale) ou plusieurs modes.
Si la distribution des valeurs est symétrique, la valeur du mode est proche de la moyenne
Mo X
14
6) Graphique circulaire
Dans le graphique circulaire, l’angle (en degré) i au centre du secteur est proportionnel aux
effectifs ni ou aux fréquences f i . Il est donné par : i 360 f i (cas du cercle complet) ou
Exercice 1.
1) Tracer le graphique circulaire.
2) Tracer le diagramme à barres (tuyaux d’orgue).
15