Vous êtes sur la page 1sur 15

UNIVERSITE ABDELMALEK ESSAADI

FACULTE DES SCIENCES ET TECHNIQUES

TANGER

STATISTIQUE DESCRIPTIVE

Prof. Abdelouahid IMLAHI

Parcours « Biologie, Chimie, Géologie (BCG) – S3 »

Année universitaire 2022-2023


1
Objectifs.

- Maîtriser l’essentiel des méthodes de la statistique descriptive en mettant à con-


tribution des outils de bases pour illustrer des applications à la vie courante.
- S’initier aux logiciels statistiques.

Contenu.

1. Statistique descriptive.

1ère partie : - Distribution à une dimension: concepts de bases, tableau de


fréquences et représentations graphiques, caractéristiques de tendance
centrale, de dispersion ; de forme et de concentration. Applications.

2ème partie : - Distributions à deux dimensions : tableaux de contingence,


corrélation, ajustement linéaire simple, méthodes de moindres carrées.
Applications.

2. Initiations aux logiciels statistiques.

2
Partie 1 : STATISTIQUE DESCRIPTIVE A UNE DIMENSION

La Statistique :

La science du traitement de l’information et de la prise de décision. Elle englobe un ensemble


de méthodes et théories appliquées à l’analyse des données associées à un phénomène /
événement dont le comportement ou l’évolution sont soumis aux « lois du hasard ». Ces
évènements ne peuvent donc être décrits (ou prédits) avec certitude. Le but ultime de
l’utilisation de ces méthodes est d’arriver à des conclusions pratiques pour éventuellement
proposer des recommandations et des mesures correctives s’il y a lieu.

La Statistique descriptive :
L’ensemble des données (ou informations) que l’on possède sur un sujet. Elle a pour objet de
proposer une description simple, clairement présentée et aussi complète que possible de ces
données.

1. Vocabulaire de la statistique descriptive.


a) Données : elles sont la source principale de l’information.
« données » i.e. tout ce que peut constituer une information.

Exemple : âge, poids, taux du cholestérol, durée de vie d’une bactérie, etc.

Vu l’importance des données dans l’étude statistique, elles doivent :


- être exactes et recueillies avec soin et précision,
- servir à un objectif clair,
On doit faciliter la saisie des données et leur exploitation.

Pour une collecte efficace des données, on doit se poser la question :


- Qui va effectuer la collecte des données ?

- Quels sont les objectifs qu’on espère atteindre en réalisant l’étude ?

3
- Pendant combien de temps doit-on effectuer la collecte ?
- Combien de données doit-on collecter ?
- Comment est-ce que les données seront collectées ?

b) Individu (unité statistique) : élément soumis à une étude statistique.


c) Population : l’ensemble des individus, notée P.
Une population peut être de nature très variée (êtres humains, animaux, plantes, bactéries,
objets, etc.).
Exemple. Dans une usine fabriquant des produits d’éclairage, on a mesuré la durée de vie de
certains types de lampes. L’ensemble des lampes fabriquées au cours de cette étude constitue
la population. Chaque lampe est une unité statistique de cette population.

d) Échantillon : Généralement l’étude statistique ne porte pas sur l’ensemble de la


population pour plusieurs raisons :
- taille de la population très élevée,
- temps, coût de l’opération important,
- l’étude peut détruire les éléments de la population.
Un échantillon est une partie de la population recueillie telle que les résultats de l’analyse
pourront être étendus à la population. Divers méthodes pour construire un échantillon
(Modules : Inférence statistique, Sondage).

e) Caractère – modalité. Chaque individu ou ensemble d’individus de la population peut


être décrit par une ou plusieurs caractéristiques, on les appelle caractère statistique, notés X,
Y, … (lettres majuscules).
Exemples : Les employés d’une entreprise peuvent être décrits par :
X : Age
Y : Salaire
Les pièces produites par une machine peuvent être décrites par :
X : Diamètre,
Y : Nombre de pièces défectueuses (non-conformes),
Z : Durée de vie de la pièce.

4
Un caractère est appelé aussi variable statistique. Les différentes situations possibles prises
par un caractère sont appelées modalités, notées xi , yi ,... (lettres minuscules). Leur ensemble
est noté Μ.
Définition : un caractère est dit quantitatif si ses modalités sont mesurables, sinon le
caractère est dit qualitatif.
Exemples :
- Caractère quantitative : diamètre d’un axe, température, poids, taille, etc.
- Caractère qualitatif : couleur d’un certain type de fleur, favorable ou défavorable, la
pièce conforme ou non conforme, types de défauts, etc.

Définition. Un caractère quantitatif est dit discret si elle ne peut prendre qu’un nombre limité
de valeurs (souvent des valeurs entières). Lorsque le caractère peut prendre toutes les valeurs
d’un intervalle, il est alors dit continu.

Exemples : - Poids, durée de vie, âge sont des caractères continus.


- « Nombre d’enfants », « nombre de défauts observés » sont des caractères
discrets.

2. Dépouillement des données et distributions de fréquences.

Le groupement de données en classes notées ei , ei 1  s’appelle dépouillement des données.


ei  ei 1
- On appelle centre de la classe ei , ei 1  le nombre : ci : .
2
- On appelle amplitude de la classe ei , ei 1  le nombre : ai : ei 1  ei
Remarque : Il arrive que l’amplitude des classes extrêmes soit indéterminée.

a) Détermination du nombre de classes.


Le nombre de classes ne devrait, en général, être ni inférieur à 5 ni supérieur à 20. De
préférence, il varie entre 6 et 12 classes.
En pratique on peut utiliser une formule pour déterminer le nombre de classes.
Soit N  card (P ) . Le nombre k de classes à utiliser est donné par la formule
k  1 3,33log10 N (Formule de Sturges).

5
b) Détermination de l’amplitude de chaque classe.
Définition : l’écart entre la plus grande et la plus petite modalité d’un caractère est appelé
étendue, noté E.
E
L’amplitude de la classe est égale à .
k
Remarque.
- Comme la valeur de E sera rarement un nombre entier, on arrondit au plus grand ou au
plus petit entier. Le choix définitif de l’amplitude de chaque classe s’effectuera dans le
but de faciliter la présentation et la compréhension de la distribution des fréquences.
- Une amplitude trop grande aura comme effet de donner un petit nombre de classes et
une amplitude trop petite donnera un nombre de classes trop élevé.

c) Effectif-Fréquence.
Définition. - Le nombre d’individus présentant une modalité x i donnée, est appelé effectif ou

fréquence absolue de cette modalité, on le note n i .

N :  ni est appelé effectif total.


i 1

- Dans le cas d’un caractère continu, on parle de l’effectif d’une classe ou de son centre.
- Le nombre d’individus pour lesquels le caractère X prend une valeur inférieure ou égale
à α est appelé effectif cumulé jusqu’à l’ordre α. On le note N ( ) .*

N ( )  n
i: xi 
i .

Définition. L’ensemble ( x1 , n1 ), ( x2 , n2 ),.... , est appelé distribution statistique.


Définition. On appelle fréquence relative de la modalité x i d’effectif n i , le nombre f i défini
par :
ni
f i :
N
Dans le cas d’un caractère continu on parle de la fréquence relative d’une classe ou de son
centre.

Définition. On appelle fréquence cumulée croissante la fonction F définie par


N ( )
F ( ) : .
N
C’est le cumul des fréquences des modalités inférieures ou égales à α.

6
Dans le cas des classes, F et N ne sont connues que pour les extrémités des classes.

3. Tableaux et principales représentations graphiques.


Pour que les résultats de l’enquête soient facilement lisibles et compréhensibles, on les publie
sous forme de tableaux ou graphes. Les graphes les plus usuelles sont le diagramme en bâtons
et l’histogramme ; on utilise également le polygone de fréquences, les courbes des fréquences
cumulées, le diagramme à secteurs circulaires et le diagramme à barres.

a) Tableaux statistiques.

1. - Cas discret.

Modalité effectif fréquence Ni Fi

x1 n1 f1
x2 n2 f2

xp np fp

N 1

2. - Cas continu.
Classe effectif fréquence Ni Fi

e1 , e2  n1 f1
e2 , e3  n2 f2

ek 1 , ek  np fp

N 1

7
b) Représentations graphiques.
Les représentations graphiques ont l’avantage de renseigner immédiatement sur l’allure
générale de la distribution. Elles facilitent l’interprétation des données recueillies.

1. Diagramme en bâtons.
Lorsque le caractère est discret, la représentation graphique de la distribution de fréquences
absolues (ou relatives) s’effectue à l’aide d’un diagramme en bâtons où la hauteur des bâtons
correspond à l’effectif ni (ou la fréquence relative f i de chaque modalité x i ).

Exemple. Une entreprise vérifie régulièrement si l’assemblage d’un appareil complexe a été
effectué correctement. Le responsable du contrôle a effectué une compilation du nombre
d’erreurs d’assemblage pour chaque appareil contrôlé. On a le tableau suivant.

Nombre d’erreurs Nombre d’appareil


0 101
1 140
2 92
3 42
4 18
5 3

2. Histogramme et polygone de fréquences.


 Histogramme.
Lorsque le caractère quantitatif est continu, les valeurs observées sont réparties suivant une
distribution en classes ; la représentation a la forme d’un histogramme.
L’histogramme permet de visualiser rapidement l’allure de la série de données.

Considérations pratiques pour tracer l’histogramme :


i) Lorsque les classes ont la même amplitude (le cas le plus fréquent), chaque rectangle
aura comme hauteur la fréquence correspondante.
ii) Si les amplitudes de certaines classes sont inégales, on doit rectifier les fréquences
comme suit :

8
Si l’amplitude d’une classe de fréquence f i est m fois plus grande (ou plus petite) que

fi
l’amplitude de base, son rectangle aura pour hauteur ( ou m f i ).
m
iii) La surface de chaque rectangle est : = amplitude de la classe x fréquence corres-
pondante. La surface de l’histogramme est égale à 1.

 Polygone de fréquence.

Il est obtenu en joignant les milieux des sommets de chaque rectangle de l’histogramme par des
segments de droites. La seule utilité est de présenter l’allure générale de la distribution de
fréquences de la variable étudiée.
Exemple 1: Dans un centre avicole, on mesure le poids d’un échantillon de 36 œufs. Les
mesures sont données dans le tableau suivant :

50 ,34 52,62 53,79 54 ,99 55,82 57,67


51,41 53,13 53,89 55,04 55,91 57,99
51,51 53,28 54,63 55,12 55,95 58,10
52,07 53,30 54,76 55,24 57,05 59,30
52,22 53,32 54,78 55,28 57,18 60,58
52,38 53,39 54,93 55,56 57,31 63,15

Nombre de classes: k = 7.

L’étendue de l’échantillon : E = 63,15-50,34 = 12,8


12,8
 1,82  2
Amplitude de chaque classe : 7 .

On choisit 50 comme borne inférieure de de la première classe. On détermine les effectifs ni


et les fréquences relatives fi de chaque classe. On obtient le tableau suivant :

Classe ni fi Ni
[50-52[ 3 0.0833 3
[52-54[ 11 0.3055 14
[54-56[ 13 0.3611 27
[56-58[ 5 0.1388 32
[58-60[ 2 0.0555 34
[60-62[ 1 0.0277 35
[62-64[ 1 0.0277 36

Ni Représente l’effectif cumulé ( i =1,2,….,7 ).

N1  3 : 3 œufs ayant le poids inférieur strict à 52.

9
N 4  32 : 32 œufs ayant le poids inférieur strict à 53.
On représente l’histogramme des fréquences de cette série statistique :

Exemple 2 (classes de même d’amplitudes).


Les salaires horaires des 100 ouvriers d’une entreprise sont indiqués dans le tableau suivant.

Classes des Nombre Fréquences


salaires d’ouvriers fi
(en DH) ni

5,10 10 0.1

10,15 30 0.3

15, 20 40 0.4

20, 25 20 0.2

Total 100 1

Exemple 3 (classes d’amplitudes différentes).


La répartition des salaires horaires de 100 ouvriers d’une entreprise est donnée par le tableau
suivant :

10
Classes Effectif réel Effectif
des rectifié
salaires
(en DH)
7.5, 10 20 40

10,15 60 60

15, 20 80 80

20, 25 40 40

Total 200

 Polygone cumulé.
C’est la ligne composée de segments dont les extrémités ont pour abscisse les sommets des
rectangles et pour ordonnées les effectifs cumulés (ou les fréquences relatives cumulées)
correspondant à ces sommets de classes.

5. Indicateurs numériques (ou paramètres caractéristiques).


Les tableaux et les graphes permettent d’obtenir une première image de la distribution des
données. Pour améliorer cette image, on introduit de nouvelles valeurs qui caractérisent la
distribution.

a) Indicateurs de positions.
- Moyenne.
Définition. - Soit un échantillon de n valeurs observées x1 , x2 ,...., xn d’un caractère quantitatif
n

x i
X. On définit sa moyenne X par : X  i 1
.
n
- La moyenne du caractère X de distribution xi , ni  ou xi , f i  est définie par :
k

n x i i k
X i 1
, avec n   ni
n i 1 .
k
  f i xi .
i 1

11
La moyenne de l’échantillon est simplement la moyenne arithmétique des observations. Elle
fournit une estimation de la tendance centrale de la variable statistique, c’est-à-dire une valeur
autour de laquelle se trouvent les valeurs du caractère étudié pour l’ensemble de la population.

- Médiane.
Définition. La médiane, notée Me, est la valeur du caractère pour laquelle la fréquence cumulée
est égale à 0.5. Elle correspond au centre de la série statistique classée par ordre croissant ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures.
Donc Me est telle que : F ( Me)  0.5.

Détermination de la médiane.
i- Données non groupées :
 X ( m 1) , si n  2m  1

M e   X ( m )  X ( m 1)
 , si n  2m
 2
avec X (1)  X ( 2)  ....  X ( m)  X ( m1)  .... X ( n) les valeurs ordonnées de manière croissante

de x1 , x2 ,...., xn .

ii- Données groupées en classes.


Par interpolation linéaire on obtient :
0.5  F ( x( m) )
Me  x( m)  ( x( m1)  x( m) ) avec [ x(m) , x( m1) [ la classe médiane.
F ( x( m1) )  F ( x( m) )
Remarque.
 La médiane n’est pas affectée par les données aberrantes. Elle est influencée par le nombre
de données.
 Si la distribution des valeurs est symétrique, la valeur médiane est proche de la moyenne
( Me  X ).

- Quartiles.
Définition. On appelle quartiles, les trois modalités du caractère, notés Q1 , Q2 et Q3 , qui
partagent la série en quatre parties égales. On a:
F (Q1 )  0,25 , F (Q2 )  0,5 , F (Q3 )  0,75 .

12
- Q2  Me .
- Q1 ,Q3  est appelé intervalle interquartile : il contient 50% d’observations.
Remarque. Le calcul se fait comme pour la médiane.

Diagramme en boîte (box-plot).


Il s’agit d’un graphique très simple qui résume la série à partir de ses valeurs extrêmes, de ses
quartiles et de sa médiane. Le diagramme en bâtons permet de donner une vision d’ensemble
des observations réalisées. Il est construit à partir des quartiles. La longueur de la boîte est égale
à l’écart interquartile Q3  Q1 . La largeur de la boîte est arbitraire et elle n’a pas de signification.
A l’intérieur de la boîte, on trace la position de la médiane. La moyenne de l’échantillon est
représentée par le symbole (+). On trace ensuite un trait à partir de chaque extrémité de la boîte
x
jusqu’aux valeurs extrêmes xmin et max de la série. Certains hauteurs relient la boîte aux valeurs
a  Q1  1,5(Q3  Q1 ) et b  Q3  1,5(Q3  Q1 ) .

Exemple 4 : Le tableau suivant contient des mesures de la teneur en benzène du CO2,


exprimée en ppm par volume :

0,46 0,43 0,47 0,63 1,67 1,75 2,18 2,55 2,62 2,80 3,56 3,61 3,71 3,76

3,95 4,19 4,80 5,03 5,55 5,69 5,79 5,94 5,99 6,63 7,99 8,87 9,71 10,14

11,90 12,62 12,70.

On trouve : Q1  2.585, Q2  5,086, Q3  6.310 et Q3 – Q1 = 3,725.

Le diagramme en boîte (box-plot) de cette série statistique :

13
Diagramme en boîte de la teneur en benzène du CO2
Règle pratique pour détecter une valeur aberrante : Une valeur aberrante est une donnée
qui s’écarte de façon marquée de l’ensemble des données. On peut déclarer une valeur donnée
aberrante si elle est supérieure à b  Q3  1,5(Q3  Q1 ) ou si elle est inférieure à

a  Q1  1,5(Q3  Q1 ) .

Dans cet exemple,


a = Q1 – 1,5 (Q3 – Q1) = -3.0025 et b = Q3 + 1,5 (Q3 – Q1) = 11.8975.
On observe qu’il y a trois valeurs aberrantes : 11,90 ; 12,62 ; 12,70, situées au-delà de
l’intervalle a, b .

- Mode
Le mode, noté Mo, est la valeur du caractère X la plus fréquente ou dominante de l’échantillon.
Le mode correspond à la classe de fréquence maximale. On peut considérer le mode comme la
valeur milieu de la classe modale (de fréquence maximale).
Remarque.
 Une distribution de fréquences peut présenter un seul mode (distribution unimodale) ou
deux modes (distribution bimodale) ou plusieurs modes.
 Si la distribution des valeurs est symétrique, la valeur du mode est proche de la moyenne

Mo  X

14
6) Graphique circulaire

Dans le graphique circulaire, l’angle (en degré)  i au centre du secteur est proportionnel aux

effectifs ni ou aux fréquences f i . Il est donné par :  i  360 f i (cas du cercle complet) ou

 i  180 f i (cas du demi cercle).


Exemple. Les crédits bancaires selon leur terme se présentent comme suit :

Type de crédits Montant Fréquence Angles


6
(en %) (degrés)
(en 10 DH )
Crédits à court terme 43 479 73,38 132,08
Crédits à moyen terme 12 039 20,32 36,58
Crédits à long terme 3 732 6,30 11,34
Total 59 250 100 180

Exercice 1.
1) Tracer le graphique circulaire.
2) Tracer le diagramme à barres (tuyaux d’orgue).

Exercice 2. Le nombre d’étudiants inscrits en première année de la FSTT se présente


comme suit :
Parcours Nombre de
grèves
MIPC 450
BCG 300
MIP 120
GE-GM 100

N.B. les données ne sont pas exactes.

Tracer les diagrammes appropriés de cette distribution.

15

Vous aimerez peut-être aussi