Vous êtes sur la page 1sur 34

Notes de cours STATISTIQUE DESCRIPTIVE Prof.

COUSSEILLANT

Fy1 - INTRODUCTION
-HISTORIQUE ET DEFINITION
-METHODES STATISTIQUES

CHAPITRE 1
- TERMINOLOGIE
- LA POPULATION
- L’UNITÉ STATTISTIQUE OU L’INDIVIDU
- L’ÉCHANTILLON
- LE CARACTÈRE OU LA VARIABLE
- LA MODALITÉ

CHAPITRE 2

- LES VARIABLES STATISTIQUES

- PRESENTATION DES SERIES STATISTIQUES

- LES FREQUENCES ABSOLUE, RELATIVE ET CUMULEE

- REPRESENTATION GRAPHIQUE

CHAPITRE 3
LES PARAMETRES STATISTIQUES
- LES PARAMETRES DE TENDANCE CENTRALE
- LE MODE
- LA MEDIANE
- LA MOYENNE

- LES PARAMETRES DE DISPERSION

- L’ETENDUE DE VARIATION
- LES QUANTILES
- L’INTERVALLE INTERQUARTILE
- LA VARIANCE ET L’ECART-TYPE
- LE COEFFICIENT DE VARIATION

1
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

LISTE DES DOCUMENTS CONSULTES

 BAHOUAYILA MILONGO Chancel Bardin

 BROUSSEAU Guy, statistiques, notes de cours 3e edition

 AMYOTTE Luc, Méthodes quantitatives

 Colin et Al, initiation aux méthodes quantitatives en sciences humaines

2
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

HISTORIQUE ET DÉFINITION

On attribue souvent la création du terme « statistique » à un professeur de Göttingen, G.


Achenwall, qui aurait en 1746 créé le mot Statistik, dérivé de la notion Staatskunde. En fait,
l'activité correspondante de recueil de données permettant de connaître la situation des États
remonte à une fort lointaine antiquité.

Un tableau d'ensemble de l'activité statistique dans ce sens particulier, au cours des


différentes périodes de l'histoire, mériterait d'être dressé ; mais on ne pourra donner ici que
quelques points de repère.

L’histoire de la "statistique" remonte à une époque très ancienne. Les activités statistiques
(dénombrements) ont commencé bien avant la création du mot, l’application de la méthode et de
l’analyse statistique. Depuis l’antiquité, les Empereurs, les Rois et les Hommes d’Eglise
réalisaient des dénombrements de populations humaines et de terres pour les besoins de la guerre
et de l’impôt.

On cite, d'une part, l'empereur chinois Yao, organisant le recensement des productions
agricoles en 2238 avant J.-C., et, d'autre part, l'institution du cadastre et du cens chez les
Égyptiens, en 1700 avant J.-C. L'importance sociale de la statistique était reconnue, puisqu'il
advint que le pharaon Amasis édicta la peine de mort contre ceux qui refusaient de déclarer leurs
nom, profession et moyens de subsistance. A Rome, l’empereur Auguste fit procéder à une vaste
enquête en dénombrant les soldats, les navires et les revenus publics.

Jusqu’au moyen âge, les seules "statistiques" existante étaient les dénombrements faits
dans des buts divers : assiettes de l’impôt, répartition des terres, recrutement dans l’armée est
effectués avec des méthodes diverses (recensements des personnes, enregistrements de certains
actes d’état civil ...).

C’est à partir du XVIII siècle, qu’apparait le mot "statistique" crée par ACHENWALL en
1746 à partir du mot "STATISTA" (politique). Du simple dénombrement de populations
humaines et de terres, la statistique est devenue une science qui a retenu et continue de retenir
l’attention, non seulement des empereurs et de rois, mais surtout des personnes de sciences.

L’extension et l’utilisation du calcul des probabilités développé par J. BERNOULLI au


18ème siècle et l’application des études démographiques et sociales ont permis à cette science de
connaitre un essor considérable. Ainsi au 19 siècle, de la simple statistique descriptive, elle passe
au stade de "Statistique Mathématique". Depuis le 20ème siècle, les travaux de KARL
PEARSON (1857-1936), de STUDENT (WILLIAM SEALY GOSSET, 1876-1937) et de
RONAL FISHER (1890-1963) ont permis à cette science de connaitre un développement

3
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

considérable et une application vaste et variée. La statistique utilise les techniques et des
méthodes de collecte, de présentation, d’étude et d’analyse des données quantitatives. La
statistique n’est pas uniquement utilisée pour décrire, pour mieux connaitre un événement
survenu dans le passé mais elle intervient de plus en plus dans les travaux de planification, dans
le choix de prises de décisions et d’actions.

DÉFINITION DE LA STATISTIQUE

Définition : « Le mot statistique désigne à la fois un ensemble de données d’observations et


l’activité qui consiste dans leur recueil, leur traitement et leur interprétation »
(Encyclopedia Universalis)

Étymologie : « De l’allemand Staatskunde, dérivé de l’italien statista (homme d’État, statiste), la


statistique représentant l’ensemble des connaissances que doit posséder un
homme d’État. » (1785)

Définition : La Statistique, c'est l'étude des variations observables. C'est une méthode qui
consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les
analyser et à les interpréter.

DIVERS DOMAINES D’APPLICATION

Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les
champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l’économie à la biologie en passant par la psychologie, et bien sur les sciences
de l’ingénieur.

Donnons quelques exemples d’utilisation de la statistique dans divers domaines.

 Economie, assurance, finance : prévisions économétriques, analyse de la consommation


des ménages, fixation des primes d’assurance et franchises, études quantitatives de
marches, gestion de portefeuille, évaluation d’actifs financiers, ...
 Biologie, médecine : essais thérapeutiques, épidémiologie, dynamique des populations,
analyse du génome, ...
 Sciences de la terre : prévisions météorologiques, exploration pétrolière, ...
 Sciences humaines : enquêtes d’opinion, sondages, études de populations, ...
 Sciences de l’ingénieur : contrôle de qualité, maîtrise statistique des procédés (méthode
“six-sigma”), sûreté de fonctionnement (fiabilité, disponibilité, sécurité,...), maîtrise des

4
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

risques industriels, évaluation des performances des systèmes complexes, ...


 Sciences de l’information et de la communication : traitement des images et des
signaux, reconnaissance des formes et de la parole, analyse exploratoire des grandes
bases de données, analyse des réseaux de communication, ...
 Physique : mécanique statistique, théorie cinétique des gaz, ...
 etc...

But de la Statistique

Les données sont entâchées d’incertitudes et présentent des variations pour plusieurs raisons :
le déroulement des phénomènes observés n’est pas prévisible à l’avance avec certitude
toute mesure est entâchée d’erreur
seuls quelques individus sont observés ...
⇒ données issues de phénomènes aléatoires
⇒ intervention du hasard et des probabilités

MÉTHODES STATISTIQUES

• 1ère étape : On collecte des données :

◊ soit de manière exhaustive

◊ soit par sondage

• 2ème étape : On trie les données que l’on organise en tableaux, diagrammes, etc...
• 3ème étape : On interprète les résultats : on les compare avec ceux déduits de la
théorie des probabilités.
On pourra donc :

⇒ évaluer une grandeur statistique comme la moyenne ou la variance (estimateurs,


intervalles de confiance).

⇒ savoir si deux populations sont comparables (tests d’hypothèses).

⇒ déterminer si deux grandeurs sont liées et de quelle façon (c o r r é l a t i o n , justement


analytique).

5
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

TERMINOLOGIE.

Définition des principaux termes utilisés en statistique.

1- La population est l’ensemble de tous les individus concernés lors de l’étude d’un sujet
particulier. C’est l’univers de référence lors de l’étude d’un problème donné.

2- On appelle échantillon toute partie ou sous-ensemble de la population.

3- On appelle individu chaque élément de la population ou de l’échantillon. On utilise


également le terme UNITE STATISTIQUE pour désigner un individu.

4- La taille représente le nombre d’individus d’un échantillon ou d’une population. Elle est
symbolisée par « n » dans le cas d’un échantillon et par « N » dans le cas d’une
population.

5- Le caractère est l’aspect particulier que l’on désire étudier.

6- On appelle modalités les différentes manières d’être que peut présenter un caractère.

7- On dit qu’un caractère (variable) qu’il est qualitatif si ses modalités ne s’expriment pas
par un nombre.

8- On dit d’un caractère qu’il est quantitatif si ses modalités sont numériques.

9- On appelle série statistique l’ensemble des différences données associées à un certain


nombre d’individus.

6
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

VARIABLES QUALITATIVES ET VARIABLES QUANTITATIVES


On distingue deux types et quatre sous-types de variables statistiques. La distinction porte sur
la nature des modalités du caractère.

A.- Variables qualitatives

A.1- variable qualitative nominale. Les variables : « sexe », « situation matrimoniale »


et « langue maternelle » sont qualitatives nominales. Il arrive de coder numériquement les
modalités d’une variable qualitative nominale en affectant par exemple la valeur « 1 » à
la modalité « masculin » et la valeur « 2 » à la modalité « feminin ». ce codage ne
transforme pas la nature de la variable, mais facilite la saisie des données.

A.2- Variable qualitative ordinale. Une population d’électeur est étudiée suivant le
caractère « opinion concernant le premier ministre », dont les modalités sont : très bonne,
bonne, plutôt bonne, plutôt mauvaise, mauvaise. Cette variable est qualitative ordinale.
En effet, cela a du sens de définir l’ordre1 selon lequel « très bonne » est supérieur a
« bonne ».

B.- Variables quantitatives

B.1- Variable quantitative discrète. D’un point de vue théorique, une variable
quantitative est discrète si l’ensemble de ses modalités est dénombrable2. D’un point de vue
opérationnel, un moyen efficace de déterminer si une variable quantitative est discrète
consiste à se demander si la valeur des modalités relève ou non d’un comptage. Ainsi, on
compte un « nombre d’enfants », un «nombre de pièces d’un logement ».

B.2- Variable quantitative continue. Théoriquement, une variable quantitative est


continue si l’ensemble de ses modalités est non dénombrable, c’est-a-dire si la variable
peut prendre n’importe quelle valeur numérique dans un intervalle.

1
Une relation d’ordre sur un ensemble est une relation réflexive, transitive et antisymétrique.
2
Un ensemble est dénombrable s’il est possible de construire une bijection entre cet ensemble et une partie de
l’ensemble N des entiers naturels.

7
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Très souvent, les modalités d’une variable continue sont obtenues en utilisant un instrument de
mesure. Ainsi, pour déterminer la taille d’une personne, le diamètre d’un cylindre, la longueur
d’un câble, il faut disposer d’un instrument de mesure. Ces trois variables sont quantitatives
continues.

Dans la pratique, il est clair que la variable « couleur du véhicule » est qualitative nominale, cela
n’a donc pas de sens de calculer la moyenne de rouge, vert, jaune. Cependant, lorsque les
modalités d’une variable ont été codées numériquement pour faciliter la saisie des données (par
exemple, 1 pour rouge, 2 pour vert, etc.), il convient d’avoir à l’esprit le fait que la variable est
nominale, pour ne pas réaliser d’opérations mathématiques sur ses modalités.

PRESENTATION DES SERIES STATISTIQUES

SERIE BRUTE, DEFINITION


La série brute d’une variable statistique est la liste des données telles qu’elles ont été mesurées,
c’est-a-dire vierges de tout traitement.

Tableau statistique
Les séries statistiques sont généralement présentées sous forme de tableau.
Un tableau est la correspondance entre les modalités d’un caractère et le nombre d’apparitions de
ces modalités. Les tableaux peuvent etre à un ou plusieurs caractères.

Un tableau statistique comprend les trois parties suivantes :


1- La tête qui comprend le numéro et le titre du tableau. Le titre du tableau doit etre clair,
concis et exprimer exactement le contenu du tableau.

2- Le corps du tableau qui réunit les entêtes, les titres des lignes, les titres des colonnes et
les cases où sont placées les fréquences.

8
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

3- Le pied du tableau qui comprend la source c’est-à-dire l’origine ou la provenance des


informations présentées dans un tableau et les notes explicatives jugées nécessaires,
capable d’éclairer dans certains cas le contenu du tableau.
N.B : Aucune case du tableau ne doit rester vide. Le cas échéant, les signes conventionnels
suivants sont

Signes Signification
- Néant, nul
0 quantité inferieur à la moitie de l’unité utilisée
… information non disponible
A* information provisoire ou estimée

Comment regrouper les données dans un tableau statistique après un dépouillement

Dans le cas où la variable X est continue, la réalisation d’un tableau de fréquence


nécessite au préalable une répartition en classes des données. On doit définir a priori le
nombre de classes K et l’amplitude (ou l’étendue) de chaque classe. Ce choix doit résulte
d’un compromis entre deux objectifs antagonistes : résumer les données (K ne doit pas
être trop grand) sans perdre l’information pertinente (K ne doit pas être trop petit)

En règle générale, on choisit des classes de même amplitude. Pour que la distribution en
fréquence est un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs (ni).

Ce nombre de classe varie généralement entre 5 et 15. Il peut être choisi arbitrairement ou bien
nous être imposé, ou encor être fixe à partir de diverse méthode mathématique, par exemple la
règle de Sturges ou de Yule.

La règle de STURGE : Nombre de classes = 1+ (3,3 log n)

La règle de YULE : Nombre de classes =

9
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Règle de Sturges

Elle permet d’établir les classes et regroupement à opérer. La règle de Sturges, définie selon le
postulat indiquant que c'est l'ordre de grandeur du nombre de données qui importe pour
déterminer le nombre de classes. Une prémisse à la construction de la règle de Sturges est
que le nombre de classes à utiliser doit être suffisamment grand lorsque les données sont
peu nombreuses afin de repérer une concentration éventuelle de données dans une classe.
Par ailleurs, un très grand nombre de données ne nécessite pas pour autant d'augmenter trop le
nombre de classes. L'opération mathématique «logarithme» permet d'établir une fonction entre
le nombre de données et le nombre de classes qui respecte cette prémisse (voir la figure).

Graphique cartésien où le nombre entier k de classes à constituer sur l'axe vertical est
fonction du nombre n de données sur l'axe horizontal en vertu de la règle de Sturges; si 160
données sont disponibles, 8 classes sont recommandées pour les regrouper.

La règle suivante fait varier le nombre entier k de classes ou intervalles à constituer selon le
nombre n de données:

k = 1 + 3,3 log10n

Ainsi, 160 données devraient constituer environ 8 classes puisque


k = 1 + 3,3 log10 160
k = 8,27 = 8

10
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Exercice d'application
n= nombre de données Règle de Sturges K=nombre approché de classes
10 k = 1 + 3,3 log10 = 4,3 = 4
100 k = 1 + 3,3 log100 = 7,6 = 8
1 000 k = 1 + 3,3 log1 000 = 10,9 = 11
10 000 k = 1 + 3,3 log10 000 = 14,2 = 14

Notons que ces mêmes nombres peuvent être obtenus en utilisant directement le graphique.
Bien qu'il ne soit pas essentiel de les suivre à la lettre, les recommandations fournies par le
tableau ou la règle de Sturges constituent toutefois des indications précieuses.

L'intervalle entre chaque classe est obtenu ensuite de la manière suivante :

Intervalle de classe = (X max - X min) / Nombre de classes

avec X max et X min, respectivement la plus grande et la plus petite valeur de X dans la
série statistique.

A partir de Xmin on obtient les limites de classes ou bornes de classes par addition successive
de l’intervalle de classe. En règle général, on tente de faire coïncider l’indice de classe ou valeur
centrale de la classe avec un nombre entier ou ayant peu de décimales.

Exemple : La série suivante représentant le débit mensuel moyen, en milliers de mètres


cubes par seconde, d’une rivière pour les trois dernières années

0,22 0,09 0,08 0,1 1,04 0,36


0,18 0,15 0,15 0,32 0,22 0,11
0,09 0,08 0,19 0,68 0,78 0,42
0,15 0,22 0,66 0,39 0,34 0,19
0,15 0,08 0,08 0,37 0,67 0,36
0,23 0,16 0,35 0,34 0,21 0,11

11
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

• définition du nombre de classes selon les deux regles :

Règle de Sturge : 1 + (3,3 log 36) = 6,13

Règle de Yule : = 6,12 les deux valeurs sont très peu différentes

• définition de l’intervalle de classe :

IC = = 0,160 m3/s que l’on arrondit à 0.17 mètre cube par seconde

LES FREQUENCES STATISTIQUES

1- La fréquence (simple) d’une modalité i, notée fi est égale a la proportion d’individus qui
présentent cette modalité est donc égale a l’effectif de cette modalité divisé par l’effectif
total de la population.

2- La fréquence cumulée croissante d’une modalité Fi ou F(xi), est égale à la proportion


d’individu pour lesquels la variable statistique prend une valeur inferieure ou égale a
cette modalité.

3- La fréquence cumulée décroissante d’une modalité est égale à la proportion d’individus


pour lesquels la variable statistique prend une valeur strictement supérieure à cette
modalité.

NB : Les cumuls vont me permettre de connaître la situation globale de mes effectifs,


pour un caractère donné :

12
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Les tableaux statistiques :


Formules permettant de calculer
A - Les fréquences absolues cumulées

Croissantes

N0 = n0 ; N1 = N0 + n1 ; N2 = N1 + n2 ; N3 = N2 + n3 et ainsi de suite.

Décroissantes
N0 = N ; N1 = N – n0 ; N2 = N1 – n1 ; N3 = N2 – n2 et ainsi de suite.

B - Les fréquences relatives simples

Les fréquences relatives cumulées croissantes

F0 = f0 ; F1 = F0 + f1 ; F2 = F1 + f2 ; F3 = F2 + f3 et ainsi de suite.
A noter que la dernière fréquence relative cumulée croissante doit être égale à 1 ou a 100

Les fréquences relatives cumulées Décroissantes

F0 = 100 ; F1 = F0 – f1 ; F2 = F1 – f2 ; F3 = F2 – f3 et ainsi de suite.


A noter que la dernière fréquence relative cumulée décroissante doit être égale à la fréquence
simple de la dernière classe

 Distribution de fréquences absolues


 Distribution de fréquences relatives
 Distribution de fréquences relatives cumulées

13
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Exemple On s’intéresse à la variable ‘état-civil’ notée X et à la série statistique des valeurs prises par X

sur 20 personnes. La codification est

C : célibataire, M : marié(e),

V : veuf(ve), D : divorcée.

Le domaine de la variable X est {C, M, V, D }. Considérons la série statistique suivante :

MM D C C M C C C M
C M V M V D C C C M
Ici, n = 20,

Ex : Avec la série de l’exemple précédent, on obtient le tableau statistique :

Etat civil d'une institution à un moment donné


X ni fi /n Fi Crois Fi De Fi /n Crois Fi /n Dec
C 9 0.45 9 20 0.45 1
M 7 0.35 16 11 0.8 0.55
V 2 0.1 18 4 0.9 0.2
D 2 0.1 20 2 1 0.1
total 20 1

Parmi les 20 personnes interrogées de l’échantillon 9 d’entre eux, ont déclarée être des
Célibataires " ou " 45 % des personnes interrogées de l’échantillon sont Célibataires.

Notation :
X: une variable statistique (caractère)
xi : (modalités) valeurs possibles prises par la variable statistique X
fi : le nombre d’unités (fréquence absolue) présentant la valeur xi
fi /n : la fréquence relative de xi
Fi: la fréquence cumulée des valeurs prises par la variable X qui sont inférieures ou égales à xi
Fi /n: fréquence relative cumulée - c'est la proportion des valeurs prises par la variable X qui
sont inférieures ou égales à xi
n: taille de l'échantillon

14
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Ex : Distribution du débit moyen d’une certaine rivière pour les 3 dernières années en m3/s

classes ni centre Fi% NiCC NiCD FRCC FRCD


[0,08; 0,24) 22 0,16 61% 22 36 61% 100%
[0,25; 0,41) 8 0,33 22% 30 14 83% 39%
[0,42; 0,58) 1 0,5 3% 31 6 86% 17%
[0,59; 0,75) 3 0,67 8% 34 5 94% 14%
[0,76; 0,92) 1 0,84 3% 35 2 97% 6%
[0,93; 1,09) 1 1,01 3% 36 1 100% 3%
Total 36 100%

Interprétation des résultats


Fréquence absolue
On prendra en compte la classe considérée.
Parmi les 36 mois de l’étude, il y a 3 mois dont le débit moyen est compris entre 0.59 et 0.75
m3/s
Fréquence (absolue, relative) cumulée croissante
On prendra en compte la borne supérieure de la classe considérée

Utiliser → Au plus; inférieur(e) ou égal(e)

Il y a 34 mois, soit 94% dont le débit moyen est 0.75 m3/s au plus.

ou
Il y a 34 mois, soit 94% dont le débit moyen est inferieur ou égal a 0.75 m3/s.

Fréquence (absolue, relative) cumulée décroissante


On prendra en compte la borne inférieure de la classe

Utiliser → Au moins; supérieur(e) ou égal(e)

Il y a 5 mois, soit 14% dont le débit moyen est au moins 0.59 m3/s.

ou
Il y a 5 mois, soit 14% dont le debit moyen est superieur ou egal a 0.59 m3/s.

15
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Représentation Graphique

Ils servent à visualiser la répartition des individus.

 Pour une variable statistique qualitative :

On utilise des diagrammes à secteurs circulaires, des diagrammes en barre, des


diagrammes en bandes. Le principe est de représenter des aires
proportionnelles aux fréquences de la variable statistique.

 Pour une variable statistique discrète :

O n u t i l i s e u n diagramme différentiel en bâtons, complété du diagramme


des fréquences cumulées appelé diagramme cumulatif. Le diagramme cumulatif est
la représentation graphique d’une fonction F, appelée fonction de répartition de
la variable statistique.

 Pour une variable statistique continue :

1. Le diagramme représentant la série est un histogramme : ce sont des rectangles


juxtaposés dont chacune des bases est égale à l’intervalle de chaque classe et dont
la hauteur est telle que l’aire de chaque rectangle soit proportionnelle
aux effectifs(histogramme des effectifs) ou aux fréquences de la classe
correspondante (histogramme des fréquences).

2. On obtient le polygone des effectifs (ou des fréquences) en reliant les milieux des
bases supérieures des rectangles.

3. La courbe cumulative (ou polygone des fréquences cumulées) est obtenue en

16
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

portant les points dont les abscisses représentent la borne supérieure de chaque
classe et les ordonnées les fréquences cumulées correspondantes, puis en reliant
ces points par des segments de droite. Son équivalent dans la théorie probabiliste
est la fonction de répartition.

Variable qualitative (nominale et ordinale)


Diagramme en secteurs et diagramme en barres
12
Le tableau statistique d’une variable qualitative nominale peut être représenté par deux types de
graphique.
Les effectifs sont représentés par un diagramme en barres et les fréquences par un diagramme
en secteurs (ou camembert ou piechart en anglais)

Diagramme en secteurs
Un diagramme circulaire ou diagramme en secteurs, aussi appelé (diagramme) camembert, est un type
de diagramme utilisé en statistiques. Il permet de représenter un petit nombre de valeurs par
des angles proportionnels à ces valeurs.

Diagramme en barres des effectifs


8

Les effectifs d’une variable qualitative ordinale sont représentés au moyen d’un diagramme en
barres.
10
8
6
4
2
0

Sd P Se Su U

17
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Histogramme
En statistique, un histogramme est une représentation graphique permettant de représenter la
répartition d'une variable continue en la représentant avec des colonnes verticales.

Diagramme en barres des effectifs cumulés

Les effectifs cumulés d’une variable qualitative ordinale sont représentés au moyen d’un
diagramme en barres 50
40
30
20
10

Sd P Se Su U
0

Figure 1.5 – Diagramme en barres des effectifs cumulés

18
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

LES PARAMETRES STATISTIQUES


Les paramètres statistiques ont pour but de résumer, à partir de quelques nombres clés, l'essentiel
de l'information relative à l'observation d'une variable quantitative.

On définira plusieurs sortes de paramètres :

Certains, comme la moyenne, seront dits de tendance centrale car ils représentent une
valeur numérique autour de laquelle les observations sont réparties.

D'autres, par exemple, seront dits de dispersion car ils permettent de résumer le plus ou
moins grand étalement des observations de part et d'autre de la tendance centrale.

Les indicateurs de tendance centrale et de position

Ces indicateurs permettent de déterminer l’ordre de grandeur des valeurs constituant la série
et la position où elles sont concentrées. Les trois mesures de tendance centrale sont :
le mode, la médiane et la moyenne.

Selon l’usage courant, toutes les mesures de tendance centrale méritent le nom de
« moyenne ». Lorsqu’on parle de moyenne, on pense à la moyenne arithmétique ; mais il existe
d’autres types de moyennes, chacune d’entre elles ayant la propriété de conserver une
caractéristique de l’ensemble quand on remplace chaque élément de l’ensemble par cette valeur
unique; chaque moyenne n’a donc d’intérêt que pour autant que cette propriété soit utile.

Les « moyennes » sont des valeurs abstraites qui, sauf par hasard, ne correspondent à aucune
réalisation concrète.

19
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Le mode

Le Mode ou la valeur dominante d’une série de fréquences noté Mo, est la valeur
particulière de la variable pour laquelle la fréquence est maximum.
Il correspond à l’effectif le plus grand ou la fréquence la plus importante.
Le mode, historiquement, est l’un des premiers paramètres de position utilisés.
Cette valeur centrale est simple à percevoir. Mais elle ne tient pas compte de
l’ensemble des valeurs du caractère de la série étudiée.

Le mode peut ne pas exister ou même s’il existe, il peut être multiple. Elle ne
s’intéresse qu’aux effectifs (ou aux fréquences) des différentes modalités

- Amodale: pas de mode - Unimodale: un seul mode

- Bimodale: deux modes - Plurimodale: plusieurs modes

Cas de données classées


Intervalle de classe

Pour déterminer l’intervalle d’une classe, il importe de faire la différence entre la limite
supérieure et la limite inferieure de la classe. L’intervalle d’une classe est généralement notée Ci.
D’autres notations sont possibles : « i » ou « a ».

Pour obtenir une mesure de la tendance centrale non influencée par les valeurs extrêmes de la
distribution, on peut prendre la valeur – ou la classe de valeurs – du caractère pour laquelle le
diagramme en bâtons – respectivement l’histogramme – présente son maximum : c’est le mode –
respectivement l’intervalle modal – de la distribution ; dans le cas où le diagramme en bâtons–
ou l’histogramme – présente aussi un maximum local, il y a deux modes –respectivement deux
classes modales.

20
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Lorsque la variable statistique est continue, la classe modale est la classe dont la fréquence par
unité d’amplitude est la plus élevée.
Pour les séries à caractère continu, la détermination du mode est plus délicate.
On perçoit immédiatement la classe correspondant à la fréquence la plus grande ou à l’effectif
le plus important. Cette classe porte le nom de classe modale; elle contient le mode

où:

Linf : limite inférieure de la classe modale.

D1 : différence entre les effectifs (ou les fréquences simples) de la classe modale et de la classe
précédente.

D2 : différence entre les effectifs (ou les fréquences simples) de la classe modale et de la classe
suivante.

Ci : intervalle de la classe modale ou amplitude de la classe modale.

Le Mode

Avantages

- Pas influencé par les valeurs extrêmes de la v.a,

- Calculable sur des caractères cycliques (saison, etc.) où la moyenne a peu de


signification,

- Bon indicateur de population hétérogène.

Inconvénients

- Se prête mal aux calculs statistiques,

- Très sensible aux variations d’amplitude des classes,

- Son calcul ne tient compte que des individus dont les valeurs se rapprochent de la
classe modale.

21
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

La médiane

La médiane est une caractéristique de position. Elle est la valeur de la variable statistique telle
qu’il y ait autant d’observations supérieures et d’observations inférieures à cette valeur. Elle
partage la série statistique en deux parties d’égal effectif.

Elle se détermine soit à partir de la série des valeurs ordonnées, soit à partir de la fonction
cumulative.

Intuitivement, on peut dire que la médiane est le point milieu de l'ensemble, qu'elle divise en
deux moitiés.

La médiane est un indicateur de position insensible aux variations des valeurs extrêmes de la
variable.

C’est la valeur M telle que F(M) = 0.5

Calcul de la médiane
Pour trouver une médiane, il faut :

1) Ranger en ordre croissant ou décroissant les nombres de la suite

2) Examiner la parité de la suite

2 cas peuvent se présenter :

- Série impaire

- Série paire

Série impaire
Dans le cas où la série comporte un nombre impair n d’observations, la médiane est
égale à la valeur de profondeur maximum (n + 1)/2

M = X(n+1)/2
22
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Exemple

Calculez la médiane de cette distribution :

0, 3, 4, 6, 4, 8, 7, 0, 1
On ordonne les valeurs

0, 0, 1, 3, 4, 4, 6, 7, 8

On cherche la valeur séparant 50% des effectifs supérieurs et inférieurs

0, 0, 1, 3, 4, 4, 6, 7, 8

Rang de la valeur médiane =(9+1)/2

La médiane est la 5ème valeur = 4

Série Paire
Dans le cas où la série comporte un nombre pair n d’observations, la médiane est la
moyenne arithmétique des deux valeurs de profondeur n/2 et est ainsi définie comme la valeur
de profondeur (n /2)+1.

M = Xn/2 + X(n/2)+1
2

Exemple

Calculez la médiane de cette distribution :

12, 5, 7, 18, 11, 15, 9, 5


On ordonne les valeurs

5, 5, 7, 9, 11, 12, 15, 18

Nombre pair de valeurs: on cherche la moyenne des 2 valeurs séparant 50%des effectifs

- La médiane est la demi-somme de la p-ième et de la (p+1)ième valeur

5, 5, 7, 9, 11, 12, 15, 18

Me = (9+11) / 2 = 10 → La médiane est 10

23
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

La médiane est ainsi dans tous les cas la valeur de profondeur (n + 1)/2.

On peut aussi déterminer une médiane pour un ensemble de valeurs non numériques pour autant
qu'on puisse choisir un critère d'ordonnancement de ces valeurs.

La Médiane : Cas de données classées


Lorsque les données d’une variable statistique discrète sont classées, il n’existe
généralement pas une valeur médiane Me pour laquelle la fonction cumulative vaut 50 %. Il
faut dans ce cas utiliser d’autres valeurs typiques pour caractériser la tendance centrale de la
série.

Pour les variables statistiques continues, la valeur médianeMe est telle que F(Me) =
50%. On commence par chercher la classe médiane à l’aide des fréquences cumulées, la
classe médiane [xi –1, xi[ étant telle que Fi –1 < 50% et Fi > 50%. La valeur de la
médiane s’obtient ensuite par interpolation linéaire en raison de l’hypothèse d’équirépartition
à l’intérieur des classes. Cette détermination peut se faire par le calcul.

Calcul de la médiane pour les répartitions en classes


Lorsqu’on ne connaît qu’une répartition en classes (situation à éviter…) on cherche à
déterminer la classe médiane [ei-1, ei[ telle que:

F(ei-1) < 0.5 et F(ei) > 0.5

Et on détermine M par interpolation linéaire

Avec:

Linf : borne inférieure de la classe

Ci : amplitude de classe

Fi-1 : fréquence cumulée précédant la Médiane

fi : fréquence relative de la classe médiane

24
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

La médiane peut aussi être déterminée à partir de la courbe des fréquences cumulées comme
l’abscisse du point d’ordonnée 50 %.
Une seule observation très élevée (ou très faible) peut influencer fortement la moyenne, alors que
la médiane peut supporter sans être modifiée qu’une moitié des observations soit très élevée (ou
très faible) : on dit que la médiane est résistante.

Remarque
Dans le cas de distribution unimodale, la médiane est fréquemment comprise entre la moyenne
arithmétique et le mode, et plus près de la moyenne que du mode. Si la distribution est
symétrique, ces trois caractéristiques de tendance centrale sont confondues.

Médiane

Avantages
- Pas influencée par les valeurs extrêmes de la série

- Peu sensible aux variations d’amplitude des classes,

- Calculable sur des caractères cycliques (saison, etc) où la moyenne a peu de signification

Inconvénients
- Se prête mal aux calculs statistiques,

- Suppose l’équirépartition des données,

- Ne représente que la valeur qui sépare l’échantillon en 2 parties égales.

25
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

La moyenne arithmétique
On appelle moyenne arithmétique la somme de toutes les données statistiques divisée par le
nombre de ces données. La moyenne arithmétique conserve la somme totale des valeurs
observées : si on modifie les valeurs de deux observations d’une série statistique tout en
conservant leur somme, la moyenne de la série sera inchangée.

Cas de données isolées


Soit la série statistique de données brutes : x1 , …, x i , …, x n ,

On appelle une moyenne arithmétique simple le nombre Χ .

Formule permettant de calculer la moyenne arithmétique

Cas de données groupées


Soit p observations distinctes: x1, x2, ….xi, …, xp.

x1 est observé n1 fois, … xi est observé ni fois, … xp est observé np fois.


La moyenne arithmétique est alors:

X = n1x1+ n2x2 + … nixi + … + npxp


n1 + n2 + … + ni + … np

26
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

La Moyenne : Cas de données classées


Dans le cas d’une variable continue classée, on considère, comme pour le calcul de la
moyenne, que chaque individu a sa valeur égale au milieu de sa classe d’affectation.

Lorsqu’on a une variable statistique continue, on ne connaît pas les valeurs exactes prises par
la variable, mais seulement le nombre d’observations à l’intérieur de chaque classe. Pour
calculer la moyenne arithmétique d’une telle variable, on ramène chaque observation au
centre de sa classe, ceci en raison de l’hypothèse d’équirépartition à l’intérieur des classes, et
cela revient à considérer la moyenne des individus de la ie classe égale à :

Où Mi désigne le milieu de la classe considérée.

Dans le cas des classes extrêmes non limitées, le choix des limites de ces classes influe
évidemment sur la valeur de la moyenne arithmétique. Ces limites devront être choisies en
fonction des connaissances sur les données et en n’oubliant pas l’hypothèse de base:
l’homogénéité à l’intérieur des classes. Pour une classe extrême dans laquelle on sait qu’il n’y a
pas équirépartition, les observations étant vraisemblablement en majorité regroupées sur une
partie de la classe, il conviendra de choisir la borne extrême :

• moins faible que la borne réelle (supposée) s’il s’agit de la première classe ;
• plus faible que la borne réelle (supposée) s’il s’agit de la dernière classe.

27
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

La Moyenne Arithmétique
Avantages
- Facile à calculer,
- Répond au principe des moindres carrés.

Inconvénients
- Fortement influencée par les valeurs extrêmes de la série
- Représente mal une population hétérogène (polymodale)

28
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

LES PARAMETRES DE DISPERSION

Ces indicateurs quantifient les fluctuations des valeurs observées autour de la moyenne
arithmétique. Ils ne s’appliquent qu’aux variables quantitatives.
Les Paramètres centraux ne résumant pas complètement une distribution, La Dispersion est la
notion clé. Elle Exprime la variabilité.

Les paramètres mesurant la dispersion :


- Étendue (range)
- Espace interquartile (entre 1er et 3ème)
- Variance
- Ecart-type

L’étendue
L’étendue est la différence entre la plus grande et la plus petite des valeurs observées :

Étendue = Xi max – Xi min

Cette mesure de la dispersion ne dépend que des valeurs extrêmes souvent exceptionnelles. Il
faut remarquer aussi que la forme de la distribution entre les valeurs extrêmes n’influe pas sur
l’étendue. Cependant, cette caractéristique, étant facile à calculer et ayant une signification
concrète facile à comprendre, est fréquemment utilisée en contrôle industriel de fabrication.

Les Quantiles

Les quantiles sont des indicateurs de dispersion


On utilise couramment les quantiles d’ordre 1/4, 1/2 et 3/4. Ils sont ainsi notés et nommés :

Q1 = premier quartile = x 0,25

Q2 = deuxième quartile = médiane = x 0,5

Q3 = troisième quartile = x 0,75

29
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Les quartiles se déterminent, comme la médiane, à l’aide de la profondeur


(variable discrète), ou à l’aide des fréquences cumulées (variable continue).

Dans le cas d’une variable statistique discrète, le premier quartile Q1 et le troisième quartile Q3
sont des éléments de même profondeur égale à (m + 1)/2 o ù m désigne la partie entière de la
profondeur de la médiane. On peut aussi considérer Q1 comme la médiane des m premières
valeurs de la série et Q3 comme la médiane des m dernières valeurs. Ainsi par exemple, pour
une série de 39 observations, la médiane a une profondeur égale à 20, et les quartiles Q1 et Q3
sont de profondeur 10,5 ; pour une série de 50 observations, la médiane a une profondeur de 25,5
et la partie entière de cette profondeur étant 25, les quartiles Q1 et Q3 sont de profondeur 13.

La pratique de la détermination des quartiles ne respecte pas toujours la définition précédente


due à Tukey. Ainsi les calculatrices de poche (TI, Casio,…) déterminent le 1 er quartile (resp.
le 3 e quartile) comme la médiane des valeurs de profondeur inférieure (resp. supérieure) à la
profondeur de la médiane. Le résultat diffère de celui calculé avec la définition de Tukey dans
le cas d’un nombre impair d’observations. Le logiciel SPSS détermine deux types de quartiles :
« Valeurs charnières » selon la définition de Tukey, et « Moyenne pondérée » à l’aide d’une
formule d’interpolation linéaire [Dodge, 1993]. La détermination des premier et troisième
quartiles n’est pas standardisée.

Dans le cas d’une variable statistique continue, on a F(Q1) = 0,25 et F(Q3) = 0,75 et on
calcule les quartiles par interpolation linéaire , en raison de l’hypothèse d’équirépartition . Pour
la distribution de l’ancienneté du chômage des femmes

On peut définir à partir des quartiles Q1 et Q3 le paramètre de tendance centrale


(Q1 + Q3) /2, égal à la médiane dans le cas d’une distribution symétrique, ainsi que l’intervalle
interquartile [Q1, Q3] qui contient 50 % des observations.

Plus généralement, deux quantiles d’ordres complémentaires x et x1- définissent un


intervalle dont le milieu peut être considéré comme un para- mètre de tendance centrale.
De la même façon, on définit les déciles D1, D2,… , D9 qui sont les quantiles xi/10 (i = 1
à 9), les vingtiles, quantiles xi/20 ( i = 1 à 19), les centiles, etc.

30
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Les classes d’une variable statistique continue sont souvent définies à l’aide des déciles.
Dans ce cas, on a 10 classes contenant chacune 10% de l’effectif total

L’intervalle interquartile
De par la définition des quartiles, l’intervalle interquartile [Q1, Q3] contient 50 % des
observations. Sa longueur, notée EIQ (Intervalle InterQuartile), est un indicateur de dispersion
Iiq = Q3 – Q1

Le calcul de l’intervalle interquartile a l’avantage par rapport à celui de l’étendue d’écarter les
valeurs extrêmes, souvent sans signification.

Plus généralement, les longueurs des fourchettes définies par les déciles extrêmes, les centiles
extrêmes constituent des indicateurs de dispersion contenant respectivement 80 % et 98 %
des observations.

Variance
En théorie des probabilités et en statistique, la variance est une mesure arbitraire servant
à caractériser la dispersion d'une distribution ou d'un échantillon. C'est un des moments
caractéristiques d'une distribution qui peut être interprété comme un moment d'inertie.

On peut interpréter la variance comme la moyenne des carrés des écarts à la moyenne
(rigoureusement : l'espérance des carrés des écarts à l'espérance, informellement : moyenne des
carrés moins le carré des moyennes). Elle permet de caractériser la dispersion des valeurs par
rapport à la moyenne. Ainsi, une distribution avec une même espérance et une variance plus
grande apparaîtra comme plus étalée. Le fait que l'on prenne le carré de ces écarts à la moyenne
évite que des écarts positifs et négatifs ne s'annulent. On note souvent la variance d'une
distribution par σ2 et celle d'un échantillon par

31
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Caractériser l'écart de l'ensemble des valeurs

1) Pour une valeur xi, l'écart par rapport à la moyenne est :

2) Les écarts étant de signe + ou -, on considère le carré des écarts

3) La variance est la moyenne arithmétique des carrés des écarts à la moyenne

σ2 = variance pour la population (N)

N.B : La variance est toujours positive ou nulle.

32
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

L’écart-type
L’écart-type sX d’une variable statistique X est la mesure de dispersion la plus couramment
utilisée.

Algébriquement, il se définit comme la racine carrée de la variance, et la variance est la moyenne


arithmétique des carrés des écarts à la moyenne arithmétique :

L'écart type est toujours positif ou nul. Celui d'une constante est nul.

Dans le cas d’une variable statistique continue, on ramène la valeur de chaque individu au milieu
de sa classe d’affectation. Là encore, le choix des bornes des classes extrêmes non limitées doit
être fait avec précaution.

Mais, alors que pour le calcul de la moyenne, l’erreur liée à ce choix était faible dans le cas de
distributions approximativement symétriques autour de la moyenne, il n’en est pas de même pour
le calcul de la variance où les erreurs s’ajoutent et ne peuvent pas se compenser.

L’écart-type est exprimé dans la même unité que les observations, alors que la variance
s’exprime dans le carré de cette unité.
En statistique descriptive, où l'étude porte sur une population finie parfaitement connue, la
moyenne et la médiane sont utilisées comme critères de position et l'écart type, l'écart moyen,
l'étendue, etc. comme critères de dispersion. Tous ces critères aident ensemble à résumer
l'échantillon statistique.

Dans la pratique, on préfère l'écart type (lettre grecque sigma) à la variance , car l'écart-
type peut être comparé à l'ordre de grandeur des valeurs, ce qui n'est pas le cas de la variance.
L'écart type sert à mesurer la dispersion d'un ensemble de données.

33
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT

Plus il est faible, plus les valeurs sont regroupées autour de la moyenne. Par exemple pour la
répartition des notes d'une classe, plus l'écart type est faible, plus la classe est homogène.

À l'inverse, s’il est plus important, les notes sont moins resserrées. Dans le cas d'une notation de
0 à 20, l'écart type minimal est 0 (notes toutes identiques), et peut valoir jusqu'à 10 si la moitié de
la classe a 0/20 et l'autre moitié 20/20.

Coefficient de variation

Le coefficient de variation (coefficient de dispersion) est une mesure de dispersion des


observations d'une variable quantitative. C'est une mesure neutre.
Elle est calculée en divisant l'écart-type par la moyenne.

On exprime souvent le coefficient de variation en pourcentage. Sans unité, il permet de comparer


facilement la dispersion des variables différentes.

34

Vous aimerez peut-être aussi