Académique Documents
Professionnel Documents
Culture Documents
COUSSEILLANT
Fy1 - INTRODUCTION
-HISTORIQUE ET DEFINITION
-METHODES STATISTIQUES
CHAPITRE 1
- TERMINOLOGIE
- LA POPULATION
- L’UNITÉ STATTISTIQUE OU L’INDIVIDU
- L’ÉCHANTILLON
- LE CARACTÈRE OU LA VARIABLE
- LA MODALITÉ
CHAPITRE 2
- REPRESENTATION GRAPHIQUE
CHAPITRE 3
LES PARAMETRES STATISTIQUES
- LES PARAMETRES DE TENDANCE CENTRALE
- LE MODE
- LA MEDIANE
- LA MOYENNE
- L’ETENDUE DE VARIATION
- LES QUANTILES
- L’INTERVALLE INTERQUARTILE
- LA VARIANCE ET L’ECART-TYPE
- LE COEFFICIENT DE VARIATION
1
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
2
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
HISTORIQUE ET DÉFINITION
L’histoire de la "statistique" remonte à une époque très ancienne. Les activités statistiques
(dénombrements) ont commencé bien avant la création du mot, l’application de la méthode et de
l’analyse statistique. Depuis l’antiquité, les Empereurs, les Rois et les Hommes d’Eglise
réalisaient des dénombrements de populations humaines et de terres pour les besoins de la guerre
et de l’impôt.
On cite, d'une part, l'empereur chinois Yao, organisant le recensement des productions
agricoles en 2238 avant J.-C., et, d'autre part, l'institution du cadastre et du cens chez les
Égyptiens, en 1700 avant J.-C. L'importance sociale de la statistique était reconnue, puisqu'il
advint que le pharaon Amasis édicta la peine de mort contre ceux qui refusaient de déclarer leurs
nom, profession et moyens de subsistance. A Rome, l’empereur Auguste fit procéder à une vaste
enquête en dénombrant les soldats, les navires et les revenus publics.
Jusqu’au moyen âge, les seules "statistiques" existante étaient les dénombrements faits
dans des buts divers : assiettes de l’impôt, répartition des terres, recrutement dans l’armée est
effectués avec des méthodes diverses (recensements des personnes, enregistrements de certains
actes d’état civil ...).
C’est à partir du XVIII siècle, qu’apparait le mot "statistique" crée par ACHENWALL en
1746 à partir du mot "STATISTA" (politique). Du simple dénombrement de populations
humaines et de terres, la statistique est devenue une science qui a retenu et continue de retenir
l’attention, non seulement des empereurs et de rois, mais surtout des personnes de sciences.
3
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
considérable et une application vaste et variée. La statistique utilise les techniques et des
méthodes de collecte, de présentation, d’étude et d’analyse des données quantitatives. La
statistique n’est pas uniquement utilisée pour décrire, pour mieux connaitre un événement
survenu dans le passé mais elle intervient de plus en plus dans les travaux de planification, dans
le choix de prises de décisions et d’actions.
DÉFINITION DE LA STATISTIQUE
Définition : La Statistique, c'est l'étude des variations observables. C'est une méthode qui
consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les
analyser et à les interpréter.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les
champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l’économie à la biologie en passant par la psychologie, et bien sur les sciences
de l’ingénieur.
4
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
But de la Statistique
Les données sont entâchées d’incertitudes et présentent des variations pour plusieurs raisons :
le déroulement des phénomènes observés n’est pas prévisible à l’avance avec certitude
toute mesure est entâchée d’erreur
seuls quelques individus sont observés ...
⇒ données issues de phénomènes aléatoires
⇒ intervention du hasard et des probabilités
MÉTHODES STATISTIQUES
• 2ème étape : On trie les données que l’on organise en tableaux, diagrammes, etc...
• 3ème étape : On interprète les résultats : on les compare avec ceux déduits de la
théorie des probabilités.
On pourra donc :
5
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
TERMINOLOGIE.
1- La population est l’ensemble de tous les individus concernés lors de l’étude d’un sujet
particulier. C’est l’univers de référence lors de l’étude d’un problème donné.
4- La taille représente le nombre d’individus d’un échantillon ou d’une population. Elle est
symbolisée par « n » dans le cas d’un échantillon et par « N » dans le cas d’une
population.
6- On appelle modalités les différentes manières d’être que peut présenter un caractère.
7- On dit qu’un caractère (variable) qu’il est qualitatif si ses modalités ne s’expriment pas
par un nombre.
8- On dit d’un caractère qu’il est quantitatif si ses modalités sont numériques.
6
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
A.2- Variable qualitative ordinale. Une population d’électeur est étudiée suivant le
caractère « opinion concernant le premier ministre », dont les modalités sont : très bonne,
bonne, plutôt bonne, plutôt mauvaise, mauvaise. Cette variable est qualitative ordinale.
En effet, cela a du sens de définir l’ordre1 selon lequel « très bonne » est supérieur a
« bonne ».
B.1- Variable quantitative discrète. D’un point de vue théorique, une variable
quantitative est discrète si l’ensemble de ses modalités est dénombrable2. D’un point de vue
opérationnel, un moyen efficace de déterminer si une variable quantitative est discrète
consiste à se demander si la valeur des modalités relève ou non d’un comptage. Ainsi, on
compte un « nombre d’enfants », un «nombre de pièces d’un logement ».
1
Une relation d’ordre sur un ensemble est une relation réflexive, transitive et antisymétrique.
2
Un ensemble est dénombrable s’il est possible de construire une bijection entre cet ensemble et une partie de
l’ensemble N des entiers naturels.
7
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Très souvent, les modalités d’une variable continue sont obtenues en utilisant un instrument de
mesure. Ainsi, pour déterminer la taille d’une personne, le diamètre d’un cylindre, la longueur
d’un câble, il faut disposer d’un instrument de mesure. Ces trois variables sont quantitatives
continues.
Dans la pratique, il est clair que la variable « couleur du véhicule » est qualitative nominale, cela
n’a donc pas de sens de calculer la moyenne de rouge, vert, jaune. Cependant, lorsque les
modalités d’une variable ont été codées numériquement pour faciliter la saisie des données (par
exemple, 1 pour rouge, 2 pour vert, etc.), il convient d’avoir à l’esprit le fait que la variable est
nominale, pour ne pas réaliser d’opérations mathématiques sur ses modalités.
Tableau statistique
Les séries statistiques sont généralement présentées sous forme de tableau.
Un tableau est la correspondance entre les modalités d’un caractère et le nombre d’apparitions de
ces modalités. Les tableaux peuvent etre à un ou plusieurs caractères.
2- Le corps du tableau qui réunit les entêtes, les titres des lignes, les titres des colonnes et
les cases où sont placées les fréquences.
8
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Signes Signification
- Néant, nul
0 quantité inferieur à la moitie de l’unité utilisée
… information non disponible
A* information provisoire ou estimée
En règle générale, on choisit des classes de même amplitude. Pour que la distribution en
fréquence est un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs (ni).
Ce nombre de classe varie généralement entre 5 et 15. Il peut être choisi arbitrairement ou bien
nous être imposé, ou encor être fixe à partir de diverse méthode mathématique, par exemple la
règle de Sturges ou de Yule.
9
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Règle de Sturges
Elle permet d’établir les classes et regroupement à opérer. La règle de Sturges, définie selon le
postulat indiquant que c'est l'ordre de grandeur du nombre de données qui importe pour
déterminer le nombre de classes. Une prémisse à la construction de la règle de Sturges est
que le nombre de classes à utiliser doit être suffisamment grand lorsque les données sont
peu nombreuses afin de repérer une concentration éventuelle de données dans une classe.
Par ailleurs, un très grand nombre de données ne nécessite pas pour autant d'augmenter trop le
nombre de classes. L'opération mathématique «logarithme» permet d'établir une fonction entre
le nombre de données et le nombre de classes qui respecte cette prémisse (voir la figure).
Graphique cartésien où le nombre entier k de classes à constituer sur l'axe vertical est
fonction du nombre n de données sur l'axe horizontal en vertu de la règle de Sturges; si 160
données sont disponibles, 8 classes sont recommandées pour les regrouper.
La règle suivante fait varier le nombre entier k de classes ou intervalles à constituer selon le
nombre n de données:
k = 1 + 3,3 log10n
10
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Exercice d'application
n= nombre de données Règle de Sturges K=nombre approché de classes
10 k = 1 + 3,3 log10 = 4,3 = 4
100 k = 1 + 3,3 log100 = 7,6 = 8
1 000 k = 1 + 3,3 log1 000 = 10,9 = 11
10 000 k = 1 + 3,3 log10 000 = 14,2 = 14
Notons que ces mêmes nombres peuvent être obtenus en utilisant directement le graphique.
Bien qu'il ne soit pas essentiel de les suivre à la lettre, les recommandations fournies par le
tableau ou la règle de Sturges constituent toutefois des indications précieuses.
avec X max et X min, respectivement la plus grande et la plus petite valeur de X dans la
série statistique.
A partir de Xmin on obtient les limites de classes ou bornes de classes par addition successive
de l’intervalle de classe. En règle général, on tente de faire coïncider l’indice de classe ou valeur
centrale de la classe avec un nombre entier ou ayant peu de décimales.
11
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Règle de Yule : = 6,12 les deux valeurs sont très peu différentes
IC = = 0,160 m3/s que l’on arrondit à 0.17 mètre cube par seconde
1- La fréquence (simple) d’une modalité i, notée fi est égale a la proportion d’individus qui
présentent cette modalité est donc égale a l’effectif de cette modalité divisé par l’effectif
total de la population.
12
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Croissantes
N0 = n0 ; N1 = N0 + n1 ; N2 = N1 + n2 ; N3 = N2 + n3 et ainsi de suite.
Décroissantes
N0 = N ; N1 = N – n0 ; N2 = N1 – n1 ; N3 = N2 – n2 et ainsi de suite.
F0 = f0 ; F1 = F0 + f1 ; F2 = F1 + f2 ; F3 = F2 + f3 et ainsi de suite.
A noter que la dernière fréquence relative cumulée croissante doit être égale à 1 ou a 100
13
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Exemple On s’intéresse à la variable ‘état-civil’ notée X et à la série statistique des valeurs prises par X
C : célibataire, M : marié(e),
V : veuf(ve), D : divorcée.
MM D C C M C C C M
C M V M V D C C C M
Ici, n = 20,
Parmi les 20 personnes interrogées de l’échantillon 9 d’entre eux, ont déclarée être des
Célibataires " ou " 45 % des personnes interrogées de l’échantillon sont Célibataires.
Notation :
X: une variable statistique (caractère)
xi : (modalités) valeurs possibles prises par la variable statistique X
fi : le nombre d’unités (fréquence absolue) présentant la valeur xi
fi /n : la fréquence relative de xi
Fi: la fréquence cumulée des valeurs prises par la variable X qui sont inférieures ou égales à xi
Fi /n: fréquence relative cumulée - c'est la proportion des valeurs prises par la variable X qui
sont inférieures ou égales à xi
n: taille de l'échantillon
14
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Ex : Distribution du débit moyen d’une certaine rivière pour les 3 dernières années en m3/s
Il y a 34 mois, soit 94% dont le débit moyen est 0.75 m3/s au plus.
ou
Il y a 34 mois, soit 94% dont le débit moyen est inferieur ou égal a 0.75 m3/s.
Il y a 5 mois, soit 14% dont le débit moyen est au moins 0.59 m3/s.
ou
Il y a 5 mois, soit 14% dont le debit moyen est superieur ou egal a 0.59 m3/s.
15
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Représentation Graphique
2. On obtient le polygone des effectifs (ou des fréquences) en reliant les milieux des
bases supérieures des rectangles.
16
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
portant les points dont les abscisses représentent la borne supérieure de chaque
classe et les ordonnées les fréquences cumulées correspondantes, puis en reliant
ces points par des segments de droite. Son équivalent dans la théorie probabiliste
est la fonction de répartition.
Diagramme en secteurs
Un diagramme circulaire ou diagramme en secteurs, aussi appelé (diagramme) camembert, est un type
de diagramme utilisé en statistiques. Il permet de représenter un petit nombre de valeurs par
des angles proportionnels à ces valeurs.
Les effectifs d’une variable qualitative ordinale sont représentés au moyen d’un diagramme en
barres.
10
8
6
4
2
0
Sd P Se Su U
17
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Histogramme
En statistique, un histogramme est une représentation graphique permettant de représenter la
répartition d'une variable continue en la représentant avec des colonnes verticales.
Les effectifs cumulés d’une variable qualitative ordinale sont représentés au moyen d’un
diagramme en barres 50
40
30
20
10
Sd P Se Su U
0
18
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Certains, comme la moyenne, seront dits de tendance centrale car ils représentent une
valeur numérique autour de laquelle les observations sont réparties.
D'autres, par exemple, seront dits de dispersion car ils permettent de résumer le plus ou
moins grand étalement des observations de part et d'autre de la tendance centrale.
Ces indicateurs permettent de déterminer l’ordre de grandeur des valeurs constituant la série
et la position où elles sont concentrées. Les trois mesures de tendance centrale sont :
le mode, la médiane et la moyenne.
Selon l’usage courant, toutes les mesures de tendance centrale méritent le nom de
« moyenne ». Lorsqu’on parle de moyenne, on pense à la moyenne arithmétique ; mais il existe
d’autres types de moyennes, chacune d’entre elles ayant la propriété de conserver une
caractéristique de l’ensemble quand on remplace chaque élément de l’ensemble par cette valeur
unique; chaque moyenne n’a donc d’intérêt que pour autant que cette propriété soit utile.
Les « moyennes » sont des valeurs abstraites qui, sauf par hasard, ne correspondent à aucune
réalisation concrète.
19
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Le mode
Le Mode ou la valeur dominante d’une série de fréquences noté Mo, est la valeur
particulière de la variable pour laquelle la fréquence est maximum.
Il correspond à l’effectif le plus grand ou la fréquence la plus importante.
Le mode, historiquement, est l’un des premiers paramètres de position utilisés.
Cette valeur centrale est simple à percevoir. Mais elle ne tient pas compte de
l’ensemble des valeurs du caractère de la série étudiée.
Le mode peut ne pas exister ou même s’il existe, il peut être multiple. Elle ne
s’intéresse qu’aux effectifs (ou aux fréquences) des différentes modalités
Pour déterminer l’intervalle d’une classe, il importe de faire la différence entre la limite
supérieure et la limite inferieure de la classe. L’intervalle d’une classe est généralement notée Ci.
D’autres notations sont possibles : « i » ou « a ».
Pour obtenir une mesure de la tendance centrale non influencée par les valeurs extrêmes de la
distribution, on peut prendre la valeur – ou la classe de valeurs – du caractère pour laquelle le
diagramme en bâtons – respectivement l’histogramme – présente son maximum : c’est le mode –
respectivement l’intervalle modal – de la distribution ; dans le cas où le diagramme en bâtons–
ou l’histogramme – présente aussi un maximum local, il y a deux modes –respectivement deux
classes modales.
20
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Lorsque la variable statistique est continue, la classe modale est la classe dont la fréquence par
unité d’amplitude est la plus élevée.
Pour les séries à caractère continu, la détermination du mode est plus délicate.
On perçoit immédiatement la classe correspondant à la fréquence la plus grande ou à l’effectif
le plus important. Cette classe porte le nom de classe modale; elle contient le mode
où:
D1 : différence entre les effectifs (ou les fréquences simples) de la classe modale et de la classe
précédente.
D2 : différence entre les effectifs (ou les fréquences simples) de la classe modale et de la classe
suivante.
Le Mode
Avantages
Inconvénients
- Son calcul ne tient compte que des individus dont les valeurs se rapprochent de la
classe modale.
21
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
La médiane
La médiane est une caractéristique de position. Elle est la valeur de la variable statistique telle
qu’il y ait autant d’observations supérieures et d’observations inférieures à cette valeur. Elle
partage la série statistique en deux parties d’égal effectif.
Elle se détermine soit à partir de la série des valeurs ordonnées, soit à partir de la fonction
cumulative.
Intuitivement, on peut dire que la médiane est le point milieu de l'ensemble, qu'elle divise en
deux moitiés.
La médiane est un indicateur de position insensible aux variations des valeurs extrêmes de la
variable.
Calcul de la médiane
Pour trouver une médiane, il faut :
- Série impaire
- Série paire
Série impaire
Dans le cas où la série comporte un nombre impair n d’observations, la médiane est
égale à la valeur de profondeur maximum (n + 1)/2
M = X(n+1)/2
22
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Exemple
0, 3, 4, 6, 4, 8, 7, 0, 1
On ordonne les valeurs
0, 0, 1, 3, 4, 4, 6, 7, 8
0, 0, 1, 3, 4, 4, 6, 7, 8
Série Paire
Dans le cas où la série comporte un nombre pair n d’observations, la médiane est la
moyenne arithmétique des deux valeurs de profondeur n/2 et est ainsi définie comme la valeur
de profondeur (n /2)+1.
M = Xn/2 + X(n/2)+1
2
Exemple
Nombre pair de valeurs: on cherche la moyenne des 2 valeurs séparant 50%des effectifs
23
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
La médiane est ainsi dans tous les cas la valeur de profondeur (n + 1)/2.
On peut aussi déterminer une médiane pour un ensemble de valeurs non numériques pour autant
qu'on puisse choisir un critère d'ordonnancement de ces valeurs.
Pour les variables statistiques continues, la valeur médianeMe est telle que F(Me) =
50%. On commence par chercher la classe médiane à l’aide des fréquences cumulées, la
classe médiane [xi –1, xi[ étant telle que Fi –1 < 50% et Fi > 50%. La valeur de la
médiane s’obtient ensuite par interpolation linéaire en raison de l’hypothèse d’équirépartition
à l’intérieur des classes. Cette détermination peut se faire par le calcul.
Avec:
Ci : amplitude de classe
24
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
La médiane peut aussi être déterminée à partir de la courbe des fréquences cumulées comme
l’abscisse du point d’ordonnée 50 %.
Une seule observation très élevée (ou très faible) peut influencer fortement la moyenne, alors que
la médiane peut supporter sans être modifiée qu’une moitié des observations soit très élevée (ou
très faible) : on dit que la médiane est résistante.
Remarque
Dans le cas de distribution unimodale, la médiane est fréquemment comprise entre la moyenne
arithmétique et le mode, et plus près de la moyenne que du mode. Si la distribution est
symétrique, ces trois caractéristiques de tendance centrale sont confondues.
Médiane
Avantages
- Pas influencée par les valeurs extrêmes de la série
- Calculable sur des caractères cycliques (saison, etc) où la moyenne a peu de signification
Inconvénients
- Se prête mal aux calculs statistiques,
25
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
La moyenne arithmétique
On appelle moyenne arithmétique la somme de toutes les données statistiques divisée par le
nombre de ces données. La moyenne arithmétique conserve la somme totale des valeurs
observées : si on modifie les valeurs de deux observations d’une série statistique tout en
conservant leur somme, la moyenne de la série sera inchangée.
26
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Lorsqu’on a une variable statistique continue, on ne connaît pas les valeurs exactes prises par
la variable, mais seulement le nombre d’observations à l’intérieur de chaque classe. Pour
calculer la moyenne arithmétique d’une telle variable, on ramène chaque observation au
centre de sa classe, ceci en raison de l’hypothèse d’équirépartition à l’intérieur des classes, et
cela revient à considérer la moyenne des individus de la ie classe égale à :
Dans le cas des classes extrêmes non limitées, le choix des limites de ces classes influe
évidemment sur la valeur de la moyenne arithmétique. Ces limites devront être choisies en
fonction des connaissances sur les données et en n’oubliant pas l’hypothèse de base:
l’homogénéité à l’intérieur des classes. Pour une classe extrême dans laquelle on sait qu’il n’y a
pas équirépartition, les observations étant vraisemblablement en majorité regroupées sur une
partie de la classe, il conviendra de choisir la borne extrême :
• moins faible que la borne réelle (supposée) s’il s’agit de la première classe ;
• plus faible que la borne réelle (supposée) s’il s’agit de la dernière classe.
27
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
La Moyenne Arithmétique
Avantages
- Facile à calculer,
- Répond au principe des moindres carrés.
Inconvénients
- Fortement influencée par les valeurs extrêmes de la série
- Représente mal une population hétérogène (polymodale)
28
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Ces indicateurs quantifient les fluctuations des valeurs observées autour de la moyenne
arithmétique. Ils ne s’appliquent qu’aux variables quantitatives.
Les Paramètres centraux ne résumant pas complètement une distribution, La Dispersion est la
notion clé. Elle Exprime la variabilité.
L’étendue
L’étendue est la différence entre la plus grande et la plus petite des valeurs observées :
Cette mesure de la dispersion ne dépend que des valeurs extrêmes souvent exceptionnelles. Il
faut remarquer aussi que la forme de la distribution entre les valeurs extrêmes n’influe pas sur
l’étendue. Cependant, cette caractéristique, étant facile à calculer et ayant une signification
concrète facile à comprendre, est fréquemment utilisée en contrôle industriel de fabrication.
Les Quantiles
29
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Dans le cas d’une variable statistique discrète, le premier quartile Q1 et le troisième quartile Q3
sont des éléments de même profondeur égale à (m + 1)/2 o ù m désigne la partie entière de la
profondeur de la médiane. On peut aussi considérer Q1 comme la médiane des m premières
valeurs de la série et Q3 comme la médiane des m dernières valeurs. Ainsi par exemple, pour
une série de 39 observations, la médiane a une profondeur égale à 20, et les quartiles Q1 et Q3
sont de profondeur 10,5 ; pour une série de 50 observations, la médiane a une profondeur de 25,5
et la partie entière de cette profondeur étant 25, les quartiles Q1 et Q3 sont de profondeur 13.
Dans le cas d’une variable statistique continue, on a F(Q1) = 0,25 et F(Q3) = 0,75 et on
calcule les quartiles par interpolation linéaire , en raison de l’hypothèse d’équirépartition . Pour
la distribution de l’ancienneté du chômage des femmes
30
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Les classes d’une variable statistique continue sont souvent définies à l’aide des déciles.
Dans ce cas, on a 10 classes contenant chacune 10% de l’effectif total
L’intervalle interquartile
De par la définition des quartiles, l’intervalle interquartile [Q1, Q3] contient 50 % des
observations. Sa longueur, notée EIQ (Intervalle InterQuartile), est un indicateur de dispersion
Iiq = Q3 – Q1
Le calcul de l’intervalle interquartile a l’avantage par rapport à celui de l’étendue d’écarter les
valeurs extrêmes, souvent sans signification.
Plus généralement, les longueurs des fourchettes définies par les déciles extrêmes, les centiles
extrêmes constituent des indicateurs de dispersion contenant respectivement 80 % et 98 %
des observations.
Variance
En théorie des probabilités et en statistique, la variance est une mesure arbitraire servant
à caractériser la dispersion d'une distribution ou d'un échantillon. C'est un des moments
caractéristiques d'une distribution qui peut être interprété comme un moment d'inertie.
On peut interpréter la variance comme la moyenne des carrés des écarts à la moyenne
(rigoureusement : l'espérance des carrés des écarts à l'espérance, informellement : moyenne des
carrés moins le carré des moyennes). Elle permet de caractériser la dispersion des valeurs par
rapport à la moyenne. Ainsi, une distribution avec une même espérance et une variance plus
grande apparaîtra comme plus étalée. Le fait que l'on prenne le carré de ces écarts à la moyenne
évite que des écarts positifs et négatifs ne s'annulent. On note souvent la variance d'une
distribution par σ2 et celle d'un échantillon par
31
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
32
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
L’écart-type
L’écart-type sX d’une variable statistique X est la mesure de dispersion la plus couramment
utilisée.
L'écart type est toujours positif ou nul. Celui d'une constante est nul.
Dans le cas d’une variable statistique continue, on ramène la valeur de chaque individu au milieu
de sa classe d’affectation. Là encore, le choix des bornes des classes extrêmes non limitées doit
être fait avec précaution.
Mais, alors que pour le calcul de la moyenne, l’erreur liée à ce choix était faible dans le cas de
distributions approximativement symétriques autour de la moyenne, il n’en est pas de même pour
le calcul de la variance où les erreurs s’ajoutent et ne peuvent pas se compenser.
L’écart-type est exprimé dans la même unité que les observations, alors que la variance
s’exprime dans le carré de cette unité.
En statistique descriptive, où l'étude porte sur une population finie parfaitement connue, la
moyenne et la médiane sont utilisées comme critères de position et l'écart type, l'écart moyen,
l'étendue, etc. comme critères de dispersion. Tous ces critères aident ensemble à résumer
l'échantillon statistique.
Dans la pratique, on préfère l'écart type (lettre grecque sigma) à la variance , car l'écart-
type peut être comparé à l'ordre de grandeur des valeurs, ce qui n'est pas le cas de la variance.
L'écart type sert à mesurer la dispersion d'un ensemble de données.
33
Notes de cours STATISTIQUE DESCRIPTIVE Prof. COUSSEILLANT
Plus il est faible, plus les valeurs sont regroupées autour de la moyenne. Par exemple pour la
répartition des notes d'une classe, plus l'écart type est faible, plus la classe est homogène.
À l'inverse, s’il est plus important, les notes sont moins resserrées. Dans le cas d'une notation de
0 à 20, l'écart type minimal est 0 (notes toutes identiques), et peut valoir jusqu'à 10 si la moitié de
la classe a 0/20 et l'autre moitié 20/20.
Coefficient de variation
34