Académique Documents
Professionnel Documents
Culture Documents
La statistique étudie de façon quantitative des ensembles nombreux et elle est basée sur deux notions
fondamentales : la population et l’échantillon.
Dans le cadre d’une étude particulière, on dispose d’un ensemble de données concernant des unités statistiques. La
population est la totalité de ces unités statistiques. Plus précisément :
On appelle individu statistique (ou unité statistique élémentaire), et on note tout élément (ou « objet »)
examiné dans le cadre d’une étude statistique.
On appelle population statistique, et on note l’ensemble d’unités statistiques élémentaires constituant les
objets à étudier.
En général, la population est trop grande pour permettre l’étude de tous ses individus. C’est pourquoi les
observations sont ramenées à un sous-ensemble de la population que l’on appelle échantillon. L’étude de ce sous-
ensemble permet de tirer des “conclusions” sur la population entière (sondages par ex.).
On appelle échantillon statistique tout ensemble d’individus prélevés dans une population qui est alors une
partie de .
Le choix de cet échantillon peut se faire de deux façons : soit on le construit d’une manière représentative de la
population entière, ce qui suppose une connaissance parfaite de celle-ci; soit on le construit en piochant
aléatoirement dans la population. Après cette introduction du hasard dans la procédure, les statisticiens s’appuient
sur la théorie mathématique qui décrit le hasard (la théorie des probabilités) pour élaborer des outils plus
performants1.
Pour décrire une population, on repère et on classe les individus ou les unités statistiques en sous-ensembles
appelés caractères. Ainsi, pour chaque individu, on peut relever un ou plusieurs caractères. Le caractère est un
aspect observable du phénomène étudié.
Une unité statistique peut être observée selon plusieurs caractères mais il est strictement indispensable de ne retenir
que les caractères les plus pertinents pour pouvoir décrire une population convenablement, en agrégeant ainsi les
informations en sous-ensembles cohérents.
Chaque caractère étudié peut présenter deux ou plusieurs valeurs, états ou situations différentes que l’on
appelle modalités.
Chaque Il est important de signaler que les différentes modalités d’un caractère doivent être : incompatibles,
exhaustives et sans ambiguïté :
1En statistiques descriptives, on considère les observations et on essayer de les “faire parler” au mieux, sans beaucoup
d’hypothèses sur leur origine (en particulier on considère que l’échantillon = la population).
o incompatibles, de manière à ce qu’un individu ne puisse appartenir à plus d’une modalité à la fois
(un individu ne peut pas être marié et célibataire) ;
o exhaustives, afin de prévoir toutes les situations possibles, sans exception ;
o sans ambiguïté, pour ne pas faire d’erreur de classement.
Cette relation entre la population et l’ensemble des modalités peut être formalisée :
Variable X : M
Population ensemble des modalités
i X( i) noté plus simplement mi
individu observation
A chaque individu de la population est associée une observation particulière, valeur observée de la variable X pour
cet individu. Donc, définir une variable statistique c’est :
- définir la population (ensemble de départ)
- définir l’ensemble des modalités M (ensemble d’arrivée)
Les variables statistiques peuvent être classées selon leur type (ou nature) ;
Une variable statistique est dite qualitative lorsque l’ensemble M des modalités n’est pas un ensemble de
nombres.
On dit alors que la variable (ou le caractère) n’est pas mesurable. Les observations ne sont pas numériques. La
nature qualitative d’une variable s’exprime par l’appartenance à une catégorie d’un ensemble fini (parfois appelé
nomenclature).
Une autre distinction peut être faite pour les variables qualitatives.
Une variable qualitative est dite ordinale lorsque l’ensemble M des modalités peut être ordonné.
Une variable qualitative est dite nominale lorsque l’ensemble M des modalités ne peut être ordonné.
Une variable statistique est dite quantitative (ou numérique) lorsque l’ensemble M des modalités est un
ensemble de nombres.
Les modalités expriment des quantités issues d’un dénombrement ou d’une mesure. On parle alors de valeur
observée de la variable plutôt que de modalité (quantitatif = mesurable = numérique).
Une variable quantitative est discrète lorsqu’elle est mesurée par des nombres isolés et elle n’existe que
pour quelques valeurs (très souvent des nombres entiers : 0, 1, 2, 3, 4, etc.)
Une variable quantitative est continue lorsqu’il est à priori possible de pousser sa mesure à des décimales
(elle existe pour tout nombre réel, c'
est-à-dire lorsque ses valeurs sont en nombre infini).
On appelle amplitude de la classe [ei-1 ; ei [ la longueur de cet intervalle et on note ai le nombre défini par :
ai = ei - ei-1
Les valeurs ei-1 et ei sont les extrémités ou les bornes (ou aussi limites) inférieure et supérieure
respectivement de la classe n° i.
ei −1 + ei
On appelle centre de la classe n° i, et on note ci le nombre défini par : ci =
2
L’information statistique collectée sous forme de données individuelles, n’est pas facilement exploitable et sa
manipulation est lourde. Il est donc nécessaire de la synthétiser sous forme de tableaux, par exemple, qui résume
les variables (ou caractères).
Pour présenter un tableau statistique, trois principes simples doivent être respectées :
Le titre du tableau
Les unités utilisées.
La source ou l’origine de l’information chiffrée
D’habitude, on synthétise et on regroupe les modalités et les effectifs sous forme de tableaux statistiques. Les
tableaux statistiques sont dits « à une dimension » (unidimensionnels), si l’on ne retient qu’un seul caractère ; « à
deux dimensions » ou « croisés » (bidimensionnels), si l’on retient deux caractères.
3.2.1. Effectifs
On appelle effectif d’une modalité xi de la variable X, et on note ni le nombre de fois où cette modalité
est observée.
k
La somme des effectifs constitue l’effectif total de la population : ni = N
i=1
L’effectif ni de la modalité particulière numéro i de la variable est donc le nombre d’individus de la population
possédant cette modalité (c’est le nombre d’occurrences de l’observation).
xk nk
N
A chaque modalité correspond un nombre d’individus ni appelé effectif de la modalité xi ou fréquence absolue.
3.2.2. Fréquences
Pour faire des comparaisons de façon objective, il est souvent utile d’exprimer les effectifs de chaque modalité par
rapport au nombre totale d’individus observés. On procède alors à une transformation des « effectifs absolus » en
« effectifs relatifs ».
On appelle fréquence relative (ou simplement fréquence) d’une modalité xi de la variable X, et on note
ni
f i la proportion d’individus présentant la même modalité dans la population totale : fi = ou en
N
ni
termes de pourcentage fi 0
0 = × 100 .
N
k
La somme des fréquences est égale à l’unité : fi = 1.
i =1
On appelle tableau élémentaire (ou tableau des données brutes) le tableau qui précise, pour chaque
individu de la population, la modalité correspondante de la variable étudiée.
Le tri à plat conduit à la définition d’une distribution statistique. L’ensemble des couples {( xi , ni ), i=1,…,k} est
appelée distribution statistique ou série statistique (avec ni est l’effectif associé à la modalité xi).
On appelle tableau de dénombrement le tableau à deux colonnes qui précise, dans la première, la liste des
k modalités, et dans la seconde, les effectifs (nombre d’individus) correspondants.
Lorsqu’on est en présence de caractères non mesurables (qualitatifs), les modalités x1, x2, …, xk on peut les ranger
de façon plus ou moins arbitraire ou tout simplement selon la logique qui permet au mieux leur interprétation.
On peut, comme dans une nomenclature détaillée, coder les diverses rubriques (ici, de 01 à 03). L’opération de
codage est une opération de classement qui permet de donner un symbole ou un chiffre à une modalité du caractère.
L’opération de codage est une simple représentation condensée de l’information.
Les graphiques sont souvent utiles pour synthétiser de façon visuelle l’information contenue dans les tableaux
statistiques. Ils permettent de faire passer une information de manière moins rebutante (et moins ennuyante) à la
lecture que les tableaux. Cependant cette lecture est moins directe et moins précise. Deux graphiques sont souvent
employés.
Pour le cas des données figurant dans le tableau 2, la distribution pourrait être représentée par un cercle divisé en k
secteurs (chaque modalité sera représentée par un secteur sur le cercle). La superficie du secteur est proportionnelle
à l’effectif de la modalité ou la fréquence de cette modalité.
L’angle au centre : αi = ( fi × 360° ) .
Figure **: Situation matrimoniale de la population de Sfax (en milliers)
3%
18%
79%
Ce type de graphique fait apparaître des rectangles dont la base est constante et les hauteurs sont proportionnelles
aux effectifs ou aux fréquences. En abscisses, on ordonne (facultativement) les modalités du caractère. En
ordonnées, sera représenté la valeur de l’effectif ou la fréquence.
Figure **: Situation matrimoniale de la population de Sfax (en milliers)
90
80
70
60
50
40
30
20
10
0
célibataire divorcé veuf
Dans la présentation des résultats dans un tableau statistique, on ajoute face à chaque valeur possible l’effectif (ou
la fréquence) correspondante. Généralement, les différentes modalités sont listées par ordre croissant de leur valeur.
De plus, on ajoute généralement aussi une troisième colonne, dans laquelle on fait apparaître les effectifs cumulés
croissants.
La fréquence cumulée croissante, qu’on note Fi C est la somme des fréquences correspondantes aux valeurs de la
variable statistique inférieures ou égales à x i . Ainsi, la Fi C indique la proportion des individus pour lesquels la
variable statistique est inférieure ou égale à x i ou encore la proportion des individus pour lesquels la variable
statistique est strictement inférieure à xi+1 ).
F1C = f1
F2C = f1 + f 2 = F1C + f 2
F3C = f1 + f 2 + f 3 = F2C + f 3
k
FkC = f1 + f 2 + ... + f k = fi = FkC−1 + f k = 1
i =1
La fréquence cumulée décroissante, qu’on note Fi D indique la proportion des individus pour lesquels la variable
statistique est strictement supérieure à x i ou encore la proportion des individus pour lesquels la variable statistique
est supérieure ou égale à xi+1 ).
F1D = 1 − f1 = 1 − F1C
F2D = 1 − ( f 1 + f 2 ) = F1D − f 2
F3D = f1 + f 2 + f 3 = F2D − f 3
k
FkD = 1 − ( f 1 + f 2 + ... + f k ) = 1− fi = 0
i =1
L’effectif cumulé croissant, qu’on note N iC est la somme des effectifs correspondants aux valeurs de la variable
statistique inférieures ou égales à x i ou encore le nombre des individus pour lesquels la variable statistique est
strictement inférieure à xi+1 .
N 1C = n1
N 2C = n1 + n 2 = N 1C + n2
N 3C = n1 + n 2 + n3 = N 2C + n3
k
N 3C = n1 + n 2 + n3 + ... + n k = ni = N kC−1 + nk = N
i =1
L’effectif cumulé décroissant, qu’on note N iD indique le nombre des individus pour lesquels la variable statistique
est strictement supérieure à x i ou encore le nombre des individus pour lesquels la variable statistique est supérieure
ou égale à xi+1 .
N 1D = N − n1 = 1 − N 1C
N 2D = N − (n1 + n2 ) = N 1D − n 2
N 3D = N − (n1 + n2 + n3 ) = N 2D − n3
k
N kD = N − (n1 + n2 + n3 + ... + n k ) =N− ni = 0
i =1
3.5.2.1. Diagramme en bâtons des effectifs ou des fréquences des variables discrètes
Sur l’axe des abscisses, on reporte les différentes modalités, et on dresse au-dessus de chacune un segment de
droite dont la hauteur est proportionnelle aux effectifs (ni ) ou aux fréquences (fi ) .
Dans l’exemple suivant, le tableau résume la possession des ménages tunisiens de téléphones portables d’après les
résultats du dernier recensement de la population en 2004:
Pour cet exemple, et d’après le tableau précédent on peut tracer les graphiques (diagramme en bâtons) suivants :
1 300 100,0%
1 200
1 100
1 000 80,0%
900
800 60,0%
700
600
500 40,0%
400
300 20,0%
200
100
0 0,0%
0 1 2 3 4& + 0 1 2 3 4& +
On peut traduire le diagramme en bâtons sous forme d’une courbe polygonale joignant les extrémités des segments
tracés. On obtient ainsi le polygone des effectifs (ou le polygone des fréquences).
On appelle fonction cumulative ou fonction de répartition d’une variable X, et on note F l’application qui,
pour une valeur donnée x de la variable X, précise la proportion des individus de la population pour lesquels
la valeur de la variable est inférieure (strictement) à x.
F : ℜ → [0,1]
x F ( x) = p( X < x)
(proportion des individus de la population pour lesquels la variable X présente une valeur inférieure
strictement à x).
D’une manière générale, la fonction de répartition est constante par intervalle. Sa formulation est la suivante :
0 x ≤ x1
f1 x1 < x ≤ x 2
f +f x 2 < x ≤ x3
F: 1 2
f1 + f2 + + fp−1 xP −1 < x ≤ x p
1 x > xp
Si on revient sur l’ensemble des données antérieures (Ménages et technologies de communication en Tunisie -
Possession de téléphones portables), on peut écrire que :
F(0) = prop(x < 0) = 0
F(1) = prop(x < 1)
= prop(x = 0) = 0,539
F(2) = prop(x < 2)
= prop(x = 0) + prop(x = 1)
= 0,539 + 0,296 = 0,835
F(3) = prop(x < 3)
= prop(x = 0) + prop(x = 1) + prop(x = 2)
= 0,539 + 0,296 + 0,112
= 0,948
F(4 & + ) = prop(x < 4 & + )
= prop(x = 0) + prop( x = 1) + prop(x = 2) + prop(x = 3)
= 0,539 + 0,296 + 0,112 + 0,034
= 0,981
La courbe cumulative est par définition la représentation graphique de la fonction de répartition F(x)
(appelée également diagramme cumulatif ou diagramme intégral) est la suivante :
En définitive, on peut représenter l’évolution des fréquences cumulées croissantes liées aux valeurs d’une variable
discrète (ou encore les effectifs cumulés croissants, si on le souhaite) par un diagramme en escalier.
Dans ce cas, vu que la variable statistique peut prendre une infinité de valeurs, les individus (ou observations) sont
nécessairement regroupés en classes. Les classes sont généralement définies par des intervalles du type [ei-1 ; ei[
avec ei valeur d’une borne.
Les notions de fréquences et d’effectifs cumulées sont les mêmes que dans le cas des variables discrètes.
Le tableau de traitement se présente alors en général sous la forme suivante (cas de données groupées en k classes,
intervalles semi-ouverts à droite) :
Tableau de traitement pour une variable quantitative continue dont les valeurs sont groupées en classes
Les effectifs et les fréquences donnent respectivement le nombre et la proportion d’individus présentant des valeurs
de la variable située dans une même classe.
Dans les deux cas, le mode de représentation graphique spécifique à ce type de situation est l’histogramme, mais le
principe de construction diffère d’un cas à l’autre.
3.6.2. Les graphiques des variables statistiques continues : Classes d’amplitudes égales
Exemple :
La distribution des accidents de la route selon les heures de la journée en France est résumée dans le tableau
suivant.
Tableau : Accidents de la route selon les heures de la journée en France (Découpage avec des classes d’égales amplitudes)
Nombre Fréquences des Fréquences cumulées Fréquences cumulées
Tranche horaire
d'accidents accidents croissantes décroissantes
[0, 3[ 8 155 5,69% 5,69% 94,31%
[3, 6[ 6 258 4,37% 10,05% 89,95%
[6, 9[ 15 284 10,66% 20,72% 79,28%
[9, 12[ 18 006 12,56% 33,28% 66,72%
[12, 15[ 23 703 16,53% 49,81% 50,19%
[15, 18[ 29 759 20,76% 70,57% 29,43%
[18, 21[ 29 172 20,35% 90,92% 9,08%
[21, 24[ 13 022 9,08% 100,00% 0,00%
Total 143 359 100,00%
Source : INSEE, 1992.
0,00%
[0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[
[0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[
Fréquences des accidents
A partir de l’histogramme on peut en déduire le polygone des effectifs ou des fréquences. Pour cela on relie les
milieux des sommets des rectangles de l’histogramme en ajoutant deux classes fictives (une première et une
dernière) de même amplitude que les autres et dont les effectifs ou les fréquences sont nuls. A chaque fois on gagne
et on perd simultanément 2 triangles égaux.
20,00%
15,00%
10,00%
5,00%
0,00%
[-3, 0[ [0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[ [24, 27[
[-3, 0[ [0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[ [24, 27[
Histogramme des féquences Polygone des fréquences
L’aire sous le polygone des fréquences est proportionnelle à la somme des fréquences : Si on divise cette aire par
l’amplitude commune des classes alors elle est égale à un.
L’aire sous le polygone des effectifs est alors la même que celle de l’histogramme, elle est donc proportionnelle à
l’effectif total : Si on divise cette aire par l’amplitude commune des classes alors elle est égale à l’effectif total.
Pour obtenir la courbe cumulative croissante (ou le polygone des fréquences cumulées croissantes), il suffit de
placer et de relier les différents points ( xi +1 , Fi C ) . Cette courbe peut être donc tracée « par segments » à partir des
fréquences cumulées croissantes Fi C .
Ainsi on trace les segments dont les extrémités ont pour abscisses les bornes des classes et pour ordonnés :
- 0 pour la borne inférieure de la première classe
- La fréquence cumulée croissante de la 1ère classe pour la borne supérieure de la première classe
- fréquence cumulée croissante de la 1ère classe pour la borne inférieure de la 2ème classe
- fréquence cumulée croissante de la 2ème classe pour la borne supérieure de la 3ème classe
- …et ainsi de suite…
Pour notre exemple (Accidents de la route selon les heures de la journée en France), les points à placer sont : (0 ;
0) ; (3; 0,057) ; (6; 0,101) ; (9; 0,207) ; (12; 0,333) ; (15; 0,498) ; (18; 0,706) ; (21; 0,909) et (24; 1,000).
D’une manière analogue, on peut tracer le polygone des fréquences cumulées décroissantes.
Finalement, on peut tracer ces deux courbes cumulatives sur le même graphique :
En tout point du polygone des fréquences cumulées croissantes, on peut trouver le pourcentage des accidents qui
ont eu lieu avant x heures.
En tout point du polygone des fréquences cumulées décroissantes, on peut trouver le pourcentage des accidents qui
ont eu lieu après x heures.
Dans ce cas, il faut prendre la précaution de ne pas prendre comme hauteur des rectangles les effectifs ou les
fréquences réels mais les effectifs corrigés ou les fréquences corrigées parce que ce sont les aires des rectangles
et non pas les hauteurs qui sont proportionnelles aux effectifs réels ou aux fréquences réelles (les bases des
rectangles n’ont pas la même dimension).
ni
Avant de dessiner l’histogramme, on commence par compléter les données concernant les effectifs corrigés ( )
ki
fi
ou les fréquences corrigées ( ) avec ai l’amplitude de la classe en question.
ki
Exemple :
La distribution des accidents de la route selon les heures de la journée en France est résumée dans le tableau
suivant.
Tableau : Accidents de la route selon les heures de la journée en France Découpage avec des classes d’inégales amplitudes
Nombre Amplitude de la
Tranche horaire Fréquences k Effectifs rectifiés Fréquences rectifiées
d'accidents classe
[0, 9[ 29 697 0,207 9 3 9 899 0,069
[9, 15[ 41 709 0,291 6 2 20 855 0,145
[15, 18[ 29 759 0,208 3 1 29 759 0,208
[18, 24[ 42 194 0,294 6 2 21 097 0,147
Total 143 359
Source : INSEE, 1992.
On choisit par convention une classe de référence d’amplitude A (en général, la plus petite). Donc une classe
quelconque a pour amplitude k × A .
La classe de référence est la classe [15, 18[.
L’amplitude de la classe de référence est A =18-15=3.
De même on peut tracer le polygone des effectifs ou des fréquences mais l’aire sous le polygone devant être égale à
l’aire de l’histogramme, on doit partager chaque rectangle en sous rectangle de base A = amplitude de la classe de
référence et procéder de la même façon que précédemment c' est-à-dire joindre les milieux des sommets des sous
rectangles sans oublier de rajouter une classe fictive à droite et à gauche d’amplitude A.