Vous êtes sur la page 1sur 16

PARTIE 1 STATISTIQUE DESCRIPTIVE A UNE VARIABLE

La statistique descriptive à une variable est l’ensemble des méthodes qui permet d’obtenir et de faire un
1er traitement des informations relatives à un caractère particulier d’individus d’une population donnée.
La statistique descriptive a plusieurs objectifs:
- recueillir l’ensemble des données relatives à un caractère particulier d’individus d’une population
donnée;
- classer l’ensemble de ces données selon des séries statistiques afin de permettre d’en faire :
* des représentations graphiques pour en visualiser l’allure ;
* des traitements mathématiques pour en déterminer certaines caractéristiques.
Dans cette partie, nous axerons notre propos, d’abord sur la définition des différents concepts que nous
venons d’introduire, ensuite sur les premiers traitements mathématiques en vue de la détermination de
certaines caractéristiques.

CHAPITRE No1 : VOCABULAIRE ET TABLEAUX STATISTIQUES

Objectifs :
➢ Connaitre les différents termes qui constituent le vocabulaire de la statistique descriptive
ainsi que leurs définitions.
➢ Savoir identifier clairement, dans un exercice ou dans une étude statistique :
Le groupe sur lequel porte une étude.
La caractéristique étudiée et sa nature.
Statistique générale :
La statistique descriptive appartient à un ensemble plus vaste, la statistique générale, qui se divise en
deux branches : statistique descriptive et la statistique mathématique (ou statistique
« inférentielle »).

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 1 / 16


Définition : statistique descriptive
Il existe de nombreuses définitions, celle que nous donnons ici est celle de Bernard PY dans son livre
Statistique descriptive (édition Economica) : La statistique descriptive est un ensemble de méthodes
permettant de décrire et d’analyser, de façon quantifiée, des phénomènes repérés par des éléments
nombreux, de même nature, susceptibles d'être dénombrés et classés. C'est-à-dire qu’elle comprend un
ensemble d’outils d’investigation et de mesure de données chiffrées (tableaux, graphiques, calcul des
moyennes….etc.) d’un caractère quantitatif ou qualitatif (variable) donné afin de ressortir la signification.

Les diverses méthodes de la statistique descriptive sont séparées en trois groupes (catégories) selon le
nombre de variables étudiées sur une population :
Statistique à 1 variable (analyse univariée) : ensemble de méthodes visant à décrire et analyser les
données d’une seule variable mesurée sur une population.
Statistique à 2 variables (analyse bivariée) : ensemble de méthodes visant à étudier conjointement deux
(2) variables mesurées sur une même population pour mettre en évidence d’éventuelles relations entre
ces deux variables.
Statistique à plus de 2 variables (analyse multivariée) : ensemble de méthodes visant à étudier plusieurs
(3 et plus) variables mesurées sur une même population pour avoir une bonne description des relations
générales entre ces variables, de déceler des proximités entre individus de la population mais aussi à
déterminer les critères qui contribuent le mieux à « expliquer » les différences ou ressemblances.

Statistique descriptive à 1 variable


 Tableau statistique
 Graphiques (histogramme, diagramme en barre, circulaire)

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 2 / 16


 Caractéristiques centrales (Moyenne, mode, médiane quartiles, déciles, centiles)
 Caractéristiques de dispersion (étendue, écart interquartile, écart moyen absolu, variance et
écart-type, coefficient de variation)
Statistique descriptive à 2 variables
 Tableau de contingence
 Caractéristiques marginales (moyenne, variance et écart-type marginales)
 Caractéristiques conditionnelles (moyenne, variance et écart-type conditionnelles)
 Covariance
 Graphiques (boxplot, barplot, nuage de point)
 Étude de liaison (corrélation de pearson, test de khi-deux, test exact de fisher, test de student,
test de wilcoxon, analyse de variance, test de kruskall wallis, corrélation de spearman)

Statistique descriptive à 3 et plus de variables

 Analyse factorielle (ACP, AFC, ACM, AFD, AFM)


 Classification (CAH, classification mixte)
 Segmentation

A. Terminologie

Population : l’ensemble des éléments sur lesquels porte une étude. La population constitue l’univers de
l’étude.
Unité ou individu statistique : un élément parmi la population sur laquelle porte une étude.
Echantillon : c’est un sous-ensemble de la population. La notion d’échantillon est fondamentale, car, en
règle générale, la population entière n’est pas disponible ou observable. Dans ce cas, seul un échantillon
est étudié et les résultats obtenus sont extrapolés à la population.

Les relations qui existent entre la population, les échantillons et l’unité statistique sont résumées dans le
schéma ci-dessous.

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 3 / 16


Les éléments suivants sont autant d’exemples de population sur laquelle peut porter une étude.
 Les ventes ou les achats d’une entreprise,
 Les employés d’une entreprise,
 Les exportations ou les importations d’un pays,
 La clientèle (les clients) d’un restaurant,
 Les consommateurs d’un produit,
 Les passagers d’une compagnie,
 Les étudiants d’une université (ou d’une filière),
 Les votants lors d’une élection,
 Les détenus d’un centre pénitencier,
 Les habitants d’une ville ou pays,
 L’air des villes industrialisées,
 Le ménage ou le foyer d’une ville (pays),
 Les malades dans un centre hospitalier,
 Les villes européennes de plus de 100 000 habitants,
 Etc.

Variable ou caractère statistique : c’est le critère d’étude d’une population. C’est ce qui est observé ou
mesuré sur une population.
Modalité : ce sont les différents résultats (ou valeurs) que peut prendre la variable statistique.

Les éléments suivants sont autant d’exemples de critères (variables) d’étude d’une population.
 Le prix

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 4 / 16


 Le coût
 La quantité
 Le volume
 Le salaire
 La qualification
 Le niveau d’étude, le diplôme
 L’effectif
 La taille
 Le poids
 L’âge
 Le sexe
 L’opinion ou l’avis
 La qualité
 La vitesse
 Le nombre
 La répartition géographique
 Etc.

Application 1
On réalise une étude sur la répartition selon le sexe de 400 étudiants de la filière économie-droit à
l’université.
Question
Traduisez ces informations dans le vocabulaire de la statistique descriptive.
Réponse

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 5 / 16


Application 2
Une entreprise Y soumet à ses consommateurs un questionnaire de satisfaction concernant une de ses
prestations. Les réponses des consommateurs sont les suivantes :
(a) nulle, (b) médiocre, (c) moyenne, (d) assez bonne, (e) très bonne, (f) excellente.
Question
Traduisez ces informations dans le vocabulaire de la statistique descriptive.
Réponse

Exemples:
 n = 30 s’il ya 30 étudiants dans l’échantillon ;
 n = 2000 s’il y a 2000 habitants dans l’échantillon ;
 n = 125 s’il y a 125 livres dans l’échantillon ;
 n = 15 000 s’il y a 15000 unités produites constituant l’échantillon ;
 etc

Nature d’une variable


La nature d'une variable détermine le type d'outil statistique qu'on pourra utiliser sur la variable. Pour
déterminer sa nature, il faut se demander ce qu'on peut faire avec ses observations :
 Si on peut effectuer des calculs numériques sur une variable, alors elle est dite quantitative.
 Si on ne peut pas effectuer des calculs dessus, elle est alors dite qualitative.

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 6 / 16


Variable qualitative : Une variable est dite qualitative si ses modalités ne sont pas des nombres (c'est-à-
dire ne sont pas mesurables). On ne peut pas effectuer des calculs numériques comme la moyenne,
variance…etc sur celle-ci.
Les modalités d’une variable qualitative peuvent être classées sur deux types d’échelle : nominale ou
ordinale. À ces deux types d’échelle correspondent deux types de variables qualitatives.
 Variable qualitative nominale : Une variable qualitative est dite nominale s’il n’y a pas de
relation d’ordre entre ses modalités, qui sont simplement des étiquettes (ou noms).
Exemples : Couleur (marron, noire, bleu, grise, rouge), Groupe sanguin (A/B/O/AB), Sexe
(féminin/masculin), Situation familiale (célibataire/marié)
 Variable qualitative ordinale : Une variable qualitative est dite ordinale s’il existe une relation
d’ordre entre ses modalités c'est-à-dire que l’on peut opérer un classement de ses modalités, de
la plus petite à la plus grande (ou inversement), de la plus fréquente à moins fréquente
Exemples : Comportement (très mauvais, mauvais, bon, très bon, excellent), Classement à un
examen (1er , 2ème , 3ème, 4ème ), Consommation de tabac (absence, rarement, modéré, souvent).
Variable quantitative: une variable est quantitative si ses modalités (valeurs) sont des nombres sur
lesquels on peut réaliser des opérations arithmétiques telles que somme, moyenne, …...etc.
Les modalités d’une variable quantitative peuvent être fini (dénombrable) ou infini. Selon ces deux cas
correspondent deux types de variables quantitatives.
 Variable quantitative discrète : une variable quantitative est discrète si le nombre de valeurs
qu’elle peut prendre est fini (dénombrable).
Exemples : Nombre d’enfant par famille, La note à un contrôle

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 7 / 16


 Variable quantitative continue : une variable quantitative est continue si les nombres de valeurs
qu’elle peut prendre est infini (indénombrable).
Exemples : âge, température et poids
On détermine pour chaque caractère quantitatif :

B. Variable quantitative discrète

Si le caractère est discret : xi la valeur de la modalité ;


Effectif et fréquence :
L’Effectif d’une valeur donnée d’une variable est le nombre d’individus pour lesquelles la variable
considérée prend la valeur en question. L’effectif total est la somme de tous les Effectif d’une variable.
La fréquence d’une valeur donnée est le rapport de l’effectif correspondant à l’effectif total. La
fréquence totale est toujours égale à 1.
Fréquence = effectif divisé par l’effectif total.
Fréquence en pourcentage ou fréquence relative =effectif /effectif total *100

Application 3:
On considère le poids des habitants d’une ville comme caractère, on a, pour un échantillon, la
distribution suivante :

Unité statistique : habitant de la ville ; Population : l’ensemble des habitants de la ville ; Caractère
étudié : le poids ; Type de caractère : variable statistique discrète. (dans le cas de l’exemple).

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 8 / 16


Application 4: une enquête auprès de 1000 commerçants portant sur le nombre de leurs employés, a
donné les résultats suivants :
Xi ni Fi en Effectif Effectif Fréquence Fréquence
% cumulé cumulé relative (ou relative (ou en
croissant décroissant en %) %) cumulée
cumulée décroissantes
croissante
0 50 5% 50 1000 5% 100%
1 100 10% 150 950 15% 95%
2 200 20% 350 850 35% 85%
3 150 15% 500 650 50% 65%
4 120 12% 620 500 62% 50%
5 160 16% 780 380 78% 38%
6 130 13% 910 220 91% 22%
7 90 9% 1000 90 100% 9%
Total 1000 100% - - - -

Unité statistique : Un commerçant ;


Population : l’ensemble des 1000 commerçants ;
Caractère étudié : Nombre d’employés ;
Type de caractère : Variable statistique discrète.
Le nombre de commerçants n'employant aucun employé est 50, ce qui représente 5 % des commerçants.

Les effectifs cumulés ou relatives cumulées croissantes sont calculées en cumulant les effectifs cumulés
ou relatives du haut du tableau vers le bas. Elles permettent de répondre aux questions du genre : quel
est le nombre ou la proportion au plus ?

Par contre, les effectifs cumulés ou relatives cumulées décroissantes sont calculées en cumulant les
effectifs cumulés ou relatives du bas du tableau vers le haut. Elles permettent de répondre aux questions
du genre : quel est le nombre ou la proportion au moins (au minimum ou plus de) ?

Le nombre de commerçants employant au plus 5 employés (au maximum 5 employés ou moins de 6


employés) est 780, ils représentent 78 % des commerçants.

Le nombre de commerçants employant au moins 3 employés (au minimum 3 employés ou plus de 2


employés) est 650, ils représentent 65% des commerçants.

C. Variable quantitative continue

Si le caractère est continu : *Ci ; Ci+1*est l’intervalle ou classe des modalités avec :

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 9 / 16


Application 5: On considère la taille comme caractère, on a pour un échantillon de 169 personnes, la
distribution suivante :

Parmi les 169 personnes, 35 mesurent entre 1,50 m et moins de 1,60 m, ce qui représente 20,71 % de
l’ensemble de l’échantillon.

76,92 % de l’échantillon mesurent moins de 1,80 m.

Le fait de remplacer la classe par ci permet de faire des calculs car on ne sait pas faire des
calculs sur des intervalles.

Série statistique : Une série statistique est l’ensemble constitué des xi et ni.
On parle aussi de distribution statistique à une seule variable, comme par exemple :
 Tailles et effectifs ;
 Situations matrimoniales et effectifs ;
 Ages et effectifs.
 Etc.

Question 1: Comment passer d’une série statistique relative à un caractère discret ou continu donnée
sous forme d’une suite de classes *Ci ; Ci+1*et d’effectifs ni de ces classes à une série statistique sous
forme d’une suite de valeurs xi et d’effectifs ni relatifs à ces valeurs ?

On doit considérer 2 cas possibles :

1è cas : Classes à amplitudes égales.

Il suffit, dans ce cas, de remplacer chaque classe [Ci ; Ci+1[par son élément central ci = (Ci + Ci+1)/ 2
auquel il faut affecter l’effectif ni.

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 10 / 16


Application 1: On considère la série statistique relative aux poids d’un échantillon de 120 habitants d’une
ville, elle se présente comme l’indique le tableau suivant:

Unité statistique : Habitant d’une ville;


Population : L’ensemble des habitants d’une ville ;
Caractère étudié : Le poids de l’habitant ;
Type de caractère : Variable statistique continue.

On remplace chaque classe par le centre de cette classe, on obtient alors la série équivalente suivante :

Application 2: On considère la série statistique relative aux notes obtenues dans une matière, par les
étudiants d’une classe d’école :

Unité statistique : Un étudiant ;


Population : L’ensemble des étudiants d’une classe d’école
Caractère : Note d’étudiant
Type de caractère : Variable statistique continue

On remplace chaque classe par le centre de cette classe, on obtient alors la série équivalente suivante :

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 11 / 16


2è cas : Classes à amplitudes différentes.

Il suffit, dans ce cas :


- de considérer les amplitudes des différentes classes ;
- de calculer leur Plus Grand Commun Diviseur (PGCD) ;
- de diviser chaque classe par le PGCD pour obtenir plusieurs sous classes qui deviennent de nouvelles
classes ;
- D’affecter à chaque nouvelle classe, le quotient de l’effectif de la classe mère par le nombre de sous
classes.

Remarquons que cette méthode repose sur l’hypothèse simple suivante qui consiste à admettre que les
effectifs se répartissent de façon régulière dans une classe.

Application 2: Reprenons l’exemple 13 et considérons la série statistique relative aux notes obtenues
dans une autre matière, par les étudiants d’une classe d’école :

Unité statistique : Un étudiant ;


Population : L’ensemble des étudiants d’une classe d’école
Caractère : Note d’étudiant
Type de caractère : Variable statistique continue.

Dans cette série, les amplitudes des différentes classes sont : 6 ; 2 ; 6 ; 4. Leur PGCD est 2. On remplace
chaque classe par plusieurs autres classes et on obtient alors la série équivalente suivante :

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 12 / 16


On remplace, après cette opération, chaque classe par le centre de cette classe, on obtient alors la série
équivalente suivante :

Remarque: Ainsi on peut considérer que toute série statistique est donnée, selon les besoins du
traitement numérique:

- Soit sous forme d’une suite de classes *Ci ; Ci+1*et d’effectifs ni.
- Soit sous forme d’une suite de valeurs xi et d’effectifs ni.

Question 2: Comment passer d’une série statistique relative à un caractère discret ou continu donnée
sous forme d’une suite de valeurs xi à une série donnée sous forme d’une suite de classes *Ci , Ci+1* et
d’effectifs ni par classe ?

Pour ce faire, on utilise la règle de STURGES donnant le nombre k de classes en fonction du nombre n
des données :

k = 1 + 3,322 log n

Ce calcul donne un nombre réel, on prend alors pour k le nombre entier très proche du résultat de calcul
de la formule précédente.

Et étant l’étendue E de toute la série statistique, on détermine e, étendue de chaque classe :


e = E / k avec E = xmax - xmin

xmax et xmin étant la valeur maximale et la valeur minimale prises par le caractère, les différentes classes
seront alors :

La borne inférieure de la première classe C1 est égale à xmin ou à une valeur légèrement inférieure à xmin.

Application 1: En prenant la taille comme caractère des habitants d’une ville on a les résultats relatifs à
un échantillon de 169 habitants:

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 13 / 16


Unité statistique : Habitants d’une ville;
Population : L’ensemble des habitants de la ville
Caractère : La taille de l’habitant
Type de caractère : Variable statistique continue

On applique la méthode de STURGES avec les conditions :


 N = 169
 E = 1,85 – 1,45 = 0.40

Ce qui donne, après calcul, k=1+3.322 log169 = 8.40

On prendra k = 8 et e = E/8 = 0.40/8 = 0.05

La série précédente peut être transformée en la série équivalente suivante

Remarque: on aboutit à 9 classes au lieu de 8 du fait de la configuration des intervalles définissant les
classes.

Application 2: On a mesuré le poids en kilogramme comme caractère pour un échantillon de 80


élèves d’une école. Les données brutes sont reportées dans le tableau suivant :

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 14 / 16


Unité statistique : Elève d’une école ;
Population : L’ensemble des élèves d’une école ;
Caractère : Le poids ;
Type de caractère : Variable statistique discrète.

La plus grande valeur est : 97


La plus petite valeur est : 53
L'étendue est : E = 97 - 53 = 44

On applique la méthode de STURGES avec les conditions :


 n = 80
 E = 44

Ce qui donne, après calcul, k = 1 + 3,322 log10 80 = 7,322


On prendra k = 7 et e = E / 7 = 44 /7 = 6

La série précédente peut être transformée en la série équivalente suivante :

Légende du tableau:

- (1) : point central de la classe ;


- (2) : effectif de la classe, fréquence absolue ;
- (3) : fréquence absolue cumulée croissante ;
- (4) : fréquence absolue cumulée décroissante ;
- (5) : pourcentage de la classe, fréquence relative ;
- (6) : fréquence relative cumulée croissante ;
- (7) : fréquence relative cumulée décroissante.

Le nombre de personnes pesant entre 64 et moins de 70 kilogrammes est 10, ils représentent 12,5 % des
personnes pesées.
Le nombre de personnes pesant au moins 70 kilogrammes est 56, ils représentent 70 % des personnes
pesées.
Le nombre de personnes pesant moins de 82 kilogrammes est 59, ils représentent 73,75 % des personnes
pesées.

Pour récapituler toute cette première partie, donnons, dans un tableau synthétique, grâce à des
exemples, l’ensemble des concepts que nous avons introduits jusque-là:

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 15 / 16


Le tri ou le choix pour constituer un échantillon se fait selon des processus bien précis.

Matière : initiation à la statistique Chapitre No 1: vocabulaire et tableaux statistiques 16 / 16

Vous aimerez peut-être aussi