Vous êtes sur la page 1sur 23

Chapitre 4 : Le traitement des données : caractéristiques et construction

4.1. Caractéristiques d’une population


Au premier moment de l’étude statistique, notre préoccupation a été d’identifier le problème en précisant
la population ou l’échantillon ainsi que l’unité statistique. Dans le deuxième moment, on va faire en sorte
de construire et de formater un outil de collecte de données (questionnaire ou un formulaire).
Maintenant, ce qui nous importe dans le troisième c’est le traitement des données (l’organisation, le
regroupement et la classification) de ces données.

Ce moment n’aurait pas de sens si l’étude visée ne se portait pas sur certains attributs que possèdent les
individus observés (unités statistiques). Ces propriétés ou aspects singuliers que l'on se propose
d'observer dans la population ou l'échantillon, ces attributs, qualités ou encore caractéristiques de la
population portent le nom de variables statistiques et les différentes valeurs qu’elles peuvent prendre
sont appelées modalités. La variable statistique est notée par une lettre majuscule, généralement X et ses
modalités par des lettres minuscules indicées : x1, x2, x3, …, xk si on a k valeurs ou encore xi pour les
représenter toutes.
X = { x1, x2, x3, …, xk } ou X = xi avec 1 ≤ i ≤ k

Suivant ses modalités, une variable statistique peut être qualitative ou quantitative. La première se réfère
à des modalités non numériques et la seconde lorsque les modalités de la variable statistique sont des
nombres. Suivant que ces nombres soient entiers ou décimaux, la variable statistique est respectivement
quantitative discrète et quantitative continue.

Lorsque la variable statistique est une variable qualitative, on peut le considérer selon l’échelle de mesure
utilisée en observation. Lorsque les données collectées de l’observation concernant correspondent à des
catégories n’ayant pas de relation d’ordre entre les modalités (modalités mutuellement exclusives), on
utilise une échelle de mesure nominale. Quand les données collectées sont classé dans des modalités
ordonnées selon un critère bien défini, l’échelle de mesure est dite ordinale (les variables qualitatives à
échelle de mesure ordinales sont parfois appelées variables semi-quantitatives).

Lorsque la variable statistique est une variable quantitative, elle est observée suivant trois échelles de
mesure : l’échelle de mesure ordinale précédente; l’échelle de mesure par intervalle utilisée lorsque les
données collectées sont classées dans des modalités représentant des mesures de distance ou d’intervalle
séparant deux positions données et l’échelle de mesure relative (ou par rapport) utilisée lorsque le les
observations collectées représentent des mesures faites à l’aide d’unités de base et lorsque la mesure
nulle représente l’absence de la caractère étudiée.
Exemple 4.1
Au cours du RGPH–4, on a noté le département de naissance de chacune des
personnes. Le choix des réponses a porté sur : Ouest, Nord, Sud, Artibonite,
Sud-Est, Centre, Nippes, Grand-Anse, Nord-Ouest, Nord-Est.
Population : l’ensemble de tous les haïtiens
Unité statistique : un haïtien
Variable statistique : le département de naissance des personnes
Type de la variable : qualitative
Echelle de mesure : nominale

Dans un sondage effectué auprès des étudiants de l’Université d’Etat d’Haïti


relative à l’utilité d’un cours sur les finances personnelles, le choix des
réponses proposées s’échelonnait autour de : Très utile ; Utile ; Important ;
Pas trop important ; sans opinion.
Population : l’ensemble de tous les étudiants de l’Université d’Etat d’Haïti
Unité statistique : un étudiant
Variable statistique : l’opinion sur l’utilité du cours sur les finances
personnelles
Type de la variable : qualitative
Echelle de mesure : ordinale. S’il est vrai qu’il n’est pas possible de mesurer
la différence entre très utile et utile, il demeure néanmoins qu’on peut
retenir une certaine mesure relative du niveau d’utilité.

Dans le cadre du Recensement des Quartiers et Populations Affectées


(RQPA–2012) par le tremblement de terre du 12 janvier 2010 en Haïti, on a
noté le nombre de personnes par ménage et les valeurs obtenues ont été : 1,
2, 3, 4, 5, 6, 7, …
Population : l’ensemble de toutes les personnes habitant les zones affectées
par le tremblement de terre
Unité statistique : une personne
Variable statistique : le nombre de personnes vivant dans le ménage
Type de la variable : quantitative discrète
Echelle de mesure : relative. Ici on peut établir un rapport entre les données
collectées sur deux ménages différents. On peut dire qu’un ménage de 4
personnes est deux fois plus grand qu’un ménage de 2 personnes. La donnée
ou la modalité ‘zéro’ signifie une absence totale de ménage (zéro absolu)
Dans le cadre du recensement précédent, on s’intéresse maintenant à
l’année de naissance des gens. Les résultats collectés sont : 1950, 1963, 1974,
1987, 1998, 2002, …
Population : l’ensemble de toutes les personnes habitant les zones affectées
par le tremblement de terre
Unité statistique : une personne
Variable statistique : le nombre de personnes vivant dans le ménage
Type de la variable : quantitative discrète
Echelle de mesure : par intervalle. On n’arrive pas à établir de rapport entre
les années de naissance. Dire qu’une personne née en 1998 est 1,012 fois
plus jeune que quelqu’un né en 1974 n’a pas une interprétation porteuse de
sens. Le zéro ici ne signifie pas absence d’année (zéro arbitraire).
Il est à noter qu’un intervalle de 25 ans entre quelqu’un né en 1950 et un
autre 1975 ne diffère en rien de cette même différence d’âge entre un natif
de 1974 et un autre de 1999.

On a noté la température maximale de certaine journée de l’année. Les


valeurs collectées sont : 15o C, 0 o C, 17 o C, 23 o C, …
Population : l’ensemble de toutes les journées de l’année
Unité statistique : une journée de l’année
Variable statistique : la température maximale
Type de la variable : quantitative continue
Echelle de mesure : la température 0o C n’a rien à voir avec l’absence de
température puisque ce zéro est arbitraire. On ne peut pas dire qu’il fait plus
chaud à 20o C qu’à 10o C, car ces mêmes températures prises en degré
Fahrenheit donne respectivement 68o F et 50o F, or 68 n’est pas le double de
50. Par contre l’intervalle de 10o C correspond nettement à l’intervalle de 18o
F. de plus, une différence 10o C correspond toujours à la même différence
d’énergie calorifique entre 10o C et 20o C qu’entre 35o C et 45o C.
Echelle nominale : Modalités mutuellement exclusives. Les données sont collectées sous forme de catégories sans aucune relation d’ordre entre eux.

Echelle ordinale : Modalités ordonnées suivant un critère bien défini. Les données sont collectées sous forme de classes ou de catégories ordonnées.

Echelle relative : Modalités collectées à l’aide d’unités de mesures de base.


Le zéro se rapporte au non existence de la caractéristique étudiée (zéro absolu).
Il est possible d’interpréter le quotient (les rapports entre les données).

Echelle d’intervalle : Modalités représentant des mesures de distance ou d’intervalle séparant deux positions.
Le zéro n’a rien de l’absence de la caractéristique étudiée (zéro arbitraire).
Aucun rapport possible entre les données.
Peu importe deux données quelconque choisies, un même intervalle a la même signification.

4.2. Construction des données


L’organisation est relative à la mise en place et la description des variables à considérer pour l’étude et à
la construction proprement dite des données à partir de ces variables. La construction des données se fait
à l’aide de cet attribut utilisant les données collectées de la population ou de l’échantillon pour une
présentation tabulée et/ou une représentation graphique. Pour ce faire, on définit les vocables : effectif ;
proportion ; pourcentage ; taux ; indice ; ratio et pourcentage de variation dans le temps, qu’il convient
de différencier et d’interpréter leurs valeurs.

4.2.1. Effectifs, proportions, pourcentage, taux, ratios, indices


a. Effectif, nombre ou quantité (fréquence absolue)
Une fois la variable statistique est décrite selon ses modalités dans les données collectées (données
brutes), il convient de trouver l’information sur chaque modalité de la variable pour simplifier la
présentation. On calcule le nombre d’unités statistiques (individus) de la population ou de l’échantillon
associé à chacune de ces modalités. On dit alors qu’on fait le dépouillement des données brutes. Le
nombre d’individus associé à chaque modalité xi est noté ni, son cumul est égal à la taille N de la population
ou n de l’échantillon et on le nomme encore effectif ou fréquence absolue.
∑ni = N ou n
L’interprétation relate que pour la modalité Xi on a un effectif ni.

b. Proportion (fréquence relative)


La proportion indique quelle partie de la population ou de l’échantillon correspond à la caractéristique
étudiée. On l’obtient en divisant le nombre d’unités ni possédant cette caractéristique au nombre total N
de la population ou n de l’échantillon. Généralement appelée fréquence relative, on la note fi.
𝑛 𝑛
𝑓𝑖 = N𝑖 ou 𝑓𝑖 = n𝑖
On interprète en disant qu’on a une proportion fi pour la modalité Xi.

c. Pourcentage
Le pourcentage indique sur une base de 100 quelle partie de la population ou de l’échantillon correspond
à la modalité étudiée. On l’obtient en multipliant par 100 la proportion ou fréquence relative précédente.
𝑛 𝑛
% = fi*100 = 𝑓𝑖 = N𝑖*100 ou 𝑓𝑖 = n𝑖*100
On ici en guise d’interprétation a un pourcentage fi*100 pour la modalité Xi.

d. Taux
Le taux indique sur une base de 1, 10, 100, 1000, etc. quelle partie de la population ou de l’échantillon
correspond à la modalité étudiée. Il permet de comparer une caractéristique entre différents groupes de
tailles différentes. On l’obtient en multipliant par 1, 10, 100, 1000, etc. La proportion ou fréquence
relative précédente. Le choix de base dépend de la fréquence de l’occurrence de l’événement ou d’une
convention. On l’exprime en % quand la base est de 100 ; %o quand la base est 1000 ; %oo quand il est
basé sur 10000.
Exemples
 Taux d’intérêt (en %) : Montant à verser ou à percevoir sur chaque tranche de 100 unités
monétaires;
 Taux de chômage (en %) : Proportion de chômeurs (personne n’ayant pas d’emploi et qui en
cherche) par rapport à une population active ;
 Taux de natalité (en %o) : Expression utilisé en démographie pour désigner la proportion des
naissances dans une population ;
 Taux de féminité (en %o) : Expression utilisé en démographie pour désigner la proportion des
personnes de sexe féminin dans un ensemble d’individus ;
 Taux de fécondité (en %o) : Proportion de personnes de sexe féminin en âge de procréer dans une
population ;
 femmes.
En interprétation, on a un taux de fi, fi*10, fi*100, fi*1000 pour la modalité Xi.

e. Indice
L’indice est une mesure quantitative attribuée à une caractéristique ou à un phénomène qualitatif qui
tient compte de plusieurs indicateurs de cette caractéristique ou de ce phénomène. Les détails de calcul
n’étant pas pris en compte, on en retient:
 L’indice de prix à la consommation : calculé par l’IHSI (Institut Haïtien de Statistique et
d’Informatique), cet indice établit des prix ordinairement consommé par les ménages. Ses
variations reflètent le coût de la vie pour ce ménage type.
 L’indice synthétique de fécondité : il sert à mesurer le nombre d’enfants qu’on peut espérer de
chaque femme en mesure de procréer. Il est basé sur le nombre d’enfants que possèdent les
femmes au cours d’une année donnée.
 L’indice synthétique de nuptialité : il sert à mesurer la proportion d’hommes ou de femmes
célibataires qui se marient avant d’atteindre l’âge de 50 ans. Il est basé sur le nombre d’hommes
ou de femmes mariés au cours d’une année donnée.

f. Ratio
Le ratio indique le rapport entre le nombre d’unités dans un groupe répondant à certaines caractéristiques
et le nombre d’unités dans un autre groupe répondant à d’autres caractéristiques. Il ne donne pas une
relation précise entre les deux groupes mais une idée du rapport entre les deux.

g. Pourcentage de variation dans le temps


Le pour centage de variation mesure le pourcentage d’augmentation ou de diminution qu’une variable ou
une mesure a subi dans le temps.

Valeur au temps final – Valeur au temps initial


Pourcentage de variation = * 100
Valeur au temps initial

Un pourcentage de variation positif est synonyme d’une augmentation de la valeur entre les deux
périodes, et un négatif en indique une diminution. La possibilité d’une augmentation de plus de 100% est
de mise alors que l’inverse est impossible.

4.2.2. Description, Organisation et présentation statistique des données


Lorsque la démarche quantitative est sollicitée pour conduire une étude, il est impératif que le problème
à résoudre soit posé et formulé de façon claire et précise. Il y a lieu de définir la population ainsi que
d’autres vocabulaires clés qui y sont associés (voir 2.1.3 ; 4.1 et 4.2.1).

4.2.2.1. Série statistique


On appelle série statistique la suite des valeurs prises par une variable X sur les unités d’observation.
 Le nombre d’unités d’observation est noté n.
 Les valeurs de la variable X sont notées
x1, . . . , xi, . . . , xn.

4.2.2.2. Organisation statistique des données


Organiser les données consiste à les regrouper dans un tableau de présentation ou un graphique de
représentation.

On regroupe toutes les données de la série statistique dans un tableau statistique indiquant la répartition
des individus selon le caractère étudié. Pour être un tableau statistique, ce dernier doit être constitué
d’une en tête relatant le titre du tableau, d’un corps qui prend en compte les données construites et d’un
pied qui indique la source ou provenance des informations.

La construction du tableau peut prendre les étapes suivantes :


a. Entête du tableau –* Titrer toujours le tableau de manière à informer clairement sur son contenu.
Cela permettra au lecteur de se faire une idée plus ou moins correct du tableau en question. La
formulation générale du titre devant s’adapter à chacune des situations est la suivante :
‘‘Distribution des unités statistiques selon la variable’’ ou encore ‘‘Répartition des individus de la
population suivant le caractère étudié‘’.
b. Corps du tableau –* Indiquer les valeurs ou modalités de la variable. On utilise généralement la
première colonne du tableau pour inscrire toutes les différentes valeurs des données brutes.
Cette première colonne est notée Xi. –* Préciser le nombre d’unités statistiques compilées pour
chacune des valeurs ou modalités de la première colonne dans la deuxième colonne. C’est à ce
nombre d’unités qu’on donne le titre d’effectif ou nombre ou quantité que l’on appelle
généralement fréquence absolue. Cette précision suscite le dénombrement précis des individus
ou unités statistiques correspondant à chacune des valeurs ou modalités. On fait à cet effet le
dépouillement des données brutes. Cette colonne est notée ni. –* Déterminer le rapport du
nombre d’individus ou unités statistique à la taille de la population ou de l’échantillon en question
dans une troisième colonne que l’on note fi. C’est ce rapport qui porte le nom de proportion que
𝑛
l’on considère comme la fréquence relative. On le détermine selon la relation : 𝑓𝑖 = 𝑖.
n
On pourrait prendre d’autres colonnes : une quatrième pour additionner successivement les
valeurs de la colonne des effectifs à qui on donnera le nom d’effectif additif ou de fréquence
absolue cumulée croissante, notée Ni+ –* une cinquième pour additionner successivement les
valeurs de la colonne des proportions à qui on donnera le nom de proportion additive ou de
fréquence relative cumulée croissante, notée Fi+ –* une sixième pour soustraire successivement
les valeurs de la colonne des effectifs à qui on donnera le nom d’effectif déductif ou de fréquence
absolue cumulée décroissante, notée Ni– –* une septième pour soustraire successivement les
valeurs de la colonne des proportions à qui on donnera le nom de proportion déductive ou de
fréquence relative cumulée décroissante, notée Fi–.
c. Pied du tableau – Si la tête du tableau aide à mieux se situer dans les données, le pied pour sa
part aide à la provenance et fiabilité des informations ou données collectées. La formulation
générale est la notation : Source : et l’on y écrit la provenance des données.

Le regroupement s'effectue par classes :


 Si le caractère est qualitatif ou quantitatif discrète, une classe contient tous les individus ayant la
même modalité ou la même valeur du caractère.
 Si le caractère est continu, une classe est un intervalle.
o Pour construire ces intervalles, on respecte les règles suivantes :
 Le nombre de classes est compris entre 5 et 20 (de préférence entre 6 et 12) ou
calculé selon les formules de Yule ou de Sturge qui fixe le nombre de classe (voir
le point 5.2.2).
 Chaque fois que cela est possible, on fera en sorte que les amplitudes des classes
soient égales.
 Chaque classe (sauf la dernière) contient sa borne inférieure mais pas sa borne
supérieure.
o Dans les calculs, une classe sera représentée par son centre, qui est le milieu de
l'intervalle.
o Une fois la classe constituée, on considère les individus répartis uniformément entre les
deux bornes (ce qui entraîne une perte d'informations par rapport aux données brutes).

4.2.2.3. Description et présentation statistique des données


Que faut-il indiquer pour chaque classe ?
1. L’effectif (fréquence absolue) : nombre d'individus de la classe : on le note ni (i est l’indice de
la classe).
𝑛
2. La proportion (fréquence relative) : proportion d'individus ( n𝑖) de la population ou de
l'échantillon appartenant à la classe : on la note fi.
3. Le pourcentage : proportion d'individus de la population ou de l'échantillon appartenant à la
classe : on la note fi multipliée par 100.
4. L'effectif additif (fréquence absolue cumulée croissante) : nombre d’individu de la classe
augmenté de ceux des classes qui succèdent (lorsque la variable statistique est quantitative).
La fréquence cumulée est une fonction F de la borne supérieure de la classe (dans le cas d’une
variable statistique continue).
5. La proportion additive (fréquence relative cumulée croissante) : proportion d’individu de la
classe augmenté de ceux des classes qui succèdent (lorsque la variable statistique est
quantitative). La fréquence cumulée est une fonction F de la borne supérieure de la classe
(dans le cas d’une variable statistique continue).
N.B. : Dans les cas additifs (cumulés croissants), l’effectif ou la proportion de la première classe additive
est celui ou celle de la première classe des effectifs ou proportions, et celui ou celle de la dernière classe
correspond à la taille de la population (échantillon) ou à l’unité (1).

Récapitulatif
Exemple 4.1 : On s’intéresse à la variable ‘´état-civil’’ notée X et à la série
statistique des valeurs prises par X sur 20 personnes. La codification est :
C : célibataire, M : marié(e), V : veuf (ve), D : divorcée.
Le domaine de la variable X est {C, M, V, D}.
En considérant la série statistique suivante : M, M, D, C, C, M, C, C, C, M, C, M,
V, M, V, D, C, C, C, M.
On a ici, n = 20, et les modalités de la variable X sont : x1 = M, x2 = M, x3 = D, x4
= C, x5 = C, . . . ., x20 = M.
Exemple 4.2 : Les données suivantes ont été collectées lors d’un sondage sur
un échantillon de 125 ménages interrogés pour s’enquérir du nombre de
personne vivant dans chacun de ces ménages
6 2 1 3 2 1 3 4 1 3 2 2 1 4 5 1 4 2 2 2 2 3 3 1 2 6 1 2 3 4 3 2 3
7 1 2 5 3 6 6 2 5 3 4 1 3 6 4 3 3 2 4 1 1 4 1 4 2 8 2 2 1 4 2 2 2
3 1 2 3 5 4 3 5 2 2 3 1 7 1 4 4 4 4 4 1 1 3 2 1 2 5 3 2 8 4 2 4 2
2 3 3 2 3 2 3 3 1 6 4 2 2 1 7 1 5 7 3 1 3 4 1 2 3 1

Le regroupement dans un tableau ou présentation tabulée donne :


Distribution de ménages selon leur nombre de personnes
Nombre de Nombre Proportion des Nombre additif Proportion Angle
personnes de ménages de ménages additive des (θ)
(Xi) ménages (fi) (Ni) ménages
(ni) (Fi)
1 25 0,200 25 0,200 72
2 33 0,264 58 0,464 95,04
3 27 0,216 85 0,680 77,76
4 21 0,168 106 0,848 60,48
5 7 0,056 113 0,904 20.16
6 6 0,048 119 0,952 17,28
7 4 0,032 123 0,984 11,52
8 2 0,016 125 1,000 5,76
Total (∑) 125 1,000 360
Source : Sondage auprès des ménages

Selon cette présentation il importe de considérer en interprétation simple des effectifs que
la modalité 1 signifie que 25 ménages sont constitués d’une seule personne ; 33 de 2
personnes ; 27 de 3 personnes ; etc.
L’interprétation en proportion est similaire à la notion de pourcentage, il suffit de multiplier
la proportion par 100 pour avoir le pourcentage et conclure que 20% des ménages sont
composés d’une personne ; 26,4% de 2 personnes ; 21,6% de 3 personnes ; etc.
La proportion additive ou fréquence relative cumulée permet d’interpréter que 20% des
ménages sont composés d’au plus 1 personne ; 46,4% d’au plus 2 personnes ; 68% d’au plus
3 personnes ; etc.

Le regroupement dans un graphique ou représentation graphique donne :


Distribution de ménages selon le nombre de personnes

Source : Sondage auprès des ménages

Distribution de ménages selon le nombre de personnes

Source : Sondage auprès des ménages

4.2.2.5. Représentation statistique des données


Le regroupement dans un graphique fait considérer plusieurs types de graphiques suivant que la variable
statistique soit qualitative, quantitative discrète ou quantitative continue.

La représentation est une autre forme de présentation des données statistiques. Si la première était
tabulée, celle-là est graphique et se fait en utilisant des diagrammes qui servent à visualiser la répartition
des individus.
 Pour une variable statistique qualitative
On utilise des diagrammes à secteurs circulaires, des diagrammes en tuyaux d'orgue, des
diagrammes en bandes. Le principe est de représenter des aires proportionnelles aux fréquences
(effectif ou proportion) de la variable statistique.
 Pour une variable statistique quantitative discrète
On utilise un diagramme différentiel en bâtons, complété du diagramme des fréquences cumulées
appelé diagramme cumulatif. Le diagramme cumulatif est la représentation graphique d’une
fonction F, appelée fonction de répartition ou de distribution de la variable statistique.
 Pour une variable statistique quantitative continue
1. Le diagramme représentant la série est un histogramme : ce sont des rectangles juxtaposés
dont chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle
que l’aire de chaque rectangle soit proportionnelle aux effectifs (histogramme des effectifs)
ou aux proportions de la classe correspondante (histogramme des proportions).
2. On obtient le polygone des effectifs (fréquences absolues) ou des proportions (fréquences
relatives) en reliant les milieux des bases supérieures des rectangles.
3. La courbe cumulative (ou polygone des fréquences cumulées) est obtenue en portant les
points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes, puis en reliant ces points par des segments de
droite. C’est la représentation graphique d’une fonction F, appelée fonction de répartition ou
de distribution de la variable statistique continue.

La démarche à suivre pour une représentation simpliste est :


a. Titrer le graphique – Le titre du graphique peut ne pas différer de celui du tableau correspondant
car c’est la représentation visuelle de la même distribution présentée de manière tabulé.
b. Dresser un système d’axes pour placer à l’horizontal les valeurs ou modalités de la variable (la
première colonne du tableau) de la plus petite à la plus grande selon une distance proportionnelle
à l’écart entre les deux. Ensuite, on place sur l’axe vertical les fréquences compilées (deuxième,
troisième colonne selon besoin) de ces modalités.
c. Tracer les représentations relatives aux variables (bâtons, barres, tuyaux d’orgue, barres
juxtaposées, etc.)

Dans le cas d’une représentation circulaire on trace un cercle de 360o et on mesure les angles de chaque
distribution en multipliant chaque fi par 360o :
θ= fi*360o.

Pour approfondir
1.
Construire les données de présentation et de représentation pour l’étude statistique effectuée sur les
membres d’une église protestante relative au parti politique pour lequel ils avaient voté lors de la dernière
élection. Les données brutes collectées étant les suivantes :
Fusion Lavalas Fusion UNIR Fusion
RDNP Fusion RDNP Lavalas Fusion
OPL UNIR RDNP Lavalas OPL
RDNP RDNP RDNP Lavalas Fusion
Lavalas UNIR Lavalas UNIR RDNP
UNIR Fusion RDNP RDNP RDNP
Trouver le ratio du nombre de votes obtenus par le parti social par rapport au nombre de votes obtenues
par le parti Fusion par rapport au nombre de votes obtenus par le parti Lavalas.

2.
Un sondage réalisé auprès d’une association a donné les informations suivantes relatives à leurs opinions
sur l’utilité du contrat avec les membres :
Très utile : 95
Utile : 342
Nuisible : 210
Très nuisible : 46
Sans opinion : 127
- Identifier la population concernée, l’unité statistique, l’échantillon et sa taille.
- Identifier la variable statistique, son type et l’échelle de mesure utilisée
- Construire les données pour une présentation des données
- Représenter graphiquement cette distribution par un diagramme circulaire
- En admettant qu’on définit le taux de confiance par le rapport de la somme d’utile et très utile au nombre
d’opinion exprimées, quel serait ce taux ?
3.
Pour les sujets d’étude qui suivent, spécifier l’unité statistique, identifier la variable statistique sur laquelle
porte l’étude ainsi que le type de variable. Préciser dans le cas où la variable est quantitative si elle est
continue ou discrète.
Sujet de l’étude Unité Variable Type de Continue ou Echelle de
statistique statistique variable discrète mesure
utilisée
Temps d’exécution (en
sec) d’un
Programme en c#
Absentéistes des
étudiants
Classification de la
tâche d’un employé.

4.
Pour une enquête sur la situation matrimoniale de 40 détenus d’une prison (Marié = 1, Célibataire = 2,
Divorcé = 3, Veuf = 4). Les résultats sont donnés de la façon suivante :
1;1;3;1;2;1;2;2;4;3;1;2;2;2;1;2;2;2;2;1;3;1;1;1;4;3;1;1;2;1;2;2;3;1;1
; 2 ; 4 ; 3 ; 2 ; 2.
1. Donner la population et le caractère étudié. Ce caractère est-il quantitatif ou qualitatif ?
2. Présenter ces résultats dans un tableau statistique. Calculer les fréquences cumulées croissantes.
3. Faites la représentation graphique correspondante.

5.
On donne la représentation graphique suivante :
Causes de Mortalité en Haïti au cours de l’année 2004

Source : Organisation panaméricaine de la Santé. Plateforme d’information en santé (PLISA).

a. Identifier la population, la variable statistique et le type d’échelle de mesure utilisée.


b. Construire la présentation avec les effectifs, proportions et proportions additives
c. Combien y-a-t-il de décès dû aux maladies du système nerveux ?
d. Représenter cette même distribution par un diagramme en barres.
6.
Un éditeur publie une collection de 200 guides touristiques. Le tableau suivant classe ces 200 guides en
fonction du nombre d’exemplaires vendus xi.
1. Quel est le caractère étudié ? Est-il qualitatif ? Quantitatif ? Continu ? Discret ?
2. Calculer la fréquence relative associée à la modalité 8000 à 12000, puis interpréter.
3. Quelle est la proportion des guides de cette collection vendus à moins de 8000 exemplaires ?
4. Calculer la fréquence cumulée croissante associée à la modalité 4000 à 6000, puis interpréter.
Chapitre 5 : Etude des variables statistiques
L’objet de l’étude statistique est lié aux variables statistiques qui sont certains attributs, certaines
caractéristiques que possèdent les individus (unités statistiques) observés dans la population concernée
par l’étude. On avait vu (4.1) que la variable statistique peut être de type qualitatif ou quantitatif discrète
ou continu.

5.1. Etude de la variable statistique qualitative : Présentation tabulée et représentations graphiques


5.1.1. Etude de la variable qualitative
Pour être considérer comme qualitatives, les modalités ou encore les valeurs prises par la variable
statistique sont des valeurs non numériques, c’est-à-dire qu’elles ne sont pas des nombres (entières ou
décimales). Selon l’échelle de mesure considérée, cette variable peut être nominale ou ordonnée. Cette
étude prend en compte ces deux dimensions dans le traitement et l’analyse des données.

5.1.1.1. Variable qualitative nominale (présentation et représentation)


Une variable qualitative est dite nominale quand ses modalités ne peuvent pas être ordonnées. Si on
appelle i le nombre de modalités ou valeurs distinctes prises par la variable, ces valeurs distinctes sont
notées x1, . . . , xi , . . . , xl .

L’effectif ou fréquence absolue d’une modalité ou d’une valeur distincte, comme défini en 4.2.1. a. est le
nombre de fois que cette modalité (ou valeur distincte) apparaît. On le note ni pour la modalité xi. La
proportion ou fréquence relative d’une modalité est l’effectif divisé par le nombre d’unités d’observation :
𝑛
𝑓𝑖 = n𝑖, avec i = 1, . . . , l.

5.1.1.1.1. Présentation tabulée


La présentation condensée des données se fait sur une table appelée tableau statistique. Pour être un
tableau statistique, la table doit être munie d’un titre (distribution ou répartition de la population selon
ou suivant la variable statistique) constituant la tête du tableau ; de la répartition sur ligne et colonne des :
variable, effectif, proportion, pourcentage, etc. constituant le corps du tableau et de la source de
provenance des informations considéré comme le pied du tableau.
Exemple 5.1.1.
Avec la série de l’exemple 4.1. Précédent, les modalités de la variable étant
non numériques et mutuellement exclusive, on a une variable de type
qualitatif et d’échelle de mesure nominale. On obtient le tableau statistique
suivant :
Numéro du tableau : 1
Entête ou titre du tableau : Distribution ou répartition des personnes de la
série statistique selon leur état-civil
Corps du tableau :
Variable Effectif ou quantité Proportion ou Fréquence
xi ni fi
C 9 0,45
M 7 0,35
D 2 0,10
V 2 0,10
Total (Σ) 20 1,00
Pied du tableau : Source : Exemple 4.1.
5.1.1.1.2. Représentations graphiques
Le tableau statistique d’une variable qualitative nominale peut être représenté par deux types de
graphique. Les effectifs sont représentés par un diagramme en barres et les proportions par un
diagramme en secteurs (ou tranches de gâteau ou piechart en anglais).

Diagramme en barres des effectifs Diagramme en secteurs des proportions


5.1.1.2. Variable qualitative ordinale (présentation et représentation)
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce qu’on écrit :
x1 ≺ x2 ≺ · · · ≺ xi−1 ≺ xi ≺ · · · ≺ xl−1 ≺ xl.
La notation x1 ≺ x2 se lit x1 précède x2.
Si la variable est ordinale, on peut calculer les effectifs cumulés :
l
Ni = ∑ nk, avec i = 1, . . . , l.
k=1
On a N1 = n1 et Ni = n. On peut également calculer les fréquences cumulées
l
Fi = Ni/n = ∑ fk, avec i = 1, . . . , l.
k=1
5.1.1.2.1. Présentation tabulée
Exemple 5.1.2. : On interroge 50 personnes sur leur dernier diplôme obtenu
(variable Y). La codification a été faite selon le tableau 2 suivant. On a obtenu
la série :
Numéro du tableau : 2
Dernier diplôme obtenu xj
Sans diplôme Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U
Série statistique de la variable Y : Sd, Sd, Sd, Sd, P, P, P, P, P, P, P, P, P, P, P,
Se, Se, Se, Se, Se, Se, Se, Se, Se, Se, Se, Se, Se, Se, Su, Su, Su, Su, Su, Su, Su, Su,
Su, U, U, U, U, U, U, U, U, U, U, U, U.
Les modalités de la variable présente un certain ordre et sont non
numériques indiquent une variable qualitative ordinale.
Présentation : Tableau statistique complet
Numéro du tableau : 3
Entête du tableau : Titre : Distribution ou répartition des personnes de la série
statistique selon leur dernier diplôme obtenu
Corps du tableau :
Variable Effectif Proportion Effectif additif Proportion additive
xj nj fj Nj Fj
Sd 4 0,08 4 0,08
P 11 0,22 11 0,30
Se 14 0,28 29 0,58
Su 9 0,18 38 0,76
U 12 0,24 50 1,00
Total (Σ) 50 1 X X
Pied du tableau : Sour ce : Enquête après des 50 personnes

5.1.1.2.2. Représentations graphiques


Les proportions ou fréquences relatives d’une variable qualitative ordinale sont représentées au moyen
d’un diagramme en secteurs et les effectifs ou fréquences absolues sont représentées au moyen d’un
diagramme en barres. De même, les effectifs cumulés d’une variable qualitative ordinale sont représentés
au moyen d’un diagramme en barres.

Diagramme en barre des effectifs Diagramme en secteur des proportions

Diagramme en barre des effectifs cumulés

5.2. Etude de la variable statistique quantitative


La variable statistique est réputée quantitative lorsque ses modalités ou les valeurs prises sont
numériques. Ces valeurs numériques peuvent être des valeurs entières tout comme des valeurs
décimales, ce qui porte à distinguer au sein même de ce type de variable, une variable quantitative
discrètes pour les modalités entières et une variables quantitatives continue pour des modalités
décimales.

Il y a lieu de faire remarquer que lorsque l’on a des modalités entières pour un très grand nombre de
données, on peut faire un regroupement de ces dernier en classe et considérer la variable statistique
comme quantitative continue.
5.2.1. Etude de la variable statistique quantitative discrète: Présentation tabulée et représentations
graphiques
La variable est quantitative discrète quand elle a un domaine dénombrable. Les modalités de cette
variable sont généralement des nombres entiers.

5.2.1.1. Présentation tabulée


Voir 4.2.2.2.
Exemple 5.2 : Un quartier est composé de 50 ménages, et la variable X
représente le nombre de personnes par ménage. Les valeurs de la variable
sont : 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 8, 8.
Ici on a des modalités numériques entières et collectées à l’aide d’unités de
mesures de base, où le zéro est absolu (absence d’information), on a une
variable de type quantitatif discret ayant une échelle de mesure relative.
Comme pour les variables qualitatives ordinales, on peut calculer les effectifs,
les effectifs cumulés, les proportions, les proportions additives ou déductives
(fréquences relatives cumulées croissantes ou décroissante). La construction
des données sur le tableau statistique est la suivante :
Numéro du tableau : 4
En tête ou titre du tableau : Distribution des ménages selon leurs nombres de
personnes
Corps du tableau :
Variable Effectif Proportion Effectif additif Proportion additive
Xj nj fj Nj Fj
1 5 0,10 5 0,10
2 9 0,18 14 0,28
3 15 0,30 29 0,58
4 10 0,20 39 0,78
5 6 0,12 45 0,90
6 3 0,06 48 0,96
8 2 0,04 50 1,00
Total (Σ) 50 1 X X
Pied du tableau : Source : Enquête auprès du quartier

5.2.1.2. Représentation graphique :


a. Diagramme en bâtonnets des effectifs :
Quand la variable est discrète, les effectifs sont représentés par des bâtonnets.

Diagramme en bâtonnets des effectifs pour une variable quantitative discrète

b. Fonction de répartition :
Les fréquences cumulées sont représentées au moyen de la fonction de répartition.
Cette fonction, présentée dans le graphique ci-dessous, est définie de R dans [0, 1] et vaut :
0 pour x < x1
F(x) = Fj pour xj ≤ x < xj+1
1 pour xJ ≤ x.
Fonction de répartition d’une variable quantitative discrète

5.2.2. Etude de la variable statistique quantitative continue: Présentation tabulée et représentations


graphiques
Une variable quantitative continue, pour sa part, peut prendre une infinité de valeurs numériques
possibles. Le domaine de la variable est alors l’ensemble R ou un intervalle de R. Dans la pratique, les
variables continues peuvent être traitées comme des variables discrètes, Cependant, pour faire des
représentations graphiques et construire le tableau statistique, il faut procéder à des regroupements en
classes.
Une mesure est limitée en précision. La taille peut être mesurée en centimètres, voire en millimètres.
Le tableau regroupé en classe est souvent appelé distribution groupée.
Si [bi–1 ; bi+1 [désigne la classe i, on note, de manière générale :
– bi–1 : la borne inferieure de la classe i,
– bi+1 : la borne supérieure de la classe i,
(𝑏 +𝑏 )
– ci = 𝑖+12 𝑖 : le centre de la classe i,
– ai = bi+1− bi–1 : l’amplitude de la classe i,
– ni : l’effectif de la classe i,
– Ni : l’effectif cumulé de la classe i,
– fi : la proportion de la classe i,
– Fi : la proportion cumulée de la classe i.
La répartition en classes des données ‘n’ nécessite de définir a priori le nombre de classes i et donc
l’amplitude de chaque classe. En règle générale, on choisit au moins cinq classes de même amplitude.
Cependant, il existe des formules qui nous permettent d´établir le nombre de classes et l’intervalle de
classe (l’amplitude) pour une série statistique de n observations.
– La règle de Sturge : i = 1 + (3.3 log10(n)).
– La règle de Yule : i = 2.5 4√n.
(𝑋𝑀𝑎𝑥 +𝑋𝑚𝑖𝑛 )
L’intervalle de classe est obtenue ensuite de la manière suivante : longueur de l’intervalle = i
,
où xmax (resp. xmin) désigne la plus grande (resp. la plus petite) valeur observée.

Remarque Il faut arrondir le nombre de classe i à l’entier le plus proche.


Par commodité, on peut aussi arrondir la valeur obtenue de l’intervalle de classe. A partir de la plus petite
valeur observée, on obtient les bornes de classes en additionnant successivement l’intervalle de classe
(l’amplitude).
5.2.2.1. Présentation tabulée
Exemple 5.3. : On mesure la taille en centimètres de 50 élèves d’une classe :
152 152 152 153 153 154 154 154 155 155 156 156 156 156 156 157 157 157
158 158 159 159 160 160 160 160 160 161 161 162 162 162 163 164 164 164
164 165 166 167 168 168 168 169 169 170 171 171 171 171
On a les classes de tailles définies préalablement comme il suit :
[151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[
[163, 5; 167, 5[ [167, 5; 171, 5[ .
Les modalités de la variable sont numériques décimales et représente des
mesures de distance ou d’intervalle est de type quantitatif prise selon une
échelle de mesure d’intervalle. Le tableau de présentation des données est
le suivant :
Numéro du tableau : 5
En tête ou titre du tableau : Répartition des élèves de la classe suivant leurs
tailles (en centimètres)
Variable milieu de Effectif Effectif additif Proportion Proportion
classe additive
[cj−, cj+ ] mi nj Nj fj Fj
[151,5; 155,5[ 153,5 10 10 0.20 0.20
[155,5; 159,5[ 157,5 12 22 0.24 0.44
[159,5; 163,5[ 161,5 11 33 0.22 0.66
[163,5; 167,5[ 165,5 7 40 0.14 0.80
[167,5; 171,5[ 169,5 10 50 0.20 1.00
TOTAL 50 1.00
Pied du tableau : Source : Enquête auprès des élèves d’une classe

5.2.2.2. Représentation graphiques


La variable statistique quantitative continue peut être représentée par deux graphiques distinctes :
a. l’histogramme des fréquences (effectifs ou fréquences absolues et/ou proportions ou
fréquences relatives)
b. l’ogive ou la courbe cumulative

a. Histogramme
L’histogramme est un diagramme en colonnes avec des rectangles juxtaposées. Construire un
histogramme consiste à représenter les effectifs (respectivement les proportions) des classes par des
rectangles contigus dont la surface (et non la hauteur) représente l’effectif (respectivement la
proportion). Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la classe i est
𝑛
donc donnée par : ℎ𝑖 = 𝑖
𝑎𝑖
– On appelle hi la densité d’effectif.
– L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de chaque rectangle est égale
à l’effectif de la classe i : ai × hi = ni.

𝑓
Pour un histogramme des proportions on a : 𝑑𝑖 = 𝑎𝑖
𝑖
– On appelle di la densité de proportion (ou de fréquence relative).
– L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle est égale à la proportion
de la classe i : ai × di = fi.
Figure :
Histogramme des proportions

Si les deux dernières classes sont agrégées, la surface du dernier rectangle est égale à la surface des deux
derniers rectangles de l’histogramme de la Figure précédente. Voir la Figure suivante.

Histogramme des proportions avec les deux dernières classes agrégées

Remarque
Dans le cas de classes de même amplitude certains auteurs et logiciels représentent l’histogramme avec
les effectifs (respectivement les proportions) reportés en ordonnée, l’aire de chaque rectangle étant
proportionnelle à l’effectif (respectivement la proportion) de la classe.

En joignant les points milieux consécutifs des sommets des rectangles de l’histogramme, on obtient une
ligne que l’on appelle polygone de fréquences (effectifs ou proportions).
Polygones des proportions

b. La courbe cumulative ou l’ogive


Cette représentation graphique met en cause la fonction de répartition de la variable statistique
quantitative continue. Cette fonction de répartition, notée F(x), est une fonction de R dans [0, 1], qui est
définie par :

Et la figure suivant est l’ogive correspondante :

Fonction de répartition d’une distribution groupée

Les exemples 5.1.1 et 5.1.2 pour la variable statistique qualitative, l’exemple 5.2 pour la variable
statistique quantitative discrète et l’exemple 5.3 pour la variable statistique quantitative continue
mettent tous au point les modes de parution des données que l’on subdivise en trois variantes : brutes
rangées, condensées et groupées en classes. L’étude de la variable statistique donne des présentations
tabulées qu’on appelle données condensées ou groupées en classes. Lorsque les données collectées ne
sont pas très nombreuses, ne dépassant pas 20 à 30 données, on les considère comme des données brutes
qu’il faut rangées. Ce sont ces variantes de visualisation des données qui facilitent la détermination des
paramètres de mesures statistiques.

Pour approfondir
1.
Dans une petite localité, on a relevé le nombre de pièces par appartement et les informations collectées
se résument ainsi :
Nombre de pièces 1 2 3 4 5 6 7
Nombre d'appartements 48 72 96 64 39 25 3
Sont demandés, justifications à l’appui :
i. population, unité statistique, échantillon et taille
ii. variable, type et échelle de mesure
iii. diagramme en bâtons des effectifs, effectifs cumulés, fonction de distribution des effectifs

1.
On étudie les revenus annuels (en milliers de gourdes) d’un ensemble de familles d’un quartier de
Pétion-Ville, les données sont groupées dans le tableau suivant :
Revenus annuel [18 ; 30[ [30 ; 36[ [36 ; 42[ [42 ; 54[ [54 ; 60[ [60 ; 66[
(en 103 HTG)
Effectifs 13 219 20 46 50 82
 Préciser les caractéristiques de cette série (population, taille, individu, variable, type, modalités)
 Calculer la moyenne de cette série statistique (5 points)
 Dresser l’histogramme et le polygone de cette série statistique

3.
Pour le championnat universitaire de la région métropolitaine, on a noté la taille en centimètre, des
athlètes de basketball et les données brutes en ordre ascendant sont les suivantes :
171,1 172,3 174,1 175.2 176.4 177.3 178.7 179.3 181.3 181.5
181.6 181.6 181.6 182.2 182.5 183.4 183.7 184.3 184.9 185.0
185.8 185.9 186.2 186.5 187.1 187.6 188.0 188.4 188.6 188.9
189.3 189.9 190.0 190.2 190.5 190.7 191.1 191.4 191.5 191.9
193.2 193.5 193.8 193.9 194.4 194.5 194.8 194.9 195.1 196.8
198.2 199.1 199.4 201.7 204.8
 Identifier la population, l’unité statistique, l’échantillon et sa taille
 Identifier la variable statistique, son type et l’échelle de mesure
 Représenter ces données sur un tableau de distribution de proportions
 Donner l’ogive correspondante

4.
𝑚𝑎𝑠𝑠𝑒 𝑒𝑛 𝑘𝑔
L’indice de masse corporelle (IMC) est défini par : 𝐼𝑀𝐶 = . Il permet de mesurer la corpulence
(𝑡𝑎𝑖𝑙𝑙𝑒 𝑒𝑛 𝑚)2
d’un adulte. L’Organisation Mondiale de la Santé (OMS) a défini les critères suivants :
− maigreur (16,5 à 18,5) − normal (de 18,5 à 25)
− risque de surpoids (de 25 à 30) − obésité modérée (de 30 à 35)
− obésité sévère (35 à 40).
En deçà de 16,5 (dénutrition) et au-delà de 40 (obésité massive), les risques de mortalité sont élevés.
Remarque. Cet indice n’a qu’une valeur indicative : il ne prend pas en compte la proportion de masse musculaire, de masse osseuse,
de masse grasse... en particulier les sportifs se retrouvent souvent en surpoids bien que leur forme physique est souvent meilleure
que la moyenne des individus.
On donne ci-contre le poids et la taille d’un échantillon de 13 personnes.
𝑥 = Poids en kg 70 65 95 58 42 75 45 89 77 83 62 48 59
𝑦 = Taille en m 1,68 1,85 1,56 1,61 1,5 1,68 1,65 1,65 1,64 1,75 1,48 1,48 1,74
Calculer leur IMC.

5.
Pour le graphique ci-dessous, donner l’effectif de violet, la proportion de vert, le pourcentage de jaune et
celui de bleu.
Donner la présentation tabulée correspondante.
Le graphique précédant est-il correct ? Pourquoi ?

Vous aimerez peut-être aussi