Académique Documents
Professionnel Documents
Culture Documents
Ce moment n’aurait pas de sens si l’étude visée ne se portait pas sur certains attributs que possèdent les
individus observés (unités statistiques). Ces propriétés ou aspects singuliers que l'on se propose
d'observer dans la population ou l'échantillon, ces attributs, qualités ou encore caractéristiques de la
population portent le nom de variables statistiques et les différentes valeurs qu’elles peuvent prendre
sont appelées modalités. La variable statistique est notée par une lettre majuscule, généralement X et ses
modalités par des lettres minuscules indicées : x1, x2, x3, …, xk si on a k valeurs ou encore xi pour les
représenter toutes.
X = { x1, x2, x3, …, xk } ou X = xi avec 1 ≤ i ≤ k
Suivant ses modalités, une variable statistique peut être qualitative ou quantitative. La première se réfère
à des modalités non numériques et la seconde lorsque les modalités de la variable statistique sont des
nombres. Suivant que ces nombres soient entiers ou décimaux, la variable statistique est respectivement
quantitative discrète et quantitative continue.
Lorsque la variable statistique est une variable qualitative, on peut le considérer selon l’échelle de mesure
utilisée en observation. Lorsque les données collectées de l’observation concernant correspondent à des
catégories n’ayant pas de relation d’ordre entre les modalités (modalités mutuellement exclusives), on
utilise une échelle de mesure nominale. Quand les données collectées sont classé dans des modalités
ordonnées selon un critère bien défini, l’échelle de mesure est dite ordinale (les variables qualitatives à
échelle de mesure ordinales sont parfois appelées variables semi-quantitatives).
Lorsque la variable statistique est une variable quantitative, elle est observée suivant trois échelles de
mesure : l’échelle de mesure ordinale précédente; l’échelle de mesure par intervalle utilisée lorsque les
données collectées sont classées dans des modalités représentant des mesures de distance ou d’intervalle
séparant deux positions données et l’échelle de mesure relative (ou par rapport) utilisée lorsque le les
observations collectées représentent des mesures faites à l’aide d’unités de base et lorsque la mesure
nulle représente l’absence de la caractère étudiée.
Exemple 4.1
Au cours du RGPH–4, on a noté le département de naissance de chacune des
personnes. Le choix des réponses a porté sur : Ouest, Nord, Sud, Artibonite,
Sud-Est, Centre, Nippes, Grand-Anse, Nord-Ouest, Nord-Est.
Population : l’ensemble de tous les haïtiens
Unité statistique : un haïtien
Variable statistique : le département de naissance des personnes
Type de la variable : qualitative
Echelle de mesure : nominale
Echelle ordinale : Modalités ordonnées suivant un critère bien défini. Les données sont collectées sous forme de classes ou de catégories ordonnées.
Echelle d’intervalle : Modalités représentant des mesures de distance ou d’intervalle séparant deux positions.
Le zéro n’a rien de l’absence de la caractéristique étudiée (zéro arbitraire).
Aucun rapport possible entre les données.
Peu importe deux données quelconque choisies, un même intervalle a la même signification.
c. Pourcentage
Le pourcentage indique sur une base de 100 quelle partie de la population ou de l’échantillon correspond
à la modalité étudiée. On l’obtient en multipliant par 100 la proportion ou fréquence relative précédente.
𝑛 𝑛
% = fi*100 = 𝑓𝑖 = N𝑖*100 ou 𝑓𝑖 = n𝑖*100
On ici en guise d’interprétation a un pourcentage fi*100 pour la modalité Xi.
d. Taux
Le taux indique sur une base de 1, 10, 100, 1000, etc. quelle partie de la population ou de l’échantillon
correspond à la modalité étudiée. Il permet de comparer une caractéristique entre différents groupes de
tailles différentes. On l’obtient en multipliant par 1, 10, 100, 1000, etc. La proportion ou fréquence
relative précédente. Le choix de base dépend de la fréquence de l’occurrence de l’événement ou d’une
convention. On l’exprime en % quand la base est de 100 ; %o quand la base est 1000 ; %oo quand il est
basé sur 10000.
Exemples
Taux d’intérêt (en %) : Montant à verser ou à percevoir sur chaque tranche de 100 unités
monétaires;
Taux de chômage (en %) : Proportion de chômeurs (personne n’ayant pas d’emploi et qui en
cherche) par rapport à une population active ;
Taux de natalité (en %o) : Expression utilisé en démographie pour désigner la proportion des
naissances dans une population ;
Taux de féminité (en %o) : Expression utilisé en démographie pour désigner la proportion des
personnes de sexe féminin dans un ensemble d’individus ;
Taux de fécondité (en %o) : Proportion de personnes de sexe féminin en âge de procréer dans une
population ;
femmes.
En interprétation, on a un taux de fi, fi*10, fi*100, fi*1000 pour la modalité Xi.
e. Indice
L’indice est une mesure quantitative attribuée à une caractéristique ou à un phénomène qualitatif qui
tient compte de plusieurs indicateurs de cette caractéristique ou de ce phénomène. Les détails de calcul
n’étant pas pris en compte, on en retient:
L’indice de prix à la consommation : calculé par l’IHSI (Institut Haïtien de Statistique et
d’Informatique), cet indice établit des prix ordinairement consommé par les ménages. Ses
variations reflètent le coût de la vie pour ce ménage type.
L’indice synthétique de fécondité : il sert à mesurer le nombre d’enfants qu’on peut espérer de
chaque femme en mesure de procréer. Il est basé sur le nombre d’enfants que possèdent les
femmes au cours d’une année donnée.
L’indice synthétique de nuptialité : il sert à mesurer la proportion d’hommes ou de femmes
célibataires qui se marient avant d’atteindre l’âge de 50 ans. Il est basé sur le nombre d’hommes
ou de femmes mariés au cours d’une année donnée.
f. Ratio
Le ratio indique le rapport entre le nombre d’unités dans un groupe répondant à certaines caractéristiques
et le nombre d’unités dans un autre groupe répondant à d’autres caractéristiques. Il ne donne pas une
relation précise entre les deux groupes mais une idée du rapport entre les deux.
Un pourcentage de variation positif est synonyme d’une augmentation de la valeur entre les deux
périodes, et un négatif en indique une diminution. La possibilité d’une augmentation de plus de 100% est
de mise alors que l’inverse est impossible.
On regroupe toutes les données de la série statistique dans un tableau statistique indiquant la répartition
des individus selon le caractère étudié. Pour être un tableau statistique, ce dernier doit être constitué
d’une en tête relatant le titre du tableau, d’un corps qui prend en compte les données construites et d’un
pied qui indique la source ou provenance des informations.
Récapitulatif
Exemple 4.1 : On s’intéresse à la variable ‘´état-civil’’ notée X et à la série
statistique des valeurs prises par X sur 20 personnes. La codification est :
C : célibataire, M : marié(e), V : veuf (ve), D : divorcée.
Le domaine de la variable X est {C, M, V, D}.
En considérant la série statistique suivante : M, M, D, C, C, M, C, C, C, M, C, M,
V, M, V, D, C, C, C, M.
On a ici, n = 20, et les modalités de la variable X sont : x1 = M, x2 = M, x3 = D, x4
= C, x5 = C, . . . ., x20 = M.
Exemple 4.2 : Les données suivantes ont été collectées lors d’un sondage sur
un échantillon de 125 ménages interrogés pour s’enquérir du nombre de
personne vivant dans chacun de ces ménages
6 2 1 3 2 1 3 4 1 3 2 2 1 4 5 1 4 2 2 2 2 3 3 1 2 6 1 2 3 4 3 2 3
7 1 2 5 3 6 6 2 5 3 4 1 3 6 4 3 3 2 4 1 1 4 1 4 2 8 2 2 1 4 2 2 2
3 1 2 3 5 4 3 5 2 2 3 1 7 1 4 4 4 4 4 1 1 3 2 1 2 5 3 2 8 4 2 4 2
2 3 3 2 3 2 3 3 1 6 4 2 2 1 7 1 5 7 3 1 3 4 1 2 3 1
Selon cette présentation il importe de considérer en interprétation simple des effectifs que
la modalité 1 signifie que 25 ménages sont constitués d’une seule personne ; 33 de 2
personnes ; 27 de 3 personnes ; etc.
L’interprétation en proportion est similaire à la notion de pourcentage, il suffit de multiplier
la proportion par 100 pour avoir le pourcentage et conclure que 20% des ménages sont
composés d’une personne ; 26,4% de 2 personnes ; 21,6% de 3 personnes ; etc.
La proportion additive ou fréquence relative cumulée permet d’interpréter que 20% des
ménages sont composés d’au plus 1 personne ; 46,4% d’au plus 2 personnes ; 68% d’au plus
3 personnes ; etc.
La représentation est une autre forme de présentation des données statistiques. Si la première était
tabulée, celle-là est graphique et se fait en utilisant des diagrammes qui servent à visualiser la répartition
des individus.
Pour une variable statistique qualitative
On utilise des diagrammes à secteurs circulaires, des diagrammes en tuyaux d'orgue, des
diagrammes en bandes. Le principe est de représenter des aires proportionnelles aux fréquences
(effectif ou proportion) de la variable statistique.
Pour une variable statistique quantitative discrète
On utilise un diagramme différentiel en bâtons, complété du diagramme des fréquences cumulées
appelé diagramme cumulatif. Le diagramme cumulatif est la représentation graphique d’une
fonction F, appelée fonction de répartition ou de distribution de la variable statistique.
Pour une variable statistique quantitative continue
1. Le diagramme représentant la série est un histogramme : ce sont des rectangles juxtaposés
dont chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle
que l’aire de chaque rectangle soit proportionnelle aux effectifs (histogramme des effectifs)
ou aux proportions de la classe correspondante (histogramme des proportions).
2. On obtient le polygone des effectifs (fréquences absolues) ou des proportions (fréquences
relatives) en reliant les milieux des bases supérieures des rectangles.
3. La courbe cumulative (ou polygone des fréquences cumulées) est obtenue en portant les
points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes, puis en reliant ces points par des segments de
droite. C’est la représentation graphique d’une fonction F, appelée fonction de répartition ou
de distribution de la variable statistique continue.
Dans le cas d’une représentation circulaire on trace un cercle de 360o et on mesure les angles de chaque
distribution en multipliant chaque fi par 360o :
θ= fi*360o.
Pour approfondir
1.
Construire les données de présentation et de représentation pour l’étude statistique effectuée sur les
membres d’une église protestante relative au parti politique pour lequel ils avaient voté lors de la dernière
élection. Les données brutes collectées étant les suivantes :
Fusion Lavalas Fusion UNIR Fusion
RDNP Fusion RDNP Lavalas Fusion
OPL UNIR RDNP Lavalas OPL
RDNP RDNP RDNP Lavalas Fusion
Lavalas UNIR Lavalas UNIR RDNP
UNIR Fusion RDNP RDNP RDNP
Trouver le ratio du nombre de votes obtenus par le parti social par rapport au nombre de votes obtenues
par le parti Fusion par rapport au nombre de votes obtenus par le parti Lavalas.
2.
Un sondage réalisé auprès d’une association a donné les informations suivantes relatives à leurs opinions
sur l’utilité du contrat avec les membres :
Très utile : 95
Utile : 342
Nuisible : 210
Très nuisible : 46
Sans opinion : 127
- Identifier la population concernée, l’unité statistique, l’échantillon et sa taille.
- Identifier la variable statistique, son type et l’échelle de mesure utilisée
- Construire les données pour une présentation des données
- Représenter graphiquement cette distribution par un diagramme circulaire
- En admettant qu’on définit le taux de confiance par le rapport de la somme d’utile et très utile au nombre
d’opinion exprimées, quel serait ce taux ?
3.
Pour les sujets d’étude qui suivent, spécifier l’unité statistique, identifier la variable statistique sur laquelle
porte l’étude ainsi que le type de variable. Préciser dans le cas où la variable est quantitative si elle est
continue ou discrète.
Sujet de l’étude Unité Variable Type de Continue ou Echelle de
statistique statistique variable discrète mesure
utilisée
Temps d’exécution (en
sec) d’un
Programme en c#
Absentéistes des
étudiants
Classification de la
tâche d’un employé.
4.
Pour une enquête sur la situation matrimoniale de 40 détenus d’une prison (Marié = 1, Célibataire = 2,
Divorcé = 3, Veuf = 4). Les résultats sont donnés de la façon suivante :
1;1;3;1;2;1;2;2;4;3;1;2;2;2;1;2;2;2;2;1;3;1;1;1;4;3;1;1;2;1;2;2;3;1;1
; 2 ; 4 ; 3 ; 2 ; 2.
1. Donner la population et le caractère étudié. Ce caractère est-il quantitatif ou qualitatif ?
2. Présenter ces résultats dans un tableau statistique. Calculer les fréquences cumulées croissantes.
3. Faites la représentation graphique correspondante.
5.
On donne la représentation graphique suivante :
Causes de Mortalité en Haïti au cours de l’année 2004
L’effectif ou fréquence absolue d’une modalité ou d’une valeur distincte, comme défini en 4.2.1. a. est le
nombre de fois que cette modalité (ou valeur distincte) apparaît. On le note ni pour la modalité xi. La
proportion ou fréquence relative d’une modalité est l’effectif divisé par le nombre d’unités d’observation :
𝑛
𝑓𝑖 = n𝑖, avec i = 1, . . . , l.
Il y a lieu de faire remarquer que lorsque l’on a des modalités entières pour un très grand nombre de
données, on peut faire un regroupement de ces dernier en classe et considérer la variable statistique
comme quantitative continue.
5.2.1. Etude de la variable statistique quantitative discrète: Présentation tabulée et représentations
graphiques
La variable est quantitative discrète quand elle a un domaine dénombrable. Les modalités de cette
variable sont généralement des nombres entiers.
b. Fonction de répartition :
Les fréquences cumulées sont représentées au moyen de la fonction de répartition.
Cette fonction, présentée dans le graphique ci-dessous, est définie de R dans [0, 1] et vaut :
0 pour x < x1
F(x) = Fj pour xj ≤ x < xj+1
1 pour xJ ≤ x.
Fonction de répartition d’une variable quantitative discrète
a. Histogramme
L’histogramme est un diagramme en colonnes avec des rectangles juxtaposées. Construire un
histogramme consiste à représenter les effectifs (respectivement les proportions) des classes par des
rectangles contigus dont la surface (et non la hauteur) représente l’effectif (respectivement la
proportion). Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la classe i est
𝑛
donc donnée par : ℎ𝑖 = 𝑖
𝑎𝑖
– On appelle hi la densité d’effectif.
– L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de chaque rectangle est égale
à l’effectif de la classe i : ai × hi = ni.
𝑓
Pour un histogramme des proportions on a : 𝑑𝑖 = 𝑎𝑖
𝑖
– On appelle di la densité de proportion (ou de fréquence relative).
– L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle est égale à la proportion
de la classe i : ai × di = fi.
Figure :
Histogramme des proportions
Si les deux dernières classes sont agrégées, la surface du dernier rectangle est égale à la surface des deux
derniers rectangles de l’histogramme de la Figure précédente. Voir la Figure suivante.
Remarque
Dans le cas de classes de même amplitude certains auteurs et logiciels représentent l’histogramme avec
les effectifs (respectivement les proportions) reportés en ordonnée, l’aire de chaque rectangle étant
proportionnelle à l’effectif (respectivement la proportion) de la classe.
En joignant les points milieux consécutifs des sommets des rectangles de l’histogramme, on obtient une
ligne que l’on appelle polygone de fréquences (effectifs ou proportions).
Polygones des proportions
Les exemples 5.1.1 et 5.1.2 pour la variable statistique qualitative, l’exemple 5.2 pour la variable
statistique quantitative discrète et l’exemple 5.3 pour la variable statistique quantitative continue
mettent tous au point les modes de parution des données que l’on subdivise en trois variantes : brutes
rangées, condensées et groupées en classes. L’étude de la variable statistique donne des présentations
tabulées qu’on appelle données condensées ou groupées en classes. Lorsque les données collectées ne
sont pas très nombreuses, ne dépassant pas 20 à 30 données, on les considère comme des données brutes
qu’il faut rangées. Ce sont ces variantes de visualisation des données qui facilitent la détermination des
paramètres de mesures statistiques.
Pour approfondir
1.
Dans une petite localité, on a relevé le nombre de pièces par appartement et les informations collectées
se résument ainsi :
Nombre de pièces 1 2 3 4 5 6 7
Nombre d'appartements 48 72 96 64 39 25 3
Sont demandés, justifications à l’appui :
i. population, unité statistique, échantillon et taille
ii. variable, type et échelle de mesure
iii. diagramme en bâtons des effectifs, effectifs cumulés, fonction de distribution des effectifs
1.
On étudie les revenus annuels (en milliers de gourdes) d’un ensemble de familles d’un quartier de
Pétion-Ville, les données sont groupées dans le tableau suivant :
Revenus annuel [18 ; 30[ [30 ; 36[ [36 ; 42[ [42 ; 54[ [54 ; 60[ [60 ; 66[
(en 103 HTG)
Effectifs 13 219 20 46 50 82
Préciser les caractéristiques de cette série (population, taille, individu, variable, type, modalités)
Calculer la moyenne de cette série statistique (5 points)
Dresser l’histogramme et le polygone de cette série statistique
3.
Pour le championnat universitaire de la région métropolitaine, on a noté la taille en centimètre, des
athlètes de basketball et les données brutes en ordre ascendant sont les suivantes :
171,1 172,3 174,1 175.2 176.4 177.3 178.7 179.3 181.3 181.5
181.6 181.6 181.6 182.2 182.5 183.4 183.7 184.3 184.9 185.0
185.8 185.9 186.2 186.5 187.1 187.6 188.0 188.4 188.6 188.9
189.3 189.9 190.0 190.2 190.5 190.7 191.1 191.4 191.5 191.9
193.2 193.5 193.8 193.9 194.4 194.5 194.8 194.9 195.1 196.8
198.2 199.1 199.4 201.7 204.8
Identifier la population, l’unité statistique, l’échantillon et sa taille
Identifier la variable statistique, son type et l’échelle de mesure
Représenter ces données sur un tableau de distribution de proportions
Donner l’ogive correspondante
4.
𝑚𝑎𝑠𝑠𝑒 𝑒𝑛 𝑘𝑔
L’indice de masse corporelle (IMC) est défini par : 𝐼𝑀𝐶 = . Il permet de mesurer la corpulence
(𝑡𝑎𝑖𝑙𝑙𝑒 𝑒𝑛 𝑚)2
d’un adulte. L’Organisation Mondiale de la Santé (OMS) a défini les critères suivants :
− maigreur (16,5 à 18,5) − normal (de 18,5 à 25)
− risque de surpoids (de 25 à 30) − obésité modérée (de 30 à 35)
− obésité sévère (35 à 40).
En deçà de 16,5 (dénutrition) et au-delà de 40 (obésité massive), les risques de mortalité sont élevés.
Remarque. Cet indice n’a qu’une valeur indicative : il ne prend pas en compte la proportion de masse musculaire, de masse osseuse,
de masse grasse... en particulier les sportifs se retrouvent souvent en surpoids bien que leur forme physique est souvent meilleure
que la moyenne des individus.
On donne ci-contre le poids et la taille d’un échantillon de 13 personnes.
𝑥 = Poids en kg 70 65 95 58 42 75 45 89 77 83 62 48 59
𝑦 = Taille en m 1,68 1,85 1,56 1,61 1,5 1,68 1,65 1,65 1,64 1,75 1,48 1,48 1,74
Calculer leur IMC.
5.
Pour le graphique ci-dessous, donner l’effectif de violet, la proportion de vert, le pourcentage de jaune et
celui de bleu.
Donner la présentation tabulée correspondante.
Le graphique précédant est-il correct ? Pourquoi ?