Vous êtes sur la page 1sur 199

ANALYSE STATISTIQUE

UNIVARIEE
M. TALNAN Hongwopena Evrard
LICENCE 1 SEA ET SEG
UIST
Année académique : 2022-2023
OBJECTIFS

A la fin de ce cours vous devez être capables:


 De faire des calculs;
 D’interpréter les résultats et à comprendre leur portée, leur
pertinence et leur utilité;
 De lire de façon critique toute l’information chiffrée et,
éventuellement, fournir les bases pour analyser des données
quantitatives selon une méthode scientifique;
 Utiliser le logiciel Excel pour la mise en œuvre de la statistique.
INTRODUCTION
• La statistique est la science dont l’objet est de recueillir, de traiter et
d’analyser des données issues de l’observation de phénomènes
aléatoire, c’est-à-dire dans lesquels le harsard intervient.
• L’analyse des données est utilisée pour décrire les phénomènes
étudiés, faire des prévisions et prendre des décisions à leur sujet. En
cela la statistique est l’outil essentiel pour la compréhension et la
gestion des phénomènes complexes.
• Les données étudiées peuvent être de toute nature, ce qui rend la
statistique utile dans tous les champs disciplinaires et expliques
pourquoi elle est enseignée dans toutes les filières universitaires, de
l’économie à la biologie en passant par la psychologie, et bien sûr les
science de l’ingénieur.
INTRODUCTION: divers domaines d’application
• La médecine, biologie : diagnostic médical, imagérie médicale, essais
thérapeutiques, dynamique des population, impact des OGM, …
• Economie, assurance et finance : prévision économétriques, analyse de la
consommation des ménages, fixation des primes d’assurance et franchises,
études quantitatives des marchés, gestion de portefeuille,…
• Sciences humaines : enquête d’opinion, sondages, démographie, études de
populations,…
• Sciences de l’ingénieur : voiture autonome, maîtrise des risques industriels,
contrôle de qualité, maîtrise statistique des procédés, …
• Science de l’information : traitement des images et des signaux,
reconnaisance faciale, traitement automatique du language naturel, big data,
publicité ciblée sur le web,…
INTRODUCTION
• L’analyse statistique permet d’organiser et de traiter les données pour
qu’elles soient bien comprises et qu’elles aient un sens, alors que
l’interprétation vise à répondre à la question de recherche ou à
déterminer si les données étayent l’hypothèse de départ.

• L’analyse statistique univariée (ou descriptive): porte sur une seule


variable à la fois.
Introduction : But de la statistique
Les données sont entâchés d’incertitudes et présentent des variations
pour plusieurs raisons:
• Le déroulement des phénomènes observés n’est pas prévisible à l’avance avec
certitude
• Toute mesure est entâché d’erreur
• Seuls quelque individus sont observés
•…
les données issues de phénomène aléatoires
intervention du hasard et des probabilités
Objectifs : maîtriser au mieix cette incertitude pour extraire des
information utiles des données, par l’intermédiaire de l’analyse des
variations dans les observations.
Introduction : deux classes de méthodes statistique
1. Statistique descriptive : elle a pour but de résumer l’information contenue
dans les données de façon synthétique et efficace par :
• Des représentations graphiques et de tableaux
• Des indicateurs numériques de position, dispersion, concetration, de forme, et de
relation
• La régression linéaire
Elle permet de dégager les caractéristiques essentielles du phénomène étudié et
de suggérer des hypothèses pour une ultérieur plus sophistiquée.
2. Statistique inférentielle : elle a pour but de faire des prévision et de prendre
des décisions au vu des observations par:
• L’estimation paramétrique
• Intervalle de confiance, tests d’hypothèse
Elle nécessite de définir des modèle probabilistes du phénomène aléatoire et
savoir gérer les risques d’erreurs.
Introduction: Les étapes de l’analyse statistique

1. Comprendre la nature du problème


2. Décider de ce qu'il faut mesurer et comment le mesurer.
3. Collecte de données
4. Résumé des données et analyse préliminaire
5. Analyse formelle des données
6. Interprétation des résultats
CHAPITRE I : LES VARIABLES ET LES DONNÉES

• La population et les unités statistiques

• Les notions de variable et d’indicateur

• Les types de variables

• Les échelles de mesure

• Les questions d’opérationnalisation et de mesure

• Quelques conventions concernant la précision des données .


La population et les unités statistiques
• La population est l’ensemble de tous les éléments sur lequel porte une
recherche ou une étude. La Taille de la population est notée N (nombre total
d’élements dans la population).
• Unité statistique : chaque élément de la population étudiée qui peut être,
une personne, un animal, un objet, un fait, etc. une unité statistique ou
individu est notée i avec 𝑖 = 1,2, …, N.
• Une échantillon : est une sous partie de la population. La taille de
l’échantillon est notée n (nombre total d’éléments dans l’échantillon)
Exemples: Une étude peut porter sur :
• L’ensemble des étudiants de l’UIST en 2022 (chaque étudiant étant l’unité statistique;
• l’ensemble des voyages depuis la mise en service des Bus de l’UIST(chacun des
voyages étant une unité statistique) ou encore
• les émissions totales de dioxyde de carbone (CO2) dans le monde depuis 1990
(chacune des années d’émission de CO2 étant une unité statistique).
Les notions de variable et d’indicateur
• Variable : Caractéristique que possèdent les individus de la population à
étudier. En recherche scientifique, on emploie le terme « variable » pour
désigner un concept observable et mesurable qui varie d’une unité à
l’autre ou à différents moments de l’observation.
• Les variables sont généralement notées par une lettre majuscule (X, Y,
etc.)
• Donnée : Élément d’information obtenu au moyen d’une mesure auprès
d’unités statistiques. les données recuellies sur une variable sont notée
par une lettre miniscule 𝑥, 𝑦.
• Série statistique : Ensemble des données portant généralement sur une
seule variable.
Les types de variables
• Il existe deux types de variables selon la nature des données :
1. Les variables qualitatives : font appel à des données qui ne sont pas des
nombres mais des catégories ou des attributs. Exemple : « sexe », « langue
maternelle », « situation familiale »
• L’ensemble des catégories possibles pour une variable qualitative se
nomme modalité. Exemple: « sexe » présente deux modalités, masculin
ou féminin.
2. Les variables quantitatives : sont des caractéristiques qui s’expriment par
des valeurs numériques. Exemple: l’âge, la taille ou le revenu familial.
• Les données associées à une variable quantitative se nomment valeurs et
sont des nombre. Cette variable peut être de deux types : discrète ou
continue.
Les variables quantitatives discrètes
Une variable quantitative discrète est une variable dont les valeurs sont
nécessairement des nombres entiers.
• Les valeurs de ce type de variable sont isolées : 0, 1, 2, 3, 4, etc. Il y a un
saut d’une valeur à la suivante et il est impossible d’utiliser les nombres
situés entre deux valeurs consécutives. Une variable quantitative discrète
est généralement associée à l’idée de dénombrement (compter).
• Exemple :le nombre d’étudiant présent en classe est une variable
quantitative discrète et les valeurs possibles s’étalent de 0 à 50.
• Exemple : Le nombre d’enfants par famille.
• Exemple : le nombre de votes recueillis par un député
Les variables quantitatives continues

Une variable quantitative continue est une variable dont les valeurs
appartiennent à un intervalle numérique.
• Exemple: Les variables « longueur », « volume » et « masse ».
Une variable quantitative continue est habituellement associée à l’idée de
mesure et à un système abstrait d’unités fractionnables.
il est possible d’augmenter à l’infini la précision de la mesure.
EXERCICE D’APPLICATION
• indiquez si les variables suivantes sont qualitatives ou quantitatives
(discrètes ou continues).
a) Le nombre de spectateurs au dernier match de hockey du Canadien de
Montréal.
b) Le métier d’une personne.
c) L’origine ethnique d’une personne.
d) L’année de naissance d’un ivoirien.
e) Le poids d’un nouveau-né.
f) La satisfaction à l’égard du gouvernement exprimée sur une échelle
variant de 1 à 5.
g) La température maximale de la journée.
h) La langue parlée à la maison.
Les échelles de mesure
Afin de décrire le phénomène à l’étude, il importe de bien le mesurer.
• Échelle de mesure : est l’ensemble des modalités ou des valeurs que peut
prendre une variable.
• Échelle de mesure nominale : est échelle de mesure formée par les
modalités d’une variable qualitative dans le cas où elles sont déterminées
par une propriété.
• Les différentes modalités qui composent l’échelle de mesure doivent respecter deux
critères de base. Il faut qu’elles soient exhaustives, c’est-à-dire qu’elles représentent
toutes les catégories que peut prendre la variable. Elles doivent aussi être
mutuellement exclusives, ce qui signifie qu’aucune des données ne peut être placée
dans plus d’une modalité.
Les échelles de mesure
• Exemple : Les modalités de la variable qualitative « sexe » {masculin,
féminin} ou de la variable « situation familiale » {marié(e), conjoint(e)
de fait, divorcé(e), séparé(e) de fait, célibataire, veuf(ve), religieux(se)}
sont associées à des échelles de mesure nominale.
• Échelle de mesure ordinale est une échelle de mesure formée par les
modalités d’une variable dans le cas où elles sont ordon- nées selon un
critère.
• Exemple : Quel est le plus haut niveau de scolarité complété par ta mère ?
• Aucun
• Primaire
• Secondaire
• Universitaire
• Je ne sais pas
Les échelles de mesure
• Une échelle de mesure d’intervalles indique, sur une échelle abstraite
(comme l’échelle Celsius), la distance (ou l’intervalle) entre la position
d’une unité statistique et la position attribuée arbitrairement à la valeur
zéro. Cette dernière est appelée zéro arbitraire (ou relatif).
• Exemple : Température, l’année de naissance, le quotient intellectuel
(QI), le niveau de la mer en altitude et la longitude d’une ville sont
d’autres exemples de variables quantitatives auxquelles on associe une
échelle de mesure d’intervalles.
Les échelles de mesure
• Une échelle de mesure de rapports (ou proportionnelle) : représente des
mesures en unités de base et la valeur zéro indique l’absence de la
caractéristique étudiée. la valeur zéro est considérée comme le zéro
absolu.
• Zéro absolu est la Valeur correspondant à l’absence de la
caractéristique étudiée
• Exemple: revenu annuel; le nombre d’échecs d’un étudiant
Exercice d’application

• Indiquez l’échelle de mesure appropriée pour chacune des variables


suivantes, les modalités ou les valeurs observées étant précisées s’il y
a lieu.
a) Le pays d’origine des films présentés au cinéma.
b) La cote d’appréciation (de 1 à 5, où 1 signifie « très déçu(e) » et 5, «
très enchanté(e) ») d’un grand restaurant.
c) La masse en kilogrammes des joueurs de football d’un collège.
d) L’heure du lever du soleil pour chaque jour du mois dernier.
e) La valeur en dollars des réclamations soumises à une compagnie
d’assurance automobile
Les questions d’opérationnalisation et mesure
• On choisit un indicateur pour quantifier la réalité humaine ou sociale.
• Indicateur : manifestation observable d’un concept abstrait ou variable.
• Le choix d’un indicateur et d’un instrument est important au moment de
l’opérationnalisation.
• Exemple : si on veut étudier la popularité d’une émission de télévision.
On choisit comme indicateur le nombre de personnes qui la regardent.
Les questions d’opérationnalisation et mesure
• Les critères d’un bon indicateurs sont :
• Fidélité: un indicateur fidèle est un indicateur qui donne des résultats
constants lorsqu’on effectue les mêmes mesures.
• Exemple le nombre de cartons peut constituer un indicateur fidèle de
la violence d’un joueur.
• Validité :un indicateur valide est un indicateur qui représente
adéquatement ce que l’ont veut étudier.
• Exemple: le nombre de cartons est sans doute contestable, car cet
indicateur ne fait pas état de la gravité de l’infraction.
CHAPITRE II: ORGANISATION ET PRÉSENTATION DES
DONNÉES
1. Les données brutes
2. La présentation et l’interprétation d’un tableau et d’un graphique
3. Le traitement d’une variable qualitative
4. traitement d’une variable quantitative
5. fréquence cumulée ou l’ogive
6. La série chronologique
7. Le choix d’un graphique
OBJECTIFS DU CHAPITRE
• Construire et d’analyser des tableaux de distribution à une variable ;
• Construire et d’analyser des graphiques à une variable ;
• Décrire et d’appliquer les normes de présentation des tableaux et des
graphiques ;
• Calculer et interpréter des fréquences et des pourcentages dans les
tableaux ;
• Construire et d’interpréter des tableaux et des graphiques de séries
chronologiques ;
• Savoir choisir une représentation appropriée pour décrire un phénomène
humain.
LES DONNÉES BRUTES
• Données brutes : Éléments d’information recueillis pour une recherche,
qui n’ont pas encore été organisés ni analysés. Données brutes sont les
données non traitées.
• Les données non traitées se présente habituellement dans un tableau
sommaire.
• La série statistique est la base sur laquelle reposent les étapes
ultérieures de la présentation et de l’organisation des données, soit la
construction d’un tableau de distribution et d’un graphique.
• Les données brutes fournissent de l’information sur chaque individu de
l’échantillon.
Exemple de données brutes
Etudiant Sexe Motivation Moyenne sur Nombre de matière échoué à la 1ère session
20
1 M E 14 0
2 F F 11 1
3 M F 10 5
4 M M 12 2
5 F F 12 2
6 F E 15 0
7 M M 13 1
8 F M 14 1
9 F E 12 0
10 F E 15 0
NOTATION MATHEMATIQUE
Observation 𝑿𝟏 𝑿𝟐 𝑿𝟑 𝑿𝟒

1 𝑥11 𝑥12 𝑥13 𝑥14

2 𝑥21 𝑥22 𝑥23 𝑥24

3 𝑥31 𝑥32 𝑥33 𝑥34

4 𝑥41 𝑥42 𝑥43 𝑥44

5 𝑥51 𝑥52 𝑥53 𝑥54

6 𝑥61 𝑥62 𝑥63 𝑥64

7 𝑥71 𝑥72 𝑥73 𝑥74

8 𝑥81 𝑥82 𝑥83 𝑥84

9 𝑥91 𝑥92 𝑥93 𝑥94


LA PRÉSENTATION ET L’INTERPRÉTATION D’UN TABLEAU
ET D’UN GRAPHIQUE
Les six principales normes de présentation des tableaux de distribution
sont les suivantes :
1. On donne au tableau un titre de cette forme : « Répartition de [la
population (souvent accompagnée de la taille de la population ou de
l’échantillon et du lieu d’étude)], selon [la variable], [temps] ».
2. On donne un titre (accompagné, s’il y a lieu, de l’unité de mesure) à
chaque colonne.
a. La première colonne est réservée à la variable ; son nom occupe la première
ligne et, sur les autres lignes, les modalités, les valeurs ou les classes sont
énumérées.
b. Une ou deux autres colonnes donnent la répartition des données : la seconde
colonne en fréquences et la troisième, s’il y a lieu, en pourcentage (avec une
décimale) ; le titre de chacune de ces colonnes indique les unités statistiques.
LA PRÉSENTATION ET L’INTERPRÉTATION D’UN TABLEAU
ET D’UN GRAPHIQUE
3. La dernière ligne contient les fréquences totales ou les pourcentages
totaux. (Si le total des pourcentages n’est pas de 100 %, une note au bas du
tableau précise que cela est attribuable aux nombres arrondis.)

4. On indique la source d’où sont extraites les données au bas du tableau.

5. On numérote le tableau si l’étude en comporte plusieurs. Si tel est le cas, on


présente la liste des tableaux au début ou à la fin de l’étude.

6. On interprète le tableau en le faisant suivre d’un commentaire, d’une


analyse ou d’une question qu’il suscite.
EXEMPLE DE PRÉSENTATION D’UN TABLEAU

Tableau 1 : Répartition des 300 étudiants de UIST, selon leur revenu, 2022

Variables (avec
les unités) Tranche de revenu (en FCFA) Nombre d’étudiants
Moins de 20000 100
Modalités, 20000 à 29999 50
valeurs ou
classes 30000 et plus 150
Total 300

Source : Données fictives pour le cours d’analyse statistique univariée


EXEMPLE DE PRÉSENTATION D’UN TABLEAU
Tableau 2 : Distrbution de ménage selon le mombre d’enfants

Nombre d’enfant 𝑋 Effectif (𝒏𝒊 ) Fréquence en pourcentage (𝒇𝒊 )


0 42
1 18
2 33
3 5
4 et plus 2
Total 100

n =100 est le nombre total de ménages enquêtés


𝑛𝑖 : 𝑒𝑠𝑡 𝑙𝑒 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑′ 𝑜𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒𝑠 𝑑′ 𝑢𝑛𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒
X : nombre d’enfants est la variable étudié
𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 = 0, 1,2,3, 4 𝑒𝑡 𝑃𝑙𝑢𝑠 : 𝑠𝑜𝑛𝑡 𝑙𝑒𝑠 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é𝑠 𝑑𝑒 𝑋
𝑛𝑖
𝑓𝑖 = × 100
𝑛
LES NORMES DE PRÉSENTATION D’UN GRAPHIQUE
1. On donne au graphique un titre qui indique la population et la
variable étudiées, ainsi que le lieu et le temps de l’étude
(identiques au titre du tableau).
2. On énumère les modalités, les valeurs ou les classes et, le cas
échéant, on nomme les axes et les unités de mesure. S’il y a lieu,
on ajoute une légende expliquant les symboles utilisés.
3. On indique la source des données au bas du graphique.
4. On numérote le graphique si l’étude en comporte plusieurs. (On
présente alors la liste des graphiques au début ou à la fin de
l’étude.)
5. On interprète le graphique en le faisant suivre d’un commentaire,
d’une analyse ou d’une question qu’il suscite.
EXEMPLE DE PRESENTATION D’UN GRAPHIQUE
Fig 1: Diagramme à secteur

4%

22%
Chabriolet, deux places
41%
Petites quatre places
Cinq places
Modèle de Luxe

33%
LIRE ET DÉCRIRE UN TABLEAU ET UN GRAPHIQUE
• Les étapes qui suivent ont pour but de faciliter la lecture et
l’interprétation d’un tableau statistique ou d’un graphique.
• Étape 1 Identifiez la population à l’étude. L’information est présentée
directement dans le titre du tableau ou du graphique.
• Étape 2 Identifiez la variable présentée dans le tableau ou dans le
graphique (avec l’unité de mesure). L’identification de la variable et de
ses modalités, valeurs ou classes se fait en lisant les lignes de la
première colonne du tableau ou, généralement, l’axe horizontal du
graphique.
LIRE ET DÉCRIRE UN TABLEAU ET UN GRAPHIQUE
• Étape 3 Identifiez les fréquences des données (avec l’unité de
mesure). Les fréquences sont présentées dans la deuxième et la
troisième colonne (%) du tableau ou, généralement, sur l’axe vertical
du graphique.
• Étape 4 Décrivez les résultats en débutant toujours par le général (le
total), pour ensuite vous concentrer sur le particulier, c’est-à-dire sur
les données les plus significatives (celles qui font ressortir l’essentiel
de l’étude). Le but est de mettre en lumière les informations les plus
pertinentes pour bien faire saisir le phénomène à l’étude.
LE TRAITEMENT D’UNE VARIABLE QUALITATIVE

 Le tableau de distribution des fréquences d’une variable qualitative

 La représentation graphique d’une variable qualitative


Le tableau de distribution des fréquences
d’une variable qualitative
• La première étape du traitement d’une variable qualitative consiste à
calculer les fréquences, c’est-à-dire à compter le nombre d’individus
classés dans chacune des modalités de la variable, à l’aide du tableau de
distribution.
• Deux types de fréquences permettent de consigner l’information
découlant des données brutes, soit la fréquence absolue ( appelée aussi
effectif ) et la fréquence relative.
Le tableau de distribution des fréquences
d’une variable qualitative
• Fréquence absolue (𝒏𝒊 ) : Nombre de données associées à une
modalité, à une valeur ou à une classe.
• Fréquence relative ( 𝒇𝒊 ) : Rapport, exprimé le plus souvent en
pourcentage, du nombre de données associées à une modalité, à une
valeur ou à une classe sur le nombre total de donnée.
𝑛𝑖
• 𝑓𝑖 = × 100 ( 𝑐𝑎𝑠 𝑑 ′ 𝑢𝑛 é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛) ou
𝑛
𝑛𝑖
• 𝑓𝑖 = × 100 (𝑐𝑎𝑠 𝑑′ 𝑢𝑛𝑒 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛)
𝑁
EXEMPLE
Tableau : Répartition de 10 étudiants de UIST, selon le degré de
motivation pour les études universitaires , Octobre 2022

Degré de motivation pour Nombre Fréquence en pourcentage


les études universitaires d’étudiants

Faible 3 30
Moyen 3 30
Elevé 4 40
Total 10 100

Source : Données fictives pour le cours d’analyse statistique univariée


Définition : Le tableau de distribution des fréquences
• Distribution des fréquences (ou distribution) est un ensemble des
couples formés d’une modalité, d’une valeur ou d’une classe et de la
fréquence associée.
• La somme des fréquences absolue est toujours égale à la taille 𝒏 de
l’échantillon ou à la taille 𝑵 de la population.
• Tableau à une entrée : Tableau qui présente les fréquences ou les
pourcentages respectifs des modalités, des valeurs ou des classes
d’une variable.
EXERCICE D’APPLICATION
• Construisez un tableau de distribution des fréquences (comportant
une colonne des fréquences absolues et une colonne des fréquences
relatives) pour la variable « sexe » et interprétez les résultats.
• Il est aussi recommandé de faire cet exercice à l’aide d’un ordinateur
muni du logiciel Excel.
LA REPRÉSENTATION GRAPHIQUE D’UNE VARIABLE
QUALITATIVE
• La construction préalable d’un tableau simplifie l’élaboration du
graphique.
• Le choix du type de graphique est dicté par la nature de la variable (et
de son échelle de mesure) et le genre de regroupement des données.
• Dans le cas de données qualitatives groupées par modalités, les
graphiques les plus couramment utilisés sont : le diagramme à
secteurs, le diagramme à barres et le diagramme à colonnes.
La représentation graphique d’une variable qualitative: le
diagramme à secteurs
• Un diagramme à secteurs (ou diagramme circulaire) est constitué d’un
disque divisé en autant de secteurs qu’il y a de modalités.
• Généralement, si le nombre de secteurs est supérieur à sept, le
diagramme risque d’être difficile à lire. Il est alors suggéré de choisir un
autre type de graphique (diagramme à barres, par exemple).
• L’aire de chaque secteur est proportionnelle au pourcentage de la
modalité que ce secteur représente, et la mesure de l’angle qu’il
détermine est égale au pourcentage de la modalité multiplié par 360°,
puisqu’on sait qu’il y a 360° dans un cercle
Le diagramme à secteurs
Tableau : Repartition des étudiants selon le sexe

Sexe Effectif Fréquence en pourcentage


M 4 40 %
F 6 60 %
Total 10 100 %

𝑛
𝐷𝑒𝑔𝑟é = 𝑖 × 360𝑜
𝑛
4
𝑀= × 360𝑂 = 144𝑜
10
6
𝐹= × 360𝑂 = 216𝑜
10
4
𝑓𝑀 = × 100 = 40%
10
6
𝑓𝐹 = × 100 = 60%
10
Exemple de diagramme circulaire
Fig : Repartition des étudiants selon le sexe

40%
M
F
60%

Source : Données fictives pour le cours d’analyse statistique univariée


LE DIAGRAMME À BARRES
• Diagramme à barres (ou diagramme à rectangles horizontaux) est un
diagramme dans lequel l’ampleur de la fréquence de chaque modalité
est représentée par un rectangle horizontal.
• On inscrit les modalités sur l’axe vertical et les fréquences absolues ou
relatives, sur l’axe horizontal.
• On emploie généralement ce type de diagramme lorsque l’échelle de
mesure de la variable est nominale.
Exemple de diagramme à barres
Repartition des étudiants selon le sexe
F 6

M
4

0 1 2 3 4 5 6 7

Effectif

Source : Données fictives pour le cours d’analyse statistique univariée


LE DIAGRAMME À COLONNES
• Un diagramme à colonnes (ou diagramme à rectangles verticaux)
comporte deux axes perpendiculaires.
• Sur l’axe horizontal, on représente les modalités de la variable par des
segments d’axe de largeur égale, séparés par des espaces égaux.
• Sur l’axe vertical, on indique les fréquences absolues (ou relatives) en
choisissant une échelle appropriée.
• Sur chaque segment associé à une modalité, on construit un rectangle
dont la hauteur est proportionnelle à la fréquence absolue ou au
pourcentage de la modalité.
• Afin de bien marquer la hiérarchie entre les modalités, on emploie
généralement ce type de diagramme lorsque l’échelle de mesure de la
variable est ordinale.
LE DIAGRAMME À COLONNES
• L’axe sur lequel on inscrit les modalités reçoit le nom de la variable,
alors que l’axe sur lequel on inscrit les fréquences absolues ou les
pourcentages est désigné par « Nombre de [unités statistiques] » ou «
Pourcentage de [unités statistiques] ».
• On indique, s’il y a lieu, les unités de mesure employées sur chaque
axe et on ajoute une légende si les modalités ne sont pas écrites au
long.
Exemple de diagramme à colonnes
Fig. Repartition des étudiants selon leur degré de motivation
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
Elevé Moyen Faible
Effectif
EXERCICE D’APPLICATION
• Représentez par un diagramme à barres les données consignées dans
le tableau 4.5 ci-dessous et interprétez les résultats.
• Répartition des 21 coupes du monde de football, selon les pays
vainqueurs, 2018
Pays Brésil Italie Allemagne Argentine Uruguay France Espagne Angleterre
vainqueur
nombre de 5 4 4 2 2 2 1 1
coupe du
monde
Le traitement d’une variable quantitative

• La construction d’un tableau de distribution d’une variable


quantitative et du graphique correspondant dépend de deux
paramètres :
• le nombre d’observations (N ou n)
• et le nombre de valeurs que prend la variable étudiée, peu
importe qu’elle soit discrète ou continue.
Les données isolées (ou non groupées) :
variables quantitatives discrètes
• On dit que les données sont isolées si le nombre N d’individus de la
population est faible (c’est-à-dire que N < 20).
• Si on est en présence d’une petite population, soit N < 20, la quantité
de données recueillies pour chaque variable étudiée est
nécessairement faible.
• Dans le cas où N < 20, la construction d’un tableau de distribution
selon les valeurs n’aurait pas de signification, particulièrement si le
nombre de valeurs différentes de la variable étudiée est presque aussi
grand que N.
Exemple de données non groupées
• Les notes obtenues par 12 étudiants à l’examen de statistique:
• 12 10 15 10 16 9 10 17 11 8 11 12
Les données groupées par valeurs
• On regroupe les données par valeurs quand le nombre de valeurs
différentes de la variable est faible par rapport à N ou à n (𝑁 𝑜𝑢 𝑛 ≥ 20).
• Si la population ou l’échantillon sont relativement grands (N ou n ≥ 20) et
qu’on étudie une variable quantitative discrète qui prend peu de valeurs
différentes, on procède sensiblement de la même façon que dans le cas
d’une variable qualitative.
• On construit un tableau de distribution des fréquences en remplaçant la
colonne des modalités par la colonne des valeurs, en incluant au besoin la
colonne des fréquences relatives et fréquence cumulées.
Exemple de données regroupées en valeur

Nombre d’enfant (x) Effectif ( 𝒏𝒊 )


0 42
1 18
2 33
3 5
4 et plus 2
La représentation graphique : les données groupées
par valeurs
• La représentation graphique d’une distribution de données groupées
par valeurs se fait par un diagramme en bâtons ou du polygone de
fréquences.
• Diagramme en bâtons est un diagramme identique à un diagramme à
colonnes, sauf qu’on porte des valeurs, au lieu de modalités, sur l’axe
horizontal et qu’on élève des segments, au lieu de rectangles, dont la
longueur est proportionnelle à la fréquence de la valeur
correspondante.
• Le polygone des fréquences est la courbe obtenue en joignant les
sommet des bâtons par des segments de droite.
Exemple : diagramme en bâton
Fig . Distribution des ménages selon le nombre d’enfants
45

40

35

30

25

20

15

10

0
0 1 2 3 4
Effectif
Polygone de fréquence
Diagramme intégral
EXERCICE D’APPLICATION
Au cours d’une enquête sociologique sur l’itinérance, on a demandé à des
itinérants hébergés dans une ressource d’aide d’indiquer le nombre de fois
où ils ont fait appel à ce type de ressource d’hébergement dans la
dernière année. Le tableau suivant résume les réponses des 50 itinérants
interrogés.
2 4 3 1 3 7 2 4 1 3
3 7 4 5 4 4 5 5 4 4
1 5 3 4 2 5 4 6 3 2
2 2 4 3 4 6 3 2 5 4
4 4 5 5 3 4 6 4 6 3
EXERCICE D’APPLICATION
• a) Construisez un tableau de distribution des fréquences de la
variable « nombre d’hébergements dans une ressource d’aide par
année ».
• b) À partir du tableau construit en a), tracez un diagramme à bâtons
et interprétez-le.
Les données groupées en classes
• Si le nombre de valeurs différentes de la variable est proche de N ou n (et
que N ou n ≥ 20), alors on groupe les données en classes.
• Dans le cas d’une variable qui prend un nombre relativement élevé de
valeurs, un tableau de distribution des fréquences des valeurs isolées est
inutile, car il comportera un grand nombre de lignes et à peu près toutes
les fréquences seront égales à 1.
• Pour obtenir une synthèse valable de l’information fournie par les
données brutes et un portrait clair et significatif de la distribution des
fréquences, on groupe les données en classes.
• Classe : Intervalle compris entre deux valeurs de la variable étudiée.
Les données groupées en classes: construction
de classes
• La construction de classes peut se faire suivant les étapes ci-après:
• Etape 1: Calculez l’étendue des données.
• L’étendue, symbolisée par E, est la différence entre la plus grande et
la plus petite valeur d’une série statistique: 𝑬 = 𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏
• Étape 2 Choisissez le nombre théorique de classes
• On choisit un nombre théorique de classes situé entre 5 et 12 à l’aide
de la table de Sturges. Le nombre de classes, noté k, dépend du
nombre d’unités statistiques à distribuer (c’est-à-dire de N ou n).
Les données groupées en classes: Table de sturges
Nombre d’unités statistiques (N ou n) Nombre approximatif
(k) de classes
Moins de 23 5

De 23 à 45 6

De 46 à 90 7

De 91 à 180 8

De 181 à 361 9

De 362 à 723 10

De 724 à 1 447 11
De 1 448 à 2 895 12
LES DONNÉES GROUPÉES EN CLASSES
• On peut utiliser la formule de Sturges : 𝒌 = 𝟏 + 𝟑, 𝟑𝟐𝒍𝒐𝒈(𝒏)
• Étape 3 Déterminez l’amplitude de chaque classe.
• L’amplitude des classes est approximativement égale à l’étendue
divisée par le nombre de classes (déterminé à l’étape 2 au moyen de
la table de Sturges):
𝑬
𝒂=
𝒌
• Il est habituellement nécessaire de procéder à des ajustements,
puisque le nombre de classes trouvé à l’étape 2, qui est théorique,
peut être modifié en fonction du contexte de l’étude.
Les données groupées en classes
• Il est préférable que l’amplitude soit un multiple de 2, 5, 10, 25, 50,
100 ou 1 000, car cela améliore la lisibilité du tableau de distribution.
• Étape 4 Définissez les classes.
• Il faut d’abord définir la borne inférieure de la première classe (de
manière que celle-ci inclue la plus petite donnée, en tenant compte
de l’amplitude des classes déterminées à l’étape 3), puis toutes les
autres classes (en s’assurant naturellement que la dernière donnée
appartient à la dernière classe)
La notation des classes
• Il existe diverses notations pour désigner un intervalle semi-ouvert,
c’est-à-dire un intervalle fermé à gauche (la borne de gauche est
incluse) et ouvert à droite (la borne de droite est exclue).

[60, 65[

60 ≤ x < 65

60 – 65

60 à moins de 65

De 60 à 64 (si les données sont des entiers)

60-64,99 (si les données contiennent des décimales


La notation des classes
• [𝑒𝑖−1 ; 𝑒𝑖 [
• où 𝑒𝑖−1 est la borne inférieure de la classe
• 𝑒𝑖 est la borne supérieure de la classe
On définit égale de notion
• Le centre des classes 𝑐𝑖 ,
𝑒𝑖−1 +𝑒𝑖
• 𝑐𝑖 =
2
• L’amplitude 𝒂𝒊
• 𝑎𝑖 = 𝑒𝑖 − 𝑒𝑖−1
Exercice d’application
Les classes d’amplitudes inégales
• Dans la mesure du possible, on doit éviter les classes d’amplitudes
inégales pour la construction des classes.
• Toutefois, ce type de classes s’avère nécessaire dans certaines
situations seulement.
• Par exemple, il est d’usage de construire des classes par groupe d’âge
bien établi, comme les jeunes (moins de 15 ans), la population en âge
de travailler (15-64 ans) et les aînés (65 ans et plus), ou encore pour
des raisons techniques (trop grand nombre de données dans une
classe par rapport aux autres)..
Les classes ouvertes
• Tout comme dans le cas de données groupées par valeurs, il peut
arriver que certaines valeurs soient marginales et contiennent de
faibles fréquences.
• Lorsque ces situations surviennent, il est permis de créer une classe
ouverte, c’est-à-dire une classe sans borne (par exemple, une classe
définie par« 100 et plus » ou « 10 et moins »).
• C’est au chercheur qu’il revient de juger du nombre de classes
approprié.
• Une fois le nombre et l’amplitude des classes déterminés, on peut
procéder au dénombrement des données en construisant le tableau de
distribution des fréquences.
La représentation graphique : les données
groupées en classes
• Il existe deux types de représentation graphique de la distribution des
fréquences de données groupées en classes : l’histogramme et le
polygone de fréquences.
• Histogramme est un diagramme composé de rectangles juxtaposés
dont la base correspond à une classe et dont l’aire est proportionnelle
à la fréquence, ou au pourcentage, de cette classe.
• Polygone de fréquences est la courbe obtenue en reliant les milieux
des côtés supérieurs des rectangles d’un histogramme.
La construction d’un histogramme à partir de
classes d’amplitudes inégales
• Dans un histogramme, chaque rectangle représente l’ensemble des
données appartenant à l’intervalle correspondant à sa base.
• Selon le principe de proportionnalité selon lequel l’aire d’un rectangle
représentant une classe est proportionnelle à la fréquence de cette
classe. Ainsi:
𝐹𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑑’𝑢𝑛𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 𝐴𝑖𝑟𝑒 𝑑𝑢 𝑟𝑒𝑐𝑡𝑎𝑛𝑔𝑙𝑒 𝑟𝑒𝑝𝑟é𝑠𝑒𝑛𝑡𝑎𝑛𝑡 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒
• =
𝐹𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 𝐴𝑖𝑟𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒 𝑙’ℎ𝑖𝑠𝑡𝑜𝑔𝑟𝑎𝑚𝑚𝑒
La construction d’un histogramme à partir de
classes d’amplitudes inégales
• Pour déterminer la hauteur (hi) du rectangle représentant une classe,
on applique la formule suivante :
• 𝐻𝑎𝑢𝑡𝑒𝑢𝑟 𝑑𝑢 𝑟𝑒𝑐𝑡𝑎𝑛𝑔𝑙𝑒 = 𝐹𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 ×
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑒 𝑙𝑎 𝑏𝑎𝑠𝑒 𝑑𝑒𝑠 𝑐𝑙𝑎𝑠𝑠𝑒𝑠
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑒 𝑐𝑒𝑡𝑡𝑒 𝑐𝑙𝑎𝑠𝑠𝑒
• L’amplitude de la base des classes est l’amplitude la plus fréquente
dans la distribution (c’est-à-dire l’amplitude des classes au centre de
la distribution
HISTOGRAMME CLASSES DE MÊME
AMPLITUDE
• Repère orthogonal et modalités du caractère placées sur l’axe des
abscisses;
• Chaque classe est représentée par un rectangle dont l’aire est
proportionnelle à l’effectif de la classe concernée .
• Toutes les bases ont la même dimension donc les « hauteurs » des
rectangles sont proportionnelles aux effectifs.
Exemple d’histogramme
Le polygone de fréquences
• Un polygone de fréquences est la courbe obtenue en reliant les milieux
consécutifs des côtés supérieurs des rectangles d’un histogramme.
• Les deux extrémités d’un polygone de fréquences se situent sur l’axe
horizontal : le point de départ correspond au milieu d’une classe de
fréquence nulle située avant la première classe, et le point d’arrivée, au
milieu d’une classe semblable située après la dernière classe.
• Le polygone de fréquences présente certains avantages par rapport à
l’histogramme. Lors de l’étude d’une distribution des fréquences, il
fournit immédiatement une image des résultats et se prête mieux à des
comparaisons
La fréquence cumulée ou l’ogive
• Le tableau de distribution des fréquences d’une variable quantitative
indique la fréquence absolue de chaque valeur, ou classe de valeurs,
de la variable et le pourcentage correspondant.
• Si on s’intéresse plutôt à la somme des fréquences de plusieurs
valeurs ou de plusieurs classes, il suffit de cumuler ces fréquences.
REPRÉSENTATION GRAPHIQUE
Le tableau de distribution

• Pour cumuler les fréquences, on ajoute au tableau de distribution des


fréquences une colonne des fréquences absolues cumulées ou des
fréquences relatives cumulées.
• La fréquence cumulée d’une valeur, ou d’une classe, est égale à la
somme de la fréquence de cette valeur, ou de cette classe, et des
fréquences de toutes les valeurs, ou classes, qui lui sont inférieures.
La représentation graphique : l’ogive
• Dans le cas d’une variable quantitative continue, on peut représenter
graphiquement les fréquences cumulées. Bien qu’il soit
théoriquement possible d’utiliser les fréquences absolues cumulées, il
est beaucoup plus intéressant d’interpréter un tel graphique construit
avec des fréquences relatives cumulées.
La représentation graphique : l’ogive, les étapes
• Étape 1 Sur l’axe horizontal, notez les valeurs de la variable en marquant les bornes des classes.

• Étape 2 Sur l’axe vertical, notez les fréquences relatives cumulées à l’aide d’une échelle appropriée. En fait, il est

généralement avantageux d’utiliser les pourcentages, car ainsi, l’échelle est toujours graduée de 0 % à 100 % ; dans le cas des

fréquences absolues, le maximum de l’échelle dépend du nombre de données (N ou n).

• Étape 3 Sur l’axe horizontal, placez un premier point dont l’abscisse est la borne inférieure de la première classe du tableau de

distribution et dont l’ordon- née est le pourcentage 0 % ou la fréquence zéro. Le premier point du graphique se situe toujours

sur l’axe horizontal.

• Étape 4 Pour chacune des classes, placez un point dont l’abscisse est la borne supérieure de la classe et l’ordonnée, la

fréquence cumulée ou le pourcentage cumulé de la classe.

• Étape 5 Joignez tous les points par une ligne brisée qui va de la borne inférieure de la première classe, sur l’axe horizontal, au

point dont l’abscisse est la borne supérieure de la dernière classe et l’ordonnée, le pourcentage 100 % ou la fréquence N ou n.
VARIABLE CONTINUE : DIAGRAMME INTÉGRAL
La série chronologique

• On appelle série chronologique (ou série temporelle) un ensemble de


valeurs d’une variable quantitative dont on observe l’évolution dans le
temps, habituellement à des périodes régulières.
• La périodicité d’une série chronologique est la longueur de l’intervalle
de temps entre deux observations, mesurée en jours, en mois, en
trimestres, en années, etc.
• Par exemple, la population au cours des dix dernières années, le taux
de chômage durant les deux derniers mois et le prix de l’essence au
cours des cinq derniers jours constituent des séries chronologiques.
Le tableau de distribution d’une série chronologique
• Une méthode simple pour examiner l’évolution d’une variable dans le
temps consiste à présenter les données sous la forme d’un tableau à deux
colonnes : la première colonne est réservée au temps et la deuxième, à la
variable
Années Nombre d’ étudiants
2017 500
2018 570
2019 789
2020 845
2021 900
2022 870
2023 750
La représentation graphique : le chronogramme

• Le chronogramme permet de représenter graphiquement une série


chronologique.
• Il en existe deux formes, soit le diagramme à ligne brisée et le
diagramme à rectangles.
Le diagramme à ligne brisée
• Lorsqu’il s’agit de représenter une série chronologique, la figure la
plus appropriée est le diagramme à ligne brisée.
• Ce type de graphique permet aussi la comparaison de différents
groupes. Traditionnellement, le diagramme à ligne brisée comporte
un système de coordonnées cartésiennes.
La représentation graphique : le
chronogramme
Evolution du nombre d’étudiants inscrits à UIST, de 2017 à 2023
1000

900

800

700

600

500

400

300

200

100

0
2017 2018 2019 2020 2021 2022 2023
Nombre d'étudiant
Le diagramme à rectangles

• Lorsque le nombre de périodes de temps n’est pas trop élevé, le


chronogramme peut aussi prendre la forme d’un diagramme à
rectangles.
• La comparaison de deux ou de plusieurs groupes est également
possible pour ce type de graphique.
Exemple de diagramme à rectangles
Nombre d'étudiants
1000

900

800

700

600

500

400

300

200

100

0
2017 2018 2019 2020 2021 2022 2023
Nombre d'étudiants
CHAPITRE III : MESURES RELATIVES
On utilise les notations suivantes :
• X ou Y (lettre majuscule) pour désigner une variable quelconque ;
• Δ (delta) pour désigner une variation.
Le rapport sous toutes ses formes

• Un rapport est exprimé par le résultat d’un quotient entre deux


nombres.
• Exemple de rapports entre deux variables apparemment bien
distinctes :
le nombre d’habitants par kilomètre carré (c’est la densité) ;
la production totale par heure travaillée (c’est la productivité) ;
le nombre de litres par 100 kilomètres (c’est la consommation de
carburant).
Le rapport sous toutes ses formes
• Dans la plupart des cas, on normalise le rapport, c’est-à-dire qu’on
l’exprime selon une échelle déterminée par une convention.
• Les rapports obtenus constituent ce qu’on appelle des données
construites, parce qu’elles sont calculées à l’aide des données brutes.
• On distingue trois types de rapports:
Les ratios,
Les proportions
et les taux.
Le ratio

• Les rapports qui mettent en relation deux modalités ou deux valeurs


d’une même variable sont souvent appelés ratios.
• On définit le ratio de deux modalités ou de deux valeurs (appelons-les
a et b) par le quotient de leurs fréquences.
𝑛𝑎
• 𝑅𝑎𝑡𝑖𝑜 =
𝑛𝑏
• 𝑛𝑎 = fréquence de a
• 𝑛𝑏 = = fréquence de b
Exemple
• Rapport de masculinité Rapport entre le nombre d’hommes et de
femmes. On l’exprime généralement par le nombre d’hommes pour
100 femmes.
𝒏𝒎𝒂𝒔𝒄𝒖𝒍𝒊𝒏 16
• 𝑹𝒂𝒑𝒑𝒐𝒓𝒕 𝒅𝒆 𝒎𝒂𝒔𝒄𝒖𝒍𝒊𝒏𝒊𝒕é = = = 0,667
𝒏𝒇é𝒎𝒊𝒏𝒊𝒏 40

Sexe Nombre d’étudiants Pourcentage


Masculin 16 40
Féminin 24 60
Total 40 100

Ce rapport signifie qu’il y a 0,667 garçon pour 1 fille dans l’échantillon


La proportion et la fréquence relative
• Si l’on souhaite utiliser une base de comparaison commune, il semble
alors naturel de comparer chaque fréquence au nombre total
d’individus de la population ou de l’échantillon.
• La proportion indique l’importance relative de la fréquence d’une
modalité (ou d’une valeur) dans l’ensemble des modalités (ou des
valeurs). En d’autres mots, on divise la taille d’un sous-ensemble par le
total.
𝑛𝑖
• 𝑃𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛 =
𝑁
• Une proportion est généralement donnée en pourcentage. On parlera
alors de « pro- portion en pourcentage » ou tout simplement de «
pourcentage.
Le taux
• Le taux constitue l’une des mesures les plus couramment utilisées pour
présenter des données.
• Le terme «taux » signifie simplement que le résultat du quotient de
deux quantités de même nature ou de nature différente a été multiplié
par une puissance de 10.
• La nature des deux quantités le différencie de la proportion. Un taux
s’exprime souvent en pourcentage, précisément lorsqu’il s’agit d’un
rapport entre deux quantités de même nature. Ainsi, la proportion
s’exprime par centaine:
𝑛𝑖
• 𝑇𝑎𝑢𝑥 = × 100
𝑁
• ou « par mille » dans le cas du rapport entre deux quantités de nature
différente. Le symbole est alors « ‰ ».
Exemple
• Le taux de masculinité
• Le taux de masculinité correspond au pourcentage de personnes de
sexe masculin. On l’obtient en divisant le nombre d’hommes par le
nombre total de personnes, puis en multipliant le quotient par 100 %
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑 ′ ℎ𝑜𝑚𝑚𝑒𝑠
• 𝑇𝑎𝑢𝑥 𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑖𝑡é = × 100
𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑡𝑜𝑡𝑎𝑙𝑒
16
• 𝑇𝑎𝑢𝑥 𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑖𝑡é = × 100 = 40%
40
• Interprétation : sur 100 étudiants du collégial au Québec, 40 étaient
de sexe masculin.
Le taux de chômage et la population active
• Le taux de chômage (TC) est le pourcentage des chômeurs par rapport
à la population active.
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐ℎô𝑚𝑒𝑢𝑟𝑠
• 𝑇𝐶 = × 100
𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑎𝑐𝑡𝑖𝑣𝑒
• Les chômeurs sont les personnes qui étaient sans emploi au cours de la
semaine de référence et qui avaient cherché activement un emploi au
cours des quatre semaines précédentes.
• Population active : Partie de la population civile âgée de 15 ans et plus
qui est occupée ou en chômage.
Le taux de natalité
• Le taux de natalité (TN) d’une population, aussi appelé « taux brut de
natalité », est le nombre de naissances vivantes par 1 000 habitants au
cours d’une année.
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑛𝑎𝑖𝑠𝑠𝑎𝑛𝑐𝑒𝑠
• 𝑇𝑁 = × 1000
𝑇𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
• Il est d’usage de choisir le nombre 1 000 comme base de comparaison
de manière à exprimer les données par mille habitants et non en
pourcentage.
Le taux de fécondité et taux de mortalité

• Taux de fécondité Nombre de naissances vivantes par 1 000 femmes


en âge de procréer, c’est-à-dire âgées de 15 à 49 ans
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑛𝑎𝑖𝑠𝑠𝑎𝑛𝑐𝑒𝑠 𝑣𝑖𝑣𝑎𝑛𝑡𝑒𝑠
• 𝑇𝐹 = × 1000
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑓𝑒𝑚𝑚𝑒𝑠 𝑑𝑒 15 à 49 𝑎𝑛𝑠
• Le taux de mortalité
• Le taux de mortalité (TM), aussi appelé « taux brut de mortalité », est
le nombre de décès par 1 000 habitants au cours d’une année.
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠
• 𝑇𝑀 = × 1000
𝑡𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
La variation
• Un grand nombre de variables quantitatives évoluent avec le temps,
c’est-à-dire qu’elles fluctuent entre deux moments précis.
• La variation dans le temps : La variation, notée Δ, mesure la
différence de la valeur d’une variable entre deux périodes données.
• Elle compare deux situations dans un intervalle de temps [𝑡 − 1 ; 𝑡].
Si on désigne la variable «Y» au temps t par Y(t), alors la variation de Y
sera définie par la formule suivant: ΔY = Y(t) - Y(t -1)
• Lorsqu’on interprète la variation, on utilise les expressions «
augmentation » ou « hausse » si la variation est positive, « diminution
» ou « baisse » si la variation est négative.
Exemple

Année Nombre d’étudiants inscrits


2021 500
2022 600

∆𝑋 = 𝑋 2022 − 𝑋 2021 = 600 − 500 = 100


Interprétation : de 2021 à 2022, le nombre d’étudiants inscrits à UIST à augmenter de 100
étudiants.
La variation
• La variation relative : La variation relative (ΔY%) mesure la variation
d’une variable entre deux périodes données par rapport à la période
initiale.
• Elle s’exprime habituellement en pourcentage, appelé parfois «
pourcentage de variation» ou « taux de variation».
• Soit Y une variable prenant les valeurs Y(t) et Y(t − 1) au temps t et t − 1.
La variation relative en pourcentage de Y, notée « ∆Y % », sera définie
par la formule suivante :
𝑌 𝑡 −𝑌(𝑡−1)
• ∆𝑌% = × 100
𝑌(𝑡−1)
• Lorsqu’on interprète la variation relative, on utilise les expressions «
augmentation » si le résultat est positif, « diminution » si le résultat est
négatif, « stagnation » si le résultat est égal à 0, « doublement » si le
résultat égal à 100%.
Exemple
𝑌 𝑡 −𝑌(𝑡−1) 600−500
• ∆𝑌% = × 100 = × 100 = 20%
𝑌(𝑡−1) 500
• Interprétation : de 2021 à 2022, le nombre d’étudiant a augmenté de
20%.
La variation
• La variation moyenne : La variation moyenne (Δ𝑌/Δ𝑡) permet de
calculer l’augmentation ou la diminution d’une variable par unité de
temps. Cette dernière est calculée par la formule suivante:
∆𝑌 𝑌 𝑡 −𝑌(𝑡−1)
• =
∆𝑡 𝑡−(𝑡−1)
• Exemple
Année Chiffre d’affaire (en FCFA)
2000 100000
2010 15000000
La variation
∆𝑌 1500000−100000 1400000
• = = = 140000
∆𝑡 2010−2000 10
• Interprétation: De 2000 à 2010, le chiffre d’affaire a augmenté de
140000 par année, en moyenne.
La notion d’indice
• L’indice à base 100: Un indice est le rapport de la valeur d’une
variable mesurée à un instant donné sur la valeur de la même
variable mesurée à un autre instant, appelé période de référence (ou
base).
• Par convention, on choisit de prendre comme base, ou comme valeur
de référence, la valeur 100 pour faciliter ensuite l’interprétation en
pourcentage. On parle alors d’indice à base 100.
• Le choix de la période de référence (ou base) : Du point de vue
théorique, le choix de la période de référence est arbitraire et celle-ci
a toujours comme indice 100 ; du point de vue pratique, on s’efforce
de choisir une période de référence correspondant à une situation
normale et non exceptionnelle.
La classification des indices
• On distingue deux types d’indices : indice élémentaire (ou indice simple)
et indice synthétique (ou indice composé).
• L’indice élémentaire à base temporelle : Un indice élémentaire d’une
variable au temps t, noté I(t), est défini comme le rapport, multiplié par
100, de la valeur d’une variable au temps t sur la valeur de la même
variable mesurée à la période de référence. Il se calcule de la façon
suivante :
𝑌(𝑡)
•𝐼 𝑡 = × 100
𝑌(0)
• où
• Y(t) : valeur de la variable «Y» au temps t
• Y(0) : valeur de la variable «Y» à la période de référence
Exercice d’application
Année Prix Indice (2003=100)
2003 1000
2004 1200
2005 1300
2006 1350
2007 1250
2008 1100
2009 975
2010 900
La notion d’indice
• L’indice synthétique : l’indice tient compte simultanément de
plusieurs grandeurs.
• Par exemple, si on cherche un indicateur du prix d’un ensemble de
produits, on définit un indice synthétique du prix de ces produits
permettant de suivre l’évolution de leur prix de vente.
• L’indice synthétique est généralement défini comme la moyenne des
indices élémentaires.
CHAPITRE IV LES MESURES DE TENDANCE
CENTRALE
• Qu’est-ce qu’une mesure de tendance centrale ?

• La moyenne

• Le mode

• La médiane

• La comparaison de mesures de tendance centrale


LA NOTATION
• On désigne généralement une variable par une lettre majuscule
quelconque: par exemple X ou Y
• On désigne une donnée de la série statistique de la variable X, par la
lettre minuscule x affectée d’un indice: par exemple, 𝑥1 représente la
première donnée, 𝑥2 la deuxième donnée, 𝑥3 la troisième donnée,
etc.
• Dans le cas d’une donnée quelconque, on utilise la notation 𝑥𝑖 , qui
représente la 𝑖 𝑒 donnée.
• la somme des 𝑛 des données de la variable 𝑋 se note: 𝑛𝑖=1 𝑥𝑖 (qui se
lit « somme des x indice i, pour i allant de 1 à n»).
Qu’est-ce qu’une mesure de tendance centrale
?
• Mesure de tendance centrale : est mesure qui indique où le
centre de la distribution a tendance à être placé (ou localisé).
• Il s’agit essentiellement:
i. de la moyenne. La moyenne est le point d’équilibre d’une série
statistique;
ii. du mode. Le mode est le point de concentration de la
distribution de fréquences.
iii. de la médiane. La médiane est le point qui partage une série
de données en deux parties égales
LA MOYENNE
• La moyenne est la mesure de tendance centrale la plus fréquemment
utilisée.
• La moyenne se calcule en additionnant toutes les valeurs d’une
distribution, puis en divisant la somme par le nombre total de
données.
• La moyenne ne sera définie que si on emploie une variable
quantitative.
• La moyenne de la variable X se note 𝜇𝑋 ou simplement 𝜇 s’il est
question d’une population, et 𝑥 s’il est question d’un échantillon.
MOYENNE : LE CAS DE DONNÉES ISOLÉES (OU
NON GROUPÉES
• Dans le cas de données isolées, il suffit d’additionner toutes les
données, puis de diviser la somme par le nombre de données.
• Si l’on désigne par 𝑿 la variable étudiée, la moyenne est définie par la
formule suivante :
𝑥𝑖 𝑥1 +𝑥2 +𝑥3 +⋯+𝑥𝑁
•𝜇= = ; N désigne la taille de la population
𝑁 𝑁
Ou
𝑥1 +𝑥2 +𝑥3 +⋯+𝑥𝑛
•𝑥= ; n désigne la taille de l’échantillon.
𝑛
Exemple
Considérons les données isolées suivantes :
• 16, 17, 17, 17, 18, 18, 18, 31
La population est l’ensemble des huit étudiants d’une classe de statistique et
la variable est l’âge.
Exprimée en trois étapes, la moyenne de cette variable se calcule comme
suit :
• Étape 1 Calculez 𝑥𝑖 . Ici, 𝑥𝑖 = 16 + 17 + 17 + 17 + 18 + 18 + 18 + 31 = 152
• Étape 2 Déterminez 𝑁. Ici, 𝑁 = 8
𝑥𝑖 152
• Étape 3 Calculez 𝑁
. Ici, 𝜇 = 8
= 19,0 ans
• Interprétation des résultats
L’âge moyen des huit étudiants de la classe de statistique est de 19,0 ans.
Autrement dit, de façon tout à fait théorique, l’âge total des huit étudiants
est le même que si chaque étudiant du groupe avait 19 ans
Moyenne : Le cas de données groupées par
valeurs
• Dans le cas de données groupées par valeurs, calculer la moyenne on
applique la formule suivante :
𝑛𝑖 𝑥𝑖 𝑛1 𝑥1 +𝑛2 𝑥2 +⋯+𝑛𝑘 𝑥𝑘
•𝜇= =
𝑁 𝑁
𝑛𝑖 𝑥𝑖 𝑛1 𝑥1 +𝑛2 𝑥2 +⋯+𝑛𝑘 𝑥𝑘
•𝑥= =
𝑛 𝑛
• k est le nombre de valeurs distinctes que prend la variable X.
EXEMPLE
• Répartition des huit étudiants de la classe de statistique UIST, selon
l’âge
Age (en année) Nombre d’étudiant
16 1
17 3
18 3
31 1
Total 8

𝑛𝑖 𝑥𝑖 𝑛1 𝑥1 + 𝑛2 𝑥2 + 𝑛3 𝑥3 + 𝑛4 𝑥4 16 + 3(17) + 3(18)+31 152


𝜇= = = =
𝑁 𝑁 8 8
= 19,0 𝑎𝑛𝑠
L’âge moyen des huit étudiants de la classe de SEA de UIST est de 19,0 ans.
MOYENNE : LE CAS DE DONNÉES GROUPÉES
EN CLASSES
• Pour calculer la moyenne on suppose que toutes les données
d’une classe ont la même valeur que le centre de la classe.
• La formule utilisée est la suivante:
𝑛𝑖 𝑐𝑖 𝑛1 𝑐1 +𝑛2 𝑐2 +⋯+𝑛𝑘 𝑐𝑘
•𝜇= = ou
𝑁 𝑁
𝑛𝑖 𝑐𝑖 𝑛1 𝑐1 +𝑛2 𝑐2 +⋯+𝑛𝑘 𝑐𝑘
•𝑥= =
𝑛 𝑛
𝑥𝑖 +𝑥𝑖+1
• Où 𝑐𝑖 = est le milieu de la 𝑖 𝑒 classe et 𝑘 est le nombre de
2
classes.
EXEMPLE
• Des chercheurs d’un laboratoire de recherche en psychologie
cognitive affilié à une université s’intéressent au vieillissement et à
son impact sur les capacités de mémorisation. Pour le bien de leur
étude, ils font passer une série de tests d’évaluation de la mémoire à
40 personnes âgées de 75 à 90 ans.
Résultats aux tests Centre de la classe Nombre de personnes Pourcentage de
cognitifs (en %) âgées personnes âgées (%)
[30, 40[ 35 3 7,5
[40, 50[ 45 5 12,5
[50, 60[ 55 8 20
[60, 70[ 65 13 32,5
[70, 80[ 75 7 17,5
[80, 90[ 85 4 10
Total 40 100
EXEMPLE

𝑐𝑖 𝑛𝑖 3(35) + 5(45) + 8(55) + 13(65) + 7(75) + 4(85)


•𝜇= =
𝑁 40
2 480
•𝜇= = 62,0 %
40
• Interprétation : La moyenne des résultats des 40 personnes âgées de
l’étude sur les capacités de mémorisation liées au vieillissement est
d’environ 62,0 %. En d’autres mots, si toutes les personnes âgées
avaient obtenu un résultat aux tests de 62,0 %, la somme de tous les
résultats serait approximativement la même que la somme des
résultats exacts obtenus par chacun
LA MOYENNE D’UNE VARIABLE QUALITATIVE
• Dans le cas d’une variable qualitative à échelle de mesure nominale, il
n’y a pas lieu de calculer la moyenne. Le concept n’a aucun sens.
• En présence d’une variable qualitative à échelle de mesure ordinale, il
est possible de calculer la moyenne, à la condition d’avoir
préalablement codé en chiffres les modalités concernées.
Les autres moyennes
• Moyenne Géométrique
𝑛
• 𝐺 = 𝑥 𝑛1 × 𝑥 𝑛2 × ⋯ × 𝑥 𝑛𝑘
• Ou en prenant le logarithme
𝑛1 log 𝑥1 +𝑛2 log 𝑥2 +⋯+𝑛𝑖 log 𝑥𝑖 +⋯+𝑛𝑘 log 𝑥𝑘
• 𝐿𝑜𝑔 𝐺 =
𝑛𝑖
𝑛𝑖 𝑙𝑜𝑔𝑥𝑖
• 𝐿𝑜𝑔 𝐺 =
𝑛𝑖
• Moyenne harmonique
𝟏
𝟏 𝒏𝒊 ×
𝒙𝒊
• =
𝑯 𝒏𝒊
Exercice d’application
𝒙𝒊 𝒏𝒊 log𝒙𝒊 𝒏𝒊 𝒍𝒐𝒈𝒙𝒊
1 22
2 31
3 20
4 11
5 4
6 1
Conclusion sur les moyennes
• Les trois moyennes retenue satisfont toujours aux conditions
d’inégalité : H < 𝐺 < 𝜇
• La moyenne s’exprime dans la même unité que la variable étudiée.
LE MODE
• Le mode, noté Mo, est la mesure de tendance centrale la plus simple à
évaluer.
• Il représente la modalité ou la valeur la plus fréquente (le nombre ou
le pourcentage d’unités statistiques qui est le plus élevé).
• On l’utilise pour décrire la distribution d’une variable aussi bien
qualitative que quantitative.
• Lorsqu’on interprète le mode, on utilise les expressions « le plus grand
nombre », « le plus élevé », « le plus souvent » ou « le plus fréquent ».
LE MODE D’UNE VARIABLE QUALITATIVE

• Si la variable est de nature qualitative, le mode est la modalité la plus


fréquente dans le tableau de distribution des fréquences.
• C’est la modalité représentée par le rectangle le plus haut dans le
diagramme à colonnes.
Exemple
• Répartition de 40 étudiants d’une classe, selon le degré de motivation
pour les études universitaires
Degré de motivation Nombre d’étudiants Pourcentage d’étudiants (en %)

Faible 10 25

Moyen 10 25

Élevé Mode 20 50

Total 40 100
LE MODE D’UNE VARIABLE QUANTITATIVE

• Dans le cas d’une variable quantitative, le mode est la valeur la plus


fréquente d’une série statistique.
• Si les données sont isolées ou groupées par valeurs, le mode se calcule
directement ; si les données sont groupées en classes, il faut l’estimer.
• Le mode s’exprime dans les mêmes unités de mesure que la variable,
puisque c’est une des valeurs de la variable.
• On met cette valeur en évidence à cause de son caractère représentatif.
Le cas de données isolées (ou non groupées)
• Si les données sont isolées, le mode est simplement la valeur qui a le plus
grand nombre d’occurrences (apparition).
• Il arrive que deux valeurs se démarquent sensiblement des autres. On dit
alors qu’on a une distribution bimodale, c’est-à-dire qui compte deux
• modes .
• Une distribution ayant plus de deux modes est appelée distribution
plurimodale. Dans ces cas, il vaut parfois mieux étudier les sous-groupes
de façon distincte.
• Il peut aussi arriver qu’une distribution soit sans mode, c’est-à-dire
qu’aucune modalité ou valeur de la distribution ne se démarque vraiment
des autres.
EXEMPLE

• Considérons les données sur l’âge des huit étudiants d’une classe de
statistique:
• 16, 17, 17, 17, 18, 18, 18, 31
• Dans cette série, il y a deux modes : « 17 » et « 18 », car ces deux
valeurs reviennent trois fois, alors que chacune des autres valeurs
n’apparaît qu’une seule fois.
• Interprétation des résultats:
• Les âges les plus courants parmi les huit étudiants de la classe de
statistique sont 17 ans et 18 ans.
LE CAS DE DONNÉES GROUPÉES PAR VALEURS

• Dans le cas de données groupées par valeurs, la définition est tout aussi
simple :
• le mode est la valeur ayant la fréquence (ou le pourcentage) la plus
élevée dans le tableau de distribution.
Exemple
Nombre d’enfants à charge Effectifs employés
0 4
1 15
2 29
3 18
4 10
5 3
6 1

ICI, L’effectif le plus élevé est 29. il correspond à la modalité 2 enfants à charges. Donc le mode de
cette série est 2 enfant à charge.
DONNEES GROUPEES EN CLASSE : VARIABLE
CONTINUE
• Le cas de données groupées en classes est particulier, car on perd de
vue les données isolées.
• Il est donc impossible de déterminer la valeur unique la plus
fréquente.
• Par contre, on reconnaît facilement la classe (ou l’ensemble de
valeurs) la plus fréquente, qu’on appelle classe modale.
DONNEES GROUPEES EN CLASSE : VARIABLE
CONTINUE
• Cas ou les amplitude sont égale :
Salaire (en dizaines de milliers de FCFA) Effectif (𝒏𝒊 )
[8;12[ 18
[12;16[ 24
[16;20[ 28
[20;24[ 14
[24;28[ 6
Total 90

Ici, l’effectif le plus élevé est 28. il correspond à la classe modale [16;20[. Donc le mode de cette
16+20
série est 𝑀𝑜 = = 18
2
DONNEES GROUPEES EN CLASSE : VARIABLE
CONTINUE
• Cas ou les amplitudes ne sont pas égale: il faut corriger les effectifs
avant de déterminer le mode.
Durée Effectif Amplitude Effectif corrigé
[0; 4[ 40
[4; 8[ 80
[8;12[ 160

[12;20[ 200
[20;28[ 140
Calcul du mode
• Pour avoir une valeur du mode on utilise la formule suivante :
𝑑1
• 𝑀𝑂 = 𝑥𝑚 + 𝑑 +𝑑 × 𝑎𝑚
1 2
• Avec
𝑥𝑚 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚𝑜𝑑𝑎𝑙𝑒
𝑎𝑚 : 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚𝑜𝑑𝑎𝑙𝑒
𝑑1 : 𝑙𝑎 𝑑𝑖𝑓𝑓é𝑟𝑒𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚𝑜𝑑𝑎𝑙𝑒 𝑒𝑡 𝑙′ 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑝𝑟é𝑐é𝑑𝑒𝑛𝑡𝑒

𝑑2 : 𝑙𝑎 𝑑𝑖𝑓𝑓é𝑟𝑒𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚𝑜𝑑𝑎𝑙𝑒 𝑒𝑡 𝑙′ 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑠𝑢𝑖𝑣𝑎𝑛𝑡𝑒


La médiane
• Médiane est modalité ou valeur par rapport à laquelle les données
sont partagées en deux parties égales. Elle est notée Me.
• Il faut d’abord placer ces données en ordre pour calculer la médiane.
• Il est impossible de déterminer la médiane d’une variable qualitative
à échelle de mesure nominale.
• Lorsqu’on interprète la médiane, on utilise les expressions « au moins
50 % », « plus de la moitié » ou « environ 50 % » en fonction du type
de regroupement.
Cas des données discrètes non groupées
Soit une série statistique de n observations 𝑥1 , 𝑥2 , … , 𝑥𝑛 connues, distinctes
ou non et classées par ordre de valeurs croissantes :𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 .
La valeur de la médiane de ma série statistique: on appelle médiane la valeur
𝑛
𝑀𝑒 telle que: ( nombre d’observations inférieurs ou égales à 𝑀𝑒 ) ≤ et
𝑛 2
(nombre d’observations supérieures ou égales à 𝑀𝑒 )≥ .
2
Il y a aumoins 50% des observations qui ont une valeur inférieure ou égale à
𝑀𝑒 et il au moins 50 % des observation qui ont une valeur supérieure ou égale
à 𝑀𝑒
Cas des données discrètes non groupées
• Quand la série est discrète,
• On range les valeurs de la série par ordre croissant, chacune d’entre
elles étant répétée autant de fois que son effectif.
• Si l’effectif total n est un nombre impair, la valeur médiane 𝑀𝑒 est le
𝑛+1
terme de rang
2
• Si l’effectif n est un nombre pair , la valeur médiane 𝑀𝑒 est le centre de
𝑛 𝑛
l’intervalle formé par les termes de rang et + 1.
2 2
• La valeur médiane présente l’avantage d’être unique et de ne pas être
affectée par les valeurs extrêmes de la série.
Exemple
• La série suivante représente les notes obtenues par 9 étudiants:
• 8 ; 10; 12; 7; 7; 12; 12; 14
• Calculer la note médiane.
Le cas de données groupées par valeurs

• Lorsque les données sont groupées par valeurs on utilise les


pourcentages cumulés. La médiane est donc la première valeur dont le
pourcentage cumulé dé passe 50 %, sauf lorsque le pourcentage
cumulé d’une valeur est exactement 50 %.
• Dans ce cas, la médiane est le nombre situé à mi-distance entre la
valeur dont le pourcentage cumulé est 50 % et la valeur suivante
Données groupées par classes
• Quand la série est regroupée par classe, on détermine la médiane par
interpolation linéaire à partir la courbe des effectifs cumulés ou des
fréquences cumulées.
Durée en Nombre ECC ECD Fréquences FCC FCD
heure d’élèves

[0;4[ 40 40 620 0,065 0,065 1


[4;8[ 80 120 580 0,129 0,194 0,935
[8;12[ 160 280 500 0,258 0,452 0,806
[12;20[ 200 480 340 0,323 0,774 0,548
[20;28[ 140 620 140 0,226 1 0,226
Total 620 1
Pour déterminer graphiquement la médiane
• On trace la courbe des ECC (effectifs cumulés croissants), ou la
courbe des ECD (effectifs cumulés décroissants); on trace la droite
𝑁
horizontale passant par le point d’ordonnée (la moitié de l’effectif
2
total).
• L’abscisse du point d’intersection de la droite horizontale et du
polygone des ECC (ECD) donne la valeur de la médiane.
Détermination de la médiane
Détermination graphique de la médiane
exemple
Détermination graphique de la médiane: 2ème
Méthode
Méthode de calcul
• Le deuxième quartile par définition est la médiane.
• Cas de données groupées en classes:
𝑁
𝑀𝑒 −𝑁𝑖−1
• 𝑀𝑒 = 𝑒𝑖−1 + 2
× 𝑎𝑖𝑀𝑒
𝑛𝑖𝑀𝑒
𝑀𝑒
• 𝑒𝑖−1 : 𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚é𝑑𝑖𝑎𝑛𝑒
• 𝑁𝑖−1 : 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑐𝑢𝑚𝑢𝑙é 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑝𝑟é𝑐é𝑑𝑒𝑛𝑡𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚é𝑑𝑖𝑎𝑛𝑒
• 𝑛𝑖𝑀𝑒 : effectif de la classe médiane
• 𝑎𝑖𝑀𝑒 : amplitude de la classe médiane
La comparaison des mesures de tendance
centrale
• L’égalité de la moyenne, du mode et de la médiane est caractéristique
d’une distribution normale, c’est-à-dire une répartition des données
représentée par une courbe en forme de cloche.
• La distribution normale est symétrique, c’est-à-dire qu’il y a autant de
données de part et d’autre de la moyenne.
• La concentration est également élevée autour de la moyenne : plus
on s’en approche, plus les données sont nombreuses, ce qui explique
que le mode corresponde à la moyenne.
La comparaison des mesures de tendance
centrale
La comparaison des mesures de tendance
centrale
• Une distribution asymétrique négative est représentée par une
courbe qui s’étire vers la gauche.
• Une distribution asymétrique positive s’étire vers la droite, la plus
grande partie des valeurs se trouvant dans la moitié gauche.
La mesure de tendance centrale la plus
représentative
• La moyenne : On choisit la moyenne dans le cas d’une variable
quantitative dont la distribution de fréquences est plutôt symétrique.
C’est également la mesure la plus appropriée pour effectuer une
inférence statistique, car elle est assez stable d’un échantillon à
l’autre. Dans la situation où les trois mesures sont assez proches les
unes des autres, on opte pour la moyenne : elle constitue la seule
mesure qui tient compte de toutes les données.
• Le mode : On choisit le mode pour une variable qualitative à échelle
de mesure nominale ou ordinale. C’est également la mesure la plus
appropriée quand la distribution est bimodale ou plurimodale
puisque, dans ces cas, il y a peu de données près de la médiane ou de
la moyenne. Le mode représente alors un plus grand nombre
d’individus.
La mesure de tendance centrale la plus
représentative
• La médiane : On choisit la médiane quand la variable est de nature
quantitative et que sa distribution de fréquences est fortement
asymétrique, ou lorsqu’une ou plusieurs données s’éloignent
considérablement des autres (valeurs extrêmes). Dans un tel cas, il
existe un écart important entre la médiane et la moyenne, et la
médiane est plus représentative de l’ensemble des données. Enfin, la
médiane peut être déterminée lorsqu’une distribution con tient des
classes ouvertes.
LES QUARTILES

• Le premier quartile, noté Q1, est une valeur de la série; telle que 25 % au
moins des valeurs de la série sont inférieures ou égales à Q1; et telle que
75% au moins des valeurs de la série sont supérieures ou égales à Q1.

• Le troisième quartile, noté Q3, est : une valeur de la série; telle que 75%
au moins des valeurs de la série sont inférieures ou égales à Q3; et telle
que 25% au moins des valeurs de la série sont supérieures ou égales à Q3.
LES QUARTILES
LES QUARTILES (cas de regroupement en
classes)
𝑁
𝑄1 −𝑁𝑖−1 𝑄1
• 𝑄1 = 𝑒𝑖−1 + 4
𝑄 × 𝑎𝑖
𝑛𝑖 1

3𝑁
𝑄3 −𝑁𝑖−1 𝑄3
• 𝑄3 = 𝑒𝑖−1 + 4
𝑄 × 𝑎𝑖
𝑛𝑖 3
CHAPITRE V MESURE DE DISPERSION
• Pourquoi les mesures de dispersion ?
• L’étendue
• La variance et l’écart type
• Le coefficient de variation
• La comparaison des mesures de dispersion
Pourquoi les mesures de dispersion ?

• Les mesures de tendance centrale s’avèrent limitées lorsqu’il s’agit de


comprendre comment les données se distribuent et varient entre elles
à l’intérieur d’une série statistique.
• Mesure de dispersion indique jusqu’à quel point les données d’une
distribution diffèrent les unes des autres. Il s’agit essentiellement de
l’étendue, de la variance, de l’écart type et du coefficient de variation.
• On emploie les mesures de dispersion presque uniquement pour
étudier des variables quantitatives.
L’étendue
• L’étendue (E) est la plus élémentaire des mesures de dispersion. C’est
la différence ou l’écart entre la plus grande et la plus petite valeur
d’une série statistique:
• 𝐸 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Lorsque les données sont groupées en classes, on perd de vue les
données isolées mais on a un portrait de l’ensemble des données.
Dans ce cas, les calculs portent sur les bornes des classes. Ainsi,
l’étendue est approximativement égale à la différence entre la borne
(B) supérieure de la dernière classe et la borne inférieure de la
première classe:
• 𝐸 = 𝐵𝑚𝑎𝑥 − 𝐵𝑚𝑖𝑛
Exemple
• Soit les deux ci-dessous:
• 95 ; 97 ; 100 ; 103 ; 105
• 50; 75; 100 ; 125 ; 150
1. Calculer la moyenne de chacune des séries
2. Calculer l’étendue des deux séries
Exemple
Âge (en années) Nombre d’individus Pourcentage d’individus ( %)

17 3 50

18 3 50

Total 6 100

L’étendue est donnée par l’expression suivante : E = xmax − xmin = 18 − 17 = 1 an

Interprétation : des résultats Dans le groupe d’individus issus de l’organisme communautaire,


l’individu le plus âgé a seulement 1 an de plus que l’individu le plus jeune.
La variance et l’écart type
• Variance (𝜎 2 ou 𝑠 2 ) Moyenne des carrés des écarts des valeurs par
rapport à la moyenne de la distribution. La variance est notée 𝜎 2
pour une population ou 𝑠 2 pour un échantillon.
La variance sur une population
• La variance d’une population de taille N se note 𝜎 2 .
• Elle s’exprime toujours en unités de mesure au carré.
• Par exemple, si l’unité de mesure de la variable X est le kilogramme, la
variance 𝜎 2 s’exprime en kilogrammes carrés.
Le cas de données isolées (ou non groupées)

• Si les données sont isolées, on obtient la variance en trouvant d’abord


l’écart entre chaque donnée et la moyenne, puis en calculant la somme
des carrés des écarts et en divisant cette somme par le nombre de
données. Autrement dit, on calcule la moyenne des carrés des écarts.
2 𝑥𝑖 −𝜇 2
•𝜎 =
𝑁
Le cas de données groupées par valeurs

• Le cas de données groupées par valeurs Que les données soient


groupées par valeurs ou qu’elles soient isolées, la variance se calcule
sensiblement de la même façon.
𝑛𝑖 𝑥𝑖 −𝜇 2
• 𝜎2 = Dans le cas d’une population
𝑁
𝑛𝑖 𝑥𝑖 −𝑥 2
• 𝑠2 = Dans le cas d’un échantillon
𝑛−1
Le cas de données groupées en classes
• Si les données sont groupées en classes, le calcul de la variance
s’effectue de la même manière suivante:
2 𝑛𝑖 𝑐𝑖 −𝜇 2
• 𝜎 = Dans le cas d’une population
𝑁
𝑛𝑖 𝑐𝑖 −𝑥 2
• 𝑠2 = Dans le cas d’un échantillon
𝑛−1
𝑒𝑖−1 +𝑒𝑖
• Ou 𝑐𝑖 représente le centre des classe. 𝑐𝑖 =
2
• La mesure obtenue en divisant par n − 1 s’appelle la variance
échantillonnale (ou variance corrigée, 𝑠 2 )
CALCUL DE LA VARIANCE : THEOREME DE
KOENIG
• Autre formule très utilisée pour calculer la variance:
𝑛𝑖 𝑥𝑖2
• 𝜎2 = 𝑉 𝑥 = − 𝜇2
𝑁
𝑛𝑖 𝑥𝑖2
• 𝑠2 = 𝑉 𝑥 = − 𝑥2
𝑛
• La variance est égale à la moyenne des carrées moins le carré de la
moyenne.
L’écart type
• Il est égal à la racine carrée de la variance. La définition et la formule
sont évidemment les mêmes, quelle que soit la forme des données, et
cela vaut autant pour 𝜎 que pour 𝑠:
• 𝜎 = 𝜎2
• 𝑠 = 𝑠2
• L’écart type est une mesure de dispersion qui donne un aperçu de
l’étalement ou de la concentration des données autour de la moyenne.
Sa valeur peut aller de 0 à l’infini.
• Plus l’écart type est grand, plus les données sont dispersées; s’il est petit,
les données sont proches de la moyenne. L’écart type est donc une
mesure utile pour comparer deux distributions de fréquences.
Le coefficient de variation
• Coefficient de variation (CV ) Mesure de la dispersion relative des
données, égale au rapport de l’écart type sur la moyenne.
• On peut donc l’utiliser pour comparer la dispersion de deux ou de
plusieurs distributions de fréquences exprimées dans des unités de
mesure différentes ou encore des séries statistiques de même
variable avec des moyennes très distinctes.
• le coefficient de variation (CV) et s’exprime généralement en
pourcentage:
𝜎
• 𝐶𝑉 = × 100 (dans le cas d’une population)
𝜇
𝑠
• 𝐶𝑉 = × 100 (dans le cas d’un échantillon)
𝑥
Le coefficient de variation
• Le coefficient de variation est un indicateur de l’homogénéité d’une
population ou d’un échantillon : plus le CV est grand, plus la
population ou l’échantillon est dispersé.
• On considère qu’un coefficient de variation inférieur à 15 % indique
que la population ou l’échantillon est homogène,
• tandis qu’un coefficient de variation supérieur à 15 % indique que la
population ou l’échantillon est dispersé.
• Remarque : on ne peut pas employer le coefficient de variation dans
les cas d’une échelle de mesure d’intervalles ou d’une moyenne
négative. Le coefficient de variation n’est pas très utile si la moyenne
est proche de 0
La comparaison des mesures de dispersion
• L’étendue ne prend pas en compte toutes les données de la série
statistique, mais seulement les deux valeurs extrêmes. Elle est utile surtout
dans le cas d’une petite population ou d’un petit échantillon (soit moins de
30 unités).
• La variance tient compte de toutes les données, mais le fait que des carrés
inter- viennent dans son calcul confère plus de poids aux grands écarts.
Ainsi, les données extrêmes influent fortement sur sa valeur. La variance
est, avec l’écart type, la mesure de dispersion la plus employée.
• L’écart type a les mêmes caractéristiques que la variance, sauf qu’il
s’exprime dans les mêmes unités de mesure que la variable, ce qui
constitue un avantage pour l’interprétation, par exemple.
• Le coefficient de variation est une mesure relative. Il sert donc à comparer
deux variables distinctes dont les unités de mesure sont différentes ou
deux variables identiques qui ont des moyennes peu comparables.
DIAGRAMME À MOUSTACHE

• Elle est due à JW. Tukey et est appelée « box plot » en anglais
DIAGRAMME À MOUSTACHE
• Une boîte avec des "pattes" courtes indique que la série est assez
concentrée autour de sa médiane. Au contraire des "pattes" longues
indique que la série est assez dispersée.
• Le graphique est parfois fait en dessinant des pattes correspondant
au 1er et au 99ème centile, ou même aux valeurs extrêmes
VALEURS ABERRANTES
DIAGRAMME À MOUSTACHE
• Il est utilisé principalement pour comparer un même caractère dans
deux populations de tailles différentes.
Exercice d’application
• 95 ; 97 ; 100 ; 103 ; 105
• 50; 75; 100 ; 125 ; 150
1. Calculer la variance
2. Calculer l’écart-type
3. Calculer le coefficient de variation et interpréter le résultat
CHAPITRE VI MESURES DE FORME
• Mesure de l’asymétrie Les courbes suivantes donnent une idée sur la
forme d’une distribution de données:
MESURE DE L’ASYMÉTRIE
• Certains coefficients (indices) permettent de situer la distribution
dans un des trois cas précédents:
MESURE DE L’ASYMÉTRIE
2. Coefficient de Pearson:
CHAPITRE VII: LES MESURES DE POSITION
• Les quantiles
• Le rang
• La cote Z
Les mesures de position
• Mesure de position sert à trouver la position exacte d’une donnée
dans une série statistique provenant d’un échantillon ou d’une
population.
• Les mesures de position n’ont pas de sens pour les variables
qualitatives. C’est pourquoi elles ne sont généralement définies que
pour les variables quantitatives.
Les quantiles
• Les quantiles sont des mesures de position servant à partager une
distribution ordonnée en un nombre quelconque de parties
sensiblement égales.
• Il existe plusieurs quantiles, chacun étant défini en fonction du nombre
de sous-groupes à diviser.
• Chaque quantile correspond à une valeur à laquelle une proportion de
données lui est inférieure.
• Ces valeurs déterminent le partage de la distribution des fréquences
en cent, dix, cinq ou quatre parties égales et s’appellent
respectivement centiles, déciles, quintiles et quartiles.
Les centiles
• Les centiles (Cα) sont des valeurs qui divisent une distribution de
fréquences en 100 tranches égales notées de C1 à C99.
• Par exemple, le 32e centile, noté C32, est la valeur à laquelle 32 % des
données sont inférieures ou égales et, par conséquent, 68 % des
données sont supérieures. Dans un polygone de fréquences, l’aire
sous la courbe à gauche de C32 représente 32 % de l’aire totale, alors
que l’aire sous la courbe à droite de C32 représente 68 % de l’aire
totale.
• En général, le centile d’ordre α, noté Cα, est la valeur à laquelle α %
des données sont inférieures.
Les étapes suivantes résument comment évaluer un centile à partir
d’un tableau de fréquences groupées par classes

• Étape 1 Localisez, à partir de la distribution des fréquences cumulées, la


classe contenant Cα (Cα étant la première classe où le pourcentage cumulé
atteint ou dépasse α %).
• Étape 2 Trouvez 𝑒𝐶𝛼 ,𝐹Cα–1 , 𝐹Cα et 𝑎Cα .
• 𝑒𝐶𝛼 est la borne inférieure de la classe contenant Cα ;
• 𝐹Cα–1 est le pourcentage cumulé de la classe qui précède la classe
contenant Cα ;
• 𝐹Cα est le pourcentage de la classe contenant Cα ;
• 𝑎Cα est l’amplitude de la classe contenant Cα .
• Étape 3 Calculez le centile à l’aide de la formule suivant
Les étapes suivantes résument comment évaluer un
centile à partir d’un tableau de fréquences groupées par
classes
𝛼%−𝐹𝑐𝛼−1
• 𝐶𝛼 = 𝑒𝑐𝛼 + × 𝑎𝑐𝛼
𝐹𝑐𝛼−1
Les autres quantiles
• Pour partager une distribution en dix, en cinq ou en quatre parties
égales, on utilise respectivement les déciles (D), les quintiles et les
quartiles (Q`), qui sont des cas particuliers des centiles.
• Les déciles, que l’on note partagent une distribution des fréquences
en dix parties égales. On ne détermine pas D0 et D10, pour la même
raison qu’on ne tient pas compte de C0 et de C100.
• les quartiles, que l’on note Q1 , Q2 et Q3 , sont des mesures qui
partagent une distribution de fréquences en quatre parties égales.
Comme dans le cas des centiles, des déciles et des quintiles, on ne
détermine pas Q0 ni Q4 .
Intervalle interquartile
• L’écart interquartile (IQ) est une mesure de dispersion qui vise à mieux
caractériser l’étalement de la distribution des données.
• Il permet de situer l’étendue des données qui sont au centre de la série
statistique, c’est-à-dire les données occupant les 50 % du centre en
excluant les 25 % qui se trouvent aux deux extrémités.
• Cette mesure prend en considération les quartiles et correspond à l’écart
entre Q3 et Q1 : IQ = Q3 − Q1
• Plus IQ est petit, plus les 50 % des données centrales sont situés près de la
médiane.
• Cette mesure a comme avantage d’éliminer l’influence des valeurs
aberrantes dans une distribution.
Le rang
• On distingue habituellement trois types de rang :
• le rang brut,
• le rang centile
• et le rang cinquième.
Le rang brut
• Le rang brut (ou simplement le rang) d’une donnée x, noté R(x), est la
place que celle-ci occupe dans une série statistique écrite en ordre
croissant ou décroissant. On détermine le rang en dénombrant les
données.
• Avant de déterminer le rang d’une donnée dans une série, assurez-vous
que la série est décroissante (ou croissante)
• R(x) = Nombre de données de valeur inférieure à la donnée x + 1 (pour
une série croissante)
• R(x) = Nombre de données de valeur supérieure à la donnée x + 1 (pour
une série décroissante)
Le rang centile
• On détermine le rang centile en appliquant le processus inverse de
celui qui sert à cerner un quantile.
• Dans ce dernier cas, on connaît le pourcentage et on veut identifier la
position précise qu’occuperait une donnée si elle se trouvait dans un
groupe de 100 ;
• dans le cas présent, on connaît la position et on veut identifier le
pourcentage précis.
• En pratique, le rang centile revêt un sens uniquement si le nombre de
données est très grand ; c’est pourquoi on énonce une formule
applicable au cas de données groupées en classes.
La méthode numérique
• Le rang centile d’une donnée x, noté R100(x), est le pourcentage des données
d’une distribution de fréquences qui se situent en dessous de cette donnée.
• Par convention, le rang centile est un entier allant de 1 à 99 (on néglige la partie
fractionnaire du résultat lors du calcul) qu’on détermine en tronquant au besoin
le pourcentage obtenu selon les étapes suivantes :
• Étape 1 : Localisez la classe contenant la donnée x.
• Étape 2 : Trouvez br , Lr , Fr et Fr–1.
• Ici, x est la donnée dont on cherche le rang centile ;
• br est la borne inférieure de la classe contenant x;
• ar est l’amplitude de la classe contenant x;
• Fr est le pourcentage de la classe contenant x;
• Fr–1 est le pourcentage cumulé de la classe qui précède immédiatement la
classe contenant x.
La méthode numérique
• Etape 3 Calculez le rang centile à l’aide de la formule suivante :
𝑥−𝑏𝑟
• 𝑅100 ≈ 𝑝𝑎𝑟𝑡𝑖𝑒 𝑒𝑛𝑡𝑖è𝑟𝑒 × 𝐹𝑟 + 𝐹𝑟−1
𝑎𝑟
Le rang cinquième

• Il existe une autre définition du rang d’une donnée dans une série
statistique : c’est le rang cinquième (R5(x)).
• Pour calculer cette mesure, on divise l’ensemble des données en cinq
parties égales, chacune étant constituée de 20 % des données.
• On attribue aux données, placées en ordre croissant comme pour le
calcul du rang centile, un rang de 5 à 1, selon la partie à laquelle elles
appartiennent.
• Un rang cinquième de 1 signifie que la donnée appartient au peloton de
tête, qui correspond aux premiers 20 % des données. Un rang cinquième
de 2 signifie que la donnée concernée se trouve dans le deuxième
groupe de données, c’est-à-dire dans les meilleurs 40 % des données,
mais pas dans les premiers 20 %. Il en est de même pour les rangs 3, 4 et
5, ce dernier étant considéré comme le peloton de queue.
L’interprétation des notions de rang
• Le rang brut : Dans le cas du rang brut, on regarde en avant. Un rang brut
de 3 signifie que la valeur examinée est la troisième à partir du début de la
série statistique. Par exemple, le troisième coureur d’un ensemble de
concurrents est celui qui a le troisième meilleur temps.
• Le rang cinquième : Dans le cas du rang cinquième, on regarde aussi en
avant. Lors d’un marathon, les coureurs de rang cinquième 1 font partie
des 20 % qui sont les premiers à atteindre la ligne d’arrivée. Ainsi, plus le
rang brut ou le rang cinquième d’un coureur est élevé, plus celui-ci s’est
mal classé lors de la compétition.
• Le rang centile : Dans le cas du rang centile, on regarde en arrière, c’est-à-
dire vers la fin de la série statistique. Si un étudiant a un rang centile de 68
lors d’un examen, cela signifie que 68 % de l’ensemble des étudiants ont
moins bien réussi que lui. Plus les étudiants soumis à cet examen ont un
rang centile élevé, meilleure est leur performance par rapport au groupe.
La cote Z
• Si on veut établir une comparaison valable, il faut employer une
échelle de mesure commune, c’est-à-dire déterminer une moyenne et
un écart type qui soient les mêmes pour tous.
• On peut effectuer un changement d’échelle de mesure en centrant et
en réduisant la distribution de fréquences.
• Centrer une distribution consiste à en ramener la moyenne à 0 ;
réduire une distribution consiste à en ramener l’écart type à 1.
• Ainsi, on transforme chaque donnée d’une série statistique en cote Z
(z), c’est-à-dire une valeur à échelle commune qui exprime sa distance
avec la moyenne en nombre d’écarts types.
La côte Z
• En ne comportant pas d’unité de mesure, la cote Z permet de situer
précisément une donnée par rapport aux autres données de séries
statistiques différentes.
• Si l’on désigne par 𝑥 la valeur d’une donnée, μ 𝑙𝑎 moyenne de la
population et 𝜎 l’écart type, la formule de la cote Z, notée z, s’écrit comme
suit :
𝑥−𝜇
•𝑧= 𝜎
• Soulignons que dans le cas d’un échantillon, la cote Z est définie par la
formule suivante :
𝑥−𝑥
•𝑧= 𝑠
• 𝑥 et 𝑠 désignent respectivement la moyenne et l’écart type de l’échantillon.
FIN

Vous aimerez peut-être aussi