Vous êtes sur la page 1sur 37

‫الجمهوريـــــة الجزائريـــــة الديمقراطيــــة الشعبيــــة‬

République Algérienne Démocratique et Populaire


‫وزارة التـعليـــــم العالــــــي و البحــــث العلمــــــــي‬
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

‫المركـــــز الجامــــعي بوشعيــــب بلحـــاج عين تيموشنت‬


Centre Universitaire Bouchaib Belhadj -Ain Témouchent-

Institut des Sciences et de la Technologie


Département de Génie de l’Eau et de l’Environnement

Cours
Mathématique \Statistique

Chargé du module 
H. BELARBI
Cours
Mathématiques Statistiques

Intitulé du domaine Science et technologie

Année 1er Année Master

Annuel ou semestriel Semestriel

36 heures (12 semaine)

Volume horaire global


1h30/semaine Cours
1h30/semaine TD

Nombre de crédits
2

Mode d’évaluation 50/50


Table de matières
Table des tableaux
Table des figures
Liste des abréviations
Cours
Mathématiques Statistiques

Introduction

Problématique

Objectifs du cours
Chapitre 1
Chapitre 1

Vocabulaire de base

1.1. Introduction

Dans l’étude de phénomènes portant sur un nombre important de personnes, animaux, d’objets,
etc, on ne peut pas avoir accès à tous les résultats possibles pour l’ensemble de la population. Le
rôle des statistiques est de rendre compte le mieux possible de la composition de toute la
population à partir d’un nombre restreint d’observations qui constituent un échantillon.

La statistique est un outil scientifique qui permet :

- de recueillir des données “brutes”;

- d’organiser, classer, présenter et résumer ces données ;

- de recherche de liens entre données (régression) ;

- de tirer des conclusions sur la population étudiée (sa structure, sa composition), d’aider à la
prise de décision judicieuses; en présence de données dépendant du temps, de faire de la
prévision.

Par définition la statistique est une méthode scientifique du traitement de données.

En distingue généralement :

1.1.1 Statistique déductive ou descriptive

Elle a pour but de résumer et de présenter les données observées sous la forme la plus accessible
(simplification et réduction des données, à la fois visuelle et conceptuelle);

Les statistiques descriptives peuvent se résumer par le schéma (Figure 1.1) suivant :

ECHANTILLON Caractéristiques de
POPULATION
l’échantillon

Echantillonnage Déduire
Aléatoire

Figure 1.1 : Représentation schématique de la statistique descriptive


1.1.2 Statistique inductive ou inférence statistique

C’est l’ensemble des méthodes permettant de formuler en termes probabilistes un jugement sur
une population, à partir des résultats observés sur un échantillon extrait au hasard de cette
population. Les méthodes statistiques les plus classiques sont celles de l’estimation (estimation
par domaine de confiance) et celles de tests d’hypothèses (Figure 1.2).
Inférence
Echantillon Population

Figure 1.2 : Représentation schématique de la statistique inductive

1.2. Population individu et échantillon

La population statistique est l’ensemble des éléments sur lesquels porte l’étude.

Exemple :

- Les véhicules automobiles immatriculés en Algérie ;

- Les salaries d’une entreprise ;

- Les habitants d’un quartier, etc.

Remarque

1. La population doit-être définie avec précision. C’est totalement différent de considérer ;

- Les étudiants ;

- Les étudiants de 12-25 ans

- Les étudiants de département de Génie de l’eau et de l’environnement

2. La population doit-être homogènes au regard des caractères étudies.

Les éléments de la population sont appelés individus statistiques ou unités statistiques (ou
objet).

Exemple :

- Mois d’une année ;

- Pièce produits par une usine;

- Résultats d’expérience répétés un certain nombre de fois, etc.


Donc, si la population comporte N individus, on noteraΩ={ ωi , … , ω N } , avec ω i désignant pour
i variant de 1 à N les individus qui les composent.

Un échantillon est un sous ensemble formé de n individus de la population (n ≤ N ¿ .

Le nombre d’individus statistiques ou d’unités statistique détermine la taille de l’échantillon.

Exemple :

- L’échantillon des véhicules automobiles immatriculés dans la wilaya d’Ain-


Temouchent ;

Population

Individus

Echantillon

Remarque 

On dira qu’un échantillon est exhaustif lorsque la taille est celle de la population. Par exemple,
en hydro-climatologie, les populations sont généralement infinies et par conséquent, les
échantillons sont non exhaustifs.

1.3. Echantillonnage statistique

Pour recueillir des informations sur une population statistique, l’on dispose de deux méthodes :

- Méthode exhaustive ou recensement où chaque individu de la population est étudié


selon le ou les caractères étudiés ;

- Méthode des sondages ou échantillonnage qui conduit à d’examiner qu’une fraction de


la population, un échantillon.
1.3.1. Définition

L’échantillonnage représente l’ensemble des opérations qui ont pour objet de prélever un
certain nombre d’individus dans une population donnée. Pour que les résultats observés lors
d’une étude soient généralisables à la population statistique, l’échantillon doit être représentatif
de cette dernière.

1.3.2. Echantillonnage aléatoire simple

Seul l’échantillonnage aléatoire assure la représentativité de l’échantillon. Un échantillon est


qualifié d’aléatoire lorsque chaque individu de la population a une probabilité connue et non
nulle d’appartenir à l’échantillon.

L’échantillonnage aléatoire simple est une méthode qui consiste à prélever au hasard et de
façon indépendante n individus ou unités d’échantillonnage d’une population à N individus.
Chaque individu possède ainsi la même probabilité de faire partie d’un échantillon de n
individus et chacun des échantillons possibles de taille n possède la même probabilité d’être
constitué. Ainsi, l’échantillonnage aléatoire simple assure l’indépendance des erreurs, c’est-à-
dire l’absence d’auto-corrélations parmi les données relatives à un même caractère. Cette
indépendance est indispensable à la validité de plusieurs tests statistiques.

Remarque

Il existe d’autre technique d’échantillonnage comme l’échantillonnage systématique ou


l’échantillonnage stratifié

1.4. Caractères (critéres) et variables (variates) statistiques

C’est la propriété ou l’aspect particulier que l’on se propose d’observer dans la population ou
l’échantillon. Un caractère qui fait le sujet d’une étude porte aussi le nom de variable statique.

Chaque individu d’une population peut être décrit relativement à un ou plusieurs caractères ou
variables statistiques. Il existe deux types de caractères.

1.4.1. Caractère qualitatif

Un caractère est dit qualitatif, s’il est repérable sans être mesurable.
Exemple :

- Etat civil de l’employé ;

- Lieu de naissance ;

- Etat d’une maison, etc.

1.4.2. Caractère quantitatif

Un caractère est dit quantitatif, s’il est mesurable.

Exemple :

- Le salaire des employés ;

- Le poids ;

- Nombre de pièces, etc.

Dans l’utilisation que nous ferons de la statistique, nous aurons toujours affaire à des
caractères quantitatifs.

A. Discret (ou discontinu)

Il est discontinu, s’il prend que des valeurs isolées les unes des autres. Autrement dit ; un
caractère quantitatif discontinu qui ne prend que des valeurs entières est dit discret.

Exemple :

- Le salaire des employés ;

- Nombre d’enfants ;

- Nombre de pièces d’une maison, etc.

B. Discret (ou discontinu)

Il est dit continu lorsqu’il peut prendre toutes les valeurs d’un intervalle fini ou infini.

Exemple :

- Diamètre de pièces ;

- Surface ;

- Altitude, etc.
Remarque

Lorsque la variable statistique continue, les données sont regroupées par classes, c’est-à-dire par
intervalles¿ x i−α i , x i+ α i ¿ ¿, Le nombre x i est le centre de la classe. L’amplitude de la classe
est un compromis : la valeur α i doit être assez petite pour conserver une information suffisante,
mais assez grande pour avoir des données condensées et des calculs raisonnables. Les classes
sont aussi notées ¿ x i−1 , x i ¿ ¿ lorsqu’on s’intéresse plus précisément aux extrémités.

C. Modalité

Le caractère désigne une grandeur ou un attribut, observable sur un individu et susceptible de


varier prenant ainsi différents états appelés modalités.

Exemple :

Le caractère sexe à deux modalités : Masculin et féminin

Le caractère couleur des yeux peut prendre comme Modalités : Noir, Marron, Bleu,…

Les modalités d’un caractère doivent être incompatibles et exhaustives, tout individu doit
présenter une et une seule modalité.

Exhaustives à chaque individu doit correspondre une modalité du caractère ;

Exemple :

Enquête sur l’état matrimonial d’un groupe d’individu. Pour satisfaire la condition
d’exhaustivité on doit avoir quatre modalités du caractère état matrimonial : Célibataire, marié,
veuf et divorcé

Incompatible chaque individu doit pouvoir être classé dans une seule et une seule modalité du
caractère

Exemple :

Un individu ne peut être à la fois célibataire et marié

Chaque individu d’un caractère doit pouvoir être classé dans une et une seule Modalité
Population
Individu

Echantillon

Dimension qualitatives Dimension quantitatives

Discret Continue

Tableaux
Exemple d’application

On souhaite connaître l’état des maisons. Choix entre trois types de caractère.

{
Population : Maisons ( 100 )
Individu : Unemaison parmi ces 100 maisons
Caractère qualitatif
Caract è ℜ: l' é tat de la maison
Modalit é s : Petite , moyenne , grande

{
Population : Maisons ( 100 )
Individu : Unemaison parmi ces 100 maisons
Caractère quantitatif discret
Caract è ℜ: Nombre de pi è ces
Modalit é s :1,2,3,4,5

{
Population: Maisons ( 100 )
Individu : Une maison parmi ces100 maisons
Caract è ℜ quantitatif conti nu
Caract è ℜ: Surfaces(not é S)
Modalit é s : S ∈ [ 60,200 ] m
2

Exercice d’application

Une compagnie achète 10 000 ampoules électriques d’un fabricant qui affirme que ses ampoules
fonctionnent durant au moins 1 000 heures (1 mois et 11 jours, sans arrêt). Cette compagnie
vérifie 15 ampoules et, suite à ces résultats doit décider si elle garde ou non les 10000 ampoules.
Identifier la population, l’individu, le caractère et les modalités ?

Solution 

Population : les 10 000 ampoules achetées


Echantillon : 15 ampoules à vérifier
Variable statistique continue
Individus : une ampoule parmi les 15 ampoules
Caractère : Durée de fonctionnement de l’ampoule
Modalité : Durée

Population : les 10 000 ampoules achetées


Echantillon : 15 ampoules à vérifier
Caractère qualitatif
Individus : une ampoule parmi les 15 ampoules
Caractère : l’état de l’ampoule
Modalité : Bon ou mauvais

Un même individu peut il avoir plusieurs caractères ??? Oui

Population : les 10 000 ampoules achetées


Echantillon : 15 ampoules à vérifier
Individus : une ampoule parmi les 15 ampoules
Caractère : l’état de l’ampoule, la durée de fonctionnement de l’ampoule.
Modalité : Bon ou mauvais, durée en heures

Par rapport à un caractère un individu peut il avoir plusieurs modalités???? Non

1.5. Liens avec les concepts probabilistes

Les concepts qui viennent d’être présentés sont les homologues de concepts du calcul des
probabilités et il est possible de disposer en regard les concepts homologues (voir table ci-
dessous).

Probabilités Statistique
Espace fondamental Population
Epreuve Tirage (d’un individu), expérimentation
Evènement élémentaire Individu, observation
Variable aléatoire Caractère
Epreuves répétées Echantillonnage
Nombre de répétitions d’une
Taille de l’échantillon, effectif total
épreuve
Probabilité Fréquence observée
Loi de probabilité Distribution observée ou loi empirique
Espérance mathématique Moyenne observée
Variance Variance observée
Chapitre 2
Chapitre 2

Distribution statistique à un caractère

2.1. Représentation des données

Il existe plusieurs niveaux de description statistique, la représentation brute des données, des
représentations par tableaux numériques, des représentations graphiques et des résumés
numériques fournis par un petit nombre de paramètres caractéristiques. Pour la représentation
des données on a recours à :

2.1.1. Séries statistiques

Une série statistique correspond aux différentes modalités d’un caractère sur un échantillon
d’individus appartenant à une population.

Exemple :

Les 10 séismes recensés durant une année au niveau d’une région.

Séisme Magnitude Le caractère : Magnitude sur l’échelle de Richter


1 2.2 Modalité : Valeur de la Magnitude sur l’échelle de Richter
2 3.1
3 5.5
4 7.5
5 2.2
6 1.5
7 4.3
8 6.8
9 4.9
10 4.7

2.1.2. Présentation d’un tableau

D’une façon générale, un tableau se décompose :

- D’une colonne indiquant les différentes modalités de la variable (xi) ;

- D’une colonne ou plusieurs autres colonnes indiquant l’effectif (n i) correspondant à ces


diverse modalités.

Selon que la variable est discrète ou continue. Les tableaux se présentent de la façon suivante :
A. Tableau concernant une variable discrète

Exemple

Distribution du personnel d’une entreprise en fonction du nombre d’enfants.

Nombre d’enfants Effectifs Lecture du tableau :


(xi) (ni) 12 nombre du personnel portant Zéro enfant ;
0 12 31 nombre du personnel portant un enfant.
1 31
2 29
3 11
4 4
5 2
6 et plus 1

B. Tableau concernant une variable discrète

Du moment que le caractère est quantitatif continu alors l’idée consiste à établir des classes.

Exemple

Distribution des réceptions de marchandises en fonction du nombre de colis.

Nombre de Effectifs
Lecture du tableau :
colis (xi) (ni)
¿ 20 Nous avons 20 fois reçu des livraisons contenant des colis entre
[6-11] 30 1 et 6.
[11-16] 60
[16-21] 50
[21-31] 30
[31-36] 10

Remarque

Lorsque les données sont groupées, il faut porter attention aux crochets (les signes dans la
classe. Par exemple, dans le tableau ci-dessus, le groupe [1-6[inclut un seul colis durant 20
livraisons (c’est le signe « qui marque l’inclusion, mais exclut des livraisons qui ont 6 colis
pièces (c’est le signe « [ »).

La question qui se pose :


Est-ce qu’il y a un seul tableau statistique pour la variable quantitatif continu ?
Prenons l’exemple de la série statistique

Pour une amplitude ou un pas de classe égale 1

Effectifs
Classe Nombre de colis (xi)
(ni)
1 [1.5-2.5] 3
2 [2.5-3.5] 1
3 [3.5-4.5] 1
4 [4.5-5.5] 2
5 [5.5-6.5] 1
6 [6.5-7.5] 1
7 [7.5-8.5] 1
Total : 10

Pour une amplitude ou un pas de classe égale 1.5

Effectifs
Classe Nombre de colis (xi)
(ni)
1 [1.5-3] 3
2 [3-4.5] 2
3 [4.5-6] 3
4 [6-7.5] 1
5 [7.5-9] 1
Total : 10

Pour une amplitude ou un pas de classe égale 3

Effectifs
Classe Nombre de colis (xi)
(ni)
1 [1.5-4.5] 5
2 [4.5-7.5] 4
3 [7.5-10.5] 1
Total : 10

Donc ;
Pour une amplitude ou un pas de classe égale 1 on a 7 classes

Pour une amplitude ou un pas de classe égale 1.5 on a 5 classes

Pour une amplitude ou un pas de classe égale 3 on a 3 classes

Par la suite,
Est-ce que le choix du pas à une importance dans le traitement des données ? Si oui

Quel est le nombre de classes qui l’on doit choisir ?

Le nombre de classes ne doit pas être trop petite, perte d’informations, ni trop grande, le
regroupement en classes est alors inutile de plus, certaines classes pourraient avoir des effectifs
trop faibles.

En générale, ¿ sont des intervalles avec :


b i: borne inférieure
b i+1: borne supérieure
a i: Amplitude de la classe (son pas ou longueur) ; avec a i=bi +1−bi
bi +1+ bi
mi: Centre de la ieme classe (au centre de classe) ; avec mi=
2
Par la suite :
Etendue de la s é rie des observations Val eur maximale−Valeur minimale
a i= ⇒ ai = k ∈N
nombre de classe k
k est déterminé par soit

Formule de Sturge k =1+3.3 log 10 (n)

Formule de Yule k =2.5 √


4
n

Exemple d’application

Dans une étude statistique, on vérifié le poids de 10 Zèbres enfermés dans un zoo après leurs
capture pour voir leur adaptation au niveau milieu, l’étude nous donne les valeurs suivantes :
80.5 - 79 - 86.6 - 72 - 101.5 - 120 - 115.5 - 95.5 - 120 - 121.99.

1. Déterminer, la population, l’individu et la variabilité ;


2. Dresser un tableau statistique avec 3 classes seulement ;
3. Dresser au autre tableau statistique en utilisant la formule du Struge et de Yule.

Solution
1. Population Les Zébres du zoo
Individu Le Zébre
Le caractère (variable) poids de type quantitatif continu poids ∈ [ 72 , 122 ]

2. Tableau statistique à 3 classes


Valeurs du ni
poids
[72 - 89] 4
[89 - 106] 2
[106 - 122] 4
Total= 10

3.
- Tableau statistique avec la formule de Sturge k =1+3.3 log 10 (n)

Avec k : Nombre de classe

k =1+3.3 log 10 (10)k =4.3∨k ∈ N ⇒ k=5

122−72
a i= =10
5
Valeurs du ni
poids
[72 - 82] 3
[82 - 92] 1
[92 - 102] 2
[102 - 112] 1
[112 - 122] 3
Total= 10

- Tableau statistique avec la formule de Yulek =2.5 √


4
n

Avec k : Nombre de classe

k =2.5 √4 10 k=4.4∨k ∈ N ⇒ k =5

122−72
a i= =10
5
Valeurs du ni
poids
[72 - 82] 3
[82 - 92] 1
[92 - 102] 2
[102 - 112] 1
[112 - 122] 3
Total= 10

2.2. Notion des fréquences

2.2.1 Fréquence absolue, Fréquence relative


L’effectif est le nombre de fois qu’une modalité (ou d’une valeur) apparait. La fréquence
absolue ni , comme son nom l’indique, donne le nombre d’unité en valeur absolue (fréquence
absolue = effectif)

La fréquence relative f i est calculée en divisant chaque fréquence absolue par l’effectif total

ni n
f i= ; ∑ f ii=1
n i=1

En autres, la fréquence est exprimée en valeurs relatives multipliée 100 donne le pourcentage.

Exemple :

Fréquence Pour les fréquences relatives, le tableau se lis comme


Nombre de
colis absolue Relatif suit :
%
(xi) (ni) (fi) 10% des livraisons reçues contenaient entre 1 à 6 colis.
1
[1-6] 20 0.1 (20/200)
0
1
[6-11] 30 0.15 (30/200)
5
3
[11-16] 60 0.3 (60/200)
0
2
[16-21] 50 0.25 (50/200)
5
1
[21-31] 30 0.15 (30/200)
5
[31-36] 10 0.05 (10/200) 5
Total : 200

2.2.2 Fréquence simple, Fréquence cumulée

Les fréquences simples, qu’elles soient absolues ou relatives, indiquent comment se distribue la
variable par rapport aux différentes modalités ;

Les fréquences cumulées, qu’elles soient absolues ou relatives, indiquent comment se rapport
aux différentes modalités. Il existe deux catégories de fréquences cumulées. Les fréquences
cumulées croissantes qui indiquent combien d’unités de la population sont caractérisées par une
valeur inférieure et les fréquences cumulées décroissantes qui indiquent combien d’unités de la
population sont caractérisées par une valeur supérieure ;

Nombre de Fréquence absolue Fréquence relatives


colis simple Cumulées Cumulées
simples
Croissantes Décroissantes Croissantes Décroissantes
[1-6] 20 0.1 0.1 1
20 200
(20/200)
[6-11] 30 0.15 0.25 0.9 (1-0.1)
50 (20+30) 180 (200-20)
(30/200) (0.1+0.15)
[11-16] 60 0.3 0.55 0.75 (0.9-0.15)
110 (50+60) 150 (180-30)
(60/200) (0.25+0.3)
[16-21] 50 160 0.25 0.80 0.45 (0.75-0.3)
90 (150-60)
(110+50) (50/200) (0.55+0.25)
[21-31] 30 0.15 0.95 0.20 (0.45-
190 (60+30) 40 (90-50)
(30/200) (0.80+0.15) 0.25)
[31-36] 10 200 0.05 1 (0.95+0.05) 0.05 (0.20-
10 (40-30)
(190+10) (10/200) 0.15)
Total : Total : 1
200

Lecture du tableau

80% des livraisons comportent moins 21 colis et 45% des livraisons comportent plus de 16 colis

Remarque

En générale, les fréquences relatives et les fréquences cumulées relatives peuvent être utilisées
pour comparer deux ou plusieurs populations.

2.3 Représentation graphique des séries statistiques

Le graphique est un support visuel qui permet de donner :


– La synthèse
– La découverte met en évidence les tendances

– Le contrôle on perçoit mieux les anomalies sur un graphique que dans un tableau

– Recherche des régularités dans le mouvement, répartition du phénomène


2.4 Représentation numérique des séries statistiques

Une série de données peut être résumée par quelques valeurs numériques appelées
caractéristiques des séries statistiques, classées en quatre grandes catégories:
– Caractéristiques de tendance centrale ;
– Caractéristiques de dispersion ;
– Caractéristiques de forme ;
– Caractéristiques de concentration.

2.4.1 Paramètres de position (tendance centrale)


Elles donnent une idée de l’ordre de grandeur des valeurs constituant la série ainsi que la
position où semblent se concentrer les valeurs de cette série. Les principales caractéristiques de
tendance centrale sont :
- Moyennes,

- Médiane,

- Médiale,

- Mode et les quantiles.

2.4.1.1 Moyennes

A. Moyenne Arithmétique
Soit la série statistique de données brutes : x 1 , x 2 , … , x n, sa moyenne arithmétique a pour
expression :
( x 1+ x 2 +…+ x n ) 1
n
x=
n
⇒ x= ∑x
n i=1 i

Bien entendu, si une valeur x i de X est observée ni fois, comme ⏟


x 1+ x2 +…+ xn =ni x i
n fois , la
i

formule précédante devient :


k k
1
x= ∑ n x =∑ f x
n i =1 i i i =1 i i
ni
Où k désigne le nombre de valeurs distinctes de X et f i=
n

Remarque
Lorsqu’on a une variable statistique continue, on ne connaît pas les valeurs exactes prises par la
variable, mais seulement le nombre d’observations à l’intérieur de chaque classe. Pour calculer
la moyenne arithmétique d’une telle variable, on ramène chaque observation au centre de sa
classe, ceci en raison de l’hypothèse d’équirépartition à l’intérieur des classes, et cela revient à

considérer la moyenne des individus de la ie classe égale à ( 2 )


x i−1 + x i
.

Propriétés
– La moyenne permet de résumer par un seul nombre la série statistique ;

– Elle prend en compte toutes les valeurs de la série ;

– Elle est facile à calculer ;

– Elle est sensible aux valeurs extrêmes, il est parfois nécessaire de supprimer les valeurs
extrêmes ou « aberrantes » ;
n
– La somme des écarts à la moyenne est égale à zéro. ∑ ( xi −x ) =0
i=1

B. Moyenne géométrique
La moyenne géométrique G de la série de valeurs x 1 , … , x j , … , x n supposées toutes positives
(strictement), est définie ainsi :


n n
n 1
G= ∏ x i ⟹ ln ( G )= ∑ ln ( xi )
n i=1
i =1

Lorsque la distribution de la variable statistique est donnée par les k couples( x i ,n i ), les x i étant
tous positifs ; la moyenne géométrique a pour expression :


k k k
n
G= ∏ x in =∏ x if ⟹ ln (G ) =∑ f i ln ( x i )
i i

i =1 i=1 i=1

C. Moyenne harmonique
La moyenne harmonique est l’inverse de la moyenne arithmétique des inverses des valeurs.
n 1
H= ou H =
n k
f
∑ x1 ∑ xi
i=1 i i =1 i

Comparaison des trois moyennes étudiées

On montre que si les x isont tous positifs : lmin


≤i ≤ n
x i ≤ H ≤G ≤ x ≤ max xi
l≤ i ≤n

L’égalité de deux de ces moyennes entre elles entraînent leur égalité dans leur ensemble, et dans
ce cas, toutes les valeurs x i sont égales.

2.4.1.2 Mode ou valeur dominante Mo

Définition
Le mode est la valeur de la variable statistique la plus fréquente que l’on observe dans une série
d’observations.

Si la variable est une variable discrète, le mode se définit donc à l’aide du tableau de
distribution ou du diagramme en bâtons.

Si la variable est une variable continue, on définit une classe modale, par une interpolation
linaire on peut obtenir la valeur exacte du mode :
M 0−bi bi +1−M 0
=
∆1 ∆2

Propriétés
- Le mode a une signification concrète, qui rend son usage nécessaire dans un certain nombre
de problèmes appliqués, par exemple la connaissance des heures de pointe dans la gestion
des transports urbains ; les jours d’affluence pour les commerces ; les routes les plus
fréquentées (points noirs dans le réseau routier), etc.

- Le mode n’existe pas toujours et quand il existe, il n’est pas toujours unique ;

- Si après regroupement des données en classes, on trouve deux ou plusieurs modes différents,
on doit considérer que l’on est en présence de deux ou plusieurs populations distinctes ayant
chacune leurs caractéristiques propres (figure )

Figure 2. : Exemple de distribution bimodale d’une variable discrète

2.4.1.3 Médiane Me
La médiane est plutôt une moyenne de position. La médiane n’est qu’une forme particulière de
quantile (appelés aussi fractile).

La médiane est la valeur, observée ou possible, dans la série des données classées par ordre
croissant (ou décroissant) qui partage cette série en deux parties comprenant exactement le
même nombre de données de part et d’autre de Me.

Comme pour la moyenne arithmétique, on distingue deux cas.

Variable discrète : n données non réparties en classes

- On ordonne le tableau de dénombrement ;

- On repère l’élément qui partage la distribution en deux parties égales: soit l’élément qui a le
rang (n+1)/2 pour le caractère X ;

- Si la distribution a un nombre impair d’éléments on trouve une valeur unique qui est la
médiane ;

Exemple
Si 29 éléments = (29+1)/2 = 15 : la médiane correspond à la valeur du caractère X pour
l’élément au 15ème range.

- Si la distribution à un nombre pair d’éléments, on trouve deux valeurs qui déterminent un


intervalle médian : on prend alors pour médiane le centre de cet intervalle médian.

Exemple

Si la distribution compte 28 éléments : (28+1)/2 = 14,5. La médiane correspond à l’intervalle


médian entre la valeur de l’élément au rang 14 et la valeur de l’élément au rang 15.

Variable continue : n données réparties en k classes. La médiane est obtenue :

– soit par interpolation linéaire à l’intérieur de la classe centrale (voir la formule ci-dessous), si
le nombre de classes est impair ;

– soit en prenant la moyenne des deux classes « centrales », si le nombre de classes est pair.

Pour faire ce calcul, on suppose implicitement que la distribution est uniforme à l’intérieur de
chaque classe.

F(x)

F()

F(50)
F()

Propriétés

- Le calcul de la médiane est rapide ;

- La médiane n’est pas influencée par les valeurs extrêmes ou aberrantes ;

- La médiane est influencée par le nombre des données mais non par leurs valeurs, elle ne peut
donc pas être utilisée en théorie de l’estimation ;

- Si la variable statistique est discrète, la médiane peut ne pas exister ; elle correspond
seulement à une valeur possible de cette variable ;

- La médiane est le point d’intersection des courbes cumulatives croissante et décroissante ;


- Si la distribution des valeurs est symétrique, ces trois caractéristiques de tendance centrales
sont confondues (Figure )

- En règle générale, lorsqu’il y a une dissymétrie marquée de la distribution statistique, la


médiane est généralement préférable à la moyenne car elle est moins influencée par les
valeurs exceptionnelles qui sont à l’origine de la dissymétrie. C’est seulement lorsque la
dissymétrie est peu marquée, qu’on pourra utiliser la moyenne.

2.4.1.4 Quantiles
Les quantiles sont des indicateurs de position. Le quantile d’ordre α ( 0≤ α ≤ 1 ), noté x α est tel
qu’une proportion α des individus ait une valeur du caractère X inférieure ou égale à x α .
Le quartile d’ordre x 0.5.est égale à la médiane.
On utilise couramment les quantiles d’ordre 1/4, 1/2et 3/4. Ils sont ainsi notés et nommés :
Q1= premier quartile=x 0.25
Q2=deuxième quartile=médiane=x0.5
Q1=troisième quartile=x 0.75

Dans le cas d’une variable statistique continue, on a F (Q¿¿ 1)=0.25¿ et F (Q¿¿ 3)=0.7 5 ¿
et on calcule les quartiles par interpolation linéaire.

Remarque : les déciles et les centiles sont également d’usage relativement courant.
2.4.2 Paramètres de dispersion

2.4.2.1 L’étendue (intervalle de variation)


L’étendue d’une série statistique est la différence entre la plus grande valeur et la plus petite
valeur du caractère.
e=x max −x min

Exemple : Soit la série statistique suivante


xi ni e=120−100=20
100 2
105 15
110 28
115 16
120 3

2.4.2.2 L’étendue interquartile


De par la définition des quartiles, l’intervalle interquartile [ Q1 ,Q3 ] contient 50% des
observations. Sa longueur, notée EIQ (Etendue Inter Quartile), est un indicateur de dispersion
EIQ=Q 1−Q3

Le calcul de l’étendue interquartile a l’avantage par rapport à celui de l’étendue d’écarter les
valeurs extrêmes.

2.4.2.3 La variance, l’écart type


La variance d’une série statistique est la moyenne arithmétique des carrés des écarts

[ ]
n n
1 1
Var ( X )= ∑
n i=1
( x i−x )2= ∑ ( x i) 2 −( x )2
n i=1

Ou
k k
Var ( X )=∑ f i ( x i−x )2=∑ f i ( xi )2 −( x )
2

i=1 i=1

L’écart type est la racine carrée de la variance : S x =√ V ar (X )


2.4.2.4 L’écart absolu moyen

2.4.2.5 Le coefficient de variance 


Var ( X )
On définit aussi : CV =
x
Il caractérise numériquement l’importance de la dispersion autour de la moyenne.

2.4.3 Paramètres caractéristiques de la forme 


Parmi les très nombreux paramètres de la forme, nous n’utiliserons que les coefficients β 1et β 2
de Pearson

2.4.3.1 Paramètres d’asymétries


On définit le coefficient d’asymétrie « coefficient of skewness » sur la population par :
m3 x
β 1= 3
Sx
Si β 1> 0La distribution est étalée sur la droite, on observe la succession mode, médiane,
moyenne et la dissymétrie est positive;

Si β 1< 0 La distribution est étalée sur la gauche, on observe la succession moyenne, médiane,
mode et la dissymétrie est négative;

Si β 1=0 La distribution n’est pas forcement symétrique (mais si la distribution est symétrique,
on a β 1=0 ).

Remarque
β 1 est un estimateur peu robuste si n est petit (limité à quelques dizaines).

2.4.3.2 Paramètres d’aplatissement 


Déjà moins utilisés, ils caractérisent si pour une même valeur des paramètres précédents, la
distribution est plus ou moins aplatie ou au contraire concentrée en pic autour de l’axe. Ce
paramètre dépend du moment d’ordre 4 de la population, il s’écrit :
μ4 μ4
β 2= 4
= x x

σx μ24 x

Si β 2> 0 La distribution est moins aplatie que la distribution normale, la distribution est dite
leptocurtique;
Si β 2< 0  La distribution est plus aplatie que la distribution normale, la distribution est dite
platicurtique;
Si β 2=0 L’aplatissement est même que pour la loi normale et la courbe est dit mésocurtique.

Remarque

Là encore, si l’échantillon est petit, il est peu robuste est surtout très sensible aux valeurs
extrêmes.

Vous aimerez peut-être aussi