Vous êtes sur la page 1sur 36

Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.

fr

Chapitre I : Introduction à la méthode Statistique


I-1 Introduction :

La statistique a acquis une place importante parmi les sciences fondamentales et les domaines de son
application sont très divers (Economie, physique, chimie, biologie, médecine, finance, etc) . En effet, la
statistique s’applique dans presque tous les domaines qui se prêtent à des mesures ou observations numériques,
appelées statistiques (ou données statistiques).
Notre époque est marquée par une importante masse d’informations de tout genre et tous les Etats, les
institutions et les organisations ont besoins de statistiques précises sur plusieurs phénomènes sur lesquels sont
fondées leurs décisions à court et à long terme. A titre d’exemple un pays a besoin de statistiques sur l’emploi,
sur la consommation de biens alimentaires, sur les exportations sur l’évolution des prix. De même une
entreprise a besoin de statistiques sur la production (quantité et coût), de statistiques commerciales (achat,
ventes et stocks), de statistiques financières (investissements, dettes), etc...
La statistique est alors l’outil qui permet aux Etats, aux institutions et aux entreprises d’acquérir
l’information adéquate. Mais une distinction entre la statistique et les statistiques s’impose.
I .2 Définitions
I. 2 .1 La statistique : est la méthode scientifique qui consiste à collecter des données chiffrées en vue de
déduire des analyses et des commentaires des résultats obtenues.
En d’autre terme la statistique est la science de la collecte, de l’analyse et de l’interprétation des données.
Elle est aussi définie comme étant la science de la prise de décision en face de l’incertitude.
I. 2. 2 Les statistiques : Désignent des informations chiffrées sur un domaine précis. En d’autre terme, les
statistiques désignent un ensemble de données numériques concernant l’état ou l’évolution d’un phénomène
qu’on étudie par la statistique.
I . 3 Le vocabulaire ( ou concepts de bases ) de la statistique descriptive
I. 3 . 1 La population statistique : c’est l’ensemble de référence, c’est à dire l’ensemble des unités
observées qui constitue l’objet de l’étude.
Exemples :
- Ensemble d’êtres humains : la population d’un pays, le personnel d’une entreprise, les étudiants
dans une région, …..
- Ensemble d’objets concrets : l’ensemble des pièces fabriquées par une entreprise, les livres
d’une bibliothèque, …
- Ensemble d’objets abstraits : l’ensemble des accidents survenus au cours d’une année donnée,
les demandes d’emplois au cours d’un mois donné.
I. 3. 2 L’échantillon : est une partie ou sous ensemble de la population mère.
I . 3. 3 L’individu ou l’unité statistique : tout élément de la population ou de l’échantillon est appelé
individu ou unité statistique. Cet individu (unité) peut être une personne, une plante, une voiture,
un groupe de personnes, (familles ménages,….) des groupes d’animaux, des groupes de plantes ou
des éléments de toute autre nature (entreprises industrielles ou commerciales, exploitations
agricoles) groupes sanguin, type de maladie….
Remarque :
- Si l’étude statistique exige l’observation de chaque unité (individu) de la population ; dans ce
cas le processus est appelé recensement.
- Si l’étude statistique est réalisée à partir d’une partie de la population (échantillon) dans ce cas
le processus est appelé sondage.
I. 3. 4 Le caractère ou variable statistique est un aspect particulier de l’individu que l’on désir
étudier. En d’autre terme le caractère est un trait commun à toutes les unités statistiques d’une
population que l’on désir étudier. C’est l’élément retenu pour spécifier un phénomène.
Il est définie aussi comme étant une caractéristique mesurée ou observée sur chacun des individus
de la population (ou de l’échantillon).
Exemples : l’âge, le sexe, le poids, la taille, la nationalité, le nombre d’enfants à charge, la couleur,
la note obtenue à l’examen etc….
I. 3. 5 Les modalités : les modalités sont les différentes positions (situations), différents cas de la
variable étudiée. Chaque caractère (variable) étudié(e) peut prendre une ou plusieurs modalités.
Exemple : Il y a deux modalités pour la variable sexe ; masculin et féminin (mâle et femelle).
Remarques : Les modalités d’un caractère (variable) doivent être :
1xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

- incompatibles : un individu ne doit pas appartenir à plus qu’une modalité


- exhaustives : toutes les situations (les différents cas) sont prévues. C’est à dire que tous les
individus doivent apparaître
- sans ambiguïté : ne pas faire des erreurs de classement.
Les différents types de caractères (variables) statistiques :
- 1) Le caractère qualitatif : Un caractère est dit qualitatif lorsque son observation ne peut être
traduite par une mesure, ses diverses modalités sont simplement constatées, repérées par un mot
traduisant un état .C’est à dire qu’il ne peut pas faire l’objet d’une expression en valeur.
Ce caractère peut être de type Ordinal (niveau d’étude, mention, etc…) ou Nominal (couleur,
option politique, etc…..).
Les modalités de ce type de caractère sont appelées rubriques.
- 2) Le caractère quantitatif : Un caractère est dit quantitatif (numérique) si ces modalités sont
mesurables. Dans ce cas le caractère prend souvent le nom de variable statistique. Cependant on
distingue deux types de variables quantitatives :
• La variable quantitative discrète : c’est la variable qui prend seulement un nombre fini de
valeurs réelles, souvent des valeurs entières.
Exemples : le nombre d’enfants dans une famille, le nombre d’accidents enregistrés par jour, etc …
• La variable quantitative continue : c’est la variable qui prend un nombre infini de valeurs réelles.
Exemples : la distance, l’âge, la température, etc.……….
I. 4 Les étapes (phases) d’une étude statistique :
La méthode statistique comporte trois phases :
1) L’objet de l’étude : dans cette phase l’on doit déterminer et définir les objectifs de l’étude.
C’est la phase de l’identification de la problématique de la recherche. C’est simplement la
phase dans laquelle l’on cherche à répondre sur les genres des questions suivantes :
•Quel est le nombre des travailleurs et le nombre des chômeurs ?
•Quel est le revenu moyen de la population ?
•Quel est l’effet d’un nouveau traitement médical ?etc.
2) La collecte des données : l’objet (la problématique) étant précisé(e), il faut élaborer la
documentation nécessaires, puis l’utilisée .Cette phase ou étape comprend les opérations
suivantes :
a) La définition des données : il s’agit là de collecter tous les renseignements sur les faits à
observer. Deux méthodes sont utilisées dans ce cas :
- la collecte exhaustive où tous les éléments doivent être observés (c’est le recensement)
- la collecte partielle où seul un échantillon est prélevé du domaine d’observation
(C’est l’échantillonnage).
NB : La collecte des données (des informations) est faite soit à travers l’envoie d’un
questionnaire par poste, soit par téléphone ou à travers l’envoie des enquêteurs sur sites.
b) Le dépouillement des données : Dans cette opération l’on doit ordonner les informations
(données) reçues, et les corrigées si nécessaire.
Après le dépouillement il convient de présenter les données sous une forme claire et
exploitable. Cette phase est dite Analyse des données et se fait à l’aide des tableaux
statistiques, des graphiques statistique et des mesures (paramètres statistiques).
3) L’utilisation des données : La masse de données est souvent trop large. Il s’agit alors :
i) de les résumer d’une manière aussi concise que possible par des valeurs typiques
simple de tendance centrale et des valeurs typiques simples de dispersion , etc..
ii) de dégager ensuite des conclusions sur le phénomène étudié.
I . 5 Notation indices
Les méthodes statistique s’appliquent à des populations (ou ensembles) comportant un grand
nombre d’individus (ou éléments). En effet considérons une population comprenant n individus, il est
important de pouvoir représenter symboliquement la valeur de la variable étudiée correspondant à
chacun des individus de cette population.
Désignons par xi la valeur de la variable X (par exemple le revenu relatif à l’individu i).

2xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

La lettre i est appelée indice et elle peut prendre n’importe laquelle des valeurs : 1, 2,…... n auxquelles
correspondent les valeurs : xi, xi,………. xn de la variable X.
Notation symbolique d’une somme : le signe  (sigma) symbolise la somme. En effet soient xi les i=1,
n
2,……….,n les valeurs d’une variable ,alors x1 + x2 + …………..+ xn =  xi .
i =1

Quelques propriétés de  :
n n
1) soit a une constante, alors,  axi = a
i =1
x
i =1
i

n
2)  a = na
i =1
n n
3) il en résulte de( 1)et ( 2 ) que :  ( xi + a) = na +
i =1
x
i =1
i

Chapitre II : Les distributions statistique à un seul caractère (à une seule variable)


Statistique unidimensionnelle
Après avoir collecté les données sur un sujet bien déterminé, une phase dite de dépouillement doit être
suivie .Cette phase consiste à ranger les données bruts dans un ordre croissant, puis les présenter sous
forme de tableaux et de graphiques, afin de rendre leurs analyse et interprétation claires et intelligible.
II . 1 Les tableaux statistiques :
Une série statistique est un ensemble d’observations (données) sur un caractère particulier.
Ce caractère possède différentes modalités et chaque modalité peut être observée plus q’une fois.
Puisque le nombre d’observations est généralement élevé, les séries brutes sont difficiles à lire et à
interpréter. Il est souvent indispensable de regrouper l’information recueillie dans un tableau plus
simple à utiliser. Pour cela on commence à recenser les différentes modalités du caractère (disons k
modalités) puis on détermine le nombre d’observations relatif à chacune des modalités, ce qu’on
appelle effectif.
On note :
x1 , x2 , ………….., xk les k modalités du caractère (variable) étudié(e)
n1 , n2 , ………….., nk les effectifs correspondants.
Ces données (observations) peuvent être représentées par le tableau suivant :
Modalités (xi) Effectifs (ni)
x1 n1
x2 n2
. .
. .

xi ni
. .
. .

xk nk
En notant par n ou N l’effectif total(le nombre total d’observations) on trouve que ce nombre est
k
donné par : n = N =  ni .
i =1
De même on appelle fréquences relatives ou simplement fréquences la valeur donnée par :
n n
f i = i = i . La fréquence fi représente la proportion des individus qui présentent la modalité
n N
(caractère) xi par rapport à l’effectif total.

3xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
k
Notons que : f
i =1
i =1

Remarque : On peut utiliser dans un même tableau les effectifs ni et les fréquences fi.
Le couples{( xi , ni ) ou (xi , fi ) ; i = 1 , 2 , ……, k }est appelé distribution ou série statistique .
II. 1. 1 Le cas d’un caractère qualitatif :
Les modalités dans caractère qualitatif sont rangées dans le tableau statistique selon une logique
qui permet au mieux de les interpréter.
Exemple(*) : la distribution des étudiant d’un institut donné selon la filière peut être résumée dans un
tableau statistique et comme suit :
Filière (discipline) Effectifs ni Fréquences fi
Comptabilité 12 0.353
Economie 8 0.235
Gestion 14 0.412
Total 34 1

II. 1 . 2 Le cas d’un(e) caractère (variable) quantitatif (ve)


Si le caractère (la variable) est discret(e) : Les modalités d’une variable quantitative discrète sont
appelées valeurs de la variable (xi) et le tableau statistique relatif à cette variable est similaire à celui
présenté au début de ce chapitre.
L’exemple(1) suivant servira pour illustrer toute cette partie.
Supposons qu’on observe les notes de statistique obtenues par un groupe de 20 étudiants.
Voir le tableau suivant :
Individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Notes 8 7 8 12 14 10 14 7 12 10 10 7 10 10 12 7 10 8 10 10
Soit X la variable égale la note obtenue par un étudiant ; dans ce cas on trouve que les différentes
modalités (valeurs) de la variable X sont au nombre de cinq : x1 = 7, x2 = 8, x3 = 10, x4 = 12 et x5 = 14.
Le tableau statistique qui résume la distribution de la série est le suivant :
Modalités (valeurs de la variable) xi Effectifs : ni
7 4
8 3
10 8
12 3
14 2
Total 5
20 =  ni
i =1

Si la variable (caractère) est continue : dans ce cas les modalités sont appelées classes. Une classe
a une borne (limite) inférieure xi et une borne supérieure xi+1.
La différence entre la borne supérieure et la borne inférieure est appelée l’amplitude de la classe :
ai = xi+1 - xi.
Les classes peuvent être même amplitudes ou d’amplitudes différentes.
x + xi +1
Pour chaque classe on peut calculer son centre noté ci par la formule : ci = i .
2
Dans ce cas le tableau statistique prend la forme suivante :
Classes Effectifs ni
[xi ; xi+1 [ n1
[xi+1 ; xi+2[ n2
. .
. .
. .
. .
[ xk ; xk+1[ nk
4xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

Exemple(2) : Les données suivantes sont relatives aux âges de 14 personnes :


11 ; 14 ; 15 ; 16 ; 17 ; 18 ; 18.5 ; 20 ; 21 ; 22.2 ; 23 ; 24 ; 27. ; 5 ; 30 ces 14 âges
représentent 14 modalités. Mais on peut réduire ce nombre en regroupant ces observations ‘ données)
dans des classes de même amplitude (a = 4). Le nombre de classes k (modalités) est déterminé par :
laplusgrandevaleur − lapluspetitevaleutr 30 − 11
k = = = 4.75  5
a 4
Le tableau statistique qui résume cette technique est le suivant :
Classe d’ages Effectifs ni
[11 ; 15 [ 2
[15 ; 19[ 5
[19 ; 23 [ 3
[23 ; 27[ 2
[27 ; 31[ 2
Total 14
N.B : On peut déterminer le nombre adéquat de classes en utilisant l’une des deux règles suivantes :
Soit n le nombre d’individus étudié :
Règle de Sturge :
Le nombre de classes = 1 + (3, 3 *log 10 n).
Règle de Yule :
Nombre de classes = 2.5* 4 n .
II. 2 La représentation graphique des distributions statistiques
Bien qu’un tableau statistique renferme toutes les informations (données) d’une enquête et donne
ainsi un premier résumé statistique, il est souvent utile de représenter les résultats d’une enquête à
l’aide d’un graphique approprié. En effet le graphique représente u support visuel de la pensée et
complète le tableau statistique. La vue d’ensemble que donne la représentation graphique peut être
utilisée pour effectuer une comparaison entre différentes distributions statistiques.
II. 2. 1 Cas d’un caractère qualitatif
Le principe de la représentation graphique des caractères qualitatifs est la proportionnalité des
surfaces représentatives aux effectifs (ou bien aux fréquences) représentés. Les principaux types de
représentation graphique les plus utilisés sont les deux types suivants :
a) Les tuyaux d’orgue (diagramme à bandes ou à barres)
b) Le diagramme à secteur circulaire.
a) Les tuyaux d’orgues : la représentation graphique d’une variable qualitative par des tuyaux
d’orgue consiste à représenter chaque modalité par un rectangle de base constante et de hauteur
proportionnel aux fréquences ou aux effectifs. Dans ce type les modalités sont souvent
ordonnées dans en sens croissant ou décroissant des fréquences ou des effectifs
Exemple : La représentation graphique en tuyaux d’orgues des données de l’exemple(*) ci-dessus
est la suivante :

5xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

Remarque : On peut utiliser un tuyau d’orgue de hauteur égale à100% ou 1 et la subdivisée selon
le nombre de modalités.
b) Le diagramme à secteur circulaire : dans ce type chaque modalité est représentée par un
secteur angulaire dont l’angle i est proportionnel à sa fréquences fi ou à son effectif ni.
Voir le graphique suivant :
Exemple : La représentation graphique des données de l’exemple(*) ci-dessus en secteur circulaire
est donnée dans la figure ci-dessous.

II. 2. 2 Cas d’une variable quantitative :


La représentation d’une variable quantitative se fait soit sous forme d’un diagramme en bâton (si la
variable est discrète) soit sous forme d’histogramme ou de polygone de fréquences ou d’effectifs
(si la variable est continue).
a) Le diagramme en bâton : La représentation graphique d’une variable discrète par un
diagramme en bâton consiste à porter les valeurs : x1 , x2 , ………….., xk de la variable
statistique sur l’axe des abscisses puis tracer des segment parallèle à l’axe des ordonnées de
longueurs proportionnelles aux fréquences fi ou aux effectifs ni .
Exemple : La représentation graphique des données (notes) de l’exemple(1) ci-dessus est la suivante :

ni

7 8 10 12 14
xi
6xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

Diagramme en bâton représentatif de la distribution de la distribution de 20


étudiants selon la note obtenue en statistique

b) L’histogrammes et le polygone des fréquences : la représentation graphique d’une variable


statistique continue sous forme d’histogramme consiste à porter les différentes classes sur
l’axe des abscisses, et chaque classe sera représentée par un rectangle de base égale à
l’amplitude de la classe et de hauteur proportionnelle aux fréquences fi ou aux effectifs ni .
N . B Les différents rectangles constituants de l’histogramme sont juxtaposés.
Remarque : En traçant l’histogramme l’on doit tenir compte des longueurs (amplitudes) des
classes.
- Si les classes ont la même amplitude dans ce cas les différents rectangles auront la même base
et la différence ne se trouve qu ‘au niveau des hauteurs.
- Si les classes ont des amplitudes différentes (inégales) dans ce cas l’on doit rectifier (corriger)
les fréquences ou les effectifs pour conserver le principe de proportionnalité entre la surface de
f
chaque rectangle et la fréquence ou l’effectif correspondant, et comme suit : f i c = i et
ai
ni
nic =
ai
Le polygone : Pour tracer le polygone d’une variable continue il suffit de joindre, par des
segments de droite, les points ayant respectivement pour coordonnées les centres des classes et
les fréquences ou effectifs correspondants.
Il est également d’usage courant d’ajouter des parts et d’autre à l’histogramme une classe de
fréquences nulle ; ce qui permet de fermer le polygone et de rendre la surface continue à
l’intérieur du polygone égale à celle de l’histogramme.
Exemple : La représentation graphique des données de l’exemple (2) ci-dessus en histogramme
s’effectue comme suit :
Les classes étant des classes de même amplitude (ai = 4), donc les différent rectangles auront la
même base et la différence ne se trouve que au niveau des hauteurs.

ni

11 15 19 23 27 31
Classes d’âge
Histogramme et polygone des effectifs de la distribution de 14 personnes selon leur âge en années

II . 3 La fonction cumulative ( ou fonction de répartition) :


On appelle effectif cumulé jusqu’à la ième valeur xi de la variable X la somme : n1 + n2+………+ ni
des effectifs partiels obtenus pour les i premières valeurs de la variable.

7xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
i
L’expression : N ( xi ) = N i = n1 + n2 + ......... + ni =  n j est alors appelée fonction cumulative
j =1

croissante des effectifs. De même on appelle fréquences cumulées jusqu’à la ième valeur xi de la
variable X, la somme : f1 + f2+……..+ fi.
i
L’expression : F ( xi ) = Fi = f1 + f 2 + .......... + f i =  f j
j =1

est appelée fonction cumulative croissante des fréquences.


Définition : La fonction cumulative (de répartition) d’une variable statistique quantitative, X, est une
application F définie par :
F : R→[0 , 1]
x→ F(x) = Prop(X  x)
Propriétés de la fonction cumulative :
1) F(x) est la proportion ( prop) des individus de la population pour lesquels la valeur de la
variable est inférieure ou égale à xi(ou bien strictement inférieure à xi+1.Cette fonction est
dite fonction de fréquence cumulées croissante . Cependant la fonction Ni est dite
fonction d’effectifs cumulés croissants et elle donne le nombre d’individus pour lesquels
la valeur de la variable est inférieure ou égale à xi(ou bien strictement inférieure à xi+1.
2) La fonction F(x) est constante sur chaque intervalle séparent deux valeurs possibles
consécutives. F(xi) = Fi pour xi  X  xi+1. Il en résulte que : F(x) = 0 pour les valeurs
de X inférieures à la plus petite valeur et F(x) = 1 pour les valeurs de X supérieur ou égale
à la plus grande valeur.
3) La fonction G(xi) = Gi définie par : 1 - Fi est la fonction cumulative décroissante . Cette
fonction donne la proportion des ayant au moins la valeur xi de la variable X. C’est à dire
xi est plus.
4) La fonction Fi permet de retrouver les fréquences fi, d’où fi = Fi - Fi-1
5) La courbe cumulative d’une variable discrète est une courbe qui prend la forme
d’escaliers.
6) Dans le cas continu : Prop( X  x ) = Prop( X  x ) = F( x ). Car Prop( X = x ) = 0.
7) La valeur de la fonction cumulative à la borne inférieure de la 1ière classe est zéro et sa
valeur à la borne supérieure de la dernière classe est égale à l’unité.
Chapitre III : Résumé numérique d’une distribution statistique
(Caractéristiques ou paramètres des distributions statistiques)
Les représentations au moyen de tableaux et de graphiques sont essentielles puisqu’elles
constituent une mise en ordre nécessaire et une possibilité de se faire une idée globale sur le
phénomène étudié. Cependant, elles ne suffisent pas si l’on désir approfondir l’analyse. C’est
pourquoi il est important de leur associer un certain nombre de valeurs caractéristiques, appelées
paramètres, qui ont but de résumer les informations recueillies. En d’autre terme on cherche a
réduire (résumer) les données par le calcul de valeurs typiques qui permettent de caractériser de
façon simple les distributions (séries) statistiques.
III. 1 Les paramètres (caractéristiques) de Position ou de tendance centrale :
Ces paramètres (indicateurs) servent à caractériser l’ordre de grandeur des observations.
III. 1. 1 Le mode :
Le mode ou valeur dominante d’une distribution statistique, notée MO, est la valeur de la variable
qui correspond au plus grand effectif ou à la plus grande fréquence. Cette définition est générale est
vrai pour une variable discrète. Pour une variable continue la détermination du mode passe par la
détermination de la classe modale. La classe modale est la classe qui possède le plus grand effectif ou
fréquence en cas d’amplitude égales ou le plus grand effectif corrigé ou la plus grande fréquence
corrigée en cas d’amplitudes inégales .Dans ce cas ( cas d’une variable continue) ,le mode sera donné
par : pour MO [ xi , xi+1 [

8xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

d1
MO = xi + ai
d1 + d 2
Où xi est la borne inférieure de la classe modale
- d1 est la différence entre l’effectif ou l’effectif corrigé, la fréquence ou la fréquence corrigée
de la classe modale et l’effectif ou l’effectif corrigé, la fréquence ou la fréquence corrigée de la
classe qui la précède.
- d2 est la différence entre l’effectif ou l’effectif corrigé, la fréquence ou la fréquence corrigée
de la classe modale et l’effectif ou l’effectif corrigé, la fréquence ou la fréquence corrigée de la
classe juste après.
- ai est l’amplitude de la classe modale.
Remarque : Une distribution statistique est dite uni modale si elle admet un mode unique, bi modale si
elle admet deux modes ou plurimodale (multimodale) si elle admet plusieurs modes.
Exemple : D’après le tableau statistique de l’exemple(1) ci-dessus on trouve que le mode (valeur
modale) est 10 car elle possède l’effectif le plus élevé n3 = 8.
On écrit alors MO = 10. C’est à dire que la plupart des étudiants ont obtenu 10 en
statistique.
Exemple : Le calcule du mode de l’exemple(2) ci-dessus s’effectue comme suit :
Étant donné que toutes les classes ont la même amplitude a = 4
On a : MO [15, 19 [car cette classe possède l’effectif le plus relevé n2 = 5
5−2
Donc : MO = 15 + (4) = 17.4 ans. C’est à dire que la plupart des personnes
(5 − 2) + (5 − 3)
ont 17 ans 4 mois et 24 jours.

III. 1. 2 La médiane :
La médiane, notée Me, est la valeur de la variable qui se situe au centre de la série statistique
simple classée par ordre croissant (ou décroissant). C’est une valeur qui sépare la
distribution en deux groupes de même effectif. Ainsi 50% des éléments étudiés ont une
valeur inférieure à la médiane et 50% ont une valeur supérieur à la médiane .C’est donc la
valeur pour laquelle l’ordonnée de la courbe cumulative des fréquences est égale à 0.5
F(Me) = 0.5.

a) Médiane d’une variable discrète :


La détermination de la médiane d’une variable discrète dépend du nombre
d’observations (n).
- Si n est impair dans ce cas la médiane est parfaitement déterminée. C’est la valeur de
n +1
rang (ordre) .
2
- Si n est pair dans ce cas, on parle, premièrement, d’intervalle médian dont les bornes
n n
sont : [ ( ) ième observation, ( + 1) ième observation], puis on calcule la médiane comme
2 2
suit :
lavaleurd ' ordre(n / 2) + lavaleurd ' ordre(n / 2) + 1
Me = .
2
Exemple : Déterminer la médiane de la série statistique suivante :
5 ; 7 ; 10 ; 10 ; 10 ; 15 ; 5 ; 8 ; 7.
n +1
Solution : On a n = 9 impair, donc, la médiane est la valeur d’ordre . C’est à dire d’ordre
2
(rang) (10/2) = 5.
On met, donc, les valeurs de la variable dans en ordre croissant ou décroissant et comme suit :
Valeurs : 5 5 7 7 8 10 10 10 15
9xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

Rang : 1 2 3 4 5 6 7 8 9
La médiane Me = 8 c’est la valeur d’ordre 5.
Exemple : Ajoutons aux valeurs (observations) précédentes la valeur 7 et calculons de nouveau
la valeur médiane.
Solution : On a n = 10 nombre pair, la médiane appartient donc aux valeurs d’ordre 10/2 et
(10/2) + 1 ; c’est à dire à [5, 6].
Valeurs : 5 5 7 7 7 8 10 10 10 15
Ordre : 1 2 3 4 5 6 7 8 9 10
7+8
La médiane Me  [7, 8] correspondant à la 5ième et 6ième observation, donc Me = = 7.5
2

b) Médiane d’une variable continue :


La détermination de la médiane d’une variable statistique continue passe par la
détermination de la classe médiane. La classe médiane est la classe qui correspond à 0.50 de
la colonne de la fonction des fréquences cumulatives croissante. C’est aussi la classe qui a
n
l’ordre de la colonne des effectifs cumulés croissant. En d’autre terme la médiane est
2
n
l’abscisse du point de la courbe correspondant à l’effectif cumulé ou à la fréquence
2
n
cumulée 0.5. En effet Me est déterminée tel que F(Me) = 0.5 ; ou encore N(Me) = . Après
2
avoir déterminé la classe médiale, on détermine la médiane par interpolation linéaire et
comme suit :
Supposons que Me  [xi , xi+1 [, dans ce cas Me sera calculée par :

F ( Me) − F ( xi ) 0.50 − F ( xi )
Me = xi + ai = xi + ai
F ( xi +1 ) − F ( xi ) F ( xi +1 ) − F ( xi )

Où xi : est la borne inférieure de la classe médiane


F(xi ) : est la fréquence de la borne inférieure de la classe médiane
F(xi+1 ) : est la fréquence de la borne supérieure de la classe médiane
ai : est l’amplitude de la classe médiane.
Preuve : On sait que la médiane est déterminée telle que : F(Me) = 0.5. Pour une variable continue la
fonction cumulative est continue sur [0, 1], par conséquent F(Me) = 0.5 lui correspond une racine
unique.
Pour déterminer cette racine ou valeur unique, on utilise la méthode d’interpolation linéaire. Cette
méthode suppose que la fonction cumulative est linéaire dans la classe [xi , xi+1[ c'est-à-dire qu’elle
suppose qu’à l’intérieur de chaque classe , l’effectif est uniformément reparti comme le montre le
graphique ci-dessous.

Fi
yi = F(xi) = axi + b

F (xi+1) .......................................E..

F(Me) = 0.5 ..................................F

10xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

F (xi) .......................... A

x1 xi Me xi+1 Classes

La droite yi = axi + b passe par le point de coordonnées respectives (xi , F(xi)) et (xi+1 , F(xi+1)).
On pose alors â et b̂ comme solution du système suivant :

F (xi) = axi + b................ (1)


F (xi+1) = axi+1 + b................(2)
La droite : yi = axi + b passe aussi par le point (Me, 0.5) . On peut, donc, déterminer Me à partir de
l’équation de la droite ainsi définie soit :
F(Me) = â xi + b̂ = 0.5  Me = (0.5 - b̂ )/ â ...........(3)
de (1) b̂ = F(xi) - â xi................(4)
(2) – (1)  F(xi+1) - F(xi) = â ( xi+1- xi)
F ( xi +1 ) − F ( xi )
 â = ..............(5)
xi +1 − xi
x F ( xi +1 ) − F ( xi )
0. 5 − F ( x i ) + i
0.5 − F ( xi ) − aˆxi  xi +1 − xi
(4) et (5) dans (3)  Me = =
F ( xi +1 ) − F ( xi ) F ( xi +1 ) − F ( xi )
xi +1 − xi xi +1 − xi
0.5 − F ( xi )
 Me = ( xi +1 − xi )
F ( xi +1 ) − F ( xi )

Où (xi+1 - xi) est l’amplitude de la classe médiane


En utilisant les effectifs cumulés croissants on trouve que :
( N / 2) _ N i
M e = xi + ai
N i +1 − N i

Où N/2 : est l’ordre la médiane


Ni : est l’effectif cumulé de la borne inférieure de la classe médiane
Ni+1 : est l’effectif cumulé de la borne supérieure de la classe médiane.
Exemple : Calculer la médiane et tracer la courbe de la fonction cumulative croissante et décroissante
de l’exemple (2) ci-dessus.
Solution :
Classe d’âges Effectifs ni fi Fi Gi N i
[11 ; 15 [ 2 0.143 0.143 0.857 2
[15 ; 19[ 5 0.357 0.5 0.5 7
[19 ; 23 [ 3 0.214 0.714 0.286 10
[23 ; 27[ 2 0.143 0.857 0.143 12
[27 ; 31[ 2 0.143 1 0 14
Total 14 1

On sait que Me est déterminer tel que F(Me) = 0.5. Dans la colonne Fi on a 0.5  que la
valeur qui a donné cette proportion existe ; cette valeur est 19. En effet F (19) = 0.5.
Fi

1 ......
0.857.........................................................

11xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

0.714............................................. courbe cumulative croissante

0.5 ..............................

0.286............................................. courbe cumulative décroissante

0.143..........................................................
0
11 15 19 23 27 31 Classes d’âges

III. 1. 3 La moyenne arithmétique :


Définition : La moyenne arithmétique d’une variable statistique est égale à la somme des valeurs
prise par cette variable divisée par le nombre d ‘observations.
III. 1. 3. 1 La moyenne d’une variable discrète
a) Cas des données non groupées (moyenne simple)
Soient x1, x2, ……………, xn les valeurs prise par une variable X comportant n observations, la
x + x 2 + .......... + x n 1
moyenne arithmétique a pour expression : X = 1 =  xi
n n
Exemple : la moyenne des valeurs : 100 ; 105 ; 122 ; 109 ; 90 se calcule comme suit :
100 + 105 + 122 + 109 + 90
X = = 105.5
5
c) Cas des données groupées (moyenne arithmétique pondérée)
Soit X une variable statistique qui prends les valeurs : x1, x2 , …………… , xk aux quelles
correspondent respectivement les effectifs n1, n2 , …………… , nk . La moyenne arithmétique
pondérée a pour expression :
n x + n2 x 2 + .......... + nk x k 1 k k
n
X = 1 1 =  ni xi =  f i xi . Car f i = i .
n1 + n2 + ............ + nk n i =1 i =1 n
Exemple : La moyenne de l’exemple de l’exemple (1) ci-dessus est calculée comme suit :

valeurs (xi ) ni ni xi fi fi xi
7 4 28 0.20 1.4
8 3 24 0.15 1.2
10 8 80 0.4 4
12 3 36 0.15 1.8
14 2 28 0.1 1.4
Total 5 196 1 9.8
20 = n
i =1
i

1 5 1 5
X =  i i 20
n i =1
n x = (196) = 9.8 = 
i =1
f i xi

III . 1 . 3 .2 La moyenne d’une variable continue


a) En présence d’informations (moyenne réelle), dans ce cas la moyenne est donnée par :
1 k k ni

 ni xi =  f i xi Avec x =
1
X =
n i =1 i =1 ni
x
j =1
ij est la moyenne à l’intérieure de la classe i

et ni est le nombre d’observation dans la classe i


xij est la valeur j de l’observation dans la classe i
b) En absence d’informations (moyenne approximative)

12xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
En cas d’absence d’informations contenues dans chaque classe et vue l’hypothèse de la linéarité de la
distribution à l’intérieure des classes, le centre de la classe i noté ci est l’approximation de la moyenne de
1 k k
la classe. Dans ce cas la moyenne arithmétique est donnée par : X =  ni c i =  f i c i
n i =1 i =1

Exemple : En utilisant les données de l’exemple (2) ci-dessus calculer l’âge moyen
Solution :
Classe d’âges ni ci fi ni ci fi ci
[11 ; 15 [ 2 13 0.143 26 1.859
[15 ; 19[ 5 17 0.357 85 6.069
[19 ; 23 [ 3 21 0.214 63 4.494
[23 ; 27[ 2 25 0.143 50 3.575
[27 ; 31[ 2 29 0.143 58 4.147
Total 14 1 282 20.144
1 5 1 5
X =  i i 14
n i =1
n c = ( 282) = 20.14285714 = i =1
f i ci = 20.144

Les propriétés algébriques de la moyenne arithmétique :


a) la somme algébrique des écarts des observations à la moyenne est nulle. Mathématiquement
1 k
 ni ( x i − X ) = 0
n i =1
b) la somme des carrées des écarts des observations à la moyenne est inférieure ou égale à la
somme des carrés des écarts des observations à toute autre valeur. Mathématiquement :
2
1 k k


n i =1
n i ( x i − X )  
i =1
ni ( x i − x 0 ) 2

Remarque :
1) Soit  un paramètre de position, alors, Pour toute transformation linéaire Y = aX + b on a :
 (Y) = a (X) + b
Exemple : Soit Y la variable statistique égale au nouveau âge de l’exemple(2) où Y = 2.5 X + 5.
Dans ce cas Y = 2.5 X + 5 = 55.36.
2) Dans une distribution asymétrique, le mode, la médiane et la moyenne arithmétique sont liés par
la relation suivante : X − M O = 3( X − M e )
III. 1. 4 Autres moyennes
III. 1. 4. 1 La moyenne géométrique :
La moyenne géométrique G d’une variable est égale à la racine nième du produit des n valeurs prises
par cette variable.
- Cas d’une variable discrète
a) Moyenne géométrique simple :
Soient x1, x2, …………… , xn les valeurs prises par la variable X ; dans ce cas la moyenne
1 n 1

géométrique G est donnée par : G = n x1  x 2  ..........  x n = ( x1  x 2  ........  x n ) n = ( xi ) n


i =1
n
1
 logG =  log xi
n i =1
b) La moyenne géométrique pondérée :
Soient x1, x2 , …………… , xk les valeurs prises par la variable X et n1, n2 , …………… , nk les
effectifs correspondants ; la moyenne géométrique a pour expression :
1 k 1
G = n x1n1  x 2n2  ..........  x knk = ( x1n1  x 2n2  ........  x knk ) n = ( xini ) n 
i =1

13xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

1 k
log G =  ni log xi
n i =1
Si X est continue on remplace xi par ci.
L’utilisation de la moyenne géométrique
La moyenne géométrique est utilisée en économie notamment lorsqu’il s’agit de calculer le taux de
croissance moyen, en finance pour le calcule le taux d’intérêt moyen etc…
Soit X une variable statistique qui prend les valeurs suivantes :
Periode 0 → x0
-------- 1→ x1
.
.
.
Periode j→ xj
.
Periode t→ xt .
Le taux de croissance de la période j par rapport à la période j-1 est donnée par :

x j − x j −1
j =
x j −1
j = 1, 2 ,……,t
Le taux de croissance moyen m de la période 0 à la période t s’obtient d’un calcul de la moyenne
géométrique :
t
m = t  (1 + 
i =1
j ) -1

En effet si  m est le taux de croissance moyen de la période 0→t , on a :


x j − x j −1
m =
x j −1
x1 = x0 +  m x0 = x0(1 +  m )
x2 = x1 +  m x1 = x0(1 +  m )2
. .
. .
. .
. .
xt = xt-1 +  m xt-1 = x0(1 +  m )t ..................(1)
D’autre part si :  j est le taux de croissance de la période j par rapport à la période (j-1), on a alors :
x1 = x0 +  1 x0 = x0(1 +  1 )
x2 = x1 +  2 x1 = x0(1 +  1 )(1+  2 )
. .
. .
. .
. .
xt = x0(1 +  1 )(1+  2 )................ (1+  t )....... (2)

(2) et (1)  x0(1 +  1 )(1+  2 )................ (1+  t ) = x0(1 +  m )t


 (1 +  1 )(1+  2 )................ (1+  t ) = (1 +  m )t

14xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
t
  (1 +  j ) = (1 +  m )t
j =1

t
(1 +  m ) = t  (1 + 
j =1
j d’où (1 +  m ) est une moyenne géométrique des termes (1 +  j )

t
 m = t  (1 + 
j =1
j -1

Exemple : Une personne a placé un capital de 200000 Um le 31/12/2005, son capital au 30/6/2006 est
de 220000 Um et est de 2406400 Um au 31/12/2006.
1) Calculer le taux de croissance du capital de chaque semestre
2) Calculer le taux de croissance moyen semestriel du capital.

La solution :
x1 − x0 220000 − 200000
1) Soit j le taux de croissance du semestre j   1 = = = 0.1 soit 10%
x0 200000
x 2 − x1 2406400 − 220000
2 = = = 0.12 Soit 12%
x1 220000

2
Donc  m = 2  (1 + 
i =1
j ) − 1 = 2 (1.1)(1.12) − 1 = 0.11 soit 11%

III. 1. 4 . 2 La moyenne Harmonique :


La moyenne harmonique, notée H, est égale à l’inverse de la moyenne arithmétique des inverses
n n
des valeurs. C’est à dire que : H = n en cas des données simples et H = b n =
1 1
 ( )
i =1 x i

i =1
ni ( )
xi
1
n
en des données groupées. Cette est souvent utilisée pour calculer les vitesses
1 1
 ni ( x )
n i =1 i

moyennes
Remarque : En cas d’une variable continue on remplace xi par ci .

III. 2 Les paramètres (caractéristiques) de dispersion.


Les paramètres ou indicateurs de dispersion renseignent sur l’étalement de la distribution.
En effet deux distributions de fréquences peuvent avoir la même moyenne, la même médiane et le
même mode et présenter des formes très différentes. Parmi ces caractéristiques (paramètres) ; on cite
l’étendue, les écarts absolus moyens, l’écart interquartiles, la variance et l’écart type.
III. 2. 1 L’étendue
L’étendue (E) est la différence entre la plus grande et la plus petite valeur.

E = x Maximum – x Minimum
Exemple : Soit la série des données suivantes S = {10, 1, 5, 7, 2, 20}, x max = 20 et x min = 1

E = 20 – 1 = 19

III. 2. 2 Les écarts significatifs


15xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

Ils renseignent sur le paramètre plus ou moins représentatif soit de moyenne arithmétique soit de
la médiane.
a) l’écart absolu moyen à la moyenne
L’intérêt des paramètres de dispersion est qu’ils permettent d’apprécier la dispersion des valeurs
observées d’une variable statistique autour des valeurs ou paramètres de position. L’écart absolu
moyen à la moyenne est la valeur calculée par :
1 k
e X =  ni x i − X
n i =1

b) l’écart absolu moyen à la médiane :


Il est la moyenne arithmétique des écarts absolus à la médiane et est donné par :

1 k
e
 ni x i − M e
eM =
n i =1
Remarque : En cas de variable continue on remplace xi par ci

III. 2. 3 La variance et l’écart type


La variance est la moyenne arithmétique des carrés des écarts des valeurs de la variable à leur
moyenne arithmétique. La variance d’une variable X notée V(X) ou  X2 est , alors, donnée par
2

( )
k
1 n 1 k
l’expression V(X) =  2
X =  xi − X
n i =1
=  ni ( x i − X ) 2 =
n i =1
f
i =1
i ( xi − X ) 2 ou en utilisant la
n k k
1 1
formule de Koenig , on écrit : V(X) =  X2 = 
n i =1
xi2 − X 2 =  ni xi2 − X 2 =
n i =1
f
i =1
i xi2 − X 2 .

L’écart type noté  X est la racine carrée de la variance :

 X = V (X )
III. 2. 4 L’écart interquartile :
Quartiles ou Quantiles : Définition
Soit une série statistique définie par le couple ( xi , fi ) , i = 1 , 2,………., k et de fonction cumulative
croissante F( . ) ; on appelle quantile d’ordre  avec   ] 0 , 1 [ , noté q , la valeur de la variable
statistique définie par :
F(q ) = Prop (X  q ) = 
Les quantiles ou quartiles sont au nombre de 3, ils partagent la série ordonnée en quatre parties
(groupes) de même effectif.
- On appelle 1ier quartile, noté Q1, la valeur de la variable telle que 25% de l’effectif total lui
soient inférieures et 75% lui soient supérieures.
- On appelle 3ième quartile, noté Q3, la valeur de la variable telle que 75% des valeurs lui soient
inférieures et 25% lui soient supérieures. En conséquence le second quartile se confond
évidement avec la médiane. Q2 = Me.
Donc l’écart interquartile est défini par : EIQ = Q3 - Q1 .
Remarque : La détermination du quartile d’ordre  se fait par interpolation linéaire après avoir
déterminer la classe à laquelle appartient le quantile. C’est à dire qu’on suit la même procédure que
celle utilisée dans la détermination de la médiane. En effet soit q  [xi, xi+1 [dans ce cas le quantile
d’ordre  est donné par l’expression suivante :

 − F ( xi )
q = xi + ai
F ( xi +1 ) − F ( xi )
- Si  = 0.25 on a le 1ier quantile.
16xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

- Si  = 0.75 on a le 3ième quartile.


Remarque : On peut utiliser les effectifs cumulés dans la détermination des quantiles. Dans ce cas la
détermination de la classe à laquelle appartient le quantile dépend de l’ordre du quantile. Où Q 1 a
l’ordre (n/4) et Q3 a l’ordre (3n/4).
Exemple : Calculer l’étendue, l’écart absolu moyen à la moyenne, l’écart type, le 1ier et le 3ième
quantile de cette distribution de l’exemple(2) ci-dessus. Déduire l’écart interquartile.
Solution :

Classe d’âges ni ci fi Fi ni ci fi ci ni c i − X ni ci2

[ 11 ; 15 [ 2 13 0.143 0.143 26 1.859 14.288 338


[ 15 ; 19[ 5 17 0.357 0.5 85 6.069 15.72 1445
[19 ; 23 [ 3 21 0.214 0.714 63 4.494 2.568 1323
[23 ; 27[ 2 25 0.143 0.857 50 3.575 9.712 1250
[27 ; 31[ 2 29 0.143 1 58 4.147 17.712 1682
Total 14 1 282 20.144 60 6038
1) l’étendue E = x max – x min = 31 – 11 = 20
1 k 1
2) e X =  ni xi − X = (60) = 4.286
n i =1 14
1 k 1
3)  X = V ( X ) or V(X) =  ni ci2 − X 2 = (6038) − (20.144) 2 = 25.505   X = 5.05.
n i =1 14
4) Q1 est déterminer tel que F(Q1) = 0.25. D’après la colonne Fi on a 0.25   ] 0.143, 0.5 [
0.25 − 0.143
Q1 [15 , 19 [ .  Q1 = 15 + (4)= 16.2.
0.5 − 0.143
0.75 − 0.714
Q3 [23, 27 [  Q3 = 23 + 4 = 24
0.857 − 0.714
5) EIQ = Q3 – Q1 = 24 – 16.2 = 7.8.
N.B : Soit  un paramètre de dispersion, donc, pour toute transformation linéaire de type :
Y = ax + b c’est paramètres vérifient :
 (Y) = a (X)

En effet soit Y la variable égale au nouveau âge avec Y = -2X + 3


Dans ce cas l’écart type de cette nouvelle variable est donné par : Y = − 2  X = 2(5.05) = 10 ,1
III. 2. 5 Le coefficient de variation :
Les paramètres de dispersion sont sensibles à l’unité de mesure des variables statistiques. En
particulier lorsqu’on compare des dispersions des variables qui ne sont pas mesurés dans la même
unité, on risque de faire des conclusions incorrectes. Pour toute analyse comparative, les statisticiens
proposent une mesure de dispersion relative appelé coefficient de variation, défini par :

X
CV ( X ) = , X 0
X
5.05
Si X  0 on prend CV . D’après l’exemple précédent on a CV= = 0.251.
20.144
III. 2. 6 Les moments :
On appelle moment non centré d’ordre r ( r  N* ) la quantité définie par :
1 k k
mr =  ni xir =  f i xir . Et on appelle moment centré d’ordre r (r  N*) la quantité définie
n i =1 i =1

17xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

1 k k
Par : Mr =  i i
n i =1
n ( x − x ) r
= 
i =1
f i ( xi − x ) r

III. 3 Les paramètres ou indicateurs de forme :


Les paramètres ou indicateurs de forme sont des coefficients qui déterminent la forme de la
distribution statistique. Ils sont sans unité de mesure.
III . 3 . 1 les paramètres (coefficients) d’asymétrie
Une distribution est dite symétrique si les observations (valeurs) se repartissent dans la même
proportion de part et d’autre d’une valeur centrale (moyenne, médiane et mode). En d’autre terme une
distribution est dite symétrique si X = M e = M O
a) Le coefficient d’asymétrie de Pearson
Pour une distribution faiblement asymétrique c’est la position du mode par rapport à la moyenne
qui caractérise l’asymétrie. On rapporte donc leur différence à l’écart type. C e coefficient est
X − MO 3( X − M e ( X ))
défini par : SK = or M O = 3M e − 2 X  SK = .
X X
- Si SK = 0 la distribution est qualifiée de symétrique
- Si SK  0 la distribution représente une asymétrie négative (oblicité de la courbe à droite)
- Si SK 0 la distribution représente une asymétrie positive (oblicité de la courbe à gauche)
b) Le coefficient d ‘asymétrie de Yule et Kendal
Le coefficient d’asymétrie de Yule et Kendal est une valeur déterminée par :
(Q − Q2 ) − (Q2 − Q1 )
YK = 3
(Q3 − Q2 ) − (Q2 − Q1 )
Si YK = 0 la distribution est dite symétrique et les quantiles sont équidistants
YK  0 la distribution est asymétrique à droite, courbe étalée vers la gauche.
YK  0 la distribution est asymétrique à gauche, courbe étalée vers la droite
III. 3. 2 Les paramètres ou indicateurs de forme
On considère qu’une courbe des fréquences est plus ou moins aplatie, par référence à la courbe des
fréquences ou densité de la loi normale.
Quand une série statistique est symétrique, tous les moments centrés d’ordre impair, s’ils existent,
sont nuls. Ainsi une distribution est dite aplatie si une forte variation de la variable entraîne une faible
variation de la fréquence relative (fi) et inversement. Parmi les coefficients qui mesurent
l’aplatissement d’une distribution statistique, on a :
Le coefficient d’aplatissement de Fisher :

Ce coefficient est déterminer par : C.A(F) =  2 = 44 − 3 où 4 est le moment centré d’ordre 4

Si 2 = 0 la distribution est dite normale (mesocurtique)
2  0 la distribution est dite plate ( platicurtique)
2  0 la distribution est dite aiguë ( leptocurtique)
III. 4 Les paramètres (ou mesures) de concentration :
III .4. 1 La courbe de concentration
Définition :
Le polygone obtenu en joignant les points de coordonnée cumulée (Pi ; Qi) est appelé courbe de
concentration (courbe de Lorenz). Où
i i i

p j n j n c j j i
=  q j avec 0 Pi 1 et 0 Qi 1
j =1 j =1 j =1
Pi = Fi = k
= et Qi = k

nj n c
N j =1
j j
j =1 j =1

Les Pi sont portés sur l’axe des abscisses et les Qi sont portés sur l’axe des ordonnées.
La courbe de concentration est tracée dans un carré de côté égal à l’unité.

18xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
‫ ٭‬Dans toute étude statistique Pi représente la proportion de la population propriétaire d’une proportion Qi de la
variable étudiée.
RQ : Pour toute série statistique la distribution (répartition) est dite égalitaire ssi t% de la population est
propriétaire de t% de la variable étudiée.
Alors que la répartition est dite inégalitaire si t % de la population est propriétaire de v% de la variable étudiée.

Qi

Diagonale

Courbe de concentration

On distingue trois types de concentration


1) Une concentration nulle et dans ce cas la diagonale est confondue avec la courbe (P i = Qi).
2) Une concentration faible et dans ce cas la courbe est très proche de la diagonale.
3) Une forte concentration et dans ce cas la courbe s’éloigne trop de la diagonale.
Remarque :
1- La courbe de concentration ce situe toujours en dessous de la diagonale sauf en cas de distribution
égalitaire où elle sera confondue avec la diagonale..
2- Interprétation de la courbe de concentration
i) En cas de type 1 la distribution est dite égalitaire.
ii) En cas de type 2 la distribution est dite faiblement inégalitaire.
iii) En cas de type 3 la distribution est dite fortement inégalitaire.
II. 3-2 : Indice de Gini (Indice de concentration)
La surface de concentration
On appelle surface de concentration, notée S, la surface comprise entre la diagonale et la courbe de
concentration.
L’indice de Gini (IG) est alors donné par :
IG = Aire de S / Aire du triangle (OAB)
IG = (S / 0.5) = 2S Qi
Avec : 0 ≤ IG ≤ 1.

0 A Pi

Interprétation d’IG
Si IG→1 on a une forte concentration et la distribution est dite inégale.
Si IG→0 on a une faible concentration et la distribution est dite faiblement inégale.
Le calcul d’IG passe par le calcul de la surface S.Où S= Σ si
Avec : si = [(Pi - Pi-1) (qi + qi+1)] / 2 c’est la surface d’un trapèze.
19xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
= fi(Qi+Qi-1)/2
 IG = 1- 2 Σ si
En effet : s1 = (f1 Q1) / 2 ; surface d’un triangle.

Qi

Q2

Q1
Pi
P1 P2
II. 3 – 3 : La médiale :
La médiale ( Mle ) est la valeur de la variable qui partage le montant total en deux partie égales .C’est la
valeur de la variable telle que : qi ( Mle) = 0.5 .
En d’autre terme Mle signifie que les personnes qui ont individuellement moins que la médiane ont globalement
autant que les personnes qui ont plus que la valeur médiale.
Le calcul de la médiale est identique au calcul de la médiane. Il passe par la détermination de la classe médiale.
En effet soit [xi ; xi+1 [la classe médiale, dans ce cas
Mle = xi + [ 0.5 - Q i (xi ) ] (ai ) / [Q(xi+1) - Q(xi )]
II. 3. 4 L’écart médiale-médiane:
L’écart médiale – médiane noté M est la différence entre la médiale et la médiane : M = Mle – Me .
II . 3 .5 L’écart relatif:
Onappelle écart relatif noté Mr le rapport entre l’écart médiale médiane et l’etendue.
M
Mr =
E
- Si Mr est grand la concentration est forte et la distribution est qualifiée de fortement inégalitaire.
- Si Mr est petit la copncentration est dite faible , et la concentration est qualifiée de faiblement
inégalitaire.
Exercice
Le tableau suivant donne la distribution des terrains classée d’après leur surface en hectare.

Classes de superficies en hectare ni


[0, 10 [ 16
[10, 20 [ 30
[20, 40 [ 18
[40, 70[ 10
[70, 100[ 06
Total 80
1) Etudier la concentration de cette distribution et interpréter les points de cordonnés (P3, Q3)
2) Calculer et interpréter l’indice de Gini.
3) Calculer et interpréter la médiale.
4) Calculer et interpréter l’écart relatif
Solution :
Pour tracer la courbe de concentration on détermine Pi et Qi

 Q + Qi −1 
i
Classes ni fi Fi=Pi ci ni ci = mi mi
qi =
M
Qi = q j si=fi  i 
j =1  2 
[0 ; 10[ 16 0.2 0.2 5 80 0.04 0.04 0.004
[10 ; 20[ 30 0.375 0.575 15 450 0.21 0.25 0.054
20xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
[20 ; 40[ 18 0.225 0.8 30 540 0.25 0.50 0.084
[40 ; 70[ 10 0.125 0.925 55 550 0.26 0.76 0.079
[70; 100[ 06 0.075 1 85 510 0.24 1 0.066
Total 80 1 2130 = M 0.28775

Qi

0.75

0.5

0.25

0.2 0.5 0.75


1 P
(P3, Q3) = (0.80 ; 0.50) c’est à dire que 80% de la population détiennent seulement 50% des terrains
ce qui est inégalitaire.
5
2) IG = 1- 2  si = 1- 2 (0.28775) = 0.4245.
i =1
La concentration est relativement moyenne (faible).
Ce qui veut dire que la répartition des terrains est relativement inégalitaire.
3) Mle est déterminée tq : qi (Mle ) = 0.5 . D’après la colonne qi on a 0.5.
Et d’après la colonne des classes on trouve que qi(40) = 0. 5  Mle = 40 hectares.
Interprétation : Mle = 40  les individus qui ont individuellement un terrain de superficie moins que
40 hectares totalisent 50% de la masse totale (2130), et les individus qui ont individuellement un
terrain de superficie supérieure à 40 hectares totalisent les 50% restante.
40 − 18
3) Mr = = 0.22
100
Chapitre IV : La distribution statistique à deux variables et ajustement linéaire :
Soit une population de N individus distribués simultanément suivant deux variables X et Y ; si les
variable X et Y d’écrivent différent individus, dans ce cas le tableau statistique est dit tableau à double
entrée (tableau de contingence) dont la forme est :
Y y1 y2 . . . …………. y j . . ………… yp
X
x1 n11 n12 . . …………….. n1 j . . …………….. n1 p
x2 n21 n22 . . ……………. n2 j . . ……………… n2 p
. . . ………………. . . . ……………… .
. . . ……………….. . . . …………….. .

xi ni1 ni 2 . . …………… nij ………………… nip


n j 2

. . . ……………… . ……………… .
. . . ……………. . ……………… .

21xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
xk nk1 nk1 . . . ……………… nkj ……………….. nkp

nij : C’est l’effectif conjoint de la modalité i de la variable X et la modalité j de la variable i.


C'est-à-dire le nombre d’individus de la population qui ont en même temps la modalité xi de la
variable X et la modalité y j de la variable Y.
k p p k k p

 nij = n.. = N , ni. =  nij , n. j =  nij et


i =1 j =1 i =1 i =1
n
i =1
i. = N =  n. j
i =1

nij ni . n. j k K p p
f ij = , f. j =
, f i. = ,  f ij = 1 et  f i. =  f . j = 1
N N N i =1 j =1 i =1 i =1

IV. Les distributions marginales


IV.1 La distribution marginale de la variable X
En somment les lignes dans une dernière colonne ; on obtient, en extraient la première et la dernière colonne, la
distribution marginale de X.
xi x x ………………. x
1 2 k
ni. n1. n2. ………………. nk .
IV.2 De même en somment les colonnes dans une dernière ligne ; on obtient en prenant la 1ière ligne et la dernière ligne
créée, la distribution marginale de la variable Y.
N.B Si les variables X et Y d’écrient le même individu dans des situations différentes dans ce cas le i = j et le tableau
statistique prend la forme suivante :
xi yj
y1
x1 .
. .
. .
. .
. .
. .
. .
xn yn

L’utilité de l’étude d’une distribution statistique à deux variable se quelle permet d’identifier l’existence ou non
d’un lien entre les variables.
RQ ; Le calcule des paramètres des distributions marginales est le même que celui du chapitre 3
IV. 2 Les caractéristiques d’une distribution à deux variables
IV. 2. 1 La covariance ( Cov )
La covariance d’une distribution dont les grandeurs xi, yi -des variables X et Y – sont
individualisées c. a. d pour un même individu est donnée par :
1 N 1 N
Cov (X, Y) =  ( xi − X )( y i − Y ) =  x i y i − XY
N i =1 N i =1

Avec : Cov ( X , Y ) = Cov ( Y , X) , Cov ( aX , cY ) = ac Cov ( X , Y ) et Cov ( X , X ) = V( X).

RQ : si Cov (X, Y) = 0 on dis qu’il y a absence de relation linéaire entre X et Y , et dans ce cas la
variation de l’une des variables n’entraîne pas la variation de l’autre.
Si Cov (X, Y) > 0  X et Y sont liées positivement c. a. d que X et Y varient dans le même sens.
Si Cov (X, Y) < 0  X et Y sont liées négativement c. a. d que X et Y varient dans un sens
contraire.
IV .2 .2 La corrélation et l’ajustement linéaire
Si la représentation graphique des points (xi, yi), nuage de points, montre une configuration régulière
entre X, Y c’est à dire l’existence d’un lien entre les variables étudiées ; l’intensité (le degré) de ce lien
peut être mesuré par un coefficient appelé coefficient de corrélation linéaire.
22xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

a) Le coefficient de corrélation linéaire :


Le coefficient de corrélation linéaire est un coefficient sans unité de mesure qui mesure le degré de la
liaison linéaire entre les variables étudiées. Le coefficient de corrélation linéaire entre les deux
variables X et Y est donné par :
Cov( X , Y )
r (X, Y) = avec -1  r (X, Y)  1.
 X Y
Interprétation de r ( X , Y ) :
Si r (X, Y) = 1 on a une corrélation linéaire parfaite positive entre X et Y c. a. d que la variation de l’une des
variable entraîne le même degré de variation et dans le même sens dans l’autre variable.
Si r (X, Y) → 1 cela  une très forte corrélation linéaire positive entre les variables.
Si r (X, Y) = -1 cela  une corrélation linéaire parfaite négative entre X et Y c. a. d que la variation de l’une
des variables entraîne le même degré de variation, mais dans le sens opposé de l’autre variable.
Si r (X, Y) → -1 cela  une très forte corrélation linéaire négative entre les variables.
Si r (X, Y) = -1 Si r (X, Y) = 0 on dit qu’il y’a absence de corrélation linéaire entre les variables étudiées.
b) L’ajustement linéaire
L’ajustement linéaire consiste à remplacer le nuage de points par une droite. Cette droite doit être la plus proche
possible de chacun des points. On cherche à minimiser les écarts entre les points et la droite. Mais quel type
d’écart choisir ?
b-1) L’ajustement graphique :
Théoriquement, diverses sortes d’ajustement linéaire sont possibles. La plus simple est l’ajustement
graphique, réalisé par le dessinateur. Cet ajustement consiste à tracer à main élevée une droite, qui
normalement, doit passer par la plus part des points. L’inconvénient majeur de l’ajustement graphique est qu’il
est subjectif : chaque dessinateur trouve une droite qui, à son avis, représente au mieux l’ensemble des points….
et qui n’est pas celle que trace un autre dessinateur. Une multitude de droites peut ainsi être trouvée, sans que
l’on dispose de critère objectif pour choisir entre elles.
b-2) L’ajustement par la méthode des moindres carrés ordinaires :
Cette méthode repose sur la notion d’écart d’un point à une droite. Elle consiste, alors, à rechercher une droite
telle que la somme de ses « distances »aux différents points représentant les données soit minimale. La distance
choisie est le carré de la différence des ordonnées entre chaque point et le point de la droite ayant même
abscisse.
En effet traçons quelques points et une droite proche de ceux – ci :
La droite D est déterminée telles que les valeurs
ŷ i Diffèrent (s’écartent) peu des valeurs observées yi
A partir du point Ai de cordonnées (xi, yi) , deux types
D’écart peuvent être définis : un écart vertical et un écart horizontal.
i) L’ajustement de Y en X
Y
L’écart vertical mesure la différence entre deux valeurs de Y yi = axi+b
La valeur observée yi et la valeur ajustée (estimée) ŷ i sachant
Que la valeur xi de X est fixée. Partant de la valeur xi
La valeur yi correspondante est ajustée par la valeur ŷ i
Déterminée par la droite D dont l’équation est
ŷ i = a xi + b, où a et b yi ........
Sont des paramètres calculés par la méthode ŷ i
Des moindres carrés ordinaires M. C. O
Et comme suit :

Soit  i l’écart entre la valeur observée yi et la valeur estimée ŷ i c’est à dire que :  i = yi - ŷ i
2

( )
n n
 i = yi - (a xi + b)   = [ y i − axi − b] . On pose
i
2 2

i =1
i
2
=  y i − axi − b
i =1
= f ( a, b)

23xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

En respectant les deux conditions de premier ordre de la minimisation, dans la résolution, de cette
f (a, b) f (a, b)
fonction par rapport à a et b, c’est à dire : = 0 et = 0 , on obtient :
a b

Cov( X , Y )
aˆ = et b̂ = Y − aˆX .
V (X )

En fin la droite d’ajustement de Y en X sera donnée par :


ŷ i = - âxi b̂ .
Cette droite permet de prévoir Y en fonction de X.
RQ : La droite de régression (d’ajustement) doit passer obligatoirement par le point moyen de
coordonnée ( X ,Y ) .
ii) L’ajustement de X en Y
Par un raisonnement analogue à celui de l’ajustement de Y en X ; on trouve que pour une valeur
donnée yi de Y est associée une valeur xi qui est ajustée (remplacée) par une valeur x̂i .
L’équation d’ajustement de X en Y est donnée par : x̂ = ˆy − ˆ ,
i i

Cov( X , Y ) ˆ
avec ˆ = et = X − ̂Y . Dans cette droite on cherche à expliquer X par Y.
V (Y )
L’étude de cette droite permet de prévoir X en fonction de Y.
Interprétation des coefficients aˆetbˆ
â est la pente de la droite qui indique combien varie Y en moyenne lorsque X varie d’une unité
b̂ Est une constante qui indique la valeur de Y lorsque X est nulle.
Remarque : Sur le même repère orthogonal du nuage de points de Y sur X, on peut tracer la droite
d’ajustement de X en Y, en écrivant y en fonction de X.
1
En effet on a : x̂i = ˆy i − ˆ  ŷ i = ( xi − ˆ )
ˆ
IV. 2 La mesure de la qualité de l’ajustement linéaire
Le coefficient de déterminant, noté R 2 , permet de mesurer la qualité de l’ajustement linéaire
réalisé. La valeur de ce coefficient est égale au carré du coefficient de corrélation linéaire :
R 2 = â̂ = (r(X, Y)) 2
Interprétation de R 2
Le R 2 donne le pourcentage des variations de la variable dépendante dues aux variations de la
variable indépendante.

Plus R 2 est proche de 1, plus la qualité de l’ajustement linéaire est bonne


Plus R 2 est proche de 0, plus la qualité de l’ajustement linéaire est mauvaise.
D’une façon générale si r  0. 6 la corrélation est qualifiée de faible et par la suite l’ajustement
linéaire ne représente pas un bon (résumé) des observations. En d’autre terme l’ajustement est qualifié
de mauvais.
Exercice :
A partir des données du tableau suivant :
xi 2 4 6 8 9 13
yi 7 10 13 15 20 28
1) Représenter le nuage de points
2) Calculer et interpréter le coefficient de corrélation linéaire entre X et Y.

24xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

3) Ajuster le nuage de points par une droite d’équation : ŷ i = âxi - b̂ .


4) Etudier la qualité de cet ajustement.
La solution :
1)

2)
xi yi xi yi xi 2 yi 2
2 147 4 49
4 4010 16 100
6 7813 36 169
8 15
120 64 225
9 20
180 81 400
13 28
364 169 784
42 93
796 370 1727
1 1 1 6 1
On a : X =  xi = (42) = 7etY = 1 y i = (93) = 15.5
n i =1 6 n 6
n
1 1
Cov ( X , Y ) =  xi y i − XY = (796) − (7)(15.5) = 24.17
n i =1 6

1 n 2 1 1 n 2 1
V( X) = 
n i =1
x i − X 2
=
6
( 370 ) − 49 = 12.67 et V(Y) = 
n i =1
y i − Y 2 = (1727) − 240.25 = 47.8
6
Cov( X , Y ) 24.17
• r(X , Y) = = = 0.9898 . r est très proche de 1 ce qui implique une
 X Y 12.67  47.08
très forte corrélation linéaire positive entre X et Y ; c’est à dire que toute variation dans l’une des
variable entraîne la même variation dans l’autre variable.
Cov( X , Y ) 24.17
On a : aˆ = = = 1.908 et b̂ = Y − aˆX = 15.5 – 1.908(7)= 2.144
V (X ) 12.67
D’où ŷ i = 1.908 xi + 2.144
4) On a R2 = r2 = 0.9797 →1 ce qui implique que l’ajustement est de bonne qualité

25xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

L’ajustement des nuages de points par une droite


b-3) La méthode empirique :
Cette méthode consiste à tracer à l’estime une droite (E) qui rend le mieux compte du phénomène.
Deux points distincts de (E) permettent de déterminer son équation qui est de la forme : Y = ax + b
En effet supposons que ,pour un nuage de points donné ,une droite ( E )obtenue à l’estime constitue
une droite d’ajustement de Y en X passe par les points de coordonnées A(920 , 2250) et B(990 ,
2800).
Dans ce cas son équation est obtenue comme suit :
550
Y – 2250 = ( X − 920)  ŷ i = 7,86 x – 4978,57
70
C’est à dire que : ( x 2 − x1 )( y − y1 ) = ( y 2 − y1 )( x − x1 ) .
b-4) La méthode de Mayer ( Droite de Mayer )
La détermination d’une équation d’ajustement par la méthode de Mayer passe par la détermination des
points moyens G1 et G2.
Procédure :
n
- Si le nombre d’observations (données) est pair, dans ce cas on prend la moyenne des ( )
2
premières mesures, de chacune des variables. On obtient ainsi le premier point moyen
n
G1 ( x1 , y1 ) . Puis on prend la moyenne des ( ) dernières mesures (valeurs) de chacune des
2
variables. On obtient alors le deuxième point moyen G2 ( x 2 , y 2 ) . Ces deux points moyens vont
permettre d’écrire un système de deux équations à deux inconnus. La résolution de ce système
nous donne les deux coefficients a et b de la droite d’ajustement. En effet si l’équation de la
droite d’ajustement est de type : Y = aX + b c’est à dire ajustement de Y en X, le système
d’équations permettant de déterminer les paramètres a et b s’écrit comme suit :
y1 = ax1 + b …………..( 1 )
y 2 = ax 2 + b …………...( 2 )
- Si le nombre d’observations est impair, dans ce cas on suit la même procédure sauf que la
n +1
moyenne de chacune des variables sera calculée a partir des ( ) premières mesures (valeurs)
2
n +1
pour G1 et des ( ) dernières mesures (valeurs) pour G2.
2
Remarque : dans l’équation de l’ajustement de Y en X ŷi = - âxi b̂

Avec e = y i − yˆ i
26xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
2

 (y − Y ) . Cependant :
N
1
On sait que la variance total de y est calculée par : V(Y) = i
N i =1
2 2 2

 (y −Y )  (yˆ i − Y ) +
N N N

 ( yi − yˆ i )
1 1 1
i = variance résidentielle
N i =1 N i =1 N i =1
Variance due à l’ajustement (variance expliquée
On peut écrire la formule ci-dessus de la variance totale sous la forme : S y2 = S y2ˆ + S e2

 (yˆ −Y )
N
2
2 i
S yˆ
- La proportion ou la part de variance expliqué par la droite est donnée par : = i =1

 (y −Y )
S y2 N
2
i
i =1
N

 (y − yˆ i )
2
i
S2
- La proportion ou la part de variance résidentielle est donnée par : e2 = i =1

 (y −Y )
N
Sy 2
i
i =1
2
S yˆ
- Si → 1 l’ajustement est qualifié de bonne qualité
S y2
S e2
- Si → 0 l’ajustement est de bonne qualité
S y2
IV.1.3 L’ajustement non linéaire :
-
IV.1.3 L’ajustement non linéaire :
L’ajustement linéaire suppose que la forme de la fonction reliant deux variables X et Y est linéaire
d’équation :
Y = ax + b
Cependant il peut arriver que les points représentant une série double ne soient pas alignés
(linéaires), mais voisins d’une courbe connue. En tel cas, et pour pouvoir calculer les coefficients
(paramètres) de la fonction qui lie X et Y par la méthode des MCO, on doit linéariser cette fonction en
utilisant le logarithme.
En effet si la relation entre X et Y est du type :
a) Y = ae bx (exponentielle) on la linéarise comme suit : lny = ln( ae bx )  lny = lna + bx
b) Y = a x b (puissance) on la transforme à : lny = blnx + lna
c) Y = a b x (géométrique) on la transforme à : lnY = xlnb + lna. Et ainsi de suite.
Quelques conseils pour l’ajustement linéaire :
a. Faire d’abord une étude graphique, si les données le permettent. On distinguera ainsi si
un ajustement, linéaire ou non, peut se justifier.
b. Calculer le coefficient de corrélation linéaire avant d’effectuer l’ajustement. Si ce
coefficient est trop faible en valeur absolue, ne pas continuer les calculs (au besoin,
rechercher un ajustement non linéaire) .
c. Le coefficient de corrélation et la pente de la droite d’ajustement ont le même signe que
la covariance.

Chapitre IV : Les indices statistique


L’analyse économique et sociale fait appel à la comparaison et l’étude de l’évolution de grandeurs
simples, telles que la production de blé, le prix de pétrole ………..etc. La comparaison peut se faire

27xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

dans le temps ou dans l’espace, moyennant le calcul d’un rapport de deux valeurs de cette grandeur,
prix par conséquent en deux périodes différentes ou dans deux lieux différents.
Il est aussi important de pouvoir suivre l’évolution de grandeurs complexes telles que la production
agricole, les exploitations d’un pays,……..etc. C’est comparaisons se font au moyen d’indices
synthétiques. Ainsi on distingue deux types d’indices : les indices élémentaires et les indices
synthétiques.
IV : 1- Les indices élémentaires
Définition : Soit une grandeur G qui prend les valeurs : x0, x1 ,. …. xt aux dates 0, 1 ,…………,t
On appelle indice élémentaire de la grandeur G à la date t par rapport à la date 0 le rapport :
x
I t = t  100 . La date 0 est appelée date ou période de base ou de référence.
0
x0
La date t est appelée date ou période courante. On dit que l’indice à la date t est exprimé base 100 par
rapport à la date de référence.
Exemple :
Le prix d’un pain a passé de 21 um en 1996 à 70 um en 2006. L’indice de prix dans ce cas est donné
par :
P 70
I 2006 = 2006  100 =  100 = 350  que le prix du pain a connu une augmentation de 250 %
1996
P1996 20
UM entre 1996 et 2006

Propriétés des indices élémentaires


La circularité
Les indices élémentaires vérifient la propriété de la circularité suivante :
Pour toute grandeur économique qui prend les valeurs : x0, x1 et x2 respectivement aux date t = 0, 1
et 2 ; l’indice élémentaire satisfait : I 2 = I 2  I 1 .
0 1 0

La propriété de la réversibilité
Les indices élémentaires vérifient la propriété de la réversibilité suivante : l’indice de la période 0 par
rapport à la période t est égal à l’inverse de l’indice de la période t par rapport à la période 0 et vis
1
versa. I 0 =  10 4
t
It
0

IV : 2- Les indices synthétiques :


Les indices considérés jusqu’à présent étaient des indices élémentaires retraçant l’évolution d’une
seule grandeur parfaitement définie et homogène.
Mais le plus souvent, l’économiste ou dirigeants d’entreprises, désirent suivre les variations de
grandeurs complexes : indice général des prix , la production industrielle, volume des importations ,
des exportations, etc…..Ces grandeurs complexes sont composées d’un nombre plus ou moins grand
de grandeurs simple.
L’évolution de chacune des grandeurs simple est décrite par un indice élémentaire.
L’opération de construction d’un indice synthétique relatif à la variation d’une grandeur complexe
consiste donc à résumer une série d’indices élémentaires..
Définition :
Soit G une grandeur complexe constituée des éléments : x1 , x2,……., xj,… , xk , G est , par
exemple le niveau générale des prix , x1 , x2,……., xj,… , xk représentent les prix des différent
articles ou services offerts au public .
Les indices élémentaires des constituants xj de G peuvent être calculés comme suit :

28xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

xtj
I tj = t
 100 . Mais ils sont insu fusant pour rendre compte de l’évolution du niveau général des prix :
0
x 0

certains augmente d’autre diminuent. Il faut, donc, pouvoir résumer synthétiser par un seul indice –
qu’on appellera indice synthétique de grandeur complexe G – les différents indices élémentaires.
IV : 2-1 Les différentes formules d’indices synthétiques :
En pratique on a trois formules d’indices synthétiques : La formule de Laspeyres , de Paache et de Fisher.
IV : 2- 2 Les différents types d’indices synthétiques
En calculant un indice synthétique on peut chercher à saisir des variations de valeur de prix ou de
quantité. Quelque soit les cas, le calcul de l’indice met toujours en jeu à la fois des prix et des
quantités. E n désignons par : P0 j , Pt j , q 0j etqtj les prix et les quantités se rapportant au constituant
élémentaire j entrant dans le calcul de l’indice.
a) L’indice de valeur :
Soient P0 j , q 0j respectivement le prix et la quantité du bien j à la date 0 et Pt j , qtj respectivement le prix
et la quantité du même bien à la date t.
Considérons un panier composé de k biens ; les valeurs globales de ce panier évaluées à la date 0 et à
la date t sont respectivement données par :
k k
V
V0 =  P0 j q 0j etVt =  Pt j qtj . L’indice de la valeur globale est, alors, donné par : I t (vg ) = t  100 .
j =1 j =1 0
V0
b) L’indice des prix
i- L’indice de Laspeyres des prix :
Pour calculer l’évolution du niveau général des prix de la période 0 à la période t on utilise la formule
k

P
j =1
t
j
q 0j
suivante : L t ( P) = k
 100 . Cette formule donne l’indice de Laspeyres des prix.
0
P
j =1
0
j
q 0
j

ii- L’indice de Paache des prix :- Le calcul e de l’indice de Paache des prix consiste à utiliser la
k

P
j =1
t
j
qtj
formule suivante : Pt ( P) = k
 100 . Cette formule permet d’étudier l’évolution du niveau
0
P
j =1
0
j
qt j

général des prix de la période 0 à la période t.


iii- L’indice de Fisher des prix
l’étude de l’évolution du niveau général des prix de la période 0 à la période t par l’indice de Fisher
(l’étude de l’inflation) consiste à utiliser la formule suivante : F t ( P) = L t ( P)  Pt ( P) .
0 0 0

c) L’indice de quantité
L’indice de quantité permet d’étudier l’évolution de la quantité globale d’une période à une autre.
i- L’indice de Laspeyres de quantité : L’étudier de l’évolution de la quantité globale de la période 0 à
k

P
j =1
0
j
qtj
la période t par l’indice de Laspeyres consiste à utiliser la formule suivante : L t (q ) = k
 100 .
0
P
j =1
0
j
q 0
j

P
j =1
t
j
qtj
ii- L’indice de Paache de quantité : Cette indice est donné par : Pt (q ) = k
 100 .
0
P
j =1
t
j
q 0
j

29xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

iii- L’indice de Fisher de quantité : Cette indice permet d’étudier l’augmentation ou la diminution de
la quantité globale d’une période à l’autre et il est donné par : F t (q ) = L t (q )  Pt (q ) .
0 0 0

1 1 1
NB : 1) L0/t =  10 4 , P0/t =  10 4 et F0/t =  10 4 .
Pt Lt Ft
0 0 0
2) La relation entre les indices de Laspeyres et Paache des prix et de quantité est donnée
par :
I t (vg ) = L t ( P)  Pt (q ) = L t (q )  Pt ( P) .
0 0 0 0 0

Exercice :
Le tableau suivant fournit des informations sur la consommation de 4 produits a, b, c et d dans une
région au cours des deux dernières années :
Produits Prix unitaire Quantité consommée
1998 1999 1998 1999
a 10 12 3500 4000
b 35 40 2000 1500
c 20 25 2500 3200
d 15 12 1500 1500
1) Dans quel but calcule-ton les indices élémentaires ?
3) Calculer l’indice élémentaire du prix du produit a et l’indice élémentaire de quantité du produit b
en 1999 base 100 en 1998.
4) Quelle est la relation entre les indices élémentaires et les indices synthétiques ?
5) Calculer et interpréter les indices de Laspeyres de prix et de quantité en 1999 base 100 en 1998.
6) Calculer et interpréter les indices de Paache de prix et de quantité en 1999 base 100 en 1998.
7) Calculer l’indice de Fisher de prix.

La solution :
1) Le calcule des indices élémentaires permet de comparer la variation de deux grandeurs dans le
temps ou dans l’espace.
Pa 12
a
2) I 99 ( P) = 99a  100 =  100 = 120  le prix du produit a a augmenté de 20% en 1999 par
98
P98 10
b
q99 1500
rapport à 1998. I (q ) = b  100 =
b
99  100 = 75  la quantité du produit b
98
q98 2000
a diminuée de 25% en 1999 par rapport à 1998.
3) Les indices synthétiques sont des moyennes des indices élémentaires.
4) Tableau de calcule : On pose 1999= 1 et 1998= 0
Prix unitaire Quantité P0 j q 0j P0 j q1j P1 j q 0j P1 j q1j
produits consommation
1998 1999 1998 1999
a 10 12 3500 4000 35000 40000 42000 48000
b 35 40 2000 1500 70000 52500 80000 60000
c 20 25 2500 3200 50000 64000 62500 80000
d 15 12 1500 1500 22500 22500 18000 18000
Total 177500 179000 202500 206000

30xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
4

P
j =1
1
j
q 0j
202500
L1 ( P) = 4
 100 =  100 = 114.08  le niveau général des prix (4 produits) a augmenté
P j 177500
0
0 q 0j
j =1

de 14.08% en 1999 par rapport à 1998.


4

P
j =1
0
j
q1j
179000
L 1 (q) = 4
 100 =  100 = 100.84 qu’entre 1998 et 1999 la quantité globale (4
P j 177500
0
0 q 0j
j =1

produits) a augmenté de 0.84%.

P j =1
1
j
q1j
206000
5) P1 ( P) = 4
 100 =  100 = 115.08  le niveau général des prix (4 produits) a
P j 179000
0
0 q1j
j =1

augmenté de 15.08% en 1999 par rapport à 1998.


4

P
j =1
1
j
q1j
206000
P1 (q ) = 4
 100 =  100 = 101.73  qu’entre 1998 et 1999 la quantité globale
P j 202500
0
1 q 0j
j =1
(4 produits) a augmenté de 1.84%.

RQ : La différence qui existe entre l’indice de Laspeyres de prix et Paache de prix et celle entre
l’indice de Laspeyres de quantité et Paache de quantité nous a poussé a calculé un autre indice
appelé indice de Fisher, qui est une moyenne de ces deux indices.
6) F1 ( P) = L1 ( P)  P1 ( P) = 114.08  115.08 = 114.58.
0 0 0

Chapitre VI : Le calcul des probabilités


VI. 1 . Analyse combinatoire
a) Arrangement sans répétition :
Introduction : Calculons le nombre de « mots » de 2 lettres ne contenant pas 2 fois la même
lettre. On peut repartir ces mots en 26 groupes suivant la première lettre. Chaque groupe contient 25
mots puisque la deuxième lettre doit être différente de la première. La réponse est donc : 26*25 et on
2 3
la note : A26 . De même le nombre de mots de 3 lettres distincts sera A26 = (26) (25) (24).
De manière générale, on utilise la notation pour p éléments ordonnés choisis parmi n :
Anp = n (n-1) (n-2)……. (n-p+1)
il y a p facteurs.
Anp est le nombre de manière de ranger p objets (éléments) pris parmi n en une suite ordonnée et sans
utiliser deux fois le même objet.
Mathématiquement, Anp est le nombre d’injections d’un ensemble de p éléments dans un ensemble de
n éléments distincts ( on doit avoir p  n).
Ainsi toute suite ordonnée de p éléments pris parmi n éléments distincts est appelée arrangement
sans répétition.

31xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

Définition : On appelle arrangement de p éléments pris parmi les n éléments d’un ensemble E, toute
suite ordonnée formée de p éléments de E . Le nombre des arrangements de p élément pris parmi n est
noté : Anp .
Exemple : Chaque couple de l’ensemble E = { a , b , c } est un arrangement des 2 éléments pris parmi
les trois éléments de E . D’après la formule ci-dessous on a : A32 = 3(3 − 1)(3 − 2) = 3(3 − 2 + 1) = 6 .
n!
D’une façon générale, le nombre d’arrangement sans répétition est donné par : Anp = .
(n − p )!
b) Factorielles (nombre de permutation) :
Dans la formule du nombre d’arrangement sans répétition si p = n , on définit ce qu’on appelle
factorielle ou permutation.
n! n!
Ann = = = n! car 0 ! = 1
(n − n)! 0!

Avec : n ! = n(n-1)(n-2)(n-3)…… 2 1
Permutation avec répétitions : Considérons le « mot » AABCCC, et cherchons le nombre de mots
nouveaux que nous pouvons obtenir de ce mot en permutant les lettres.
6!
Le mot est composé de 6 lettres 2A, 1B et 3C. Le nombre cherché est : = 60
2!1!3!
En général, avec n éléments se regroupant en trois type de p, q , éléments ou plus avec : p + q + r = n
n!
on obtient : .
p!q!r!
a) Combinaison :
Le nombre de manières de prendre p objets (éléments) parmi n sans prendre 2 fois le même
p
élément et sans les ordonner est noté : C n (nombre de combinaison de p éléments parmi n).
p
Pour calculer ce nombre on utilise le principe de la division : il y a An manières de tirer p
éléments en les ordonnant, et une fois qu’on a p éléments (objets) il y a p ! Manières de les
Ap n! n!
ordonner. Donc il y a n or An = (n − p )!  C n = p!(n − p )! .
p p

p!
Exemple : Parmi 12 meubles fabriqués, on en prend 2 . Cherchons le nombre d’issues possibles.
Ici, 2 tirages de deux meubles ne sont différents que s’ils ne contiennent pas les mêmes éléments.
Le nombre d’issues possibles est donc le nombre de parties à 2 éléments pris parmi les 12. Il y a
12!
don : C12 = 2!(12 − 2)! = 66 .
2

VI. 2. Probabilités sur les ensembles finis :


VI. 2 . 1 L’expérience aléatoire : Une expérience ayant un nombre fini d’issues possibles est
appelée expérience aléatoire si il est impossible de savoir à l’avance quelle en sera l’issue.
L’ensemble de toutes les issues (tous les résultats) possible est appelé l’univers des possible
(ensemble fondamental) associé à cette expérience. Il est noté  .
Chaque sous ensemble (ou partie) de l’ensemble fondamental est appelé événement aléatoire.
Exemple : Soit E une expérience qui consiste à jeter un dé une fois, et soit A l’événement avoir un
nombre impair, dans ce cas on a  = {1 ,2 ,3 ,4 ,5 ,6} et A = { 1 ,3 , 5 }.
VI. 2. 2 Vocabulaire des événements :
a) L’événement certain : c’est l’événement qui est toujours réalisé ( est, donc, un
événement certain).
b) L’événement impossible : c’est l’événement qui ne se réalise jamais (  est alors donc
l’événement impossible).
c) L’événement élémentaire : si le sous ensemble de  est constitué d’un seul élément cet
élément est appelé événement élémentaire.
VI. 2 . 3 Composition d’événements :
32xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

- Réunion d’événements ( ) : Si A et B sont deux événements « A ou B » est réalisé si et


seulement si soit A soit B soit A et B sont réalisés.
- Intersection d’événement ( ): « A et B » est réalisé si est seulement si A et B sont réalisés
simultanément. C’est à dire que : (A  B)  .
- Evénement incompatibles (disjoints) : Les événements A et B sont dis incompatibles si est
seulement si (A  B) = .
- Evénement complémentaire (ou contraire) : Soit A un événement de  , l’événement contraire
de A noté A est l’événement composé des éléments de  qui ne sont pas dans A. Donc si A
est réalisé A ne l’est pas.
Exemple : Dans le jet d’un dé normal, si : A = {1, 2}  A = { 3 , 4 , 5 , 6 }.
VI. 3. Axiomes du calcul des probabilités sur les ensembles finis :
Soit E une expérience aléatoire dont l’ensemble fondamental est  = { e1 , e2 ,……, en}.
VI. 3. 1 Définition : On appelle probabilité toute application de l’ensemble des événements vers R
vérifiant les axiomes suivants :
- A1 : Pour événement A : 0  P(A)  1.
-A2 : P (  ) = 1.
-A3 : Si deux événements A, B sont incompatibles, alors :
P( A B) = P( A) + p( B )
Les conséquences (Ci ) :
C1 - La probabilité d’un événement est égale à la somme des probabilités des événements
élémentaires qui
le composent. En effet, tout événement est la réunion d’événements élémentaires, qui sont
deux à deux incompatibles.
C2 - Pour tout événement A :
P( A ) = 1 - P( A )
En effet A  A = 
Donc : P ( A  A ) = P ( A )+ P ( A ) ;
D’où P( ) = P ( A )+ P ( A )
Donc : 1 - P( A ) = P(A).
C3 - P( ) = 0
En effet  est complémentaire de . Donc P ( ) = 1 - P( ) = 1 – 1 = 0 .
C4 - Pour tout événement A et tout événement B :
P ( A  B) = P( A ) + P( B ) – P ( A  B ).
Exemple: Dans le jet du dé à 6 faces, on considère l’événement A : le résultat est pair et l’événement
B : le résultat est un multiple de 3 . Dans ce cas on a : A = { 2 ,4 , 6} et B =
Donc ( A ou B ) = { 2 , 3 , 4 , 6 } et l’événement ( A et B ) = { 6 }.
On obtient donc Pr { 2 , 3 , 4 , 6 } = Pr{ 2 ,4 , 6} + Pr{ 3 , 6 } - Pr{ 6 }.
VI. 3 .2 La formule du « nombre de cas favorables »
Pour décider des valeurs de probabilités, on a généralement recours à un argument de
symétrie.
Exemple : Dans l’exemple du dé à 6 faces on fait l’hypothèse que les probabilités de chaque face sont
égales. C’est à dire ont la même chance d’être réalisées. C’est la notion d’équiprobabilité. Cela
1 1
suffit pour affirmer qu’elles valent . C’est à dire que : P( 1 ) = P ( 2 ) = …… = P( 6) = .
6 6
Pour le montrer il suffit d’appliquer de manière répétée la propriété des événements incompatibles.
D’une manière générale, si tous les résultats élémentaires ont la même probabilité, on a pour
tout événement : A  
CardA Nombredecasfavorables
P(A)= = .
Card Nombredecaspossible

33xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

Exemple : Dans le jet d’un dé normal, on considère l’événement A avoir un nombre 4 . Dans ce cas
 = { 1 2 3 4 5 6 } à 6 éléments et A = { 5 ,6} à 2 éléments. Donc la probabilité de
réalisation de l’événement A est donnée par :
A = { 5 ,6} à 2 éléments. Donc la probabilité de réalisation de l’événement A est donnée par :
2 1
P( A ) = = .
6 3
Exemple : l’utilisation de l’analyse combinatoire :
Dans une salle qui tient 40 personnes ( 4 rangs de 10) et où je suis placé au hasard , quelle
chance ( probabilité) ai- je d’être au premier rang ? d’être au 1ier rang à la 1ière place à droite ?( on
suppose que j’ai autant de chance d’être placé à chacune des places.
Etre au 1ier rang
Il y a deux manières de raisonner :
- Il y a 4 rang la probabilité d’être à l’un quelconque des 4 rangs est la même, donc j’ai une
chance sur 4 d’être au 1ier rang. P( être au 1ier rang ) = 1/4.
40!
10
Il y a C 40 10
manières de choisir les personnes du 1ier rang, avec : C 40 = . Ce sont les cas
10!30!
possibles. Pour chercher le nombre de cas favorables parmi ceux – ci , on constate que , moi placé au
39!
9
1ier rang , il reste C 39 manière de choisir les autres personnes du 1ier rang , avec C 399 = .
9!30!
39!10!30! Nombredecasfavorables C 399 1
Donc : P{ être au 1ier rang} = = = 10 =
40!9!30! Nombredecaspossible C 40 4
VI. 3 . 3 La probabilité conditionnelle.
Soient A et B deux événements d’un ensemble fondamental  muni d’une loi de probabilité Pr . On
s’intéresse à ce que devient la probabilité de A lorsqu’on apprend que B est déjà réalisé, c’est à dire
lorsqu’on restreint l’ensemble des résultats possible de  à B . La probabilité conditionnelle de A ,
sachant que l’événement B est réalisé, est notée Pr ( A/B ) et est définie par la relation suivante :
Pr( A  B)
Pr( A / B) = ,avec Pr (B ) 
Pr( B)
0

VI. 3. 4 L’indépendance des événements : Soient A et B deux événements, on dit que A est
indépendant de B si :

Pr ( A/B) = Pr ( A ) ou encore si : Pr ( A  B ) = Pr ( A ) .
Pr ( B )
Propriété : Si A et B sont indépendants alors les événements A et B , les événements A et B
et les événements A et B le sont aussi.
Exercice : Dans une entreprise, la probabilité pour qu’un ouvrier A quitte l’entreprise dans l’année est
0.2 et la probabilité pour qu’un cadre B quitte l’entreprise est 0.125.
En supposant que les deux événements sont indépendants ; calculer la probabilité que :
1) A et B quittent l’entreprise.
2) L’un des deux quitte l’entreprise.
3) Ni A ni B ne quittent l’entreprise.
4) B seulement quitte l’entreprise.
La solution :
Soit A l’événement l’ouvrier A quitte l’entreprise, B l’événement le cadre B quitte l’entreprise. Donc :
1) P( A  B ) = P( A) P( B ) = 0.2  0.125 = 0.025.
2) P( A  B ) = P( A ) + P ( B ) - P( A  B ) = 0.2 + 0.125 – 0.025 = 0.3 .
3) P( A  B ) = P( A  B) = 1 – P( A  B )= 1 – 0.3 = 0.7;
R.Q: P( A  B ) = P( A )  P( B ) = 0.8  0.875 = 0.7
34xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

4) P( A  B ) = P( A )  P( B ) = 0.8  0.125 = 0.1


= P( B ) – P( A  B ) = 0.125 – 0.025.

VI . 4 Théorème de Bayes:
a) Cas de deux événements : Soit A et B deux événements tels que P( B )  0 et P( B ) 0. Dans
ce cas
B  B =   A   = A  (B  B ) = ( A  B )  ( A  B ).
On a B  B =  (A  B )  ( A  B ) =  et :
P ( A ) = P( A  B ) + P ( A  B )…………………………………(1).
P( A  B)
D’après la probabilité conditionnelle on a : P( A / B ) =  P( A  B ) = P(A/B )  P( B)
P( B)
P( A  B )
P( A/ B ) =  P ( A  B )= P( A/ B )  P( B ).
P( B )
La formule (1) peut être écrite sous la forme:
P( A ) = P( B ) P( A/ B ) + P ( B ) P( A/ B )……………………..(2).

En supposant que : P( A ) ≠0 , on trouve que :


P( A  B) P( B)  P( A / B)
P ( B/ A ) = = ……………………(3)
P( B) P( A)

P( B)  P( A / B)
(2) en (3)  P( B/ A ) =
P( B)  P( A / B) + P( B )  P( A / B )
Cette formule représente le théorème de Bayes dans le cas de deux événements.
b) Cas général : En cas d’un système complet d’événements :
B1,……………. ,B2 de probabilités toutes non nulles.
i. Ω =  im=1 Bi  A = A   = A  ( im=1 Bi ) =  im=1 ( A  Bi )
Les Bi sont deux à deux incompatibles, donc les ( A  Bi ) sont également deux à deux incompatibles
et par la suite on a :
m
P( A ) = P ( im=1 ( A  Bi ) =  P( A  Bi ) .
i =1

En exprimant les P( A  Bi ) à l’aide des probabilités conditionnelles , on obtient :


m
P( A ) =  P( B
i =1
i )  P( A / Bi ) …………………………..(1)

Si P(A)  0, dans ce cas :


P( A  B1 ) P( B1 )  P( A / B1 )
P (B1 / A) = = ……………..(2)
P( A) P( A)

P( B1 )  P( A / B1 )
(1) en (2)  P (B1 / A) =
P( B1 )  P( A / B1 ) + ...... + P( Bm )  P( A / Bm )
Cette formule représente la formule générale du Théorème de Bayes.
Le théorème de Bayes s’applique naturellement quand l’événement A dépend des l’événements B i ,
qui sont alors appelés des causes.
Exercice :
Dans une entreprise 20% des employés ont un diplôme en gestion des affaires. Parmi ceux-ci 70%
ont des postes de cadre. Toutefois parmi ceux qui n’ont pas de diplôme en gestion des affaires 15% ,
occupent un poste de cadre. Si on sélectionne un cadre au hasard, quelle est la probabilité qu’il soit un
diplômé en gestion des affaires.
35xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr

L a solution :
Soit A l’événement l’employé est diplômé en gestion des affaires  A est l’événement l’employé
n’est pas diplômé en gestion des affaires.
D’après les informations on a : P(A) = 0.2 et P( A ) = 1 - P( A) = 0.8 .
Notons B l’événement l’employé choisi est un cadre.
On sait que : P(B/A) = 0.7 et P(B/ A )= 0.15.
Pr( A  B)
Pr( A / B) = . D’après la formule de Bayes on a :
Pr( B)
Pr( A)  P( B / A) 0.2  0.7
Pr( A / B) = = = 0.5384
Pr( A)  P( B / A) + P( A )  P( B / A ) 0.2  0.7 + 0.8  0.15

36xi X

Vous aimerez peut-être aussi