Académique Documents
Professionnel Documents
Culture Documents
fr
La statistique a acquis une place importante parmi les sciences fondamentales et les domaines de son
application sont très divers (Economie, physique, chimie, biologie, médecine, finance, etc) . En effet, la
statistique s’applique dans presque tous les domaines qui se prêtent à des mesures ou observations numériques,
appelées statistiques (ou données statistiques).
Notre époque est marquée par une importante masse d’informations de tout genre et tous les Etats, les
institutions et les organisations ont besoins de statistiques précises sur plusieurs phénomènes sur lesquels sont
fondées leurs décisions à court et à long terme. A titre d’exemple un pays a besoin de statistiques sur l’emploi,
sur la consommation de biens alimentaires, sur les exportations sur l’évolution des prix. De même une
entreprise a besoin de statistiques sur la production (quantité et coût), de statistiques commerciales (achat,
ventes et stocks), de statistiques financières (investissements, dettes), etc...
La statistique est alors l’outil qui permet aux Etats, aux institutions et aux entreprises d’acquérir
l’information adéquate. Mais une distinction entre la statistique et les statistiques s’impose.
I .2 Définitions
I. 2 .1 La statistique : est la méthode scientifique qui consiste à collecter des données chiffrées en vue de
déduire des analyses et des commentaires des résultats obtenues.
En d’autre terme la statistique est la science de la collecte, de l’analyse et de l’interprétation des données.
Elle est aussi définie comme étant la science de la prise de décision en face de l’incertitude.
I. 2. 2 Les statistiques : Désignent des informations chiffrées sur un domaine précis. En d’autre terme, les
statistiques désignent un ensemble de données numériques concernant l’état ou l’évolution d’un phénomène
qu’on étudie par la statistique.
I . 3 Le vocabulaire ( ou concepts de bases ) de la statistique descriptive
I. 3 . 1 La population statistique : c’est l’ensemble de référence, c’est à dire l’ensemble des unités
observées qui constitue l’objet de l’étude.
Exemples :
- Ensemble d’êtres humains : la population d’un pays, le personnel d’une entreprise, les étudiants
dans une région, …..
- Ensemble d’objets concrets : l’ensemble des pièces fabriquées par une entreprise, les livres
d’une bibliothèque, …
- Ensemble d’objets abstraits : l’ensemble des accidents survenus au cours d’une année donnée,
les demandes d’emplois au cours d’un mois donné.
I. 3. 2 L’échantillon : est une partie ou sous ensemble de la population mère.
I . 3. 3 L’individu ou l’unité statistique : tout élément de la population ou de l’échantillon est appelé
individu ou unité statistique. Cet individu (unité) peut être une personne, une plante, une voiture,
un groupe de personnes, (familles ménages,….) des groupes d’animaux, des groupes de plantes ou
des éléments de toute autre nature (entreprises industrielles ou commerciales, exploitations
agricoles) groupes sanguin, type de maladie….
Remarque :
- Si l’étude statistique exige l’observation de chaque unité (individu) de la population ; dans ce
cas le processus est appelé recensement.
- Si l’étude statistique est réalisée à partir d’une partie de la population (échantillon) dans ce cas
le processus est appelé sondage.
I. 3. 4 Le caractère ou variable statistique est un aspect particulier de l’individu que l’on désir
étudier. En d’autre terme le caractère est un trait commun à toutes les unités statistiques d’une
population que l’on désir étudier. C’est l’élément retenu pour spécifier un phénomène.
Il est définie aussi comme étant une caractéristique mesurée ou observée sur chacun des individus
de la population (ou de l’échantillon).
Exemples : l’âge, le sexe, le poids, la taille, la nationalité, le nombre d’enfants à charge, la couleur,
la note obtenue à l’examen etc….
I. 3. 5 Les modalités : les modalités sont les différentes positions (situations), différents cas de la
variable étudiée. Chaque caractère (variable) étudié(e) peut prendre une ou plusieurs modalités.
Exemple : Il y a deux modalités pour la variable sexe ; masculin et féminin (mâle et femelle).
Remarques : Les modalités d’un caractère (variable) doivent être :
1xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
2xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
La lettre i est appelée indice et elle peut prendre n’importe laquelle des valeurs : 1, 2,…... n auxquelles
correspondent les valeurs : xi, xi,………. xn de la variable X.
Notation symbolique d’une somme : le signe (sigma) symbolise la somme. En effet soient xi les i=1,
n
2,……….,n les valeurs d’une variable ,alors x1 + x2 + …………..+ xn = xi .
i =1
Quelques propriétés de :
n n
1) soit a une constante, alors, axi = a
i =1
x
i =1
i
n
2) a = na
i =1
n n
3) il en résulte de( 1)et ( 2 ) que : ( xi + a) = na +
i =1
x
i =1
i
xi ni
. .
. .
xk nk
En notant par n ou N l’effectif total(le nombre total d’observations) on trouve que ce nombre est
k
donné par : n = N = ni .
i =1
De même on appelle fréquences relatives ou simplement fréquences la valeur donnée par :
n n
f i = i = i . La fréquence fi représente la proportion des individus qui présentent la modalité
n N
(caractère) xi par rapport à l’effectif total.
3xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
k
Notons que : f
i =1
i =1
Remarque : On peut utiliser dans un même tableau les effectifs ni et les fréquences fi.
Le couples{( xi , ni ) ou (xi , fi ) ; i = 1 , 2 , ……, k }est appelé distribution ou série statistique .
II. 1. 1 Le cas d’un caractère qualitatif :
Les modalités dans caractère qualitatif sont rangées dans le tableau statistique selon une logique
qui permet au mieux de les interpréter.
Exemple(*) : la distribution des étudiant d’un institut donné selon la filière peut être résumée dans un
tableau statistique et comme suit :
Filière (discipline) Effectifs ni Fréquences fi
Comptabilité 12 0.353
Economie 8 0.235
Gestion 14 0.412
Total 34 1
Si la variable (caractère) est continue : dans ce cas les modalités sont appelées classes. Une classe
a une borne (limite) inférieure xi et une borne supérieure xi+1.
La différence entre la borne supérieure et la borne inférieure est appelée l’amplitude de la classe :
ai = xi+1 - xi.
Les classes peuvent être même amplitudes ou d’amplitudes différentes.
x + xi +1
Pour chaque classe on peut calculer son centre noté ci par la formule : ci = i .
2
Dans ce cas le tableau statistique prend la forme suivante :
Classes Effectifs ni
[xi ; xi+1 [ n1
[xi+1 ; xi+2[ n2
. .
. .
. .
. .
[ xk ; xk+1[ nk
4xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
5xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
Remarque : On peut utiliser un tuyau d’orgue de hauteur égale à100% ou 1 et la subdivisée selon
le nombre de modalités.
b) Le diagramme à secteur circulaire : dans ce type chaque modalité est représentée par un
secteur angulaire dont l’angle i est proportionnel à sa fréquences fi ou à son effectif ni.
Voir le graphique suivant :
Exemple : La représentation graphique des données de l’exemple(*) ci-dessus en secteur circulaire
est donnée dans la figure ci-dessous.
ni
7 8 10 12 14
xi
6xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
ni
11 15 19 23 27 31
Classes d’âge
Histogramme et polygone des effectifs de la distribution de 14 personnes selon leur âge en années
7xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
i
L’expression : N ( xi ) = N i = n1 + n2 + ......... + ni = n j est alors appelée fonction cumulative
j =1
croissante des effectifs. De même on appelle fréquences cumulées jusqu’à la ième valeur xi de la
variable X, la somme : f1 + f2+……..+ fi.
i
L’expression : F ( xi ) = Fi = f1 + f 2 + .......... + f i = f j
j =1
8xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
d1
MO = xi + ai
d1 + d 2
Où xi est la borne inférieure de la classe modale
- d1 est la différence entre l’effectif ou l’effectif corrigé, la fréquence ou la fréquence corrigée
de la classe modale et l’effectif ou l’effectif corrigé, la fréquence ou la fréquence corrigée de la
classe qui la précède.
- d2 est la différence entre l’effectif ou l’effectif corrigé, la fréquence ou la fréquence corrigée
de la classe modale et l’effectif ou l’effectif corrigé, la fréquence ou la fréquence corrigée de la
classe juste après.
- ai est l’amplitude de la classe modale.
Remarque : Une distribution statistique est dite uni modale si elle admet un mode unique, bi modale si
elle admet deux modes ou plurimodale (multimodale) si elle admet plusieurs modes.
Exemple : D’après le tableau statistique de l’exemple(1) ci-dessus on trouve que le mode (valeur
modale) est 10 car elle possède l’effectif le plus élevé n3 = 8.
On écrit alors MO = 10. C’est à dire que la plupart des étudiants ont obtenu 10 en
statistique.
Exemple : Le calcule du mode de l’exemple(2) ci-dessus s’effectue comme suit :
Étant donné que toutes les classes ont la même amplitude a = 4
On a : MO [15, 19 [car cette classe possède l’effectif le plus relevé n2 = 5
5−2
Donc : MO = 15 + (4) = 17.4 ans. C’est à dire que la plupart des personnes
(5 − 2) + (5 − 3)
ont 17 ans 4 mois et 24 jours.
III. 1. 2 La médiane :
La médiane, notée Me, est la valeur de la variable qui se situe au centre de la série statistique
simple classée par ordre croissant (ou décroissant). C’est une valeur qui sépare la
distribution en deux groupes de même effectif. Ainsi 50% des éléments étudiés ont une
valeur inférieure à la médiane et 50% ont une valeur supérieur à la médiane .C’est donc la
valeur pour laquelle l’ordonnée de la courbe cumulative des fréquences est égale à 0.5
F(Me) = 0.5.
Rang : 1 2 3 4 5 6 7 8 9
La médiane Me = 8 c’est la valeur d’ordre 5.
Exemple : Ajoutons aux valeurs (observations) précédentes la valeur 7 et calculons de nouveau
la valeur médiane.
Solution : On a n = 10 nombre pair, la médiane appartient donc aux valeurs d’ordre 10/2 et
(10/2) + 1 ; c’est à dire à [5, 6].
Valeurs : 5 5 7 7 7 8 10 10 10 15
Ordre : 1 2 3 4 5 6 7 8 9 10
7+8
La médiane Me [7, 8] correspondant à la 5ième et 6ième observation, donc Me = = 7.5
2
F ( Me) − F ( xi ) 0.50 − F ( xi )
Me = xi + ai = xi + ai
F ( xi +1 ) − F ( xi ) F ( xi +1 ) − F ( xi )
Fi
yi = F(xi) = axi + b
F (xi+1) .......................................E..
10xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
F (xi) .......................... A
x1 xi Me xi+1 Classes
La droite yi = axi + b passe par le point de coordonnées respectives (xi , F(xi)) et (xi+1 , F(xi+1)).
On pose alors â et b̂ comme solution du système suivant :
On sait que Me est déterminer tel que F(Me) = 0.5. Dans la colonne Fi on a 0.5 que la
valeur qui a donné cette proportion existe ; cette valeur est 19. En effet F (19) = 0.5.
Fi
1 ......
0.857.........................................................
11xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
0.5 ..............................
0.143..........................................................
0
11 15 19 23 27 31 Classes d’âges
valeurs (xi ) ni ni xi fi fi xi
7 4 28 0.20 1.4
8 3 24 0.15 1.2
10 8 80 0.4 4
12 3 36 0.15 1.8
14 2 28 0.1 1.4
Total 5 196 1 9.8
20 = n
i =1
i
1 5 1 5
X = i i 20
n i =1
n x = (196) = 9.8 =
i =1
f i xi
ni xi = f i xi Avec x =
1
X =
n i =1 i =1 ni
x
j =1
ij est la moyenne à l’intérieure de la classe i
12xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
En cas d’absence d’informations contenues dans chaque classe et vue l’hypothèse de la linéarité de la
distribution à l’intérieure des classes, le centre de la classe i noté ci est l’approximation de la moyenne de
1 k k
la classe. Dans ce cas la moyenne arithmétique est donnée par : X = ni c i = f i c i
n i =1 i =1
Exemple : En utilisant les données de l’exemple (2) ci-dessus calculer l’âge moyen
Solution :
Classe d’âges ni ci fi ni ci fi ci
[11 ; 15 [ 2 13 0.143 26 1.859
[15 ; 19[ 5 17 0.357 85 6.069
[19 ; 23 [ 3 21 0.214 63 4.494
[23 ; 27[ 2 25 0.143 50 3.575
[27 ; 31[ 2 29 0.143 58 4.147
Total 14 1 282 20.144
1 5 1 5
X = i i 14
n i =1
n c = ( 282) = 20.14285714 = i =1
f i ci = 20.144
n i =1
n i ( x i − X )
i =1
ni ( x i − x 0 ) 2
Remarque :
1) Soit un paramètre de position, alors, Pour toute transformation linéaire Y = aX + b on a :
(Y) = a (X) + b
Exemple : Soit Y la variable statistique égale au nouveau âge de l’exemple(2) où Y = 2.5 X + 5.
Dans ce cas Y = 2.5 X + 5 = 55.36.
2) Dans une distribution asymétrique, le mode, la médiane et la moyenne arithmétique sont liés par
la relation suivante : X − M O = 3( X − M e )
III. 1. 4 Autres moyennes
III. 1. 4. 1 La moyenne géométrique :
La moyenne géométrique G d’une variable est égale à la racine nième du produit des n valeurs prises
par cette variable.
- Cas d’une variable discrète
a) Moyenne géométrique simple :
Soient x1, x2, …………… , xn les valeurs prises par la variable X ; dans ce cas la moyenne
1 n 1
13xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
1 k
log G = ni log xi
n i =1
Si X est continue on remplace xi par ci.
L’utilisation de la moyenne géométrique
La moyenne géométrique est utilisée en économie notamment lorsqu’il s’agit de calculer le taux de
croissance moyen, en finance pour le calcule le taux d’intérêt moyen etc…
Soit X une variable statistique qui prend les valeurs suivantes :
Periode 0 → x0
-------- 1→ x1
.
.
.
Periode j→ xj
.
Periode t→ xt .
Le taux de croissance de la période j par rapport à la période j-1 est donnée par :
x j − x j −1
j =
x j −1
j = 1, 2 ,……,t
Le taux de croissance moyen m de la période 0 à la période t s’obtient d’un calcul de la moyenne
géométrique :
t
m = t (1 +
i =1
j ) -1
14xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
t
(1 + j ) = (1 + m )t
j =1
t
(1 + m ) = t (1 +
j =1
j d’où (1 + m ) est une moyenne géométrique des termes (1 + j )
t
m = t (1 +
j =1
j -1
Exemple : Une personne a placé un capital de 200000 Um le 31/12/2005, son capital au 30/6/2006 est
de 220000 Um et est de 2406400 Um au 31/12/2006.
1) Calculer le taux de croissance du capital de chaque semestre
2) Calculer le taux de croissance moyen semestriel du capital.
La solution :
x1 − x0 220000 − 200000
1) Soit j le taux de croissance du semestre j 1 = = = 0.1 soit 10%
x0 200000
x 2 − x1 2406400 − 220000
2 = = = 0.12 Soit 12%
x1 220000
2
Donc m = 2 (1 +
i =1
j ) − 1 = 2 (1.1)(1.12) − 1 = 0.11 soit 11%
moyennes
Remarque : En cas d’une variable continue on remplace xi par ci .
E = x Maximum – x Minimum
Exemple : Soit la série des données suivantes S = {10, 1, 5, 7, 2, 20}, x max = 20 et x min = 1
E = 20 – 1 = 19
Ils renseignent sur le paramètre plus ou moins représentatif soit de moyenne arithmétique soit de
la médiane.
a) l’écart absolu moyen à la moyenne
L’intérêt des paramètres de dispersion est qu’ils permettent d’apprécier la dispersion des valeurs
observées d’une variable statistique autour des valeurs ou paramètres de position. L’écart absolu
moyen à la moyenne est la valeur calculée par :
1 k
e X = ni x i − X
n i =1
1 k
e
ni x i − M e
eM =
n i =1
Remarque : En cas de variable continue on remplace xi par ci
( )
k
1 n 1 k
l’expression V(X) = 2
X = xi − X
n i =1
= ni ( x i − X ) 2 =
n i =1
f
i =1
i ( xi − X ) 2 ou en utilisant la
n k k
1 1
formule de Koenig , on écrit : V(X) = X2 =
n i =1
xi2 − X 2 = ni xi2 − X 2 =
n i =1
f
i =1
i xi2 − X 2 .
X = V (X )
III. 2. 4 L’écart interquartile :
Quartiles ou Quantiles : Définition
Soit une série statistique définie par le couple ( xi , fi ) , i = 1 , 2,………., k et de fonction cumulative
croissante F( . ) ; on appelle quantile d’ordre avec ] 0 , 1 [ , noté q , la valeur de la variable
statistique définie par :
F(q ) = Prop (X q ) =
Les quantiles ou quartiles sont au nombre de 3, ils partagent la série ordonnée en quatre parties
(groupes) de même effectif.
- On appelle 1ier quartile, noté Q1, la valeur de la variable telle que 25% de l’effectif total lui
soient inférieures et 75% lui soient supérieures.
- On appelle 3ième quartile, noté Q3, la valeur de la variable telle que 75% des valeurs lui soient
inférieures et 25% lui soient supérieures. En conséquence le second quartile se confond
évidement avec la médiane. Q2 = Me.
Donc l’écart interquartile est défini par : EIQ = Q3 - Q1 .
Remarque : La détermination du quartile d’ordre se fait par interpolation linéaire après avoir
déterminer la classe à laquelle appartient le quantile. C’est à dire qu’on suit la même procédure que
celle utilisée dans la détermination de la médiane. En effet soit q [xi, xi+1 [dans ce cas le quantile
d’ordre est donné par l’expression suivante :
− F ( xi )
q = xi + ai
F ( xi +1 ) − F ( xi )
- Si = 0.25 on a le 1ier quantile.
16xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
X
CV ( X ) = , X 0
X
5.05
Si X 0 on prend CV . D’après l’exemple précédent on a CV= = 0.251.
20.144
III. 2. 6 Les moments :
On appelle moment non centré d’ordre r ( r N* ) la quantité définie par :
1 k k
mr = ni xir = f i xir . Et on appelle moment centré d’ordre r (r N*) la quantité définie
n i =1 i =1
17xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
1 k k
Par : Mr = i i
n i =1
n ( x − x ) r
=
i =1
f i ( xi − x ) r
p j n j n c j j i
= q j avec 0 Pi 1 et 0 Qi 1
j =1 j =1 j =1
Pi = Fi = k
= et Qi = k
nj n c
N j =1
j j
j =1 j =1
Les Pi sont portés sur l’axe des abscisses et les Qi sont portés sur l’axe des ordonnées.
La courbe de concentration est tracée dans un carré de côté égal à l’unité.
18xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
٭Dans toute étude statistique Pi représente la proportion de la population propriétaire d’une proportion Qi de la
variable étudiée.
RQ : Pour toute série statistique la distribution (répartition) est dite égalitaire ssi t% de la population est
propriétaire de t% de la variable étudiée.
Alors que la répartition est dite inégalitaire si t % de la population est propriétaire de v% de la variable étudiée.
Qi
Diagonale
Courbe de concentration
0 A Pi
Interprétation d’IG
Si IG→1 on a une forte concentration et la distribution est dite inégale.
Si IG→0 on a une faible concentration et la distribution est dite faiblement inégale.
Le calcul d’IG passe par le calcul de la surface S.Où S= Σ si
Avec : si = [(Pi - Pi-1) (qi + qi+1)] / 2 c’est la surface d’un trapèze.
19xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
= fi(Qi+Qi-1)/2
IG = 1- 2 Σ si
En effet : s1 = (f1 Q1) / 2 ; surface d’un triangle.
Qi
Q2
Q1
Pi
P1 P2
II. 3 – 3 : La médiale :
La médiale ( Mle ) est la valeur de la variable qui partage le montant total en deux partie égales .C’est la
valeur de la variable telle que : qi ( Mle) = 0.5 .
En d’autre terme Mle signifie que les personnes qui ont individuellement moins que la médiane ont globalement
autant que les personnes qui ont plus que la valeur médiale.
Le calcul de la médiale est identique au calcul de la médiane. Il passe par la détermination de la classe médiale.
En effet soit [xi ; xi+1 [la classe médiale, dans ce cas
Mle = xi + [ 0.5 - Q i (xi ) ] (ai ) / [Q(xi+1) - Q(xi )]
II. 3. 4 L’écart médiale-médiane:
L’écart médiale – médiane noté M est la différence entre la médiale et la médiane : M = Mle – Me .
II . 3 .5 L’écart relatif:
Onappelle écart relatif noté Mr le rapport entre l’écart médiale médiane et l’etendue.
M
Mr =
E
- Si Mr est grand la concentration est forte et la distribution est qualifiée de fortement inégalitaire.
- Si Mr est petit la copncentration est dite faible , et la concentration est qualifiée de faiblement
inégalitaire.
Exercice
Le tableau suivant donne la distribution des terrains classée d’après leur surface en hectare.
Q + Qi −1
i
Classes ni fi Fi=Pi ci ni ci = mi mi
qi =
M
Qi = q j si=fi i
j =1 2
[0 ; 10[ 16 0.2 0.2 5 80 0.04 0.04 0.004
[10 ; 20[ 30 0.375 0.575 15 450 0.21 0.25 0.054
20xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
[20 ; 40[ 18 0.225 0.8 30 540 0.25 0.50 0.084
[40 ; 70[ 10 0.125 0.925 55 550 0.26 0.76 0.079
[70; 100[ 06 0.075 1 85 510 0.24 1 0.066
Total 80 1 2130 = M 0.28775
Qi
0.75
0.5
0.25
. . . ……………… . ……………… .
. . . ……………. . ……………… .
21xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
xk nk1 nk1 . . . ……………… nkj ……………….. nkp
nij ni . n. j k K p p
f ij = , f. j =
, f i. = , f ij = 1 et f i. = f . j = 1
N N N i =1 j =1 i =1 i =1
L’utilité de l’étude d’une distribution statistique à deux variable se quelle permet d’identifier l’existence ou non
d’un lien entre les variables.
RQ ; Le calcule des paramètres des distributions marginales est le même que celui du chapitre 3
IV. 2 Les caractéristiques d’une distribution à deux variables
IV. 2. 1 La covariance ( Cov )
La covariance d’une distribution dont les grandeurs xi, yi -des variables X et Y – sont
individualisées c. a. d pour un même individu est donnée par :
1 N 1 N
Cov (X, Y) = ( xi − X )( y i − Y ) = x i y i − XY
N i =1 N i =1
RQ : si Cov (X, Y) = 0 on dis qu’il y a absence de relation linéaire entre X et Y , et dans ce cas la
variation de l’une des variables n’entraîne pas la variation de l’autre.
Si Cov (X, Y) > 0 X et Y sont liées positivement c. a. d que X et Y varient dans le même sens.
Si Cov (X, Y) < 0 X et Y sont liées négativement c. a. d que X et Y varient dans un sens
contraire.
IV .2 .2 La corrélation et l’ajustement linéaire
Si la représentation graphique des points (xi, yi), nuage de points, montre une configuration régulière
entre X, Y c’est à dire l’existence d’un lien entre les variables étudiées ; l’intensité (le degré) de ce lien
peut être mesuré par un coefficient appelé coefficient de corrélation linéaire.
22xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
Soit i l’écart entre la valeur observée yi et la valeur estimée ŷ i c’est à dire que : i = yi - ŷ i
2
( )
n n
i = yi - (a xi + b) = [ y i − axi − b] . On pose
i
2 2
i =1
i
2
= y i − axi − b
i =1
= f ( a, b)
23xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
En respectant les deux conditions de premier ordre de la minimisation, dans la résolution, de cette
f (a, b) f (a, b)
fonction par rapport à a et b, c’est à dire : = 0 et = 0 , on obtient :
a b
Cov( X , Y )
aˆ = et b̂ = Y − aˆX .
V (X )
Cov( X , Y ) ˆ
avec ˆ = et = X − ̂Y . Dans cette droite on cherche à expliquer X par Y.
V (Y )
L’étude de cette droite permet de prévoir X en fonction de Y.
Interprétation des coefficients aˆetbˆ
â est la pente de la droite qui indique combien varie Y en moyenne lorsque X varie d’une unité
b̂ Est une constante qui indique la valeur de Y lorsque X est nulle.
Remarque : Sur le même repère orthogonal du nuage de points de Y sur X, on peut tracer la droite
d’ajustement de X en Y, en écrivant y en fonction de X.
1
En effet on a : x̂i = ˆy i − ˆ ŷ i = ( xi − ˆ )
ˆ
IV. 2 La mesure de la qualité de l’ajustement linéaire
Le coefficient de déterminant, noté R 2 , permet de mesurer la qualité de l’ajustement linéaire
réalisé. La valeur de ce coefficient est égale au carré du coefficient de corrélation linéaire :
R 2 = â̂ = (r(X, Y)) 2
Interprétation de R 2
Le R 2 donne le pourcentage des variations de la variable dépendante dues aux variations de la
variable indépendante.
24xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
2)
xi yi xi yi xi 2 yi 2
2 147 4 49
4 4010 16 100
6 7813 36 169
8 15
120 64 225
9 20
180 81 400
13 28
364 169 784
42 93
796 370 1727
1 1 1 6 1
On a : X = xi = (42) = 7etY = 1 y i = (93) = 15.5
n i =1 6 n 6
n
1 1
Cov ( X , Y ) = xi y i − XY = (796) − (7)(15.5) = 24.17
n i =1 6
1 n 2 1 1 n 2 1
V( X) =
n i =1
x i − X 2
=
6
( 370 ) − 49 = 12.67 et V(Y) =
n i =1
y i − Y 2 = (1727) − 240.25 = 47.8
6
Cov( X , Y ) 24.17
• r(X , Y) = = = 0.9898 . r est très proche de 1 ce qui implique une
X Y 12.67 47.08
très forte corrélation linéaire positive entre X et Y ; c’est à dire que toute variation dans l’une des
variable entraîne la même variation dans l’autre variable.
Cov( X , Y ) 24.17
On a : aˆ = = = 1.908 et b̂ = Y − aˆX = 15.5 – 1.908(7)= 2.144
V (X ) 12.67
D’où ŷ i = 1.908 xi + 2.144
4) On a R2 = r2 = 0.9797 →1 ce qui implique que l’ajustement est de bonne qualité
25xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
Avec e = y i − yˆ i
26xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
2
(y − Y ) . Cependant :
N
1
On sait que la variance total de y est calculée par : V(Y) = i
N i =1
2 2 2
(y −Y ) (yˆ i − Y ) +
N N N
( yi − yˆ i )
1 1 1
i = variance résidentielle
N i =1 N i =1 N i =1
Variance due à l’ajustement (variance expliquée
On peut écrire la formule ci-dessus de la variance totale sous la forme : S y2 = S y2ˆ + S e2
(yˆ −Y )
N
2
2 i
S yˆ
- La proportion ou la part de variance expliqué par la droite est donnée par : = i =1
(y −Y )
S y2 N
2
i
i =1
N
(y − yˆ i )
2
i
S2
- La proportion ou la part de variance résidentielle est donnée par : e2 = i =1
(y −Y )
N
Sy 2
i
i =1
2
S yˆ
- Si → 1 l’ajustement est qualifié de bonne qualité
S y2
S e2
- Si → 0 l’ajustement est de bonne qualité
S y2
IV.1.3 L’ajustement non linéaire :
-
IV.1.3 L’ajustement non linéaire :
L’ajustement linéaire suppose que la forme de la fonction reliant deux variables X et Y est linéaire
d’équation :
Y = ax + b
Cependant il peut arriver que les points représentant une série double ne soient pas alignés
(linéaires), mais voisins d’une courbe connue. En tel cas, et pour pouvoir calculer les coefficients
(paramètres) de la fonction qui lie X et Y par la méthode des MCO, on doit linéariser cette fonction en
utilisant le logarithme.
En effet si la relation entre X et Y est du type :
a) Y = ae bx (exponentielle) on la linéarise comme suit : lny = ln( ae bx ) lny = lna + bx
b) Y = a x b (puissance) on la transforme à : lny = blnx + lna
c) Y = a b x (géométrique) on la transforme à : lnY = xlnb + lna. Et ainsi de suite.
Quelques conseils pour l’ajustement linéaire :
a. Faire d’abord une étude graphique, si les données le permettent. On distinguera ainsi si
un ajustement, linéaire ou non, peut se justifier.
b. Calculer le coefficient de corrélation linéaire avant d’effectuer l’ajustement. Si ce
coefficient est trop faible en valeur absolue, ne pas continuer les calculs (au besoin,
rechercher un ajustement non linéaire) .
c. Le coefficient de corrélation et la pente de la droite d’ajustement ont le même signe que
la covariance.
27xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
dans le temps ou dans l’espace, moyennant le calcul d’un rapport de deux valeurs de cette grandeur,
prix par conséquent en deux périodes différentes ou dans deux lieux différents.
Il est aussi important de pouvoir suivre l’évolution de grandeurs complexes telles que la production
agricole, les exploitations d’un pays,……..etc. C’est comparaisons se font au moyen d’indices
synthétiques. Ainsi on distingue deux types d’indices : les indices élémentaires et les indices
synthétiques.
IV : 1- Les indices élémentaires
Définition : Soit une grandeur G qui prend les valeurs : x0, x1 ,. …. xt aux dates 0, 1 ,…………,t
On appelle indice élémentaire de la grandeur G à la date t par rapport à la date 0 le rapport :
x
I t = t 100 . La date 0 est appelée date ou période de base ou de référence.
0
x0
La date t est appelée date ou période courante. On dit que l’indice à la date t est exprimé base 100 par
rapport à la date de référence.
Exemple :
Le prix d’un pain a passé de 21 um en 1996 à 70 um en 2006. L’indice de prix dans ce cas est donné
par :
P 70
I 2006 = 2006 100 = 100 = 350 que le prix du pain a connu une augmentation de 250 %
1996
P1996 20
UM entre 1996 et 2006
La propriété de la réversibilité
Les indices élémentaires vérifient la propriété de la réversibilité suivante : l’indice de la période 0 par
rapport à la période t est égal à l’inverse de l’indice de la période t par rapport à la période 0 et vis
1
versa. I 0 = 10 4
t
It
0
28xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
xtj
I tj = t
100 . Mais ils sont insu fusant pour rendre compte de l’évolution du niveau général des prix :
0
x 0
certains augmente d’autre diminuent. Il faut, donc, pouvoir résumer synthétiser par un seul indice –
qu’on appellera indice synthétique de grandeur complexe G – les différents indices élémentaires.
IV : 2-1 Les différentes formules d’indices synthétiques :
En pratique on a trois formules d’indices synthétiques : La formule de Laspeyres , de Paache et de Fisher.
IV : 2- 2 Les différents types d’indices synthétiques
En calculant un indice synthétique on peut chercher à saisir des variations de valeur de prix ou de
quantité. Quelque soit les cas, le calcul de l’indice met toujours en jeu à la fois des prix et des
quantités. E n désignons par : P0 j , Pt j , q 0j etqtj les prix et les quantités se rapportant au constituant
élémentaire j entrant dans le calcul de l’indice.
a) L’indice de valeur :
Soient P0 j , q 0j respectivement le prix et la quantité du bien j à la date 0 et Pt j , qtj respectivement le prix
et la quantité du même bien à la date t.
Considérons un panier composé de k biens ; les valeurs globales de ce panier évaluées à la date 0 et à
la date t sont respectivement données par :
k k
V
V0 = P0 j q 0j etVt = Pt j qtj . L’indice de la valeur globale est, alors, donné par : I t (vg ) = t 100 .
j =1 j =1 0
V0
b) L’indice des prix
i- L’indice de Laspeyres des prix :
Pour calculer l’évolution du niveau général des prix de la période 0 à la période t on utilise la formule
k
P
j =1
t
j
q 0j
suivante : L t ( P) = k
100 . Cette formule donne l’indice de Laspeyres des prix.
0
P
j =1
0
j
q 0
j
ii- L’indice de Paache des prix :- Le calcul e de l’indice de Paache des prix consiste à utiliser la
k
P
j =1
t
j
qtj
formule suivante : Pt ( P) = k
100 . Cette formule permet d’étudier l’évolution du niveau
0
P
j =1
0
j
qt j
c) L’indice de quantité
L’indice de quantité permet d’étudier l’évolution de la quantité globale d’une période à une autre.
i- L’indice de Laspeyres de quantité : L’étudier de l’évolution de la quantité globale de la période 0 à
k
P
j =1
0
j
qtj
la période t par l’indice de Laspeyres consiste à utiliser la formule suivante : L t (q ) = k
100 .
0
P
j =1
0
j
q 0
j
P
j =1
t
j
qtj
ii- L’indice de Paache de quantité : Cette indice est donné par : Pt (q ) = k
100 .
0
P
j =1
t
j
q 0
j
29xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
iii- L’indice de Fisher de quantité : Cette indice permet d’étudier l’augmentation ou la diminution de
la quantité globale d’une période à l’autre et il est donné par : F t (q ) = L t (q ) Pt (q ) .
0 0 0
1 1 1
NB : 1) L0/t = 10 4 , P0/t = 10 4 et F0/t = 10 4 .
Pt Lt Ft
0 0 0
2) La relation entre les indices de Laspeyres et Paache des prix et de quantité est donnée
par :
I t (vg ) = L t ( P) Pt (q ) = L t (q ) Pt ( P) .
0 0 0 0 0
Exercice :
Le tableau suivant fournit des informations sur la consommation de 4 produits a, b, c et d dans une
région au cours des deux dernières années :
Produits Prix unitaire Quantité consommée
1998 1999 1998 1999
a 10 12 3500 4000
b 35 40 2000 1500
c 20 25 2500 3200
d 15 12 1500 1500
1) Dans quel but calcule-ton les indices élémentaires ?
3) Calculer l’indice élémentaire du prix du produit a et l’indice élémentaire de quantité du produit b
en 1999 base 100 en 1998.
4) Quelle est la relation entre les indices élémentaires et les indices synthétiques ?
5) Calculer et interpréter les indices de Laspeyres de prix et de quantité en 1999 base 100 en 1998.
6) Calculer et interpréter les indices de Paache de prix et de quantité en 1999 base 100 en 1998.
7) Calculer l’indice de Fisher de prix.
La solution :
1) Le calcule des indices élémentaires permet de comparer la variation de deux grandeurs dans le
temps ou dans l’espace.
Pa 12
a
2) I 99 ( P) = 99a 100 = 100 = 120 le prix du produit a a augmenté de 20% en 1999 par
98
P98 10
b
q99 1500
rapport à 1998. I (q ) = b 100 =
b
99 100 = 75 la quantité du produit b
98
q98 2000
a diminuée de 25% en 1999 par rapport à 1998.
3) Les indices synthétiques sont des moyennes des indices élémentaires.
4) Tableau de calcule : On pose 1999= 1 et 1998= 0
Prix unitaire Quantité P0 j q 0j P0 j q1j P1 j q 0j P1 j q1j
produits consommation
1998 1999 1998 1999
a 10 12 3500 4000 35000 40000 42000 48000
b 35 40 2000 1500 70000 52500 80000 60000
c 20 25 2500 3200 50000 64000 62500 80000
d 15 12 1500 1500 22500 22500 18000 18000
Total 177500 179000 202500 206000
30xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
4
P
j =1
1
j
q 0j
202500
L1 ( P) = 4
100 = 100 = 114.08 le niveau général des prix (4 produits) a augmenté
P j 177500
0
0 q 0j
j =1
P
j =1
0
j
q1j
179000
L 1 (q) = 4
100 = 100 = 100.84 qu’entre 1998 et 1999 la quantité globale (4
P j 177500
0
0 q 0j
j =1
P j =1
1
j
q1j
206000
5) P1 ( P) = 4
100 = 100 = 115.08 le niveau général des prix (4 produits) a
P j 179000
0
0 q1j
j =1
P
j =1
1
j
q1j
206000
P1 (q ) = 4
100 = 100 = 101.73 qu’entre 1998 et 1999 la quantité globale
P j 202500
0
1 q 0j
j =1
(4 produits) a augmenté de 1.84%.
RQ : La différence qui existe entre l’indice de Laspeyres de prix et Paache de prix et celle entre
l’indice de Laspeyres de quantité et Paache de quantité nous a poussé a calculé un autre indice
appelé indice de Fisher, qui est une moyenne de ces deux indices.
6) F1 ( P) = L1 ( P) P1 ( P) = 114.08 115.08 = 114.58.
0 0 0
31xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
Définition : On appelle arrangement de p éléments pris parmi les n éléments d’un ensemble E, toute
suite ordonnée formée de p éléments de E . Le nombre des arrangements de p élément pris parmi n est
noté : Anp .
Exemple : Chaque couple de l’ensemble E = { a , b , c } est un arrangement des 2 éléments pris parmi
les trois éléments de E . D’après la formule ci-dessous on a : A32 = 3(3 − 1)(3 − 2) = 3(3 − 2 + 1) = 6 .
n!
D’une façon générale, le nombre d’arrangement sans répétition est donné par : Anp = .
(n − p )!
b) Factorielles (nombre de permutation) :
Dans la formule du nombre d’arrangement sans répétition si p = n , on définit ce qu’on appelle
factorielle ou permutation.
n! n!
Ann = = = n! car 0 ! = 1
(n − n)! 0!
Avec : n ! = n(n-1)(n-2)(n-3)…… 2 1
Permutation avec répétitions : Considérons le « mot » AABCCC, et cherchons le nombre de mots
nouveaux que nous pouvons obtenir de ce mot en permutant les lettres.
6!
Le mot est composé de 6 lettres 2A, 1B et 3C. Le nombre cherché est : = 60
2!1!3!
En général, avec n éléments se regroupant en trois type de p, q , éléments ou plus avec : p + q + r = n
n!
on obtient : .
p!q!r!
a) Combinaison :
Le nombre de manières de prendre p objets (éléments) parmi n sans prendre 2 fois le même
p
élément et sans les ordonner est noté : C n (nombre de combinaison de p éléments parmi n).
p
Pour calculer ce nombre on utilise le principe de la division : il y a An manières de tirer p
éléments en les ordonnant, et une fois qu’on a p éléments (objets) il y a p ! Manières de les
Ap n! n!
ordonner. Donc il y a n or An = (n − p )! C n = p!(n − p )! .
p p
p!
Exemple : Parmi 12 meubles fabriqués, on en prend 2 . Cherchons le nombre d’issues possibles.
Ici, 2 tirages de deux meubles ne sont différents que s’ils ne contiennent pas les mêmes éléments.
Le nombre d’issues possibles est donc le nombre de parties à 2 éléments pris parmi les 12. Il y a
12!
don : C12 = 2!(12 − 2)! = 66 .
2
33xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
Exemple : Dans le jet d’un dé normal, on considère l’événement A avoir un nombre 4 . Dans ce cas
= { 1 2 3 4 5 6 } à 6 éléments et A = { 5 ,6} à 2 éléments. Donc la probabilité de
réalisation de l’événement A est donnée par :
A = { 5 ,6} à 2 éléments. Donc la probabilité de réalisation de l’événement A est donnée par :
2 1
P( A ) = = .
6 3
Exemple : l’utilisation de l’analyse combinatoire :
Dans une salle qui tient 40 personnes ( 4 rangs de 10) et où je suis placé au hasard , quelle
chance ( probabilité) ai- je d’être au premier rang ? d’être au 1ier rang à la 1ière place à droite ?( on
suppose que j’ai autant de chance d’être placé à chacune des places.
Etre au 1ier rang
Il y a deux manières de raisonner :
- Il y a 4 rang la probabilité d’être à l’un quelconque des 4 rangs est la même, donc j’ai une
chance sur 4 d’être au 1ier rang. P( être au 1ier rang ) = 1/4.
40!
10
Il y a C 40 10
manières de choisir les personnes du 1ier rang, avec : C 40 = . Ce sont les cas
10!30!
possibles. Pour chercher le nombre de cas favorables parmi ceux – ci , on constate que , moi placé au
39!
9
1ier rang , il reste C 39 manière de choisir les autres personnes du 1ier rang , avec C 399 = .
9!30!
39!10!30! Nombredecasfavorables C 399 1
Donc : P{ être au 1ier rang} = = = 10 =
40!9!30! Nombredecaspossible C 40 4
VI. 3 . 3 La probabilité conditionnelle.
Soient A et B deux événements d’un ensemble fondamental muni d’une loi de probabilité Pr . On
s’intéresse à ce que devient la probabilité de A lorsqu’on apprend que B est déjà réalisé, c’est à dire
lorsqu’on restreint l’ensemble des résultats possible de à B . La probabilité conditionnelle de A ,
sachant que l’événement B est réalisé, est notée Pr ( A/B ) et est définie par la relation suivante :
Pr( A B)
Pr( A / B) = ,avec Pr (B )
Pr( B)
0
VI. 3. 4 L’indépendance des événements : Soient A et B deux événements, on dit que A est
indépendant de B si :
Pr ( A/B) = Pr ( A ) ou encore si : Pr ( A B ) = Pr ( A ) .
Pr ( B )
Propriété : Si A et B sont indépendants alors les événements A et B , les événements A et B
et les événements A et B le sont aussi.
Exercice : Dans une entreprise, la probabilité pour qu’un ouvrier A quitte l’entreprise dans l’année est
0.2 et la probabilité pour qu’un cadre B quitte l’entreprise est 0.125.
En supposant que les deux événements sont indépendants ; calculer la probabilité que :
1) A et B quittent l’entreprise.
2) L’un des deux quitte l’entreprise.
3) Ni A ni B ne quittent l’entreprise.
4) B seulement quitte l’entreprise.
La solution :
Soit A l’événement l’ouvrier A quitte l’entreprise, B l’événement le cadre B quitte l’entreprise. Donc :
1) P( A B ) = P( A) P( B ) = 0.2 0.125 = 0.025.
2) P( A B ) = P( A ) + P ( B ) - P( A B ) = 0.2 + 0.125 – 0.025 = 0.3 .
3) P( A B ) = P( A B) = 1 – P( A B )= 1 – 0.3 = 0.7;
R.Q: P( A B ) = P( A ) P( B ) = 0.8 0.875 = 0.7
34xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
VI . 4 Théorème de Bayes:
a) Cas de deux événements : Soit A et B deux événements tels que P( B ) 0 et P( B ) 0. Dans
ce cas
B B = A = A (B B ) = ( A B ) ( A B ).
On a B B = (A B ) ( A B ) = et :
P ( A ) = P( A B ) + P ( A B )…………………………………(1).
P( A B)
D’après la probabilité conditionnelle on a : P( A / B ) = P( A B ) = P(A/B ) P( B)
P( B)
P( A B )
P( A/ B ) = P ( A B )= P( A/ B ) P( B ).
P( B )
La formule (1) peut être écrite sous la forme:
P( A ) = P( B ) P( A/ B ) + P ( B ) P( A/ B )……………………..(2).
P( B) P( A / B)
(2) en (3) P( B/ A ) =
P( B) P( A / B) + P( B ) P( A / B )
Cette formule représente le théorème de Bayes dans le cas de deux événements.
b) Cas général : En cas d’un système complet d’événements :
B1,……………. ,B2 de probabilités toutes non nulles.
i. Ω = im=1 Bi A = A = A ( im=1 Bi ) = im=1 ( A Bi )
Les Bi sont deux à deux incompatibles, donc les ( A Bi ) sont également deux à deux incompatibles
et par la suite on a :
m
P( A ) = P ( im=1 ( A Bi ) = P( A Bi ) .
i =1
P( B1 ) P( A / B1 )
(1) en (2) P (B1 / A) =
P( B1 ) P( A / B1 ) + ...... + P( Bm ) P( A / Bm )
Cette formule représente la formule générale du Théorème de Bayes.
Le théorème de Bayes s’applique naturellement quand l’événement A dépend des l’événements B i ,
qui sont alors appelés des causes.
Exercice :
Dans une entreprise 20% des employés ont un diplôme en gestion des affaires. Parmi ceux-ci 70%
ont des postes de cadre. Toutefois parmi ceux qui n’ont pas de diplôme en gestion des affaires 15% ,
occupent un poste de cadre. Si on sélectionne un cadre au hasard, quelle est la probabilité qu’il soit un
diplômé en gestion des affaires.
35xi X
Cours de Statistique : Par Mr : SADFY Ould Sidi Mohamed : sadmed@yahoo.fr
L a solution :
Soit A l’événement l’employé est diplômé en gestion des affaires A est l’événement l’employé
n’est pas diplômé en gestion des affaires.
D’après les informations on a : P(A) = 0.2 et P( A ) = 1 - P( A) = 0.8 .
Notons B l’événement l’employé choisi est un cadre.
On sait que : P(B/A) = 0.7 et P(B/ A )= 0.15.
Pr( A B)
Pr( A / B) = . D’après la formule de Bayes on a :
Pr( B)
Pr( A) P( B / A) 0.2 0.7
Pr( A / B) = = = 0.5384
Pr( A) P( B / A) + P( A ) P( B / A ) 0.2 0.7 + 0.8 0.15
36xi X