Vous êtes sur la page 1sur 228

Statistique

Dr. KHALFAOUI S.
Objectif
Ensembles de méthodes dont le but est de
présenter les données pour que l'on puisse en
prendre connaissance facilement.
Cela peut concerner :
 une variable à la fois : statistique à une dimension,
 deux variables à la fois : statistique à deux
dimensions,
 plus de deux variables à la fois : statistique
multidimensionnelle.
Objectif

Connaître les grands aspects de la


statistique ainsi que son utilité
dans le domaine de la géologie
Ces méthodes comportent :
 Les tableaux : distributions de
fréquences.
 Les diagrammes : graphiques.

 Les paramètres statistiques :

 Réduction des données à quelques valeurs


numériques caractéristiques.
Statistique

« C ’est un ensemble de méthodes


permettant de décrire et d ’analyser,
de façon quantifiée, des phénomènes
repérés par des éléments nombreux,
de même nature, susceptibles d ’être
dénombrés et classés. »
QU’EST CE QUE LA
STATISTIQUE DESCRIPTIVE?
La Statistique Descriptive est l'ensemble
des méthodes et techniques permettant
de présenter, de décrire et de résumer
des données numériques
nombreuses et variées.
Représentation des données
Le graphique
Sous quelle forme se présentent les
données statistiques ?

Exemple 1 : Pour étudier la répartition


des terres agricoles d'une région, on
peut faire l'inventaire des exploitations
agricoles (soit n leur nombre), et noter
pour chacune d'elle sa taille (en
hectares).
L'ensemble des n exploitations s'appelle
la population statistique étudiée;
chacune des exploitations est un
individu, ou une unité statistique. La
taille (en ha) est la variable statistique
(ou caractère) étudiée.
Le but de l'étude est de voir comment
cette variable varie sur la population :
les tailles des exploitations sont elles
comparables ou très différentes, et dans
quelle mesure ?
Le résultat de la mesure de la variable
"taille" sur les individus "exploitations" est
un ensemble de n nombres, appelé série
statistique brute.
Sur la même population, on aurait pu
s'intéresser à d'autres variables telles l'âge
du chef d'exploitation, la culture dominante,
etc.. On remarquera que le résultat de
l'observation peut être exprimé sous forme
littérale (blé, etc...) ou numérique.
On présente alors souvent les résultats sous
forme d'un tableau 'individus x variables'.
Age du chef Nombre de
N° Exploitation Taille (ha) Culture dominante
d'exploitation (années) personnes employées
1 50 50 blé 2
2 50.5 45 vigne 4
3 35 38 orge 3
4 62.1 25 blé 6
5 20 65 vigne 1
6 10 57 vigne 1
. . . . .
. . . . .
630 56 45 blé 2

Dans le tableau présenté ci-dessus, il y a :

combien d'individus ?
combien de variables ?
Exemple 2 : Un contrôleur doit vérifier le bon
fonctionnement d'une chaîne d'embouteillage.
On considère que le remplissage est correct
si le contenu des bouteilles se situe entre 74
cl et 76 cl.
Il note exactement le contenu de 100
bouteilles testées (en cl) :
74.3     75.2     73     75     75.6     ....
Il s'agit d'une série statistique brute
résultant de la mesure de la variable (ou
caractère) ……..sur les individus (ou
unités statistiques)…..… ?

La population étudiée comporte


….. individus.
D'autre part, si on s'intéresse uniquement à l'aspect
"correct" ou non du remplissage (c'est-à-dire au contenu
compris entre 74 et 76 cl ou pas), on peut définir comme
ci-dessous une variable "qualité".
Contenu Qualité
1 74.3 Bonne
2 75.2 Bonne
3 73 Mauvaise
4 75 Bonne
5 75.6 Bonne
... ... ...
98 76.1 Mauvaise
99 74.2
100 72

Le tableau de données brutes ci-dessus comporte :

individus ?
variables ?
Notons que la statistique descriptive
traite des propriétés des populations,
plus que de celles d'individus
particuliers. Ainsi pour la population de
100 bouteilles, on s'intéressera à la
proportion de bouteilles trop ou pas
assez remplies, et non au fait que la
10ème bouteille testée était ou non bien
remplie.
En résumé la statistique descriptive
s'applique au cas où l'on dispose
des valeurs prises par une ou
plusieurs variables statistiques sur
un ensemble d'individus, la
population statistique.
Les différents aspects de la
statistique descriptive
La Statistique Descriptive est
l'ensemble des méthodes et techniques
permettant de présenter, de décrire, de
résumer, des données nombreuses et
variées.
Il faut préciser d'abord quel est
l'ensemble étudié, appelé population
statistique, dont les éléments sont des
individus ou unités statistiques.
Chaque individu est décrit par une ou
plusieurs variables, ou caractères
statistiques.
Chaque variable peut être, selon le cas
1. Quantitative : ses valeurs sont des
nombres exprimant une quantité,
sur lesquels les opérations
arithmétiques (somme, etc...) ont un
sens.
La variable peut alors être discrète ou
continue selon la nature de
l'ensemble des valeurs qu'elle est
susceptible de prendre (valeurs
isolées ou intervalle).
Exemples
 Taille
 Chiffre d’affaire

 Nombre d’enfants
2. Qualitative :
ses valeurs sont
des modalités, ou catégories,
exprimées sous forme littérale
ou par un codage numérique.
Exemple : taille de vêtement :

XS < S < M < L < XL < XXL

Il faudra, notamment pour les représentations graphiques, présenter toujours les


modalités dans l'ordre.

Répartition d'une population en fonction de sa taille vestimentaire


Exemples de caractère qualitatif:
qualité d’une facture (correcte, erroné)
culture dominante d'une exploitation
Dans le cas particulier où il n'y a que
deux modalités, on dit que la variable
est dichotomique.
( Sexe (M ou F, 1 ou 0), qualité (bonne
ou mauvaise), etc..)
Les variables seront ensuite
analysées différemment selon
leur nature (quantitative,
qualitative, etc.), au moyen de
tableaux, graphiques, calcul
de paramètres-clé.
STATISTIQUE
DESCRIPTIVE TABLEAUX
ET GRAPHIQUES
A partir d'un tableau individus x
variables, on fera dans un premier
temps une description
unidimensionnelle de chacune des
variables, prise séparément.
Nom Situation de Nombre Age Salaire
famille d’enfants
M. Faouzi Marié 2 30 12500

M.Ali Veuf 3 45 8700

Mme Afaf Mariée 0 27 13000

Melle Badia Célibataire 0 32 7500

M. Said Marié 1 39 5200

…. …. …. …. ….
Le nombre d'individus étant généralement
grand, voire très grand, une telle série brute
est difficilement lisible et interprétable. Il
est indispensable de la résumer.

Pour cela, on commence par un tri à plat,


décompte des modalités ou valeurs
obtenues, qui nous servira de base à la
construction de tableaux et de graphiques.
Le but est d'obtenir des résumés
clairs et concis, mais en conservant
l'essentiel de l'information contenue
dans les données initiales, et en
utilisant des techniques objectives
ne donnant pas une image déformée
de la réalité.
DEVELOPPEMENT
I. Les tableaux

On a noté la situation familiale des 150


employés d'une entreprise.
Noms Situation de famille
M.Azim Marié
MFarid Veuf
Mme Latifi Mariée
Melle Fatiha Célibataire
M. Ahmed Divorcé
M. Salih Marié
M. Berrada Divorcé
Mme Réda Divorcée
Melle Fatiha Célibataire
M. Halim Marié
M. Chadi Veuf
Mme Faouzi Mariée
... ...
On ne s'intéresse pas à la situation
personnelle de M. Azim ou de M. Farid, mais
à la répartition du caractère "situation
familiale" dans la population des 150
employés.
Pour cela il faut, pour chacune des modalités
de la variable, déterminer l'effectif
correspondant, c'est-à-dire le nombre de
personnes ayant cette modalité : il faut
dénombrer le nombre de célibataires, le
nombre de mariés, etc..
Cela peut se résumer par :

Modalités Effectifs
Marié 80
Célibataire 30
Veuf 20
Divorcé 20
On notera x1, x2, ..., xk les différentes
modalités, et n1, n2, ... , nk les effectifs
associés.
Dans le tableau ci-dessus, x1 = "marié",
n1 =
k=
La somme des effectifs vaut :
La variable que nous venons de voir
est…
On aurait pu tout aussi bien présenter les résultats
sous la forme ci-dessus, par exemple.

Modalité Effectif
Célibataire 30
Marié 80
Divorcé 20
Veuf 20
Par contre, s'il s'agit d'une variable ordinale, les
modalités sont toujours présentées dans l'ordre :
x1  x2  ....  xk , comme dans l'exemple ci-dessous.

Effectifs = Nombre de personnes de


Modalités = tailles
cette taille
XS 10
S 25
M 40
L 32
XL 23
XXL 20
De même, pour une variable discrète,
on notera x1 , x2 , ... , xk les valeurs
rangées par ordre croissant, et n1 ,
n2 , ... , nk les effectifs correspondants.
Noms Nombre d'enfants
M.Azim 2
MFarid 3
Mme Latifi 0
Melle Fatiha 0
M. Ahmed 1
M. Salih 0
M. Berrada 1
Mme Réda 0
Melle Fatiha 2
M. Halim 4
M. Chadi 1
Mme Faouzi 3
M. Ali 2
Melle Loubna 0
M Fatih 0
M. Said 1
M. Radi 2
Mme Faraj 2
Ainsi, à partir de la série brute ci-
dessus, construisez le tableau :

Nombre d'enfants xi Effectifs ni


0 6
L'ensemble des couples
{ (xi , ni ), i = 1, ... , k }
est une série statistique (ordonnée), ou distribution
observée de la variable.
La somme de tous les ni est-elle toujours égale à n,
nombre des observations ?
On notera ceci :

effectif total
Pour ce qui est des variables continues, on
peut faire de même. Voyons l'exemple
d'une série brute de 60 valeurs du CA
mensuelle d’une entreprise (en 1000dh), et
le tableau des effectifs obtenus.

L'inconvénient est que, comme on aura


toujours un grand nombre de valeurs
différentes, on obtiendra un grand nombre de
petits effectifs, ne résumant finalement pas
grande chose !
CA (1000dh) Effectifs CA (1000dh) Effectifs
159 1 169 7
160 0 170 7
161 0 171 9
162 0 172 6
163 2 173 5
164 3 174 2
165 3 175 1
166 0 176 2
167 5 177 1
168 6 Total : 60
Une variable continue ne prend pas des
valeurs isolées, mais des valeurs
appartenant à des intervalles. C'est
pourquoi, au lieu de définir des effectifs
par valeurs, on définira des effectifs par
intervalles, appelés classes.
Afin de simplifier la présentation on peut,
quitte à perdre un peu d'information,
regrouper les effectifs proches, par exemple
175 d’ effectif 1
176 d’ effectif 2
177 d’ effectif 1
peut être remplacé par [ 175 ; 178 [ d’ effectif
4.
On découpera ainsi l'intervalle des
valeurs en classes contiguës, de la
forme :
[ e1 ; e2 [    [ e2 ; e3 [    [ e3 ; e4 [ ....
[ ek ; ek+1 [
et on notera n1, n2, ... , nk les effectifs
associés.
ni est le nombre d'individus appartenant
à la classe [ ei ; ei+1 [.
Exemple 1
Classes de CA ( en 1000dh) Effectifs
[159 - 165 [ 6
[165 - 168 [ 8
[168 - 171 [ 20
[171 - 174 [ 20
[174 - 177 [ 5
[177 - 179 [ 1
Exemple 2

Classes de CA ( en 1000dh) Effectifs


moins de 160 1
[160 - 165 [ 5
[165 - 170 [ 21
[170 - 175 [ 29
175 et plus 4
Le choix des classes est parfois délicat. A
priori tout choix tel qu'on ait des classes
contiguës recouvrant l'ensemble des valeurs
est correct : chaque individu appartient à
une classe et une seule ;
mais il faut dans la mesure du possible des
classes d'amplitudes égales, en nombre
suffisant pour ne pas schématiser trop
grossièrement les données (par exemple
ne pas limiter la série précédente à :
«moins de 170000dh» et «plus de
170000dh» mais pas trop pour ne pas
avoir un tableau interminable avec
beaucoup de tout petits effectifs.
Quel que soit le type de variable on a
finalement, pour toute modalité, valeur
xi , ou classe [ ei , ei+1 [, un effectif ni , tel
que

Il est parfois utile, surtout pour faire des


comparaisons entre plusieurs séries, de
raisonner plutôt avec des effectifs
relatifs(fréquences).
On appellera fréquence(relative) la valeur

que l'on peut aussi exprimer en


pourcentage par fi x 100, c'est le
pourcentage d'individus pour lesquels la
variable a pris la valeur xi , ou une valeur
de la classe [ ei , ei+1 [.
Complétez le tableau :
Modalités xi Effectif ni Fréquence fi %
Célibataire 30 0.2 20

Marié 80

Divorcé 20

Veuf 20

Effectif total : 150

A quoi est égal ici le total de la colonne fréquence ?


Et celui de la colonne "pourcentage" ?
Il y a, parmi les 150 employés, …….% qui sont mariés.
Voyons un autre exemple : Pour étudier
les appels téléphoniques arrivant à un
central, on a noté, sur 96 jours
comparables, le nombre d'appels reçus
entre 9 h et 9 h 10. Les résultats sont
consignés dans ce tableau :
Quelle est la proportion de jours où le
nombre d'appels a été de 2 ?

Nombre Nombre de Fréquences


% fi  100
d'appels xi jours ni fi
0 2 0.0208 2.08
1 14 0.1458 14.58

2 23 0.2396 23.96

3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
Combien y-a-t-il eu de jours où le nombre
d'appels a été inférieur ou égal à 2 ?

Nombre Nombre de Fréquences


% fi  100
d'appels xi jours ni fi
0 2 0.0208 2.08
1 14 0.1458 14.58

2 23 0.2396 23.96

3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
Quelle est la proportion de jours où le
nombre d'appels a été supérieur ou égale
à 3?

Nombre Nombre de Fréquences


% fi  100
d'appels xi jours ni fi
0 2 0.0208 2.08
1 14 0.1458 14.58

2 23 0.2396 23.96

3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
Plus généralement, si
{ (xi , ni ), i = 1, ..., K }
est la distribution observée d'une variable
discrète, n1 + n2 + ... + ni = Ni est le
nombre d'individus pour lesquels la
variable a été inférieure ou égale à xi..
On peut calculer Ni de proche en proche :
N1 = n1, N2 = N1 + n2, N3 = N2 + n3, etc ...
Les Ni sont les effectifs cumulés
croissants.
De même ni + ni+1 + ... + nk = N'i est le
nombre d'individus pour lesquels la
variable a été supérieure ou égale à xi.
Il peut se calculer de proche en proche :
N'k = nk , N'k-1 = nk + nk-1 ,
Les N'i sont les effectifs cumulés
décroissants.
On peut définir de même :
Fi = f1 + f2 + ... + fi , fréquences cumulées
croissantes obtenues de proche en proche
par Fi+1 = fi+1 + Fi
 F'i = fi + fi+1 + ... + fk , fréquences cumulées
décroissantes obtenues de proche en
proche par F'i = F'i+1 + fi
Fi et F'i peuvent s'exprimer aussi en
pourcentage (en multipliant tout par 100).
Complétez le tableau :
Nombre Fréquence Fréquences cumulées Fréquences cumulées
d'appels en % croissantes décroissantes

0 2.08 2.08

1 14.58 16.66 97.92


2 23.96 83.34

3 25.00 65.62 59.38

4 18.75 84.37

5 9.38 93.75 15.63


6 6.25 6.25
Les définitions d'effectifs et de
fréquences cumulés restent les
mêmes dans le cas d'une variable
continue.
II. Les graphiques

Pour visualiser une distribution


statistique, il est généralement plus
parlant d'utiliser un graphique, à la
place ou en complément du tableau.
Variable Qualitative
Dans le cas d'une variable qualitative, les
modalités ne peuvent pas être
représentées sur un axe, selon une échelle
donnée, car elles ne sont pas numériques.

On utilise surtout dans ce cas des


diagrammes circulaires : chaque modalité
est représentée par un secteur circulaire
dont l'angle (et donc la surface) est
proportionnel à son effectif.
Situation
Effectifs
familiale
Célibataire 30
Marié 80

Divorcé 20

Veuf 20
Total : 150
Une représentation équivalente
consiste à construire un
diagrammes en barres : chaque
rectangle a une base constante et
une hauteur proportionnelle à
l'effectif ni ou à la fréquence fi .
CSP ni fi
Cadres 10 0,05
Agents de maîtrise 40 0,2
Employés 60 0,3
Ouvriers 90 0,45

90
80
70
60
50
40 Série1

30
20
10
0
cadres ouvriers employés ouvriers
Variable Quantitative

Dans le cas d'une variable quantitative,


les valeurs observées, numériques,
seront toujours placées selon un axe,
en suivant une échelle précise.
Cas des séries chronologiques

On représente directement les données


brutes en ordonnée, l'échelle du temps
étant placée en abscisse. Le temps
étant continu, on relie par des segments
de droite les points obtenus.
Cas d’une variable discrète
Après un tri à plat conduisant à la
distribution observée, on représente
celle-ci par un diagramme en bâtons les
xi sont placés suivant une échelle sur
l'axe des abscisses, et les effectifs ni
sont matérialisés par un "bâton" de
longueur ni (axe des ordonnées).
Nombre d'enfants xi Effectifs ni Fréquences fi
0 6 0.33
1 4 0.22

2 5 0.28

3 2 0.11
4 1 0.06
18 1
Cas d'une variable continue
On a vu que si l'on compte les effectifs
par valeur on risque souvent d'avoir un
trop grand nombre de valeurs
différentes, avec de trop faibles
effectifs, et qu'il convient de regrouper
les données en classes.
Variable quantitative
continue: représentée sous
forme d'un histogramme :
Un histogramme est une surface
composée d'une suite de rectangles
adjacents dont la hauteur de chacun est
proportionnelle à l'importance de
chaque classe, avec éventuellement une
correction des fréquences ou effectifs si
les amplitudes des classes ne sont pas
égales
Nombre de
personnes
Age (ans)
dans cette
tranche d'âge

20 à 30 100
30 à 40 150
40 à 50 90
50 à 65 20
La correction des effectifs ou des
fréquences se fait en trois
étapes :
Première étape: calcul des amplitudes
des classes ai.
Deuxième étape: Choix d'une
amplitude de base a (généralement
l'amplitude la plus petite) et calcul du
rapport amplitude de la classe sur
l’amplitude de base (ai/a)
Troisième étape : calcul des effectifs
corrigés : ni' = ni/(ai/a) ou fi'= fi/(ai/a)
Exemple : Considérons la
distribution suivante :

xi fi en %
[0 - 10[ 10
[10-20[ 15
[20 - 30[ 35
[30 - 50[ 30
[50 - 70[ 8 20 2 4
[70 - 80[ 2
La correction se fait de la
manière suivante :

xi fi en % ai ai/a fi en % corrigée
[0 - 10[ 10 10 1 10
[10 - 20[ 15 10 1 15
[20 - 30[ 35 10 1 35
[30 - 50[ 30 20 2 15
[50 - 70[ 8 20 2 4
[70 - 80[ 2 10 1 2

Total 100 - -
L’histogramme se présente
ainsi :
fi en %

xi
PARAMETRES STATISTIQUES
Les paramètres statistiques ont
pour but de résumer, à partir de
quelques nombres clés,
l'essentiel de l'information
relative à l'observation d'une
variable quantitative.
On définira plusieurs sortes de paramètres :
Certains, comme la moyenne, seront dits de
tendance centrale car ils représentent une
valeur numérique autour de laquelle les
observations sont réparties.
D'autres, par exemple, seront dits de
dispersion car ils permettent de résumer le
plus ou moins grand étalement des
observations de part et d'autre de la tendance
centrale.
I - Paramètres de tendance
centrale
La moyenne arithmétique d'une série statistique
(xi, ni) se calcule de la manière suivante :

La moyenne s'exprime toujours dans la même unité que


les observations xi . Elles peut être décimale, même si les
xi sont entiers par nature.
Nombre
Fréquences fi % fi x 100
d'appels xi
0 0.0208 2.08
1 0.1458 14.58

2 0.2396 23.96

3 0.2500 25.00
4 0.1875 18.75
5 0.0938 9.38
6 0.0625 6.25
Total : 1 100

Ainsi la moyenne arithmétique du


nombre d'appels reçus à un standard
est : 2,97 appels
Plus généralement, lorsqu'on ne
dispose que de la distribution
regroupée en classes

Classes de
Effectifs Centre de classe
valeur

[ e1 e2 [ n1 x1

[ e2 e3 [ n2 x2

... ... ...

[ ei ei+1 [ ni xi = ei + ei+1 / 2

... ... ...

[ eK eK+1 [ nK xK

Total : n
on calculera la moyenne par :

xi étant le centre de classe.


Dans une entreprise de 100 salariés, le
salaire moyen est égal à 8 400 Dh.
Supposons qu'une erreur se soit glissée
lors de la transcription des salaires.
Monsieur Dahbi est crédité d'un salaire
de 108 000 DH au lieu de 8 000 Dh.
De combien augmenterait la moyenne ?
La nouvelle moyenne est de : …….

Une seule valeur (sur 100) peut donc beaucoup modifier la moyenne.

La moyenne arithmétique est sensible aux valeurs extrêmes.


Remarque 1:
Pour plusieurs populations d'effectifs n1,
n2, ....., nk, de moyennes respectives :

moyenne globale = moyenne des moyennes


Comparons le salaire moyen dans 2 entreprises

Entreprise A :
1/ 3 de femmes , salaire moyen 8000Dh
2/3 hommes, salaire moyen 11000
Dans l'entreprise A le salaire moyen est de : ….

Entreprise B :
2/ 3 de femmes , salaire moyen 9000Dh
1/3 hommes, salaire moyen 12000
Dans l'entreprise B le salaire moyen est de : ….
On constate donc que le salaire moyen
de B est égal à celui de A. Pourtant le
salaire moyen des hommes est
supérieur en B à celui des hommes en
A. Il en est de même pour les femmes.
D'où vient ce résultat paradoxal ?
Il s'agit d'un effet de structure : cela
vient du fait que les femmes (au salaire
plus bas) sont plus nombreuses en B
qu'en A.
Cela montre aussi qu'une moyenne ne
résume pas bien une population
hétérogène, comprenant des sous-
populations différentes vis à vis du
caractère étudié (ici le salaire).
La médiane : M
Si la série brute des valeurs observées est
triée par ordre croissant :

la médiane M est la valeur du milieu, telle


qu'il y ait autant d'observations "au-dessous"
que "au-dessus".
c'est-à-dire que
Si n est impair, soit n = 2 p + 1 ,
M = x(p+1)
Si n est pair, soit n = 2 p, toute valeur de
l'intervalle médian [ x(p) ; x(p+1) ] répond à la
question.
Afin de définir M de façon unique, on choisit
souvent

soit le centre de l'intervalle médian.


Par exemple, la
médiane de la série
de tailles ci-contre
est :
M= (m)
Aurait-elle été
différente si on avait
noté par erreur la
plus petite taille 0.55
m au lieu de 1.55 ?
En est-il de même
pour la moyenne ?
* Cas d'une variable continue:

Pour des données groupées en classes,


la classe médiane est la classe qui
contient la médiane. On détermine la
médiane par interpolation linéaire.
Salaire horaire ni ni cumulées croissantes
2-4 5 5
4-6 8 13
6-8 12 25
8-10 10 34
10-12 8 43
Total 43

La médiane est la valeur de rang (43 + 1) / 2 c’est


à dire 22, celle ci se trouve dans la classe 6‑8, la
classe 6 ‑ 8 est donc la classe médiane.
De manière générale, si a et b sont les
bornes de la classe contenant la
médiane, F(a) et F(b) les valeurs de la
fréquence cumulée croissante en a et b,
alors
Dans le cas d'une variable groupée en classes,
en peut calculer la médiane par la formule
suivante :
n
ai (  N i 1 )
Me  L0  2
ni

Lo : Limite inférieure de la classe médiane


ai : Amplitude de la classe médiane
n : Nombre total des observations
Ni‑1 effectif cumulé croissant de la classe inférieure à la
classe médiane
ni : effectif de la classe médiane
Le mode
C'est la valeur dont la fréquence est la plus élevée.

Détermination du mode :

Cas d'une variable discrète : Le mode


est facilement repérable. Sur le tableau
statistique, c'est la valeur xi pour
laquelle la fréquence est la plus élevée
Cas d'une variable continue : les données sont
groupées en classes ; deux situations se
présentent: les amplitudes sont égales ou non
égales.
1/ Les amplitudes sont égales : on définit la classe
modale comme la classe correspondant à la
fréquence la plus élevée et en faisant l'hypothèse
du centre de la classe, on retient comme valeur
modale le centre de la classe modale.
2/ Les amplitudes sont inégales : il faut corriger les
effectifs ou les fréquences relatives de la même
manière que pour la construction de
l'histogramme. la détermination du mode se
ramène alors au cas précédent.
Classes Effectifs

0-5 3
5-10 10
10-50 20
50-100 1
Si la distribution présente 2 ou plus maxima
relatifs, on dit qu'elle est bimodale ou
plurimodale. Cela signifie que la population
est hétérogène du point de vue de la variable
observée.

La population est composée de plusieurs


sous-populations ayant des caractéristiques
de tendance centrale différentes.
Positions respectives du mode, de la
médiane et de la moyenne pour une
distribution unimodale. 
Lorsque la distribution est symétrique les trois
paramètres sont confondus.
Lorsque la distribution est asymétrique, la
médiane est généralement située entre le
mode et la moyenne et plus proche de cette
dernière.
Paramètres de dispersion

Deux distributions peuvent, tout en


ayant des caractéristiques de
tendance centrale voisines, être très
différentes.
Il est donc nécessaire de mesurer la
dispersion des valeurs autour des
tendances centrales.
L'Étendue : R
L'étendue (ou amplitude) d'une série
statistique est la différence entre la
valeur maximum et la valeur minimum
de la série.
R = Maximum (X) - Minimum (X)
Facile à déterminer, l'étendue ne
dépend que des 2 observations
extrêmes qui sont parfois le fait de
situations exceptionnelles.
Il est donc difficile de considérer
l'étendue comme une mesure stable de
la dispersion.
Ecart interquartile
Afin de diminuer l'influence des valeurs
extrêmes on peut tenir compte de
valeurs plus stables de la distribution.
intervalle interquartile [ Q1 , Q3 ] ou écart
interquartile = Q3 - Q1
Pour mesurer la dispersion de part et
d'autre de la moyenne, il faut mesurer
l'ordre de grandeur des xi
A quoi est égal
La variance est très utilisée, c'est

moyenne des carrés des écarts à la


moyenne.
C'est pourquoi on le note V(x),  étant l'écart-type

1
 ( x) 
n
 ni( xi  x)²
 s'exprime, contrairement à la variance, dans la
même unité que les xi
Une variance (et donc un écart-type) est
d'autant plus faible que les données sont
groupées autour de

car en moyenne les écarts sont plus faibles.


Si les données sont groupées, on a :

1
V ( x) 
n
 ni( xi  x)²

les xi étant les centres de classes dans le


cas continu,
On calcule généralement l'écart-type en
complément de la moyenne.
Pour les calculs, il est souvent plus commode,
plutôt que de calculer
1
V ( x) 
n
 ni( xi  x)²
de calculer

1
V(x) nixi² x
2

n
Nombre d'enfants Nombre de
xi salariés ni
Calculons par 0 6
exemple l'écart-type 1 4

de la série "nombre 2 5
3 2
d'enfants par
4 1
famille" Total : n = 18

V(x) =
donc
 = enfants
Le coefficient de variation :

Le coefficient de variation est le rapport


de l'écart‑type par rapport à la
moyenne.

Le coefficient de variation est


indépendant des unités choisies, il est
utile pour comparer des distributions
qui ont des unités différentes.
La variance, l'écart‑type et le coefficient
de variation sont les paramètres de
dispersion les plus utilisés.

En particulier, le coefficient de variation


permet de comparer la variabilité
relative de plusieurs distributions qui
diffèrent fortement par leur ordre de
grandeur et éventuellement même par
leur unité de mesure
Synthèse
En plus des tableaux et graphiques, on
résume l'observation d'une variable
quantitative par un petit nombre de
paramètres.
III/ Description bivarié :
La statistique descriptive à deux
dimensions a essentiellement pour but
de caractériser les relations qui
existent entre deux séries
d'observations considérées
simultanément. Ces observations
peuvent être de nature qualitative ou
quantitative, continue ou discontinue.
Exemple :
Afin d'étudier la répartition des terres
agricoles d'une région, on a noté un
certain nombre de renseignements sur
chaque exploitation, notamment :
sa taille (surface, en hectares),
l'âge du chef d'exploitation,
le type de culture pratiquée,
le nombre de personnes employées à
temps plein sur l'exploitation
Le résultat est présenté sous la forme du tableau ci-
dessous , individus  variables

Age du chef Nombre de


N° Taille Culture
d'exploitation personnes
Exploitati (ha) dominante
(années) employées
on
1 50 50 blé 2
2 50.5 45 vigne 4
3 35 38 orge 3
4 62.1 25 blé 6
5 20 65 vigne 1
6 10 57 vigne 1
... ... ... ... ...
198 56 45 blé 2
Nous pouvons maintenant décrire
chacun des caractères, un par un :
Taille
Age
Culture
employés
Mais ceci ne nous permet pas de mettre en
évidence les liens existant peut être entre la
taille et l'âge : les jeunes exploitants ont-ils
des surfaces comparables, inférieures,
supérieures à celles de leurs aînés ?

De même, le type de culture pratiqué est-il le


même quelle que soit la surface ? Le nombre
d'employés est-il fonction du type de culture,
etc...
1. Les tableaux statistiques :
1.1 série statistique double :
Nombre de Nombre de
visites de commandes yi
prospection xi
152 26
155 27
160 28
155 28
162 29
164 30

Y-a-t-il une liaison entre les deux


variables présentées?
Tableau de contingence :
Considérons N individus décrits
simultanément selon deux caractères X
et Y.
X possède k modalités : x1, x2, x3, …….,
xi, …….xk
Y possède p modalités: y1, y2, y3,……..,
yj,……..yp
yj Y1 y2 y3…………….yj…………………yq ni.
xi
x1 n11 n 1.
x2 …………….n32 n 2.
. .
. .
. .
xi ……………………….....nij n i.
. .
. .
. .
xp …………………………………………………npq n p.

n .j n.1 n.2 n.3……….…n.j……………….n.q n ..


Exemple de tableau de contingence :
Montant du CA Montant des achats : yj Total
mensuel xi 0- 200- 400- 600- 800- 1200-
200 400 600 800 1200 1500
[0 - 2000[ 6 4 1 2 0 0 13
[2 000 - 4 000[ 5 3 4 2 0 0 14
[4 000 - 6 000[ 4 8 9 1 3 0 25
[6 000 - 8 000[ 11 78 55 5 5 4 158
[8 000 - 10 000[ 7 8 82 56 21 11 185
[10 000 - 12 000[ 0 2 6 47 35 15 105
[12 000 - 14 000[ 0 3 14 49 22 9 97
[14 000 - 16 000[ 1 4 23 12 6 5 51
[16 000 - 20 000[ 2 0 3 6 0 3 14
Total 36 110 197 180 92 47 662

On appelle distribution marginale de X la distribution à


une dimension des individus de la population qui
présente une modalité de X quelque soit la modalité de
Y. De façon analogue, on définit celle de Y.
3. Réduction des données :
Les paramètres utilisés pour
caractériser les distributions à deux
variables sont de deux types :
- Les paramètres qui concernent une seule
variable, ils servent à caractériser les
diverses distributions marginales.
- Les paramètres qui servent à décrire les
relations qui existent entre les deux séries
d'observations considérées simultanément.
a-    Moyennes et variances
marginales :
1
x   xi
N i
y  1  yi
N i
V (x)  1  (xi  x)²
N i
V (Y)  1  (yi  y)²
N i
Exemple :
Reprenons la série précédente :
Nombre de visites de Nombre de commandes
prospection xi yi
152 26
155 27
160 28
155 28
162 29
164 30
948 168


x948

158
6

y168

28
6
Nombre de visites Nombre de (xi-x)² (yi-y)²
de prospection xi commandes yi
152 26 36 4
155 27 9 1
160 28 4 0
155 28 9 0
162 29 16 1
164 30 36 4
948 168 110 10

V(x) 1 (xix)²11018.33
N i 6

V(y) 1 (yiy)²101.67
N i 6
Pour avoir une idée sur la variation simultanée
de X et Y on peut utiliser la covariance :

On appelle covariance de X et Y le nombre

il est aussi égal à :


1
cov( x, y ) 
n
 xiyi  x y
Utilité de la covariance :
La covariance est positive si X et Y ont
tendance à varier dans le même sens,
et négative si elles ont tendance à
varier en sens contraire.
Exemple :10 étudiants ont passé l'examen partiel et
l'examen général et ont obtenu les notes suivantes :
Partiel ( X) Général (Y) XY
71 83 5893
49 62 3038
80 76 6080
73 77 5621
93 89 8277
85 74 6290
58 48 2784
82 78 6396
64 76 4864
32 51 1632
Total 687 714 50875
Cov (x , y) =(50875 / 10) – (687/10)x(714/10) = 182.32
La covariance est positive, donc il y a une relation croissante
entre X et Y. Autrement dit les deux variables varient dans
le même sens.
La Corrélation linéaire :

Dans le cas où les points du nuage se situent


tous sur une droite, on dit que la relation
entre x et y représente une dépendance
fonctionnelle linéaire .
 
Si les points du nuage de points ne sont pas
tous alignés sur une même droite, on peut
mesurer le degré de dépendance linéaire
entre les deux variables X et Y .
Comment ?
Coefficient de corrélation linéaire :

Le coefficient de corrélation linéaire a


pour objet de mesurer l'intensité de la
liaison linéaire entre les deux variables
X et Y :
cov( x, y )
r
 ( x) ( y )

Cette définition montre que le coefficient de


corrélation possédé le même signe que la
covariance
sa valeur est comprise entre ‑1 et 1.
Le signe du coefficient de
corrélation indique le sens de la
relation entre X et Y :
r > o veut dire que les deux variables X
et Y varient dans le même sens. Si X est
grande alors Y est grande, si X est
petite alors Y est petite . On parle de
corrélation positive.
Remarque :
Pour pouvoir parler de forte liaison
entre x et y il faut que la valeur
absolue de r atteigne au moins 0.87
Exemple :reprenons la série suivante
Nombre de visites de Nombre de commandes
prospection xi yi
152 26
155 27
160 28
155 28
162 29
164 30
948 168

r = 0.93 donc x et y sont fortement


corrélés, ainsi plus le nombre de visites
augmente, plus le nombre de commandes
augmente.
La corrélation, outil d’aide à la prévision :
L’intérêt d’une forte corrélation tient au fait
que la connaissance de l’une des variables
entraîne la connaissance de l’autre avec un
faible risque d’erreur.
Dés lors, il convient de trouver la double
relation mathématique qui existe entre les
deux variables xi et yi :
-   la relation de type yi=f(xi) décrit l’évolution
de la variable y en fonction de xi et
-  la relation de type xi=f(yi) décrit l’évolution
de la variable x en fonction de yi
Les droites de régression :
La méthode des moindres carrés est une
méthode d’ajustement qui consiste à minimiser
la somme des carrés des différence entre les
valeurs observées, yi et les valeurs estimées,
par l'équation de la droite de régression :

yiaxib
cov( x, y )
a
V( x)

b  y  ax
Exemple : reprenons l’exemple précédent ou r=0.93

Nombre de Nombre de (xi-x)² (yi-y)² (xi-x)(yi-


visites de commandes y)
prospection xi yi
152 26 36 4 12
155 27 9 1 3
160 28 4 0 0
155 28 9 0 0
162 29 16 1 4
164 30 36 4 12
948 168 110 10 31

x 150 V ( x)  18.33
y  28
V ( y )  1.67 cov(x, y)  31 5.17
6
cov( x ,y)5 .
17

a  0.
28 b  y 
a
x16
.
24
V (x) 18 .33
On aura donc l’équation suivante :
yi = 0.28xi – 16.24

Si on se donne comme objectif pour le


mois prochain 170 visites (xi), quel sera
le nombre de de commande
prévisionnel (yi) approximatif:
yi = 0.28 x 170 –16.24 = 31.36 soit
approximativement 31 commandes
V/ Théories des probabilités :

La théorie des probabilités est la partie


la plus abstraite de la statistique. Elle
traite des phénomènes aléatoires et
s’est développée dans des salles de jeu,
ce qui explique le fait que la majorité
des exemples retenus sont empruntés
aux jeux de hasard.
La théorie des probabilités est
l’intermédiaire entre la statistique
descriptive qui traite des séries
statistiques directement, et l’inférence
statistique qui comprend les valeurs
statistiques comme les indicateurs
indirects de valeurs vraies mesurées par
échantillonnage
I/ Éléments du calcul des probabilités
Vocabulaire probabiliste:
Expérience aléatoire:
Une expérience est dite aléatoire si :
a- On ne peut prédire avec certitude son
résultat
b- On peut décrire l'ensemble de tous les
résultats possibles.
Exemple : jet d'un dé ; lancer d'une pièce de
monnaie, comportement d’achat d’une
personne.
Ensemble fondamental :
(appelé également univers des
possibles, espace échantillonnal ou
référentiel) représente l'ensemble des
résultats possibles d'une expérience
aléatoire ; il est noté .
Exemple : Si on lance un dé une seul
fois, l’ensemble des résultats possibles
sont  = {1, 2, 3, 4, 5, 6}.
Événement :
c'est un élément ou sous ensemble de
. On distingue l'événement
élémentaire : obtenir 2 de l'événement
composé, obtenir un nombre impair.
Définition classique d’une
probabilité :
Soit  un ensemble fondamental et A un événement quelconque de  :
Nombre de cas favorables Card A
P(A) = =
Nombre de cas possibles Card 
Exemple :
Soit une urne contenant 10 boules dont
2 blanches, 5 rouges et 3 bleu. On tire
une boule au hasard. Quelle est la
probabilité qu'elle soit de couleur
blanche ?
Soit A l'événement : « obtenir une boule
blanche »
P(A) = 2/10 =1/5
Définition fréquentielle 

Soit  un ensemble fondamental et A un


événement quelconque de  .
P A  lim f n  A
n

avec
n : nombre de fois que l’expérience se répète
et
n A
f n  A  : fréquence de la réalisation de
n
l’événement A au cours des n répétitions.
Exemple :
Un professeur de statistique a enseigné
à 12848 personnes, parmi celles-ci 542
ont échoué
La probabilité d’échouer est
542/12848=0.0422
Les règles de calcul des
probabilités :
La probabilité de réalisation d’un événement
impossible est égale à 0.
La probabilité de réalisation d’un événement
certain est égale à 1.
Si A et B sont deux événements
incompatibles, alors la probabilité de la
réalisation simultanée des deux événements
est la somme des probabilité : P (A B) =
P(A) + P(B).
La probabilité de l’événement contraire de A
est 1-P(A)
Remarque :
Si A et b ne sont pas deux événements
compatible, alors :
P(A B) = P(A) +P(B)-P (A  B)
Exemple :
On jette un dé une seule fois, soient les deux événements
suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Calculer p(A /B) ?
P(A) = 3/6
P(B) = 3/6
P(AB) = 1/6
P( A/B) = (1/6) / (3/6) = 1/3

Si A est dépendant de B, cela signifie que si B s'est produit, la


probabilité que A se produise n'est pas la même que si B ne l'est
pas.
En retenant les données de l’exemple précédent, on peut dire que
A et B sont deux événements dépendants car : p(A)  p(A/B)
Remarque :
La notion d’indépendance peut être
étendu à plus de deux événements
Il ne faut pas confondre indépendance
et incompatibilité
II/ Notion de variable aléatoire :
Une variable aléatoire est une grandeur
numérique attaché au résultat d’une
expérience aléatoire. Chacune de ses valeurs
est associé à une probabilité d’apparition.
Exemple 1 : On jette une pièce de monnaie deux
fois et on s’intéresse au nombre de fois que pile
apparaît au cours des deux jets.
On à quatre résultats possibles : PP, PF, FP, FF
Le nombre de fois que Pile peut apparaître est 0, 1 ou
2.
La variable aléatoire retenue peut donc prendre ces
trois valeurs, son ensemble de définition est donc :
{0, 1, 2}
Exemple 2:
Soit une agence immobilière qui désire se lancer
dans la location à la journée de studios meublés.
Elle étudie la demande journalière possible x de
location durant les mois de juillet et août. Elle
obtient les résultats suivants :

xi 0 1 2 3 4 5

P (xi) 0.05 0.01 0.2 0.3 0.25 0.1


Une VA peut être discrète ou
continue :

Une VA est dite discrète si l'ensemble


des valeurs qu'elle est susceptible de
prendre est fini ou infini dénombrable.
Une VA est dite continue si elle peut
prendre toute valeur à l'intérieur d'un
intervalle donné.
Les caractéristiques d’une variable
aléatoires discrètes :
a-Loi de probabilité : On appelle loi de
probabilité de X l'ensemble des couples (xi, pi).
b‑Fonction de répartition :On, appelle fonction
de répartition, la fonction F définie par :
F: IR ‑‑>[0,1]

c‑Espérance mathématique: On appelle


x
-
-
>
F
(
x
)
=
P
(
Xx
) 
espérance mathématique de X et on note E(X) la
moyenne des valeurs possibles pondérées par
leurs probabilités :
E(X) =  xi.pi.
d‑ Variance et écart type :
On appelle variance de la VA X le
nombre réel défini par :
V(X) = E[X - E(X)]² = E(X²)-E(X)²
On appelle écart type, la racine carrée de
la variance 
Exemple :
Soit une agence immobilière qui désire se lancer
dans la location à la journée de studios meublés.
Elle étudie la demande journalière possible x de
location durant les mois de juillet et août. Elle
obtient les résultats suivants :
xi 0 1 2 3 4 5

P (xi) 0.05 0.01 0.2 0.3 0.25 0.1

Déterminer la fonction de répartition, l’espérance et


la variance de cette variable aléatoire.
Les caractéristiques d’une variable
aléatoires continue

Fonction de densité de probabilité : On


appelle fonction de densité de probabilité
toute fonction satisfaisant aux 2 conditions
suivantes : xIR, f(x)0



f(x)dx1
Fonction de répartition : Soit X une VA continue et f
sa densité de probabilité. La fonction de répartition de
X est la fonction F telle que:
F:I
R [
0,1
]
x
X P
(X
x
)  f(x


)dx

E (x )   xf ( x ) dx

  
V ( x )   ( x  E ( x ))² f ( x ) dx   x ² f ( x ) dx  (  xf ( x ) dx )²
  
III/ Lois de probabilité :
Il existe de nombreuses lois de
probabilités, chacune s'appliquant dans
des conditions bien particulières.
Loi de BERNOULLI
La variable de BERNOULLI est une
variable qui prend les valeurs 0 et 1
avec les probabilités respectives q et p
(p + q =1). La valeur 1 est associé à la
réalisation de l’événement considéré
‘succès’ et la valeur 0 à sa non
réalisation ‘échec’
 
C a ra c té ris tiq u e s :

E  X    xi p i  p  E  X   p

 
V  X    x i2 p i   x i p i 2  p  p 2  p 1  p   p .q  V  X   p .q
Loi BINOMIALE 

U n e v a ria b le a lé a to ire e s t d ite b in o m ia le s i


e lle re p ré s e n te le n o m b re d e s u c c è s o b te n u s
d a n s u n e e x p é rie n c e d e n é p re u v e s o ù
la p ro b a b ilité d e s u c c è s re s te c o n s ta n te .
L a fo n c tio n d e p ro b a b ilité d ’u n e te lle fo n c tio n
est donnée par :
P  X  k   C nk p k q n  k O n n o te X    n , p 
  La variable binomiale est entièrement
spécifiée par la connaissance de n et p.

La variable de BERNOULLI est un cas


particulier de la variable binomiale :
n=1.
Conditions d’application de la
variable binomiale :
1ère condition : L’expérience consiste en une
suite d’épreuves se soldant à chaque fois soit
par un succès soit par un échec.
2ème condition : Les épreuves se répètent de
manière identique et dans les mêmes
conditions.
3ème condition : La probabilité de succès reste
constante tout au long des n épreuves.
Caractéristiques de la variable
binomiale 
S o it X    n , p  . X p e u t-ê tre d é c rite c o m m e
u n e s o m m e d e n v a ria b le s d e
B E R N O U L L I in d é p e n d a n te s :
X  X  X ,  ....  X n
1 2
  1 2
    
E  X   E X  X ,  ....  X n  E X  E X  .......  E  X n 
1 2
 p  p  ....  p  n . p  E  X   n . p
  1 2
    
V  X   V X  X ,  ....  X n  V X  V X  .......  V  X n 
1 2
 p .q  p .q  ........  p .q  n . p .q  V  X   n . p .q
Approximation de la loi binomiale :
1er cas :lorsque n est élevé et p n’est
ni proche de 1 ni de 0, la loi binomiale
est approché par la loi normale
2ème cas :Lorsque n est élevé et p est
faible (p<0.1) la loi binomiale est
approché par la loi de poisson
Exemple :
L’agence immobilière dispose d’un parc de 5
studios. La probabilité de louer chacun d’eux
au mois de juin est de 0.6. L’agence désire
étudier la probabilité de location de ce parc.
1- Quelle est la loi de probabilité suivie par
cette variable aléatoire ? Quels en sont les
paramètres ?
2- Calculer la probabilité de louer 0, 1, 2
studios?
Exemple 2:
Dans une population, la proportion
d’individu qui ont l’intention de ne pas
voter lors des prochaines élections
législatives est de 15%. Calculer la
probabilité pour que 25% des individus
d’un échantillon d’effectif 16
s’abstiennent?
La loi de POISSON

L a d is tr ib u tio n d e p r o b a b ilité d ’u n e V .A .
X e s t d ite d is tr ib u tio n d e P O IS S O N
s i e lle e s t d é fin ie p a r le s c o u p le s (x i , p i)
o ù x p r e n d le s v a le u r s 0 , 1 , 2 , … …
a v e c le s p r o b a b ilité s r e s p e c tiv e s d o n n é e s p a r :
   x
P (X  x)  e
x!
 est un par mètre réel positf. Notaion : X  Po (  )
Caractéristiques 

E( X )  

V(X).
Conditions d’application de la loi
de Poisson :
Soit une approximation de la loi binomiale :
lorsque n est élevé et p très faible (proche de
0). Généralement l'approximation est valable
dés que n > 50 et p < 0.1
X ‑‑> B(n;p) ‑‑> Po(= n.p)
Soit une résultante d’un processus aléatoire
particulier , le processus de Poisson
La loi de POISSON s'applique en particulier dans le cas
d'événements se réalisant de façon aléatoire dans le temps ou
l'espace (pannes de machines, arrivées de clients à un comptoir, appels téléphoniques sur
une ligne ……). Si la réalisation d'un événement donné vérifie les
conditions suivantes :
Le nombre moyen de fois qu'un événement se réalise dans un
intervalle de temps ou dans un espace est connu ,
La probabilité que cet événement se produise dans un
intervalle de temps est proportionnelle à la longueur de cet
intervalle et ne dépend en aucun cas du nombre d'événements
qui se sont produits antérieurement,
La probabilité que l'événement se produise plus d'une fois
dans un intervalle de temps très court est négligeable
alors le nombre X d'événements réalisés au cours d'une
période de temps t est une variable de POISSON ayant pour
paramètre  = p.t.
Exemple 1:
L’arrivé des clients à un supermarché
est considérée comme un processus de
POISSON. On sait que le nombre
moyen de clients arrivant par minute au
supermarché est égale à 2.
Calculer la probabilité pour que pendant
une période particulière de 5 minutes il
arrive 12 clients.
Exemple 2:
Une entreprise utilise des pots de
peinture dont 0.2% sont défectueux.
Quelle est la probabilité que sur les
1000 pots qu’il utilise , il en trouve un
défectueux?
La loi normale
On parle de loi normale ou de loi de
LAPLACE – GAUSS, lorsque l’on a affaire
à une variable aléatoire continue
dépendant d’un grand nombre de
causes indépendantes, dont les effets
s’additionnent et dont aucune n’est
prépondérante.
Exemple : une caractéristique de qualité, La durée d’un
trajet, les fluctuations accidentelles d’une grandeur ..
f(x)

x
m- m m+
Définition :
Une V.A continue X est dite distribuée
selon une loi normale si sa densité de
probabilité est :
f(x)  1 exp[ 1 ( x  m)²]
 2 2 

La loi normale dépend de deux paramètres m et


 . On note : X N(m;).
Fonction de répartition
La fonction de répartition d'une variable
normale est donnée par l'expression :
x x
(x)  p(X  x)   f(x)dx  1
 exp[ 1 ( x  m)²]dx
  2 
2 

Caractéristiques :
E(X) = m
V(X) = ²
Propriétés :
Le graphique de la fonction de densité de
probabilité de la Loi normale est une courbe
en cloche symétrique par rapport au point
d'abscisse x=m.
La droite verticale x=m divise l'aire comprise
entre la courbe et l'axe des abscisses en deux
parties égales P(X<m) = 0,5 et P(X>m) = 0,5
La grande partie des observations se situe
dans l'intervalle [m-3 ; m+3]
f(x)

x
m- m m+
m-2 m+2
68%
m-3 95% m+3

99%
Intervalles remarquables :

P[m-2/3  < X <m-2/3  ]  50% ;


P[m -  < X <m +  ]  68%
P[m - 2 < X < m + 2]  95%;
P[m - 3 < X < m + 3]  99,74%
Calcul des probabilités

Pour une VA continue, on s'intéresse surtout à


une probabilité d'intervalle. La fonction de
densité étant compliquée, des tables ont été
prévues pour faciliter ce calcul.
Toutefois, étant donnée qu'il existe une infinité
de lois normales distinctes par leurs
paramètres, une seule variable normale est
tabulée et sert de référence pour les autres :
il s'agit de la loi normale centrée réduite.
Le passage de la loi normale à la loi normale centrée réduite s'effectue à
l'aide du changement de variable suivant :

X m
z

La loi normale centrée réduite à


pour paramètre : m =0 et = 1
Propriétés :
Le graphique de la fonction de densité de
probabilité de la LNCR est une courbe en
cloche symétrique par rapport au point
d'abscisse z= 0
La droite verticale z= 0 divise l'aire comprise
entre la courbe et l'axe des abscisses en
deux parties égales P(Z<0) = 0,5 et P(Z>0)
= 0,5.
La grande partie des observations se situe
dans l'intervalle ‑3 ;3.
Intervalles remarquables

P[-2/3 <Z< 2/3]  50% ;


P[- 1 < Z < +1]  68%
P[- 2 < Z < +2]  95%;
P[- 3 < Z < +3]  99,74%
Utilisation de la table N(O; 1)

Cette table nous donne les


probabilités de trouver une
valeur inférieur à z
Exemple :

X suit une loi normale N(345; 167)


On souhaite connaître la probabilité
pour que X soit inférieur à 500.
On effectue le changement de variable:

Z  X  x  X 345
 167
On cherche p(X < 500)=

p(X < 500)= p(Z  500 345)  p(Z  0.93) (0.93)  0.8238
167
Remarque :
la table ne donne que les valeurs
p(Z ≤ z) . Il se peut que l'on cherche
p(Z ≥z). Il faut utiliser alors les deux
propriétés suivantes:
- la surface totale de la courbe est égale à
1;
- la courbe est symétrique par rapport à
l'axe des ordonnées.
Exemple :
Le poids moyen de 500 colis est de
141kg et l’écart type est de 15kg, en
supposant que ces poids sont
normalement distribués, calculer le
nombre de colis pesant :
- Entre 120 et 155kg
- Plus de 185 kg
Intervalle de confiance :
Dans le paragraphe précédent on a cherché à calculer
la probabilité que les valeurs de la variable soient
comprises dans un intervalle donné.
 

la notion d'intervalle de confiance procède de la


logique inverse: on se fixe la Probabilité et on
détermine les bornes de l’intervalle.
Quelles sont les bornes de l'intervalle dans lequel X
a une probabilité de 95 %de se situer ?
On peut écrire: p(‑ k < X < + k) = 0,95
P(-k<X <+ k) 0,95 est équivalent à p(-z<Z < +z)= 0,95

P(-z<Z<+z) =p(Z<z) - p(Z<-z)


= p(Z<z) - p(Z >z)
= P(Z<z) – [l - p(Z < z)]
=p(Z<z) - l + p(Z<z)
= 2 p(Z<z) - 1 = 0,95

D'où p(Z<z) = (0,95+1)/2 = 0,9750


Dans la table, pour la valeur de la
probabilité 0,975, on trouve z = 1,96. Il y a
95 de chances
pour que la variable centrée réduite Z soit
comprise entre (‑ 1,96) et (+ 1,96).
Déterminons l'intervalle pour la variable aléatoire X.

O
ns
ai
tqu
e:Z

X
xdo
n
cZ
Xx

D
'o 
ù X
xZ
Si on multiplie chaque membre des inégalités
dans l'expression p(‑z <Z < +z) par , on
peut écrire:
p(‑z <Z < +z) = p (‑ z < Z  < + z ).
Si on ajoute à chaque membre, on trouve:
p ( x - z < x+Z  < x + z ).
L'intervalle dans lequel X a 95 % de chances de se
trouver est :

 x z,x z 
Loi de KHI-DEUX
Définition
Soit X 1 , X 2 ,......, X v v variables aléatoires
indépendantes telles que :
i  1,2,3,.....,v X i    0;1. Si X  X 2  X 2  .....  X v2
1 2
alors, X est une V.A continue soumise à
v
une loi de  à v degrés de liberté      0;1 2
2 2
i 1

C a r a c t é r is t iq u e s

E   2  v V   2  2 . v
Introduction au test
d’indépendance du
-Calculer les effectifs théoriques (en cas d’indépendance)
-Calculer le  2
-Comparer la valeur calculé avec une valeur observée sur la
table de la loi du KHI-deux
Exemple :
On a interrogé des habitants de Casablanca, de Rabat
et Marrakech sur l’appréciation de 4 stations de radio.
Le croisement de ces deux variables donne le tableau
de contingence suivant :

casa rabat Marrak ni.

Radio 1 18 18 11 47

Radio 2 12 15 18 45

Radio 3 32 20 23 75

Radio 4 15 12 6 32

n.j 77 65 58 200
Etape 1 : Calcul du tableau théorique
Considérons les marges qui correspondent aux distributions
des variables VILLE (77, 65, 58) et RADIO (47, 45, 75, 33).

Si ces deux variables étaient indépendantes, la distribution


des valeurs du tableau serait répartie de manière
“équilibrée” en ligne et en colonne.

La valeur théorique de chaque case s’obtient en multipliant


le total ligne par le total colonne puis en le divisant par le
total général.

Ainsi, la 1ère case devrait contenir la valeur (47x77)/200,


soit 18,1. Le tableau théorique est donc le suivant
casa rabat Marrak ni.

Radio 1 18.1 15.3 16.3 47

Radio 2 17.3 14.6 13.1 45

Radio 3 28.9 24.4 21.8 75

Radio 4 12.7 10.7 21.8 32

n.j 77 65 58 200
Etape 2 : Calcul de la valeur du Khi2
Pour évaluer l’écart entre ce tableau et le
tableau précédent,
on calcule, pour chaque case :

En additionnant ces valeurs, on obtient 7,6 :


(0,0+0,5+0,5+1,6+0,0+1,9+0,3+0,8+0,1+
0,4+0,2+1,3) = 7,6
Étape 3: Comparer la valeur calculé avec une
valeur observée sur la table de la loi du KHI deux

Pour interpréter cette valeur, on se réfère à la table du Khi2 qui


présente les valeurs (cases de la table) ayant une probabilité
donnée d’être dépassées (en colonne), selon différents degrés de
liberté (en ligne).

La probabilité est notre seuil ou marge d’erreur que nous nous


fixons (en général 5%).

Le nombre de degré de liberté (noté ddl) correspond à :


ddl = (Nombre de lignes - 1) x (Nombre de colonnes - 1)
Dans notre exemple, on a ddl = (4-1) x (3-1), soit 6.
En regardant la case qui correspond à la
colonne 0,05 et à la ligne 6, on trouve la
valeur 12,59. Autrement dit, il y aurait, pour
notre tableau 5% de chances que le Khi2
dépasse cette valeur (et 95% de chances qu’il
soit inférieur).

Étant donné que le Khi2 calculé est


inférieur à cette valeur, nous retenons
l’hypothèse de l’indépendance de ces
deux variables
Loi de Student
Elle intervient en estimation, notamment
l’estimation de la moyenne quand la variance de
la population mère est inconnue.

Définition
X
Soit X    0 ;1  et Y   v2 2 V.A indépedant es. Si T  alors,
Y
v
T est une variable soumise à une loi de Student à v degré de libeté. On note T  T v .

Caractéristiques :
v
E T   0 V T   si v  2.
v2

Vous aimerez peut-être aussi