Vous êtes sur la page 1sur 19

Module statistique et probabilité 2017/2018

But de l’étude statistique :


• Savoir présenter et décrire des données.
• Savoir dégager, assez rapidement, un certain nombre de renseignements sur le
phénomène que l’on veut étudier et qui est décrit par les données.
• Savoir tirer des conclusions sur des populations à partir de calculs conduits sur
des échantillons.
• Savoir comment améliorer des processus.
• Savoir faire de “bonnes” prévisions.

Exemple d’un Tableau de données (Tableau 1): Sur les salariés d’une
petite entreprise, on a relevé pour 30 d’entres eux, les données suivantes :

1. Salaire mensuel (en DA)


2. Sexe (Homme, Femme)
3. Âge (en années)
4. Ancienneté (en années)
5. Niveau (de formation, A, B et C)
6. Nombre d’enfants

TABLEAU de DONNEES (Tableau 1)

1
Module statistique et probabilité 2017/2018

Vocabulaire Statistique :
 Population: C’est l’ensemble étudié.
Dans l’exemple, tous les salariés de l’entreprise.

 Echantillon: C’est un sous ensemble de la population.


Dans l’exemple, les 30 salariés.

n= 30 est la taille de l’échantillon.

 Unité statistique(ou individu) : C’est un élément de la population.

Dans l’exemple, 1 salarié quelconque

 Caractère (ou variable): C’est ce qu’on étudie sur l’individu.


Dans l’exemple, il y a 6 caractères différents : Salaire, Sexe, Age, Ancienneté,
Niveau, Nombre d’enfants.

 Nature d’un caractère :

Population
::::::::::::::::::::
::::
::::::::::::::::::::::
:::::::::::::::::::::
Echantillon
Unité statistique(ou individu)

CARACTERE ou VARIABLE:
(mesuré sur chaque individu et noté Xl )

QUALITATIF QUANTITATIF

Ordinal Nominal Discret Continu

Ex: (Niveau: A, B, C) (Sexe: M, F) (nbre d’enfts) (Age,Anci., Sal.)

Remarque : au départ il y’a n individus donc n valeurs Xi ( i=1,…,n ). Il arrive souvent


que l’on ait des valeurs Xi identiques, et pour simplifier l’étude on regroupe les individus
qui ont les mêmes valeurs du caractère : on parle alors de « série statistique ».

2
Module statistique et probabilité 2017/2018

Série Statistique: (xi , ni) ou (xi , fi) ,i=1,…,p

Définition : Elle représente, pour chaque caractère étudié le couple formé par les
valeurs du caractère (xi) et le nombre ni (ou la fréquence fi = ni /n) d’individus qui
possèdent cette valeur du caractère.
La série ainsi définie est présentée sous forme d’un tableau comme dans l’exemple
suivant:

Pour les Caractères de l’exemple : il y a 6 séries statistiques

1. Sexe: qualitatif nominal

xi H F Total
i=1,2
ni 20 10 30
fi 0.67 0.33 1

Modalités

2. Niveau: qualitatif ordinal

xi A B C Total
ni 13 14 3 30 i= 1,2,3
fi 0.43 0.47 0.1 1

3. Nombre d’enfants : quantitatif discret

xi 0 1 2 3 4 Total
ni 2 6 12 8 2 30 i= 1,2,3,4,5
fi 0.07 0.20 0.40 0.26 0.07 1

Définitions :

a) Le tableau précédent est aussi appelé tableau de distribution de la variable (ou


caractère) étudié.

b) Les valeurs prises par cette variable sont appelées observations et sont notées xi.

c) L’effectif total des observations est la taille de l’échantillon n.

d) Le nombre de fois que l’observation xi se répète dans les données initiales est appelé
effectif de xi, il est noté ni.

e) La fréquence de l’observation xi est égale au rapport entre son effectif ni et l’effectif


total n, elle est notée fi = ni / n.

3
Module statistique et probabilité 2017/2018

f) Le nombre d’observations inférieures ou égales à xi est appelé effectif cumulé de xi ,


il est noté nicum.

g) La fréquence d’observations inférieures ou égales à xi est appelé fréquence cumulé


de xi, elle est notée fi cum .

Exemple (suite)

4. Tableau de Distribution de la variable Anc (Tableau 2)

xi (ans) 1 3 4 5 6 7 8 10 Total
ni 2 2 3 8 2 1 3 9 30

ni cumulé 2 4 7 15 17 18 21 30

fi 0.07 0.07 0.10 0.27 0.07 0 .03 0.10 0.30 1

fi cumulé 0.07 0.14 0.24 0.51 0.58 0.61 0.71 1

Remarque : En réalité, la variable Ancienneté (ainsi que les variables Âge et Salaire)
est une variable continue. Pour ce type de variable il est plus logique de présenter les
données dans des intervalles (ou classes) et de construire le tableau de distribution
correspondant.
Pour cela il faut d’abord choisir le nombre de classes à prendre pour représenter toutes
les données et déterminer la longueur (ou amplitude) de ces classes. Ce choix peut-être
arbitraire, c’est-à-dire fixé à l’avance, (voir tableau 3), ou obéir à une règle empirique,
c’es-à-dire qui dépend de l’effectif n.

Soit alors k le nombre de classes (notées [ai, ai+1 [, i = 1, … ,k) et soit amp
l’amplitude de classe, alors on choisira


k  n (ATTENTION k doit être ENTIER)


 (x - x )
 et amp = max min
 k

( l’amplitude doit être choisie de manière à ce que toutes les données soient incluses
dans le tableau.)

4
Module statistique et probabilité 2017/2018

5. Tableau de Distribution de la variable Salaire (tableau 3)

Il faut d’abord trier les valeurs Xi par ordre croissant, et choisir une borne inférieure et
une amplitude pour construire les classes.
Ici, on a choisi (de manière arbitraire) k = 10 classes en commençant à 95500 DA.
Avec : amp = 16500 DA.

6. Tableau de Distribution de la variable Âge (tableau 4)

On a prit (arbitrairement) k = 8 et amp =(xmax - xmin)/ 8 = (61 - 30) / 8 = 3,87 ≈ 4 ans

xi [30 , 34[ [34 , 38[ [38 , 42[ [42 , 46[ [46 , 50[ [50 , 54[ [54 , 58[ [58 , 62] Total

ni 2 1 3 3 9 4 6 2 30
nicum 2 3 6 9 18 22 28 30
fi 0.07 0.03 0.10 0.10 0.30 0.13 0.20 0.07 1
ficum 0.07 0.10 0.20 0.30 0.60 0.73 0.93 1.00

Tableau de Distribution de la variable Ancienneté (règle empirique) (tableau 5)

On prend k = √30 ≈ 5, amp = (10 – 1)/5 = 1,8 ≈ 2 ans

xi [1 , 3[ [3 , 5[ [5 , 7[ [7 , 9[ [9 , 11] Total
ni 2 5 10 4 9 30
nicum 2 7 17 21 30
fi 0.067 0.167 0.333 0.133 0.3 1
ficum 0.067 0.234 0.567 0.700 1

5
Module statistique et probabilité 2017/2018

REPRESENTATION GRAPHIQUE

1. Représentations Graphique d’une série statistique quantitative :

i) Le diagramme en bâtons pour les variables DISCRETES :

C’est la représentation sur un graphe, du tableau de distribution en mettant en


abscisse les valeurs xi, en ordonnés les effectifs ni (ou les fréquences fi)
correspondant(e)s et en traçant une ligne verticale à partir de xi jusqu’à ni (ou fi).

Exemple : Variable « nombre d’enfants »

effectif

12

2
2

0 1 2 3 4 xi

DIAGRAMME en BÂTONS des effectifs de la variable « nombre d’enfants »

ii) L’Histogramme pour les variables CONTINUES :


C’est la représentation de la série sur un repère, en portant en abscisses les classes
(toutes de même amplitude) et en ordonnés les effectifs (ou les fréquences) et en
traçant un rectangle ayant pour base la classe [ai , ai+1 [ et pour hauteur l’effectif (ou la
fréquence ) correspondant(e).

6
Module statistique et probabilité 2017/2018

Exemple : variable « Âge »

Effectif

30 34 38 42 46 50 54 58 62 xi

HISTOGRAMME des effectifs de la variable « Âge »

2) Représentations Graphique d’une série statistique qualititative

i) Diagramme en secteurs circulaires

On calcule pour chaque modalité du caractère, la valeur de l’angle au centre associé,


cette valeur est proportionnelle à la fréquence. Ce qui veut dire que si on les place sur
un cercle (360 °) chaque modalité sera représentée par un angle égal à la fréquence
multipliée par 360°. Dans l’exemple sur les niveaux de formation on a :
xi A B C Total
ni 13 14 3 30
fi 0.43 0.47 0.1 1
Angle au centre 154.8° 169.2° 36° 360°

7
Module statistique et probabilité 2017/2018

Nivau

C
10%
A
43%

B
47%

Diagramme en secteurs circulaires de la variable « niveau »

ii) Représentation en tuyaux d’orgues

On représente chaque modalité par un rectangle de base commune et de hauteur


égale à son effectif ou sa fréquence.

16

14

12

10

8 B

A
6

2
C
0

Représentation en tuyaux d’orgues de la variable « niveau »

8
Module statistique et probabilité 2017/2018

Fonction de répartition et Courbe cumulative :

La courbe cumulative est la représentation graphique dans un repère orthonormé de la


fonction cumulative ou fonction de répartition F(x). La fonction de répartition est la
proportion des individus de la population (ou de l’échantillon) dont le caractère prend
une valeur inférieure à x. Cette fonction est :

a- définie pour tout x R

b- Croissante (mais non strictement croissante).

c- nulle pour x inférieur à min xi .


1 i  n

d- égale à 1 pour x supérieur ou égal à max xi .


1 i  n

Cas d’une variable discrète : Soit (xi , fi), i = 1 ,…,p une série statistique. La
fonction de répartition F associée à cette série est définie sur R par :

 0 si x  x1
 f si x1  x  x2
 1
 f1  f 2 si x2  x  x3

F(x) = 
 f  ...  f si xi  x  xi 1
 1 i


 1 si x  x p

Cette fonction est une fonction en escaliers, présentant en chacune des valeurs possible xi
un saut égal à la fréquence correspondante fi .

Exemple : la variable « nombre d’enfants »

 0 si x  0
 0.07 si 0  x  1

 0.27 si 1  x  2

F(x) =  0.67 si 2  x  3
 0.93 si 3  x  4

 1 si x  4

9
Module statistique et probabilité 2017/2018

F(x) 0.5

0 1 2 3 4
x

Fonction de répartition de la variable « nbre d’enfants »

Cas d’une variable continue : La fonction de répartition est continue et linéaire par
morceaux, elle est définie pour x R sur l’ensemble des classes
a1 , a2 ,..., ai , ai 1 ,...ak , ak 1  qui constituent la série statistique, par

 0 si x  a1
 x - a1
 f1 si a1  x  a2
 a 2  a 1
 f  x - a2
f2 si a2  x  a3
 1
a  a
 3 2
F(x) = 
 i -1

 x - ai
fj  fi si ai  x  ai 1
 j 1 ai  1  ai


 1 si x  ak  1

10
Module statistique et probabilité 2017/2018

Exemple 1 : la variable « Ancienneté » a pour fonction de répartition

 0 si x  1


 x - 1
0.067 si 1  x  3
 2
 x - 3
0.067  0.167 si 3  x  5
 2
 0.234 x - 5
 0.333 si 5  x  7
 2
F(x)   x - 7
 0.567  0.133 si 7  x  9
 2
 0.700 x - 9
 0.30 si 9  x  11
 2





 1 si x  11

Courbe cumulative :

F(x)
11

0.7

0.5

1 3 5 7 9 11 x

Courbe cumulative de la variable « Ancienneté »

Exemple 2: la variable « Âge » a pour fonction de répartition

11
Module statistique et probabilité 2017/2018

 0 si x  30
 x - 30
 0.07 si 30  x  34
4
 x - 34
 0.07  0.03 si 34  x  38
 4
 0.10  x - 38
0.10 si 38  x  42
 4
 x - 42
 0.20  0.10 si 42  x  46
 4
F(x) =  x - 46
0.30  0.30 si 46  x  50
 4
 0.60  x - 50
0.13 si 50  x  54
 4
 x - 54
 0.73  0.20 si 54  x  58
 4
 0.93  x - 58
0.07 si 58  x  62
 4
 1 si x  62

Compléter :

F(x)

Courbe cumulative de la variable « Âge »

Les indicateurs statistiques :

Le tableau de distribution d’une variable statistique présente l’information recueillie sur


cette variable. Une représentation graphique nous en donne un aperçu visuel. On peut
aller plus loin en cherchant à caractériser cet aperçu par des éléments synthétiques sur :

12
Module statistique et probabilité 2017/2018

 La valeur de la variable située au « centre » de la distribution : la tendance


centrale et, plus généralement, un indicateur de position qui n’est pas
nécessairement central.
 La variation des valeurs : la dispersion.
 La forme de la distribution.
 Les aspects particuliers : Valeurs extrêmes, groupes de valeurs…

1. Les indicateurs de position :

a/ La moyenne arithmétique :
A partir des données brutes x1 , x2 ,..., xn , la moyenne arithmétique, notée x
a pour expression :


n
1
x  (1)
xi
n i 1

A partir du tableau de distribution,

 Pour une variable statistique discrète, l’expression (1) devient :

 
p p
1
x  ni xi  f i xi
n
i 1 i 1

ni
Où p désigne le nombre de valeurs distinctes (ou modalités) de x et f i  la
n
fréquence.

 Pour une variable statistique continue, on ne connait pas les valeurs exactes
prises par la variable mais seulement le nombre de variables à l’intérieur de
chaque classe. Pour calculer la moyenne arithmétique, on remplace xi par le
centre de la ième classe, noté ci, et l’expression (1) devient:

 
k k
1
x  ni ci  f i ci
n
i 1 i 1

Où k désigne le nombre de classe et ci le centre de la ième classe.

Exemples :
on reprend les tableaux de distribution précédents :

1) Le nombre d’enfants moyen par salarié est donné par


5

x 
1
ni x i 
1
0 * 2  1 * 6  2 * 12  3 * 8  4 * 2  2.06 .
30 30
i 1

On dira qu’en moyenne un salarié de l’entreprise à 2,06 enfants.

13
Module statistique et probabilité 2017/2018

2) La moyenne d’âge des salariés est de

 32 * 2  36 * 1  40 * 3  44 * 3  48 * 9  52 * 4  

8
1 1
x  ni ci   
30 i 1  56 * 6  60 * 2
30 
 48.27
On dira que la moyenne d’âge des salariés de l’entreprise est de 48,27 ans.

3) le salaire moyen dans l’entreprise est de :

103 .75 * 6  120 .25 * 0  136 .75 * 2  153 .25 * 0  


 

8
1 1
x  ni ci  * 10 3 * 169 .75 * 2  186 .25 * 2  202 .75 * 6  219 .25 * 8  
30 i 1
30  235 .75 * 3  252 .25 * 1 
 
 184,6 * 10 3  184600 DA

b/ Le mode

C’est la valeur la plus fréquente prise par le caractère, c’est-à-dire celle qui se répète
le plus souvent dans les données.
 Pour une série discrète, le mode est la valeur de x ayant le plus grand
effectif.
 Pour une série continue, on détermine d’abord la classe modale
CMod  a Mod , bMod  comme étant la classe qui a le plus grand effectif, puis on
calcule le mode par interpolation en posant :

 prec
Mod  a  (b  a )
Mod 
prec   suiv
Mod Mod

où  prec  différence d' effectif entre la classe modale et la classe précédente.


 suiv  différence d' effectif entre la classe modale et la classe suivante.

Exemples
- Pour la variable « Nbre d’enfts »: d’après le tableau de la page 4, Mod = 2

- Pour la variable « Âge »: (page 6) la classe modale est CM =[46, 50[


d’où Mod= 46 + 4 (6/11) = 48,18 ans

- Pour la variable « Salaire »: la classe modale est CM =[211,227.5[ d’où


Mod = 211 + (16,5)(2/7) = 215,71 . Le salaire le plus fréquent est donc proche de
216000 DA.

14
Module statistique et probabilité 2017/2018

c/ La médiane

C’est la valeur, parmi les observations, qui coupe la série en deux : 50% des
observations lui sont inférieures et 50% lui sont supérieures.
1) Pour une série discrète : Soit x1 , x2 ,..., xn une série statistique
discrète,
 Si n est impair la médiane, notée Med, est donnée par, Med  x n  1
2

1 
 Si n est pair on a Med   xn  xn 
2  2 2
1 

2) Pour une série continue : On détermine d’abord la classe médiane,
C Med  a Med , bMed  Comme étant la première classe qui contient au moins

la moitié de l’effectif total (ou 50% en fréquence) puis on procède par


interpolation :

n
 ncum
med  aMed  (bMed  aMed ) 2
nMed

où ncum  effectif cumulé jusqu' à la classe médiane (non comprise).


nmed  effectif de la classe médiane .
Exemples :

- Pour la variable « Nbre d’enfts »:


On a n = 30 pair alors Med = (1/2)(x15 + x16). On reprend le tableau de distribution
de la page 4 et on le complète avec les effectifs (ou les fréquences) cumulé(e)s :
(Tableau 5)
xi 0 1 2 3 4 Total
ni 2 6 12 8 2 30
fi 0.07 0.2 0.4 0.26 0 .07 1 Med = 2
nicum 2 8 20 28 30
ficum 0.07 0.27 0.67 0.93 1
La moitié des salariés ont 2 enfants ou moins.
- Pour la variable « Salaire »: D’après le tableau 3 de la page 6 la classe médiane
est donnée par CMed =[194.5 , 211 [ d’où
 15  12 
Med  194,5  4   196,5 (10 )
3

 6 

Ce qui veut dire que la moitié des salariés ont un salaire inférieur ou égal à196500
DA .

- Pour la variable « Âge »: On reprend le tableau 4. La première classe dont l’effectif


cumulé égal ou dépasse n/2 (ici 15) est CMed =[46, 50[ d’où

15
Module statistique et probabilité 2017/2018

 15  9 
Med  46  4   48,67
 9 
Ce qui veut dire que la moitié des salariés sont âgés de moins de 48,67 ≈ 48 ans.
Comparaison des indicateurs de position :

d/ Les quantiles :
On généralise la définition de la médiane, en définissant:

- les quartiles : il y en a 3, notés Q1, Q2, Q3, qui découpent la population étudiée en
quatre parts d'effectif égaux (chaque part contient 25% de l'effectif total).

- les déciles : il y en a 9, notés D1, D2, …D9, qui découpent la


population étudiée en dix parts d'effectif égaux (chaque part contient 10% de l'effectif
total).
- les centiles : il y en a 99, notés C1, C2, …C99, qui découpent la
population étudiée en cent parts d'effectif égaux (chaque part contient 1% de l'effectif
total).

Plus généralement, on défini


- les quantiles d'ordre  ( 0<  <1), notés q sont tels que F (q )   :
c'est la valeur de x telle que la proportion (ou fréquence) des individus qui ont au plus
cette valeur est  . (F étant la fonction de répartition)

En pratique, pour déterminer le quantile d’ordre  , on procède de la façon suivante :

 Dans le cas discret,


1. Si n  n’est pas entier on a q  xn 1
où [n  ] désigne la partie entière de n  .

16
Module statistique et probabilité 2017/2018

2. Si n  est entier on a
q   x 
1
 x 
2 n n 1 

 Dans le cas continue,

on détermine d'abord la classe C  a  , b  qui contient le quantile


d’ordre  , noté q , comme étant la première classe qui contient au
moins n  observations (ou encore celle dont la fréquence cumulée égale
ou dépasse  ), puis on calcule celui-ci par interpolation :

n  ncum
q  a  (b  a )
n

où ncum  effectif cumulé jusqu' à la classe C (non comprise).


n  effectif de la classe C .

Exemples :

1) Pour la variable « Nbre d’Enfts » : d’après le tableau 5,

Q1 = 1, Q2 = Med = 2, Q3 = 3

D2 = 1, D3 = D4 = D5 =Med = D6, = 2 D7 = D8 = D9 = 3

C25 = Q1 = 1, C50 = Med = 2, C75 = Q3 = 3.

q0.3 = D3 = C30 = (1/2)(x9 + x10) = 2

2) Pour la variable « Âge » : On veut trouver le quantile d’ordre 0,17. D’après


le tableau 4, la classe qui le contient est la classe [ 38, 42[ (n  = 5,1),
d’où

5,1  3
q0,17  38  4  40,8 : ce qui veut dire que 17% des
3
salariés ont un âge inférieur ou égal à 40,8 ans.

On peut aussi trouver les quantiles de tout ordre graphiquement en utilisant la courbe
cumulative : En effet d’après la définition (page 18), le quantile q vérifie
F (q )  
Il suffit donc de retrouver sur le graphe de la fonction de répartition, l’abscisse ( q )
qui correspond à l’ordonnée  . On distingue le cas discret du cas continu :

17
Module statistique et probabilité 2017/2018

Dans le cas discret :

F(x) 1
0,9

0,6

0,28

0,11

0 1 2 3 4 x

q0.6 vérifie donc l’équation F(q0.6) = 0.6.


Graphiquement q0.6 = 2

Analytiquement et d’après le tableau 5, q0.6 = (1/2)(x18 +x19) = 2

18
Module statistique et probabilité 2017/2018

Dans le cas continu

F(x)

1
0,93

0,73

0,60

0,40

0,30 Graphiquement
q0.4 ≈ 47,1
0,20

0,10
0,07

30 34 38 42 46 50 54 58 62

Analytiquement et d’après le tableau 4 on a q0,4 qui appartient à la classe [46 , 50[,


12  9
car n  = 12, d’où q0,4  46  4  47,33 .
9

19