Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUE DESCRIPTIVE
1
Chapitre 1
La statistique est l’outil avec lequel on travaille une matière première constituée par
les statistiques.
1.2 Terminologie
Le rôle de la statistique est d’étudier des faits nombreux sur un même phénomène pour
permettre ensuite de prendre des décisions. Pour ce faire, le statisticien doit suivre les étapes
ci-dessous dans sa démarche :
Puisque la statistique a pour but final d’aider les décideurs à prendre des décisions, les
données recueillies doivent être fiables. Ainsi dans la planification de la collecte des données,
le statisticien doit tenir compte des objectifs à atteindre, des moyens disponibles, des délais
imposés, des contraintes budgétaires, etc.
Le statisticien doit d’abord préciser l’ensemble sur lequel vont porter les observations.
Cet ensemble est appelé la population. Tout élément de cet ensemble est un individu ou une
unité statistique.
Le statisticien étudie les unités statistiques selon certains caractères que l’on désigne
généralement sous le nom de variable statistique.
2
Toute valeur possible d’une variable statistique est appelée une modalité. A chaque individu,
on fait correspondre, pour chaque variable statistique considérée, une modalité.
Les variables statistiques quantitatives sont des caractères des unités statistiques
qu’on peut mesurer (par exemple l’âge d’une voiture, la température d’un site un instant
donné, etc.). Elles ont donc des valeurs numériques. On distingue deux classes de
variables statistiques quantitatives.
- Les variables statistiques quantitatives discrètes (par exemple le nombre
d’accidents sur un site pendant une période donnée, le nombre de voitures dans un
pays, le nombre d’ordinateurs par ménage, etc).
Une variable statistique est dite discrète si les valeurs numériques qu’elle peut
prendre sont des nombres entiers.
- Les variables statistiques quantitatives continues ( par exemple la température d’un
site, l’âge d’un véhicule, le temps d’exécution par un programme d’une tâche fixée, etc.)
Une variable statistique est dite continue si elle peut prendre n’importe quelle valeur
numérique dans un intervalle de l’ensemble des réels.
Les variables statistiques qualitatives sont des caractères des unités statistiques qu’on
ne peut pas mesurer (par exemple la situation matrimoniale, le sexe, le secteur d’activités
d’une personne, la marque d’un véhicule, le type de route, l’état de la chaussée, les
conditions atmosphériques, la commune, etc.). On distingue deux types de variables
statistiques qualitatives.
- Les variables statistiques qualitatives nominales ( par exemple le sexe, la
nationalité, la commune, etc.)
Une variable statistique est dite nominale si elle permet de répartir les unités
statistiques en catégories non comparables. On parle aussi de variable dichotomique.
- Les variables statistiques qualitatives ordinales (par exemple le type de route,
l’état de la chaussée, les conditions atmosphériques, le niveau d’appréciation d’un
produit, etc.)
Une variable statistique est dite ordinale si elle permet de répartir les unités
statistiques en catégories comparables.
3
1.2.2 Recensement et échantillonnage
Lorsque les observations sont faites sur la population complète, on dit qu’on fait un
recensement. Par exemple, si on fait une enquête sur tout le parc automobile de la ville
d’Abidjan, on parlera de recensement de la population de voitures de la ville d’Abidjan.
Souvent pour des raisons diverses ( contrainte budgétaire, durée limitée, destruction
des unités statistiques observées, etc.), il est préférable de faire les observations sur une partie
de la population. Dans ce cas on dit qu’on fait un sondage.
a) L’analyse exploratoire
Cette phase consiste à faire connaissance avec les données. Elle utilise des opérations
très simples(le rangement, la représentation graphique, etc.) pour donner une idée générale
sur la situation des données les unes par rapport aux autres.
b) L’analyse descriptive
Cette phase complète la première. Elle décrit l’ensemble des données au moyen de
tableaux divers, de représentations graphiques et de paramètres représentatifs des variables
statistiques étudiées.
Les mots clés des deux premières phases sont : classement, visualisation, synthèse,
etc.
c) L’analyse confirmatoire
Elle a pour but de tester la validité des hypothèses d’étude qu’on a faites avant la
réalisation des statistiques. Cette démarche peut se faire de façon empirique ou suivre une
démarche scientifique appelée l’inférence statistique. Dans tous les cas, cette phase
consiste à tirer des conclusions sur la base des données dont on dispose.
4
Chapitre 2
1 x11 K x 1j K x1p
M M M M M M
Individus
i x i1 K xij K xip
M M M M M M
n xn1 K K K xnp
5
On peut utiliser un tableau individus × variables pour étudier la population totale ou un
échantillon.
Si toutes les variables statistiques sont quantitatives on peut présenter les données sous forme
d’une matrice n× p :
x 11 x 12
x x
K x 1p
21 22
K x 2p
M M O M
x n1 x n 2 K x np
Si p =1 , c’est à dire lorsqu’on est en présence d’une seule variable statistique, on peut utiliser
une notation simplifiée qui consiste à désigner la variable par X et les valeurs de cette
variable par x . Ainsi la valeur observée de la variable X par l’individu i est xi .
Le tableau individus × variables contient alors deux colonnes. La première permet
d’identifier les individus, l’autre contient les valeurs observées. Souvent, on présente le
tableau individus × variables univarié sous forme de deux lignes :
i 1 K i K n
xi x1 K xi K xn
Exemple 2.1. Le nombre d’accidents en 1983 dans la ville d’abidjan est donné par :
Mois Nonmbre
d’accidents
Janvier 125
Février 150
Mars 80
Avril 50
Mai 40
Juin 43
Juillet 80
Août 75
Septembre 80
Octobre 65
Novembre 50
décembre 95
6
2.2 Organisation, d’une série statistique univariée
Les données sont constituées d’une suite de valeurs observées x1, x2,K, xn de la
variable. Cette suite s’appelle la série statistique observée.
Si X est une variable quantitative ou ordinale on peut ordonner les valeurs observées de la
plus petite à la plus grande. La nouvelle série obtenue s’appelle la série statistique ordonnée.
On la note x(1), x(2),K, x(n) .
La série ordonnée est obtenue en permuttant les valeurs observées de façon telle que
x(i) ≤ x(j) si i ≤ j . L’indice dans la série ordonnée est placé entre parenthèses pour le distinguer
de celui de la série observée.
(i ) est appelé le rang de l’observation correspondante. La plus petite observation est donc
celle de rang 1 et la plus grande celle de rang n .
Exemple 2.2. On considère le nombre d’accidents en 1983 dans la ville d’Abidjan dont les
observations se trouvent dans l’exemple 2.1. La distribution observée est :
xj 40 43 50 65 75 80 95 125 150
nj 1 1 2 1 1 3 1 1 1
Une distribution observée à une dimension est définie par les valeurs distinctes qui
apparaissent dans la série observée et le nombre de fois que chacune d’elles apparaît.
On a
J
∑n =n .
j =1
j
7
a) Diagramme en bâtons
Exemple 2.3. On a effectué une enquête auprès de 25 familles pour déterminer le nombre de
voitures possédées par les familles d’un quartier d’Abidjan. La distribution observée se trouve
dans le tableau 2.3.
xj 0 1 2 4
nj 11 8 4 2
nj
11
0 1 2 4 modalités
Ces représentations graphiques sont valables pour les variables qualitatives. En effet,
pour des variables qualitatives la distance entre deux valeurs n’a pas de sens. Le diagramme
en bâtons n’est donc plus concevable. On construit plutôt un diagramme en barres ou en
secteurs.
Exemple 2.4. Dans une enquête réalisée auprès de 75 personnes, on demande leur niveau
d’appréciation sur une certaine marque de voiture. On dispose d’une échelle à cinq modalités :
8
Très défavorable (TD), défavorable (D), favorable (F), très favorable (TF) et moyen (M). La
distribution observée se trouve dans le tableau 2.4.
xj TD D F TF M
nj 15 6 20 30 4
Figure 2.2 Diagramme en barres associé à l’avis sur une marque de voiture
30
25
20
15
Avis
10
5
0
TD D F TF M
Figure 2.3 Diagramme en secteurs associé à l’avis sur une marque de voiture
TD
D
F
TF
M
9
a) Fréquences
nj
A chaque valeurs x j , on associe la fréquence f j définie par f j = .
n
J
On a ∑f
j =1
j =1.
xj nj fj Nj Fj
0 11 0,44 11 0,44
1 8 0,32 19 0,76
2 4 0,16 23 0,92
4 2 0,08 25 1
25
23
19
11
0 1 2 4
10
d) effectifs cumulés décroissants et fréquences cumulées décroissantes
N *j = n j + n j +1 +L+ nJ et F *j = f j + f j +1 +L+ f J .
Lorsque la variable est réelle continue (durée de vie, la vitesse d’un véhicule, la
température, l’accélération d’un véhicule, le temps d ‘exécution par un ordinateur d’une tâche
fixée, etc.), il peut arriver que le nombre de valeurs distinctes observées soit relativement
élevé. Dans une telle situation, il est conseillé de regrouper les différentes valeurs par classe.
On peut résumer les informations contenues dans les données à l’aide d’un
histogramme des fréquences ou d’un histogramme des effectifs. En effet dans un système
d’axes, on construit des rectangles associés à chacune des classes j et dont la surface est
égale à n j . Si a j est l’amplitude de la classe j , la hauteur du rectangle est n j / a j . Cette
quantité représente un effectif par unité de longueur de la classe.
Exemple 2.5. La brigade de gendarmerie chargée du contrôle des vitesses des véhicules sur
l’autoroute du nord a relevé les informations suivantes sur des contrevenants qu’elle a
interceptés : la vitesse du véhicule, sa puissance fiscale, le sexe et l’âge du conducteur, le
nombre de passagers dans le véhicule. Ces informations sont contenues dans l’annexe 1.
Classes nj fj Nj Fj
]140,150] 17 0,34 17 0,34
]150,160] 12 0,24 29 0,58
]160,170] 10 0,20 39 0,78
]170,180] 6 0,12 45 0,90
]180,190] 3 0,06 48 0,96
]190,200] 2 0,04 50 1
11
Figure 2.5 Histogramme des effectifs et polygone des effectifs des vitesses des véhicules
VITESSE
20
18
16
14
12
Nb d'Obs
10
2
Théorique
0
130 140 150 160 170 180 190 200 Normal
Exemple 2.6. On considère l’exemple 2.5 et on s’intéresse aux variables vitesse du véhicule
et âge du conducteur.
12
Figure 2.5 Nuage de points
250
200
150
Vitesse
100
50
0
0 10 20 30 40 50 60 70
Âge
On définit une distribution observée à deux dimensions par l’ensemble des triplets
{(x j, yk ,n jk ); j =1,K, J; k =1,K, K } . Cette distribution observée peut se représenter à l’aide d’un
tableau de contingence.
Exemple 2.7. On considère l’exemple 2.5 et on s’intéresse aux variables vitesse du véhicule
et sexe du conducteur.
Puissance
5 7 (0,14) 7 (0,14) 14 (0,28)
7 4 (0,08) 9 (0,18) 13 (0,26)
9 1 (0,02) 9(0,018) 10 (0,20)
11 0 (0,00) 7 (0,14) 7 (0,14)
16 2 (0,04) 4 (0,08) 6 (0,12)
Totaux 14 (0,28) 36(0,72) 50 (1,00)
13
2.3.3 Séries et distributions marginales
Lorsqu’on a une série observée bivariée {(xi, yi ); i =1,K,n} , il est intéressant d’avoir des séries
marginales univariées.
a) Distribution marginale en x
La distribution marginale en x est définie par l’ensemble des couples
{(x j,n j •); j =1,K, J } où l’on associe à chaque valeur x j de la variable x l’effectif marginal
défini par
K
n j • =∑ n jk .
k =1
b) Distribution marginale en y
La distribution marginale en y est définie par l’ensemble des couples {(yk ,n⋅k ); k =1,K, K }
où l’on associe à chaque valeur yk de la variable y l’effectif marginal défini par
J
n• k = ∑n jk
j =1
n j•
f j• = , j =1,K, J ; f • k = n• k , k =1,K, K
n n
14
2.3.4 Distributions conditionnelles ou profils
Une distribution conditionnelle consiste à fixer à priori la valeur d’une des variables et
à examiner les variations de l’autre.
n jk
f yk x j = fk j = , j fixé ; k =1,K, K.
n j•
n jk
f x j yk = f j k = , j =1,K, J. ; k fixé.
n• k
Puissance
5 7 (50%) 7 (50%) 14
7 4 (30,77%) 9 (69,23%) 13
9 1 (10%) 9 (90%) 10
11 0 (0,00%) 7 (100%) 7
16 2 (33,33%) 4 (66,67%) 6
Totaux 14 36 50
15
Tableau 2.10 Profils-colonnes du tableau de contingence de la vitesse et l’âge
Puissance
5 7 (50%) 7 (19,44%) 14
7 4 (28,57%) 9 (25,00%) 13
9 1 (7,14%) 9 (25,00%) 10
11 0 (0,00%) 7 (19,44 %) 7
16 2 (14,29%) 4 (11,11%) 6
Totaux 14 36 50
Souvent avant d’analyser les données il est nécessaire et judicieux de transformer ces
données. On remplace alors la série observée {x1 ,K, xn } par une série transformée {y 1 ,K, ym }
ayant le même nombre ou non d’observations.
Le choix de la transformation est lié aux propriétés que peuvent cachées les données de
départ. Par exemple les propriétés de linéarité, symétrie, variabilité constante, etc.
a) Changement d’origine
Exemple 2.8. Considérons la série relative aux temps (en secondes) d’exécution par des
programmes d’une tâche fixée.
Programmes i 1 2 3 4 5 6 7 8
Temps 6,572 12,400 5,272 8,435 7,012 10,191 4,237 8,881
d’exécution
Supposons qu’un temps d’exécution type de 8 secondes est fixé. Dans ce cas, on est intéressé
par l’écart entre le temps d’exécution réellement observé xi et le temps d’exécution type. On
fait alors le changement de variable yi = xi −8 .
b) Changement d’unité
16
Par exemple, dans l’exemple 2.8, on peut vouloir exprimer le temps d’exécution en minutes.
Dans ce cas on doit diviser les valeurs observées par 60. On fait alors la transformation
linéaire yi = xi / 60 .
On peut décider de prendre simultanément une nouvelle origine que nous appelons x0 et une
nouvelle unité que nous désignons par d ( c’est à dire égale d fois la première) Dans ce cas,
la transformation linéaire est
xi − x0
yi = ⋅
d
Un type de transformation très utilisé lorsqu’on observe une variable x à des époques
distinctes t 1 , t2, t3 ,K c’est à dire lorsqu’on a une série chronologique est le suivant :
On choisit une époque de base destinée à servir de référence ( par exemple la date t1 ).
On définit un indice qui permet de mesurer les modifications relatives de la variable x en des
instants quelconques par rapport à l’époque de référence, en comparant les valeurs de la
série observée {xt } à la valeur correspondante à la date t1
it t1 (x)= xt .
xt1
La notation it t1 (x) signifie que l’on considère l’indice pour la variable x de l’époque
courante t à l’époque de base t1⋅
17
Chapitre 3
La moyenne arithmétique d’une série statistique {xi;i =1,K,n} est égale à la somme des
observations divisée par l’effectif n de la série, et est notée x .
n n
x = 1 ∑ xi ou x = 1 ∑ x(i) .
n i =1 n i =1
.
1 Une moyenne arithmétique ne se conçoit que pour des variables statistiques
quantitatives.
2. La moyenne arithmétique d’une variable statistique est unique.
3. La moyenne arithmétique est rarement une valeur observée de la variable statistique.
4. La moyenne arithmétique est très sensible à la présence de valeurs aberrantes c’est à dire
de valeurs qui ne sont pas du même ordre de grandeurs que les autres.
18
n n
∑ xi =nx ou
i =1
∑x
i =1
(i) = nx
∑(x − x) = 0.
i =1
i
x = n1 x1 + n2 x2 .
n
Il existe d’autres types de moyennes dans la littérature. On peut citer la moyenne géométrique
et la moyenne harmonique.
J
x = 1 ∑n j x j .
n j =1
On a
J
1 n j ( x j − x )=0.
n∑
j =1
Lorsqu’on dispose d’une distribution groupée, sans posséder les données initiales, il
n’est plus possible de déterminer la moyenne arithmétique de la série observée. On peut
cependant calculer une valeur approchée q’on notera également x et qui est définie par
J
x = 1 ∑n j xc j ,
n j =1
où xc j et n j sont respectivement le centre et l’effectif de la classe j (j =1,K, J) .
3.2.2 La médiane
La médiane est un paramètre qui représente une valeur centrale d’une série {x1,K, xn }. Elle est
définie à partir de la série ordonnée {x(1),K, x(n) } où (i) est le rang de l’observation
correspondante.
19
En effet, c’est la valeur notée Me , telle que le nombre d’observations de la série
ordonnée qui la précèdent est égal au nombre d’observations qui la suivent.
Ce paramètre ne peut être défini que pour des variables statistiques quantitatives ou
qualitatives ordinales.
x n + x n +1
Me= 2 2
.
2
Lorsqu’on dispose d’une distribution observée, la médiane est définie grâce aux
distributions cumulées à savoir :
- la distribution cumulée croissante N(x) représentant le nombre d’observations
inférieures ou égales à x ;
- la distribution cumulée décroissante N *(x) correspondant au nombre
d’observations supérieures ou égales à x .
La solution de l’équation (3.1) est soit unique, soit indéterminée (intervalle médian). Dans ce
dernier cas, on prend pour médiane la moyenne des valeurs qui définissent cet intervalle(si
ces valeurs sont quantitatives).
20
Du point de vue pratique, on a recours à la démarche ci-dessous basée sur l’histogramme des
effectifs cumulés pour rechercher la valeur médiane :
1. s’il existe une valeur x j telle que N j −1 < n / 2< N j , alors Me= x j (en posant N 0 =0, si
j =1);
2. s’il existe une valeur x j telle que N j = n / 2, alors
x j + x j +1
Me= .
2
Lorsqu’on dispose d’une distribution groupée et qu’on n’a pas la série ordonnée, on ne
peut plus déterminer la médiane avec précision mais il est possible de donner une valeur
approchée qu’on note aussi Me . On prend pour valeur approximative
(n / 2)− N m −1
Me=l −m + am
nm
−
où m désigne la classe contenant Me , l m sa limite inférieure, am sa longueur, nm son effectif
et N m −1 l’effectif cumulé de la classe précédente.
a) La moyenne tronquée
La moyenne étant influencée par la présence de valeurs aberrantes, il est conseillé quelque
fois d’éliminer ces dernières ou, tout au moins de ne pas tenir compte des premières et
21
dernières valeurs de la série ordonnée. De cette façon, on obtient une moyenne tronquée qui
n −1
ne porte que sur les observations x(2),K, x(n −1) : xTR = 1 ∑ x(i). .
n−2 i = 2
On peut reprocher à cette démarche d’éliminer des informations.
b) La moyenne pondérée
Dans certaines situations les observations n’ont pas toutes la même importance. Dans
ce cas on attribue à chaque observation xi un coefficient de pondération ω i (i =1,K,n) ,
encore appelé poids.
∑ω =1.
i =1
i
n
xP =∑ω i xi .
i =1
La médiane peut être considérée comme un cas particulier d’une valeur plus générale,
appelée quantile (ou encore fractile).
Supposons qu’on dispose d’une série ordonnée. Soit p un nombre réel compris entre 0 et 1.
Il y a donc au moins une proportion p des observations qui sont inférieures ou égales à x p
et il y a au moins une proportion 1− p de valeurs supérieures ou égales à x p . Si une seule
observation satisfait à la double inégalité (3.2) , elle représente le quantile d’ordre p . Si
deux valeurs consécutives satisfont à (3.2), on prend la moyenne arithmétique lorsque ces
valeurs sont numériques.
1. La médiane (p =1/ 2)
2. Les quartiles correspondant à p =1/ 4, p =1/ 2, p =3/ 4. Ils sont très souvent notés par
Q1, Q2, et Q3 .
22
Empiriquement, on peut dire que les quartiles partagent l’ensemble des
observations en quatre partie de « même effectif ».
Lorsqu’on dispose d’une distribution observée, les quantiles peuvent se déterminer gràce à
la courbe cumulative croissante en suivant la démarche suivante :
1. s’il existe une valeur x j telle que N j −1 < np< N j , alors x p = x j (en posant N 0 =0, si j =1);
2. s’il existe une valeur x j telle que N j = np, alors
x j + x j +1
xp = .
2
Lorsqu’on dispose d’une distribution groupée, on ne peut qu’obtenir des valeurs approchées
des quantiles. On procède comme suit dans la détermination de ces valeurs :
1. On recherche la classe, notée (l −k ,l +k ) qui contient le quantile x p ; elle est telle que
N k −1 < np≤ N k .
2. On recherche ensuite la valeur x p qui satisfait l’équation : N(x p )= np. Cette valeur est
donnée par :
23
np − N k −1
x p =l k− + ak .
nk
3.2.5 Le mode
Le mode d’une distribution observée est la valeur observée qui apparaît le plus souvent
c’est à dire ayant l’effectif le plus grand. On le note par xM . Ce paramètre n’est pas
nécessairement unique et peut ne même pas exister.
Une distribution peut être unimodale (un seul mode), plurimodale (plusieurs modes).
Si on a une distribution groupée, on parlera de classe modale.
Lorsqu’on a une distribution groupée, si les classes ne sont pas de même longueur, il
faut effectuer la comparaison des effectifs en les ramenant à des intervalles de valeurs
équivalentes. Pour obtenir cette équivalence, on peut faire l’histogramme des effectifs en
prenant comme hauteur du rectangle de base la classe (lk−,lk+ ) , la quantité nk où ak =lk+ −lk−
ak
(c’est à dire l’amplitude de la classe).
Les quantiles, la médiane et le mode s’expriment dans les mêmes unités et par rapport à
la même origine d’échelle que les valeurs observées.
Il est possible que deux variables statistiques aient la même valeur centrale mais
soient complètement différentes du point de vue de la concentration ou la dispersion des
24
valeurs observées autour de cette valeur centrale. Il est donc nécessaire de trouver des
mesures permettant d’apprécier la dispersion d’une série statistique ou d’une distribution
observée.
3.3.1 L’étendue
L’étendue est égal à la différence entre la plus grande et la plus petite valeur observée :
x(n) − x(1) .
Intervalle
Interquartile Interdécile
Définition de l’écart x3 / 4 − x1/ 4 x9 /10 − x1/10
Ces intervalles ne contiennent pas les valeurs extrêmes. Si p n’est pas trop petit , ils ne
sont pas sensibles à leur présence éventuelle.
25
de longueur inégales) par la médiane Me , c’est à dire x1/ 2 . Cette boîte est ensuite prolongée à
sa gauche et à sa droite par deux moustaches jusqu’à x(1) et x(n) . On obtient la figure 3.3 :
.
1 La médiane nous renseigne sur le milieu de la série.
2. Les largeurs des deux parties de la boîte nous informent sur la dispersion des valeurs
situées au centre de la série (la boîte contient 50% de l’ensemble des observations : 25% à
gauche de la médiane et 25% à droite).
3. La longueur des moustaches nous renseigne sur le comportement des valeurs situées au
début de la série ordonnée (les valeurs les plus petites correspondent à 25% des
observations) ou à la fin de celle-ci (les valeurs les plus grandes correspondent aussi à 25%
des observations).
4. La dispersion est d’autant plus grande que la boîte est étendue.
5. Une difficulté peut se présenter si la série contient des valeurs extrêmes (très petites ou très
grandes). En effet, dans ce cas, les moustaches risquent de devenir très longues, ce qui nuit à
leur interprétation.
195
185
175
165
155
Max = 200
145 Min = 141
75% = 169
25% = 147
135
VITESSE Médiane = 157,5
26
3.3.4 L’écart moyen absolu et l’écart médian absolu
L’écart moyen absolu, noté em , est égal à la moyenne des valeurs des différences
entre les observations et la valeur x :
n
em = 1 ∑ xi − x . .
n i =1
En prenant comme valeur centrale la médiane on obtient l’écart médian absolu, noté e*m :
n
e m = 1 ∑ xi − Me .
*
n i =1
L’écart moyen absolu et l’écart médian absolu sont des paramètres de dispersion qui
prennent en compte toutes les observations. Toute fois ces paramètres sont peu utilisés.
3.3.5 La variance
n
s = ∑ ( xi − x ) .
21 2
n i =1
1. Si les valeurs observées d’une série statistique sont homogènes alors sa variance est
petite. Par contre plus les valeurs observées sont hétérogènes, plus la variance s’accroît.
2. La variance ne se conçoit que pour des variables quantitatives.
3. La variance d’une série statistique constituée de valeurs identiques est nulle.
4. La variance est sensible à la présence de valeurs aberrantes.
On a
n
s 2 = 1 ∑ xi2 − x 2 .
n i =1
n n
s 2 = 1 2 ∑∑(xi − x j ) 2 .
2n i =1 j =1
Lorsqu’on agrége deux séries statistiques d’effectifs n 1 et n2 , de moyennes x1 et x2 , de
variances s12 et s22 . La variance de la série globale obtenue est :
27
Le premier terme du membre de droite de la formule (3.3) porte le nom de variance
intragroupes c’est à dire à l’intérieur des groupes. Le second terme est appelé variance
intergroupes c’est à dire entre les groupes.
Si l’on dispose d’une distribution observée {(x j,n j ); j =1,K, J }, la variance peut se
calculer par :
J J
s 2 = 1 ∑n j ( x j − x ) = 1 ∑n j x 2j − x 2. .
2
n n j =1
j =1
J J
s 2 = 1 ∑ n j ( xc j − x ) = 1 ∑ n j xc2j − x 2.
2
n j =1 n j =1
n −1∑
1 ( xi − x )2. On l’appelle quelque fois la variance corrigée.
i =1
2. La variance n’est pas un nombre sans dimension.
On appelle écart type la quantité
n
s = 1 ∑( xi − x )2 .
n i =1
L’écart type s’exprime dans les mêmes unités que les observations. Elle est donc plus facile à
interpréter que la variance.
Si sx2 est la variance d’une variable statistique X alors pout réel a , a 2 s x2 est la variance
de la variable aX .
On appelle valeurs centrées réduites d’une série statistique x1,K, xn les valeurs
xi − x , i =1,K,n.
s
Notons que la moyenne d’une série centrée réduite est nulle et que sa variance est égale à 1.
La comparaison des dispersions de deux séries statistiques peut se faire grâce aux
écarts types lorsque ces séries ont des moyennes du même ordre de grandeur et ne contiennent
28
pas de valeurs aberrantes. Dans le cas contraire, on peut utiliser le coefficient de variation
défini par
CV = s ⋅
x
Ce paramètre est une mesure relative de dispersion et permet une interprétation plus
appropriée. On l’exprime en général en pourcentage.
29
a) Le coefficient de Fisher
Considérons une distribution observée {(x j ,n j ); j =1,K, J }. On appelle moment centrée d’ordre
3, la quantité
J
m3 = 1 ∑ n j (x j − x )3.
n j =1
Comme m3 dépend des unités utilisées dans la mesure des observations, Fisher a introduit le
coefficient :
g1 = m33 ⋅
s
Il existe d’autres coefficients d’asymétrie qui sont rapides à calculer mais dont les propriétés
résultent de constatations empiriques :
Sk = x − xM ⋅
s
Yk = x1/ 4 + x3 / 4 − 2x1/ 2 ⋅
x3/ 4 − x1/ 4
L’aplatissement d’une distribution peut être caractérisé par des paramètres basés sur le
moment centré d’ordre 4 :
J
m4 = 1 ∑ nJ (x j − x ) 4 ⋅
n j =1
30
Ces paramètres sont :
b2 = m44
s
g 2 = m44 − 3.
s
Plus la série est effilée, plus ces coefficients sont grands. Plus la série est aplatie, plus
ces coefficients sont petits.
L’utilisation de ces coefficients est parfois délicate.
31
PARTIE II
32
Chapitre 4
ANALYSE COMBINATOIRE
L’objectif de ce chapitre est d’introduire les techniques de base pour le dénombrement
des différents résultats possibles d’une expérience.
Exemple 4.1. Soit trois urnes U1,U 2 et U 3 telles quel’urne U1 contient une boule noire et une
boule rouge, il y a deux boules blanches dans l’urne U 2 et l’urne U 3 contient trois boules
bleues . On tire au hasard une boule del’urne U1 :
- Si la boule tirée est noire, on tire une seconde boule de l’urne U 2 ;
- Si la boule tirée est rouge, on tire une seconde boule l’urne U 3 .
Avant toute chose, il faut préciser si les boules sont discernables c’est à dire
distinguables ou non. On dit que deux objets sont discernables ou distinguables s’il existe un
moyen de les différencier.
On suppose que les boules sont discernables et que les boules de l’urne U1 sont N et R , les
boules de l’urne U 2 sont B1 et B2 , et celles de l’ urne U 3 sont Bl1 , Bl2 et Bl3 . Pour
dénombrer les résultats on peut faire l’arbre suivant :
B1 ( N , B1)
B2
N ( N, B2 )
R Bl1 ( R, Bl1)
Bl2
(R , Bl2)
Bl3
(R, Bl3)
33
Exemple 4.2. On dispose de r urnes telles que la i ème contient ni boules. On suppose que
toutes les boules sont discernables. On tire une boule au hasard de chaque urne. On désire
dénombrer les façons de choisir ces boules.
Pour résoudre ce problème, commençons par remarquer que l’expérience dont on cherche le
nombre de résultats peut être subdivisée en r sous expériences dont la i ème consiste à choisir
la boule provenant de l’urne i . On a n1 résultats possibles pour la sous-expérience 1. A
chaque résultat de la sous-expérience 1, on a n2 résultats possibles pour la sous-expérience 2.
D’où on n1 2 +L+ n2 = n1×n2 résultats possibles pour les sous-expériences 1 et 2 prises
424 3
n1 − fois
On peut considérer le choix des programmes comme une expérience qu’on peut
subdivisée en trois sous-expériences, la i ème sous expérience consistant à choisir le
programme devant servir à exécuter la i ème tâche. On a 20 choix de programme pour la
première tâche. A chaque choix de ce programme on a 20 choix possibles pour le programme
de la deuxième tâche. A chaque choix des programmes des tâches 1 et 2 on a 20 choix
possibles pour la tâche 3. Ainsi d’après le principe fondamental, on a 20 ×20×20= 203 choix
possibles.
Plus généralement on a :
34
Le nombre d’applications d’un ensemble E de cardinal p vers un ensemble de cardinal
n est n p .
Une application de E dans F s’appelle aussi un arrangement avec répétitions (possibles)
p à p des éléments de F.
On peut considérer le choix des programmes comme une expérience qu’on peut
subdivisée en trois sous-expériences, la i ème sous expérience consistant à choisir le
programme devant servir à exécuter la i ème tâche. On 20 choix de programme pour la
première tâche. A chaque choix de ce programme on a 19 choix possibles pour le programme
de la deuxième tâche. A chaque choix des programmes des tâches 1 et 2 on a 18 choix
possibles pour la tâche 3. Ainsi d’après le principe fondamental, on a 20 ×19×18 choix
possibles.
Plus généralement on a :
p −1
a) A p
n =n A n −1
p −1
= p An −1 + An −1 ⋅
p p
b) A
n
35
On peut considérer le choix des programmes comme une expérience qu’on peut
subdivisée en 20 sous-expériences, la i ème sous-expérience consistant à choisir le programme
devant servir à exécuter la i ème tâche. On a 20 choix de programme pour la première tâche.
A chaque choix de ce programme on a 19 choix possibles pour le programme de la deuxième
tâche. A chaque choix des programmes des tâches 1 et 2, on a 18 choix possibles pour la
tâche 3. Ainsi d’après le principe fondamental, on a 20 ×19×1 8 choix possibles pour les trois
premières tâches. A chaque choix des programmes pour les i premiers programmes on a
n −i +1 choix possibles du programme pour la i ème tâche. Finalement d’après le principe
fondamental on a n×(n −1)×L×2×1 façons de faire le choix des programmes.
Plus généralement on a :
Commençons par dénombrer les façons de faire le choix des intersections si elles sont prises
successivement. Dans ce cas, tout résultat peut s’identifier à une injection de l’ensemble des
trois choix dans l’ensemble de toutes les intersections. Pour construire cette injection, on peut
commencer par choisir l’ensemble des images. Désignons par N (à déterminer) le nombre de
façons de le faire. A chaque ensemble image obtenu on a 3! façons de faire une permutation
=N ×3!. Il s’en
3
des éléments de cet ensemble. Ainsi d’après le principe fondamental, on a A 25
3
suit que N = A 25
⋅
3!
p
A n×(n −1)×L×(n − p +1)
n
= ⋅
p! p!
On peut prouver que ce nombre est égal à
n! ⋅
p! (n− p)!
36
p
On le note C n
et on lit c, n, p . Il est clair que si p> n alors le nombre de sous ensembles à
p éléments d’un ensemble à n éléments est zéro.
Un sous ensemble à p éléments d’un ensemble F à n éléments est appelé aussi une
combinaison p à p des éléments de F.
n− p
C =C
p
a) n n
C =C +C
p p −1 p
b) n n −1 n −1
(Triangle de Pascal)
c) n!= (n − p)! An
p
a) Les n objets sont tous discernables et la répartition des objets se fait sans
aucune contrainte
Sous cette hypothèse une répartition des objets est identifiable à une application de
l’ensemble des n objets vers l’ensemble des r cases. Le nombre de répartitions possibles est
donc r n .
37
c) Les n objets sont tous discernables et la répartition des objets se fait de telle
sorte que la case i contienne ni objets.
La répartition des objets est identifiable à une expérience qu’on peut subdiviser en r sous-
expériences. La i ème sous-expérience est le choix des objets à mettre dans la case i . A chaque
choix des objets des cases 1,K,k −1 , on a
nk
C n−
k −1
∑ ni
choix possibles des objets à mettre dans la
i =1
C ×C ×L×C
n r −1
×C ⋅
n1 n2 nr
r −2 r −1
n n − n1
n− ∑
i =1
ni n− ∑
i =1
ni
r
En remarquant que ∑n =n , on tire que :
i =1
i
d) Les n objets sont tous indiscernables et la répartition des objets se fait sans
qu’aucune case ne reste vide
Puisque les objets sont indicsernables, ce qui différencie les répartitions possibles est la suite
n1,K,nr où ni désigne le nombre d’objets dans la case i . On doit avoir ni ≥1.
Supposons qu’on a n objets indiscernables alignés et qu’on veut les diviser en r groupes
non vides. Ces objets peuvent être représentés comme suit :
0 • 0 • 0 • 0 •L • 0 • 0 • 0
où les 0 représentent les n objets indiscernables, les points • de séparation symbolisant les
n −1 espaces entre ces objets. Pour avoir une répartition des objets, il suffit de choisir r −1 des
n −1 espaces comme points de division. Si par exemple, n=6 , r=3 et qu’on choisit les deux
séparations comme suit :
000 • 00 •0 ,
on obtient la répartition où il y a trois objets dans la première case, deux objets dans la
deuxième case et un objet dans la troisième case.
Ainsi,
38
Notons que le nombre de répartitions de n objets indiscernables dans r cases
discernables est identique au nombre de vecteurs (n1,K,nr ) à composantes entières
supérieures ou égales à 1 tels que
n1 +L+ nr = n .
.
e) Les n objets sont tous indiscernables et la répartition des objets se fait sans aucune
contrainte
Puisque les objets sont indicsernables, ce qui différencie les répartitions possibles est
la suite n1,K,nr où ni désigne le nombre d’objets dans la case i .
Première méthode
n1 +L+ nr = n . (4.1)
r −1
=C n + r −1 ⋅
n
Le nombre de vecteurs solution de l’équation (4.2) est C n + r −1
Deuxième méthode
Affectons à chaque case une lettre : a pour la première case, b pour la seconde, K , s pour
la dernière. Une répartition des objets correspond à une combinaison avec répétition de n
lettres choisies parmi (a,b,K, s) , par exemple (n =6, r = 4) :
(a,a,b, d,d,d)
39
- 1 objet est palcé dans la deuxième case ;
- aucun objet dans la troisième case ;
- 3 objets dans la quatrième case :
a b c d
00 • 0 • • 000
Par conséquent il y a autant de façons de répartir les objets dans les cases qu’il y a de
combinaisons avec répétition de n symboles choisis parmi r.
Dépalçons provisoirement les r −1 points intermédiaires et rassemblons-les en tête :
•1
••42
••••43
•••• 0000000000
144244 000
3
r −1 points intermédia ires n objets indiscerna bles
Par permutation des r −1 points (indiscernables) et des n objets indiscernables, on obtient une
et une seule répartition des objets. Ainsi
(r −1+ n)! r −1
= C n + r −1 =C n + r −1 ⋅
n
(r −1)!n!
40
Chapitre 5
NOTIONS DE PROBABILITES
Le but de ce chapitre est d’introduire les bases mathématiques utiles à la modélisation
des phénomènes aléatoires. Ainsi l’objectif visé est de donner un sens mathématique à la
notion de « hasard ».
(i) l’ensemble des résultats possibles de l’expérience est bien déterminé avant sa
réalisation ;
(ii) des répétitions dans des conditions identiques de cette expérience ne conduisent
pas nécessairement au même résultat.
Exemples
L’ensemble des résultats d’une expérience aléatoire est appelé l’espace fondamental ou
l’univers de l’expérience. On le note en général Ω .
Exemples
Pour le nombre d’accidents dans un carrefour dans une journée, on peut prendre
Ω ={0,K,k } où k est le nombre maximal d’accidents pouvant se produire dans ce
carrefour dans une journée. On peut aussi prendre l’ensemble des entiers positifs si l’on
suppose que le nombre d’accidents dans ce carrefour dans une journée n’est pas limité.
Pour la nature de la réception d’un signal non déterministe, on peut prendre Ω ={0,1}
avec 0 signifiant que le signal n’a pas été correctement reçu et 1 désigne la situation
contraire.
41
Tout résultat d’une expérience aléatoire s’appelle aussi une éventualité.
Tout sous ensemble de l’univers est appelé un événement. En particulier tout singleton
c’est à dire un sous ensemble de l’univers réduit à un seul élément s’appelle un événement
élémentaire.
Maintenant que nous avons défini la notion d’événement, il est souhaitable d’être
capable d’associer à chaque événement une quantité permettant de quantifier la chance de
réalisation de cet événement.
N n (A)
kn (A) = ,
n
où N n(A) est le nombre de fois où l’événement A s’est réalisé.
On a
kn (Ω) =1 ;
Si A et B sont deux événements incompatibles alors kn (A∪ B) =kn (A)+ kn (B) .
42
Pour ce faire, on adopte l’axiomatisation ci-dessous pour quantifier les chances de réalisation
des événements.
P(Ω) =1
Pour toute suite (An) n ≥ 0 d’événements deux à deux disjoints, on a
+∞ +∞
P U An = ∑ P(An) ⋅
n =0 n =0
La quantité P(A) s’appelle la probabilité de l’événement A et le triplet ( Ω ,℘( Ω ), P )
espace probabilisé.
Exemple 5.2. (Probabilité uniforme) Soit ( Ω ,℘( Ω )) un espace probabilisable fini c’est à
dire tel que Ω est fini. On suppose que tous les événements élémentaires ont la même
probabilité ce qui s’énonce en disant qu’on a l’hypothèse d’équiprobabilité. Sous cette
hypothèse, la probabilité d’un événement A est alors donnée par
P(∅)= 0
P(A) =1− P(A)
P(A \B ) = P(A) − P(A∩ B)
Si A⊂ B alors P(A)≤ P(B)
P(A∪ B) = P(A)+ P(B)− P(A∩ B)
Pour toute suite croissante ( An )n ≥ 0 d’événements, on a
+∞
P U An = lim n → +∞ P(An ) .
n=0
+∞
P I An =lim n → +∞ P(An ) .
n=0
43
Preuve. On a Ω =Ω∪∅ et Ω∩∅ =∅ , donc 1= P(Ω) = P(Ω)+ P(∅). On en déduit que
P(∅) =0.
Supposons que A⊂ B . On a alors P(B \ A)= P(B) − P(A). Comme la probabilité est une
application positive, on déduit que P(A)≤ P(B).
On a A∪ B =(A \ B)∪(B \ A)∪(A∩ B). Les ensembles dans cette réunion sont deux à deux
disjoints. Par conséquent, on a
ce qui donne
P(A∪ B)= P(A) + P(B)− P(A∩ B) .
n
+∞ +∞ +∞
P(An) = ∑ P(B j ) et P U An = P U Bn = ∑ P(Bn ) .
j =0 n=0 n=0 n=0
On en déduit que
+∞
+∞
lim n → +∞ P(An ) = ∑
j =0
P (B j ) = P U An .
n =0
+∞
lim n → +∞ P(Bn) = P U Bn .
n =0
+∞ +∞
+∞
Puisque P(Bn ) =1− P(An ) et U Bn = I An , on déduit que lim n → +∞ P (An ) = PIA .
n =0 n=0 n=0
44
5.3 Probabilités conditionnelles
Dans cette section, notre objectif est de quantifier les chances de réalisation d’un
événement lorsqu’on dispose d’informations sur le résultat de l’expérience sans le connaître.
Exemple 5.3. On considère l’exemple 5.1 du lancer simultané de deux dés non pipés. Les
deux dés sont supposés distincts. On suppose qu’on a l’information suivante : « la somme
des chiffres obtenus est 8 ».
On cherche sous cette information à évaluer la chance que le premier chiffre du résultat
obtenu soit pair.
Ω ={1,2,3,4,5,6}×{1,2,3,4,5,6}.,
P(A) = 18 = 1 ;
36 2
3
P(A∩B) = = 1 car A∩B = {(2,6), (4,4), (6,2)};
36 12
P(B) = 5 ;
36
3 = P(A∩ B) ⋅
5 P(B)
Pour tout événement B tel que P(B)>0 , on appelle probabilité conditionnelle sachant
B l’application notée P(• | B) définie sur ℘( Ω ) et qui à tout élément de ℘( Ω ) associe
P(A∩ B)
qu’on note P(A | B) .
P(B)
On appelle système complet d’événements d’un espace probabilisé toute suite (An) n ≥ 0
d’événements deux à deux incompatibles tels que :
45
(i) P(An)>0 pour tout n≥0;
(ii) U A = Ω.
n≥0
n
Théorème des probabilités totales. Soit (An) n ≥ 0 un système complet d’événements d’un
espace probabilisé ( Ω ,℘( Ω ), P ). Pour tout événement A , on a
Preuve. Notons que A= A∩Ω = U(A∩ An) ⋅ Les événements (A∩ An ) sont deux à deux
n≥0
P( A An0 ) P(An0 )
P(An0 | A)= ⋅
∑ P(A An) P(An)
n ≥0
P(An0 ∩ A)
Preuve. On a P(An0 A) = ⋅ En utilisant le théorème des probabilités totales et la
P(A)
formule P(A∩ An0 ) = P(A | An0 ) P(An0 ) , on tire la conclusion.
Exemple 5.4. Une compagnie d’assurances répartit les gens en trois classes : personnes à bas
risque, risque moyen et haut risque. Ses statistiques indiquent que la probabilité que des gens
soient impliqués dans un accident sur une période d’un an est respectivement 0,05, 0,15 et
0,30. On estime que 20% de la population est à bas risque, 50% est à risque moyen et 30% à
haut risque. Quelle proportion des gens ont un accident ou plus au cours d’une année
donnée ? Koffi a pris une assurance en 1972 et n’a pas eu d’accident durant cette année.
Quelle est la probabilité qu’il fasse partie de la classe à bas risque.
L’expérience aléatoire consiste à observer la classe à laquelle appartient une personne prise au
hasard et à noter son implication dans un accident pendant une période d’une année.
Désignons par 1,2 et 3 les différentes classes dans l’ordre donné dans l’énoncé. L’implication
dans un accident durant la période d’un an considéré est représentée par 0 pour signifier que
la personne a fait un accident et 1 pour la situation contraire. On peut donc prendre pour
univers Ω = {1,2,3}×{0,1}. Pour toute éventualité (i, j ) dans l’univers on pose :
46
Ci = « être dans la classe i » et A j = « être dans la situation j pour l’implication dans
un accident » . La probabilité qui gouverne le phénomène aléatoire est donnée par la
connaissance des probabilités des événements élémentaires. On a {(i, j)}= Ci ∩ Aj , par
conséquent
On a P( A0 Ci )=1− P( A1 Ci ).
On cherche P(A1) . Puisque le système d’événements {C1 ,C2 ,C3 } est complet on a d’après
la formule des probabilités totales :
P(A1) = ∑ P( A1 Ci ) P(Ci )
3
i =1
= 0,175.
P( A0 C1 ) P(C1)
P(C1 A0 )=
∑ P(A Ci ) P(Ci )
3
0
i =1
0,95×0,2
=
0,95×0,2 + 0,85×0,5+ 0,70×0,3
0,19
=
0,825
≅ 0,23 .
47
5.4 Indépendance d’événements
Exemple 5.5. On reprend l’exemple 5.1 du lancer de deux dés non pipés. Désignons
par A et B respectivement les événements « obtenir un chiffre pair sur le premier dé » et
« obtenir un chiffre pair sur le deuxième dé ».
P(A∩ B) 9 / 36 1
On a P(A) = 18 = 1 et P(A B) = = = ⋅ Par conséquent la réalisation de
36 2 P(B) 18/ 36 2
l’événement B n’a pas d’influence sur la chance de réalisation de l’événement A. On dit que
ces deux événements sont indépendants.
1. On dit que deux événements A et B sont indépendants si P(A∩ B)= P(A) P(B). Ainsi
si P(B)>0 alors A est indépendant de B si P(A B) = P(A).
2. Les événements A et B sont indépendants si et seulement si les événements A et B sont
indépendants.
3. Les événements A et B sont indépendants si et seulement si les événements A et B sont
indépendants.
4. L’événement certain est indépendant de tout événement.
5. L’événement impossible est indépendant de tout événement.
On dit que les événements A1,K, An sont indépendants si pour tout 1≤ k≤ n et pour tout
1≤i1 <i2 <L<ik ≤ n , on a
k k
P I Ai j = ∏ P(Ai j ) ⋅
j =1 j =1
48
Chapitre 6
VARIABLES ALEATOIRES
UNIDIMENSIONNELLES
L’objectif dece chapitre est d’étudier les applications dites aléatoires et qui sont
définies sur l’univers d’une expérience aléatoire. En effet, souvent ce n’est pas le résultat
obtenu de l’expérience aléatoire qui est intéressant mais une valeur associée à ce résultat. Par
exemple, dans un jeu de loterie, ce n’est pas le numéro gagnant qui importe mais le gain
associé à ce numéro. Dans l’étude des accidents de la route ce ne sont pas les personnes
impliquées dans un accident qui sont importantes mais leurs caractéristiques.
Exemple 6.1. On considère une loterie qui consiste à lancer une pièce de monnaie et à
octroyer 10.000F CFA au joueur si le côté est pile. Dans le cas contraire on perd sa mise qui
est de 5000F CFA. L’univers de ce phénomène aléatoire est Ω ={0,1} avec 0 et 1 désignant
respectivement face et pile. Faisons l’hypothèse que la probabilité d’obtenir pile à un lancer
est p . La variable aléatoire donnant le gain du joueur est notée X et est définie par :
X(1)=5000 et X(0)= −5000 .
Notations. Pour tout sous ensemble A de l’ensemble des réels, on désigne par X −1(A) ou
{X∈A} l’ensemble des éventualités ω de Ω telles que X(ω) ∈A , c’est à dire la valeur
associée à l’éventualité ω est dans A. En particulier pour tout réel x , {X < x} est l’ensemble
des éventualités ω de Ω telles que X(ω) < x .
49
A de R , cette application permet d’évaluer la chance pour que la variable aléatoire prenne
sa valeur dans A.
0 si x≤1
1 si 1< x≤ 2
4
3 si 2< x≤3
FX (x)= 4
7 si 3< x ≤ 4
8
1 si x >4
50
FX prend ses valeurs dans l’intervalle [0,1];
FX est une fonction croissante ;
FX est une fonction continue à gauche ;
lim FX (x)=0 et lim FX (x) =1.
x → −∞ x → +∞
+∞
]−∞, x0 [= U( ]−∞, xn [ )⋅
n =1
On en déduit que
+∞
FX (x0)= P X U( ]−∞, xn [ )= lim P X ( ]−∞, xn [)= lim FX (xn)
n =1 n → +∞ n → +∞
+∞
Soit (xn ) n ≥ 0 une suite croissante vers + ∞ . On a ]− ∞ , +∞ [ = U ( ]− ∞ , x n [ )⋅ Comme
n=0
+∞
Soit (xn ) n ≥ 0 une suite décroissante vers −∞ . On a ∅ = I ( ]−∞, xn [ )⋅ Comme la suite
n =0
Exemple 6.3. D’une urne contenant 20 boules numérotées de 1 à 20, on tire sans
remplacement 3 boules. Quelle est la fonction de densité de la variable aléatoire représentant
le plus grand nombre tiré.
51
L’événement {X =i} correspond au tirage de la boule i et de deux autres boules portant des
numéros inférieur strictement à i . Par conséquent le cardinal de cet événement est Ci2−1 . On
en déduit que
Ci2−1
f X (i) = P (X =i) = pour tout i∈X(Ω).
C20
3
FX (x)= ∑ P(X = k) ;
k<x
x
FX (x) = ∫ f X (t) dt .
−∞
52
6.3 Moments d’une variable aléatoire réelle
∑ x P(X = x) ,
x∈ X(Ω)
Si X est une variable aléatoire réelle absolument continue, on appelle moment d’ordre 1,
espérance mathématique ou moyenne de X l’intégrale
+∞
∫−∞
x f X (x) dx ,
si elle existe.
f X (0) = 1 et f X (1)= 2 ⋅
3 3
On a E(X)=0× 1 +1× 2 = 2 ⋅
3 3 3
Si X est une variable aléatoire réelle discrète, on appelle moment d’ordre k de X
la somme
∑x
x∈ X(Ω)
k
P(X = x) ,
Si X est une variable aléatoire réelle absolument continue, on appelle moment d’ordre k
de X l’intégrale
+∞
∫−∞
x k f X (x) dx ,
si elle existe.
Soit X une variable aléatoire. Considérons la variable aléatoire Y = g(X) où g est une
application définie sur R et à valeurs dans R.
53
- Si X est discrète alors l’espérance de Y est donnée par
+∞
E(Y) = ∫ g(x) f X (x) dx ,
−∞
V(X) = E(X 2) −(E(X)) 2 , cette propriété est très souvent utilisée pour calculer la variance
d’une variable aléatoire.
V(X + a) =V(X) ;
V(aX) = a 2V(X) .
Exemple 6.5. On lance une pièce de monnaie. On note X la variable aléatoire prenant la
valeur 0 si le côté obtenu est face et 1 dans le cas contraire.
On peut prendre Ω = {pile, face} . X est la variable aléatoire définie par :
54
X(pile) =1 et X(face)=0 .
Si on désigne par p la probabilité d’obtenir pile, la loi de X est donnée à travers sa densité
qui est :
On dit qu’une variable aléatoire réelle X suit une loi binomiale de paramètre (n, p) où
n est un entier naturel et p ∈[0,1] , si elle admet pour fonction de densité
x p x (1− p) n − x si x∈{0,1,K,n}
C n
P(X = x)=
0 ailleurs.
Exemple 6.6. On sait que les appareils informatiques fabriqués par une certaine société sont
affectés d’un défaut avec probabilité 0,01 ; l’état d’un appareil est indépendant de celui des
précédents ou suivants. Or, la société accepte de rembourser les lots de 10 appareils qu’elle
vend si plus d’un des appareils présente un défaut. Quelle proportion des lots vendus la
société s’expose-t-elle à devoir rembourser ?
On peut prendre comme ensemble des résultats possibles Ω ={0,1} , où pour toute éventualité
10
ω =(ω1,K,ω n ) , la i ème composante donne l’état du i ème appareil du lot de 10 ; 1 signifie que le
i ème appareil du lot présente un défaut et 0 représente le cas contraire. Puisque les états des
appareils sont indépendants, on a pour toute éventualité ω ,
10 10
∑ ωi n− ∑ ωi
P({ω })= p i =1
(1− p ) i =1
⋅
n
éventualités ω telles que ∑ω = x.
x
car il y a C n
i =1
i
Maintenant, on cherche P(X ≥ 2) . On a P(X ≥ 2) =1− P(X =0)− P(X =1) . Ainsi
Par conséquent, la société devra remplacer environ 0,7 pour cent des lots.
55
6.4.3 Loi uniforme
On dit qu’une variable aléatoire réelle X suit une loi uniforme sur l’ensemble {x1,K, xn } si
sa fonction de densité est
1 si x∈{x1,K, xn }
n
P(X = x) =
0 ailleurs.
On dit qu’une variable aléatoire réelle X suit une loi géométrique de paramètre 0≤ p ≤1 si sa
fonction de densité est
(1− p) x −1 p si x =1,2,K
P(X = x)=
0 ailleurs.
Exemple 6.7. Une urne contient N boules blanches et M boules noires. On tire les boules
une par une avec remise jusqu’à l’apparition d’une noire. Quelle est la probabilité qu’il faille
exactement x tirages ?
On peut prendre comme univers Ω = 0{ L0 1 : n≥1 . L’éventualité 0{ L0 1 signifie que
(n −1) − fois (i −1) − fois
jusqu'au (i −1)ème tirage on a eu une boule blanche et qu’au i ème on a tiré une boule noire.
L01 , on a
Comme les tirages se font avec remise, pour toute éventualité 0{
n −1 fois
P 0{
L01 =(1− p) n −1 p ,
n −1 fois
où p = M ⋅
M +N
La loi géométrique de paramètre p est celle de l’instant du premier succès dans des
répétitions indépendantes d’épreuves de Bernoulli de paramètre p.
On dit qu’une variable aléatoire suit une loi binomiale négative de paramètre (r , p) avec
r∈{1,2,K} et 0≤ p ≤1 si sa fonction de densité est
56
r −1 p r (1− p) x − r si x∈{r,r +1,K}
C x −1
P(X = x)=
0 ailleurs.
Exemple 6.8. On utilise un programme pour exécuter une tâche quotidienne. On admet que
la probabilité de succès du programme est 0,7. On décide d’essayer le programme jusqu’à ce
que trois succès soient enregistrés. Calculer la probabilité que cela nécessite moins de dix
essais.
Soit X la variable aléatoire donnant le nombre d’essais nécessaire. Cette variable suit une loi
binomiale négative de paramètre 3 et 0,7. On cherche P(X ≤10) . On a
10
P(X ≤10) =∑C x −1(0,7)3(0,3) x − 3 .
2
x =1
Supposons que l’on ait affaire à des événements tels qu’il existe une constante positive
λ pour laquelle les conditions suivantes soient vérifiées :
57
- Nombre de tremblements de terre dans une région pendant une période de durée
T
- Nombre de clients dans une station d’essence pendant une période de durée T
On peut montrer que sous les conditions 1,2 et 3 , le nombre d’événements survenant
dans un laps de temps d’origine quelconque et de durée t est une variable aléatoire de
fonction de densité :
(λt) x − λt
x! e si x =0,1,2,K
P(N(t) = x) =
0 ailleurs.
En effet, partitionnons l’intervalle [0 , t ] en n intervalles disjoints de longueur t / n chacun .
On a
P(N(t)= x)= P(x des n sous intervalles contiennent exactement 1 événement et les n-x autres zéro)
P(B)≤ P(au moins l'un des sous-intervalles contient 2 occurences ou plus de l'événement)
n
≤∑ P(le i ème sous-intervalle contient 2 occurences ou plus)
i =1
n
= ∑o t
i =1 n
()
= no t
n
()
o(t / n)
= t .
t / n
On en déduit que P(B) tend vers 0 quand n tend vers l’infini. D’autre part, du fait des
conditions 1 et 2, on a
58
Par conséquent, en utilisant la condition 3 d’indépendance, on tire
P(A) = P(x des sous -intervalles contiennent exactement 1 occurence et les (x − k) autres aucune)
Puisque
[n
]
n λt + o(t / n) =λt +t
o(t / n)
t / n
→λt quand n tend vers l'infini,
on déduit que
(λt) x − (λt)
P(A) tend vers e .
x!
On dit qu’une variable aléatoire suit une loi hypergéométrique de paramètre (N,n,t) , avec
N,n,,t des entiers positifs, si sa fonction de densité est :
x t−x
C n Ct N − n si x est un entier naturel compris entre max(0,t − N + n) et min(t,n)
CN
P(X = x)=
0 ailleurs.
Exemple 6.9. On tire sans remise un échantillon de n boules d’une urne en contenant N ,
desquelles Np sont blanches et N − Np noires. Désignons par X le nombre de boules
blanches tirées. La loi de X est hypergéométrique de paramètre (N, Np,n).
On dit que X suit une loi uniforme sur l’intervalle [a,b] , si sa fonction de densité est :
59
1 si x∈[a,b]
b−a
f X (x)=
0 ailleurs.
On dit que X suit une loi exponentielle de paramètre λ >0 si sa fonction de densité est :
On dit que X suit une loi normale de paramètre (m,σ 2) , (avec m un nombre réel et σ 2 un
réel positif), si sa fonction de densité est :
La loi normale centrée réduite est tabulée (voir annexe 2 : Table 3) c’est à dire sa fonction
de répartition est donnée dans une table. Soit X une variable aléatoire de loi normale de
paramètre (3,9) . On veut caluler P(9,72≤ X ≤6,36) .
On a
9,72−3 6,36−3 X −3
P((9,72≤ X ≤6,36)= P ≤Z ≤ , où Z = 3 ⋅
3 3
= P(−2,24≤ Z ≤1,12)
60
=Φ(1,12)−Φ(−2,24)
=Φ(1,12)+ Φ(2,24) −1
=0,8686+ 0,9875−1
= 0,8561
On dit que X suit une loi gamma de paramètres α >0 et β >0 si sa fonction de densité est
β α xα −1e −βx
f X (x)= si x≥0 et f X (x)=0 pour x<0 ,
Γ(α)
où
+∞
Γ(α)= ∫ e − y yα −1 dy .
0
Soit X une variable aléatoire de loi normale centrée réduite. Alors la variable X 2 a pour
densité
− y1
f X (y)= 1 e 2 si y >0 et f X (y)=0 pour y ≤0.
2 πy
2
On dit alors que X suit une loi du Khi-deux à un degré de liberté.
( )
La loi du Khi-deux à un degré de liberté est une loi Gamma de pramètre 1 , 1 .
2 2
61
Chapitre 7
VARIABLES ALEATOIRES
MULTIDIMENSIONNELLES
Ce chapitre est une extension du chapitre précédent aux variables aléatoires à valeurs dans
Rn .
62
Preuve. La première propriété fait partie de la définition de la fonction de répartition.
Pour des raisons de simplicité d’écriture, nous faisons la preuve pour n = 2 . Soit
[a,b[=[a1,b1[×[a2,b2 [ un rectangle avec a =(a1,a2) et b=(b1,b2). On définit l’accroissement de FX
sur ce rectangle par
]−∞, x [= U ( ]−∞, x [ )⋅
+∞
0 n
n =1
On en déduit que
] [
FX (x 0) = P U ( −∞, x n )= lim FX (x n )
+∞
n =1 n → +∞
]
Soit (x n ) n ≥ 0 une suite croissante vers + ∞ . On a R n = U ( −∞, x n )⋅ Comme la suite [
+∞
n=0
( ]−∞, x [ )
n
n ≥1
est croissante, on déduit que 1 = P X (R n )=lim n → +∞ FX (xn) ⋅
n =0
( ]−∞, x [ )
n
n ≥1
est décroissante, on déduit que 0 = P X (∅ ) =lim n → +∞ FX (x n ) ⋅
63
Fonction de densité. Soit X : Ω → R n une variable aléatoire discrète. On appelle
fonction de densité de X , la fonction définie sur R n , à valeurs dans l’ensemble des réels
positifs, telle qu’à tout élément x de R n , on associe P(X = x). On la note f X ⋅
Exemple 7.1. On tire au hasard 3 boules d’une urne en contenant 3 rouges, 4 blanches et 5
bleues. X et Y sont des variables aléatoires désignant respectivement le nombre de boules
rouges et celui de boules blanches tirées. On cherche la loi du vecteur (X,Y).
(X,Y)(Ω) ={(0,0),(0,1),(0,2),(0,3),(1,0),(1,1),(1,2),(2,0),(2,1),(3,0)}
3−i − j j i
P(X =i,Y = j) = C 5 CC
3
4 3
C 12
xn x1
FX (x) = ∫ L∫ f X (t1,K,tn ) dt1Ldtn ⋅
−∞ −∞
∂ n FX
(x)= f X (x) .
∂x1L∂xn
64
1. Désormais pour tout k , les éléments de R k sont considérés comme des matrices à
une seule colonne. Ainsi,
E(X 1)
E(X) = M
E(X n)
E(g(X))= ∑ g(x)P(X = x) , si
x∈ X(Ω)
X est discrète ;
+∞ +∞
E(g(X))= ∫ L∫ g(x1,K, xn )dx1Ldxn , si X est absolument continue.
−∞ −∞
appelle matrice de dispersion de X , la matrice notée D(X) dont l’élément sur la i èmè ligne et
la j èmè colonne est E[(X i − E(X i ))(X j − E(X j ))] .
La quantité E[(X i − E(X i ))(X j − E(X j ))] s’appelle la covariance des variables aléatoires
réelles X i et X j , elle se note cov(X i, X j ) . En pratique, elle se calcule par la formule
E(X i X j )= ∑x x
x∈ X(Ω)
i j P(X = x)
= ∑ xi x j P(X i = xi, X j = x j ) .
xi , x j
+∞ +∞
E(X i X j ) = ∫ L∫ xi x j f X (x1,K, xn) dx1Ldxn
−∞ −∞
+∞ +∞
=∫ ∫ xi x j f (X i , X j ) (xi, x j ) dxi dx j ⋅
−∞ −∞
65
[ ]
D(X)=E (X − E(X)(X − E(X))t où pour toute matrice A , At désigne sa transposée .
D(X)= E(XX t )− E(X)E(X)t ⋅
La fonction covariance est bilinéaire symétrique
D(X) est une matrice symétrique et positive.
Soit une matrice A d’ordre k×n non aléatoire. La matrice de dispersion de AX est
D(AX)= AD(X)At ⋅
On a
[(X − E(X)(X − E(X)) ]= XX
t t
− XE(X)t − E(X)X t + E(X)E(X)t
= XX t − E(X)E(X)t .
Cette égalité donne la deuxième proposition.
On en déduit que
66
cas discrèt
+∞ +∞
f X i (xi )= ∫ L∫ f X (x1,K, xi −1, xi, xi +1,K, xn) dx1Ldxi −1dxi +1Ldxn ⋅
−∞ −∞
aléatoire X : Ω→ R 2 est dicrète et est définie par : pour tout , (ω1,ω 2)∈Ω
card {X 1 = x1, X 2 = x2 } 9 1
P(X 1 = x1, X 2 = x2) = = = .
card Ω 36 4
Soit X 1,K, X n , n variables aléatoires discrètes. On dit que ces variables aléatoires sont
indépendantes si
n
P(X 1 = x1,K, X n = xn) =∏ P(X i = xi ) ⋅
i =1
67
Soit X 1,K, X n , n variables aléatoires absolument continues. On dit que ces variables
aléatoires sont indépendantes si
n
f X (x1,K, xn )=∏ f X i (xi ) ,
i =1
n
FX (x1,K, xn )=∏ FX i (xi ) ,
i =1
n
f X (x1,K, xn )=∏ f i (xi ) .
i =1
Exemple 7.3 Soit (X,Y) un couple aléatoire de densité f ( X,Y )(x, y) = 11[0,2 ]2 (x, y). Cherchons les
4
densités marginales de X et Y. On a
21 dy si x∈[0,2]
+∞ ∫0 4
f X (x)= ∫ f (X,Y)(x, y) dy =
−∞
0 ailleurs.
On en déduit que f X (x)= 11[0,2 ] (x) , c’est à dire X suit une loi uniforme sur [0,2] . On montre
2
de même que la variable aléatoire Y suit une loi uniforme sur [0,2] . Ainsi, on a
f (X,Y) (x, y) = f X (x) fY (y). Les variables alétoires X et Y sont donc indépendantes. On aurait pu
remarquer que
68
Soit X : Ω→ R n une variable aléatoire absolument continue et g: R n → R n une fonction. Si
la loi de X est concentrée sur un ouvert U de R n , c’est à dire la fonction de densité de X
s’annule en dehors de U , et si g est un difféomorphisme de U sur un ouvert V de R n
alors la variable aléatoire Y = g(X) est absolument continue de densité
∂h1 L ∂hn
∂x1 ∂x1
J h(x)= M M
∂h1
L ∂hn
∂xn ∂xn
Exemple 7.4. Soit X et Y deux variables aléatoires de lois uniformes sur ]0,1[ . On pose
U = X +Y et V = X −Y . Considérons la fonction g=(g1, g 2) définie par g1(x1, x2) = x1 + x2 et
g 2(x1, x2) = x1 − x2 . g est un difféomorphisme de ]0,1[×]0,1[ sur
( )
La fonction inverse est g −1(u,v)= u + v , u −v de Jacobien
2 2
1 1
2 2
J g −1 (u,v)= =− 1
1 2
−1
2 2
1 si (u,v)∈∆
2
On a alors f (U,V )(u,v)=
0 ailleurs.
69
Pour calculer la loi d’une variable aléatoire absolument commune, on peut utiler le
résultat suivant :
Soit X : Ω→ R n une variable aléatoire absolument continue. Alors la fonction f : R n →R +
est la densité de X si et seulement si pour toute fonction continue bornée h : R n → R , on a
+∞ +∞
E(h(X))= ∫ L∫ h(x1,K, xn) f(x1,K, xn)dx1Ldxn ⋅
−∞ −∞
Preuve (admise)
Exemple 7.5. Soit X une variable réelle de loi normale centrée réduite. On pose Y = X 2 .
Déterminons la loi de Y. Soit h : R → R une fonction continue bornée. On a
+∞ +∞ −x 2 / 2
E(h(Y))= ∫ h(x ) f X (x) dx = ∫ h(x ) 1 e
2 dx . 2
−∞ −∞
2π
En remarquant que la fonction à intégrer est paire et en faisant le changement de variable
y = x 2 , il s’en suit que
+∞ −x 2 / 2 +∞ −y / 2
E(h(Y))= 2 ∫ h(x 2)e dx = 2 ∫ h(y)e 1 dy .
2π 0
2π 0
2 y
Par conséquent
+∞ −y / 2
E(h(Y))= 1 ∫ h(y)e 1 dy ,
2π 0
y
1 −
y
e 2 si y >0
2πy
fY (y) =
0 ailleurs.
70
+∞
FX +Y (z)= ∫ FX (z − y)fY (y) dy
−∞
+∞
f X +Y (z)= ∫ f X (z − y) fY (y)dy . (7.1)
−∞
n k
P(X +Y = k)= ∑ P(X +Y = k , X = j)= ∑ P(X = j , Y = k − j)
j =0 j =0
k k
j k− j
P(X +Y = k)= ∑ P(X = j) P( Y = k − j)= ∑Cn p j (1− p) n − j Cm p k − j (1− p) m − k + j
j =0 j =0
k
j k− j
= p k (1− p) n + m − k ∑Cn Cm =Cnk+ m p k (1− p) n + m − k ,
j =0
car
j =0
n
P(X +Y = n) =∑ P(X = k, Y = n − k)
k =0
n
= ∑ P(X = k) P(Y = n − k)
k =0
71
n λk µ n−k
=∑ e−λ e− µ
k = 0 k! (n − k)!
n λk µ n − k
= e − (λ + µ) ∑
k =0 k!(n − k)!
e −(λ + µ) n
= ∑ n! λk µ n − k
n! k = 0 k!(n− k)!
e −(λ + µ)
= (λ + µ) n .
n!
Soient X et Y deux variables aléatoires indépendantes suivant des lois Gamma de paramètres
respectifs (s,λ) et (t,λ) . Cherchons la loi de X +Y .
z
f X +Y (z)= 1
∫ λe − λ(z − y) [λ(z − y)]s −1 λe − λy (λy)t −1 dy
Γ(s)Γ(t) 0
z
= Ke − λz ∫ (z − y) s −1 y t −1 dy
0
1
f X + Y (z)= Ke − λz z s + t −1 ∫ (1− x) s −1 x t −1 dx
0
=Ce −λz z s + t −1 ,
72
On peut montrer que pour toute suite X 1,K, X n de variables aléatoires indépendantes de
n
même loi normale centrée réduite, la variable aléatoire ∑X
i =1
i
2 suit une loi du Khi-deux à n
degrés de liberté.
n n
∑ µi , ∑σ i2 .
i =1 i =1
Soient X et Y deux variables aléatoires suivant respectivement une loi normale centrée
réduite et une loi du Khi-deux à n degrés de liberté. Si de plus ces variables aléatoires sont
indépendantes, la loi de la variable aléatoire X est appelée loi de Student à n degrés de
Y /n
liberté.
Soient X et Y deux variables aléatoires indépendantes suivant respectivement une loi du Khi-
deux à n degrés de liberté et une loi du Khi-deux à m degrés de liberté. La loi de la variable
aléatoire X / n est appelée loi de Fisher à (n,m) degré de liberté.
Y /m
73
PARTIE III
STATISTIQUE INFERENTIELLE
74
Chapitre 8
8.1 Introduction
Très souvent, on ignore les paramètres de la variable statistique selon laquelle on fait
l’étude de la population considérée. Par exemple, dans l’étude de l’âge des véhicules du parc
automobile de la Côte d’Ivoire, on peut vouloir connaître l’âge moyen θ . Comme il est serait
coûteux de faire un recensement de tous les véhicules, on peut prélever un échantillon dans la
population de véhicules et prendre comme valeur approchée de l’age moyen des véhicules,
l’age moyen des véhicules constituant l’échantillon. On dit alors qu’on fait de l’estimation.
Ainsi, on a un problème d’estimation lorsqu’on n’a pas la possibilité de connaître de façon
exacte la valeur d’un paramètre inconnu.
Dans tout ce qui suit on suppose qu’on a une variable statistique X dépendant d’un
paramètre θ pouvant prendre n’importe quelle valeur dans un ensemble Θ appelé espace de
paramètre. On suppose aussi qu’on a un modèle d’échantillonnage décrivant la façon dont les
observations ont été recueillies. On considère le cas où les n observations constituent un
échantillon aléatoire simple (EAS) composé de n variables aléatoires {X 1,K, X n }
indépendantes et de même distribution que celle de X .
Le problème d’estimation peut donc s’énoncer comme suit : Comment peut-on estimer
un paramètre inconnu θ à partir de n observations {X 1,K, X n } formant un AES, dont les
valeurs sont notées {x1,K, xn } ?
Il existe deux façons d’estimer θ : l’estimation ponctuelle, qui permet d’obtenir une
valeur numérique spécifique pour estimer θ , et l’estimation par intervalle, qui permet de
construire un intervalle de confiance à l’intérieur duquel la vraie valeur de θ a de grandes
chances de se trouver.
75
Un problème essentiel se pose : comment choisir un bon estimateur d’un paramètre ? Pour ce
faire il est souhaitable de pouvoir comparer les estimateurs sous la base de critères bien
définis. Nous allons considérer les estimateurs sans biais et les estimateurs convergents.
n
X =1∑Xi .
n i =1
n
S 2 = 1 ∑(X i − X) 2 .
n −1 i =1
Une valeur de S c’est à dire un estimé de σ 2 est :
2
n
s 2 = 1 ∑(xi − x ) 2 .
n −1 i =1
pˆ A = nA
n
où n A est le nombre d’individus de l’échantillon ayant la propriété A .
76
8.2.3 Précision d’un estimateur
)
La précision d’un estimateur θ de θ peut être mesurer par son écart quadratique moyen
[ 2
EQM(θˆ )=V(θˆ) + B(θˆ ) . ]
)
En particulier, si θ est un estimateur sans biais sa précision est égale à sa variance.
Un estimateur θˆ1 de θ est dit plus efficace qu’un autre estimateur θˆ2 de θ s’il est plus précis
que le second.
n
mk = 1 ∑ X ik ,k =1,K, K.
n i =1
Exemple 8.1. Supposons qu’on veut estimer la moyenne µ et la variance σ 2 d’une loi. Pour
ce faire, on considère un échantillon X 1,K, X n de cette loi. On résoud le sytème d’équations
n
µ = ∑
1 Xi
n i =1
2 2 1 n 2
σ + µ = n ∑
i =1
Xi
n n
µ̂ = 1 ∑ X i = X et σˆ 2 = 1 ∑ X i2 − X 2 = S 2
n i =1 n i =1
Soit une population étudiée selon un caractère X de densité f(x) . Evidemment f(x) dépend
du paramètre θ à estimer. On la note alors f(x;θ) .
77
On appelle fonction de vraisemblance , la fonction de densité de l’échantillon, elle est donnée
par :
Soit X une variable aléatoire réelle. On appelle quantile d’ordre α∈]0,1[ , tout
nombre réel x tel que FX (x)= P(X < x)=α.
L’estimation par intervalle consiste à déterminer un intervalle (l1,l2 ) dont les limites l1 et
l2 dépendent des observations de l’échantillon et sont tels que l’intervalle contient θ avec
une probabilité que l’on se fixe à priori et qui est habituellement choisie grande. Cette
probabilité est appelée un niveau de confiance et est désigné en général par 1−α :
P(l1 ≤θ ≤l2)=1−α.
P x − z1−α / 2 σ ≤ µ ≤ x + z1−α / 2 σ =1−α.
n n
78
P x −tn −1;1−α / 2 s ≤ µ ≤ x +tn −1;1−α / 2 s =1−α.
n −1 n −1
Si l’échantillon est suffisamment grand c’est à dire la taille n est supérieure à 30, pour
des populations pas trop dissymétriques, on peut prendre comme intervalle de confiance de
niveau 1−α :
x − z1−α / 2 s ; x + z1−α / 2 s .
n −1 n −1
Cet intervalle est évidemment approximatif car on utilise la loi asymptotique de l’estimateur
X pour le construire.
pˆ A = nA
n
où n A est le nombre d’individus de l’échantillon ayant la propriété A .
pˆ A − z1−α / 2 pˆ A(1− pˆ A) ; pˆ A − z1−α / 2 pˆ A(1− pˆ A) .
n n
Cet intervalle est approximatif car on utilise la loi asymptotique de p̂ A dans sa construction.
n
σˆ 2 = 1 ∑(xi − µ) 2 .
n i =1
79
On peut prendre comme intervalle de confiance de niveau 1−α pour la variance σ 2
l’intervalle :
nσˆ 2 nσˆ 2
χ2 , .
n;1−α / 2 χ n;α / 2
2
On a
nσˆ 2 nσˆ 2
P 2 ≤σ 2 ≤ 2 =1−α et χ n2, β est le quantile d’ordre β d’une loi du Khi-deux à n
χ n;1−α / 2 χ n;α / 2
degrés de liberté.
ns 2 ns 2
χ2 , 2 ,
n;1−α / 2 χ n;α / 2
ns 2 ns 2
P 2 ≤σ 2 ≤ 2 =1−α .
χ n;1−α / 2 χ n;α / 2
80
Annexe 1 Données sur le contrôle de vitesse
81
143 11 H 20 1
142 5 H 21 1
145 5 F 22 0
155 7 H 24 0
161 9 H 24 1
170 11 H 42 2
148 5 F 21 1
82
Annexe 2
Lois de probabilités
83
84
85
86
87
Annexe 3
Tables statistiques
88
Table 1 : Distribution binomiale (fonction de répartition)
89
Table 1 (suite) : Distribution binomiale (fonction de répartition)
90
Table 1 (suite) : Distribution binomiale (fonction de répartition)
91
Table 1 (suite) : Distribution binomiale (fonction de répartition)
92
Table 1 (suite) : Distribution binomiale (fonction de répartition)
93
Table 2 : Distribution de Poisson (fonction de répartition)
94
Table 3 : Valeurs de la fonction de répartition d’une variable aléatoire Z de loi normale
centrée réduite
z −u 2 / 2
Φ(z)= P(Z ≤ z)= 1 ∫ e du
2π − ∞
95
Table 4 : Quantiles z p d’une variable aléatoire Z de loi normale
centrée réduite
96
Table 5 : Quantiles χν2, p d’une variable aléatoire χν2 de loi du Khi-deux à ν degrés de
liberté
P(χν2 ≤ χν2, p ) = p
97
Table 5 (suite) : Quantiles χν2, p d’une variable aléatoire χν2 de loi du Khi-deux à ν degrés
de liberté
P(χν2 ≤ χν2, p ) = p
98
Table 6 : Quantile de la variable de Student Tν à à ν degrés de liberté
99
Table 6 (suite) : Quantile de la variable de Student Tν à à ν degrés de liberté
100
Table 7 : Distribution de Fisher Snédecor
Quantiles d’ordre 0,95
101
Table 7 (suite) : Distribution de Fisher Snédecor
Quantiles d’ordre 0,975
102
Table 7 : Distribution de Fisher Snédecor
Quantiles d’ordre 0,99
103
Bibliographie conseillée
2. Ross, S.M. (1984) Initiation aux probabilités. 2ème édition, McMillan, New York.
3. Masiéri, W. (1996) Statistique et calcul des probabilités. 7ème édition, Dalloz Paris.
104