Académique Documents
Professionnel Documents
Culture Documents
CREDIT : 3
VOLUME HORAIRE : 30 H
Contact : pilomikena15@gmail.com
1
Plan du cours
INTRODUCTION GENERALE
PARTIE 1 : STATISTIQUES
Travaux pratiques
Travaux Dirigés
2
INTRODUCTION GENERALE
Le début de la méthodologie statistique peut se situer au XVIIe siècle qui verra l’éclosion de la
théorie des probabilités, qui est l’analyse mathématique des phénomènes dans lesquels le
hasard intervient. Le calcul des probabilités a commencé avec Blaise Pascal, pierre Fermat,
Christian Huygens et Jacques Bernoulli par l’analyse des jeux dits de hasard. Le mot hasard
est d’ailleurs emprunté à l’arabe az-zahr (jeu de dés, alea en latin). La théorie des probabilités
servira ensuite d’outils de base à un ensemble de méthodes ou de règle objectives permettant
d’utiliser des données pour fixer la précision avec laquelle on estime certains paramètres
(théorie de l’estimation) ou on teste certaines hypothèse (théorie des tests).
Dans ce cours, la première partie est dédiée à la statistique descriptive et la seconde partie
réservée au calcul de probabilité.
3
Chapitre 1 : Vocabulaire, définitions et représentations
graphiques
Objectifs pédagogiques :
1. Populations-Unités statistiques
1.1 Définitions
La statistique est la science qui a pour objet de recueillir un ensemble de données numériques
relatives à tel ou tel phénomène et d’exploiter rationnellement ces données pour établir toutes
relations de causalité par l’analyse et l’interprétation.
Une population est l’ensemble des éléments auxquels se rapportent les données étudiées. En
statistique, le terme « population » s’applique à des ensembles de même nature : étudiants
d’une Faculté, production d’une usine, entreprise d’un secteur donné, poissons d’une rivière,
etc.
La population est donc l’ensemble sur lequel on recueille les données ; on la désigne par Ω.
Exemples
i) Si l’on fait le recensement des Sénégalais, la population est l’ensemble de tous les
Sénégalais.
ii) Si l’on fait une étude sur le chiffre d’affaires des entreprises de la Zone Franche
industrielle de Dakar, la population est l’ensemble de toutes les entreprises de la
« Zone Franche industrielle ».
Remarque
La définition de la population est importante, car elle conditionne l’homogénéité des unités
observées et la fiabilité des résultats.
4
Tout élément de la population étudiée est appelé individu ou unité statistique, terme qui peut
désigner aussi bien une personne (un Sénégalais) qu’un objet (une entreprise).
Généralement Card Ω est trop grand, il n’est pas possible de réaliser toutes les mesures
souhaitées. Ce qui fait qu’on est souvent amené à ne considérer qu’un sous-ensemble E de Ω.
L’ensemble des individus de E est appelé échantillon et Card E s’appelle taille de
l’échantillon et sera noté n.
1.2.1 Caractères
1.2.2 Modalités
Les modalités d’un caractère sont les différentes valeurs que peut prendre ce caractère sur
l’ensemble de la population.
Les modalités d’un caractère doivent former une partition, c’est-à-dire doivent être
exhaustives et disjointes. A chaque individu, on doit pouvoir associer une modalité et une
seule.
Exemple de modalités
Un caractère peut être quantitatif ou qualitatif. S’il est quantitatif, il peut être discret ou
continu
Un caractère est qualitatif s’il est lié à une observation ne pouvant pas faire l’objet d’une
mesure. Ses diverses modalités sont simplement constatées et repérées par un mot traduisant
son état. Les modalités d’un caractère qualitatif ne sont pas numériques. Ainsi : le sexe, la
situation matrimoniale, la religion, l’ethnie, la région habitée, la nationalité, la catégorie
socio-professionnelle (CSP) sont des caractères qualitatifs
5
2.2 Caractère quantitatifs.
On distingue deux types de caractères quantitatifs : d’une part le caractère quantitatif discret,
d’autre part le caractère quantitatif continu.
Un caractère quantitatif est discret (ou discontinu) si ses modalités prennent des valeurs
isolées, discrète. Le nombre d’enfants d’une famille, le nombre de personnes habitant une
résidence, le nombre d’accidents de travail survenus dans un groupe d’entreprises, le nombre
des buts marqués lors d’une rencontre de football, le nombre d’heures de cours de statistique
sont des caractères quantitatifs discrets. Par exemple les modalités du caractère « nombre
d’enfants par ménage » peuvent être 0, 1, 2, 3, 4, … 9, 10 et plus mai non 2,5 ou 3,756
a) Définition
Un caractère quantitatif est dit continu s’il peut prendre toutes les valeurs possibles à
l’intérieur d’un intervalle de R.
Le chiffre d’affaires d’une entreprise, l’âge d’un groupe d’individus exprimé en années, le
poids d’un groupe d’individus exprimé en kg, le revenu, le taux de natalité sont des caractères
quantitatifs continus. La taille d’une personne peut être de 176 centimètres (cm), 1831,3 ou
1781,8343 cm, en fonction de la précision de la mesure.
b) Concept de classe
Comme les variables quantitatives continues possèdent un nombre de valeurs distinctes très
important, on est aminé pour plus de commodité à les regrouper en un certain nombre de
classes. Une classe Ci est un intervalle de R et s’écrit généralement sous la forme : [𝑏𝑖, 𝑏𝑖1[.
Les nombres bis et bi + 1 sont les bornes de la classe. Bi est la borne inférieure et bi + 1 est la
borne supérieure.
𝑛𝑖
On appelle densité de la classe ci la valeur di= , on utilise cette quantité quand les classe
𝑎𝑖
sont d’amplitudes inégales. Dans certains ouvrages, la densité est appelé effectif corrigé.
6
3. Tableaux statistiques associés aux différents types de caractères
Effectif ni
On appelle effectif d’une modalité xi le nombre ni d’individus observés ayant pris cette
modalité.
Fréquences fi
On appelle fréquence relative d’une modalité xi l’effectif de cette modalité divisé par l’effectif
total n.
𝑛𝑖
Fi = 𝑛 , n= ∑𝑘𝑖=1 𝑛𝑖
On distingue deux types de tableaux selon que le caractère étudié est discret ou contuni.
7
𝑛𝑘
XK nk Fk = Fk =1
𝑛
Total N 1
On appelle fréquence relative cumulée d’une modalité xi (ou d’une classe ci) le nombre
Total N 1
4. Représentations graphiques
La population étudiée est représentée graphiquement par une surface circulaire. Cette surface
est découpée en autant de secteurs que de caractère considéré comporte de modalités.
8
Modalités
Exemple
Le caractère étudié ici est la source d’approvisionnement en eau, c’est un caractère qualitatif,
ses modalités ne sont pas numériques.
9
𝛼𝑖 = 360° × fi
Graphique à secteur
PI
FP 6%
5%
PE
38%
RE
27%
Autre
RI 7%
17%
Dans ce type de graphique les sous populations relatives à chacune des modalités du caractère
étudié sont représentés par des bandes rectangulaires. Les bandes ont une base constante et la
hauteur de chacune d’entre elles est proportionnelle à l’effectif ou à la fréquence de la sous
population correspondante.
Ce système de représentations se prête plus aisément que le précédent aux comparaisons dans
le temps ou dans l’espace.
Effectifs ou fréquences
10
Le graphique à bandes associé au tableau statistique de l’exemple 1 est donné ci-dessous :
Graphique en bandes
40
35
30
25
20
15
10
5
0
RI RE FP PI PE Autre
On porte sur l’axe des abscisses les valeurs discrètes du caractère, et sur l’axe des ordonnées
les effectifs (ou fréquences) associés au proportionnelle aux effectifs (ou fréquences).
Exemple 2
Une enquête effectuée auprès de 100 familles sénégalaises a conduit à la distribution suivante,
selon le nombre d’enfants
xi 0 1 2 3 4 5
ni 6 9 13 16 10 12
xi 6 7 8 9 10 et plus
ni 10 4 3 5 12
Le caractère « nombre d’enfants » qui est ici étudié est un caractère quantitatif discret. Ses
modalités sont au nombre de 11 : 0, 1, 2 …, 9, 10 et plus.
11
La dernière modalité « 10 et plus » sera assimilée à la modalité « exactement 10 »
16
14
12
10
0 1 2 3 4 5 6 7 8 9 10 Xi
Le diagramme en bâtons étant construit, on peut définir le polygone des fréquences (ou des
effectifs qui a pour but de préciser l’évolution des effectifs.
On trace le polygone des fréquences en joignant les bouts des bâtons. Le polygone des
fréquences de l’exemple 2 est donné dans le graphique précédent.
La fonction cumulative, notée F, d’une population étudiée selon une variable quantitative X,
est une fonction réelle qui à toute valeur x, fait correspondre la proportion F(x) des individus
de la population dont la valeur de la variable est inférieure ou égale à x
12
Cette fonction est définie comme suit :
0 x<x
1
F1 x x<x
1 2
F2 x x<x Où
2 3
:
- les x1 , x 2 , x 3 ,..., x k sont des valeurs
:
F(x)= différentes de la variable étudiée ;
Fi x x<x
i i+1 - les F1 , F2 , F3 ,..., Fk-1 sont des fréquences
:
cumulées.
:
Fk-1 x x<x
k-1 k
1 x x
k
Expmle2 : Soit répartition des étudiants enquêtés selon le nombre d’années passé au Lycée
Nombre d’années passé au Lycée Effectif Fréquence(%) Fréquence cumulée(%)
3 31 62 62
4 15 30 92
5 4 8 100
Total 50 100
Interprétation :
La plupart (62%) des étudiants du groupé qui a été enquêté ont affirmé qu’ils ont passé 3 ans au
Lycée. Ce tableau indique également que 92% de ces étudiants ont passé au plus 4 ans au Lycée.
13
Graphique : répartition étudiants enquêtés selon le nombre d’années passé au Lycée
1,2
0,8
0,6
0,4
0,2
0
0 1 2 3 4 5 6 7 8
Dans le cas où les classes sont d’amplitudes égales, chaque rectangle de histogramme aura
une hauteur proportionnelle à l’effectif de chaque classe
Exemple 3
1000-1500 4 4
1500-2000 20 20
2000-2500 24 24
2500-3000 28 28
3000-3500 22 22
3500-4000 2 2
Total 100
14
La représentation graphique correspond à cette distribution est la suivante :
0,3
0,25
0,2
0,15
0,1
0,05
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
Classes ni ai di
[10,20[ 10 10 1
[20,30[ 16 10 1,6
[30,40[ 34 10 3,6
[40,60[ 24 20 1,2
[60,100[ 16 40 0,4
Total 100
15
Histogramme est :
di
3,5
2,5
1,5
0,5
0 10 20 30 40 50 60 70 80 90 100 Xi
L’histogramme étant construit, on peut définir le polygone des fréquences (ou des effectifs)
qui a pour but de préciser l’évolution des effectifs sur les différentes classes. On trace le
polygone des fréquences en joignant les milieux des segments supérieurs de chaque rectangle
(en ajoutant éventuellement deux classe de même amplitude et d’effectif nul, de chaque côté
de l’histogramme). Ce polygone des fréquences de la distribution de l’exemple 3 est :
0,3
0,25
0,2
0,15
0,1
0,05
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
Ordonnées Polygône
Les observations étant groupées par classe ci, si, ei représente l’extrémité supérieure de chaque
classe, alors la courbe cumulative est la courbe qui passe par les points représentatifs de
F(ei)=Fi.
𝐹 = (−∞) = 0
{
𝐹 = (+∞) = 1
Remarque
On peut également tracer une courbe associée aux fréquences cumulées décroissantes. La
représentation graphique de sa fonction cumulatives G=1-F, elle représente le pourcentage des
observations supérieures à x. C’est une courbe monotone non croissante.
Exemple 5
La répartition des employés d’une entreprise en fonction de la prime de fin d’année est la
suivante :
17
Pour tracer la courbe des fréquences cumulées croissantes, il faut tracer une courbe continue,
car le caractère observé (prime de fin d’année) est un caractère quantitatif continu.
Fi
100…………………………………..
90
80
70
60
50
40
30
20
10
0 10 20 30 40 50 60 70 80 90 (en 102 F)
L’interprétation de la courbe des fréquences cumulées croissantes est par exemple : 93% des
employés ont une prime de fin d’année intérieure à 6000F.
Fi
100…………………………………..
90
80
70
60
50
40
30
20
10
0 10 20 30 40 50 60 70 80 90 (en 102 F)
Son interprétation est par exemple : 92% des employés ont une prime de fin d’année supérieur
à 2000F
18
Chapitre 2 : Série statistique a un caractère
Objectifs pédagogiques :
2. Calculer avec les différentes formules qui sont présentées les moyennes, les quantiles, le
mode, la variance, l’écart-type et le coefficient de variation et donner la signification concrète
de chacune de ces mesures statistiques ;
4. Localiser dans une série groupée ou non, la moyenne, les quartiles, les déciles, les centiles
et le mode ;
19
1. Caractéristiques de tendance centrale
Dans le paragraphe précédent, nous avons appris à ranger les données et à les présenter à
l’aide de tableaux statistiques. Nous avons également étudié les graphiques qui constituent un
moyen particulièrement adéquat de présentation des résultats. Grâce à eux, on peut se faire
une première idée de l’aspect d’une distribution statistique. Cependant ces constatations
visuelles demeurent imprécises et restent soumises aux dangers d’une appréciation
synthétique forcément subjective. Il faut donc trouver le moyen d’exprimer, autrement que
par un commentaire de graphiques ou de tableaux, les éléments qui particularisent la série
d’observations dont dispose le statisticien. On utilise alors les caractéristiques de tendance
centrale (ou de position) qui sont les moyennes les quantiles et le mode.
La moyenne arithmétique d’une série statistique {xi} i=1 à n, est égale à la somme des valeurs
observées, divisée par le nombre d’observations.
On la note généralement𝑋̅.
1
Ainsi x̅ = ∑ni=1 xi
𝑛
Où x1, x2, …, xp sont les valeurs observées (ou les centres des classes si la distribution est
groupée), n1, n2, …, np sont les effectifs correspondants, f1, f2, …, fp sont les fréquences
correspondantes.
ni p
fi = et n = ∑i=1 ni
n
Propriété
Soit {xi} une série statistique et {yi} la série défini par yi = axi+ b où a et b sont deux réels
quelconques, alors :
y̅ = ax̅ +b
Démonstration
1 p 1
y̅ = n ∑i=1 n𝑖y𝑖 = n ∑𝑝𝑖=1 ni(axi +b)
1 p 1
= a ∙ n ∑𝑖=1 n𝑖x𝑖 + b∙ n ∑𝑝𝑖=1 n𝑖
= a∙ x̅ +b
20
Remarque
Exercice d’application
Un étudiant obtient aux examens les notes suivantes : mathématique 10 (coefficient 2),
économie 14 (coefficient 4), statistique 12 (coefficient2), langues 8 (coefficient 1). Calculer sa
moyenne à l’examen.
Remarque
Si toutes les disciplines étaient affectées du même coefficient, la note moyenne serait :
10 + 14 + 12 + 8
x̅ = = 11
4
1.1.2. Moyenne géométrique
La moyenne géométrique d’une série statistique positive {xi}, i=1, …. , n, est la racine nième
du produit des valeurs observées.
On la note généralement G.
Ainsi :
1
n
G = √x1 × x2 × x3 × … × xn = [∏ni=1 x𝑖 ] n
21
Le calcul de G peut s’effectuer grâce à la relation
1
Log G = 𝑛 ∑𝑝𝑖=1 𝑛𝑖 log xi
Exercice d’application
Xi ni
2 2
16 1
Totale 3
Corrigé
G= exp (1,38629) = 4.
La moyenne harmonique d’une série statistique strictement positive {𝑥𝑖}, i=1,…,n est égale à
l’inverse de la moyenne arithmétique des inverses des values observes. On la note H
Ainsi:
1 n
H=1 1 = 1
∑n ∑n
n i=1 xi i=1xi
1 1 1
Ou = n ∑ni=1 n
H
22
Exercice application
Corrigé
La moyenne quadratique d’une série statistique positive{𝑥𝑖}, i=1,…,n est la racine carrée de la
moyenne arithmétique des carrés des valeurs observes. On la note Q.
1
Q =√𝑛 ∑𝑛𝑖=1×i2
Remarque: soit une série pour laquelle les quatre moyennes définies ci-dessus, on a alors:
H˂G˂x˂Q
Exercice d’application
1, 2, 5, 7, 10, 13
23
Corrigé
1.2.1. Définitions
a) La median
Elle correspond au quantile d’ordre 50%. C’est donc la valeur du caractère étudié telle qu’il y
ait autant d’observations qui lui soient supérieures que d’observations qui leur soient
inférieures. La médiane partage donc la série des valeurs observés en deux séries de même
taille. C’est la valeur Me de la variation statistique pour laquelle la fréquence cumulée est
1
égale à 2.
b) Les quartiles
On a 3 quartiles (Q1, Q2, Q3) qui partagent la série en quatre séries de même taille.
Q1 est le premier quartile, c’est donc le quantile d’ordre 25%. C’est qui signifie que 25% des
observations sont inférieures au premier quartile Q1
Q2 est le deuxième quartile, c’est le quartile d’ordre 50%. Q2 est donc confondu avec la
médiane. 50% des observations sont inférieurs au deuxième quartile Q2=Me
Q3 est le troisième quartile, c’est le quantile d’ordre 75%. Ce qui signifie que 75% des
observations sont inférieures au troisième quartile Q3.
c)Les déciles
On a 9 déciles (D1, D2, D3, …,D9 ) qui partagent la série en 10 série de même taille. Le
premier décile D1 correspond au quantile d’ordre 10%. Le cinquième décile correspond à la
médiane.
Xmin D1 D5 D9 Xmax
24
10% 10
d) Les centiles
On a 99 centiles (C1, C2,C3, …,C99) qui partagent la série en 100 séries de même taille.
1% 1%
1% des observations sont inférieurs au premier centile C1 ; 99% des observations sont
inférieures à C99.
a) cas direct
Fi
1 ………………………………
F(Xi+1) ………………………
α% ……………………..
F(Xi) ……………..
Xi-1 Xi Xi+1
On convient alors de considérer comme quantile d’ordre ∝%, la valeur observée xi +1 telle que
l’on ait :
On a:
25
Q∝=Xi+1
Exemple d’application
Xi 0 1 2 3 4 5 6 7 8
Ni 6 9 13 16 10 12 10 4 3
Xi 9 10 et plus
Ni 5 12
Le caractère « nombre d’enfant » qui est ici étudié est un caractère quantitatif discret. Nous
allons déterminés la médiane Me et le quartile Q1 et Q2.
xi Fi Fi
0 0,06 0,06
1 0,09 0,15
2 0,13 0,28
3 0,16 0,44
4 0,10 0,54
5 0,12 0,66
6 0,10 0,76
7 0,04 0,80
8 0,03 0,83
9 0,05 0,88
10 0,12 1,00
i) Détermination de la médiane
ii) Calcul de Q1
26
Le premier quartile est quantile d’ordre 25%
F(xi)<25%< F(xi+1)
F(1)< 25%<F(2)
iii) Calcul de Q3
Pour déterminer le quantile d’ordre 𝛼%, il faut déterminer la classe dans laquelle les
fréquences cumulées croissantes atteignent 𝛼 %.
F(b)
27
F(a)
a Qα b
a < Q𝛼 < b
Ou encore :
α−F(a)
Qα = a + (b − a) = F(b)−F(b)
On peut déterminer graphiquement la valeur du quantile d’ordre 𝛼%à l’aide de la courbe des
fréquences cumulées croissantes.
α%
0,5
Me Qα
28
Exemple d’application : calcul de quartiles
La présentation des employés d’une entreprise en fonction de la prime de fin d’année est la
suivante :
Prime en F ni fi en % Fi en %
[0, 1000[ 18 2,1 2,1
[1000, 2000[ 44 5,1 7,2
[200, 3000[ 112 13,0 20,2
[3000, 3500[ 120 14,0 34,2
[3500, 4000[ 138 16,0 50,2
[4000,4500[ 164 19,1 69,3
[4500, 5000[ 106 12,3 81,6
[5000, 6000[ 98 11,4 93,0
[600, 7000[ 52 6,1 99,0
[7000, 8000[ 8 1.0 100
Nous allons calculer les quartiles par interpolation linéaire. En effet le caractère « prime de fin
d’année » est quantitatif continu. On utilise le tableau des fréquences cumulées croissantes :
i) le premier quartile est dans la classe [3000, 3500[, car les fréquences cumulées croissante
dépassent 25%.
25−20,2
Q1 =3000+500 x34,2−20,2 = 3171,43
25% des employés ont une prime de fin d’année inférieure à 3171,43F.
ii) le deuxième quartile est dans la classe [3500, 4000[, car les fréquences cumulées
croissantes dépasse 50%.
29
3500≤ Q2 < 400
Q2 − 3500 25 − 20,2
=
3500 − 300 34,2 − 20,2
50−34.2
Q2 = 3500+500 x 50,2−34,2 =3993,75
50% des employés ont une prime de fin d’année inférieure à 3993,75 F.
iii) Le troisième quartile est dans la classe [4500,5000[car les fréquences cumulées croissante
dépasse 75%.
4500% ≤ Q3 <5000
Q3 − 4500 75 − 69,3
=
5000 − 4500 81,6 − 69,3
75−69,3
Q3 = 4500+500 x 81,6−69,3 = 4731,70
75% des employés ont une prime de fin d’année inférieure à 4731,70F
Dans ce cas, on classe d’abord les données ponctuelles en ordre croissante. Calculer par
exemple le quantile d’ordre 50%, revient à déterminer la valeur du caractère x i telle que 50%
des valeurs observées sont strictement inférieures à xi.
On convient de considérer comme quantile d’ordre 50%, la (p+1)ième valeur de la série des
valeurs observées.
Si le nombre des observations est pair, on a : n = 2p. Deux cas sont alors possibles :
La pieme et la (p+1)ieme valeur de la série sont différentes ; on prend comme quantile d’ordre
50%, la (p+1)ieme valeur de la série
Exemple d’application
Soit une série statistique possédant un nombre impair de termes {7, 9,9, 18, 37, 37, 37, 39, 3,
7, 3}
30
Nous allons déterminer les quartiles de cette série statistique.
Dans un premier temps, nous rangeons par ordre croissant les nombre de cette série d’où on
obtient : {3, 3, 7, 7, 9, 9, 18, 37, 37, 37, 39}
Nous savons que la médiane Me ou second quartile est le nombre qui nous partage la série des
valeurs observées en deux séries de même taille.
D’où on obtient :
3 3 3 7 9 9 18 37 37 37 39
↑ ↑ ↑
5 éléments Me 5 éléments
La médiane Me = 9
D’où on obtient 3 3 7 7 9
Q1
D’où on obtient 18 37 37 37 39
Q3
1.3. Le mode
1.3.1. Définition
31
Le mode Mo d’une distribution statistique est sa valeur la plus fréquente. C’est la valeur du
caractère qui correspond à l’effectif le plus grand ou à la fréquence la plus importante. Le
mode permet ainsi de connaître la valeur la plus probable du caractère.
1.3.2. Détermination
Dans ce cas, le mode est défini avec précision. Il correspond à la valeur qui a l’effectif le plus
élevé.
Si la distribution est répartie en classe, le mode est indéterminé. Dans ce cas on put seulement
définir la classe modale.
Si les classes de distribution sont d’amplitude égale, la classe modale est la classe d’effectif
maximum. Par contre, si les classes sont d’amplitude inégale, la classe modale est la classe de
densité maximum.
Remarque
Si une distribution Statistique possède un seul mode, elle est dite unimodale ;
Si elle possède deux modes, elle est dite bimodale ;
Si elle possède plusieurs modes, elle est dite plurimodale.
Une enquête effectuée auprès de 100 familles sénégalaises a conduit à la distribution suivante,
selon le nombre d’enfants.
xi 0 1 2 3 4 5
Ni 6 9 13 16 10 12
xi 6 7 8 9 10 et plus
ni 10 4 3 5 12
Ici le mode est Mo = 3 car ni est maximum pour xi =3, la plus part des familles ont trois
enfants.
2. Caractéristiques de dispersion
32
Les paramètres de dispersion sont des nombre qui mesurent la dispersion des valeurs observés
autour d’un paramètre de position (x̅, Me, ….). Ces paramètres permettent de comparer des
séries de même nature.
Avec :
p ni
n = ∑i=1 ni ; fi = n
Remarque
Si l’on dispose de données ponctuelles, alors ni=1 pour tout i ; pour des données groupées, xi
Avec :
𝑝
1
x̅ = ∑ nixi
n
𝑖=1
On a :
mo =1
m1 = x̅
m2 = Q (moyenne quadratique)
µo = 1, µ1 = 0
µ2= m2 = m12
33
µ3 = m3+ 3m2m1 + 2m13
Soit a et b deux éléments et n un entier positif. Le développement de (a+b) n est donnée par la
formule du binôme de Newton :
Telles que :
yi= axi +b
Démonstration
= a (xi -x̅)
On a:
1 p
µr (Y) = n ∑i=1 nI (y - ̅)
y
1 p
= n ∑i=n ni [a (xi -x̅)]r
p1
= ar n ∑i=1 ni (xi- x̅ )r
= ar µr(X)
2.2.1. La variance
Formule développée
34
1 p
Var (X) = n ∑i=1 nixi2 - x̅2
= m2 – m12
Démonstration
1 p
Var (X) = n ∑i=1 ni (xi-x̅)2
1 p
= n ∑i=1 ni (xi2-2x̅xi + x̅2)
1 p 1 p 1 p
= n ∑i=n nixi2 − 2x̅ n ∑i=1 ni xi + x̅ 2 n ∑i=1 ni
1 p
= n ∑i=1 xi2 − 2x̅x̅ + x̅.1
p1
= ∑i=1 nixi2- x̅2
n
Propriété
Soit {xi} une série statistique et {yi} la série définie par yi = axi +b où a et b sont deux réels
quelconques, alors :
De tous les critères de la dispersion, l’écart-type est certainement le plus utilisé. L’écart-type
d’une série est égale à la racine carrée de la variance :
𝜎(X) = √Var(X)
L’écart-type noté 𝜎 (sigma) est une mesure de dispersion absolue, il s’exprime dans la même
unité que les valeurs observées et mesure la dispersion autour de la moyennex̅. Plus l’écart-
type est grand, plus la dispersion autour de la moyenne est importante.
Pour faciliter les comparaisons entre séries, on utilise une mesure de dispersion relative
appelée coefficient de variation. Le coefficient de variation CV est le rapport de l’écart type
𝜎 à la moyenne x̅ :
σ
CV = ̅
X
C’est un nombre sans dimension et indépendante des unités choisies. On l’utilise pour
comparer par exemple les distributions de salaires dans différentes pays. Ainsi les salaires des
35
journalistes ont pour coefficient de variation 0,45 alors que les salaires des enseignants ont
pour coefficient de variation 0,75 : le salaire est une variable relativement (c’est-à-dire
compte tenu du rapport des moyennes) plus homogène chez les journalistes que chez les
enseignants.
Dans la pratique, une distribution est dite homogène si son coefficient de variation est
inférieur à 0,30 ; elle sera considérée comme hétérogène si son coefficient de variation est
supérieur ou égal à 0,30.
Exemple d’application
Notes Effectifs
[0,5[ 4
[5,10[ 17
[10,15[ 26
[15,20[ 3
Total 50
Corrigé
a) La moyenne arithmétique :
1 515
x̅ = n ∑4i=1 nixi = = 2,806
50
b) La variance est
1p
Var (X)= ∑i=1 nixi2
n
= 5962,5-(2.806)2
= 13,16
36
c) L’écart-type est
𝜎= √13,6 =3,628
Le coefficient de variation est 35,2%, la distribution des notes est hétérogène, elle est donc
relativement dispersée.
37
Deuxième Partie
38
Objectifs pédagogiques
Introduction
39
Quand on cherche la probabilité d’évènements complexes, l’énumération des cas élémentaires
est souvent difficile, fastidieuse, ou l’un et l’autre.
1. Principe fondamental
Exemple
S’il y a 2 candidats au poste de député et 3 à celui de mairie, les deux fonctions peuvent être
occupées de 2x3= 6 façons.
2. Factorielle
Etant donné un entier positif n, on note n! et on lit factorielle n, le nombre obtenu par le
produit de tous les nombres entier de 1à n.
3. Arrangements
On appelle arrangement p à p des n éléments d’un ensemble E tout sous- ensemble ordonné
de E ayant p éléments.
p
Le nombre total de ces arrangements est noté An , on a :
p n!
An = n (n-1)(n-2)…….(n-p) (n−p)!
Exemple 2
Dans une course de 18 chevaux, le nombre de tierces possible dans l’ordre est :
3 18!
𝐴18 = 15! = 18 x 17 x 16 = 4896
4. Permutations
40
On appelle permutation de n élément de l’ensemble E, tout ensemble ordonné formé par ces n
éléments.
Exemple 3
Les nombres de permutations des lettres a, b, c prises deux à deux est P32 = 3 x 2 x 1 = 6. Ces
permutations sont ab, ba, ac, ca, bc, cb.
Exemple 4
5. Combinaisons
Une combinaison de n élément diffèrent pris p à p est une sélection de p éléments parmi les n
p
donnés, sans ordre déterminé. On désignera par Cn le nombre de combinaisons de n élément
pris p à p. Ce nombre est donné par :
Exemple 5
Le nombre de combinaisons que l’on peut former avec les lettres a,b,c prises deux à deux est
3 x 2 x1
C32 = = 3. Ces combinaisons sont ab, ac, bc. Remarquons que ab et ba représentent la
2!
même combinaison, mais pas la même permutation.
Exemple 6
41
5
Dans un jeu de 32 cartes, le nombre de mains de 5 cartes ne comportant des as est C28 =
98280. En effet, il s’agit du nombre de combinaison de 5 cartes choisies parmi les 28 cartes
du jeu autres que les 4 as.
Soient a et b deux élément et n un entier positif. Le développement de (a+b)n est donné par la
formule du binôme de Newton.
Preuve
Il s’agit d’un polynôme de degré n, homogène en a et b. Le terme de plus haut degré en a est
an puisqu’on l’obtient en prenant a dans chacun des facteurs. D’une manière général, le terme
de degré k s’obtient en choisissant a dans k facteurs et b les n-k facteurs restants. Un tel choix
n
se fait de C𝐾 n k n-k
n façons différentes donc le terme le terme correspondant est ∑k=0 Cn a b
Exemple 7
42
Objectifs pédagogiques
1. expérience aléatoire
Exemple 1
Il est fini. Il peut être également infini comme nous le constatons dans l’exemple suivant.
Exemple 2
L’expérience consiste à jouer deux fois à pile ou face jusqu’à l’obtention d’un pile. L’univers
est :
2. Evènement aléatoire
Exemple 3
Dans l’expérience qui consiste à jouer deux fois à pile ou face on considère l’évènement :
̅ le complémentaire de A dans Ω :
. On appelle évènement contraire de A, noté A
43
̅ = { 𝜔 ∈ Ω : 𝜔 ∉ A}
A
Exemple 4
A ∪ B = { 𝜔 ∈ Ω : 𝜔 ∈ A ou 𝜔 ∈ B}
A ∩ B = { 𝜔 ∈ Ω : 𝜔 ∈ A et 𝜔 ∈ B}
Incompatibilité:
On dit que A et B sont incompatibles (c’est à dire ne peuvent pas se produire simultanément)
̅ sont incompatibles car on a toujours
si A ∩ B = ∅. Il est claire par exemple que A et A
̅= ∅.
A∩A
- Commutativité
A∪B=B∪A
A∩B=B∩A
- Associative
A ∪ ( B ∪ 𝐶 )= (A ∪ B) ∪ C=A ∪ 𝐵 ∪ 𝐶
A ∩ (B ∩ C) = (A ∩ B) ∩ 𝐶 = A∩ B ∩ C
- Distributivité
A ∪ ( B ∩ 𝐶 )= (A ∪ B) ∩ (A ∪ 𝐶)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A∩ C)
Lois de Morgan
44
̅̅̅̅̅̅̅̅
A∪B =A ̅∩B
̅
̅̅̅̅̅̅̅
A ∩B = A ̅∪B
̅
Autres propriétés
A ̿ =A
A∩∅ = ∅
A∪∅ =A
A∩Ω=A
A∪Ω =Ω
A∩ A ̅= ∅
A∪ A ̅=Ω
Soit @ l’ensemble des évènements que l’on souhaite prendre en compte dans le cadre d’une
expérience aléatoire. La structure de @ doit satisfaire aux conditions suivantes :
̅∈@
Si A∈ @ alors A
ii) l’ensemble @ est stable par réunion dénombrable, pour toute famille (Ai), i ≥ 0
d’évènement aléatoire de @, on a :
+∞
⋃ Ai ∈ @
i=0
3. probabilité
3.1. Définition
Une probabilité sur un espace probabilisable (Ω, @) est une application p de @ dans [0,1] qui
vérifie les axiomes suivants :
i) L’axiome de certitude
P (Ω) = 1
45
p(⋃+∞ +∞
i=o Ai) = ∑i=0 P(Ai) 𝜎 additivité.
3.2. Propriétés
i) P(Ω) = 1
ii) 0≤ P(A)≤ 1, A ∈ @
̅)= 1- P(A), A ∈ @
iii) P(A
̅) = 1- P(A)
On a alors P(A
b) A ⊂ B
̅)
On a B = A ∪ (B∩ A
̅) sont incompatibles on a :
Puisque les évènements A et (B∩ A
̅)
P(B)= + P(A) + P( B∩ A
̅)≥0
P(B)- P(A) = P( B∩ A
̅ ) ∪ B et comme ( A ∩ B
c) Puisque A ∪ B = (A ∩ B ̅ ) et B sont incompatible, on a :
̅) + P(B)
P(A ∪ B) = P(A∩ B
46
̅ ) sont également incompatibles.
De plus, A = (A∩B) ∪ (A ∪ ) et comme (A ∩ B) et ( A∩ B
Exemple 5
On tire deux cartes au hasard dans un jeu de 32 cartes. On cherche la probabilité d’obtenir
deux rois.
Soit A l’évènement aléatoire A = « on obtient deux rois ». Puisque le jeu comporte 4 rois, le
nombre de cas favorable est
Finalement on trouve
4
P(A) = 496 = 0.012
4. Probabilité conditionnelles
4.1. Introduction
On considère l’évènement :
On a :
47
A= { ( 4, 6), (5,5), (5,6), (6, 4), (6,5), (6,6)}
Par exemple : B5 = { (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6)}
Si B1 est réalisé, alors A est irréalisable car la somme des points ne peut pas excéder 7.
4.2. Définition
Soit (Ω, @, P) un espace probabilisé. Soient A et B deux évènements aléatoire avec P(B) ≠ 0.
On appelle probabilité conditionnelle de A sachant B, le nombre réel :
P(A∩B)
P (A/B) = P(B)
Finalement 0≤ P(A/B)≤1.
P(Ω∩B)
2) P(Ω/B)= =1
P(B)
3) Si A et C sont incompatible alors :
P[(A∪C)∩B]
P(A∪ C/B) = P(B)
P[(A∩B)∪(C∩B)]
= P(B)
P(A∩B)+P(C∩B)
P( A∪ B/C)= P(B)
= P(A/B) + P(C/B)
4) Si (Ai), i ≥0 est une famille d’évènements de deux à deux incompatibles, alors
P(⋃+∞ +∞
i=1 Ai/B) = ∑i=0 P(Ai/B)
Qui généralise la formule Précédente.
Par ailleurs :
P(A̅ / B) = 1- P(A/B)
Exemple 6
48
Mon voisin a deux enfants dont une fille. Quelle est la probabilité que l’autre enfant soit un
garçon ?
Corrigé
Soit A = « mon voisin a deux enfants dont une fille » et B = « l’autre enfant est un garçon ».
On cherche à déterminer :
𝑃(𝐴∩𝐵)
P=(A/B)= 𝑃=(𝐵)
3 1
Il est clair que P(B)=4 et P(A∩ 𝐵) = 2
2
donc : P(A/B)=3 0 ,667
les formules suivantes seront très utiles dans des calculs de probabilité d’événement.
P(A∩B)=P(A)P(B/A) si P=(A)≠0
P(A∩B)=P(B)P(A/B) si P=(B)≠0
P=(An/A1∩A2∩…∩An-1)
P(A∩B∩C)=P(A)P(B/A)P(C/A∩B)
Preuve
P(A∩B)
P( B/A) = P(A)
D’où
49
P(A∩B∩C)
Puisque P( C/A ∩ B) = , on a:
P(A∩B)
P(A ∩ B ∩ C) = P(A∩B)P(C/A ∩ 𝐵)
= P(A)P(B/A)P(C/A∩ B)
Exemple 7
Une urne contient 10 boules dont 5 rouges, 3 bleues et 2 blanches. On tire sans remise 3
boules de l’urne. Calculer la probabilité d’obtenir dans l’ordre une boule rouge, une boule
bleue et une boule blanche.
Avec
5 1 3 1 2 1
P(A)= 10 = 2 , P(B/ A) = 9 = 3 et P(C / A∩ B) = 8 = 4 ,
Finalement on a :
1
P(A∩ B ∩C) = 24 = 0,0416.
P(Ai) ˃, i = 1, 2, ……., n
∑ni=1 P(Ai) = 1
Ω = ⋃i Ai
Ai ∩ Aj = ∅ pour i ≠ j
B=⋃ni=1 Ai ∩ B
50
∀ B∈ @, P(B) = ∑ni=1 P(Ai)P(B/Ai)
Exemple 8
Une usine dispose de 3 machines qui fabrique respectivement 20, 30 et 50% de la production.
Sachant que la probabilité qu’une ampoule défectueuse ait été fabriqué par A, B, C est :
Calculer :
Corrigé
0,20 x 0,05
= = 0,37
0,027
̅)
3) On veut calculer P(C/D
̅ ̅ /C)
̅ ) = P(C∩D) =
P(C/D
P(C)P(D
̅)
P(D 1−P(D)
D’où
51
̅ ) = 0,05 x 0,99 = 0,51
P(C/D 1−0,027
Si B est un évènement tel que P(B) > 0 et { A, ……., An }un système complet d’évènements,
la formule de Bayes s’écrit :
P(Ai)P(B/Ai)
P(Ai / B)= ∑n
i=1 P(Ai)P(B/Ai)
Preuve
du système complet par rapport à un évènement B. Elle donne ainsi la « probabilités des
causes ». P(Ai/B) est la probabilité que B étant réalisé, il soit dû à la cause Ai, la formule de
Bayes (où théorème de Bayes) suppose la connaissance a priori des probabilités des causes
Ai.
Exemple 9
Trois usine A1, A2, A3 fournissent respectivement 25%, 35%, 40% des carreaux nécessaires à
une entreprise de construction. Dans leurs livraisons, il y a une moyenne 5%, 4% et 2% de
carreaux inutilisables. Un carreau est choisi au hasard dans un stock important, ce carreau est
défectueux. Quelles sont les probabilités P(A1/D), P(A2/D), P(A3/D) qu’il provienne des
usines A1, A2 ou A3 ?
Corrigé
52
P(A1)P(D/A1)
P(A1/D) = D D D
P(A1)P( )+P(A2)P( )P(A3)P( )
A1 A2 A3
125
= 345 = 0,36
P(A2)P(D/A2) 140
P(A2/D) = = 345 = 0,41
P(D)
P(A3)P(D/A3) 80
P(A3/D) = = 345 = 0,23
P(D)
∑3i=1 P(Ai/D) = 1
5. Indépendance
Soit (Ω, @, P) un espace probabilisé. Soient A et B deux évènements aléatoires. On dit que A
et B sont indépendants si :
̅ et B, A et B
Si A et B sont indépendants, alors A ̅ et B
̅,A ̅ sont également indépendants.
Exemple 10
Au sein d’une population de 1000 dakarois, on a dénombré 120 atteints d’une maladie M,
les 880 autres étant indemnes de cette maladie.
1) Quelle est la probabilité pour qu’un individu tiré au hasard au sein de cette population soit
atteint de la maladie M ?
Corrigé
1) La probabilité pour qu’un individu tiré au hasard au sein de la population soit atteint de la
malade M est
120
P(M) = 1000 = 0,12
53
2) On suppose que le fait d’être atteint de M est indépendant d’un sujet à l’autre. Alors la
probabilité que 5 sujets tirés au hasard soient indemnes de la maladie M s’exprime par
̅ ∩M
P(M ̅ ∩M
̅ ∩M
̅ ∩M
̅ ) = [P(M
̅ )]5 = (1-0,12)5 = 0,528
Exemple 11
Corrigé
On a :
1
P(A) = P(B) = P(C) = 2
1
P(A∩ B) = P(A)P(B) = 4
1
P(A∩ C) = P(A)P(C) = 4
1
P(B∩ C) = P(B)P(C) = 4
1
P(A∩B∩C) = P(A∩ B) = 2 car c⊂ (A ∩ B)
Donc A, B, et C sont deux à deux indépendants mais il ne sont pas indépendants dans leur
ensemble car P(A∩B∩C) ≠ P(A) P(B)P(C) .
Exemple introductif
On jette deux fois un dé. L’univers Ω est l’ensemble des couples (a, b) tel que :
a, b ∈ { 1, 2, 3, 4, 5, 6} :
A chaque évènement élémentaire 𝜔 = (a, b), on peut faire correspondre la somme a + b des
chiffres portés par le dé. On définit ainsi une application :
X:Ω→R
𝜔 → X (𝜔) = a + b
Définition
Soit (Ω, @ P) un espace probabilisé. On appelle variable aléatoire réelle (v. a. r), toute
application X définie sur Ω, à valeur dans R telle que, pour tout intervalle I ⊂R, l’ensemble
réciproque :
Définition
55
Remarque
X (Ω) peut être fini. X(Ω) = {x1 , ………., xn} mais également infini dénombrable :
Exemple 1
On considère un univers Ω et la tribu @ = {Ω, ∅}. Soit f une application numérique telle que
𝜔1 et 𝜔2 étaient deux élément distincts de Ω on ait :
f(w1) = x1 et f(w2) = x2 ≠ x1
Corrigé
Notons que x2 ≠ x1 sont deux éléments de R ; si f est une variable aléatoire sur Ω, on a alors
Or
Définition
Propriété
∑ p(x) = 1
x∈X(Ω)
Remarque
∑ p(x) = 1
i=1
56
1.3. Fonction de répartition.
Définition
On appelle fonction de répartition d’une v.a.r X, L’application F de R dans [0, 1] définie par :
∀ x ∈ R F (x) = P (X≤ x)
Remarque
Si les valeurs de X sont ordonnées, x(Ω) = {x1, …< Xn < ⋯ } alors, pour tout xn ≤ a < xn+1
Propriété
Soit x une v.a.r discrète de fonction de répartition F. Alors on a les propriétés suivantes :
Remarque
Exemple 2
On jette successivement et indépendamment sur une table deux dés dont les faces sont
numérotées de 1 à 4. X étant le produit des nombre obtenus.
Corrigé
57
On prendra pour Ω, Ω= {1, 2, 4}2, card Ω = 4² = 16
2eme 1 2 3 4
1er
1 1 2 3 4
2 2 4 6 8
3 3 6 9 12
4 4 8 12 16
x 1 2 3 4 6 8 9 12 16 Total
1 2 2 3 2 2 1 2 1
P(X=x) 1
16 16 16 16 16 16 16 16 16
Et le diagramme en bâton
P(X=x)
3/16
2/16
58
1/16
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
3
2≤ X < 3 F(x) =16
5
3≤ X < 4 F(x) =16
8
4≤ X < 6 F(x) =16
10
6≤ X < 8 F(x) =16
12
8≤ X < 9 F(x) =16
13
9≤ X < 12 F(x) =16
15
12≤ X < 16 F(x) =16
X ≥ 16 F(x) = 1
F(X)
3/4
2/4
1/4
59
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1.4.1. Espérance
Définition
soit X une v.a.r discrète. On appelle espérance de X, notée E(X), le nombre réel, s’il existe,
définie par :
Remarque
Il peut arriver que la série ci-dessus soit divergente. Dans ce cas, on dit que X n’a pas
d’espérance.
E(X) = ∑+∞
i=1 xi p( xi)
Théorème
Soit X une v.a.r discrète et f une fonction définie sur X(Ω), à valeurs réelles. Alors
l’espérance de f(x), si elle existe, est donnée par :
Remarque
En particulier on a :
Propriété
E(aX + b) = a E(X) + b
Preuve
on a :
60
= a E(X) + b
Définition
Remarque
En effet
1.4.2. Moments
Définition
E(Xk)= ∑x xk p (x)
Remarque
E(Xk) = ∑+∞ k
i=1 xi p(xi)
1.4.3. Variance
Définition
Soit X une v.a.r discrète. On appelle variance de X, notée var(X), l’espérance si elle existe,
de [X- E(X)]²
Théorème : (Koenig)
61
Var (x) = E [X- E(X)]² = E(X²) – E²( X)
Preuve
On a :
= ∑x x²p(x)-2E²(X)+ E²(X)
= E(X²)-E²(X)
Remarque
Il peut arriver que la série définissant la variance soit divergente. Dans ce cas, on dit que X
n’a pas de variance.
Une variance est toujours positive car il s’agit de l’espérance d’une v.a.r. positive. De plus,
var(X) correspond au moment centré d’ordre 2 de X.
Définition
𝜎 (X)= √var(x)
Définition
Propriété
Var(aX + b) = a² var(x)
Prevue
On a:
62
= a²∑x[x − E(x)]²p(x)
= a² var (x)
Remarque
En effet :
1
E(Y)= σ(X) E[X-E(x)] = 0, Y est centrée
1 1
Var(Y) = 𝜎²(𝑋) V[X-E(x)] = 𝜎²(x) x V(X)
V(X)
= V(X) = 1
Exemple 3
Un grossiste estime que la demande en tonnes de denrées périssables est une variable aléatoire
X de loi :
X 0 1 2 3 4 5
P(x) 0,05 0,15 0,20 0,35 0,15 0,10
a) inférieure à 2 tonnes ;
c) supérieure à 2 tonnes.
3) le stock du grossiste est de 3 tonnes. Il gagne 5000F par tonne vendue et perd 2000F par
tonne invendue. Calculer son bénéfice moyen et l’écart- type associé.
Corrigé
63
1a) Demande moyenne = E(X)
= 2.7
b) variance de X
=(1.308)²=1.71
2.a)
=0.05+0.15+0.20
=0.4
b)
= 0.70
= 1-0.40= 0.60
Y(Ω) = {0, 1 , 2 , 3}
Z = 5000Y – 2000(3-Y)
= 7000y -6000
64
𝜎(𝑍) = 7000 𝜎(𝑌)
Il en découle que
Définition
On dit qu’une v.a.r X définie sur l’espace de probabilité (Ω, @, P), est continue si X(Ω)
contient au moins un intervalle de R .
Remarque
On ne rencontrera dans la suite que des v.a.r X absolument continues pour lesquelles, ∀ X ∈
𝑅 , P(X= x) = 0. Les évènements de probabilités non nuls serons donc les intervalles [a , b ]
de R.
Dans le cas d’une v.a.r continu, l’ensemble X(Ω) n’est pas dénombrable. Il nous fait donc
abandonner le signe somme ∑. que l’on remplacera par le signe ∫.
Définition
65
babilité de X, la fonction f définie sur IR tel que tout intervalle [a , b] de R :
𝑏
P(a≤ X ≤ b) = ∫𝑎 f(x)dx
Exemple 4
𝑒 𝑥 si x ≥ 0
f(x)= {
0 si non
f est positive, continue sur IR sauf en 0 et :
+∞ +∞ −𝑥
∫−∞ f(x)dx = ∫0 𝑒 𝑑𝑥 = [ -𝑒 −𝑥 ]+∞
0 =1
Propriété
i)∀x ∈ R, f(x) ≥ 0
ii) f est une fonction continue sur R sauf en un nombre fini de points.
iii) on a toujours :
−∞
∫+∞ f(x)dx = 1
Définition
F(x) = p(x≤ x)
Exemple
0 si x ≤ 0
x
F(x) ={2 𝑠𝑖 0 ≤ x ≤ 2
1 si x ≥ 2
66
F est continue et croissante. On peut calculer par exemple :
1
P (-1≤ x ≤ 1) = F(1)-F(-1)=2
Propriété
P(a≤ x ≤ b) = F(b)-F(a)
Remarque
Pour la propriété iii), on peut écrire a < x < b, a ≤ x < b ou a < x ≤ b sans changer le
résultat final.
Proposition
Remarque
= 1-e-x
Dans l’exemple 5, on a :
0 si x ≤ 0
1
f(x) = {2 si 0 ≤ x ≤ 2
0 si x ≥ 2
2.4.1. Espérance
Définition
67
Soit x une v.a.r continue de densité de probabilité f. On appelle espérance de X, notée E(x), le
nombre réel, s’il existe, défini par :
+∞
E(x)= ∫−∞ xf(x)dx
Remarque
Il peut arriver que l’intégrale ci-dessus soit divergente. Dans ce cas, on dit que X n’a pas
d’espérance.
Théorème
Soit X une v.a.r continue de densité de probabilité f. Soit h une fonction définie sur X(Ω) à
valeurs réelles.
On a en particulier :
+∞
E(X²) = ∫−∞ x 2 f(x)dx
+∞
E(LogX) = ∫−∞ Logx f(x)dx
2.4.2. Moments
Définition
Soit X une v.a.r continue de densité de probabilité f. pour k∈IN, on appelle moment d’ordre k
de X, l’espérance de la v.a.r Xk, si elle existe, donnée par :
+∞
E(Xk) = ∫−∞ Xkf(x)d(x)
2.4.3. Variance
Définition
Soit X une v.a.r continue de densité de probabilité f. On appelle variance de X, notée var(X),
l’espérance, si elle existe, de [X- E(X)]2.
+∞
Var(X) = ∫−∞ [x − E(X)]2 f(x) dx
= E(X²)- E²(X)
+∞
=∫−∞ x²f(x) dx –E²(X)
68
Propriété
E(aX + b) = a E(x) + b
Var (aX + b) = a² var(x)
Définition
√var(X)
Exemple 6
(4 − x) si 0 ≤ x ≤ 4
f(x) = {a x
0 sinon
1) Trouver a afin que X suive bien une loi de probabilité.
2) Déterminer le mode de X
Corrigé
1) on a toujours :
+∞
∫−∞ f(x) dx = 1
4 1
= ∫0 a x (4-x) dx = a[2x² - x 3 ]40
3
32
= a=1
3
3
Il en découle que a= 32.
2) Déterminons le mode de X
Nous savons que le mode de X, noté M0 (X), est la valeur de IR qui maximise la densité f(x)
12 6 3 3
f’(x)= 32 - 32 x = - 16 x + 8
69
3 3
f’(x)= 0 ⇔ - 16 x + 8 = 0 ⇒ x = 2
3
On a f’’(x) = - <0
16
4 4 1
= ∫0 ax² (4- x)dx = a[3x3- 4 x4]40
64 64 3
E(X) = a = x =2
3 3 32
4 1
= ∫0 a x3(4-x) dx = a[x4- 5 x 4 ]40
256 256 3 24
E(X²) = a= x 32 =
5 5 5
Finalement:
24 4
Var(X)= –4=5
5
3 1 3 X3
=32 [ 2t² -3t3]x0 = 32 (2x² − )
3
Par suite :
0 𝑠𝑖 X ≤ 0
3 X3
F(X)= { 32 (2x² − ) si 0≤ x ≤ 4
3
1 𝑠𝑖 x ≥ 4
P(X = 2) = 0
En effet pour une variable aléatoire continue, la densité de probabilité en un point est nulle.
70
b) probabilité que (X< 2)
3 8 3 16
P(X< 2) = F(2) = 32 (8 − 3) = 32 x = 0,5
3
27 1 11
= 32 - 2 = 32 = 0, 344
Soit X une v.a.r continue de densité de probabilité f et h une fonction définie sur X(Ω) à
valeur réelles.
P(Y≤y) = P[h( x ) ≤ y]
= P(h(X) ∈ ] -∞, y] )
Exemple 7
Corrigé
+∞ +∞
1)∫−∞ f(x)dx = b ∫−∞ exp( -a |x|)dx
+∞ −ax
= 2b ∫0 e dx
1 2b
= 2b [-a e−ax ]+∞
0 = a
71
=1
a
Il en découle que b= 2
Car c’est l’intégrale d’une fonction impaire sur IR ( f est une fonction paire).
b) Calcul de la variance de X
+∞
var (x) = E(X²) = b ∫−∞ x² e−ax dx
+∞
= a∫−∞ x² e−ax
2
= a²
Si y< 0, F(y) = 0.
D’autre part, si y ≥ 0
= P (−√y ≤ X ≤ √−𝑦 )
√y √y
= ∫−√y b e−a|x| dx = 2b. ∫0 e−ax dx
𝑦 √y
= a ∫0√ e−ax dx = -[ e−ax ]0
b) calcul de la variance de Y
72
Var (Y) = E(Y²) – E² (Y)
+∞
E(Y²) = E(X4) = ∫−∞ X 4 f(x) dx
+∞
= a ∫0 X 4 e−ax dx
24
= a4
Objectifs Pédagogiques :
I. Lois Discrètes
1. Loi de Bernoulli
1.1. Définition
73
Exemple 1
Soit X la variable aléatoire prenant la valeur 1 en cas de succès et 0 sinon. La loi de X est une
1
loi de Bernoulli de paramètre 3 loi de x :
K 0 1
2 1
P(X=k)
3 3
1
P=3
2 1 2
q= 3 , E(X) = 3 var (x) = 9
La loi de Bernoulli joue un rôle fondamental en théorie des probabilités et en Statistique, car
elle sert de modèle à toute expérience aléatoire dont les issues appartiennent à deux classes
mutuellement exclusives.
2. loi binomiale
2.1. Définition
Soit P la probabilité de réalisation d’un évènement quelconque, lors d’une certaine épreuve
(p : probabilité de succès).
Soit q= 1-p la probabilité de non – réalisation du même évènement, lors de la même épreuve
(q : probabilité d’échec).
Démontration
74
n k−1
(On peut aussi savoir que Cnk = Cn−1 )
k
Donc :
= np∑n−1 k k
k=0 Cn p (1 − p)
n−1−k
(Changement k← k − 1)
= np[p+(1-p)]n−1= np
k−2
= n(n-1)Cn−2
Donc:
= n(n-1)p²∑n−2 k k
k=0 Cn−2 p (1-p)
n-2-k
(Changement k← 𝑘 − 2)
= n(n-1)p²[p+ (1-p)]n-2 + np
= n(n-1)p² + np
Exemple 2
La loi binomiale est par exemple la loi du nombre de filles dans une famille de n enfants. X
=B(n, p) où p est la probabilité de naissance d’une fille. P = 0,5 si on suppose que la
probabilité de naissance d’une fille est égale à la probabilité de naissance d’un Garçon pour
un couple de 10 enfants, la probabilité qu’il y ait 4 filles est donnés par :
4 1 1 4 1
P(X=4) = C10 (2)4 (2)6 = C10 (2)10
75
210
= 1024 = 0,205
devient fastidieux dès que n dépasse quelques unités. Pour éviter ces calculs, des tables de loi
binomiale ont été établies. Ces tables sont volumineuses, donc peu commodes.
Mais fort heureusement, comme nous le verrons, sous certaines conditions, afin de faciliter
des calculs, on peut approximer cette loi par la loi de poisson, ou par la loi normale, dont il
existe des tables d’usage plus commode.
3. loi multinomial
3.1. Définition
Il s’agit d’une génération de loi binomiale. On fait n épreuves indépendantes avec k issues
possibles.
A1 avec la probabilité p1
A2 avec la probabilité p2
Ak avec la probabilité Pk
(avec p1 + p2 + … pk = 1)
n1 résultats A1
n2 résultats A2
nk résultats Ak
Est :
n!
P=n p1 n1 p2 n2 ⋯ pk nk
1! n2! ⋯ n
k
76
3.2. Exemple d’application
Une roulette de casino comporte 16 numéros de couleur rouge, 16 numéros de couleur noire,
1 numéro de couleur verte.
A la fin de 10 de parties consécutives, le rouge est sorti 7 fois, le noir deux fois, le vert une
fois. La probabilité de cet évènement est :
10!
P= p[(7R)∩ (2N) ∩ (1v)] = 7!2!1! [p(R)]7[P(N)]2[(P(v)1
Avec
16
R l’évènement « il sort un rouge » : P(R)= 33
16
N l’évènement « il sort noir » : P(N) = 33
1
V l’évènement « il sort vert » : P(V) =33
4. loi hypergéométrique
4.1. Définition
Prélevons par tirage sans remise un échantillon de n boules. La composition de l’urne varie
ainsi à chaque tirage. Les tirages ne sont pas indépendants. Soit X le nombre de boules
blanches contenues dans l’échantillon. X est une variable aléatoire. La probabilité que
l’échantillon de n boules, tiré, sans remise, dans une urne de N boule, contienne k boules
blanches, est :
𝑘
𝐶𝑁 𝐶 𝑛−𝑘
𝑝 𝑁𝑞
P(X=k) 𝑛
𝐶𝑁
77
La loi hypergéométrique dépend donc de trois paramètres ;la taille de l’urne ,la taille de
l’échantillon et la composition de l’urne , à la différence de la loi binomiale qui ne dépend que
des deux paramètres.
E(X)= np
Sa variance est :
N−n
Var(X)= npq. N−1
N−n
La quantité N−1 s’appelle facteur d’exhaustivité
N−n
Dès que l’on effectue plus d’un tirage le coefficient est inférieur à un. Cette variance est
N−1
donc inférieure à celle de la loi binomiale qui est égale à npq.
Les deux modes de tirage de l’échantillon, exhaustif (loi hypergéométrique) et avec remise (
loi binomial) sont alors équivalents.
Dans la pratique, si n /N < 10% , il est souhaitable de remplacer la loi hypergéométrique par
n
la loi binomiale B(n, p,) la loi à deux paramètres. N est appelée taux de sondage. Ce résultat
est valable dès que la population est 10 fois plus grande que l’échantillon, ce qui arrive
fréquemment en matière de sondage.
Application
Un échantillon de 2000 individus conviendra aussi bien pour faire un sondage dans une ville
de 200 000 habitants que dans une ville de 2 000 000 d’habitant
Exemple 3
Dans une PME, sont employés 6 ouvriers et 5 employés. Le PDG, souhaitant prendre la vie de
son personnel, interroge cette personne choisi au hasard parmi ces 11 personnes. Soit X la
variable aléatoire : « nombre d’ouvrier interrogés ».
78
a) Quelle sont les valeurs prises par X ?
Corrigé
a) le tirage est sans remise, donc la variable suit une loi hypergéométrique H(N, n , p) avec N
6 5
=11, n = 7. P=11 et q= 11. Les valeurs prises par X sont comprise entre :
b) Loi de probabilité
7−k
Ck
6 C5
P(X= k)= ; k= 2, 3 ; …. ; 6
C711
k 2 3 4 5 6
15 100 150 60 5
P(X= k)
330 330 330 330 330
0,045 0,303 0,455 0,182 0,015
42 N−n 84
d) E(X) = np = 11 = 3,818 ; var (X)= npq N−1 = 121 = 0,654
5. Loi géométrique
5.1. Définition
On dit qu’une variable aléatoire X admet une loi géométrique de paramètre p (0< p < 1) si :
1−p q
Var(X) = =
p² p²
79
Démonstration
E(X)= ∑+∞ k +∞
k=1 k. pq = pq ∑k=1 kq
k−1
d d 1
= pq x dq (∑+∞ k
k=0 q ) = pq x dq (1−q)
1 pq q
E(X)= pq x (1−q)2 = =
p² p
Var(X)= ∑+∞ k
k=1 𝑘²pq – E² (X)
∑+∞ k +∞
k=1 k²pq = ∑k=1[k(k-1)+ k]pq
k
= ∑+∞ k
k=1[k (k-1)]pq + E(X)
q
= pq² ∑+∞
k=2[k(k-1)]pq
k-2
p
d² 2 q
= pq² x (∑+∞ k
k=0 q ) = pq² x +
dq² (1−q)3 p
2𝑞² q
= +
p² p
Finalement
2q2 q q2 2q2 +qp−q2 q2 +qp
Var (X) = + − = =
p2 p p2 p2 p2
q(q+p) q
= =
p² p²
Cette loi décrie le nombre d’épreuve de Bernoulli nécessaire pour obtenir la valeur 1
exactement une fois.
La loi géométrique est importante par sa propriété dite de non- vieillissement : Pour tous m.
n ≥0.
P(X = m + n/ X ≥ m ) = P(X ≥ n)
Exemple 4
Dans une grande assemblée, des personnes jouent au jeu suivant : Chaque personne lance à
son tour un dé équilibré à 6 faces numérotées de 1à6, le premier qui obtient un 6 paye la
tournée à ses amis.
Quelle est la probabilité que le premier joueur A paye la tournée ? Même question pour le
deuxième joueur B, le troisième joueur C, le quatrième joueur D.
Corrigé
80
On a donc une loi géométrique où le succès est le fait d’obtenir 6 et l’échec le fait d’obtenir 1
…, 5.
1
P(A) = P(X= 1) = p = 6 = 0,167
1 5
P(B) = P(X= 2) = pq = 6 x = 0,139
6
1 5
P(D) = P(X= 4) = pq3 = x ( )3 = 0,097
6 6
6.1. Définition
Si :
k
P(X=k) = Cr+k−1 pr(1-p)k , k= 0, 1, 2, …. X(Ω) = IN
Si r est naturel, la loi de pascal décrit le nombre d’épreuves de Bernoulli nécessaires pour
obtenir la valeur 1 très exactement r fois.
La loi de pascal trouve des applications en statistique des accidents et des maladies, ans les
problèmes liés au nombre d’individus d’une espèce dans les les échantillons de populations
biologiques, etc.
7. Loi de poisson
7.1. Définition
Soit ℷ un réel strictement positif. On appelle loi de poisson de paramètre ℷ noté P(ℷ) la loi de
la variable X telle que :
81
𝑒 −𝜆 𝜆𝑘
P(X= k) = , k = 0, 1,… , X(Ω) = IN
k!
𝜆k 𝜆 𝜆² 𝜆k
∑+∞
k=0 = 1 + 1! + + ⋯+ + ⋯ Qui est égale à 𝑒 𝜆 .
k! 2! k!
82