Vous êtes sur la page 1sur 38

Cours de Probabilité et de Statistique

cours de JB Boyabé

UC-SJP - année 2012/2013


1 Analyse combinatoire, dénombrement
1.1 Introduction
On appelle analyse combinatoire, la théorie mathématique du dénombrement. Pour com-
prendre le dénombrement on peut partir de l’exemple suivant.
Exemple 2.1. on considère un système de communication composé de n antennes iden-
tiques alignées. Aussi longtemps que deux antènes consécutives ne seront pas défectueuses,
la communication dans le système fonctionnera.
Ce qui veut dire aussi que dès que deux antennes qui se suivent sont en pannes, la
commuication ne fonctionnera pas.
Dans l’exemple où n=4 on peut lister six configurations du systèmes:

0 1 1 0
0 1 0 1
1 0 1 0
0 0 1 1
1 0 0 1
1 1 0 0

Table 1.1:

où 1 signifie que l’antenne fonctionne et 0 signifie qu’elle est défectueuse. On voit alors
que notre système sera fonctionnel dans les trois premières configurations, mais pas dans
les trois dernières. La probabilité que le système fonctionne est donc de 3/6 = 1/2.
On vient par cet exemple de compter/dénombrer le nombre de manières différentes selon
lesquelles le système fonctionne par rapport au nombre total de manières.

1.2 Principe fondamental du dénombrement


Le principe fondamental du dénombrement établit que: si une expérience peut produire m
résultats et une autre n, alors il y a m × n résultats possibles lorsqu’on considère ces deux
expériences ensemble.
Théorème 2.2. Si r expériences doivent être réalisées et sont telles que la première
peut produire l’un quelconque de n1 résultats, et si pour chacun d’entre eux il y a n2
résultats possibles pour la 2ème expérience, et si pour chaque résultat des deux premières
expériences il y en a n3 pour la 3ème expéreince, ainsi de suite, il y aura alors au total
n1 × n2 × . . . . × nr résultats pour les r expériences prises ensemble.

2
' $
Exemple 2.3. Le comité de planification d’un collège est constitué de 3 étudiants de 1ère
année, 4 de 2ème, 5 de 3ème et 2 de dernière année. Un sous-comité de 4 étudiants
comportant un représentant de chaque classe doit être choisi. Combien peut-on former de
sous-commité?
Solution:
On peut consédérer le choix d’un sous-comité comme le résultat combiné de 4 expéri-
ences distinctes, chacune consistant à choisir un unique représentant dans l’une des classes.
Par conséquent, en application de la version généralisée du principe fondamental, il y a
3×4×5×2=120 sous-comités possibles.
&
 %

Exemple 2.4. Combien de plaques minéralogiques portant un matricule de 7 caractères
sont des lettres et les 4 dernières des chiffres?
Solution:
26.26.26.10.10.10.10 = 175760000plaques
 
Rappel: il y a 26 lettres de l’alphabet et 10 chiffres dans N de 0 à 9.
 
Exemple 2.5. dans l’exemple précédent, combien de plaques mnéralogiques pourrait-on
avoir si l’on excluait que les lettres ou les chiffres se répètent?
Solution:
26.25.24.10.9.8.7 = 78624000plaques
 

1.3 Permutations
Combien existe-t-il d’arrangements ordonnées de lettres a, b et c? Réponse: 6 car on a:
abc ; acb ; bac ; cab ; bca et cba. Chacun de ces arrangements est appelé permutation par
convention. Il y a donc 6 permutations des éléments d’un ensemble de 3 objets.
Remarque 2.6.
• la première lettre de la permutation peut être n’importe laquelle des 3
• le deuxième lettre peut être choisie parmi les deux restantes
• tandis que le 3ème ne peut plus faire l’objet d’aucun choix
Ainsi il y a 3.2.1 = 6 permutations possibles.
Généralisation:
L’expression n! dite n factorielle est définie par l’équation n! = n.(n−1).(n−1). . . . . . 3.2.1.
n! = n.(n − 1).(n − 1) . . . . . . 3.2.1.
Théorème
 2.7. Le nombre de permutations de n objets est n! 
Exemple 2.8. Combien d’ordres à la batte peut-on avoir pour une équipe de baseball de 9
joueurs?
Solution:
9!=362880 ordres selon lesquelles les joueurs peuvent se succéder à la batte.
 

3
' $
Exemple 2.9. Considérons un cours de mathématiques suivi par 6 hommes et 4 femmes.
Un examen a lieu, puis les étudiants sont classés selon leur note. On exclut le cas où deux
étudiants obtiennent la même note.

1. Combien de classements peut-on avoir?

2. Si les hommes sont classés entre eux uniquement et les femmes entre elles, combien
de classements globaux peut-on avoir?

Solution:

1. Chaque classement correspond à un certain arrangement ordonné de 10 personnes:


10! = 3628800

2. Il y a 6! classements des hommes entre eux et 4! classements de femmes entre elles,


d’où un nombre global de classements: (6!).(4!) = 17280 classements possibles.
& %
Remarque 2.10. Quand le nombre de permutations concernent un ensemble de n ob-
jets dont certains sont indistinguables les uns des autres, il faut considérer la formule du
théorème suivant:
Théorème 2.11. il y a (n1 !n2 !.n. . .nr !) permutations différentes de n objets parmi lesquels
n1 sont indistinguables entre eux, n2 entre eux également, ..., nr entre eux. 
Exemple 2.12. Quel est le nombre d’arrangements avec les lettres du mot P EP P ER?
Solution:
(6!)/(3!2!) = 60arrangements

' 
$
Exemple 2.13. Parmi les 10 participants à n tournois d’échec, on compte 4 russes, 3
américains, 2 anglais et 1 français. Si dans le classement du tournoi on ne peut lire que la
liste des nationalités des joueurs mais leur identité, à combien de classements individuels
différents une telle liste correspond-elle?
Solution:
il y a (10!)/(4!3!2!1!) = 1260 classements possibles.
&
# %
Exemple 2.14. On compose des signaux en alignant des drapeaux suspendus. Combien de
ces signaux peut-on former si parmi les drapeaux à disposition 4 sont blancs, 3 rouges, 2
bleus et si tous les drapeaux d’une même couleur sont indistinguables?
Solution:
(9!)/(4!3!2!) = 1260 signaux différents.
" !

1.4 Arrangements
Un arrangement de r objets parmi n objets différents est un sous-ensemble ordonné de r
objets choisis parmi les n objets
Pour dénombrer le nombre d’arrangements, on a la formule Akn = n(n−1) . . . (n−k+1) =
n!
(n−k)!
Rq
' : Ici, l’ordre est important mais il n’y a pas de répétition $
Exemple 1:
{AP, 2P, 3P, 4P, 5P }
Pour le jeu de cartes, les sous-ensembles {2P, AP, 3P, 4P, 5P } sont des arrangements
{7C, DC, 7T, 7CA, VC}
distincts de 5 cartes choisies parmi 52. En utilisant la formule, on peut calculer qu’il existe
5 52!
A52 = (52−5)! = 52 × 51 × 50 × 49 × 48 = 311875200 arrangements différents de ce type
& %

4
' $
Exemple 2
On dispose d’une urne contenant trois boules différentes, numérotées 1, 2 et 3 et on en tire
deux (sans remise) parmi les trois. Combien de tirages différents peut-on effectuer ?
Correction : Un tirage correspond à un arrangement de deux éléments parmi trois. En
effet, l’ordre de tirage est important mais on effectue le tirage sans remise donc il ne peut
y avoir de répétitions. On a donc (3−2)!
3!
= 6 tirages possibles. Dans ce cas, on peut encore
faire la liste exhaustive de ces différents tirages, par exemple sous forme d’arbre.
& %

1.5 Combinaisons
1.5.1 Définitions
Soit n et k deux entiers naturels. Une combinaison de k éléments parmi
 n est un sous-
k n
ensemble de cardinal k d’un ensemble de cardinal n. On note Cn ou et le nombre
k
k
de combinaisons de k éléments parmi n et alors Cn = k!(n−k)!
n!
k k
Autrement dit, k!Cn = An .
Rq : Ici, on ne tient pas compte de l’ordre et il n’y a pas de répétition.
Proposition
k k+1 k+1
Pour tout n et k deux entiers naturels, on a Cn + Cn = Cn+1
Cette propriété permet d’obtenir ce qu’on appelle le triangle de Pascal donnant les
k
valeurs des Cn
k
n 0 1 2 3 4 5
1 1 1 0
2 1 2 1 0
3 1 3 3 1 0
4 1 4 6 4 1 0
5 1 4 10 10 5 1
généré
( 0 à partir des formules 1
Cn = 1 et C1 = 1 ∀n ∈ N
k k k−1
Cn = Cn−1 + Cn−1 1 ≤ k ≤ n − 1
k
Pour obtenir le terme Cn du triangle de Pascal, il suffit d’additionner le terme immédi-
atement au dessus de celui-ci (en l’occurrence Cn−1
k ) et le terme à gauche de ce dernier
k
(en l’occurrence Cn−1 )

1.5.2 Le binôme de Newton


Soit a et b deux nombres réels (et par la suite, éventuellement complexes) Partons de
l’identité remarquable : (a + b)2 = a2 + 2ab + b2 On en déduit en multipliant les deux
membres de l’égalité précédente par (a + b)
3 3
(a + b) = a + 3a2 b + 2ab2 + b3
(a + b)4 = a4 + 4a3 b + 6a2 b2 + 4ab3 + b4
Proposition :
Soient a, b ∈ R, et n ∈ N. On a
n
k k
X
n
(a + b) = = Cn a bn−k
k=0

5
1.5.3 Propriétés
Propriétés des coefficients binomiaux :
0 ∗ 1 n
• ∀n ∈ N Cn = 1 et ∀n ∈ N Cn = n ; Cn = 1
∗ k n−k
• ∀n ∈ N Cn = Cn k entier vérifiant 0 ≤ k ≤ n
∗ k n k−1
• ∀n ∈ N Cn = Cn−1 + Cn−1 ; k entier vérifiant 1 ≤ k ≤ n − 1

6
2 Modélisation des expériences aléatoires,
espace de probabilité
2.1 Introduction
Dans un jeu normal de 3é cartes, on tire une carte dont on note la couleur: Coeur, Pique,
Carreau ou trèfle. La carte est ensuite remise dans le jeu. On tire une seconde carte dont
on note la couleur, la carte es remise en jeu. On tire une nouvelle carte, et ainsi de suite.
L’opération a été effectuée :
• 20 fois

• puis 100 fois

• puis 1000 fois

• puis 10000 fois


On s’intéresse au fait d’obtenir, à l’occasion de chaque tirage d’une carte de couleur trèfle,
ou non trèfle, et on compte le nobre de sorties de trèfle.
Les résultats obtenus à l’occasion des diverses expériences faites ont été consignés dans
le tableau suivant:
Variable 20 tirages 100 tirages 1000 tirages 10000 tirages
eff. freq. eff. freq. eff. freq. eff. freq.
Trèfle 6 0,30 29 0,29 231 0,231 2432 0,2432
Non trèfle 14 0,70 71 0,71 769 0,769 7568 0,7568
20 1,00 100 1,00 1000 1,000 10000 1,0000
A priori, les cartes de couleur trèfle constituant le quart (fréquence 0,25) de l’ensemble
des cartes du jeu, il n’est pas surprenant que les fréquences de sortie, à l’occasion des
diverses observations faites, de la couleur trèfle, aient été successivement : 0,3 ; 0,29 ;
0,231 puis 0,241 fréquences toutes voisines de 0,25 et d’autant plus voisines que le nombre
de tirages a été élevé.
Cette fréquence de sortie de la couleur trèfle sera appelé “probabiité” de sortie de la
couleur trèfle à l’occasion du tirage d’une carte dans un jeu de 32 cartes.
Remarquon immédiatement que 0, 25 = 32 8
= Nb de cartes de couleurs trèfle
Nombre total de cartes de jeu
D’une façon plus générale, si nous désignons par
• N le nombre de cartes du jeu, aucune de ces cartes n’étant favorisée ou défavorisée
par rapport aux autres à l’occasion d’un quelconque tirage

• n le nombre des cartes (parmi N ) favorables à l’éventualité envisagée (ici la sortie


d’une carte de couleur trèfle)

• Nous écrivons, en désignant par p la probabilité correspondant à l’évènement “sortie


de trèfle”.
Nb de cas favorales
– p= Nombre de cas possibles

7
2.2 Variables aléatoires discrètes
2.2.1 Définitions
On appelle variable aléatoire discrète définie sur (Ω, A) une application X : Ω → R telle
que X (Ω) est dénombrable (en général X (Ω) est fini ou X (Ω) ⊂ N ou X (Ω) ⊂ Z et dans
tous les cas X (Ω) est en correspondance bijective avec N) telle que pour tout x réel :
X −1 (x) = {w ∈ Ω/X(w) = x} ∈ A
ce qui exprime tout simplement que X −1 (x) est un évènement. Si A = P (Ω), toute
application X sera une variable aléatoire puisuqe X −1 (x) ∈ P (Ω) pour tout x réel.

2.2.2 Loi de probabilité


La probabilité résultant de la définition d’une v.a. va nous permettre de définir la proba-
bilité de chacune de ses valeurs possibles x ∈ X (Ω) par :
Px (X = x) = P X −1 (x) = P {w ∈ Ω/X(w) = x}


Exemple
Si on associe la valeur 1 au résultat impair d’un jet de dé : X −1 (1) = {1, 3, 5}, la
probabilité de la valeur 1 sera P ({1, 3, 5} = 1/6 + 1/6 + 1/6 = 1/2).
Cette nouvelle probabilité définie cette fois sur Ω0 = X (Ω) et noté PX s’appelle la
“probabilité image” de P par X.
L’ensemble Ω0 = X (Ω) étant dénombrable, il existe une bijection permettant de représen-
ter ses éléments par l’ensemble des xi , i ∈ N. La loi de probabilité PX de X est alors définie
par les probabilités individuelles :
pi = PX (X = xi ) = P X −1 (xi ) , i ∈ N


On appelle alors distribution ou loi de probabilioté de la v.a. X l’ensemble des couples


(xi , pi )i∈N . Si X ne prend qu’un petit nombre de valeurs, cette distribution est générale-
ment présentée dans le tableau.
Exemple
La loi uniforme associée à un lancer de dé à six faces numérotées est présentée dans le
tableau ci-après :
xi 1 2 3 4 5 6
pi 1/6 1/6 1/6 1/6 1/6 1/6 1
Cas particulier
• Variable certaine
Il s’agit d’une v.a. qui est constante, i.e. qui prend la même valeur connue a quel
que soit le résultat de l’épreuve : P (X = a) = 1. La masse totale de probabilité est
concentrée en a, on parle de DIRAC associé à cette varaible certaine.
• Variable indicatrice
Soit A ∈ A un évènmenet quelconque; on appelle v.a. indicatrice de cet évènement
A, la v.a. définie par : 
1 si w ∈ A
X(w) =
0 si w ∈ A
et noté X = 1A . Ainsi :
– PX (X = 1) = P {w/w ∈ A} = P (A)

– PX (X = 0) = P w/w ∈ A = P (A) = 1 − P (A)

8
F(x)

Pn

x(1) x(2) 0 x(3) x(n−1) x(n) x

Figure 2.1: Fonction de répartition d’une v.a.

2.3 Fonction de répartition


On appelle fonction de répartition de la v.a. X, la fonction F définie pour x réel par :

F (x) = PX {X < x} = P {w ∈ Ω/X(w) < x}

C’est une fonction en escalier, constante par morceaux, continue à gauche, définie ici par :
X
F (x) = {pi /xi < x}

c’est à dire que c’est la somme des poids de tous les points qui sont strictement à gauche
de x. Les propriétés de F seront étudiées dans le cas d’une v.a. continue.
Si par exemple X prend les valeurs x1 < x2 < . . . < xn on aura F (x) = 0 pour x 6 x1 ,
puis le graphe de F présentera un saut en chaque point xi , jusqu’à la valeur F (x) = 1 pour
x > xn .
On peut déduire de F les probabilités individuelles par pi = F (xi+1 ) − F (xi ) pour
1 6 i 6 n − 1 et pn = 1 − F (xn ) .
Exemple. Variable aléatoire certaine: F (x) = 0 pour x 6 a et F (x) = 1 pour x > a.
Exemple. Jet de dé: F (x) = 0 pour x 6 1, pui sauts de hauteur PX (X = i) = 1/6 aux
points i = 1 . . . 6 puis F (x) = 1 pour x > 6.

2.4 Moments d’une v.a. discrète


2.4.1 Espérence mathématique
On appelle espérance mathématique (expected value) de la v.a. X la quantité, si elle existe
: X
E(X) = pi xi
i∈N

9
F(x)

0 a x

Figure 2.2: Fonction de répartition d’une v.a. certaine

F(x)

3/6

1/6

0 1 2 3 4 5 6 x

Figure 2.3: Fonction de répartition d’un jeu de dé

10
Il s’agit d’une moyenne en probabilité, ou moyenne pondérée, des valeurs xi que peut
prendre la v.a. X par les probabilités correspondantes pi . Chaque probabilité pi peut
aussi s’interpréter comme la masse ponctuelle du point wi d’abscisse xi et E(xi ) est alors
le centre de gravité, ou baryentre, de ces points affectés de masses. C’est une valeur
numérique constante qui est la valeur moyenne, en probabilité, de X. Notons que si X
prend ses valeurs entre x1 et xn , on aura bien sûr x1 6 E(x) 6 xn .
Exemple.
Etat de la nature Prob. XA XB
Bon 0.25 20% 5%
Moyen 0.25 15% 10%
Mauvais 0.5 5% 25%
P
E[X] = pi xi
E(XA ) = 0, 25 × 20 + 0, 25 × 15 + 0, 5 × 25
E(XB ) = 0, 25 × 5 + 0, 25 × 10 + 0, 5 × 25
Les propriétés:

• E(X + a) = E(X) + a, avec a ∈ R

• E(aX) = aE(X), a ∈ R

• E(X + Y ) = E(X) + E(Y )

2.4.2 Variance
Il s’agit d’un indicateur mesurant la dispersion des valeurs xi que
P peut prendre la2 v.a. X
autour de la moyenne en probabilité E(X) et défini par V (X) = pi [xi − E(X)] lorsque
cette quantité existe.
C’est l’espérance mathématique du carré de la v.a. centrée X − E(X), soit V (X) =
E [X − E(X)]2 moment centré d’ordre deux. On note cette quantité V (X) = σX 2 sachant

que σX est appelé écart-type de X.


Propriétés:

• Par définition: V (X) > 0, car la variance ne peut être nulle que si E(X) = X

• V (aX) = a2 V (X) pour un réel a

• V (X) = E(X 2 ) − [E(X)]2

• Si X et Y sont deux v.a. indépendantes, alors V (X + Y ) = V (X) + V (Y )

• V (X) + V (Y ) = V (X) + V (Y ) + 2Cov(X, Y )

2.5 Formule de Bayes


Axiome :
∞ ∞
!
[ X
P Ei = P (Ei
i=1 i=1

11
2.5.1 Présentation intuitive
Soient
S E et F deux évènements quelconques. On peut écrire E sous la forme E = E ∗
F E ∗ F , car tout élément de E doit se trouver soit dans E et F à la fois, soit dans E
mais pas dans F
[insert fig 3.1 Sheldon]
Comme EF et EF s’excluent mutuellement, on peut écrire, en vertu de (3.1) :
P (E) = P (EF ) + P (EF
= P (E|F )P (F ) + P (E|F )P (F )
= P (E|F )P (F ) + P (E|F )(1 − P (F )
(3.2)
Cette équation est appelée formule des probabilités totales. Elle peut être interprêtée de
la façon suivante: la probabilité de l’évènement E est une moyenne pondére de la probabilité
conditionnelle de E lorsque F est apparu et de la probabilité conditionnelle du même E
lorsque F n’est pas apparu, les poids étant les probabilités des évènements conditionnants.
Cela signifie qu’il existe de nombreuses situations où il est difficile de calculer directement
la probabilité d’un évènement mais où il est par contre possible de la clculer connaissant
ses' probabilités conditionnelles si certains évènements sont réalisés. $
Exemple:
Une compagnie d’assurance estime que les gens peuvent être répartis en deux classes: ceux
qui sont enclins aux accidents et ceux qui ne le sont pas. ses statistiques montrent qu’un
individu enclin aux accidents a une probabilité de 0,4 d’en avoir un dans l’espace d’un an;
cette probabilité tombe à 0,2 pour les gens à risque modéré. On suppose que 30% de la
poluation appartient à la classe à hauts risques. Quelle est alors la probabilité qu’un nouvel
assuré soit victime d’un accident durant l’année qui suit la signature de son contrat?
Solution:
On note A_1 l’évènement « la signataire aura un accident dans l’année qui suit
l’établissement du contrat » et par A « le signataire est enclin aux accidents ». La proba-
bilité P(A_1) voulues est alors donnée par:
P (A1 ) = P (A1 |A)P (A) + P (A1 |A)P (A)
= (0, 4)(0, 3) + (0, 2)(0, 7)
= 0, 26
&
' %
$
Exemple:
Un nouveau signataire a un accident dans l’année qui suit la signature de son contrat.
Quelle est la probabilité qu’il fasse partie de la classe à haut risque?
Solution:
Cette probabilité est P (A|A1 ) donnée par:
P (A|A1 ) = PP(AA 1)
(A1 )
P (A)P (A|A1 )
= P (A1 )
(0,3)(0,4)
= 0,26
6
=
& 13 %

12
2.5.2 Introduction à la formule de Bayes
' $
Exemple:
Un étudiant répond à une QCM. De deux choses l’une: soit il connaît la réponse, soit il la
devine. Soit p la probabilité que l’étudiant connaisse la réponse et donc 1-p celle qu’il la
devine. On admet que l’étudiant qui devine la réponse répondra correctement avec proba-
bilité 1/m où m est le nombre de réponses possibles. Quelle est la probabilité conditionnelle
qu’un étudiant connaisse la réponse à une réponse s’il y a répondu correctement?
Solution:
Notons C et K respectivement les évènements « l’étudiant répond correctement à la ques-
tion » et « il connaît vraiment la réponse ». Alors:
P (K|C) = PP(KC) (C)
(P (C|K)P (K))
= (P (C|K)P (K)+P (C|K)P (K))
p
= p+(1/m)(1−p)
mp
= 1+(m−1)p
En prenant par exemple m = 5 et p = 1/2, la probabilité qu’un étudiant connaisse la
réponse à une question sachant qu’il a répondu correctement sera ainsi de 5/6.
&
' %
$
Exemple:
Un laboratoire d’analyse du sang assure avec fiabilité de 95% la détection d’une certaine
maladie lorsqu’elle est effectivement présente. Cependant, le test indique aussi un résultat
faussement « positif » pour 1% des personnes réellement saines à qui on l’applique. Si 0,5%
de la poluation porte effectivement la maladie, quelle est la probabilité qu’une personne
soit vraiment malade lorsqu’on la déclare telle sur la base du test?
Solution:
Soit D l’évènement « la persoone soumise au test est porteuse de la maladie » et E
l’évènement « le résultat du test est positif ». La probabilité P(D/E) voulue est don-
née par:
P (D|E) = p(DE)
P (E)
P (E|D)P (D)
= P (E|D)P (D)+P (E|D)P (D)
(0,95)(0,005)
= (0,95)(0,005)+(0,01)(0,995)
95
= 294
= 0, 323
qui montre que 32% environ des personnes dont les résultats au test sont positifs ont
vraiment la maldie.
& %
Exemples: (voir Sheldon)

2.5.3 Formule des probabilités totales généralisée


Supposons que F1 , F2 , ..., Fn soient des évènements s’excluant mutuellement et tels que:
n
[
Fi = S
i=1

cela revient à dire qu’exactement un des évènementsF1 , F2 , ..., Fn se produira. En


écrivant
n
[
E= EFi
i=1

13
et en utilisant le fait que les évènements EFi , i = 1, . . . , n s’excluent mutuellement, on
obtient:
P (E) = Pni=1 P (EFi )
P
n
= 1 P (E|Fi )P (Fi )
(3.3)
L’équation (3.3) montre ainsi qu’étant donné iun jeu d’évènements F1 , F2 , ..., Fn desquels
un et un seul surviendra, on peut calculerP (E) en commençant par conditionner selon les
Fi . Ou encore elle établit que P (E) est une moyenne pondérée des P (E|Fi ) les poids valant
la probabilité des évènements sur lesquels on conditionne.

2.5.4 Formule de Bayes généralisée


Supposons maintenant que E s’est réalisée et que nous cherchions à déterminer la prob-
abilité que l’un des F_j se soit aussi réalisé. On déduit qe l’équation (3.3) le théorème
suivant:
Théorème 3.1.
P (EFi )
P (Fj |E) = P (E)
= Pn(P (E|Fj )P (Fj )
i=1 P (E|Fj )P (Fj ))

(3.4)
L’équation (3.4) est appelée formule de Bayes du nom de l’Anglais Thomas Bayes.
Exemple:
Un avion est portée disparu, on pense que l’accident a pu arriver aussi bien dans
n’importe laquelle des trois régions données. Notons par 1 − αi la probabilité qu’on décou-
vre l’avion dans la région i s’il y est effectivement. Les valeurs α_i représentent donc la
probabilité de manquer l’avion lors des recherches. On peut l’attribuer à divreses causes
d’ordre géographique ou à la végétation propre à la région. Quelle est la probabilité que
l’avion se trouve dans la i-ème région si les recherches dans la région 1 n’ont rien donné?
Solution:
Notons Ri , i = 1, 2, 3 les évènements « l’avion est tombé dans la région i ». Soit aussi
E l’évènement « les recherches dans la région 1 sont restées infructueuses ». On tire de la
formule de Bayes, pour i=1:
P (ER)
P (R1 |E) = P (E)
(P (E|R1 )P (R)
= P3
i=1 P (E|Ri )P (R) )
(α1 ) 13
= (α1 ) 13 +(1) 13 +(1) 31
α1
= α1 +2
pour j = 2, 3
P (E|Rj )P (Rj )
P (Rj |E) = P (E)
(1) 13
= (α1 ) 13 + 31 + 13
1
= α1 +2
On remarquera que la probabilité a posteriori (conditionnelle) que l’avion se trouve dans
la région j une fois que l’on sait que la fouille de la région 1 n’a rien donné est plus grande
pour j = 2 ou 3 que la probabilité a priori, tandis qu’elle l’est moins pour la région 1.

14
2.6 Evènements indépendants
2.6.1 Indépendance de deux évènements
Jusque là, pour deux évènement E et F , le fait de savoir que F est survenu influence la
probabilité de E. dans le cas où P (E|F ) = P (E), l’évènement E est dit indépendant de
F . Plus précisément, E est indépendant de F si le fait de savoir que F est survenu ne
change pas la probabilité de E.
Du fait que P (E|F ) = P (F F )/P (F ), on voit que l’indépendance de E et F équivaut à
P (EF ) = P (E)P (F )(3.5)
Comme cette équation est symétrique en E et F , il en résulte que lorsque E est indépen-
dant de F , F l’est aussi de E. On débouche ainsi sur la définition suivante:
Deux évènements E et F sont dits indépendants si l’équation (3.5) est vérifée. Deux
évènements sont dépendanst s’ils ne sont pas indépendants.

2.6.2 Exemples
 
Exemple 1:
On tire au hasard une carte d’un paquet de 52 cartes à jouer ordinaires. Désignons par E
l’évènement « la carte tirée est un as » et par F « elle est un pique ». Alors E et F sont
indépendants. En effet, P (E ∗ F ) = 1/52 alors que P (E) = 4/52 et P (F ) = 13/52.

' 
$
Exemple 2:
On jette deux dés équilibrés. E_1 est l’évènement « la somme des dés est 6 » et F désigne
« le premier dé donne 4 ». Dans ce cas:
P (E1 F ) = P ((4, 2)) = 1/36
aloirs que
P (E1 )P (F ) = (5/36)(1/6) = 5/216
E1 et F ne sont donc pas indépendants.
Désigons maintenant par E_2 l’évènement « la somme des dés est 7 ». E_2 est-il indépen-
dant de F? La réponse est oui, car,
P (E2 F ) = P ((4, 3)) = 1/36
aloirs que
P (E2 )P (F ) = (1/6)(1/6) = 1/36
& %

2.6.3 Indépendance par rapport au complémentaire


Si E est indépendant deF , il l’est aussi de F c .
Théorème 3.2. Si E et F sont indépendants, E et F C le sont aussi.
Démonstration: Dune part E = F F ∪ EF , d’autre part EF et EF sont mutuellement
exclusifs. On peut donc écrire
P (E) = P (EF ) + P (EF )
= P (E)P (F ) + P (EF )
ou de façon équivalente,
P (EF ) = P (E)[1 − P (F )
= P (E)P (F )
CQFD.
Ainsi lorsque E est indépendant de F , la probabilité que F survienne n’est influencé ni
par l’information que F est réalisé ni par celle que F ne l’est pas.

15
2.6.4 Indépendance totale de trois évènements
Trois évènements E, F et G sont dits totalement indépendants si
P (EF G) = P (E)P (F )P (G)
P (EF ) = P (E)P (F )
P (EG) = P (E)P (G)
P (F G) = P (F )P (G)
Il faut noter aussi que lorsque E, F et G sont totalement indépendants, E sera indépen-
dant de tout évènement formé à partir de F et G. On peut le montrer pour F G par
S
exmple: S
P [E(F G)] = P (EF ∪ EG)
= P (EF ) + P (EG) − P (EF G)
= P (E)P (F ) + P (E)P (G) − P (E)P (F G)
= P (E)P (F ∪ G)

16
3 Les lois usuelles principales
3.1 La distribution de Bernouilli
On dit que X suit une une distribution de Bernouilli de paramètre  p = P (A) si X =
  0 si x60
1 p
. La fonction de répartition est définie par F (x) = q si 0 < x 6 1
0 q =1−p
1 si 1<x

Les moments de cette distribution sont :
• La moyenne : µ = E(X) = p

• La variance : σ 2 = p(1 − p)

3.2 La distribution binomiale


On définit une variable aléatoire X qui suit une loi binomiale de paramètres n et p =
P (A),caractérisée par X(Ω) = {0, 1, . . . , n} et pour k ∈ X(Ω): PX (X = k) = Cnk pk (1 −
p)n−k car Cnk est le nombre d’échantillons de taille n comportant exactement k évènements
A de probabilité pk , indépendemment de l’ordre, et donc n−k évènements A, de probabilité
(1 − p)n−k . On écrit X B(n, p).
La distribution de Bernouilli compte le nombre de succès dans une expérience aléatoire
d’une distribution binomiale.
Les moments de cette distribution sont :
• La moyenne : E(X) = np

• La variance : V ar(X) = npq

3.3 Loi de Poisson


Une v.a. suit une loi de poisson de paramètre λ > 0 si c’est une variable à valeurs
entières, X(Ω) = N, donc avec une infinité de valeurs possibles, de probabilité : PX (X =
k
k) = e−λ λk! , k ∈ N loi qui ne dépend que d’un seul paramètre réel positif, avec l’écriture
symbolique X P (λ).
Les oments de cette distribution sont :
• La moyenne : E(X) = λ

• La variance : V ar(X) = λ

3.4 La loi normale ou loi de Laplace-Gauss


C’est la loi d’une variable aléatoire X à valeurs dans R de densité
1 (x − m)2
f (x) = √ exp −
σ 2π 2σ 2

17
f(x)

0
2m−x m−S m m+S x

Figure 3.1:

qui est définie par deux paramètres, m et σ > 0 dont nous verons l’interprétation plus loin.
Propriétés:

• f (2m − x) = f (x), qui indique que le graphe de f est symétrique par rapport à la
droite verticale x = m

• (x − m)2 est miimum pour x = m

• f ”(x) = (m−x−σ)(m−x+σ)f
σ2
(x)
qui montre que f s’annule en changeant de signe pour
x = m − σ et x = m + σ, ce qui correspond à deux points d’inflexion pour le graphe
de f

• Enfin, quand x devient infini, alors f (x) → 0 donc l’axe des abscisses ets asymptote
au graphe.

Toutes ces propriétés permettent de tracer la graphe en cloche de la densité f .

18
4 De l’observation à l’information
statistique
4.1 Préliminaires
• Ce qui permet de transformer des données d’observation en information statistique,
c’est le type de structuration.

Le vocabulaire: unité ou individu statistique, caractère

• on définit comme “unité” (ou individu) l’objet, à condition qu’on en observe plusieurs.

• On définit comme “population” un ensemble d’unités (ou individus)

Un caractère...

• Un caractère est une propriété commune à tous les individus d’une population. ex-
emple, précipitations dans un ensemble de stations météorlogique, ou âge de la pop-
ulation active d’une région.

• Un caractère est un ensemble de modalités tel que, sur le caractère étudié:


– un individu présente une modalité et une seule
– tout individu de la population présente l’une des modalités du caractère

• Le travail du statisticien débute lorsqu’il met en relation l’ensemble des individus (la
population) et l’ensemble des modalités (le caractère)

• Nature des caractères: qualitatif et quantitatif

Population Caractère

1
2

+A
+B
+C

Figure 4.1: Relation entre une population et un caractère: Base de la statistique

19
Nombre par commune nombre de fréquences Fréquences
d’alimentation générale communes simples (fi ) cumulées (Fi )
0 4 0,06 0,06
1 29 0,42 0,48
2 30 0,43 0,91
3 6 0,09 1
Total 69 1,00

Table 4.1: Nombre de magasins d’alimentation générale dans les communes de 400 à 500
habitants en Languedoc-Roussillon

– Dans un caractère quantitatif, les modalités expriment les quantités (distance,


surface, nombres de pérécipitations, revenu, etc). Les modalités se traduisent
par des nombres, continu ou discret
– Dans un caractère qualitatif, les modalités traduisent des états, une catégorisa-
tion, par exemple homme/femme ou encore rivière polluée/rivière non polluée

4.2 Description d’un caractère


4.2.1 La forme d’une distribution
La forme d’une distribution
• Les graphiques décrivent mieux la forme d’une distribution, à savoir la répartition
des valeurs des individus.

• Les fréquences simples


• La fréquence (fi ) d’apparition d’une valeur ou modalité xi d’un caractère est le
rapport de l’effectif de cette valeur à l’effectif total (ou population) : fi = nni avec ni
l’effectif de la modalité i et n l’effectif total du caractère.

Exemple
Les fréquences cumulées d’une valeur X : somme des fréquences des valeurs comprises
entre le minimum et cette valeur
RemarqueLorsque la variable provient d’un échantillon, l’analyse des fréquences débouche
sur le calcul des probabilités

4.2.2 Les valeurs centrales


Les valeurs centrales

4.2.2.1 Le mode ou valeur dominante, la classe modale


Le mode et la médiane
• Le mode est la modalité qui a la plus forte densité de fréquence; il serait donc plus
judicieux de parler de “classe modale”: imprécision du concept, par exemple sur une
courbe de fréquence cumulée, c’est le secteur de plus forte pente.
• La médiane : c’est la valeur qui partage la distribution en deux sous ensembles d’égal
effectif: 50% des valeurs lui sont supérieures et 50% lui sont inférieures.

20
4.2.3 Moyenne, espérance
Moyenne et espérance

• La mesure la plus courante du centre d’une série de données est la moyenne arith-
métique de l’échantillon

• on écrit alors, pour tout xt , avec t = 1, . . . . . . , T :


T
x1 + x2+....+xT 1X
x̄ = = xt
T T
t=1

Sur le LT c’est par exemple...


t 1 2 3 4 5 0,5+2+......+6
pour alors on aura x =
x 0,5 2 1 3 6 5

• La valeure espérée d’une variable aléatoire, ou espérance, Y noté E(Y ) est la valeur
moyenne à l’issue d’expériences répétées ou occurrences. L’espérance de Y est égale-
ment sa moyenne.

Supposons que Greg veut organiser un concert en plei airvous prêtez 100F à 10%

• S’il ne pleut pas, i fait une recette de 110, mais s’il y a un risque de 1% de pleuvoir,
alors le montant de la recette est une variable aléatoire qui vaut :
– 110 avec une probabilité de 0,99
∗ 0 avec une probabilité de 0,01
– Au bout de plusieurs années d’organisation de conecrt, 99% de fois Greg fera
110 de CA et 1% de fois il ne fera pas de recette, d’où en moyenne, sa recette
sera de 110 × 0, 99 + 0 × 0, 01 = 108, 9

4.2.4 La dispersion dans la série de données et la variance


Dispersion et variance

• La dispersion peut être considérée comme l’étendu des données, à savoir la différence
entre la valeur maximale et la valeur minimale.

• La mesure la plus courante est la variance, qui permet de voir à quel degré les données
sont réparties (dispersées) autour de la moyenne arithmétique.
– La variance est l’écart moyen élevé au carré entre xt la valeur observée de la
variable X et la moyenne airthmétique de x̄ de l’échantillon.
– Une autre définition est : la variance d’une variable aléatoire X, noté var(X)
est la valeur espérée du carré de l’écart de X par rapport à sa moyenne, à savoir
E[(X − µX ) si on note µX la moyenne de X.
2


• Comme la variance implique le carré des écarts, et donc difficile à interpréter, il est
plus commode de mesurer la dispersion avec l’écart-type, qui est la racine carrée de
la variance.

21
La probabilité que notre ordinateur plante x fois est donnée par le tableau suivant
Nombre de plantage 0 1 2 3 4
distribution 0,8 0,10 0,06 0,03 0,01
distribution cumulée 1
Si x̄ = 0, 35 on aura :
var(X) = 0, 8(0 −0, 35)2 + 0, 10(1−0, 35)2 + 0, 06(2−0, 35)2 + 0, 03(3− 0, 35)2 + 0, 01(4−
0, 35)2 = 0, 6475
et l’écart-type
p :
σX = var(X) = 0, 80

4.2.5 Dépendence entre variables, co-évolution : covariance et corrélation


4.2.5.1 Covariance
Covariance

• Elle mesure le degré auquel deux variables aléatoires évoluent ensemble. La covari-
ance entre deux variables X et Y est noté E[X − µX )(Y − µY )] où µX et µY sont
les moyennes de X̄ et Ȳ respectivement.

• On note aussi, cov(X, Y ) = σX,Y = (x1 − µX )(y1 − µY ) Pr(X = x1 , Y = y1 ) + . . . . +


(xk − µX )(yl − µY ) Pr(X = xk , Y = yl ).

qui s’interprète de cette façon

• Quand X est plus grand que sa moyenne (donc X−µX positif) alors Y tend également
à être plus grand que sa moyenne µY (donc Y − µY positif);
– d’un autre côté, quand X est plus petit que sa moynne µX (donc X −µX négatif)
alors Y tend également à être plus faible que sa moyenne (donc Y − µY négatif).
– Dans ces deux cas, la produit (X − µX )(Y − µY ) est positif, ce qui montre que
les deux variables X et Y évoluent dans le même sens, la covariance est positive.
– A l’inverse, si X tend à augmenter, alors que Y tend à baisser, et vice versa,
les duex variables évoluent en sens inverse, la covariance est négative. Et enfin
quand X et Y évoluent de façon indépendante, alors la covariance est nulle.

4.2.5.2 Corrélation
Corrélation

• Etant donnée que la covariance entre X et Y est le produit de l’écart de X et de Y à


leurs moyennes respectives, il est moins aisé de l’interpréter intuitivement.

• La corrélation est une méthode alternative de mesure de la dépendance entre X et


Y, de surcroît plus simple d’interprétation.

• En divisant la covariance entre X et y par leurs écarts-type respectifs, on obtient le


coefficient de corrélation:
cov(X, Y ) σX,Y
ρX,Y = corr(X, Y ) = p p =
var(X) var(Y ) σX σY

22
Nombre d’hectares de surface Nombre d’exploittations
Surface fréquence fréquence fréquence fréquence
(ha) simple cumulée simple cumulée
[1 − 5[ 0,015 0,015 0,182 0,182
[5 − 10[ 0,028 0,043 0,118 0,300
[10 − 20[ 0,091 0,134 0,192 0,492
[20 − 50[ 0,344 0,478 0,328 0,820
50 et plus 0,656 1 0,180 1

Table 4.2: Surfaces agricoles utilisées et nombre d’exploitations

Trois cas possibles


σX,Y = 0 on dit qu’il y a absence de corrélation entre les deux variables
σX,Y = 1 il y a parfaite corrélation positive entre les deux variables
σX,Y = −1 il y a parfaite corrélation négative entre les deux variables
−1 < σX,Y < 1 cas standard, et |σX,Y | indique l’intensité de la corrélation entre X et Y.

4.2.6 La courbe de Lorenz et l’indice de concentration


• La courbe de concentration, dite courbe de Lorenz est un moyen simple de représenter
graphiquement la dispersion relative d’une variable quantitative.
• Pour construire la courbe, on porte sur un graphique une échelle identique en abscisses
et en ordonnées, gradués de 0 à 100: ce sont les pourcentages cumulées, des effectifs
en abscisses, des valeurs du caractère étudié en ordonnées.

Exemple de construction d’une courbe de Lorenz


RemarqueSi toutes les exploitations avaient la même taille de surface agricole utilisée,
la courbe de concentration serait la diagonale du carré tracé à partir de l’origine (droite
d’égalité).
La courbe
RemarqueUne courbe de concentration éloignée de la droite d’égalité, donc proche des
côtés du carré, traduit une forte concentration: dans ce cas, une part importante de la
surface agricole utilisée est détenue par un petit nombre de grandes exploitatios (Cas de
l’Amérique Latine par exemple).

4.3 Quelques principales lois statistiques


4.3.1 La loi normale de distribution statistique
La loi normale est la plus importante des lois de distribution d’une variable aléatoire
• On dit que X est un e variable aléatoire distribuée de façon normale et on note
X ∼ N (m, σ 2 ),
– on dit alors que X suit une loi normale de moyenne m et de variance σ 2 .
La densité d’une variable aléatoire est une fonction en forme de cloche
Ici on note σ = S. Comme le montre la figure, la densité normale de moyenne m et de
variance σ 2 est symétrique autour de sa moyenne avec une probabilité de 95% de se situer
entre m − 1, 96S et m + 1, 96S.
La distribution normale est dite centrée réduite si m = 0 et σ 2 = 1, on écrit alors N (0, 1)

23
fréquence cumulée
des hectares 1
de surface agricole utilisée

0,8

ité
al
ég
d’
0,6

te
oi
dr
0,4

n
tio

n
tio
tra

tra
en

en
c
on

c
on
c

ec
de

0,2
ed
ce
rfa

urb
su

co

0,2 0,4 0,6 0,8 1


fréquence cumulée
des exploitations agricoles

Figure 4.2:

95%

m−1,96S m m+1,96S

Figure 4.3: Fonction de distribution d’une loi normale

• C’est en soustrayant sa moyenne à la densité qu’elle est dite réduite, et


– C’est en divisant le résultat par l’écart-type qu’elle devient centrée.
– Concrètement, il s’agit d’une nouvelle variable aléatoire Z tel que Z = X−m
σ ∼
N (0, 1).

Supposons par exemple une variable aléatoire Y distribué selon N (1, 4) qui montre que
c’est une loi normale de moyenne 1 et de variance 4. Quelle sera la probabilité que Y ≤ 2
par exemple?
P r(Y ≤ 2) = P r 12 (Y − 1) ≤ 12 = P r Z ≤ 12 = 0, 69 = Φ(0, 5)
  

La valeur de 0,69 se lit dans les valeurs critiques de la table de la loi normale.
On peut généraliser la loi normale à plusieurs variables aléatoires, et avoir ainsi à tester
la distribution jointe de la série : on parle de distribution normale multivariée, bivarié dans
le cas de deux variables aléatoires Pour a et b deux constantes quelconques, on dira que
aX + bY ∼ N (amX + bmY ; a2 σX + b2 σY + 2abσXY )
Si une série de variables aléatoires a une distribution normale multivariée, alors la dis-
tribution marginale de chaque variable aléatoire est normale cela revient par exemple dans
le cas précédent à a = 1 et b = 0.
Si des variables aléatoires ayant une distribution normale multivariée ont des covariances
nulles, alors les variables aléatoires sont indépendentes par exemple si X et Y ont une

24
distribution normale bivariée, alors X et Y sont indépendantes.

4.3.2 Les autres lois


4.3.2.1 La loi du «Chi-deux»
loi du Khi-deux
2
• La distribution « khi-deux » (noté symboliquement χ , que l’on pronnonce “khi-deux
ou khi-carré”)
– est la distribution d’une somme de m variables aléatoires élevées au carré qui
sont toutes indépendentes, normales, centrées et réduites.
– Cette distribution dépend de m encore appelé degré de liberté de la distribution
2
χm .
– Par exemple supposons Z1 , Z2 et Z3 des variables aléatoires indépendentes,
2
normales, centrées réduites. Alors Z12 + Z22 + Z32 a une distribution χ .

• La table de distribution de la loi du Khi-deux en annexe montre  2par exemple que le 


ème 2 2 2
95 pourcentile de la distribution χ3 est 7,81, de sorte que P r Z1 + Z2 + Z3 ≤ 7, 81 =
0, 95

4.3.2.2 La loi de Fisher


2
• Il existe une variante du χ , la distribution Fm,∞ . C’est la distribution d’une variable
2
aléatoire ayant une distribution du χ divisé par m. Par exemple Z1 , Z2 et Z3 des
Z 2 +Z 2 +Z 2
variables aléatoires indépendentes, normales, centrées réduites. Alors 1 m2 3 a
une distribution Fm,∞ .

• Une sélection des pourcentiles de distribution de Fm,∞ est donnée sur une table en
ème
annexe. Par hexemple, le 95 ipourcentile de la distribution de F3,∞ est 2,60, de
Z12 +Z22 +Z32 ème
sorte que P r 3 ≤ 2, 60 = 0, 95. Le 95 pourcentile de la distribution de
ème 2
F3,∞ est le 95 pourcentile de la distribution de la distribution de χ3 divisée par 3
(à savoir 7, 81/3 = 2, 60).

4.3.2.3 La loi de distribution t de «Student»


• La distribution t de Student avec m degré de liberté est la distribution du ratio (d’une
distribution de variable aléatoires normales centrées réduites) avec la racine carrée
2
d’une variable aléatoire indépendente de distribution normale χ divisé par m.
2
• En d’autres mots, supposons Z ∼ N (0, 1), et W ∼ χ , toutes les deux indépendentes
également, alors qZW ∼ tm .
m

• Cette distribution t affiche également, comme la loi normale, une densité en forme
de cloche. Mais pour m < 20 la cloche est plus applatie.

25
5 L’estimation des paramètres d’un
caractère
A partir d’un échantillon, il existe deux façons d’estimer les paramètres d’un caractère
concernant la population mère

• Estimation ponctuelle : le paramètre calculé à partir de l’échantillon est étendu à la


population; cela vaut pour tout type d’échantillon;
– Estimation par inervalles de confiance : intervalle dans lequel le paramètre,
inconnu, a p chances sur 100 de se trouver; cela ne vaut que pour les échantillons
aléatoires

5.0.3 Le théorème central limite


Théorème central limite
On veut étudier un caractère sur une population d’effectif N

• Si ce caractère est quantitatif, il suit une distribution de moyenne m et d’écrt-type


σ.
– Quand on décide de ne pas faire l’étude sur toute la population, ces paramètres
restent toujours inconnus.

tirages avec remises d’échantillons


De la population mère d’effectif N , on extrait un échantillon aléatoire avec remise,
d’effectif n

• Sur cet échantillon, on calcule la moyenne des valeurs du caractère, noté x, et son
écart-type, noté s.
– Il est possible d’extraire de cette population-mère un grand nombre d’échantillons
de même effectif n.
– Si on calculait la moyenne pour chacun de ces échantillons, on disposerait de la
distribution de toutes les moyennes x des échantillions.
– Quand le nombre de ces échantillons tend vers l’infini et que n est assez grand (en
pratique quand n > 30), cette moyenne des moyennes d’échantillons converge
vers la moyenne du caractère sur la population-mère. On nomme cette moyenne
“l’espérance mathématique” et on note E(x).

Lorsque n est assez grand et que le nombre d’échantillons l’est également, on démontre
que la distribution des moyennes d’échantillon suit une loi normale de moyenne m et

d’écart-type σ/ n (appelé erreur-type): c’est le “théorème central limite”.

26
5.0.4 L’estimation de la moyenne par intervalles de confiance
Estimation de la moyenne par intervalle de confiance

• Dans le cas d’un tirage aléatoire, il y a deux facteurs de variation de l’erreur-type, σ


et n.

• La valeur de σ, variabilité du caractère dans la population, échappe à la volonté du


statisticien. Pour diminuer l’erreur-type, il ne peut agir que sur n.

• Puisque l’écart-type de la distribution des moyennes d’échantillon est σ/ n, plus
le n est grand, plus l’écart-type de la distribution des moyennes de l’échantillon
(l’erreur-type) est petit, puisque σ est divisé par une valeur de plus en plus forte

( n).

• Comme, d’après le théorème central limite, la distribution des moyennes d’échantillon



suit une loi normale de moyenne m et d’écart-type σ/ n, on sait que:
√ √
– 68,3% des x se trouvent dans un intervalle [x − 1σ/ n ; x + 1σ/ n]
√ √
– 95,4% des x se trouvent dans un intervalle [x − 2σ/ n ; x + 2σ/ n]
√ √
– 99,7% des x se trouvent dans un inervalle [x − 3σ/ n ; x + 3σ/ n]

• Ces intervalles sont appelés “intervalles de confiance” (pour une probabilité d’erreur
donnée).

• Cela signifie que si on calcule x sur un échantillon, la moyenne m pour la population-


mère a par exemple :
√ √
– 95 chances sur 100 de se trouver dans l’intervalle [x − 2σ/ n ; x + 2σ/ n],
– et donc 5 chances sur 100 de se trouver hors de cet intervalle.
– Ces 5 chances sur 100 représentent le “risque d’erreur” que l’on prend en estimant
m dans cet intervalle.

L’écart-type σ du caractère dans la population est inconnu. Les statisticiens considèrent


que, si l’effectif de l’échantillo est assez grand (en pratique si n > 30), l’écart-type de
l’échantillon, s, est le meilleur estimateur possible de σ, écart-type inconnu du caractère
dans la population-mère.
Exemple, On veut estimer la supperficie moyenne des 2200 propriétés foncières d’une
région

• On a tiré un échantillon aléatoire avec remise de n = 220 propriétés.


– La moyenne de l’échantillon, x, est de 44ha, et l’écart-type, s, est de 10ha.
∗ On peut donc dire que la superficie moyenne des 2200 propriétés a
· 68 chances sur 100 de se trouver entre 44-0,67 et 44+0,67, c’est à dire
entre 43,3 et 44,7 ha, et
· 95 chances sur 100 de se trouver entre 44-1,3 et 44+1,3, c’est à dire enre
42,7 et 45,3 ha.
∗ On dit que, au risque d’erreur de 0,05 (ou 5%), la superficie moyenne des
propriétés foncières de la région se situe entre 42,7 et 45,3 ha.

27
5.1 Séries chronologiques ou séries temporelles
5.1.1 Présentation générale
Les séries chronologiques sont caractérisées par des variables qui évoluent avec le temps,
on parle des modèles dynamiques. L’exemple le plus évident sont les données financières,
comme les indices boursiers ou l’évolution des titres financiers, qui varient d’un instant à
l’autre à la minute ou à la seconde près. Le découpage temporel, (seconde, minute, heure,
jour, semaine ou années) dépend de la disponibilité des données et donc de leurs sources.
Il dépend aussi de l’utilisation que l’on voudrait en faire, et donc du choix du problème
économique ou financier à traiter.
Les séries temporelles reposent sur la notion clés selon laquelle l’information contenue
dans les valeurs passées de la variable yt est nécessaire pour la prévision des valeurs futures,
d’où l’écriture:
yt = θyt−1 + δ + et
De façon générale, y pourrait dépendre non pas seulement de y, mais aussi de y, y et
ainsi de suite. Pour représenter ce raisonnement plus général, on peut écrire:

yt = δ + θ1 yt−1 + θ2 yt−2 + . . . . + θp yt−p + et

où δ représente l’ordonnée à l’origine. Ce type de modèle est qualifié de modèle autorégressif


d’ordre p , on écrit AR(p).
L’estimation se fait comme dans le modèle standard. Cependant, les principaux prob-
lèmes liés à la manipulation de ces séries sont de trois ordres :

• L’autoregression : de façon générale, dans la série les données, l’état de la variable à


une période précise dépend de son état à la période précédente et influence l’évolution
à la période suivante.

• L’autocorrélation : il y a autocorrélation entre variables quand celles-ci sont dépen-


dantes les unes des autres par une fonction de corrélation qui est très souvent linéaire.
Les séries financières sont très souvent sujettes à ce phénomène.

• Tendance, volatilité et cointégration

5.1.2 Différences premières, logarithme et taux de croissance


• Le retard d’orde 1 d’une série temporelle Y est Y , alors que le retard d’ordre j est Y

• La différencielle 1ere d’une série temporelle, noté ∆Y est sa variation entre les deux
périodes t − 1 et t, c’est-à-dire ∆Y = Yt − Yt−1

• La différencielle 1ere du logarithme de Y est ∆ ln(Y ) − ln(Yt−1 )

• Le pourcentage de variation d’une série temporelle Y entre deux périodes t − 1 et t


est approximativement 100∆ ln(Y ), où l’approximation est d’autant plus précise que
le pourcentage de variation est petit.

Les principaux problèmes liés à la manipulation de ces séries sont de trois ordres :

• L’autoregression : de façon générale, dans la série les données, l’état de la variable à


une période précise dépend de son état à la période précédente et influence l’évolution
à la période suivante.

28
• L’autocorrélation : il y a autocorrélation entre variables quand celles-ci sont dépen-
dentes les unes des autres par une fonction de corrélation qui est très souvent linéaire.
Les séries financières sont très souvent sujettes à ce phénomène, à savoir que le résidu
est souvent autocorrelé. Dans le modèle précédent:

e = ρet−1 + µt

en substituant cette relation dans la première équation yt = θ1 yt−1 + δ + et on a:

yt = θ1 yt−1 + δ + ρet−1 + µt

sachant que et−1 influence y selon la première équation, on a une violation de


l’hypothèse selon laquelle les variables explicatives doivent être indépendantes: on
dit que l’estimateur est biaisé.

Rappel: le test de Durbin Watson permet de tester cette autocorrélation des résidus.
Remarque:

• L’autocorrélation d’ordre j d’une série temporelle Y est la corrélation entre Y et Y


et on note:
cov(Yt , Yt−j )
ρj = corr(Yt , Yt−j ) = p
var(Yt )var(Yt−j )

• Le coefficient de la j eme autocorrélation est parfois appelé j eme corrélation de série

Autocovariance : L’autocovariance d’ordre j d’une série temporelle Y est la covariance


entre Y et son j ‘eme retard Y , à savoir:

autocovariance d0 ordre j = cov(Yt , Yt−j )

5.1.3 Tendance volatilité et cointégration


On appelle tendance un mouvement de variable persistant à long terme
On appelle volatilité l’évolution erratique, ou encore fluctuations, de la série temporelles
Quand les fluctuations sont explosives, on parle de non stationnarité . Dans le modèle
AR(1) précédent par exemple, yt = θyt−1 + δ + et , cela signifie que |θ| > 1, alors que quand
|θ| < 1 la série est dite stationnaire.
On parle de marche aléatoire quand θ = 1: la valeur espérée de y ne converge vers
aucune valeur, ce qui montre sa non stationnarité. On parle aussi de racine unitaire. Au
total, une série temporelle qui a une racine unitaire suit également une marche aléatoire,
on dit alors également qu’elle est non stationnaire.
Lorsque plusieurs séries sont elles-mêmes non stationnaires, mais qu’une combinaison
linéaire entre elles produisent des nouvelles séries stationnaires, on dit qu’il y a cointégra-
tion. Il existe un module de R consacré au traitement des données financières.

5.1.4 Les différents test sur les séries temporelles


1. Test d’autocorrélation des résidus: voir test de Durbin-Watson

2. Test de racine unitaire: Dickey-Fuller

Le principe du test de DF est fondé sur l’idée de savaoir si |θ| < 1

1. on fait la transformation: (y − yt−1 ) = (θ1 − 1)yt−1 + et

29
2. on définit ∆y = (yt − yt−1 ) et β = (θ1 − 1)

3. de sorte que ∆yt = βyt−1 + et

4. l’hypothèse nulle est que y possède une racine unitaire, à savoir θ = 1 ce qui revient
àβ=0

5. de sorte que le test d’hypothèse est :

H0 : β = 0

H1 : β < 1

5.1.5 Racine unitaire et cointégration


on ne peut pas s’attendre à ce que les résultats asymptotiques s’appliquent si une quel-
conque variable dans un modèle de régression est générée par un processus non stationnaire.
Par exemple, dans le cas du mod‘ele de régression linéaire y = βX+u, les résultats habituels
−1 T
dépendent de l’hypothèse selon laquelle la matrice n X X tend vers une matrice finie,
définie positive lorsque la taille de l’échantillon n tend vers l’infini.
Lorsque cette hypothèse n’est pas vérifiée, des phénomènes extrêmement étranges peu-
vent survenir. Cela constitue un problème pratique sérieux, dans la mesure où un grand
nombre de séries temporelles manifestent une tendance croissante à travers le temps, et
semblent par conséquent enfreindre cette hypothèse. Les deux moyens qui permettent de
conserver l’hypothèse valide lorsque l’on emploie de telles séries consistent à éliminer la
tendance ou à calculer les différences premières avant de les manipuler.
Mais l’élimination de la tendance et le calcul des différences premières sont en réalité
des opérations radicalement opposées: si la première est appropriée, la seconde ne l’est
pas, et vice versa. Eliminer la tendance d’une série temporelle yt sera pertinent si elle est
stationnaire autour d’une tendance, ce qui implique que l’on peut écrire le DGP pour yt
sous la forme
yt = γ0 + γt t + ut
où t est une tendance temporelle et où ut obéit à un processus ARMA1 stationnaire.
Alternativement, le calcul des différences sera pertinent lorsque le DGP pour yt peut s’écrire
sous la forme
yt = γ1 + yt−1 + ut
où ut suit également un processus ARMA stationnaire. Si les ut étaient non autocorrélés,
yt = γ0 + yt−1 + ut serait une marche aléatoire avec dérive, le paramètre de dérive étant
γ1 . Quoi qu’il en soit, les aléas seront autocorrélés, en général. Comme nous le verrons
prochainement, le fait que le paramètre γ1 apparaisse à la fois dans yt = γ0 + γt t + ut et
yt = γ0 + yt−1 + ut ne relève absolument pas du hasard. Le choix entre l’élimination de
la tendance et le calcul des différences se ramène à un choix entre les deux équations. Les
principales techniques de choix entre les deux sont des tests variés de ce que l’on appelle
les racines unitaires.

1
Auto Régressif Moyenne Mobile

30
ANNEXE

31
L’essentiel des commandes R pour les statistiques et l’économétrie
Boyabé Jean Bernard

Introduction
R est un langage et en même temps un environnement de traitements statistique et
économétrique des données. Il fait partie des logiciels dits « libres » (GNU/GPL) en raison
de sa gratuité et surtout du fait que le noyau est ouvert au développement communautaire.
R est une suite intégrée de logiciels nécessaires à la manipulation de données, aux calculs
numériques et à la repésentation graphique de fonctions.

Installation
R est un logiciel “libre” que l’on peut de plus télécharger et installer gratuitement sur
différents systèmes d’exploitations. Il peut être ainsi installé aussi bien sous Mac que
sous PC équipée du système Linux ou de windows. La version windows présente un in-
terface graphique qui peut apparaître plus aisé pour ceux qui sont adeptes de ce système
d’exploitation. La version sous Linux en revanche repose sur le système classique de ligne
de commande. Toutefois, il est possible d’avoir la version gui sous linux, qui possède égale-
ment un interface graphique à la windows. Pour l’installation sur les différents système,
voir : http://cran.r-project.org/

Préliminaires
Sous Lnux, il est conseillé de suivre les étapes suivantes au départ:
créer un sous répertoire de travail, disons work au départ dans lequel les données sront
stockées.
> mkdir work
> cd work
Démarrer R à partir de ce répertoire:
> R
A ce niveau, les commandes de R peuvent fonctionner. Pour avoir de l’aide par exemple
sur la commande solve :
> help(solve)
Pour quitter R:
> q()
sous Windows, la procédure est relativement classique:
lancer R à partir de son icône
créer également un repertoire de travail pour stocker les données
aller dans le menu pour lui indiquer ce repertoire de travail

Précisions
Dans son langage, R regarde tout en objet. Que ce soit une série de données, une matrice,
le résultat d’une régression, un graphique, tout est objet. Un ou plusieurs objets peuvent
être sauvegardés dans un fichier. Un tel fichier R-data qui contient les objets sauvegardés
n’est pas un ibjet en soit mais plutôt une série d’objets.

32
Aussi, toutes les commandes utilisés pour manipuler les objets sont des fonctions. La
commande summary(regresion1) par exemple implémente quelquechose à l’objet “regres-
sion1”, en l’occurrence présente de façon détaillée l’essentiel des résultats d’une régression
linéaire dans le cas où la commande effectuant la régression y a renvoyé les résultats..

Simples manipulations des nombres et des vecteurs


Structures de données
R fonctionne avec des “structures de données”. La structure la plus simple est un “vecteur
numérique”. Pour créer un vecteur “v” de nombres 3, 6, 2, 4.1, 8, par exemple:
> v <- c(3, 6, 2, 4.1, 8)
qui signifie que l’on “assigne” à v les nombres ci-dessus du vecteur grâce à l’opérateur
<-, où c est une fonction de R à ce propos.
Une autre alternative:
> assign(v, c(3, 6, 2, 4.1, 8))
ou
> c(3, 6, 2, 4.1, 8) -> v
>v1<-c(“Jean”,”Laurent”,”Pierre”)
>v2<-c(12,10,16)
>V<-cbind(v1,v2) #crée un vecteur V avec v1 et v2
>table<-data.frame(v1,v2) #crée un tableau de données avec v1 et v2 comme colonnes
Les commande “class” et “mode” permettent d’afficher le type de donnés contenu dans
une variable
>class(v1)
>mode(v1)
On peut également demander à R de dire si un objet est de type numérique, alphanumérique
ou facteur.
>is.numeric(x) #renvoir FALSE ou TRUE
>is.factor(v1) #renvoie FALSE ou TRUE
>length(table) #donne le nombre d’obeservations dans un table de données contenues
dans “table”
>dim(table) #donne en revanche l’information collonne×lignes
Il est possible de demander à R de calculer les différentielles d’une série de données.
>facture<-c(5,12,3,8)
>dfacture<-diff(facture) #calcule la différentielle de la série et donne -7, 9 et -5
Il est également possible de calculer les sommes cumulées. Soit un vecteur V de valeurs
nulériques
>Vcumul<-cumsum(V) #calcule les sommes cumulés des valeurs du vecteur V et le renvoie
dans le nouvel objet vecteur Vcumul

Arithmétique
Les veceturs peuvent être manipulés arithmétiquement, de sorte que les opérations sont
réalisées élément après élément. La commande ci-dessous génère un vecteur “w” de dimen-
sion 11 construite en additionnant ces éléments:
> w <- 2*v+y+1
La commande length(v) donne le nombre d’éléments du vecteur v, alors que sum(v)
donne la somme de ces éléments, tandis que prod (v)en donne les produits. Par exemple:
2
> sum(v-mean(v)) )/(lentgh(v)-1) # permet de calculer la variance de l’échantillon.

33
Voici un exemple montrant comment dans R on peut indicer une série à partir une valeur
initiale fixée à l’avance.
>m<-c(2,6,3,7,9,3,6,2,0,7,1)
>day<-5
>mean(m[day:(day+4)]) #calcule la moyenne des éléments de m allant de la cinquième
position à la neuvième position.

Les commandes utiles


' $
Commandes à utiliser fréquemment
>getwd() #précise le chemin du repertoire de travail
>ls() #affiche la liste des objets
>ls.str() #affiche la liste complète des objets
>hist(x,freq=TRUE) #réalise l’histograme de l’objet x
>names(mydata) #affiche la liste des objets dans mydata, par exemple les noms des
colonne
Remarque: ne jamais introduire les caractères “_” ou “-” dans les noms d’objet, il vaut
mieux “.”, par exemple “my.object” au lieu de “my-object”
& %

Importer et lire des données


La commande read.table()
Cette commande permet d’importer des données sous forme de tableau, à partir de fichiers
externes sous différents formats. L’exemple le plus simple est un fichier avec l’extension
.txt ou texte unicode. La commande ci-dessus permet d’importer et de lire le fichier
“donnees.txt” et de l’assigner à l’objet dont vous pouvez choisir le nom, comme par exemple
ici mydata :
> mydata <- read.table(donnees.txt, header = TRUE)
L’argument header = TRUE indique que la première ligne du tableau représente les
noms
des variables/colones. 
Afficher un objet tel qu’n tableau dans un éditeur
>data.entry(mydata) #édite le tableau “mydata” dans un pop-up éditeur de données


Le symbole $ permet d’identifier la variable dans le tableau: imaginons une collone
représentant la variable salaire dans le tableau mydata, on peut afficher cette colonne avec:
> mydata$salaire
Cela permet de manipuler directement la variable en question. Par exemple, il est
possible de créer une nouvelle colonne et donc une nouvelle variable en élevant au carré la
série sur le salaire. Si on appelle salairesq cette nouvelle variable:
2
> salairesq <- (mydata$salaire)
On peut affecter la nouvelle variable au nouveau tableau mydata
2
>mydata$salairesq<-(mydata$salaire)
Une nouvelle colonne s’ajoute alors à la table mydata, colonne contenant la nouvelle
variable crée, à savoir le salaire élevé au carré.

34
' $
Astuces
Immaginons que vous voulez remplacer dans mydata tous les salaires inférieurs à 100 par
zéro ety que vous vous voulez l’affecter à une nouvelle variable dite slairesup:
>mydata$salairesup<-mydata$salaire #qui permet de créer une nouvelle variable partir de
salaire
>mydata$salairesup<-replace(mydata$salaire < +100, 0) #remplace toutes la valeurs de
mydata$salairesup qui sont inférieurs à 100 par 0
>mydata$salairesup<-NULL #qui permet de détruire la nouvelle colonne
On peut sauver un objet dans un environnement de travail de type .rda
>save(lnm,file=”mywork.rda”) #permet de sauver l’objet lnm dans mywork.rda
& %

La commande scan
Cette commande permet de manipuler de très gros fichiers de données, dans la mesure où
elle permet de mieux gérer la mémoire de l’ordinateur que la commande read.table()

Les statistiques de base


Supposons que l’on ait comme précédemment importé notre tableau et que l’on ait pu le
faire lire par R avec la création de l’objet “mydata”, avec les vriables var1, var2, etc.
Il est possible de faire les statistiques de base sur les différentes variables. Voici quelques
exemples :
>mean(mydata$salaire) #calcule la moyenne de la variable salaire contenue dans my-
data
>median(mydata$salaire) #calcule la médiane de la variable salaire contenue dans
mydata
>sd(mydata$salaire) #calcule l’écart-type
>max(salaire,data=mydata) #trouve la valeur maximale de la variable salaire
>min(salaire, data=mydata) #trouve la valeur minimale de la variable salaire
#
Les commandes “attach” et “detach” permettent de préciser les objets qui sont sollicités
par défaut.
>attach(mydata) #le tableau “mydata” sera sollicité par défaut
>mean(salaire) # grâce à attach, on peut calculer ainsi directement la moyenne des
salaires sans invoquer “mydata”
" !

Les graphiques
R offre de nombreuses possibilités de générer des graphiques, plus ou moins sophistiqués.
Prenons deux vecteurs x et y
>plot(x) #effectue le graphique de x
>plot(mydata,[,3],col=”red”,xlab=”temps”,ylab=”cours business object” #permet de représen-
ter graphiquement la troisième colonne du tableau “mydata”
>matrice<-cbind(y,x) #crée une matrice m avec deux colonnes y et x par exemple
>matplot(matrice) #représente les vecteurs x et y sur le même graphique
Supposons que les vecteurs soient de dimension n = 10
>plot(seq(10),matrice,type=”l”) #représente les colonnes de matrice sur le même
graphique, avec les même échelles, seq(10), en traçant les lignes, type=”l”
On peut faire des graphiques sophistiqués
Les commandes qui vont suivre nécessite les packages:
>libray(base)

35
>library(grids)
>library(lattice)
>library(ggplot)
' $
Un exemple: prenons deux vecteurs date et count
>par(bg = "darkgrey", fg = "white", lwd = 2)#crée le cadre à fond gris et
traits blancs
>plot(date, count, pch = 20, cex = 2, col = "white", xlab = "machin machin
...", ylab = "truc truc ...", main = "essai de graphique JB") #effectue le
graphe
>points(date[18], count[18], pch = 20, col = "yellow", cex = 2)
>text(date[18], count[18], pos = 2, label = "6 Avril 2011", col = "yellow")
&>lines(lowess(date, count), col = 2, lwd = 2) %

essai de graphique JB
5
4
trcu truc...

3
2
1

9 10 11 12 13

machin machin ...

Autres commandes d’affichages graphiques: plusieus graphiques sur la même figure


> # figures arranged in 2 rows and 2 columns
>attach(mtcars) par(mfrow=c(2,2)) plot(wt,mpg, main="Scatterplot of wt vs.
mpg")
>plot(wt,disp, main="Scatterplot of wt vs disp")
>hist(wt, main="Histogram of wt")
>boxplot(wt, main="Boxplot of wt")

Regressions
MMCO
C’est la commande lm() qui permet d’effectuer les régressions par la méthode des moindres
carrées ordinaires. Immaginons que l’on veuille regresser le salire en fonction de l’âge et
de l’expérience:
> lm(mydata$salaire mydta$age + mydata$exper)
ou encore
> lm(salaire ∼ age + exper,data=mydata)

36
permet d’estimer donc la relation:

salaire = β0 + β2 age + β3 exper + 

On peut stocker le résultat de la régression dans l’objet resultat :


> resultat <- lm(salaire ∼ age + exper,data=mydata)
La commande summary permet d’afficher les informations les plus importantes du ré-
sultat de la régression:
> summary(resultat)

Extraire des statistiques de la régression


Les statistiques les paramètres les plus importants de la régression sont stockés dans l’objet
lm ou summary.
> output <- summary(resultat)
> SCR <- deviance(resultat)
> logvraiss <- lobLik(resultat)
> DegreLiberte <- resultat$df
> Ychapeau <- resultat$fitted.values
> Coef <- resultats$coefficients
> residus <- resultat$residuals
> S <- output$sigma
> Rcarre <- output$r.squared
> MatriceCov <- s^2*output$cov
> aic <- AIC(resultat)

Effectuer quelques tests


1. Le test de Durbin Watson : il faudrait s’assurer que le package lmtest soit
présent et chargé dans R. Sinon, il est nécessaire d’aller le télécharger dans un site
miroir. Une fois le package installé et chargé, on peut lancer le test sur la régression
précédente avec la commande dwtest:
>dwtest(resultat)
# voici ce que l’on obtient par exemple
Durbin-Watson test
data: reg1
DW = 0.0617, p-value < 2.2e-16
alternative hypothesis: true autocorrelation is greater than 0

2. Le test de Breusch-Pagan : On peut lancer le test à l’aide de la comande bptest.


>bptest(resultat)
# voici ce que l’on obtient:
studentized Breusch-Pagan test
data: reg1 BP = 0.8592, df = 1, p-value = 0.354

37
Bibliographie
1. Sheldon Ross (2013), “A First Course in Probability: International Edition”, Pearson

2. Statistique et probabilité : manuel et exercices corrigés / Jean-Pierre Lecoutre. - 2e


ed.. - Paris : Dunod, 2003 . - 290 p. EcoSup

3. Masiéri Walter, “Statistique et calcul des probabilités”, Dalloz, 2001

4. Lecoutre Jean-Pierre, “Statitiues et probabilités: Manuel et exercices corrigés”, Dunod,


4e ed., 2009.

38