Académique Documents
Professionnel Documents
Culture Documents
MAT350
Probabilités et statistiques
Résumé de la matière
Ce document est mis à disposition selon les termes de la licence Creative Commons
Attribution - Pas d’utilisation commerciale - Pas de modification 4.0 International.
Table des matières
1 PREMIÈRE PARTIE 1
1.1 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Variables aléatoires dicrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 DEUXIÈME PARTIE 19
2.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Index 39
iii
Partie 1
PREMIÈRE PARTIE
Définition 1.1 Une unité statistique est une unité d’observation ou de mesure pour
laquelle des données sont recueillies ou dérivées. Par exemple, lorsqu’on fait un sondage
dans une certaine population, les unités statistiques sont les invididus qui forment cette
population.
Définition 1.2 Une variable est une caractéristique d’une unité statistique qui peut
prendre différentes valeurs pour différentes unités statistiques.
Définition 1.3 Les modalités sont les différentes valeurs qu’une variable peut prendre.
Définition 1.4 La nature d’une variable dépend de la façon dont elle est observée. Les
différentes possibilités sont :
1. Variable qualitative : lorsqu’elle classe les unités statistiques dans un groupe ou une
catégorie
• Nominale : les groupes ne sont pas ordonnés
• Ordinale : les groupes sont ordonnés
2. Variable quantitative : lorsque les modalités de la variable sont numériques et qu’elles
correspondent à des quantités (pas uniquement un code numérique arbitraire)
• Discrète : les modalités sont dénombrables
• Continue : les modalités sont définies sur un intervalle continu
1
2 PARTIE 1. PREMIÈRE PARTIE
En résumé :
Variable
Qualitative Quantitative
k = 1 + log2 n
Nature de Tableaux
Graphiques Tendance Dispersion
la variable de Autres mesures
centrale
fréquences
Quantitative
Données Diagramme à bâtons
discrète
groupées Courbe de fréquences
avec
par valeurs cumulées
k < 15*
Boîte à moustaches Cote Z
Étendue Quantiles
Mode Variance Coefficient de variation
Quantitative Médiane Écart-type Coefficient d’asymétrie
Données Histogramme
discrète Moyenne IQR (skewness)
groupées en Polygone de fréquences
avec Coefficient d’aplatissement
classes Courbe de fréquences
k ≥ 15* (kurtosis)
cumulées
Boîte à moustaches
Données Histogramme
Quantitative
groupées en Polygone de fréquences
continue
classes Courbe de fréquences
cumulées
3
Boîte à moustaches
* Où k = nombre de valeurs différentes observées pour la variable. Il ne s’agit que d’une valeur suggérée. D’autres choix peuvent
être tout-à-fait acceptables selon le contexte.
Tableau 1.2 Résumé pour le calcul des mesures échantillonnales de tendance centrale, de dispersion et de position
4
Calcul des mesures échantillonnales
Données en vrac Données groupées par valeur Données groupées en classes
Écart- "!
k (vi −x̄)2 ni
"!
k (mi −x̄)2 ni
s= s#
"!
type s=
n (xi−x̄)2 i=1 n−1 i=1 n−1
i=1 n−1
Mesures de position
On ramène le quantile à son centile correspondant Ci . On ramène le quantile à son centile correspondant Ci .
Méthode graphique :
Si (i% · n) est un entier, le quantile est la moyenne on utilise la courbe des fréquences cumulées
Quantiles
entre la (i% · n)e observation et la suivante. Méthode analytique :
∗
Ci # Ai + (i%·n−F ni
)
· (Bi − Ai )
Si (i% · n) n’est pas un entier, le quantile est
où
l’observation dont le rang est l’entier qui suit (i% · n).
[Ai , Bi ] : bornes de la classe qui contient le quantile
ni : l’effectif de la classe [Ai , Bi ]
F ∗ : somme des effectifs des classes prédédant la classe [Ai , Bi ]
n : nombre total d’observations
x−x̄ x−x̄
Cote Z z= s
z# s
1.1. STATISTIQUES DESCRIPTIVES
Tableau 1.3 Résumé pour le calcul des autres mesures échantillonnales et la boîte à moustaches
Autres mesures
Coefficient !n !k !k
n i=1 (xi −x̄)3 n (vi −x̄)3 ni n (mi −x̄)3 ni
d’asymétrie s3 = s3 = i=1
s3 # i=1
(n−1)(n−2)s3 (n−1)(n−2)s3 (n−1)(n−2)s3
(skewness)
Coefficient
d’aplatis-
!n !k !k
n(n+1) i=1 (xi −x̄)4 3(n−1)2 n(n+1) i=1 (vi −x̄)4 ni 2
3(n−1) n(n+1) i=1 (mi −x̄)4 ni 2
3(n−1)
sement s4 = (n−1)(n−2)(n−3)s4
− (n−2)(n−3) s4 = (n−1)(n−2)(n−3)s4
− (n−2)(n−3) s4 # (n−1)(n−2)(n−3)s4
− (n−2)(n−3)
(kurtosis)
Coefficient s s
· 100%
cv = · 100% cv # x̄
de variation x̄
Vérification de la normalité
On calcule d’abord les coefficients d’asymétrie et d’aplatissement standardisés : s3(sd) = √s3 et s4(sd) = √ s4
6/n 24/n
On peut considérer que les données se distribuent selon une loi normale si s3(sd) ∈ [−2, 2] et s4(sd) ∈ [−2, 2].
+
Toute donnée à l’extérieur de l’intervalle [Li , Ls ]
est considérée comme extravagante. Données extravagantes
5
6 PARTIE 1. PREMIÈRE PARTIE
1.2 Probabilités
Formules de dénombrement
n! = n(n − 1)(n − 2) · · · 2 · 1
n!
Ckn =
k! · (n − k)!
n!
Ank =
(n − k)!
1.2. PROBABILITÉS 7
Axiomes de P (Ω) = 1
base
P (∅) = 0
Probabilité du
P (AC ) = 1 − P (A)
complément
Probabilité de
P (A − B) = P (A ∩ B C ) = P (A) − P (A ∩ B)
la différence
Probabilité P (A∩B)
conditionnelle P (A|B) = P (B)
Règles de Bayes !n !n
•P (B) = i=1 P (B ∩ Ai ) = i=1 P (Ai ) · P (B|Ai )
(diagramme en
arbre) P (Ak ∩B)
•P (Ak |B) = P (B) = !nP (APk(A
)·P (B|Ak )
)·P (B|A
i i)
i=1
Supposons des composants d’un système indépendants les uns des autres. Le tableau
suivant présente les deux principales structures qu’on retrouve dans un système ainsi que les
formules pour en calculer la fiabilité.
Composants en série
Composants en parallèle
A Fiabilité = P (A ∪ B)
= P (A) + P (B) − P (A) · P (B)
Définition 1.5 Soit X une variable aléatoire discrète, son support DX , et sa fonction de
masse pX (x). La fonction de répartition de X est donnée par :
#
FX (x) = P (X ≤ x) = P (X = t)
t≤x
Application utile :
P (a < X ≤ b) = FX (b) − FX (a)
Définition 1.6 Soit X et Y deux variables aléatoires discrètes avec supports respectifs DX
et DY . La fonction de masse conjointe de X et Y est donnée par :
pX,Y (x, y) = P (X = x, Y = y) ∀ x ∈ DX et ∀ y ∈ DY .
Définition 1.7 Soit X et Y deux variables aléatoires discrètes avec supports respectifs DX
et DY et leur fonction de masse conjointe, pX,Y (x, y).On a alors
1. la fonction de masse marginale de X est donnée par :
#
pX (x) = pX,Y (x, y)
DY
Définition 1.8 Soit X et Y deux variables aléatoires discrètes et leur fonction de masse
conjointe, pX,Y (x, y). La fonction de masse conditionnelle de X étant donné Y est
alors donnée par
pX,Y (x, y)
pX|Y (x|y) = P (X = x|Y = y) = .
pY (y)
10 PARTIE 1. PREMIÈRE PARTIE
Définition 1.9 Soit X et Y deux variables aléatoires discrètes avec leurs supports DX et
DY , leurs fonctions de masse marginales pX (x) et pY (y) et leur fonction de masse conjointe,
pX,Y (x, y). Les variables aléatoires X et Y sont indépendantes si et seulement si
Définition 1.10 Soit X une variable aléatoire discrète, son support DX et sa fonction de
masse pX (x). Alors
1. L’espérance de X est donnée par
#
µ = E(X) = x · pX (x) (1.1)
x∈DX
ou de façon équivalente
Propriétés de l’espérance
Propriétés de la variance
1. Si les variables sont dépendantes, on doit alors introduire une composante de covariance dans le calcul.
On obtient alors V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) où Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))].
12 PARTIE 1. PREMIÈRE PARTIE
Théorème 1.1 Deux cas particuliers très importants découlent des propriétés 1.5 à 1.10 :
1. Soit une variable aléatoire X telle que E(X) = µ et V ar(X) = σ 2 . Si on considère la
transformation linéaire Z = X−µ
σ (la cote Z de X), on a alors
E(Z) = 0 et V ar(Z) = 1
σ2
E(X̄) = µ et V ar(X̄) =
n
Tableau 1.5 Principales caractéristiques des modèles discrets
1−p si x = 0
&
Bernoulli X~Bernoulli(p) {0, 1} pX (x) =
p p(1 − p)
p si x = 1
e−λ λx
Poisson X~P (λ) {0, 1, . . .} pX (x) = λ λ
x!
N2
CxN1 Cn−x np np(1 − p) (N −n)
Hypergéométrique X~Hpg(n, N1 , N2 ) {max(0, n − N2 ), . . . , pX (x) = (N −1)
min(n, N1 )} CnN
N1
où p = N où p = N1
N
P (X ≥ x) = (1 − p)x−1
13
14 PARTIE 1. PREMIÈRE PARTIE
Autrement dit, P (a ≤ X ≤ b) est l’aire sous la densité entre a et b. Voici une illustration :
fX (x)
a b x
Définition 1.12 Soit X une variable aléatoire continue, son support CX , et sa densité
fX (x). La fonction de répartition de X est donnée par :
' x
FX (x) = P (X ≤ x) = fX (t)dt
−∞
Définition 1.13 Soit X et Y deux variables aléatoires continues avec supports respectifs
CX et CY . La fonction de répartition conjointe de X et Y est donnée par :
FX,Y (x, y) = P (X ≤ x, Y ≤ y) ∀ x ∈ CX et ∀ y ∈ CY .
Définition 1.14 Soit X et Y deux variables aléatoires continues avec supports respectifs
CX et CY . La fonction de densité conjointe de X et Y est donnée par a :
∂2
fX,Y (x, y) = FX,Y (x, y).
∂x∂y
dFX (x)
a. C’est la généralisation au cas de deux variables du fait que fX (x) = dx
.
1.3. VARIABLES ALÉATOIRES 15
Définition 1.15 Soit X et Y deux variables aléatoires continues avec supports respectifs
CX et CY et leur fonction de densité conjointe, fX,Y (x, y). On a alors
1. la fonction de densité marginale de X est donnée par :
'
fX (x) = fX,Y (x, y)dy
CY
Définition 1.16 Soit X et Y deux variables aléatoires continues et leur fonction de densité
conjointe, fX,Y (x, y). La fonction de densité conditionnelle de X étant donné Y est
alors donnée par
fX,Y (x, y)
fX|Y (x|y) = avec fY (y) > 0.
fY (y)
Définition 1.17 Soit X et Y deux variables aléatoires continue avec leurs supports CX et
CY , leurs fonctions de densité marginales fX (x) et fY (y) et leur fonction de densité conjointe,
fX,Y (x, y). Les variables aléatoires X et Y sont indépendantes si et seulement si
Définition 1.18 Soit X une variable aléatoire continue, son support CX et sa densité
fX (x). Alors
1. l’espérance de X est donnée par
'
µ = E(X) = x · fX (x)dx (1.11)
CX
ou de façon équivalente
'
σ 2 = V ar(X) = x2 · fX (x)dx − µ2 = E(X 2 ) − µ2 (1.14)
CX
aX ± b ∼ N (aµ ± b , a2 σ 2 ) (1.15)
X −µ
Si X ∼ N (µ, σ 2 ) alors Z = ∼ N (0, 1)
σ
σ2
X̄ ∼ N (µ, )
n
σ2
X̄ ≈ N (µ , )
n
Si des événements se produisent selon une loi de Poisson, X ∼ P (λ), alors le temps qui
s’écoule entre 2 réalisations de ces événements est distribué selon une loi exponentielle
de moyenne θ = λ1 , Y ∼ Exp( λ1 ).
1
si a ≤ x ≤ b
&
[a, b] (b−a)2
Uniforme X~U (a, b) fX (x) = b−a
a+b
2 12
0 sinon
& 1 −x
θe
θ si x > 0
fX (x) =
Exponentielle X~Exp(θ) ]0, ∞[ 0 sinon θ θ2
−x
FX (x) = P (X ≤ x) = 1 − e θ
1
√ e− 2 ( σ )
1 x−µ 2
Normale X~N (µ, σ 2 ) ] − ∞, ∞[ fX (x) = µ σ2
σ 2π
Lois continues qui seront utilisée dans le cadre de l’inférence statistique (2e partie du cours)
( ν+1 )
Γ 2
ν
Student X~tν ] − ∞, ∞[ fX (x) = √ ( x2 ) ν+1 0 ν−2
πν Γ( ν2 ) +1 2
(ν ) * ν + ν21 ν1
ν2
1 +ν2
Γ 2 x 2 −1 1
ν2 ν2 −2 2ν22 (ν1 +ν2 −2)
Fisher X~Fν1 ,ν2 ]0, ∞[ fX (x) = * + ν1 +ν2 ν1 (ν2 −2)2 (ν2 −4)
2
ν1 ν2 ν1
Γ( 2 )Γ( 2 ) ν2 x + 1 où ν2 > 2
ν −x
x 2 −1 e 2
Khi-deux X~χ2ν ]0, ∞[ fX (x) = ν ν ν 2ν
2 2 Γ( 2 )
Partie 2
DEUXIÈME PARTIE
2.1 Estimation
Distribution de X̄
CAS 1 : σ connu
2
X̄ ≈ N (µX̄ , σX̄ )
où
µX̄ = µ
et
19