Académique Documents
Professionnel Documents
Culture Documents
1 Distributions discrètes
1.1 Bernoulli
(i). Correspond au lancer d’une seule pièce, avec probabilite p de réussite.
(ii). Tableau de probabilité :
Valeurs xi 0 1
Probabilité f (xi ) 1 − p p
(iii). Un seul paramètre : p la probabilité de réussir.
(iv). Notation : X ∼ B(p)
(v). Espérance et variance :
E(X) =p
V ar(X) = p(1 − p)
1.2 Binomiale
(i). Correspond au nombre de réussites dans un lancer de m pièces de manière indépendante,
avec probabilite p de réussite pour un lancer.
(ii). Fonction de masse, pour xi ∈ 0, 1 . . . m :
m xi
f (xi ) = p (1 − p)m−xi
xi
(iii). Deux paramètres : le nombre total de lancer m, et p la probabilité de réussir un lancer.
(iv). Notation : X ∼ B(m, p)
(v). Espérance et variance :
E(X) = mp
V ar(X) = mp(1 − p)
(vi). Le cas m = 1 correspond à une variable de Bernoulli.
(vii). Si m grand et p petit, on peut faire l’approximation :
.
X ∼ P oiss(λ = mp)
Ce résultat est parfois appelé la loi des petits nombres.
1.3 Poisson
(i). Utile pour modéliser le nombre d’évènements qui ont lieu pendant une période.
(ii). Fonction de masse, pour xi ∈ 0, 1 . . . :
λxi
f (xi ) = exp(−λ)
xi !
où xi ! est la factorielle de l’entier xi .
(iii). Un paramètre : le taux λ.
EPFL Probabilités et Statistique
Automne 2017 Guillaume Dehaene
E(X) =λ
V ar(X) =λ
(vi). Les variables de Poisson sont ”stables par addition”. Si X1 ∼ P oiss(λ1 ) et X2 ∼ P oiss(λ2 )
alors :
X1 + X2 ∼ P oiss(λ1 + λ2 )
1.4 Géométrique
(i). Utile pour modéliser un temps d’attente qui ne peut prendre que des valeurs discrètes
(nombre d’échanges avant un point au tennis, nombre de jours avant un évènement, etc).
(ii). Fonction de masse, pour xi ∈ 0, 1 . . . :
f (xi ) = (1 − p)xi p
(iii). Un paramètre : la probabilité p que l’évènement ait lieu la première fois.
(iv). Notation : X ∼ Geom(p)
(v). Espérance et variance :
1−p
E(X) =
p
1−p
V ar(X) =
p2
2 Distributions continues
2.1 Gaussienne
(i). Modèle par défaut pour les variables continues.
(ii). Fonction de densité :
(x − µ)2
1
f (x) = √ exp −
σ 2π 2σ 2
(iii). Deux paramètres : la moyenne µ et la variance σ 2 .
(iv). Notation : X ∼ N (µ, σ 2 ).
(v). Espérance et variance :
E(X) = µ
V ar(X) = σ 2
(vi). Peut être utilisée pour approximer des sommes de variables IID (Théorème Central Limite).
(vii). X peut être reliée à la Gaussienne standard Z ∼ N (0, 1) par standardisation :
X = σZ + µ
(viii). La densité et la fonction de réparation de Z sont notées : φ, Φ. De nombreux languages
informatiques peuvent calculer la valeur de Φ en tout points. Ce formulaire contient un
tableau de Φ.
EPFL Probabilités et Statistique
Automne 2017 Guillaume Dehaene
2.2 Uniforme
(i). Modèle d’une variable continue qui prend une valeur entre a et b sans préférence pour aucun
sous-ensemble de l’intervalle [a, b].
(ii). Fonction de densité :
1
f (x) = 1(x ∈ [a, b])
b−a
où 1(b) est la fonction indicatrice : 1(b) = 1 si b = V RAI et 1(b) = 0 sinon.
(iii). Deux paramètres : les bords de l’intervalle a, b.
(iv). Notation : X ∼ U (a, b) ou parfois X ∼ U ([a, b]).
(v). Espérance et variance :
a+b
E(X) = 2
(b−a)2
V ar(X) = 12
2.3 Exponentielle
(i). Modèle souvent utilisé pour le temps d’attente avant un évènement.
(ii). Fonction de densité :
f (x) = λ exp(−λx)1(x ≥ 0)
(iii). Un paramètre : le taux λ.
Attention : son interprétation est inverse de celui du taux pour la variable de Poisson.
(iv). Notation : X ∼ exp(λ).
(v). Espérance et variance :
E(X) = λ−1
V ar(X) = λ−2
(vi). Si à chaque intervalle de temps dt, on a une probabilité λdt d’avoir un événement, alors le
temps d’attente avant le premier événement est une variable exponentielle de taux λ.
(vii). Une variable exponentielle est ”sans mémoire” : sa distribution ne change pas si on condi-
tionne sur le fait d’avoir déjà attendu. Si on conditionne sur l’évènement X − x0 ≥ 0 alors
la variable Y = X − x0 est exponentielle : Y | (X ≥ x0 ) ∼ exp(λ).
(viii). Les variables exponentielles sont l’équivalent continu des variables géométriques.
2.4 Student
(i). Une variable de Student à des propriétés particulières qui les font apparaitre dans les modèles
statistiques.
(ii). Fonction de densité :
− d+1
Γ( d+1 ) x2
2
f (x) = √ 2 d 1+
dπΓ( 2 ) d
(iv). La principale utilité de la variable de Student consiste à calculer la probabilité que sa valeur
soit incluse dans divers intervalles :
.
Td ∼ N (0, 1)
2.5 Gamma
(i). Une variable Gamma est une somme de plusieurs variables exponentielles.
(ii). Fonction de densité :
λk k−1
f (x) = x exp(−λx)1(x ≥ 0)
Γ(k)
où Γ(k) représente la fonction Gamma, une fonction aux propriétés remarquables que beau-
coup de languages informatiques peuvent calculer.
(iii). Deux paramètres : le taux λ et le paramètre de forme k.
(iv). Notation : X ∼ Γ(k, λ).
(v). Espérance et variance :
k
E(X) = λ
k
V ar(X) = λ2
(vi). Si à chaque intervalle de temps dt, on a une probabilité λdt d’avoir un événement, alors le
temps d’attente avant le premier événement est une variable exponentielle de taux λ. Le
temps d’attente avant le k-ème événement est une variable Γ(k, λ).
IID
(vii). Les variables Gamma sont reliées aux variables Gaussiennes. Si Xi ∼ N (0, 1) alors la
variable :
n
1X 2
S2 = X
n i=1 i
3 Modèles statistiques
n
1X
µ̂ = X̄ = Xi
n i=1
Distribution d’échantillonage :
. 1 2
µ̂ ∼ N µ, σ
n
Intervalle de confiance :
σ σ
IC = µ̂ − sα √ , µ̂ + sα √
n n
sα doit être pris dans le tableau de la Gausienne standard.
Tests et p-valeur : pour tester µ = µ0 on utilise la statistique de résumé :
x − µ0
T = ∼ N (0, 1)
√σ
n
X −µ
T = ∼ tn−1
√S
n
x − µ0
T = ∼ tn−1
√S
n
Note : on peut utiliser ces estimateurs et ces propriétés même si les données ne sont pas tout à
fait Gaussiennes. Seules les valeurs aberrantes peuvent poser problème.
ek = n · p k
Test de distribution : le seul objectif du test χ2 est de savoir si les probabilités pk donnent
un bon modèle des données. Notre hypothèse nulle est donc : les données sont distribuées avec
probabilités pk .
La statistique de test est :
k
X (oi − ei )2
T =
i=1
ei
Cette statistique de test suit une loi χ2 de degré de liberté r. Deux cas possibles :
— Si les probabilités pk sont fixées, alors r = k − 1
EPFL Probabilités et Statistique
Automne 2017 Guillaume Dehaene
— Si les probabilités pk dépendent de c paramètres qui sont ajustés aux données, alors r =
k − 1 − c.
Une grande valeur de T indique qu’il faut rejeter l’hypothèse nulle car les probabilités pk ne
donnent pas un modèle satisfaisant des données. On trouve la valeur critique T ∗ à l’aide d’un
tableau pour la variable χ2r .
Test d’indépendance : un cas particulier du test χ2 concerne l’observation jointe de paires
de variables (X1 , Y1 ) . . . . On peut alors se demander si l’hypothèse nulle : les variables sont
indépendantes, donne une bon modèle des données, ou s’il faut la rejetter.
Soit h le nombre de classes pour X et k le nombre de classes pour Y . Il faut calculer le nombre
d’observations de chaque cas possible à l’aide d’un tableau de contingence :
— ei,j est le nombre de cas X = xi , Y = yj .
— ei,. est le nombre de cas X = xi .
— e.,j est le nombre de cas Y = yj .
La statistique de résumé est :
k X
h ni,. n.,j 2
X ni,j − n
tobs = ni,. n.,j
i=1 j=1 n
On a n observations composées de paires de deux valeurs scalaires : (xi , yi ). On veut prédire les
valeurs yi à partir des xi .
On les modélise par :
Yi = α + βxi + ση
η ∼ N (0, 1)
Yi ∼ N (α + βxi , σ 2 )
Estimateurs :
Pn
(xi −x̄)yi
β̂ = Pi=1
n 2
i=1 (xi −x̄)
α̂ = ȳ − β̂ x̄
ŷi = α̂ + β̂xi
σˆ2 = S 2 1
Pn 2
= n−2 i=1 (ŷi − yi )
h i
x̄2
α̂ ∼ N α, σ 2 n1 + Pn (x i −x̄) 2
i=1
1
β̂ ∼ N β, σ 2 Pn (x i −x̄)
2
i=1
2
σ
S 2 ∼ n−2 χ2n−2
(α̂, β̂) chacun indépendant de S 2
α̂−α0
Tα = 1/2 ∼ Tn−2
1 x̄2
S n + n (x −x̄)2
P
i=1 i
β̂−β0
Tβ = 1/2 ∼ Tn−2
1
S Pn
(x −x̄)2
i=1 i
On utilise ces deux derniers résultats pour construire des IC et des tests pour les paramètres
α, β.
Intervalles de confiance :
α̂−α0
Tα = 1/2 ∼ Tn−2
1 x̄2
S n + n (x −x̄)2
P
i=1 i
β̂−β0
Tβ = 1/2 ∼ Tn−2
1
S Pn
(x −x̄)2
i=1 i
Note : on peut utiliser ces estimateurs et ces propriétés même si les données ne sont pas Gaus-
siennes. Des problèmes peuvent se poser en cas de présence de valeurs aberrantes ou si la variance
du bruit dépend des covariables xi .
Yi = β1 x1,i + · · · + βd xd,i + ση
Pd
Yi = j=1 βj xj,i + ση
η ∼ N (0, 1)
Estimateurs :
h i−1
β̂ = XXT XY
Pd
ŷi = j=1 β̂j xj,i
ˆ
σ = S2
2 1
Pn 2
= n−d i=1 (yi − ŷi )
Ces valeurs, toujours positives, indiquent à quel point Y est bien prédit dans chaque modèle. Puis
on calcule leur différence normalisée :
Sous le modèle nul, elle suit une distribution Fd−q,n−p−1 . En utilisant un tableau de cette distri-
bution (non-inclus dans ce formulaire), on peut donc trouver le seuil ou calculer la p-valeur.
Note : on ne peut pas utiliser le F-test quand les données ne sont pas gaussiennes.
EPFL Probabilités et Statistique
Automne 2017 Guillaume Dehaene
0.00 0.50 1.00 0.84 2.00 0.977 3.00 0.9986501 4.00 0.9999683
0.03 0.51 1.03 0.85 2.03 0.979 3.03 0.9987568 4.03 0.9999715
0.05 0.52 1.05 0.85 2.06 0.980 3.05 0.9988558 4.05 0.9999744
0.08 0.53 1.08 0.86 2.08 0.981 3.08 0.9989475 4.08 0.9999770
0.10 0.54 1.11 0.86 2.10 0.982 3.10 0.9990324 4.11 0.9999793
0.13 0.55 1.13 0.87 2.13 0.983 3.13 0.9991110 4.13 0.9999815
0.16 0.56 1.16 0.87 2.15 0.984 3.16 0.9991836 4.16 0.9999834
0.18 0.57 1.18 0.88 2.18 0.985 3.18 0.9992508 4.18 0.9999851
0.20 0.58 1.21 0.88 2.21 0.986 3.20 0.9993129 4.20 0.9999867
0.23 0.59 1.23 0.89 2.23 0.987 3.23 0.9993701 4.23 0.9999881
0.25 0.60 1.25 0.89 2.25 0.988 3.25 0.9994230 4.25 0.9999893
0.28 0.61 1.28 0.90 2.28 0.989 3.28 0.9994717 4.28 0.9999904
0.31 0.62 1.30 0.90 2.31 0.989 3.30 0.9995166 4.30 0.9999915
0.33 0.63 1.33 0.91 2.33 0.990 3.33 0.9995579 4.33 0.9999924
0.35 0.64 1.35 0.91 2.35 0.991 3.35 0.9995959 4.36 0.9999932
0.38 0.65 1.38 0.92 2.38 0.991 3.38 0.9996309 4.38 0.9999939
0.40 0.66 1.40 0.92 2.41 0.992 3.41 0.9996631 4.41 0.9999946
0.43 0.66 1.43 0.92 2.43 0.992 3.43 0.9996926 4.43 0.9999952
0.45 0.67 1.46 0.93 2.46 0.993 3.45 0.9997197 4.45 0.9999957
0.48 0.68 1.48 0.93 2.48 0.993 3.48 0.9997446 4.48 0.9999962
0.50 0.69 1.50 0.93 2.50 0.994 3.50 0.9997674 4.50 0.9999966
0.53 0.70 1.53 0.94 2.53 0.994 3.53 0.9997883 4.53 0.9999970
0.56 0.71 1.55 0.94 2.56 0.995 3.55 0.9998074 4.55 0.9999973
0.58 0.72 1.58 0.94 2.58 0.995 3.58 0.9998249 4.58 0.9999976
0.61 0.73 1.60 0.95 2.60 0.995 3.60 0.9998409 4.61 0.9999979
0.63 0.73 1.63 0.95 2.63 0.996 3.63 0.9998555 4.63 0.9999981
0.65 0.74 1.65 0.95 2.66 0.996 3.66 0.9998689 4.66 0.9999983
0.68 0.75 1.68 0.95 2.68 0.996 3.68 0.9998811 4.68 0.9999985
0.70 0.76 1.71 0.96 2.70 0.997 3.70 0.9998922 4.70 0.9999987
0.73 0.77 1.73 0.96 2.73 0.997 3.73 0.9999023 4.73 0.9999988
0.75 0.77 1.75 0.96 2.75 0.997 3.75 0.9999116 4.75 0.9999990
0.78 0.78 1.78 0.96 2.78 0.997 3.78 0.9999200 4.78 0.9999991
0.80 0.79 1.80 0.96 2.80 0.997 3.80 0.9999277 4.81 0.9999992
0.83 0.80 1.83 0.97 2.83 0.998 3.83 0.9999346 4.83 0.9999993
0.86 0.80 1.85 0.97 2.85 0.998 3.85 0.9999409 4.86 0.9999994
0.88 0.81 1.88 0.97 2.88 0.998 3.88 0.9999467 4.88 0.9999995
0.90 0.82 1.90 0.97 2.91 0.998 3.91 0.9999519 4.91 0.9999995
0.93 0.82 1.93 0.97 2.93 0.998 3.93 0.9999566 4.93 0.9999996
0.95 0.83 1.96 0.97 2.95 0.998 3.95 0.9999609 4.95 0.9999996
0.98 0.84 1.98 0.98 2.98 0.999 3.98 0.9999648 4.98 0.9999997
NB : les valeurs sont arrondies. Le nombre de chiffres significatifs est fixe sur chaque co-
lonne.
EPFL Probabilités et Statistique
Automne 2017 Guillaume Dehaene
0.02 0.02 1.03 0.69 2.02 0.957 3.03 0.9975 4.03 0.999943
0.05 0.04 1.05 0.71 2.05 0.960 3.05 0.9977 4.05 0.999949
0.08 0.06 1.08 0.72 2.08 0.962 3.08 0.9979 4.08 0.999954
0.10 0.08 1.10 0.73 2.10 0.964 3.10 0.9981 4.10 0.999959
0.12 0.10 1.12 0.74 2.12 0.966 3.12 0.9982 4.12 0.999963
0.15 0.12 1.15 0.75 2.15 0.968 3.15 0.9984 4.15 0.999967
0.18 0.14 1.18 0.76 2.18 0.970 3.18 0.9985 4.18 0.999970
0.20 0.16 1.20 0.77 2.20 0.972 3.20 0.9986 4.20 0.999973
0.22 0.18 1.23 0.78 2.22 0.974 3.22 0.9987 4.23 0.999976
0.25 0.20 1.25 0.79 2.25 0.976 3.25 0.9988 4.25 0.999979
0.28 0.22 1.28 0.80 2.28 0.977 3.28 0.9989 4.28 0.999981
0.30 0.24 1.30 0.81 2.30 0.979 3.30 0.9990 4.30 0.999983
0.32 0.25 1.33 0.81 2.33 0.980 3.32 0.9991 4.32 0.999985
0.35 0.27 1.35 0.82 2.35 0.981 3.35 0.9992 4.35 0.999986
0.38 0.29 1.38 0.83 2.38 0.982 3.38 0.9993 4.38 0.999988
0.40 0.31 1.40 0.84 2.40 0.984 3.40 0.9993 4.40 0.999989
0.43 0.33 1.42 0.85 2.43 0.985 3.42 0.9994 4.42 0.999990
0.45 0.35 1.45 0.85 2.45 0.986 3.45 0.9994 4.45 0.999991
0.48 0.37 1.48 0.86 2.48 0.987 3.48 0.9995 4.48 0.999992
0.50 0.38 1.50 0.87 2.50 0.988 3.50 0.9995 4.50 0.999993
0.52 0.40 1.52 0.87 2.53 0.988 3.53 0.9996 4.53 0.999994
0.55 0.42 1.55 0.88 2.55 0.989 3.55 0.9996 4.55 0.999995
0.58 0.43 1.58 0.88 2.58 0.990 3.58 0.9996 4.58 0.999995
0.60 0.45 1.60 0.89 2.60 0.991 3.60 0.9997 4.60 0.999996
0.62 0.47 1.62 0.90 2.62 0.991 3.62 0.9997 4.62 0.999996
0.65 0.48 1.65 0.90 2.65 0.992 3.65 0.9997 4.65 0.999997
0.68 0.50 1.68 0.91 2.68 0.993 3.68 0.9998 4.68 0.999997
0.70 0.52 1.70 0.91 2.70 0.993 3.70 0.9998 4.70 0.999997
0.73 0.53 1.72 0.92 2.72 0.994 3.72 0.9998 4.73 0.999998
0.75 0.55 1.75 0.92 2.75 0.994 3.75 0.9998 4.75 0.999998
0.78 0.56 1.78 0.92 2.78 0.994 3.78 0.9998 4.78 0.999998
0.80 0.58 1.80 0.93 2.80 0.995 3.80 0.9999 4.80 0.999998
0.82 0.59 1.83 0.93 2.82 0.995 3.82 0.9999 4.82 0.999999
0.85 0.60 1.85 0.94 2.85 0.996 3.85 0.9999 4.85 0.999999
0.88 0.62 1.88 0.94 2.88 0.996 3.88 0.9999 4.88 0.999999
0.90 0.63 1.90 0.94 2.90 0.996 3.90 0.9999 4.90 0.999999
0.92 0.65 1.92 0.95 2.92 0.997 3.92 0.9999 4.93 0.999999
0.95 0.66 1.95 0.95 2.95 0.997 3.95 0.9999 4.95 0.999999
0.98 0.67 1.98 0.95 2.98 0.997 3.98 0.9999 4.98 0.999999
1.00 0.68 2.00 0.95 3.00 0.997 4.00 0.9999 5.00 0.999999
NB : les valeurs sont arrondies. Le nombre de chiffres significatifs est fixe sur chaque co-
lonne.
EPFL Probabilités et Statistique
Automne 2017 Guillaume Dehaene
d s5 s1 s0.1 d s5 s1 s0.1
NB : les valeurs sont arrondies. Le nombre de chiffres significatifs après la virgule est fixe
sur chaque colonne.
Soit Td une loi de student de degré de liberté d donné. Le tableau donne la valeur des seuil sα tels
que :
pour α = 5, 1, 0.1.
EPFL Probabilités et Statistique
Automne 2017 Guillaume Dehaene
r s5 s1 s0.1 r s5 s1 s0.1
NB : les valeurs sont arrondies. Le nombre de chiffres significatifs après la virgule est fixe
sur chaque colonne.
Soit χ2r une loi chi-carré de degré de liberté r donné. Le tableau donne la valeur des seuil sα tels
que :
pour α = 5, 1, 0.1.