Académique Documents
Professionnel Documents
Culture Documents
Stats – Résumé
I. Statistiques descriptive
Quantitative : Modalités comparables entre elles
o Discrète / continue : modalités dénombrable / indénombrables
Quantit. continue
Qualit. multimod
Quantit. discrète
Qualit. ordinale
Qualitative
Qualit. binaire
o Binaire / Multimodale : deux modalités / plus de 2.
o Ordinale (ou non) : existence d’un ordre
Définition Formule
𝑥 − 𝑥𝑖−1
̂𝑋 (𝑥) = 𝐹
𝐹 ̂ 𝑐 ̂𝑐 ̂𝑐
𝑖 + (𝐹𝑖 − 𝐹𝑖−1 )
Fonction de 𝑥𝑖 − 𝑥𝑖−1
répartition 1 X
empirique 𝑭 ̂𝑿 ̂𝑋 (𝑥𝑖 ) = 𝐹
𝐹 ̂ 𝑐 ̂ ̂ ̂
𝑖 = 𝐹𝑖 − (𝐹𝑖 − 𝐹𝑖−1 )
2
Moyenne Variance empirique biaisée Variance débiaisée
𝑛 𝑛 𝑛 𝑛
Moyenne 𝒙
̅ 1 1 1 ∗2
1 x x X X
𝑥̅ = ∑ 𝑥𝑖 𝑆̂ 2 = ∑(𝑥𝑖 − 𝑥̅ )2 = ∑ 𝑥𝑖2 − 𝑥̅ 2 𝑆 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=𝑛 𝑖=1 𝑖=𝑛
Moment et 1
𝑛
1
𝑛
𝜇
̂3 𝜇
̂4
moment ̂𝑘 = ∑ 𝑥𝑖𝑘
𝑚 𝜇̂𝑘 = ∑(𝑥𝑖 − 𝑥̅ )𝑘 ̂1 𝑆̂ 2 = 𝜇
𝑥̅ = 𝑚 ̂2 x x X X
𝑛 𝑛 Moyenne Variance ŝ3 ŝ4
centré 𝑖=1 𝑖=1 Dissymétrie Aplatissement
𝑛 𝑛
2
1 1
𝑠𝑋𝑌 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 𝑠𝑋2 = 𝑠𝑋𝑋 = ∑(𝑥𝑖 − 𝑥̅ )2 𝑐𝑜𝑣(𝑋, 𝑌)
𝑛 𝑛 𝑠𝑋𝑌 𝑎=
Dépendance : 𝑖=1
𝑛
𝑖=1
𝑛 𝑟= 𝑆𝑋2
1 1 𝑠𝑋 𝑠𝑌
(X, Y quant.) 𝑏 = 𝑦̅ − 𝑎𝑥̅
= ∑(𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅) 𝑠𝑌2 = 𝑠𝑌𝑌 = ∑(𝑦𝑖 − 𝑦̅)2 Corrélation ∈ [−1;1]
𝑛 𝑛 𝑟 ≈ 0 ⇒ 𝑥 indep 𝑦
𝑖=1 𝑖=1
𝑟≈ 1⇒𝑥↗𝑦↗
Covariance Variance 𝑟 ≈ −1 ⇒ 𝑥 ↗ 𝑦 ↘
2
1 2 1 ∑𝑗 ∈ Ω𝑋 𝑛𝑗 (𝑦̅𝑗 − 𝑦̅)
Dépendance : 𝑆𝑌2 = ∑ 𝑛𝑗 (𝑦̅𝑗 − 𝑦̅) + ∑ 𝑛𝑗 𝑠𝑗2 𝑆𝑌2⁄𝑋 =
𝑛 𝑛 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
(X qual, Y quant.) ⏟𝑗 ∈ Ω𝑋 ⏟𝑗 ∈ Ω𝑋 Coef. de détermination
2 ∶variance expliquée
𝑠𝐸 2 ∶variance résiduelle
𝑆𝑅
2
eff obs eff th
̂⏞𝑖𝑗 − ℙ
(ℙ ̂⏞ ̂
𝑖 ℙ𝑗 )
𝑛𝑖 𝑛𝑗 2
(𝑛𝑖𝑗 − )
𝐷𝜒2 = ∑ ∑ 𝑛 =𝑛 ∑ ∑
Dépendance : 𝑛𝑖 𝑛𝑗 ̂𝑖ℙ
ℙ ̂𝑗
(X, Y qual.) 𝑖 ∈ Ω𝑋 𝑗 ∈ Ω𝑌 𝑛 𝑖 ∈ Ω𝑋 𝑗 ∈ Ω𝑌
𝜒2 Φ2 Φ2
Φ2 = 𝑇=√ 𝐶=√
𝑛 √(𝑟 − 1)(𝑐 − 1) min(𝑟, 𝑐) − 1
Coef de Tschuorow Coef de Cramer
Thomas v1
ROBERT Page 1
Résumé de Statistiques
Stats – Résumé
II. Probabilités : variables aléatoires
1. Formules
Discrète Continue
Loi de probabilité Fonction de densité
Def.
+∞
𝑃(Ω) = 1
∫ 𝑓(𝑡) 𝑑𝑡 = 1
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) −∞
𝑥
FDR
+∞
Somme
𝐸(𝑋) = ∫ 𝑡 𝑓(𝑡) 𝑑𝑡
𝑖=1
−∞
𝑛
+∞
𝐸(𝜑(𝑋)) = ∑ 𝜑(𝑥𝑖 ) 𝑃(𝑋 = 𝑥𝑖 ) 𝐸(𝜑(𝑋)) = ∫ 𝜑(𝑡) 𝑓(𝑡) 𝑑𝑡
𝑖=1 −∞
𝐸(𝑎𝑋 + 𝑏) = 𝑎𝐸(𝑋) + 𝑏
2
𝑉(𝑋) = 𝐸 ((𝑋 − 𝐸(𝑋)) )
Variance
Propriétés :
𝑉(𝑋) = 𝐸(𝑋 2 ) − 𝐸(𝑋)2 𝑉(𝑎𝑋 + 𝑏) = 𝑎2 𝑉(𝑋)
𝜎(𝑎𝑋 + 𝑏) = |𝑎|𝜎(𝑋)
𝜎(𝑋) = √𝑉(𝑋)
2. Lois usuelles
Nom 𝑷(𝑿 = 𝒌) / 𝒇(𝒙) 𝑬(𝑿) 𝑽(𝑿) Propriétés
Uniforme 1 𝑛+1 𝑛2 − 1
Ω = ⟦1; 𝑛⟧
𝑼(𝒏) 𝑛 2 12
Ω = ⟦0; 𝑛⟧
Binomiale 𝑛 𝑝 < 0,1 ∶ ℬ → 𝒫
( ) 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 𝑛𝑝 𝑛𝑝(1 − 𝑝) 𝑛 > 50, {
𝓑(𝒏, 𝒑) 𝑘 𝑝 ≥ 0,1 ∶ ℬ → 𝒩
Poisson 𝜆𝑘 𝜆 grand : 𝒫 → 𝒩
𝑒 −𝜆 𝜆 𝜆
𝓟(𝝀) 𝑘! 𝑋1 + 𝑋2 ~𝒫(𝜆1 + 𝜆2 )
Uniforme 1 𝑎 𝑎2
𝑼[𝟎;𝒂] si 𝑥 ∈ [0; 𝑎]
𝑎 2 12
Exponentielle 1 1
𝜆𝑒 −𝜆𝑥 si 𝑥 > 0
𝑬(𝝀) 𝜆 𝜆2
Normale 1 1 𝑥−𝜇 2
𝑒 −2( )
𝜎 𝜇 𝜎2 𝑍~𝒩(𝜇1 + 𝜇2 , 𝜎21 + 𝜎22 )
𝓝(𝝁, 𝝈𝟐 ) √2𝜋𝜎 2
Thomas v1
ROBERT Page 2
Résumé de Statistiques
Stats – Résumé
III. Estimateur et fonction de vraisemblance
1. Fonction de vraisemblance
𝑛 𝑛
2. Estimateurs ponctuels
a. Formules, propriétés, théorèmes
̂ = 𝑇 = 𝑓(𝑋1 , … , 𝑋𝑛 )
Θ
Form./Prop./Th. Définition
𝑛→∞ 𝑛→∞
̂ converge ⇔ 𝐸(Θ
𝚯 ̂) → ̂) →
𝜃 et 𝑉(Θ 0
̂ 𝟏 préférable à 𝚯
𝚯 ̂1 , 𝜃) ≤ 𝑅(Θ
̂ 𝟐 ⇔ ∀ 𝜃 ∈ ℝ, 𝑅(Θ ̂ 2 , 𝜃)
̂ admissible ⇔ aucun estimateur préférable
𝚯
𝜕 ln ℒ 2 𝜕 2 ln ℒ
Information de Fisher : 𝐼𝑛 (𝜃) = 𝐸 [( ) ] = −𝐸 [ ] = 𝑛𝐼1 (𝜃)
𝜕𝜃 𝜕𝜃 2
𝑢̂ est. sans biais de 𝑢(𝜃)
Support de X indépendant de 𝜃
𝜕ℒ 𝜕ℒ
existe, continu, intégrable 𝑢̂ intégrable
Thm de Cramer Rao : 𝜕𝜃 𝜕𝜃
𝐼𝑛 (𝜃) finie
𝑢′ (𝜃)2
⇒ 𝑉(𝑢̂) ≥ 𝐵𝐶𝑅 =
𝐼𝑛 (𝜃)
vérifie les cond. de Cramer-Rao
{
variance = variance de la BCR = variance min
Estimateur efficace ⇔ vérifie les cond. de Cramer-Rao
⇔{ 𝜕 𝑙𝑛(𝐿)
∃𝐴| = 𝐴(𝑛, 𝜃)(𝑢̂ − 𝑢(𝜃))
𝜕𝜃
b. Création d’un estimateur ponctuel
max ℒ
̂
Θ
On utilise les 𝑚
̂𝑘 et les 𝜇̂𝑘 et on en déduit
𝜕 ln ℒ 2
𝜕 ln ℒ des estimateurs Θ ̂ 𝑚 des paramètres.
̂ 𝑀𝑉 = 𝜃 |
Θ = 0 et <0
𝜕𝜃 𝜕𝜃 2
Propriétés : Propriétés :
̂ 𝑀𝑉 MV de 𝜃 ⇒ 𝑢(Θ
Θ ̂ 𝑀𝑉 ) MV de 𝑢(𝜃) ̂𝑚 → Θ
Convergent : Θ ̂
̂ 𝑀𝑉 asy. sans biais
Θ Asymptotiquement gaussien :
̂ 𝑀𝑉 asy. efficace et asy. gaussien si
Θ ̂ − 𝜃) → 𝒩(0, 𝜎𝑚
√𝑛(Θ 2)
CCR vérifiées
Thomas v1
ROBERT Page 3
Résumé de Statistiques
Stats – Résumé
c. Convergence des estimateurs courants et propriétés
𝑋𝑖 i.i.d. avec 𝐸(𝑋𝑖 ) = 𝐸(𝑋) = 𝜇 𝑉(𝑋𝑖 ) = 𝜎 2
̂
𝚯 ̂)
𝑬(𝚯 ̂)
𝑽(𝚯 Loi gd nombres 𝑿~𝓝(𝝁, 𝝈𝟐 )
𝑋̅ − 𝜇 𝜎2
∑ 𝑋𝑖 𝜎2 → 𝒩(0,1) ̅
𝑋̅ = 𝜇 𝜎 𝑋~𝒩 (𝜇, )
𝑛 𝑛 𝑛
√ 𝑛
𝑛 𝑛−1
1 𝑛−1 2 𝜇 − 𝜎4 𝑆2 − 𝑛 𝜎2 𝑛𝑆 2
𝑆 = ∑(𝑋𝑖 − 𝑋̅)2
2
𝜎 ≈ 4 → 𝒩(0,1) 2
~𝜒𝑛−1
𝑛 𝑛 𝑛 √𝑉(𝑆 ) 2 𝜎 2
𝑖=1
𝑛
𝑆∗2 = 𝑆2 𝜎2
𝑛−1
3. Estimation par intervalle de confiance
a. Principe
̂1 , Θ
̂ 2 ]) = 1 − 𝛼 1 − 𝛼 : niveau de confiance
ℙ(𝜃 ∈ [Θ
Principe
𝛼 : risque
̂1 , +∞[
[Θ ̂1 , Θ
[Θ ̂2]
Intervalle de confiance unilatéral Intervalle de confiance bilatéral
risque symétrique ou non
b. Construction
̂ de loi de probabilité 𝒫.
Soit un estimateur Θ
Thomas v1
ROBERT Page 4
Résumé de Statistiques
Stats – Résumé
IV. Tests statistiques
1. Les hypothèses
ℋ0 ∶ hypothèse nulle (privilégiée, plus vraisemblable / habituelle / prudente / facile à formuler)
{
ℋ1 ∶ hypothèse alternative
2. Risque
Risque de 1ère espèce : 𝛼 = ℙ(ℋ1 |ℋ0 vraie) Vérité
𝓗𝟎 𝓗𝟏
Décision
nde
Risque de 2 espèce : 𝛽 = ℙ(ℋ0 |ℋ1 vraie)
Puissance du test : 1 − 𝛽 = ℙ(ℋ1 |ℋ1 vraie) 𝓗𝟎 1−𝛼 𝛽
𝓗𝟏 𝛼 1−𝛽
𝛼 fixé, 𝛽 à minimiser
3. Règle de décision
𝑹𝑼𝑷𝑷 est uniformément plus puissant si :
∀ 𝜃, ∀ 𝑅, (1 − 𝛽𝑅𝑈𝑃𝑃 ) ≥ (1 − 𝛽𝑅 )
Choix de la statistique 𝑻 variable de décision : tel que 𝑇 soit exhaustif et efficace, de loi
différente sous ℋ0⁄1 et de loi connue sous ℋ0 .
̅ r. d’acceptation)
Région critique 𝑾 : ensemble des valeurs de 𝑇 tel que l’on choisi ℋ1 . (𝑊
ℙ(𝑊 | ℋ0 ) = 𝛼 ℙ(𝑊 | ℋ1 ) = 1 − 𝛽
Thomas v1
ROBERT Page 5
Résumé de Statistiques
Stats – Résumé
4. Tests paramétriques
HS-HS HS-HC HC-HC
𝜃 = 𝜃0
𝓗𝟎 𝜃 = 𝜃0 𝜃 = 𝜃0 𝜃 = 𝜃0 𝜃 ≤ 𝜃0
params inc.
𝜃 ≷ 𝜃0 𝜃 ≷ 𝜃0
𝓗𝟏 𝜃 = 𝜃1 ≷ 𝜃0 𝜃 ≠ 𝜃0 𝜃 > 𝜃0
⇔ 𝜃 = 𝜃𝑖 ≷ 𝜃0 params inc.
𝑊 = {𝜃̂ ≷ 𝐴} 𝑊 = {𝜃̂ > 𝐴}
ℒ(𝑥1 , … , 𝑥𝑛 , 𝜃1 ) 𝑊 = {𝜃̂ < 𝐴1 } ℒ(𝑥1 ,…,𝑥𝑛 ,𝜃′ )
𝑾 𝑊={ > 𝑘𝛼 } Si ↗ 𝜃̂
ℒ(𝑥1 , … , 𝑥𝑛 , 𝜃0 ) ∪ {𝜃̂ > 𝐴2 } ℒ(𝑥1 ,…,𝑥𝑛 ,𝜃)
′
RC optimale d'après Neyman-Pearson pour 𝜃 > 𝜃 basé sur fct.
ℙ(W|ℋ0 ) = 𝛼fixé pivotale
⏟ ̂ < 𝐴1 |ℋ0 )
⇔ ℙ(𝜃 Même RC
𝛼 ℋ0, critique que les
=
2 ℙ (𝜃̂ > 𝐴 | )
𝑨 ℙ(W|ℋ0 ) = 𝛼fixé → 𝐴 𝜃 = 𝜃0 autres
ℙ(𝜃̂ > 𝐴2 |ℋ0 ) = 𝛼
+⏟
= 𝛼fixé → 𝐴
𝛼
=
2
→ 𝐴1 , 𝐴2
UPP UPP UPP Non-UPP UPP Non-UPP
𝜶 𝛼 = 𝛼𝑓𝑖𝑥é 𝛼 = 𝛼𝑓𝑖𝑥é 𝛼 ≤ 𝛼𝑓𝑖𝑥é 𝛼 ≤ 𝛼𝑓𝑖𝑥é 𝛼 ≤ 𝛼𝑓𝑖𝑥é
𝜷 𝛽 = 𝑐𝑠𝑡 𝛽 = 𝑓(𝜃) 𝛽 = 𝑓(𝜃) 𝛽 = 𝑓(𝜃) 𝛽 = 𝑓(𝜃)
Voir si 𝜃̂ ∈ 𝑊 ou pas
5. Tests non-paramétrique
Comparaison
d’échantillons Tests d’adéquation
appariés
Test de Kolmogorov-
Test du signe Test du 𝝌𝟐
Smirnov
1 ̂𝑘 = 𝑁𝑘 = 𝑛𝑝𝑘
𝓗𝟎 ℋ : 𝑝 = 𝑝0 = ℋ0 : 𝐹 = 𝐹0 ℋ0 : 𝑁 ℋ : 𝐹 = 𝐹0
{ { 0 2 { ( ) { 0
𝓗𝟏 ℋ1 : 𝐹 ≠ 𝐹0 ℋ1 : 𝑁
̂ 𝑘 ≠ 𝑁𝑘 ℋ1 : 𝐹 ≠ 𝐹0
ℋ0 : 𝑝 = 𝑝1 ≠ 𝑝0
𝐾
̂𝑘 − 𝑁𝑘 )2
(𝑁
𝑻 𝑍 = count 𝑌𝑖 > 𝑋𝑖 2
𝐷 =∑ 𝐷𝑛 = max|𝐹𝑛∗ (𝑥) − 𝐹0 (𝑥)|
𝑁𝑘 𝑥
𝑘=1
𝓗𝟎 ℋ0 ℋ0 ℋ0
2
𝒇(𝑻) ~ 𝑍 ~ ℬ(𝑛, 𝑝 = 𝑝0 ) 𝐷2 ~ 𝜒𝐾−1 𝐷𝑛 ~ 𝐷𝑛
𝑊
= {𝑍 < 𝐴}
∪ {𝑍 > 𝐵} 𝑊 = {𝐷2 > 𝐴} 𝑊 = {𝐷𝑛 > 𝐴}
𝑾
𝐴 = 𝑏𝑛,𝑝,𝛼 𝐴 = χ𝐾−1−𝑟,1−𝛼 𝐴 = 𝑑𝑛,1−𝛼
2
𝐵 = 𝑏𝑛,𝑝,1−𝛼
2
ℒ(𝑋1 , … , 𝑋𝑛 , 𝑝1 ) (𝑛 − 1) 2 (𝑚 − 1) 2
𝑟𝑎𝑛𝑔𝑠 = 𝑠𝑜𝑟𝑡([𝑋 𝑌])
𝑻 𝑍𝑖 = ln 𝑆𝑋∗ ~𝜒𝑛−1
2
𝑆𝑌∗ ~𝜒𝑚−1
2
𝑋̅, 𝑌̅
ℒ(𝑋𝑖 , 𝑝0 ) 𝜎𝑋2 𝜎𝑌2 𝑊𝑋 = ∑ rang 𝑋𝑖
𝑊𝑋 − 𝜇𝑊 ℋ0
→ 𝒩(0,1)
2 𝑋̅ − 𝑌̅ ℋ0 𝜎𝑊
𝓗𝟎 𝑆𝑋∗ ℋ0 ~ 𝒯𝑛+𝑚−2 𝑛(𝑛 + 𝑚 + 1)
𝒇(𝑻) ~ 2 ~ ℱ𝑛−1,𝑚−1 1 1 𝜇𝑊 =
𝑆𝑌∗ 𝑆 ∗ √𝑛 + 𝑚 2
2
𝑛𝑚(𝑛 + 𝑚 + 1)
𝜎𝑊 =
12
𝑛
1
∑ 𝑍𝑖 ≥ ln ℋ1
𝛼 𝑊 = {𝑇 < 𝐴} ∪ {𝑇 > 𝐵} 𝑊 = {𝑇 < 𝐴} ∪ {𝑇 > 𝐵}
𝑖=1
𝑛 𝐴 = 𝑓𝑛−1,𝑚−1,𝛼 𝐴 = 𝑡𝑛+𝑚−2,𝛼 𝑊 = {𝑇 < 𝐴}
𝑾 2 2
𝐴 = 𝑛1−𝛼
∑ 𝑍𝑖 ≤ ln 𝛽 ℋ0 𝐵 = 𝑓𝑛−1,𝑚−1,1−𝛼 𝐵 = 𝑡𝑛+𝑚−2,1−𝛼
2 2
𝑖=1
{ sinon 𝑛 =𝑛+1
2 2
∗2
(𝑛 − 1)𝑆𝑋∗ + (𝑚 − 1)𝑆𝑌∗
𝑆 =
𝑛+𝑚−2 𝐹𝑋 > 𝐹𝑌 ⇔ 𝑋 < 𝑌
𝑉1
Rqs 2 2 𝑛 ~ℱ
𝑉1 ~𝜒𝑛 𝑉2 ~𝜒𝑚 𝑛,𝑚 Si 𝑋𝑖 = 𝑋𝑗 , rang = rang
𝑉2
𝑚 moyen
𝑓𝑛,𝑚,𝛼 = 𝑓𝑚,𝑛,1−𝛼
Thomas v1
ROBERT Page 7
Résumé de Statistiques
Stats – Résumé
Autres
6. Formules
+∞
𝑛!
∫ 𝑥 𝑛 𝑒 −𝛼𝑥 𝑑𝑥 =
0 𝛼 𝑛+1
7. Définition de probabilité
Ω ensemble fini 𝑃 proba sur Ω 𝑃 : Ω → [0, 1] verifie :
𝑃(Ω) = 1
∀𝐴, 𝐵 ∈ 𝒫(Ω)2 𝐴∩𝐵 =∅ 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)
Propriétés
𝑃(∅) = 0
𝑃(𝐴𝑐 ) = 1 − 𝑃(𝐴)
𝑃(𝐴 − 𝐵) = 𝑃(𝐴) − 𝑃(𝐴 ∩ 𝐵)
Si 𝐴 ⊂ 𝐵 alors 𝑃(𝐴) ≤ 𝑃(𝐵)
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
8. Formules de probabilité
𝑛 𝑛! Formule de Poincaré ou formule d’inclusion-exclusion :
(𝑝 ) =
𝑝! (𝑛 − 𝑝)!
𝑛 𝑛 𝑖𝑘
𝑃 (⋃ 𝐴𝑖 ) = ∑(−1)𝑘−1 ∑ 𝑃 (⋂ 𝐴𝑗 )
𝑖=1 𝑘=1 𝑖1 …𝑖𝑘 𝑗=𝑖1
1≤𝑖1 <⋯<𝑖𝑘 ≤𝑛
( )
Probas conditionnelles : Probas composées : Probas totales :
𝑛 𝑛 𝑛
𝑃(𝐴 ∩ 𝐵)
𝑃𝐴 (𝐵) = 𝑃 (⋂ 𝐴𝑖 ) = ∏ 𝑃⋂𝑖−1 𝐴 (𝐴𝑖 ) 𝑃(𝐵) = ∑ 𝑃(𝐴𝑖 ) 𝑃𝐴𝑖 (𝐵)
𝑃(𝐴) 𝑗=1 𝑗
𝑖=1 𝑖=1 𝑖=1
Thomas v1
ROBERT Page 8