Vous êtes sur la page 1sur 22

A.

U : 2022/2023

Population
P (N,E(X), Var(X), 𝐹𝑋 )
paramètres inconnus

Echantillonnage Inférence
Statistique statistique

Inférentielle Echantillon
E(n,𝑥,ҧ s², 𝐹𝑛 )
paramètres connus

Pr. A.BENGHABRIT
benghabrit@enim.ac.ma
Introduction Population P
x x x
❖ Parmi les objectifs du calcul des probabilités, x x Individu
x
x x
la construction des modèles mathématiques x x
x x
x
susceptibles de décrire des phénomènes x x
x x x
aléatoires.
Ω = {𝑤1 , … , 𝑤𝑁 } univers de l’expérience aléatoire E.
❖ Etant donné un tel modèle souhaité, nous X variable aléatoire attachée aux résultats de E
X : (Ω, A, P) → (ℝ, 𝐵𝑅 , 𝑃𝑋 )
cherchons à déterminer des probabilités ou w→x
des distributions de probabilités en partant E est répétée n fois, n≥1. A chaque répétition nous
tirons un(des) individu(s) et nous obtenons une
d’autres probabilités ou distributions de nouvelle v.a. 𝑋𝑖 mais étant toutes de même loi que
X. Les 𝑋𝑖 sont indépendante identiquement
probabilités supposées connues. distribuées et ( 𝑋1 , … , 𝑋𝑛 ) est dit échantillon
aléatoire non exhaustif qui permet de construire
Pr A.BENGHABRITles décisions.
Introduction Population P
❖ Un exemple typique du calcul des probabilités x x x
x x Individu
est le suivant : On prélève M boules d’une x
x x
x x
urne contenant r boules blanches et N-r boules x x
x
x x
noires et on s’intéresse à la probabilité que cet x x x

échantillon aléatoire de taille M comprenne au


Ω = {𝑤1 , … , 𝑤𝑁 } univers de l’expérience aléatoire E.
plus k boules blanches. X variable aléatoire attachée aux résultats de E
X : (Ω, A, P) → (ℝ, 𝐵𝑅 , 𝑃𝑋 )
w→x
❖ Jusqu’à présent, nous avons généralement
E est répétée n fois, n≥1. A chaque répétition on
admis que toutes les données probabilistes tire un(des) individu(s) et nous obtenons une
nouvelle v.a. 𝑋𝑖 mais étant toutes de même loi que
dont nous avons besoin pour construire un X. Les 𝑋𝑖 sont indépendante identiquement
distribuées et ( 𝑋1 , … , 𝑋𝑛 ) est dit échantillon
modèles sont connues. aléatoire non exhaustif qui permet de construire
Pr A.BENGHABRITles décisions.
Introduction
❖ Cependant, ceci est rarement le cas. Dans la pratique, le plus souvent, nous
devons faire appel à des méthodes statistiques pour obtenir une information plus
ou moins complète sur les probabilités ou les distributions en question. Pour ce
faire il faut fixer un échantillon et avoir des approximations de ces paramètres
inconnus.

❖ Nous admettons alors que nous ignorons comment les M boules tirées de l’urne
sont réparties entre les deux couleurs. A partir des résultats enregistrés lors du
prélèvement des M boules, nous essayons d’obtenir des renseignements sur le
nombre r de boules blanches se trouvant dans l’urne. Ceci est un problème
caractéristique de la statistique inférentielle.
Pr A.BENGHABRIT
Recensement
Population P Echantillon empiriquePopulation P
x Individu
x x
x
x x x Echantillonnage x x
Echantillon E
x x
x x x
x x x x
x x x x
x
Inférence x x
x x x
x x x
statistique x
x x
x
x
Ω = {𝑤1 , … , 𝑤𝑁 } univers de l’expérience aléatoire E.
X variable aléatoire attachée aux résultats de E L’échantillon est composé de n répétitions (n< N)
X : (Ω, A, P) → (ℝ, 𝐵𝑅 , 𝑃𝑋 ) de l’expérience aléatoire E réalisée sur n individus.
w→x 1ère expérience → 𝑥1 réalisation de 𝑋1
E est répétée n fois, n≥1. A chaque répétition on 2ème expérience → 𝑥2 réalisation de 𝑋2
tire un(des) individu(s) et nous obtenons une …
nouvelle v.a. 𝑋𝑖 mais étant toutes de même loi que nème expérience → 𝑥𝑛 réalisation de 𝑋𝑛
X. Les 𝑋𝑖 sont indépendante identiquement (𝑥1 , … , 𝑥𝑛 ), réalisation de l’échantillon aléatoire
distribuées et ( 𝑋1 , … , 𝑋𝑛 ) est dit échantillon ( 𝑋1 , … , 𝑋𝑛 ), est dit échantillon empirique qui
aléatoire non exhaustif qui permet de construire permet de prendre les décisions
les décisions. Pr A.BENGHABRIT
Types de problèmes statistiques
Nous distinguons à ce propos deux types majeurs de problèmes statistiques :

I. Les problèmes d’estimation dans lesquels il s’agit d’estimer la valeur inconnue


d’un paramètre tel que la moyenne d’une variable aléatoire. Sur la base d’une
série d’observations du phénomène considéré, nous cherchons donc à
déterminer un nombre dont nous avons de bonnes raisons de penser qu’il est
proche de la valeur inconnue du paramètre. Fréquemment, nous nous proposons
aussi de déterminer un intervalle qui a de fortes chances de contenir le
paramètre inconnu.

Pr A.BENGHABRIT
Types de problèmes statistiques
II. Les problèmes de tests dans lesquels nous cherchons à établir si au vu des
valeurs observées lors d’une série d’essais, il faut accepter ou rejeter une
hypothèse sur un paramètre statistique ou sur la forme d’une loi de probabilité.

Une autre catégorie de questions statistiques, en utilisant les tests, concerne


l’étude de liaisons stochastiques : sur la base de données expérimentales, nous
nous proposons de décider s’il existe une dépendance stochastique entre deux
variables aléatoires et quelle est le cas échéant sa forme fonctionnelle. Nous
parlons de tests d’indépendance.
D’autres études peuvent être faites via les tests statistiques comme l’étude
d’homogénéité de différentes populations.
Pr A.BENGHABRIT
Principe de la statistique inférentielle
Population
P (N,E(X), Var(X), 𝐹𝑋 )
paramètres inconnus

Echantillonnage Inférence statistique

E(X) : moyenne mathématique de X


Echantillon
𝑥ҧ : moyenne empirique
E(n,𝑥,ҧ s², 𝐹𝑛 )
𝑋ത : moyenne de l’échantillon aléatoire
paramètres connus
Var(X) : variance mathématique de X
s² : variance empirique
S² : variance de l’échantillon aléatoire
𝐹𝑋 : fonction de répartition mathématique
𝐹𝑛 : fonction de répartition empirique
Pr A.BENGHABRIT
Principe de la statistique inférentielle
❖ De manière générale, les méthodes de la statistique inférentielle ont pour objectif
l’étude des rapports existants entre un modèle probabiliste et la réalité physique que le
modèle se propose de décrire.

❖ En effet, la validité et la qualité d’un modèle stochastique ne peut être établie que par
des tests expérimentaux.

❖ Toute conclusion statistique s’appuie donc fondamentalement sur la possibilité de


construire un échantillon aléatoire, c’est-à-dire de répéter un phénomène aléatoire un
certain nombre de fois dans des conditions identiques.

Pr A.BENGHABRIT
Population
P (N,E(X), Var(X), 𝐹𝑋 )
paramètres inconnus

Théorie Echantillonnage Inférence


statistique
d’échantillonnage : Echantillon
Rappel E(n,𝑥,ҧ s², 𝐹𝑛 )
paramètres connus

Pr. A.BENGHABRIT
benghabrit@enim.ac.ma
Principe de la théorie d’échantillonnage
❖ Nous supposons dans la population l’existence d’une loi de probabilité du caractère X
étudié dans la population. Cependant, nous ne pouvons pas déterminer la loi de
probabilité exacte. Pour ce faire, nous nous contentons d’étudier une partie de la
population (échantillon) pour avoir des renseignements sur la population totale.

❖ L’échantillon peut être sans remise d’individus extraits et il est dit dans ce cas
échantillon exhaustif sinon nous parlons d’échantillon non exhaustif. Mais la théorie est
beaucoup plus simple avec un échantillon avec remise que sans remise.

❖ Ainsi nous effectuons n expériences, sans importer aucune contribution, durant


chacune d’elles nous récupérons un nombre 𝑥𝑖 , réalisation d’une variable aléatoire 𝑋𝑖
identique à X. Les 𝑋𝑖 sont indépendante identiquement distribuées et constituent
l’échantillon aléatoire non exhaustif.
Pr A.BENGHABRIT
Loi empirique
❖ Nous récupérons par la suite un échantillon empirique de taille n formé par les valeurs
𝑥𝑖 qui sont pondérées chacune par 1/n.
1ère expérience → 𝑥1 réalisation de 𝑋1
2ème expérience → 𝑥2 réalisation de 𝑋2

nème expérience → 𝑥𝑛 réalisation de 𝑋𝑛
𝑥1 𝑥𝑖 𝑥𝑛
x x x

1/n 1/n 1/n


❖ Ceci défini une loi de probabilité sur ℝ muni de sa tribu de borell défini de la façon
1
suivante : ∀ 𝐵 𝜖 ℬ ; 𝑃 𝐵 = σ𝑖;𝑥𝑖 𝜖𝐵 .
𝑛

❖ Cette loi de probabilité est appelée loi empirique ou loi de l’échantillon de moyenne 𝑥,ҧ
da variance s² et de fonction de répartition 𝐹𝑛 .
Pr A.BENGHABRIT
Paramètres de l’échantillon
1. Moyenne de l’échantillon :

1 𝑛
❖ La moyenne empirique (ou la moyenne de l’échantillon empirique) 𝑥ҧ = σ𝑖=1 𝑥𝑖 est
𝑛

1 𝑛
ത ത = E(X)
une réalisation de la moyenne de l’échantillon aléatoire 𝑋 = σ𝑖=1 𝑋𝑖 avec E(𝑋)
𝑛
ത = Var(X)/n = 𝜎 2 /n.
= m et Var(𝑋)

❖ 𝑋ത converge dans tous les sens vers m (en moyenne quadratique, presque sûr, en
probabilité et en loi).

❖ La loi limite de 𝑋ത est la loi normale de moyenne m et de variance 𝜎 2 /n : ℒ 𝑋ത =

𝜎2 𝑋ത −𝑚
N m, ; quand n est assez grand (fixe) →N(0,1).
𝑛 𝜎2
Pr A.BENGHABRIT 𝑛
2.
Paramètres
Variance de l’échantillon :
de l’échantillon
1
❖ La variance empirique (ou la variance de l’échantillon empirique) s² = σ𝑛𝑖=1(𝑥𝑖 − 𝑥ҧ )² =
𝑛
1 1
( σ𝑛𝑖=1 𝑥𝑖 ²) − 𝑥ҧ ² est une réalisation de la moyenne de l’échantillon aléatoire S² = σ𝑛𝑖=1(𝑋𝑖 −
𝑛 𝑛

𝑛−1 𝑛−1 𝜏4 −𝑉𝑎𝑟(𝑋)4 𝜏4 −𝜎4


𝑋ത )² avec E(S²) = Var(X) = 𝜎2 et Var(S²) = = où 𝜏4 = E((X−m)4 ) moment
𝑛 𝑛 𝑛 𝑛
1
mathématique centrée d’ordre 4 (qui s’approxime par σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 4 ) .
𝑛

❖ S² converge dans tous les sens vers 𝜎 2 (en moyenne quadratique, presque sûr, en probabilité
et en loi).

❖ La loi limite de S² est la loi normale de moyenne 𝜎 2 et de variance (𝜏4 −𝜎 4 )/𝑛 ∶ ℒ S² =

𝑆² −𝜎2
N(𝜎 2 , (𝜏 4 −𝜎 4 )/𝑛). Quand n est assez grand (fixe) →N(0,1).
(𝜏4 −𝜎4 )/𝑛
Pr A.BENGHABRIT
Théorème de Cochran
1. On suppose que X ~ 𝑁(𝑚, 𝜎 2 ) 2. On suppose que X suit une loi quelconque
de moyenne 𝑚 et de variance 𝜎 2
𝑋ത −𝑚
✓ ~ N(0,1) ∀n≥1
𝜎2
𝑋ത −𝑚
𝑛 ✓ →N(0,1)
𝜎2
𝑛 𝑆² 𝑛
2
✓ ~𝜒𝑛−1
𝜎2
𝑛 𝑆²
✓ → ∝
𝜎2
𝑋ത −𝑚
✓ ~𝑇𝑛−1
𝑆2
𝑋ത −𝑚
𝑛−1 ✓ → N(0,1)
𝑆2
✓ 𝑋ത et S² sont indépendants 𝑛−1

𝑛 𝑇²
N.B. Dans le cas où la moyenne est connue le résultat ~𝜒𝑛2 𝑆² −𝜎 2
𝜎2 ✓ →N(0,1).
peut aussi être utilisé; T² = 1Τ𝑛 σ𝑛𝑖=1 𝑋𝑖 − 𝑚 2 . (𝜏4 −𝜎 4 )/𝑛
Pr A.BENGHABRIT
Population
P (N,E(X), Var(X), 𝐹𝑋 )
paramètres inconnus

Echantillonnage Inférence
Estimation statistique
Ponctuelle : Echantillon
E(n,𝑥,ҧ s², 𝐹𝑛 )
Rappel paramètres connus

Pr. A.BENGHABRIT
benghabrit@enim.ac.ma
Principe de l’Estimation
❖ Quand nous étudions une population, nous cherchons à maîtriser un phénomène X
qui admet une loi de probabilité (mesurable) 𝑓 𝑥; 𝜃 où x est la réalisation de X et 𝜃 est
un paramètre inconnu. Nous supposons à ce stade que 𝑓 est connue.

❖ Problématique : Trouver une estimation de 𝜃 ce qui revient à trouver une


approximation de 𝜃.

❖ Solution : Trouver une estimation de 𝜃 est définie de deux manières :

1. Estimation ponctuelle : 𝜃 est remplacé par une valeur

2. Estimation par intervalle de confiance : Un intervalle qui a de grande chance de


contenir 𝜃 est cherché.
Pr A.BENGHABRIT
Estimation/Estimateur
❖ L’estimation est une fonction définie comme : 𝜑 ∶ ℝ𝑛 → ℝ

෢𝑛
𝑥 =(𝑥1 , … , 𝑥𝑛 ) → 𝜑(𝑥) = 𝜃

෢𝑛 estimation de 𝜃 est une réalisation d’une variable aléatoire Θ


❖𝜃 ෢𝑛 = 𝜑(𝑋) =
෢𝑛 est dit estimateur de 𝜃.
𝜑(𝑋1 , … , 𝑋𝑛 ). Θ

❖ L’estimateur est une variable aléatoire (il s’agit d’une fonction) tandis que l’estimation
est une réalisation de l’estimateur (il s’agit d’une valeur).

❖ L’estimateur et l’estimation sont toujours en fonction de l’échantillon et des


paramètres connus.

Pr A.BENGHABRIT
Qualités d’un estimateur
෢𝑛 est dit non biaisé si et seulement si E(Θ
1. Un estimateur Θ ෢𝑛 ) = 𝜃.

෢𝑛 est dit
2. Un estimateur Θ ෢𝑛 →𝑃 𝜃.
convergent si et seulement si Θ En général, nous
démontrons la convergence presque sûre ou en moyenne quadratique puisqu’elles
impliquent la convergence en probabilité.

1
෢𝑛 est dit efficace si et seulement si Var(Θ
3. Un estimateur non biaisé Θ ෢𝑛 ) = .
𝐼𝑛 (𝜃)

𝜕
𝐼𝑛 (𝜃) est la quantité d’information de Fisher, 𝐼𝑛 (𝜃) = E[( 𝐿𝑛𝐿𝑋 (𝑋; 𝜃))2 ]. Si la condition { x /
𝜕𝜃

𝜕²
𝑓𝑋 (𝑥, 𝜃) > 0} ne dépend pas de 𝜃 alors 𝐼𝑛 (𝜃) = E[ 𝐿𝑛𝐿𝑋 (𝑋; 𝜃)].
𝜕𝜃²

෢𝑛 (1) et Θ
Soient Θ ෢𝑛 (2) deux estimateurs non biaisés de 𝜃. Θ
෢𝑛 (1) est plus efficace que Θ
෢𝑛 (2) si et
(1) (2)
෢ ෢
seulement si Var(Θ𝑛 ) < Var(Θ𝑛 ).
Pr A.BENGHABRIT
Estimation par la méthode des moments
❖ Les moments d’ordre k d’une variable aléatoire X sont les moyennes mathématiques
E(𝑋 𝑘 ) 𝑘 ≥ 1.

❖ Les moments centrés d’ordre k d’une variable aléatoire X sont les moyennes
mathématiques E((𝑋 − 𝐸(𝑋))𝑘 ) 𝑘 ≥ 1.

෢𝑛 = ℎ(𝑋) est un estimateur de 𝜃.


❖ Si E(h(X)) = 𝜃 => Θ

1
ത = h( 1 σ𝑛𝑖=1 𝑋𝑖 ).
ℎ(𝑋) = σ𝑛𝑖=1 ℎ(𝑋𝑖 ) et h(𝑋)
𝑛 𝑛

෢𝑛 = 1/α ℎ(𝑋) - β/α.


❖ Si E(h(X)) = α 𝜃 + β => Θ

Pr A.BENGHABRIT
Estimation par la méthode du maximum de
vraisemblance
❖ La fonction de vraisemblance est la loi de probabilité du vecteur échantillon aléatoire
𝑋 = (𝑋1 , … , 𝑋𝑛 ).

❖ La loi du vecteur 𝑋 est la densité de probabilité de 𝑋 au point échantillon 𝑥 =


(𝑥1 , … , 𝑥𝑛 ). On la note 𝐿𝑋 (𝑥; 𝜃) = ‫𝑋(𝑓 ׬‬1 ,…,𝑋𝑛 ) (𝑥1 , … , 𝑥𝑛 ) 𝑑𝑥1 … 𝑑𝑥𝑛 = ς𝑛𝑖=1 𝑓𝑋i (𝑥i ) =
ς𝑛𝑖=1 𝑓𝑋 (𝑥i ) : Loi d’un vecteur composé de variables aléatoires indépendantes est le
produit des lois marginales.

❖ Un estimateur au sens du maximum de vraisemblance est un estimateur qui réalise un


෢𝑛 ) ≥ 𝐿𝑋 (𝑥; 𝜃).
maximum de 𝐿𝑋 (𝑥; 𝜃). ∀𝜃 𝐿𝑋 (𝑥;𝜃

Pr A.BENGHABRIT
Estimation par la méthode du maximum de
vraisemblance
❖ Si {x/𝑓𝑋 (𝑥, 𝜃) > 0} ne dépend pas de 𝜃, le maximum en 𝜃 de 𝐿𝑋 (𝑥; 𝜃) est défini par :

𝜕
❖ 𝐿𝑛𝐿𝑋 (𝑋; ෢𝑛 .
𝜃) = 0 => 𝜃 = 𝜃
𝜕𝜃

𝜕²
❖ 𝐿𝑛𝐿𝑋 (𝑋; ෢𝑛 ) < 0.
𝜃) (pour 𝜃 = 𝜃
𝜕𝜃²

Le résultat donne un estimateur au sens du maximum de vraisemblance.

෢𝑛 un estimateur non biaisé. Si {𝑥/𝑓𝑋 (𝑥, 𝜃) > 0} ne dépend pas de 𝜃 et après


❖ Soit Θ
vérification des conditions de régularité sur la loi de f (conditions vérifiés pour la
majorité des lois de la famille exponentielle dont les lois normale et khi-deux), alors
෢𝑛 ) ≥ 1/𝐼𝑛 𝜃 (si E(Θ
Var(Θ ෢𝑛 ) = h(𝜃) alors Var(Θ
෢𝑛 ) ≥ (h’(𝜃))²/𝐼𝑛 𝜃 ).
Pr A.BENGHABRIT

Vous aimerez peut-être aussi