Académique Documents
Professionnel Documents
Culture Documents
Cours de Statistique appliquée-S5-ENCG Fès-Pr. Abdessamad OUCHEN-2020 2021
Cours de Statistique appliquée-S5-ENCG Fès-Pr. Abdessamad OUCHEN-2020 2021
-« Lors du référendum du 23 Juin 2016, les Britanniques ont voté à 51,9% le Brexit, c’est-à-dire
la sortie du Royaume-Uni de l’Union européenne –Economie & Entreprises /Aout-Septembre
2016», etc.
Méthodes L’échantillonnage
d’échantillonnage systématique
L’échantillonnage
par commodité
Méthodes
d’échantillonnage
non probabiliste
L’échantillonnage
10 subjectif
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Section 1- Les lois continues
Définition:
Une gaussienne est une variable aléatoire qui peut prendre
toute valeur réelle et dont la densité de probabilité est donnée par :
1 −𝑥 2
𝑓 𝑥 = exp( ) ∀𝑥 ∈ ℝ.
2𝜋 2
E(X) = 0 et V(X) = 1.
Définition:
E(X) = a et V(X) = b2
On pose : 𝑎 = 𝜇 et 𝑏 2 = 𝜎 2 .
−1 𝑥−𝜇 2
1
Elle est définie par : 𝑓 𝑥 = 𝑒2 ( 𝜎 ) ∀𝑥 ∈ ℝ.
𝜎 2𝜋
Où : 𝜋 ≅ 3,14159 et 𝑒 ≅ 2,71828
1
𝜎 2𝜋
𝑥 = 𝜇 = 𝑚𝑂 = 𝑚𝑒
18
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
*La moyenne de la distribution peut être négative, nulle ou
positive. Le graphique ci-dessous représente trois courbes
normales ayant le même écart-type 𝜎 mais trois moyennes
différentes (𝜇1 = -10, 𝜇2 = 0 et 𝜇3 = 20)
𝜇1 = -10 𝜇2 = 0 𝜇3 = 20
𝑥=𝜇
20 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
*Plus l’écart-type est grand, plus la courbe sera large, aplatie,
traduisant ainsi une plus grande dispersion des données. Le
graphique ci-dessous représente deux distributions normales
de même moyenne 𝜇 mais avec des écarts type différents
(𝜎1 = 5 < 𝜎2 = 10)
1 = 5
2 = 10
𝜇−𝜎 𝜇 𝜇+𝜎
1- Si 𝑋~𝑁(0; 1).
2-
Définition:
Soient 𝑋1 , 𝑋2 , … , 𝑋𝑛 n variables aléatoires telles que :
𝑋𝑖 ~𝑁 0, 1 ∀𝑖 ∈ 1,2, … , 𝑛 .
Moments :
𝐸 𝜒𝑛2 = 𝑛 et 𝑉 𝜒𝑛2 = 2𝑛
𝑃 𝜒𝑛2 ≤ 𝑡 ≅ 𝐹 2𝑡 − 2𝑛 − 1 ∀𝑡 > 0;
2 −𝑛
𝜒𝑛
l'approximation suivante : ≈ 𝑁(0, 1)
2𝑛
=1
=5
= 10 = 30
𝑈
indépendante Y de loi de 𝜒𝑛2 . Le rapport suit la loi de
𝑌
𝑛
𝐸 𝑇𝑛 = 0 pour n > 1 ;
𝑛
et 𝑉 𝑇𝑛 = pour n > 2.
𝑛−2
𝑈
Lorsque n = 1, le rapport , qui est un rapport entre deux
𝑌
𝑛
𝑑𝑑𝑙 = 5
𝑑𝑑𝑙 = 1
𝑚
𝐸 𝐹(𝑛, 𝑚) = pour m >2;
𝑚−2
2𝑚2 (𝑛+𝑚−2)
et 𝑉 𝐹(𝑛, 𝑚) = pour m > 4.
𝑛 𝑚−2 2 (𝑚−4)
𝑇𝑛2 ~𝐹(1, 𝑛)
1
𝑃 𝐹 𝑚, 𝑛 ≤ 𝑡 = 𝑃 𝐹 𝑛, 𝑚 ≥ ∀𝑡 >0
𝑡
𝑖=1 𝑗 =1
Khi-deux à k degrés de liberté Khi-deux à m degrés de liberté
loi dissymétrique de moyenne loi dissymétrique de moyenne E(Y)=m et
E(X)=K et de variance V(X)=2k. de variance V(Y)=2m.
U~𝑁(0; 1)
U et X sont
indépendantes
𝐸 𝑋1 = 𝐸 𝑋2 = ⋯ = 𝐸 𝑋𝑛 = 𝐸 𝑋 = 𝜇
𝑉 𝑋1 = 𝑉 𝑋2 = ⋯ = 𝑉 𝑋𝑛 = 𝑉 𝑋 = 𝜎 2
Définition :
Soit 𝑋1 , 𝑋2 , … , 𝑋𝑛 un échantillon aléatoire simple de taille n,
on appelle moyenne d’échantillonnage (ou moyenne empirique)
1 𝑛
la statistique 𝑋 = 𝑖=1 𝑋𝑖 .
𝑛
1 𝑛
39
Sa réalisation est 𝑥 = 𝑖=1 𝑥𝑖 .
𝑛 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Moments de la moyenne d’échantillonnage :
*Espérance de la moyenne d’échantillonnage 𝑬 𝑿
1 𝑛 1 𝑛 1 𝑛 𝑛𝜇
𝐸 𝑋 =𝐸 𝑖=1 𝑋𝑖 = 𝐸 𝑖=1 𝑋𝑖 = 𝑖=1 𝐸(𝑋𝑖 ) = =𝜇.
𝑛 𝑛 𝑛 𝑛
𝑛 𝑛 𝑛
1 1 1 𝑛𝜎 2 𝜎 2
𝑉 𝑋 =𝑉 𝑋𝑖 = 2𝑉 𝑋𝑖 = 2 𝑉(𝑋𝑖 ) = 2 =
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
𝜎
L’écart-type de la moyenne d’échantillonnage est : 𝜎𝑥 =
𝑛
1 𝑛
Sa réalisation est : 𝑠𝑒2 = 𝑖=1(𝑥𝑖 − 𝑥 )2 .
𝑛
𝑛−1 2 1
𝐸 𝑆𝑒2 = 𝜎 = (1 − )𝜎 2
𝑛 𝑛
𝑛
2
1
𝑆 = (𝑋𝑖 − 𝑋)2
𝑛−1
𝑖=1
On aura alors : 𝐸 𝑆 2 = 𝜎 2
𝑛−1 2 𝑛−1 4
𝑉 𝑆𝑒2 = 𝜇4 − 𝜎4 +2 3 𝜎
𝑛3 𝑛
Où : 𝜇4 = 𝐸(𝑋 − 𝜇)4
𝜇4 𝑛−3
𝑉 𝑆2 = − 𝜎4
𝑛 𝑛(𝑛 − 1)
𝐸 𝐹 =𝑝
𝑝𝑞
𝑉 𝐹 =
𝑛
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
48
3-Distributions d’échantillonnage
3-1-Distribution d’échantillonnage de 𝑿
𝑋−𝜇
𝑈=𝜎 ~𝑁(0; 1)
𝑛
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
49
Remarque :
𝑋−𝜇
𝑈′ = ~𝑇𝑛−1 (variable de Student à n − 1 degrés de liberté)
𝑆
𝑛
50
Exemple :
En vue de juger si une entreprise est saine, l’économiste W. Beaver introduit
le ratio défini par le quotient de la marge brute d’autofinancement (cash flow)
par des dettes totales. Il démontre que le ratio des entreprises saines suit une loi
normale de moyenne µ=0,7 et d’écart-type égal à 𝜎 = 0,18.
𝑋−𝜇
𝑈=𝜎 ≈ 𝑁(0; 1)
𝑛
Le théorème central limite constitue la clé pour identifier la
forme de la distribution d’échantillonnage de 𝑋 lorsque la
distribution de la population est inconnue.
52 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Remarque :
𝑋−𝜇
grand (𝑛 ≥ 50), on aura également : 𝑈′ = 𝑆 ≈ 𝑁(0; 1).
𝑛
𝐹−𝑝
≈ 𝑁(0; 1)
𝑝(1 − 𝑝)
𝑛
Où p est la proportion d’éléments de la population qui ont le
caractère étudié.
55 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Exemple
1- Définition de l’estimateur :
Exemples :
Théorème :
𝜕𝐿𝑜𝑔𝑓(𝑥,𝜃) 2
Où : 𝐼𝑛 (𝜃) = 𝑛𝐸 est la quantité d’information de Fisher, avec :
𝜕𝜃
𝐿 𝑥1 , 𝑥2 , … , 𝑥𝑛 , 𝜃 = 𝐿 𝑥, 𝜃 = 𝑃(𝑋 = 𝑥𝑖 ) ; 𝑖 = 1, 2, … , 𝑛.
𝑖=1
1
𝑉 𝑇𝑛 =
𝐼𝑛 𝜃
71
3- Méthode de construction d’un estimateur :
Méthode du maximum de vraisemblance
72
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Définition :
On appelle estimateur de maximum de vraisemblance du paramètre 𝜃, la valeur
𝜃, qui vérifie les deux conditions suivantes :
𝜕𝐿𝑜𝑔𝐿(𝑥, 𝜃)
=0
𝜕𝜃
𝜕 2 𝐿𝑜𝑔𝐿(𝑥, 𝜃)
2
<0
𝜕𝜃
où 𝐿𝑜𝑔𝐿(𝑥, 𝜃 ) est le logarithme népérien de la fonction de vraisemblance
(likelihood) de l’échantillon 𝑋1 , 𝑋2 , … , 𝑋𝑛 définie par :
𝑛
𝐿 𝑥1 , 𝑥2 , … , 𝑥𝑛 , 𝜃 = 𝐿 𝑥, 𝜃 = 𝑖=1 𝑓(𝑥𝑖 , 𝜃), où : 𝑥1 , 𝑥2 , … , 𝑥𝑛 sont fixes et 𝜃 est
variable.
𝜎2 𝑋−𝜇
probabilité normale (𝑋~𝑁 𝜇; 𝑜𝑢 𝜎 ~𝑁(0; 1)), quelle que soit la taille de l’échantillon,
𝑛 𝑛
𝛼
Où : 𝑥 est la réalisation de 𝑋 et 𝑡1−𝛼 est le fractile d’ordre 1 − 2 de la loi normale
2
centrée réduite.
𝑋−𝜇
à 30 (et 𝑛 < 30), la statistique 𝑆 suit la loi de Student à n-1 degrés de liberté
𝑛
𝑋−𝜇
(𝑆 ~𝑇𝑛−1 ) et l’intervalle de confiance au niveau de confiance 1 − 𝛼 pour la
𝑛
𝑠 𝑠
𝑎 = 𝑥 − 𝑡1−𝛼 et 𝑏 = 𝑥 + 𝑡1−𝛼
2 𝑛 2 𝑛
𝛼
Où : 𝑥 est la réalisation de 𝑋 et 𝑡1−𝛼 est le fractile d’ordre 1 − de la loi de
2 2
𝜎2 𝑋−𝜇
approximée par la distribution normale 𝑁(𝜇; ) (ou encore 𝜎 ≈ 𝑁(0; 1)) et
𝑛 𝑛
𝜎 𝜎
𝑎 = 𝑥 − 𝑡1−𝛼 et 𝑏 = 𝑥 + 𝑡1−𝛼
2 𝑛 2 𝑛
𝛼
Où : 𝑥 est la réalisation de 𝑋 et 𝑡1−𝛼 est le fractile d’ordre 1 − de la loi normale
2 2
centrée réduite.
78 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
1-2-2-Cas de variance inconnue :
𝑠2 𝑋−𝜇
distribution normale 𝑁(𝜇; ) (𝑠 ≈ 𝑁(0; 1)) et l’intervalle de confiance au
𝑛 𝑛
𝑠 𝑠
𝑎 = 𝑥 − 𝑡1−𝛼 et 𝑏 = 𝑥 + 𝑡1−𝛼
2 𝑛 2 𝑛
𝛼
Où : 𝑥 est la réalisation de 𝑋 et 𝑡1−𝛼 est le fractile d’ordre 1 − de la loi
2 2
𝑝𝑞 𝐹−𝑝
𝐹 ≈ 𝑁 𝑝; ou encore ≈ 𝑁(0; 1), et l’intervalle de confiance au niveau de confiance 1 − 𝛼
𝑛 𝑝(1−𝑝)
𝑛
𝑝(1−𝑝) 𝑝(1−𝑝)
pour la proportion 𝑝 admet pour bornes : 𝑎 = 𝑓 − 𝑡1−𝛼 et 𝑏 = 𝑓 + 𝑡1−𝛼
2 𝑛 2 𝑛
Puisque p et 1-p sont inconnue, on les remplace respectivement par f et 1-f et les bornes de
l’intervalle de confiance au niveau de confiance 1 − 𝛼 pour la proportion 𝑝 deviennent égales à:
𝑓(1−𝑓) 𝑓(1−𝑓)
𝑎 = 𝑓 − 𝑡1−𝛼 et 𝑏 = 𝑓 + 𝑡1−𝛼
2 𝑛 2 𝑛
Où : f est la proportion d’éléments de l’échantillon qui ont le caractère étudié et 𝑡1−𝛼 est le fractile
2
𝛼
d’ordre 1 − de la loi normale centrée réduite.
2
𝑛 𝑋𝑖 −𝜇 2
𝑋~𝑁(𝜇; 𝜎 2 ), et la moyenne 𝜇 est connue, 𝜃 = 𝑖=1 ~𝜒𝑛2 , quelle
𝜎
𝑛 2 𝑛 2
𝑖=1(𝑥𝑖 −𝜇) 𝑖=1(𝑥𝑖 −𝜇)
𝑎= et 𝑏 =
𝑘 𝛼 𝑘 𝛼
𝑛;1− 2 𝑛;
2
𝛼 𝛼
Où : 𝑘𝑛;1−𝛼 et 𝑘𝑛; 𝛼 sont respectivement les fractiles d’ordre 1 − et
2 2 2 2
(𝑛−1)𝑆 2 (𝑛−1)𝑆 2
𝑎= et 𝑏 =
𝑘 𝛼 𝑘 𝛼
𝑛−1;1− 2 𝑛−1; 2
𝛼
Où : 𝑘𝑛−1;1−𝛼 et 𝑘𝑛−1; 𝛼 sont respectivement les fractiles d’ordre 1 −
2 2 2
𝛼
et de loi de khi-deux à n-1 degrés de liberté.
2
84 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Chapitre 3- La régression simple, la
régression multiple et les tests
statistiques
*Le modèle de régression multiple, qui est une extension du modèle de régression
simple, où une variable endogène (𝑦) est expliquée par plusieurs variables exogènes (𝑥1 ,
𝑥2 , …, 𝑥𝑘 ).
*La validation statistique d’un modèle de régression simple ou multiple via l’étude de sa
qualité d’ajustement et à l’aide des tests statistiques (test de significativité de chaque
coefficient du modèle estimé (le test de Student), le test de significativité globale du
modèle estimé (le test de Fisher), le test d’autocorrélation des résidus (le test de Durbin-
Watson), etc).
86
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Section 1- Rappel sur la régression simple
Date 𝑦 𝑥1 𝑥2
1 49 53 200
2 40 53 212
3 41 50 211
4 46 64 212
5 52 70 203
6 59 68 194
7 53 59 194
8 61 73 188
9 55 59 196
10 64 71 190
𝑦𝑡 = 𝑎0 + 𝑎1 𝑥1𝑡 + 𝑎2 𝑥2𝑡 + 𝜀𝑡
𝑅2 = 0,963
𝑛−1 9
𝑅2 =1− 2
1 − 𝑅 = 1 − 1 − 0,963 = 0,952
𝑛−𝑘−1 7
Pour le test de la significativité des variables explicatives de notre modèle estimé, on teste si chaque
coefficient de ces variables explicatives est significativement différent de 0 pour un seuil choisi, en général
𝛼 = 5 %. Le test de Student s’écrit comme suit:
𝐻0 : 𝑎𝑖 = 0
𝐻1 : 𝑎𝑖 ≠ 0
|𝑎𝑖 |
Pour 𝑎 = 0, la statistique = 𝑡𝑎∗ 𝑖 ~𝑇𝑛−𝑘−1 . La valeur donnée par la table de Student à 7 degrés de
𝜎𝑎
𝑖
𝛼/2
liberté et pour α=0,05 est : 𝑡𝑛−𝑘−1 = 𝑡70,025 = 2,365. Les « t-statistics » 𝑡𝑐 lui sont largement supérieurs :
Total 594,000 9
a. Valeurs prédites : (constantes), X2, X1
b. Variable dépendante : Y
571,907/2
𝐹∗ = 𝐹𝛼 𝑘, 𝑛 − 𝑘 − 1 = = 90,602
22,093/7
Les valeurs caractéristiques qui découlent de la table de DW pour n=10 et k=2 sont :
La valeur fournie par la statistique de DW est égale à 1,713. Elle est comprise entre
1,641 et 2. Elle tombe dans la zone d’indépendance des résidus.
Si la variable explicative 𝑥1 augmente d’une unité alors que toutes les autres
variables explicatives sont fixes, la variable expliquée se verra augmenter en
moyenne de 𝑎1 = 0,36 unité.
Si la variable explicative 𝑥2 augmente d’une unité alors que toutes les autres
variables explicatives sont fixes, la variable expliquée se verra diminuer en
moyenne de 𝑎2 = −0,632 unité.
103 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Références bibliographiques :