Vous êtes sur la page 1sur 107

Enseignant: Abdessamad OUCHEN

Année universitaire: 2023-2024

1 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Introduction générale:

Le mot statistique tire son origine du latin


statisticus relatif à l’état (status).

Il est apparu vers le milieu du XVIIème siècle.

2 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Au pluriel, les « statistiques » signifient un ensemble de
données numériques relatives à un groupe d’individus.
Exemples:
-« Concrétisé en 2006 avec l’achèvement de la première opération, le programme INDH-Inmae a
pu, actuellement, grâce à l’implication et la mobilisation des équipes de Lydec, atteindre un
investissement de 470 millions de DH à fin 2015 –la Vie éco-Du 29 Juillet au 25 Aout
2016» ;

-« Lors du référendum du 23 Juin 2016, les Britanniques ont voté à 51,9% le Brexit, c’est-à-dire
la sortie du Royaume-Uni de l’Union européenne –Economie & Entreprises /Aout-Septembre
2016», etc.

Les chiffres avancés dans les phrases ci-dessus (470 millions de


DH, 51,9%) sont appelés des statistiques.
3 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Au singulier, la « statistique » signifie un ensemble
des méthodes qui permettent de rassembler, de
présenter et d’analyser un ensemble de données
numériques.

4 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Dans un premier temps, la statistique a été employée
dans un sens purement descriptif de recueil ou de
collection de faits chiffrés, les statistiques.

Dans un second temps, elle a été utilisée pour étendre


les résultats et dégager des lois (l’inférence). Elle vise
à dégager, à partir de données observées sur quelques
individus d’une population, des résultats valables pour
l’ensemble de la population.

5 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


La méthodologie statistique Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès

la statistique descriptive qui consiste à remplacer des données


nombreuses par des indicateurs les plus pertinents possibles ainsi
qu’à les résumer sous forme de tableaux ou de graphiques (objet
du cours de « Statistique descriptive » en 1ère année);

l’inférence statistique qui est l’ensemble des méthodes qui


permettent de tirer des conclusions sur un groupe déterminé à
partir des données provenant d’un échantillon choisi dans cette
population, c’est-à-dire qui permettent la réalisation des
estimations et des tests d’hypothèses sur les caractéristiques
d’une population à partir des données de l’échantillon;

la théorie des probabilités (objet du cours du calcul des


probabilités en 2ème année) qui signifie l’analyse mathématique
des phénomènes dans lesquels le hasard intervient et qui est
utilisée pour déterminer les précisions des estimations de certains
paramètres (la théorie de l’estimation) ou des tests de certaines
hypothèses (la théorie des tests) : l’inférence statistique (objet du
cours de la statistique appliquée en 3ème année). 6
Le présent cours de « Statistique appliquée » se
compose de trois chapitres :

Chapitre 1- Les lois usuelles continues et


l’échantillonnage ;

Chapitre 2- L’estimation ponctuelle et l’estimation par


intervalle de confiance;

Chapitre 3- Les tests statistiques, la régression simple


et la régression multiple.

7 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Références bibliographiques (liste non exhaustive) :
• ELHAFIDI (Mouloud) et TOUIJAR (Driss), Eléments de statistique d’aide à la
décision, cours et exercices résolus, Imp. INFOS-PRINT-FES, Mars 2000.
• GOLDFARB (Bernard) et PARDOUX (Catherine), Introduction à la méthode
statistique, Gestion-Economie, Edition DUNOD, 2000.
• LECOUTRE (Jean-Pierre), Statistique et probabilités-Travaux dirigés-, Edition
DUNOD, 2000.
• LECOUTRE (Jean-Pierre), Statistique et probabilités, Cours et exercices
corrigés, Edition DUNOD, 2012.
• LETHIELLEUX (Maurice), Exercices de statistiques et probabilités avec rappels
de cours en 12 fiches, Edition DUNOD, 2009.
• PUPION (Pierre-Charles), Statistique pour la gestion, Edition DUNOD, 2008.
• Etc.
8 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
CHAPITRE 1 - LES LOIS CONTINUES ET
L’ÉCHANTILLONNAGE

9 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Le sondage
aléatoire simple

Le sondage aléatoire stratifié


(pour une population
Méthodes hétérogène)
d’échantillonnage
probabiliste Le sondage par grappes
(pour une population
homogène)

Méthodes L’échantillonnage
d’échantillonnage systématique

L’échantillonnage
par commodité
Méthodes
d’échantillonnage
non probabiliste
L’échantillonnage
10 subjectif
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Section 1- Les lois continues

1- La loi normale ou la loi de Laplace-Gauss

1-1- La loi normale centrée réduite

Définition:
Une gaussienne est une variable aléatoire qui peut prendre
toute valeur réelle et dont la densité de probabilité est donnée par :
! $% !
𝑓 𝑥 = exp( ) ∀𝑥 ∈ ℝ.
"# "

où : 𝜋 ≅ 3,14159 et 𝑒𝑥𝑝 = 𝑒 ≅ 2,71828


11 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
La fonction de répartition :

La fonction de répartition d’une loi normale centrée réduite est


la fonction primitive de densité f : 𝐹 𝑥 = 𝑃 𝑋 < 𝑥 = 𝜋(𝑥).
%
𝐹(𝑥) = ∫$& 𝑓 𝑡 𝑑𝑡
"# !
! % ( ! )
𝐹(𝑥) = ∫ 𝑒
"# $&
𝑑𝑡

12 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Les caractéristiques :

E(X) = 0 et V(X) = 1.

On écrit X∼N(E(X) ; V(X)), c’est-à-dire X∼N(0 ; 1).

13 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


1-2- La loi normale générale 𝑵(𝝁; 𝝈𝟐 )

Définition:

X est une variable aléatoire continue qui suit la loi normale


si X est déduite de Y∼N(0 ; 1) par la transformation
linéaire suivante : X = a + b Y avec a ∈ ℝ et b ∈ ℝ∗ .

14 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Moments :

E(X) = a et V(X) = b2

On pose : 𝑎 = 𝜇 et 𝑏 # = 𝜎 # .

Donc : X = 𝜇 + σ Y où E(X) = 𝜇 et V(X) = σ2

On écrit X∼N(𝜇 ; σ2).

15 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Densité de probabilité :

"$ %"& !
! ( ' )
Elle est définie par : 𝑓 𝑥 = ) "#
𝑒 ! ∀𝑥 ∈ ℝ.

Où : 𝜋 ≅ 3,14159 et 𝑒 ≅ 2,71828

16 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Fonction de répartition :

Elle est définie par : 𝐹 𝑥 = 𝑃 𝑋 < 𝑥 .


%
𝐹(𝑥) = ∫$& 𝑓 𝑡 𝑑𝑡
"$ #"& !
! % ( ' )
𝐹(𝑥) = ∫
) "# $&
𝑒 ! 𝑑𝑡

17 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Remarques :

*Le point le plus élevé de la courbe normale correspond à la


moyenne, qui est également la médiane et le mode de la
distribution.

1
𝜎 √2𝜋

𝑥 = 𝜇 = 𝑚𝑂 = 𝑚𝑒
18
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
*La moyenne de la distribution peut être négative, nulle ou
positive. Le graphique ci-dessous représente trois courbes
normales ayant le même écart-type 𝜎 mais trois moyennes
différentes (𝜇! = -10, 𝜇" = 0 et 𝜇* = 20)

𝜇1 = -10 𝜇2 = 0 𝜇3 = 20

19 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


*La distribution normale est symétrique par rapport à la droite 𝑥 =
𝜇. Les queues de la courbe s’étendent à l’infini de chaque côté et
ne touchent jamais à l’axe horizontal.

𝑥=𝜇
20 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
*Plus l’écart-type est grand, plus la courbe sera large, aplatie,
traduisant ainsi une plus grande dispersion des données. Le
graphique ci-dessous représente deux distributions normales
de même moyenne 𝜇 mais avec des écarts type différents
(𝜎! = 5 < 𝜎" = 10)

𝜎! = 5

𝜎$ = 10

21 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


*La courbe de la densité de probabilité de la loi normale admet deux points d’inflexion
aux points 𝜇 − 𝜎 et 𝜇 + 𝜎.

𝜇−𝜎 𝜇 𝜇+𝜎

22 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Exemples:

1- Si 𝑋~𝑁(0; 1).

a-Calculer : 𝑃(𝑋 < 0,38) ; 𝑃(𝑋 < −0,38) ; et 𝑃( 𝑋 < 1,96).

b-Calculer la valeur du fractile t, telle que : 𝑃 𝑋 < 𝑡 = 0,8461 ;


et 𝑃 𝑋 < 𝑡 = 0,4483.

2-

a-Pour 𝑋~𝑁(4; 4) , calculer la valeur du réel t, telle que :


𝑃 𝑋 < 𝑡 = 0,8413.

b-Pour 𝑋~𝑁(−4; 25), calculer 𝑃 𝑋 < 1,65 .


23 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
2- La loi de Khi-deux

Définition:
Soient 𝑋!, 𝑋", … , 𝑋+ n variables aléatoires telles que :
𝑋, ~𝑁 0, 1 ∀𝑖 ∈ 1,2, … , 𝑛 .

Alors : 𝑋!" + 𝑋"" + ⋯ + 𝑋+"~𝜒+" (la loi de Khi-deux à n d.d.l.)

Moments :

𝐸 𝜒+" = 𝑛 et 𝑉 𝜒+" = 2𝑛

24 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Convergence de la loi de Khi-deux vers la loi
normale :
*Pour n ≥ 30, on peut utiliser :

soit l’approximation de Fisher : 2𝜒!" − 2𝑛 − 1 ≈ 𝑁 0, 1 , c’est-à-


dire :

𝑃 𝜒!" ≤ 𝑡 ≅ 𝐹 2𝑡 − 2𝑛 − 1 ∀𝑡 >0;

*Pour n > 100, on peut utiliser :

" $!
#!
l'approximation suivante : ≈ 𝑁(0, 1)
"!

25 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Fonctions de densité de la loi de Khi-deux (pour 𝐧 = 𝟏 ; 𝐧 =
𝟓 ; 𝐧 = 𝟏𝟎 et 𝐧 = 𝟑𝟎):

𝑑𝑑𝑙 = 1

𝑑𝑑𝑙 = 5

𝑑𝑑𝑙 = 10 𝑑𝑑𝑙 = 30

26 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


3-La loi de Student
Définition :

On peut définir la loi de Student à partir d’une variable


aléatoire U de loi N(0,1) et d’une autre variable aléatoire

-
indépendante Y de loi de 𝜒+" . Le rapport suit la loi de
(
)

Student à n degrés de liberté, notée 𝑇+ .

27 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Moments :

𝐸 𝑇+ = 0 pour n > 1 ;
+
et 𝑉 𝑇+ = +$"
pour n > 2.

28 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Remarque :

-
Lorsque n = 1, le rapport , qui est un rapport entre deux
(
)

variables normales indépendantes, suit une loi de Cauchy qui


n’admet aucun moment.

29 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Fonctions de densité de la loi de Student (pour n=1 et n=5) :

𝑑𝑑𝑙 = 5

𝑑𝑑𝑙 = 1

30 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


4- La loi de Fisher-Snedecor :

Si U et V sont deux variables aléatoires indépendantes de


*⁄
lois respectives 𝜒+" et ",
𝜒. alors le rapport +⁄
)
suit une loi de
,

Fisher-Snedecor à n et m degrés de liberté, notée F(n, m).

31 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Moments :

.
𝐸 𝐹(𝑛, 𝑚) = .$" pour m >2;
".! (+0.$")
et 𝑉 𝐹(𝑛, 𝑚) = pour m > 4.
+ .$" ! (.$1)

32 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Remarque :

𝑇$# ~𝐹(1, 𝑛)

33 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Propriété de la fonction de répartition :

Pour trouver t tel que 𝑃 𝐹 𝑚, 𝑛 ≤ 𝑡 = 5% 𝑜𝑢 1% , on


utilise la propriété :

1
𝑃 𝐹 𝑚, 𝑛 ≤ 𝑡 = 𝑃 𝐹 𝑛, 𝑚 ≥ ∀𝑡 >0
𝑡

Soit 𝑓2 (𝑚, 𝑛) le fractile t, d’ordre 𝛼, de la loi 𝐹(𝑚, 𝑛)


(avec 𝛼 = 5% 𝑜𝑢 1%).
!
3- (.,+)
est le fractile 1/t, d’ordre 1 − 𝛼, de la loi 𝐹(𝑛, 𝑚), c’est-à-
!
dire : = 𝑓!$2 (𝑛, 𝑚).
3- (.,+)
34
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
5-8-Schéma synthétique des lois continues courantes
Soient : X1, X2, …, Xk gaussiennes centrées réduites ;
Y1, Y2, …, Ym gaussiennes centrées réduites ;
et toutes indépendantes.

La loi de khi-deux : La loi de khi-deux :


𝑘 𝑚

𝑋 = # 𝑋𝑖2 ~𝜒𝑘2 𝑌 = # 𝑌𝑗 2 ~𝜒𝑚


2

𝑖=1 𝑗 =1
Khi-deux à k degrés de liberté Khi-deux à m degrés de liberté
loi dissymétrique de moyenne loi dissymétrique de moyenne E(Y)=m et
E(X)=K et de variance V(X)=2k. de variance V(Y)=2m.

U~𝑁(0; 1)
U et X sont
indépendantes

La loi de Student : La loi de Fisher :


𝑈 𝑋/𝑘
F = F(k, m) = 𝑌/𝑚
𝑇𝑘 =
4𝑋 Fisher-Snedecor à k et m degrés de liberté
𝑘 𝑚
Loi dissymétrique de moyenne E(F)=𝑚 −2
Student à k degrés de liberté
loi symétrique de moyenne (pour m>2) et de variance
2𝑚 2 (𝑘+𝑚 −2)
E(𝑇𝑘 )=0 (pour k>1)et de variance V(F)=𝑘 (𝑚 −2)2 (𝑚 −4) (pour m>4).
𝑘
V(𝑇𝑘 )= (pour k>2).
𝑘−2
35 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Section 2- L’échantillonnage
1-Echantillonnage aléatoire simple
Définitions :
*On appelle échantillon aléatoire simple celui où chaque
individu de la population a la même chance d’être choisi chaque
fois que l’on tire une observation. En d’autres termes, c’est un
échantillon dont les n observations 𝑋!, 𝑋", … , 𝑋+ sont
indépendantes. La loi de chaque observation est la même que
celle de la population. Chaque observation a alors même moyenne
et même écart-type que la population.

36 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


*(𝑋!, 𝑋", … , 𝑋+ ) sont n variables aléatoires indépendantes et de
même loi que celle de X (iid); il est appelé n-échantillon ou
échantillon de taille n de X.

𝐸 𝑋! = 𝐸 𝑋" = ⋯ = 𝐸 𝑋+ = 𝐸 𝑋 = 𝜇

𝑉 𝑋! = 𝑉 𝑋" = ⋯ = 𝑉 𝑋+ = 𝑉 𝑋 = 𝜎 "

Après tirage au sort, (𝑋!, 𝑋", … , 𝑋+ ) prennent les valeurs


(𝑥!, 𝑥", … , 𝑥+ ).

*La réalisation de l’échantillon (𝑋!, 𝑋", … , 𝑋+ ) est l’ensemble


des valeurs observées (𝑥!, 𝑥", … , 𝑥+ ).
37 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
*Une statistique Y sur un échantillon (𝑋!, 𝑋", … , 𝑋+ ) est une
variable aléatoire qui est une fonction mesurable des 𝑋5 : 𝑌 =
𝑓(𝑋!, 𝑋", … , 𝑋+ ). En d’autres termes, une statistique est une
variable aléatoire fonction d’autres variables aléatoires.

La réalisation de la variable aléatoire Y (de la statistique Y)


est la valeur 𝑦 = 𝑓(𝑥!, 𝑥", … , 𝑥+ ).

Les statistiques sont utilisées pour estimer les


caractéristiques de la population totale. Les statistiques les plus
utilisées sont : la moyenne empirique, la variance empirique et la
fréquence empirique.
38 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
2-Caractéristiques de l’échantillonnage
(ou Statistiques d’échantillonnage)
b (ou moyenne empirique)
2-1-Moyenne d’échantillonnage 𝑿

Pour estimer la moyenne de la population 𝜇, on utilise la


d
moyenne d’échantillonnage 𝑋.

Définition :
Soit 𝑋!, 𝑋", … , 𝑋+ un échantillon aléatoire simple de taille n,
on appelle moyenne d’échantillonnage (ou moyenne empirique)
! +
d
la statistique 𝑋 = + ∑,6! 𝑋, .

! +
Sa réalisation est 𝑥̅ = ∑,6! 𝑥, .
39 + Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Moments de la moyenne d’échantillonnage :
b
*Espérance de la moyenne d’échantillonnage 𝑬 𝑿

Il convient de rappeler que chaque observation de l’échantillon


aléatoire 𝑋!, 𝑋", … , 𝑋+ a la même moyenne 𝜇 et la même variance
𝜎 " que la population qui suit une loi quelconque notée :
𝑋~𝐿𝑄 𝜇, 𝜎 " , où 𝜇 est la moyenne de la population et 𝜎 " est sa
variance. Donc :

! + ! ! +7
𝐸 𝑋d = 𝐸 ∑ 𝑋
+ ,6! ,
= + 𝐸 ∑+,6! 𝑋, = + ∑+,6! 𝐸(𝑋, ) = +
=𝜇.

Résultat, l’espérance mathématique de 𝑋d est égale à la moyenne


de la population d’où est issu l’échantillon.
40 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
*Variance et écart-type de la moyenne
d’échantillonnage :

La variance de la moyenne d’échantillonnage est :

! ! !
1 1 1 𝑛𝜎 " 𝜎 "
𝑉 𝑋4 = 𝑉 7 𝑋* = " 𝑉 7 𝑋* = " 7 𝑉(𝑋* ) = " =
𝑛 𝑛 𝑛 𝑛 𝑛
*+, *+, *+,

/
L’écart-type de la moyenne d’échantillonnage est : 𝜎.̅ =
!

41 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Exemple:

On dispose d’une étude statistique où l’écart-type de


la moyenne d’échantillonnage est de 20. L’écart-type de
la population est égal à 500.
Quelle est la taille de l’échantillon utilisé dans cette
étude?

42 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


2-2-Variance d’échantillonnage 𝑺𝟐𝒆
(ou variance empirique)

La variance empirique d’un échantillon aléatoire simple


!
d ".
𝑋!, 𝑋", … , 𝑋+ de X est la statistique : 𝑆8" = ∑+,6!(𝑋, − 𝑋)
+

!
Sa réalisation est : 𝑠8" = + ∑+,6!(𝑥, − 𝑥)̅ ".

43 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Moments de la variance d’échantillonnage :
*Espérance de la variance d’échantillonnage 𝑬 𝑺𝟐𝒆

𝑛−1 " 1 "


𝐸 𝑆!" = 𝜎 = (1 − )𝜎
𝑛 𝑛

Puisque la valeur moyenne de la variance empirique n’est pas exactement


égale à la variance de la population, on introduit la variance empirique
modifiée (ou corrigée), appelée la quasi-variance, qui a pour expression :

&
1
"
𝑆 = 1 "
/(𝑋# − 𝑋)
𝑛−1
#$%

On aura alors : 𝐸 𝑆 " = 𝜎 "

44 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


*Variance de la variance d’échantillonnage :

La variance de la variance d’échantillonnage est :

𝑛−1 " 𝑛−1 1


𝑉 𝑆8" = 𝜇1 − 𝜎1 +2 * 𝜎
𝑛* 𝑛

Où : 𝜇1 = 𝐸(𝑋 − 𝜇)1

La variance de la quasi-variance est :

𝜇1 𝑛−3
𝑉 𝑆" = − 𝜎1
𝑛 𝑛(𝑛 − 1)

45 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Exemple:

Soit X! , X " ,…,X "; un échantillon d’une variable aléatoire X


suivant une loi normale de moyenne m et de variance 𝜎 ". Nous
observons :
"; ";
n 𝑥, = 50,23 𝑒𝑡 n 𝑥," = 25175,92.
,6! ,6!
Calculer les réalisations de la variance empirique 𝑠8" et de la
quasi-variance 𝑠 ".

46 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


2-3-Proportion d’échantillonnage F

Si 𝑋!, 𝑋", … , 𝑋+ est un échantillon iid d’une loi de Bernoulli,


c’est-à-dire 𝑋, prend la valeur 1 si le i-ème élément tiré au hasard
dans la population a le caractère étudié ou 0 dans le cas contraire,
<$ 0<! 0⋯0<)
d
alors la moyenne aléatoire de l’échantillon 𝑋 = +

correspond en fait à la proportion ou fréquence aléatoire sur


l’échantillon, notée F.
+
1
𝐹 = n 𝑋,
𝑛
,6!

47 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Moments de la fréquence d’échantillonnage :

*Espérance de la fréquence d’échantillonnage 𝑬 𝑭

Soit 𝑋!, 𝑋", … , 𝑋+ un échantillon iid d’une loi de


Bernoulli, c’est-à-dire 𝑋, ~𝐵(𝑝).

𝐸 𝐹 =𝑝

*Variance de la fréquence d’échantillonnage :

La variance de la fréquence d’échantillonnage est :

𝑝𝑞
𝑉 𝐹 =
𝑛
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
48
3-Distributions d’échantillonnage

b
3-1-Distribution d’échantillonnage de 𝑿

3-1-1- Cas de population normale

Lorsque la distribution de probabilité de la population est


normale, 𝑋~𝑁(𝜇; 𝜎 "), et la variance 𝜎 "est connue, la distribution
d’échantillonnage de 𝑋d a une distribution de probabilité normale,
quelle que soit la taille de l’échantillon, et on écrit :

𝑋d − 𝜇
𝑈=𝜎 ~𝑁(0; 1)
s 𝑛

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


49
Remarque :

Dans le cas où la variance 𝜎 " est inconnue (et 𝑛 < 30), on aura
également :

d−𝜇
𝑋
𝑈> = ~𝑇+$! (variable de Student à n − 1 degrés de liberté)
𝑆s
𝑛

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès

50
Exemple :
En vue de juger si une entreprise est saine, l’économiste W. Beaver introduit
le ratio défini par le quotient de la marge brute d’autofinancement (cash flow)
par des dettes totales. Il démontre que le ratio des entreprises saines suit une loi
normale de moyenne µ=0,7 et d’écart-type égal à 𝜎 = 0,18.

1. Au vu d’un échantillon de 25 entreprises saines, quelle est la probabilité que


la moyenne des ratios de ces entreprises soit supérieure à 0,7484 ?
2. Supposons que le ratio des entreprises saines suit une loi normale de
moyenne µ=0,7 et d’écart-type inconnu. A partir d’un échantillon de 25
entreprises saines, l’écart-type est égal à 0,18 (s' = 0,18). Quelle est la
probabilité que la moyenne des ratios des entreprises de cet échantillon soit
supérieure à 0,7484 ?
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
51
3-1-2- Cas de population quelconque
Théorème central limite
Lorsque n est grand (𝑛 ≥ 30) et la variance 𝜎 " est connue, en
vertu du théorème de Lioupanoff, la distribution de 𝑋d peut être
)!
approximée par la distribution normale 𝑁(𝜇; ) et l’on en déduit :
+

𝑋d − 𝜇
𝑈=𝜎 ≈ 𝑁(0; 1)
s 𝑛

Le théorème central limite constitue la clé pour identifier la


forme de la distribution d’échantillonnage de 𝑋d lorsque la
distribution de la population est inconnue.
52 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Remarque :

Dans le cas où la variance 𝜎 # est inconnue et n est

1
678
grand (𝑛 ≥ 50), on aura également : 𝑈′ = ! ≈ 𝑁(0; 1).
9 "

53 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Exemple:

On dispose d’une étude statistique où l’écart-type de la


moyenne d’échantillonnage est de 20. L’écart-type de la
population est égal à 500.
1-Quelle est la taille de l’échantillon utilisé dans cette étude.
2-Quelle est la probabilité que la moyenne d’échantillonnage
s’écarte de plus ou moins 25 de la moyenne de la population.

54 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


3-2-Distribution d’échantillonnage de F

Lorsque 𝑋!, 𝑋", … , 𝑋+ est un échantillon iid d’une loi de


Bernoulli, on a, selon le théorème central limite, pour n grand et p ni
trop voisin de 0 ni trop proche de 1 (dans la pratique, pour n ≥
30; np ≥ 5 et nq = n(1 − p) ≥ 5):

𝐹−𝑝
≈ 𝑁(0; 1)
𝑝(1 − 𝑝)
𝑛
Où p est la proportion d’éléments de la population qui ont le
caractère étudié.
55 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Exemple

La proportion des consommateurs du produit « Alpha » est


égale à 0,60 (p=0,60). On se propose prélever un échantillon
aléatoire de 100 consommateurs. Trouver un intervalle, centré en
p, dans lequel se trouve la fréquence des consommateurs dudit
produit de l’échantillon avec une probabilité de 95%.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


56
3-3-Distribtion d’échantillonnage de 𝑺𝟐

Lorsque 𝑋!, 𝑋", … , 𝑋+ est un échantillon iid d’une loi


normale 𝑁(𝜇; 𝜎 "), où la moyenne 𝜇 est connue, on a quelle
que soit la taille n de l’échantillon :
+ "
𝑋, − 𝜇
𝜃=n ~𝜒+"
𝜎
,6!

Lorsque 𝑋!, 𝑋", … , 𝑋+ est un échantillon iid d’une loi


normale 𝑁(𝜇; 𝜎 "), où la moyenne 𝜇 est inconnue, on a quelle
(+$!)?! "
que soit la taille n de l’échantillon : 𝜃′ = ~𝜒+$! .
)!
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
57
Exemple:
On prélève 25 pièces dans une production industrielle.
Le diamètre de ces pièces suit une loi gaussienne de
moyenne 10mm et d’écart-type 2mm. Entre quelles
valeurs a-t-on 90% de
chances de trouver l’écart-type de ces pièces?
(On suppose que l’écart-type de ces pièces est
inférieur à la borne inférieure avec une probabilité
égale à 5%; et supérieur à la borne supérieure avec une
probabilité égale à 5% ) Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
58
CHAPITRE 2- L’ESTIMATION PONCTUELLE
ET L’ESTIMATION PAR INTERVALLE DE
CONFIANCE

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


59
« Estimer » consiste, à partir des observations
obtenues sur un échantillon, à attribuer des valeurs
numériques aux paramètres de la population dont cet
échantillon est issu, parce qu’il est en général
impossible d’analyser toute la population.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


60
En vue d’estimer les paramètres inconnus (la moyenne
𝜇, la proportion P et la variance 𝜎 # ) de la population,
on peut faire soit une estimation ponctuelle ou une
estimation par intervalle de confiance.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


61
Section 1- Estimation ponctuelle :

1- Définition de l’estimateur :

Soit X une variable aléatoire dont la distribution dépend d’un


paramètre 𝜃 qui appartient à l’espace des paramètres notée Θ. Soit
𝑋!, 𝑋", … , 𝑋+ un échantillon aléatoire de X de taille n et
𝑥!, 𝑥", … , 𝑥+ sa réalisation.

Un estimateur ponctuel de 𝜃 est une statistique 𝑇+ de la forme


𝑇+ = ℎ(𝑋!, 𝑋", … , 𝑋+ ) et sa réalisation est 𝑡+ = ℎ(𝑥!, 𝑥", … , 𝑥+ ).

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


62
2-Propriétés d’un estimateur
2-1- Biais d’un estimateur :

Soit 𝑋: , 𝑋# , … , 𝑋$ un échantillon aléatoire de taille n


relatif à la variable aléatoire parente X de loi qui dépend
du paramètre 𝜃. On appelle le biais 𝐵 d’un estimateur 𝑇$
du paramètre 𝜃 l’écart entre sa moyenne 𝐸 𝑇$ et la
vraie valeur du paramètre : 𝐵 = 𝐸 𝑇$ − 𝜃.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


63
Définitions :

Soit 𝑋!, 𝑋", … , 𝑋+ un échantillon aléatoire de taille n relatif à


la variable aléatoire parente X de loi qui dépend du paramètre 𝜃.
On appelle un estimateur sans biais du paramètre 𝜃 toute
statistique 𝑇+ = ℎ(𝑋!, 𝑋", … , 𝑋+ ), telle que : 𝐸(𝑇+ ) = 𝜃.

On appelle un estimateur asymptotiquement sans biais toute

statistique 𝑇+ = ℎ(𝑋!, 𝑋", … , 𝑋+ ), telle que : lim 𝐸 𝑇+ = 𝜃.


+→&

Exemples :

d 𝑆 " et F sont respectivement des estimateurs sans biais des


𝑋,
paramètres : 𝜇, 𝜎 " et P.
64 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
2-2- Convergence d’un estimateur :

Théorème :

Tout estimateur sans biais (𝐸 𝑇+ = 𝜃), ou asymptotiquement

sans biais ( lim 𝐸 𝑇+ = 𝜃 ), dont la variance tend vers zéro,


+→&

lim 𝑉 𝑇+ = 0, est un estimateur convergent de 𝜃.


+→&

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


65
Exemple :

𝑋d est un estimateur convergent de la moyenne de la population


𝜇.

En effet, 𝑋d est un estimateur sans biais de 𝜇, car : 𝐸 𝑋d = 𝜇 ;


A(<)
et lim 𝑉 𝑋d = lim = 0.
+→& +→& +

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


66
2-3- Efficacité d’un estimateur :
a-Qualité d’un estimateur :

La qualité d’un estimateur se mesure par l’erreur quadratique


moyenne, définie pour tout 𝜃 par :
𝐸𝑄 𝑇+ = 𝑉 𝑇+ + 𝐵"

Dans le cas particulier d’un estimateur sans biais, cette erreur


quadratique se confond avec la variance de l’estimateur.

Soient 𝑇+ et 𝑇′+ deux estimateurs sans biais de 𝜃. 𝑇+ est un


estimateur efficace que 𝑇′+ si :
𝑉 𝑇+ ≤ 𝑉 𝑇′+

67 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


b-Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR) :
Théorème :

Soit 𝑋% , 𝑋" , … , 𝑋& un échantillon aléatoire de taille n relatif à la variable aléatoire


parente X de loi qui dépend du paramètre 𝜃 et 𝑇& une statistique définie sur
%
𝑋% , 𝑋" , … , 𝑋& . Si 𝑇& est un estimateur sans biais de 𝜃, alors : 𝑉 𝑇& ≥ = 𝐵* (𝜃).
(! )

+,-./(1,)) "
Où : 𝐼& (𝜃) = 𝑛𝐸 est la quantité d’information de Fisher, avec :
+)

𝐿𝑜𝑔𝑓(𝑥, 𝜃) le logarithme népérien de la fonction de densité de X ;

et 𝐵* (𝜃) est la borne inférieure de FDCR.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


68
Remarque :

La quantité d’information de Fisher peut être également calculée par la


+" ,-.,(1,))
formule suivante : 𝐼& (𝜃) = 𝐸 − où 𝐿𝑜𝑔𝐿(𝑥, 𝜃 ) est le logarithme
+)"

népérien de la fonction de vraisemblance (likelihood) de l’échantillon


𝑋% , 𝑋" , … , 𝑋& définie par :

𝐿 𝑥% , 𝑥" , … , 𝑥& , 𝜃 = 𝐿 𝑥, 𝜃 = ∏&#$% 𝑓(𝑥# , 𝜃), où : 𝑥% , 𝑥" , … , 𝑥& sont fixes et 𝜃


est variable.

Pour le cas d’une variable discrète :

&
𝐿 𝑥% , 𝑥" , … , 𝑥& , 𝜃 = 𝐿 𝑥, 𝜃 = H 𝑃(𝑋 = 𝑥# ) ; 𝑖 = 1, 2, … , 𝑛.
#$%

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


69
Exemple:

Calculer la quantité d’information de Fisher 𝐼! 𝜇


de la loi normale.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


70
c-Estimateur efficace :

Un estimateur sans bais 𝑇$ est efficace si sa variance est


égale à la borne inférieure de FDCR :

1
𝑉 𝑇$ =
𝐼$ 𝜃

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès

71
3- Méthode de construction d’un estimateur :
Méthode du maximum de vraisemblance

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès

72
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Définition :
On appelle estimateur de maximum de vraisemblance du paramètre 𝜃, la valeur
N qui vérifie les deux conditions suivantes :
𝜃,

𝜕𝐿𝑜𝑔𝐿(𝑥, 𝜃)
=0
𝜕𝜃

𝜕 " 𝐿𝑜𝑔𝐿(𝑥, 𝜃)
" <0
𝜕𝜃
où 𝐿𝑜𝑔𝐿(𝑥, 𝜃 ) est le logarithme népérien de la fonction de vraisemblance
(likelihood) de l’échantillon 𝑋% , 𝑋" , … , 𝑋& définie par :

𝐿 𝑥% , 𝑥" , … , 𝑥& , 𝜃 = 𝐿 𝑥, 𝜃 = ∏&#$% 𝑓(𝑥# , 𝜃), où : 𝑥% , 𝑥" , … , 𝑥& sont fixes et 𝜃 est
variable.

Pour le cas d’une variable discrète :


73
𝐿 𝑥% , 𝑥" , … , 𝑥& , 𝜃 = 𝐿 𝑥, 𝜃 = ∏&#$% 𝑃(𝑋 = 𝑥# ) ; 𝑖 = 1, 2, … , 𝑛.
Section 2- Estimation par intervalle de confiance :

Soit X une variable aléatoire dont la loi dépend d’un


paramètre inconnu 𝜃 . L’intervalle de confiance au
niveau de confiance 1 − 𝛼 pour un paramètre 𝜃 est un
intervalle qui contient 𝜃 avec une probabilité 1 − 𝛼.
Autrement dit, 𝑎, 𝑏 est un intervalle de confiance au
niveau de confiance 1 − 𝛼 pour un paramètre 𝜃 signifie
𝑃 𝑎 ≤ 𝜃 ≤ 𝑏 = 1 − 𝛼. Le niveau de confiance le plus
utilisé est 90%, 95% ou 99%.
74 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
1- Intervalle de confiance de la moyenne 𝝁 :
1-1- Cas de population normale :

1-1-1-Cas de variance connue :

Lorsque la distribution de probabilité de la population est normale, 𝑋~𝑁(𝜇; 𝜎 % ), et la


variance 𝜎 % est connue, la distribution d’échantillonnage de 𝑋H a une distribution de

&! (
)*+
H
probabilité normale (𝑋~𝑁 𝜇; 𝑜𝑢 " ~𝑁(0; 1)), quelle que soit la taille de l’échantillon,
' , #

et l’intervalle de confiance au niveau de confiance 1 − 𝛼 pour la moyenne 𝜇 admet pour


& &
bornes : 𝑎 = 𝑥̅ − 𝑡-*$ et 𝑏 = 𝑥̅ + 𝑡-*$
! ' ! '

.
Où : 𝑥̅ est la réalisation de 𝑋H et 𝑡-*$ est le fractile d’ordre 1 − de la loi normale
! %

centrée réduite.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


75
1-1-2-Cas de variance inconnue :

Lorsque la distribution de probabilité de la population est normale,


𝑋~𝑁(𝜇; 𝜎 " ), la variance 𝜎 " est inconnue et la taille de l’échantillon est inférieure

4
567
à 30 (et 𝑛 < 30), la statistique # suit la loi de Student à n-1 degrés de liberté
8 !

4
567
(# ~𝑇&6% ) et l’intervalle de confiance au niveau de confiance 1 − 𝛼 pour la
8 !

moyenne 𝜇 admet pour bornes :

9 9
𝑎 = 𝑥̅ − 𝑡%6$ et 𝑏 = 𝑥̅ + 𝑡%6$
" & " &

:
Où : 𝑥̅ est la réalisation de 𝑋1 et 𝑡%6$ est le fractile d’ordre 1 − de la loi de
" "
Student à n-1 degrés de liberté.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


76
Exemple :

Le chiffre d’affaires moyen d’un commerçant, calculé sur les


vingt-cinq derniers jours, est de 4000 dirhams, avec une quasi-
variance de valeur s " = 360000 dirhams". Si on admet que son
chiffre d’affaires quotidien peut être représenté par une variable
aléatoire X de loi normale, d’espérance μ et de variance σ"
inconnues, donnez un intervalle de confiance de niveau 0,95 pour
le paramètre μ. Obtient-on le même intervalle si σ" est connue, de
valeur σ" = 360000 dirhams"?

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


77
1-2- Cas de population quelconque
1-2-1-Cas de variance connue :
Lorsque la distribution de probabilité de la population est inconnue,
𝑋~𝐿𝑄(𝜇; 𝜎 " ), la variance 𝜎 " est connue et la taille de l’échantillon est grande
(𝑛 ≥ 30), en vertu du théorème central-limite, la distribution de 𝑋1 peut être

;" 4
567
approximée par la distribution normale 𝑁(𝜇; ) (ou encore % ≈ 𝑁(0; 1)) et
& 8 !

l’intervalle de confiance au niveau de confiance 1 − 𝛼 pour la moyenne 𝜇 admet


pour bornes :

; ;
𝑎 = 𝑥̅ − 𝑡%6$ et 𝑏 = 𝑥̅ + 𝑡%6$
" & " &
:
Où : 𝑥̅ est la réalisation de 𝑋1 et 𝑡%6$ est le fractile d’ordre 1 − de la loi normale
" "
centrée réduite.
78 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
1-2-2-Cas de variance inconnue :

Lorsque la distribution de probabilité de la population est inconnue,


𝑋~𝐿𝑄(𝜇; 𝜎 " ), la variance 𝜎 " est inconnue et la taille de l’échantillon est grande
(𝑛 ≥ 50 ou même 𝑛 ≥ 100), la distribution de 𝑋1 peut être approximée par la

9" 4
567
distribution normale 𝑁(𝜇; & ) (& ≈ 𝑁(0; 1)) et l’intervalle de confiance au
8 !

niveau de confiance 1 − 𝛼 pour la moyenne 𝜇 admet pour bornes :

9 9
𝑎 = 𝑥̅ − 𝑡%6$ et 𝑏 = 𝑥̅ + 𝑡%6$
" & " &

:
Où : 𝑥̅ est la réalisation de 𝑋1 et 𝑡%6$ est le fractile d’ordre 1 − de la loi
" "
normale centrée réduite.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


79
Exemple :

Pour déterminer l’âge moyen de ses clients, une grande


entreprise de confection pour homme prélève un échantillon
aléatoire de 50 clients et trouve xd = 36. Si l’on connait σ" = 144 :

a- Donnez un intervalle de confiance de niveau 95 % pour l’âge


moyen μ de l’ensemble des clients.

b- Pour le même seuil de confiance (95%), on veut réduire


l’amplitude de l’intervalle de façon précise, ± 2 années (la marge
d’erreur d’échantillonnage e est égale à e = 2). Quelle doit être alors
la taille de l’échantillon ?
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
80
2- Intervalle de confiance de la proportion 𝒑 :
Lorsque 𝑋', 𝑋(, … , 𝑋) est un échantillon iid d’une loi de Bernoulli, la fréquence d’échantillonnage F
peut être approximée, en vertu du théorème central limite, pour n grand et p ni trop voisin de 0 ni trop
proche de 1 (dans la pratique, pour : n ≥ 30 ; np ≥ 5 et nq = n(1 − p) ≥ 5), par la loi normale: 𝐹 ≈

*+ ,-*
𝑁 𝑝; )
ou encore ≈ 𝑁(0; 1), et l’intervalle de confiance au niveau de confiance 1 − 𝛼 pour la
!(#$!)
&

*('-*) *('-*)
proportion 𝑝 admet pour bornes : 𝑎 = 𝑓 − 𝑡'-' )
et 𝑏 = 𝑓 + 𝑡'-' )
( (

Puisque p et 1-p sont inconnue, on les remplace respectivement par f et 1-f et les bornes de
l’intervalle de confiance au niveau de confiance 1 − 𝛼 pour la proportion 𝑝 deviennent égales à: 𝑎 = 𝑓 −

0('-0) 0('-0)
𝑡'-' )
et 𝑏 = 𝑓 + 𝑡'-' )
( (

Où : f est la proportion d’éléments de l’échantillon qui ont le caractère étudié et 𝑡'-' est le fractile
(
1
d’ordre 1 − de la loi normale centrée réduite.
(

81 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Exemple :

A la sortie d’une chaine de montage, 80 véhicules


automobiles tirés au sort sont testés de façon approfondie
et 5 d’entre eux présentent des défauts importants.
Donnez un intervalle de confiance de niveau 0,95 pour la
proportion p de véhicules fabriqués qui présentent des
défauts importants.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès

82
3- Intervalle de confiance de la variance 𝝈𝟐 :
3-1- Cas de moyenne connue
Lorsque la distribution de probabilité de la population est normale,

" ! M/ $N "
𝑋~𝑁(𝜇; 𝜎 ), et la moyenne 𝜇 est connue, 𝜃 = ∑*+, ~𝜒!" , quelle
/

que soit la taille de l’échantillon, et l’intervalle de confiance au niveau de


confiance 1 − 𝛼 pour la variance 𝜎 " admet pour bornes :

∑!
/01(./ $N)
" ∑!
/01(./ $N)
"
𝑎= et 𝑏 =
P 4 P 4
!;13 !;
" "

Q Q
Où : 𝑘!;,$4 et 𝑘!; 4 sont respectivement les fractiles d’ordre 1 − et
" " " "

de loi de khi-deux à n degrés de liberté.


Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
83
3-2- Cas de moyenne inconnue

Lorsque la distribution de probabilité de la population est normale,


(+$!)?! "
𝑋~𝑁(𝜇; 𝜎 "), et la moyenne 𝜇 est inconnue, 𝜃′ = ) ! ~𝜒+$! , quelle

que soit la taille de l’échantillon, et l’intervalle de confiance au niveau


de confiance 1 − 𝛼 pour la variance 𝜎 " admet pour bornes :

(+$!)?! (+$!)?!
𝑎= 5
et 𝑏 = 5
- -
)"$;$" )"$;
! !

2
Où : 𝑘+$!;!$- et 𝑘+$!; - sont respectivement les fractiles d’ordre 1 −
! ! "
2
et "
de loi de khi-deux à n-1 degrés de liberté.
84 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Exemple :
En vue de juger si une entreprise est saine, l’économiste W.
Beaver introduit le ratio défini par le quotient de la marge brute
d’autofinancement (cash flow) par des dettes totales.
Supposons que le ratio des entreprises saines suit une loi
normale de moyenne µ et d’écart-type 𝜎 inconnu. A partir d’un
échantillon de 25 entreprises saines, l’écart-type est égal à 0,18
(s^ = 0,18).
Donner un intervalle de confiance au niveau de confiance 0,95
pour la variance du ratio des entreprises saines.

85 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Exemple :
Soit (𝑋! , 𝑋" , … , 𝑋"# ) un échantillon de taille
n=25 d’une variable aléatoire X de loi normale
d’espérance µ et de variance 𝜎 " . Construisez un
"
intervalle de confiance pour 𝜎 de niveau 0,95
"#
ayant observé : ∑$%! 𝑥$ = 50,23 et
∑"#
$%!(𝑥$ − 𝑥)
"
̅ = 48,12.

86 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


CHAPITRE 3- LA RÉGRESSION SIMPLE, LA
RÉGRESSION MULTIPLE ET LES TESTS
STATISTIQUES

87 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


*Le modèle de régression simple : une variable endogène (ou variable
expliquée) (𝑦) est expliquée par une seule variable exogène (ou variable
explicative) (𝑥).

*Le modèle de régression multiple, qui est une extension du modèle de régression
simple, où une variable endogène (𝑦) est expliquée par plusieurs variables exogènes (𝑥- ,
𝑥% , …, 𝑥5 ).

*La validation statistique d’un modèle de régression simple ou multiple via l’étude de sa
qualité d’ajustement et à l’aide des tests statistiques (test de significativité de chaque
coefficient du modèle estimé (le test de Student), le test de significativité globale du
modèle estimé (le test de Fisher), le test d’autocorrélation des résidus (le test de Durbin-
Watson), etc).
88
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Section 1- Rappel sur la régression simple

89 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Section 2- La régression multiple et les tests
statistiques

Une variable endogène ( 𝑦 ) est expliquée par plusieurs


variables exogènes (𝑥!, 𝑥", …, 𝑥5 ):

𝑦W = 𝑎X + 𝑎!𝑥!W + 𝑎"𝑥"W + ⋯ + 𝑎5 𝑥5W + 𝜀W pour t=1,…, n

90 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


1- Estimation des coefficients du modèle de régression
multiple

Exemple : Une entreprise cherche à déterminer quelles sont


les influences de la promotion auprès des distributeurs 𝑥! (en
milliers d’unités monétaires) et la promotion auprès des
consommateurs 𝑥" (en milliers d’unités monétaires) sur les
ventes en tonnes (𝑦). Le tableau ci-dessous présente les données
annuelles de ces 3 variables sur une période de 10 ans.

91 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Tableau-Ventes, promotion auprès des distributions et promotion auprès des
consommateurs

Date 𝑦 𝑥1 𝑥2
1 49 53 200
2 40 53 212
3 41 50 211
4 46 64 212
5 52 70 203
6 59 68 194
7 53 59 194
8 61 73 188
9 55 59 196
10 64 71 190

92 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


-La première étape consiste à importer des données Excel. Après
avoir ouvert le logiciel SPSS, on choisit <Fichier> <Ouvrir>
<Données> et on sélectionne l’option Excel dans la fenêtre type
de fichiers.

Dans l’exemple de ce chapitre, on se propose d’expliquer les


ventes en tonnes (𝑦) par la promotion auprès des distributeurs (𝑥!)
et par la promotion auprès des consommateurs (𝑥" ). D’où le
modèle linéaire à deux variables explicatives suivant :

𝑦W = 𝑎X + 𝑎!𝑥!W + 𝑎"𝑥"W + 𝜀W

93 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


-L’estimation de ce modèle sous SPSS :

On choisit <Analyse> <Régression> <Linéaire>. Dans la


fenêtre « Régression linéaire », insérer 𝑦 (nom de la variable
expliquée 𝑦 (variable endogène)) dans la case « Variable
dépendante » et 𝑥! et 𝑥" (les noms des variables explicatives
(variable exogène)) dans la case « Variable indépendantes ».

94 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Dans l’option « statistiques » de cette fenêtre, on coche
« estimations », « qualité d’ajustement », « variation de R-deux »
et « intervalle de confiance », et cliquer sur « poursuivre », puis
sur « ok ». On obtient ainsi les résultats suivants :

Récapitulatif des modèlesb

Erreur Changement dans les statistiques

R-deux standard de Variation

Modèle R R-deux ajusté l'estimation de R-deux Variation de F ddl1 ddl2 Sig. Variation de F Durbin-Watson

1 ,981a ,963 ,952 1,777 ,963 90,603 2 7 ,000 1,713

a. Valeurs prédites : (constantes), X2, X1


b. Variable dépendante : Y
95 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Coefficients non Coefficients 95,0% % intervalles de
standardisés standardisés confiance pour B

Erreur Borne Limite


Modèle B standard Bêta T Sig. inférieure supérieure

1 (Constante) 156,083 20,265 7,702 ,000 108,164 204,002


X1 ,360 ,089 ,370 4,023 ,005 ,148 ,571

X2 -,632 ,082 -,710 -7,711 ,000 -,826 -,438

-le modèle estimé à partir de notre échantillon d’observations est :

𝑦•W = 156,083 + 0,36 𝑥!W − 0,632 𝑥"W + 𝑒W

96 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


2- Analyse de la variance, qualité d’ajustement et
tests statistiques
P𝟐 :
*Le coefficient de détermination 𝑹𝟐 et 𝑹𝟐 ajusté 𝑹

𝑅" = 0,963

𝑛−1 9
𝑅d " = 1 − "
1 − 𝑅 = 1 − 1 − 0,963 = 0,952
𝑛−𝑘−1 7

Les coefficients de détermination simple et corrigé 𝑅" et 𝑅d " sont


proche de 1. La part expliquée par le modèle dans la variance de
𝑦W est importante 96%. Le modèle permet d’expliquer 96% des
variations de 𝑦W .
Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
97
Récapitulatif des modèles

Modèle R R-deux R-deux ajusté Erreur standard Changement dans les statistiques
de l'estimation Variation de R- Variation de F ddl1 ddl2 Sig. Variation de
deux F
a
1 ,981 ,963 ,952 1,777 ,963 90,603 2 7 ,000

a. Valeurs prédites : (constantes), X2, X1

98 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


*Le test de Student : Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
|43) |
Les « t-Statistics » : les t-statistiques 𝑡2 = 𝑡43),'6 = 8+
9 * )

Pour le test de la significativité des variables explicatives de notre modèle estimé, on teste si chaque
coefficient de ces variables explicatives est significativement différent de 0 pour un seuil choisi, en général
𝛼 = 5 %. Le test de Student s’écrit comme suit:

𝐻6: 𝑎: = 0
S
𝐻': 𝑎: ≠ 0

|43) |
Pour 𝑎W = 0, la statistique 8+
= 𝑡4∗3) ~𝑇)-<-'. La valeur donnée par la table de Student à 7 degrés de
9 * )
1/(
liberté et pour α=0,05 est : 𝑡)-<-' = 𝑡>6,6(? = 2,365. Les « t-statistics » 𝑡2 lui sont largement supérieurs :

|43,| |'?@,6AB| 1/(


𝑡2 = 𝑡43,,'6= 8+
= = 7,702 > 𝑡)-<-' = 2,365 ;
9 *, (6,(@?

|43#| |6,B@| 1/(


𝑡2 = 𝑡43#,'6= 8+
= = 4,023 > 𝑡)-<-' = 2,365 ;
9 *# 6,6AC

99 |𝑎a(| | − 0,632| 1/(


𝑡2 = 𝑡43(,'6= = = 7,711 > 𝑡)-<-' = 2,365.
𝜎a 0,082
2/"
Puisque les 𝑡Y > 𝑡+$5$! et/ou les p-values du test de
significativité individuelle des coefficients : p-values < α = 0,05,
alors on rejette l’hypothèse 𝐻X de nullité du coefficient au seuil de
5%. En conséquence, les coefficients du modèle sont, d’une
manière individuelle, significativement différent de zéro.

100 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


*Le test de Fisher
La statistique de Fisher (F-statistic) du test de significativité
globale de la régression.


∑)DE'(𝑦,D − 𝑦)
. ( /𝑘 ∑)DE'(𝑦,D − 𝑦)
. ( /𝑘 𝑅 ( /𝑘
𝐹 = 𝐹1 𝑘, 𝑛 − 𝑘 − 1 = ) = =
∑DE'(𝑦D − 𝑦,D )( /𝑛 − 𝑘 − 1 ∑)DE' 𝑒D ( /𝑛 − 𝑘 − 1 (1 − 𝑅 ( )/𝑛 − 𝑘 − 1

La régression est jugé significative si la variabilité expliquée est


significativement différente de 0. Le test de Fisher s’écrit comme
suit :
𝐻X: 𝑎 = 0 (𝐻X: 𝑎! = 𝑎" = 0)

𝐻!: 𝑎 ≠ 0

101 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Sous l’hypothèse 𝐻X, 𝐹 ∗ suit une loi de Fisher au seuil 𝛼 à k et
(n-k-1) degrés de liberté (rapport de deux khi-deux). Nous
comparons donc ce 𝐹 ∗ calculé au F théorique à k et (n-k-1) d.d.l.

La règle de décision est la suivante :

Si 𝐹 ∗ > 𝐹 nous rejetons l’hypothèse 𝐻X et le modèle est alors


globalement explicatif.

Si 𝐹 ∗ ≤ 𝐹 nous acceptons l’hypothèse 𝐻X.

Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


102
b
ANOVA

Somme des Moyenne des


Modèle carrés Ddl carrés D Sig.
a
1 Régression 571,907 2 285,954 90,603 ,000

Résidu 22,093 7 3,156

Total 594,000 9

a. Valeurs prédites : (constantes), X2, X1


b. Variable dépendante : Y

571,907/2
𝐹∗ = 𝐹: 𝑘, 𝑛 − 𝑘 − 1 = = 90,602
22,093/7

103 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


La valeur donnée par la table de Fisher à (2 ; 7) degrés de
liberté et pour α=0,05 est 𝐹2 = 4,74. Le F-statistic 𝐹Y donné par la
table des résultats lui est aussi largement supérieur :

𝐹Y = 90,602 > 𝐹2 = 𝐹X,X; 2; 7 = 4,74.

Puisque 𝐹Y > 𝐹2 et /ou la p-value 0,000<0,05, alors on rejette


l’hypothèse 𝐻X de nullité de tous les coefficients au seuil de 5%.
Par conséquent, tous les coefficients du modèle sont, d’une
manière globale, significativement différents de zéro.

104 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


*Le test d’autocorrélation des résidus :
On utilise la statistique de Durbin Watson du test d’autocorrélation des résidus
(d’ordre 1).

Les valeurs caractéristiques qui découlent de la table de DW pour n=10 et k=2 sont :

0 0,697 1,641 2 2,359 3,303 4

Zone Zone de Zone Zone Zone de Zone


d’autocorrélation doute d’indépendance d’indépendance doute d’autocorrélation
positive

La valeur fournie par la statistique de DW est égale à 1,713. Elle est comprise entre
1,641 et 2. Elle tombe dans la zone d’indépendance des résidus.

105 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès


Résultats :

𝑦f= = 156,083 + 0,36 𝑥%= − 0,632 𝑥"= + 𝑒=

Où 𝑎> = 156,083 ; 𝑎% = 0,36 ; 𝑒𝑡 𝑎" = −0,632

𝑥% , c’est-à-dire la promotion auprès des distributeurs, agit positivement sur les


ventes en tonnes, alors que 𝑥" , c’est-à-dire la promotion auprès les
consommateurs agit négativement sur les ventes en tonnes.

Si la variable explicative 𝑥% augmente d’une unité alors que toutes les autres
variables explicatives sont fixes, la variable expliquée se verra augmenter en
moyenne de 𝑎% = 0,36 unité.

Si la variable explicative 𝑥" augmente d’une unité alors que toutes les autres
variables explicatives sont fixes, la variable expliquée se verra diminuer en
moyenne de 𝑎" = −0,632 unité.
106 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès
Références bibliographiques :

• BOURBONNAIS, (Régis), et TERRAZA, (Michel), Analyse des séries temporelles, Dunod,


Paris, 2004.

• BOURBONNAIS, (Régis), Econométrie, 7ème édition DUNOD, Janvier 2009.

• ELHAFIDI, (Mouloud), et TOUIJAR, (Driss), Eléments de statistique d’aide à la décision,


cours et exercices résolus, Imp. INFOS-PRINT-FES, Mars 2000.

• GOLDFARB, (Bernard), et PARDOUX, (Catherine), Introduction à la méthode statistique,


Gestion-Economie, Edition DUNOD, 2000.

• LECOUTRE, (Jean-Pierre), Statistique et probabilités-Travaux dirigés-, Edition DUNOD, 2000.

• LECOUTRE, (Jean-Pierre), Statistique et probabilités, Cours et exercices corrigés, Edition


DUNOD, 2012.

• LETHIELLEUX, (Maurice), Exercices de statistiques et probabilités avec rappels de cours en


12 fiches, Edition DUNOD, 2009.

• PUPION, (Pierre-Charles), Statistique pour la gestion, Edition DUNOD, 2008.


107 Pr. Abdessamad OUCHEN, ENCG Fès, USMBA Fès

Vous aimerez peut-être aussi