Vous êtes sur la page 1sur 183

STATISTIQUE

APPLIQUEE
(Outils d’aide à la décision )

Rachid MCHICH
Introduction générale
— L'inférence statistique consiste à induire (inférer)
des conclusions (caractéristiques) concernant
un groupe auquel on ne peut pas accéder
directement (grande taille - coûteux) à partir
d'un sous-groupe (petite taille) auquel on a
accès et que l'on considère comme un
échantillon aléatoire provenant de cette
population.

— Les caractéristiques de l’échantillon


représentent une certaine marge d’erreur par
rapport à celles de la population.
La problématique de l’inférence statistique
consiste donc, à partir d’un échantillon de données
provenant d’une population de loi de probabilité
inconnue, à déduire des propriétés fiables sur
cette population :

Ø Quelle est sa loi (problème d’estimation)?

Ø Comment prendre une décision en contrôlant


au mieux le risque de se tromper (problème de
test)?
Autrement dit, l’inférence statistique
consiste à utiliser des modèles probabilistes
pour faire des prédictions ou tester des
hypothèses à partir de données
d’observations. Elle vise à :
- évaluer un paramètre ou une
relation
- prédire une valeur
- déterminer si les différences sont
dues au hasard
La 1ère question qui se pose alors est:

Comment choisir une partie de la population


pour reproduire d’une façon fiable ses
caractéristiques?
Objectifs pédagogiques
— Maîtriser et approfondir la notion de
représentativité d’un échantillon
— Comprendre la relation entre les
caractéristiques de la population et celles de
l’échantillon
— Connaître les conditions qui améliorent la
représentativité d’un échantillon
— Connaître la signification réelle de l’erreur
d’échantillonnage
— Savoir choisir le test statistique approprié
— En savoir plus sur les intervalles de confiance
PLAN
— Chap. I : Rappels statistiques et probabilistes

— Chap. II : Introduction à la théorie de


l’échantillonnage

— Chap. III : Régression linéaire simple

— Chap. IV : Régression linéaire multiple

— Chap. V : Techniques de prévision


(Application sur SPSS)
Chap. 1: Rappels statistiques

I- Statistique descriptive (Mesures de


tendance centrale et de dispersion,
corrélation, …)

II- Probabilités (Variable aléatoire continue


et discrète, loi de probabilité, lois usuelles
discrètes et continues …)
Chap. I1: Introduction à la théorie de
l’échantillonnage
I- Introduction et définitions

II- Méthodes d’échantillonnage

III- Echantillonnage aléatoire simple

- Estimation ponctuelle

- Distributions d’échantillonnage

IV- Estimation par intervalle


Chap. III : Régression linéaire simple
I. Modèle de régression linéaire simple

II. Méthode des moindres carrés

III. Coefficient de détermination

IV. Hypothèses du modèle

V. Test de signification

VI. Utilisation de l’équation estimée de la


régression pour l’estimation et la prévision
Chap. IV: Régression linéaire multiple
I. Modèle de régression linéaire multiple

II. Méthode des moindres carrés

III. Coefficient de détermination multiple

IV. Hypothèses du modèle

V. Test de signification

VI. Utilisation de l’équation estimée de la


régression pour l’estimation et la prévision
Chap. V : Techniques de prévision

Applications sur le logiciel SPSS


STATISTIQUE
APPLIQUEE
(Outils d’aide à la décision )

Rachid MCHICH
Chap. 1: Rappels mathématiques

I - Statistique descriptive
(Mesures de tendance centrale et de dispersion,
corrélation, …)
I-1 Exemples et définitions :

— Selon une enquête de Jupiter Media, 31 % des hommes


adultes regardent la télévision au moins 10 heures par
semaine. Cette proportion s’élève à 26 % chez les
femmes adultes (The Wall Street Journal, 26-01-04).

— General Motors, leader des ristournes dans le secteur


automobile, a fourni une réduction moyenne de 4 300 $
par véhicule en 2003 (USA Today, 23-01-04) .

— Plus de 40 % des managers de la société X connaissent


une ascension professionnelle au sein de cette société.
Définition :

La statistique est l'ensemble des instruments et de


recherches mathématiques permettant de déterminer
les caractéristiques d'un ensemble de données
(généralement vaste).

Les statistiques sont le produit des analyses reposant


sur l'usage de la statistique.
Définition :

Cette activité regroupe trois principales branches :

• la collecte des données;

• le traitement des données collectées, aussi appelé:


la statistique descriptive ;

• l'interprétation des données, aussi appelée:


l’inférence statistique, qui s'appuie sur la théorie
des sondages et la statistique mathématique.
Objectif :
Le but de la statistique est d'extraire et de
résumer des informations pertinentes d'une liste
de nombres difficile à interpréter par une simple
lecture:
• les statistiques exploratoires : on explore d'abord
les données pour avoir une idée qualitative de
leurs propriétés ;
• les statistiques confirmatoires: on fait des
hypothèses de comportement que l'on confirme
ou que l’on infirme en recourant à d'autres
techniques statistiques.
I-2 Vocabulaire de la statistique descriptive:

1. Population : un ensemble de personnes,


d’objets ou d’événements, base de l’étude
statistique.

2. Individu : Un élément de cette population.


(Exple: population d’employés d’une entreprise,
population de produits d’une usine …etc).
3. Echantillon : c’est un sous-ensemble de la
population, ayant les mêmes caractéristiques
de la population-mère, utilisé en vue d'inférer
quelque chose à propos de cette population.

4. Caractère: c’est une particularité ou


propriété caractéristique de la population.
L’étude statistique porte sur un caractère.
5. Effectif d’une population: c’est le nombre
total des éléments constituant cette
population, noté: N.

6. Fréquence d’un caractère: c’est le nombre


d’individus possédant ce caractère divisé par
l’effectif total de la population: Ni.
Tableaux & Graphiques
vs
Données numériques
I-3 Tableaux et Graphiques :
(ii) Variables continues (VSC)
Dans ce cas, les valeurs du caractère appartiennent à des intervalles, qu’on regroupe en
général dans des classes adjacentes, d’amplitudes pas forcément égales :

Classes Centre des classes Effectifs Fréquences


[X0, X1[ x1=( X0+ X1)/2 n1 f1= n1/N
. . . .
. . . .
. . . .
[Xp-1, Xp[ . nk fk

La représentation se fait alors grâce à un histogramme dont les rectangles sont de largeur
égale à l’amplitude de la classe.
Exemple : Considérons les données
quantitatives indiquant le temps nécessaire (en
jours) pour effectuer l’audit de 20 clients par le
cabinet d’un expert comptable.

12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13
Effectifs et fréquences cumulées croissants et
décroissants

— Pour une VSD :

Soit mi une modalité d’une VSD. L’effectif cumulé croissant


à gauche (resp. décroissant à droite) de mi est le nombre
d’individus pour lesquels la VSD prend des valeurs <= mi
(resp. >=mi ).

Ce nombre est donné par Ncc= N1+…+Ni (resp. Ncd= Ni+


…+Nk).

— Fréquence cumulée croissante à gauche de mi :


fcc= Ncc/N .
— Fréquence cumulée décroissante à droite de mi :
fcd= Ncd/N .
— Pour une VSC : Les modalités sont des intervalles .

— Effectif cumulé croissant à gauche de xi

— Effectif cumulé décroissant à droite de xi

— Fréquence cumulée croissante relative à une


classe Ii

— Fréquence cumulée décroissante relative à une


classe Ii
(iii) Caractère qualitatif

Dans ce cas, les modalités sont des qualités, qui ne


peuvent pas être ordonnées. En général, on fait une
représentation en secteurs.
I-4 Valeurs numériques :

— Lorsque les valeurs numériques sont issues d’un


échantillon, on parle alors de statistiques
d’échantillon.

— Lorsque les valeurs numériques sont issues


d’une population, on parle de paramètres de
la population.
— Statistique d’échantillon : Valeur numérique
utilisée comme mesure d’un échantillon

— Paramètre de la population : Valeur


numérique utilisée comme mesure de la
population

— Estimateur ponctuel : Statistique


d’échantillon utilisée pour estimer le paramètre
correspondant de la population
Ci-dessous certaines notations utilisées:

Statistiques Paramètres de
d’échantillon la population
Moyenne x µ

Variance s2 σ2

Ecart type s σ

Covariance s xy σ xy

Corrélation rxy ρ xy
Mesures de tendance centrale

— Moyenne : Elle est obtenue en sommant la


valeur des observations et en divisant par le
nombre d’observations.

— Moyenne d’échantillon :

x=
∑ x i

— Moyenne de la population :

µ=
∑ x i

N
Mesures de tendance centrale

— Médiane : Il s’agit de la valeur centrale de


l’ensemble des données, classés en ordre
croissant.

— Mode : Défini comme la valeur de l’observation la


plus fréquente.

— Percentile : Valeur telle que, au moins p pour cent


des observations ont une valeur <= à cette valeur
et au moins (100 - p) pour cent des observations
ont une valeur >= à cette valeur. La médiane
correspond au 50e percentile.
— Quartile : Les 25e, 50e et 75e percentiles sont
appelés respectivement premier quartile,
deuxième quartile (médiane) et troisième
quartile. Les quartiles divisent l’ensemble des
données en quatre parties, chacune
contenant environ 25% des données.
Mesures de dispersion

— Etendue : égale à la différence entre la plus grande


et la plus petite valeurs.

— Etendue interquartile (EIQ): égale à la différence


entre le 3e et le 1e quartiles :
EIQ = Q3 − Q1
— Variance : basée sur les écarts au carré des
observations par rapport à la moyenne :

σ2 =
∑ i
(x − µ ) 2

s2 =
∑ i
(x − x ) 2

N n −1
Mesures de dispersion

— Ecart type : égal à la racine carrée de la


variance

σ = σ2 s= s2

— Coefficient de variation : Mesure de


dispersion relative, égale au rapport de
l’écart type à la moyenne, multiplié par 100

Ecart type
*100
Moyenne
I-4 Détection des valeurs singulières :

Définition :

— Va l e u r s i n g u l i è r e : O b s e r v a t i o n
anormalement grande ou petite
◦ Erreur d’enregistrement : à corriger avant toute
analyse
◦ Observation pas correctement incluse dans
l’ensemble des données : à supprimer
◦ Valeur inhabituelle, correctement enregistrée et
qui appartient à l’ensemble des données: à
conserver.
— Forme d’une distribution

Degré d’asymétrie : Mesure de la forme


d’une distribution de données.
◦ Des données biaisées à gauche sont
caractérisées par un degré d’asymétrie négatif.

◦ Des données comportant un biais à droite sont


caractérisées par un degré d’asymétrie positif.
3
µ3 1 k
γ 1 = 3 avec µ3 = ∑ ni (xi − x )
σ n i =1
— Variable centrée réduite z : Valeur
obtenue en divisant l’écart par rapport à
la moyenne (xi − x) par l’écart type s.
xi − x
zi =
s

La variable centrée réduite mesure la


distance, en nombre d’écarts type, entre
l’observation xi et la moyenne.
Exemple :

Nbr d’étudiants Ecart par rapport Valeur de la variable


dans la classe à la moyenne centrée réduite
46
54
42
46
32

x = ?? s = ??
• Théorème de Chebyshev :

Théorème utilisé pour déduire le pourcentage d’observations


qui se situent dans un intervalle de z écarts type de part et
d’autre de la moyenne:

Théorème de Chebyshev :

1
« Au moins (1− 2
) des observations doivent se situer au
z

plus à 1z1écarts types de part et d’autre de la moyenne

(càd. dans l’intervalle "# x − zs, x + zs$% ), avec z >1 ».


Exemple:
Supposons que la moyenne des notes de 100
étudiants de l’ENCGT soit égale à 70 et que
l’écart type est de 5.

1. Combien d’étudiants ont obtenu une note


entre 60 et 80?

2. Combien d’étudiants ont obtenu une note


entre 58 et 82?
— Règle empirique : Règle qui donne le pourcentage
d’observations situées dans les intervalles de un, deux ou
trois écarts type autour de la moyenne, pour une
distribution en forme de cloche (distribution dite normale)

Pour des données ayant une distribution en forme de cloche:


— Environ 68% des observations se situent dans " $
# x − s, x + s%

— Environ 95% des observations se situent dans "# x − 2s, x + 2s$%

— Presque toutes les observations se situent dans "# x − 3s, x + 3s$%


— Analyse exploratoire des données
Résumé en cinq chiffres : Technique d’analyse exploratoire
des données qui utilise cinq chiffres pour résumer les données: la
plus petite valeur, le 1e quartile, la médiane, le 3e quartile et la plus
grande valeur. Par exemple,

7710 7755 7850 7880 7880 7890 7920 7940 7950 8050
8130 8325

1) 7710
2) Q1= 7865
3) Q2=7905
4) Q3= 8000
5) 8325
A peu près 25% des données sont comprises entre 2 valeurs
adjacentes
II - Statistique bivariée
II-1 Mesures de la relation entre 2 variables

— Nuage de points : A chaque couple de données


(xi,yi) est associé un point M dans le plan. On obtient
ainsi ce qu’on appelle un nuage de points
représentant la série statistique.

— Point moyen : G(xG , yG ) où :

1 n
xG = X = ∑ xi
n i=1
1 n
yG = Y = ∑ yi
n i=1
Ajustement affine :

— Ajustement à la règle (en passant par le point


moyen) : méthode très approximative.

— Méthode de Mayer : 2 sous-nuages, puis 2


points moyens formant la droite de Mayer
(passant aussi par le point moyen) : méthode
assez approximative.
II-2 Mesures par la covariance :
Covariance : Mesure de la relation linéaire
entre deux variables.
◦ Des valeurs positives indiquent une relation
linéaire positive.
◦ Des valeurs négatives indiquent une relation
linéaire négative.

∑ (x i − µ x )(yi − µ y )
— Covariance population : σ xy =
N

— Covariance échantillon : s xy =
∑ (x i − x)(yi − y)
n −1
II-3 Mesures par le coefficient de corrélation :
— Coefficient de corrélation : Mesure de la
relation linéaire entre deux variables, dont les
valeurs sont comprises entre -1 et +1:
s xy σ xy
rxy = ou ρ xy =
sx sy σ xσ y
◦ Des valeurs proches de +1 indiquent une forte
relation linéaire positive.
◦ Des valeurs proches de -1 indiquent une forte
relation linéaire négative.
◦ Des valeurs proches de 0 indiquent l’absence de
relation linéaire.
— Méthode des moindres carrés :

- Droite de régression de Y en X , (DY /X ): y = ax + b

σ xy
où a=
(σ x )2
et b =Y - a X

- Droite de régression de X en Y , (D X /Y ): x = a' y + b'

σ xy
où a' = et b'= X - a'Y
(σ y )2

(A noter que les deux droites se coupent au point moyen)


Remarques :
1. Il est possible qu’un lien fort (mais non linéaire)
entre X et Y conduise à une valeur faible de r.
C’est pour cela que « r » est appelé des fois :
coefficient de corrélation de la partie linéaire entre X
et Y.

2. Deux variables dont « r » est proche de 0 sont


dites décorrélées (à ne pas confondre avec
indépendantes).

3. Un fort « r » n’implique pas forcément une


relation de causalité entre X et Y (Existence
possible d’une troisième variable Z).
4. Il existe plusieurs types d’ajustements non
linéaires. Certains types peuvent être ramenés
au cas de l’ajustement linéaire en utilisant la
fonction logarithme népérien. Par exemple :

y = Cx m ou y = Ca x

5. On peut aussi faire un ajustement pour des


V.S.C. en utilisant les centres des intervalles de
modalité.
STATISTIQUE APPLIQUEE

Chap. I1: Introduction à la théorie


de l’échantillonnage

Rachid MCHICH
I - Introduction et définitions
L’étude des propriétés caractéristiques d’un
ensemble, quand on ne dispose pas encore de
données, nécessite d’examiner et d’observer des
éléments de cet ensemble.

La manière de recueillir ces données est appelée


théorie des sondages ou théorie de
l’échantillonnage (sampling theory).
Cette théorie concerne l’optimisation de la collecte
de données selon divers critères et répond à
certaines interrogations sur la façon de procéder à
cette collecte en rapport avec l’information
disponible et l’effort d’échantillonnage consenti.
Définitions :

• Population : Un ensemble de personnes, d’objets


ou d’événements, base de l’étude statistique.

• Echantillon : c’est un sous-ensemble de la


population, ayant les mêmes caractéristiques de la
population-mère, utilisé en vue d'inférer quelque
chose à propos de cette population.
• Sondage : c’est l’observation partielle d’une
population statistique; c.à.d. l’observation d’une
partie de la population.

• M é t h o d e d ’ é c h a n t i l l o n n age ( o u d e
sondage) : Procédure par laquelle on choisit dans
une population un sous-groupe représentatif.

Objectif : avoir un échantillon suffisamment


représentatif pour que les données puissent être
extrapolées à la population.
II – Méthodes d’échantillonnage :

II-1 Echantillonnages aléatoires :

Un échantillon aléatoire fournit un échantillon


représentatif dès lors que chaque individu de la
population a une probabilité connue et non nulle
d’être inclus dans l’échantillon.
Echantillonnage aléatoire simple (EAS) :

• Un échantillon aléatoire simple de taille n,


issu d’une population finie de taille N, est un
échantillon sélectionné de manière à ce que
chaque échantillon possible de taille n ait la même
probabilité d’être sélectionné.
Un échantillon aléatoire simple, issu d’une
population infinie, est un échantillon sélectionné de
façon à ce que les conditions suivantes soient
satisfaites :

• Chaque élément sélectionné provient de la même


population

• Chaque élément est sélectionné de façon


indépendante
Exemple : Le directeur du personnel d’une société
est chargé d’identifier le profil de 2500 techniciens de
la société. Les caractéristiques concernent le salaire
annuel moyen des techniciens et la proportion des
techniciens ayant suivi une formation en management,
mis en place par la société.
En considérant les 2500 techniciens comme
population de l’étude et en utilisant des données déjà
disponibles sur le salaire de chaque technicien et en
consultant leurs dossiers, le directeur a pu calculer la
moyenne et l’écart type du salaire annuel pour la
population :
Ø Moyenne de la population : µ = 51 800 dh

Ø Ecart type de la population : σ = 4 000 dh

Ø On sait aussi que 1500 parmi les 2500 techniciens ont


suivi la formation. D’où la proportion de la population
ayant suivi la formation :
1500
p= = 0, 60
2500
Ø En absence d’informations nécessaires, on peut utiliser
un échantillon de techniciens au lieu des 2500
techniciens et voir comment on peut obtenir des
estimations des paramètres de la population.
Echantillonnage aléatoire stratifié :

— Division de la population en sous groupes


appelés : strates.

— Chaque élément apparaît dans une et une seule


strate.

— L’élément de base qui définit une strate (un


service, un lieu, un âge, un type d’industries …
etc.) est laissé à la discrétion du créateur de
l’échantillon.
— Sélection d’un échantillon aléatoire simple dans
chaque strate.

— Critères de stratification : homogénéité des


sous groupes

— Une bonne homogénéité implique une faible


variance et de bonnes estimations des
caractéristiques de la strate.
Echantillonnage par grappes :

— Division de la population en sous groupes ou


grappes.

— Chaque élément de la population appartient à


une et une seule grappe.

— Sélection d’un échantillon aléatoire simple des


grappes

— Tous les éléments contenus dans une grappe


sélectionnée forment l’échantillon.
Echantillonnage systématique :

— Lorsque les populations sont importantes, il est


coûteux (en temps) de sélectionner un échantillon
aléatoire simple en trouvant tout d’abord un
nombre aléatoire et ensuite en cherchant dans la
liste de la population l’élément correspondant. Au
lieu d’un EAS on utilisera un échantillonnage
systématique.

— Un échantillon systématique est généralement


supposé avoir les propriétés d’un EAS, surtout
lorsque la liste de la population est une
énumération aléatoire des éléments de la
population.
II-2 Echantillonnages non aléatoires :

On parle d’un échantillon non aléatoire (ou


empirique ou par choix raisonné) lorsque l’échantillon
est construit par des procédés comportant une part
d’arbitraire et ne permettant pas l’évaluation de la
précision d’estimation.

Les échantillons non aléatoires sont utilisés dans les


études qualitatives où il n’est pas envisagé une
extrapolation à la population statistique dans sa
globalité.
Echantillonnage de commodité :

Dans ce cas, les éléments sont inclus dans


l’échantillon sans probabilité connue ou pré-
spécifiée d’être choisis.

Par exemple, un professeur qui mène une


expérience à l’université peut utiliser des étudiants
volontaires pour constituer un échantillon
simplement parce qu’ils sont disponibles et
participeront en tant que sujets à l’expérience pour
un coût très faible ou même nul.
Echantillonnage subjectif :

Dans cette approche, la personne la mieux


documentée sur le sujet de l’étude sélectionne des
éléments de la population qu’elle pense être les plus
représentatifs de la population.

Par exemple, un journaliste peut choisir deux ou


trois personnes, en jugeant que l’opinion de ces
personnes reflète l’opinion générale.
Conclusion
— Toutes les méthodes d’échantillonnage
peuvent être combinées
— L a c o m p l e x i t é d e l a p ro c é d u re
d’échantillonnage entraine une complexité
des calculs
— Il n’y a pas un critère standard de choix :
appel au bon sens et à l’expérience
Cependant, il est recommandé d’utiliser les
méthodes aléatoires au détriment des
méthodes non aléatoires, car des formules
permettent d’évaluer la qualité des
estimations des caractéristiques de la
population, fournies par les résultats de
l’échantillon.
III – Echantillonnage aléatoire simple

III-1 Estimation ponctuelle :


Supposons que (dans l’exemple précédent) un échantillon aléatoire
simple a été choisi avec les données correspondantes suivantes :

Salaire annuel Pgm de Salaire annuel Pgm de


(dh) formation (dh) formation
x1 = 49094,30 Oui x16 = 51766,00 Oui
x2 = 53263,90 Oui x17 = 52541,30 Non
x3 = 49643,50 Oui x18 = 44980,00 Oui
x4 = 49894,90 Oui x19 = 51932,60 Oui
x5 = 47621,60 Non x20 = 52973,00 Oui
x6 = 55924,00 Oui x21 = 45120,90 Oui
x7 = 49092,30 Oui x22 = 51753,00 Oui
x8 = 51404,40 Oui x23 = 54391,80 Non
x9 = 50957,70 Oui x24 = 50164,20 Non
x10 = 55109,70 Oui x25 = 52973,60 Non
x11 = 45922,60 Oui x26 = 50241,30 Non
x12 = 57268,40 Non x27 = 52793,90 Non
x13 = 55688,80 Oui x28 = 50979,40 Oui
x14 = 51564,70 Non x29 = 55860,90 Oui
x15 = 56188,20 Non x30 = 57309,10 Non
III-2 Distributions d’échantillonnage :

Supposons qu’on sélectionne un autre échantillon pour


lequel on a les estimations ponctuelles suivantes :

x = 52 670 dh p = 0, 70

Supposons qu’on répète le processus plusieurs fois en


calculant à chaque fois les estimateurs. Considérons
ainsi les tableaux suivants (avec 500 échantillons) :
Numéro de Moyenne Ecart type Proportion
l’échantillon d’échantillon d’échantillon d’échantillon
1 51 814,00 3 347,72 0,63
2 52 669,70 4 239,07 0,70
3 51 780,30 4 433,43 0,67
4 51 587,90 3 985,32 0,53
. . . .
. . . .
. . . .
500 51 752,00 3 857,82 0,50
Moyenne d’échantillon Fréquence Fréquence
relative
[49 500—50 000[ 2 0,004
[50 000—50 500[ 16 0,032
[50 500—51 000[ 52 0,104
[51 000—51 500[ 101 0,202
[51 500—52 000[ 133 0,266
[52 000—52 500[ 110 0,220
[52 500—53 000[ 54 0,108
[53 000—53 500[ 26 0,052
[53 500—54 000[ 6 0,012
Total 500 1,00

Distributions de fréquence de la moyenne d’échantillon


Considérons maintenant :
Ø L’expérience aléatoire : sélection d’un E. A. S.
Ø La v. a. : valeur de la moyenne d’échantillon x .

Par conséquent, x a une espérance mathématique, une


variance et une distribution (loi) de probabilité,
appelée: distribution d’échantillonnage de x .

La connaissance de cette distribution d’échantillonnage


et de ses propriétés nous permet de tirer des
conclusions en termes de probabilités quant à l’écart
entre la moyenne d’échantillon x et la moyenne de la
population µ .
III-2-1 Distributions d’échantillonnage de x :

La distribution d’échantillonnage de x correspond à la


distribution de probabilité de toutes les valeurs
possibles de la moyenne x . On a ainsi les résultats
suivants :
Ø L’espérance mathématique de x est donnée par :
E(x) = µ

Ø L’écart type est donné par :


N −n σ
- Pour une population finie : σ x = ( )
N −1 n
σ
- Pour une population infinie : σ x =
n
Forme de la distribution d’échantillonnage de x :

Théorème central limite:

En sélectionnant des échantillons aléatoires simples


de taille n d’une population, la distribution
d’échantillonnage de la moyenne d’échantillon x peut
être approchée par une distribution de probabilité
normale, lorsque la taille de l’échantillon devient
importante.
Remarques :

1. En général, la moyenne et l’écart type de la


population ne sont pas connus. D’autres techniques
montrent comment sont utilisés la moyenne et
l’écart type de l’échantillon lorsque ceux de la
population sont inconnus.

2. Le théorème central limite s’applique pour des


populations infinies ou finis dans lesquelles
l’échantillonnage est fait avec remise. Cependant, le
théorème reste valable pour un échantillonnage
sans remise mais pour une taille de la population
assez grande.
III-2-2 Distributions d’échantillonnage de p :

La distribution d’échantillonnage de p est l’estimateur


ponctuel de la proportion de la population p :
x
p=
n
Ainsi, l’espérance mathématique de p est donnée par :
E( p) = p

Et l’écart type est donné par :


N −n p(1− p)
- Pour une population finie : σ p =
N −1 n
p(1− p)
- Pour une population infinie : σp =
n
p(1− p)
A noter que la formule σp = est utilisée
lorsque : n

• la population est infinie; ou


• La population est finie et la taille de l’échantillon est
inférieur ou égale à 5% de la taille de la population,
c.à.d. n/N <= 0,05

σ p est appelé : l’erreur type de la proportion.

Pour notre exemple,


p(1− p) 0, 6(1− 0, 6)
σp = = = 0, 0894
n 30
Forme de la distribution d’échantillonnage de p :
On a : x
p=
n

Pour un EAS, la valeur de x est une v. a. binomiale,


indiquant le nombre d’éléments dans l’échantillon
possédant la caractéristique à laquelle on s’intéresse.

Et on a déjà vu qu’une loi binomiale peut être


approchée par une loi normale si :

np ≥ 5 et n(1− p) ≥ 5
Intérêt pratique 1: Supposons que le directeur de la
société considère comme acceptable une différence de
500 dh entre la moyenne d’échantillon et la moyenne de
la population. Autrement dit, quelle est la probabilité que
la différence entre les deux moyennes ne dépasse pas
500 dh?

Sachant que µ = 51800 , on veut que : 51300 ≤ x ≤ 52300


Intérêt pratique 2: Supposons que le directeur de la
société considère comme acceptable un écart d’au plus
0,05 entre la proportion d’échantillon et la proportion
de la population. Autrement dit, quelle est la probabilité
d’obtenir un échantillon dont la proportion soit
comprise entre 0,55 et 0,65?

Sachant que p = 0, 60 , on veut que : 0, 55 ≤ p ≤ 0, 65


V – Estimation par intervalle

V. 1 De la moyenne d’une population :

Ø Lorsque σ est connu, l’estimation par


intervalle de la moyenne d’une population
est donnée par:
σ
x ± zα
2 n
Où :
1− α correspond au coefficient de confiance,

zα est la valeur z fournissant une aire égale à α 2 dans la


2
queue supérieure de la distribution de probabilité normale
centrée réduite
Exemple : Le responsable d’un magasin sélectionne,
chaque semaine, un échantillon aléatoire simple de
100 clients pour connaître le montant des dépenses
réalisées par ces clients à chaque fois qu’ils font leurs
courses. Soit x le montant des dépenses à chaque
visite, la moyenne d’échantillon x fournit une
estimation ponctuelle du montant moyen des
dépenses à chaque visite.
On suppose la valeur de l’écart type connue : σ connu
et que la population suit une loi normale.
Si x = 820 dh, calculons la marge d’erreur et l’estimation par
intervalle de cette population.
Ø Lorsque σ est inconnu, l’estimation par
intervalle de la moyenne d’une population
est donnée par:
s
x ± tα
2 n
Où :
s correspond à l’écart type de l’échantillon,

1− α correspond au coefficient de confiance

tα est la valeur t fournissant une aire égale à α 2 dans la


2
queue supérieure de la distribution de Student avec n -1
degrés de liberté.
Exemple : Une étude vise à estimer le solde moyen des
ménages d’une petite ville. Un échantillon de n = 85 ménages
fournit les soldes du tableau suivant :

9619 6921 3678 968 4667 7979 5071 9980 8452


5364 5759 3581 4714 5219 3258 9536 8718 10658
8348 8047 5625 4334 6416 8660 4459 12545 5938
7348 3924 5619 4911 13627 7511 8047 4935 7888
381 3470 9032 1920 3091 4447 8083 13236 7644
2998 5994 4447 3780 943 6550 2153 5266
1686 4652 609 3478 8762 7581 8003 3910
1962 5376 414 6185 1407 7959 6795 7503
4920 5998 7636 1141 6644 2563 5915 1582
5047 7530 3344 7577 11169 6787 7164 14442

Calculons l’estimation par intervalle de la moyenne de la population


dans ce cas.
V. 2 De la proportion d’une population :

Ø L’estimation par intervalle de la proportion


d’une population est donnée par:
p(1− p)
p ± zα
2 n
Où :

1− α correspond au coefficient de confiance,

zα est la valeur z fournissant une aire égale à α 2 dans la


2
queue supérieure de la distribution de probabilité normale.
Exemple : Une étude de satisfaction a été
menée auprès de 900 clients, dont 396 ont révélé
être satisfaits du produit présenté. Etudions
l’estimation par intervalle de la proportion de la
population.
V.3 Détermination de la taille d’échantillon :

Ø La taille d’échantillon pour l’estimation par intervalle


de la moyenne d’une population est donnée par:

(zα )2 σ 2
2
n=
E2

Ø La taille d’échantillon pour l’estimation par intervalle


de la proportion d’une population est donnée par:

(zα )2 p* (1− p* )
2
n=
E2
Exemple : Une étude sur le coût moyen de
location d’une catégorie de voitures était d’environ
550 dh.

Supposons que l’organisme responsable de cette


étude souhaite effectuer une nouvelle étude pour
estimer la moyenne, au niveau de la population du
coût de location actuel, par jour, d’une voiture de la
même catégorie. Le directeur du projet a spécifié
que la moyenne de la population du coût de
location par jour devrait être estimée avec une
marge d’erreur de 20 dh et un seuil de confiance de
95%.

Déterminons alors la taille de l’échantillon.


STATISTIQUE APPLIQUEE

Chap. III : Régression linéaire simple

Rachid MCHICH
I. Modèle de régression linéaire simple

Le modèle de régression utilisé dans une régression


linéaire simple s’écrit :

y = β0 + β1 x + ε

y : variable à expliquer (dépendante)


x : variable explicative (indépendante)

β0 et β1 correspondent aux paramètres du modèle


ε est une variable aléatoire appelée: terme d’erreur.
Ce terme prend en compte la variabilité de y qui
n’est pas expliquée par la relation linéaire entre x et
y.
Le terme ε mesure la différence entre les valeurs
réellement observées et les valeurs qui auraient été
observées si la relation spécifiée avait été
rigoureusement exacte. Ce terme regroupe donc trois
erreurs :

— Une erreur de spécification : le fait que la seule


variable explicative n’est pas suffisante pour rendre
compte de la totalité du phénomène expliqué;

— une erreur de mesure, les données ne représentent


pas exactement le phénomène;

— une erreur de fluctuation d’échantillonnage : d’un


échantillon à l’autre les observations, et donc les
estimations, sont légèrement différentes.
Chaque distribution des valeurs de y a sa propre
moyenne. L’équation qui décrit comment la
moyenne de y est liée à x est appelée : équation
de la régression linéaire simple. Elle est donnée
par :
E(y) = β0 + β1 x
CasA: CasB: CasC:
Relation linéaire positive Relation linéaire négative Pas de relation

E(y) E(y) E(y)


Ordonnée
à l'origine
Ordonnée
{Jo
à l'origine La pentcp,est nulle
( )IIIUlIlléc
{Jo 1--------
l'UIIKIIlC Droite de régression
{Jo
Droite de régression

~------------------x L------------------x

YI 12.1 Droites de régression possibles dallS une régressiOlllinéllire simple


En pratique, la valeur des paramètres n’est pas connue
et doit être estimée en utilisant les données d’un
échantillon. D’où l’équation estimée de la
régression linéaire simple :
ŷ = b0 + b1 x
(droite de régression estimée)
II. La méthode des moindres carrés :

La méthode des moindres carrés est une procédure qui


permet d’utiliser les données de l’échantillon pour estimer
l’équation de la régression (b0 et b1). Elle consiste à
minimiser la somme des écarts au carré :

2
min ∑ (yi − ŷi )

Ainsi, la pente et l’ordonnée à l’origine de l’équation


estimée de la régression sont données par :

b =
∑ (x − x )(y − y)
i i
1 b0 = y − b1 x
∑(x − x )
i
2
Exemple : Considérons les données collectées sur les
ventes mensuelles d’un échantillon de 10 restaurants d’une
chaîne de restaurants, par-rapport à la population locale :

Restaurant i Population Ventes mensuelles


(en milliers : xi) (en milliers de dh)
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
III. Coefficient de détermination :

Une fois l’équation estimée de la régression établie,


la question qui se pose est : Dans quelle mesure
cette équation s’ajuste-t-elle aux données?

Nous montrerons ainsi que le coefficient de


détermination fournit une mesure de l’adéquation
de l’équation estimée de la régression.
Pour la ième observation, le ième résidu (ou erreur
commise) est donné par :

yi − ŷi

La somme de ces résidus, ou erreurs, au carré


correspond à la quantité minimisée par la
méthode des moindres carrés. Cette quantité,
aussi appelée : somme des carrés des résidus,
est donnée par :

2
SCres = ∑ (yi − ŷi )
D’autre part, pour estimer les yi sans utiliser les xi,
on utilise y la moyenne des yi. Ainsi, pour la ième
observation, yi − y fournit une mesure de l’erreur
commise en utilisant y pour estimer les ventes.

D’où la somme des carrés totale donnée par:

2
SCT = ∑ (yi − y )
Enfin, pour déterminer dans quelle mesure les
valeurs ŷ de la droite de régression dévient de la
moyenne ,yune autre somme des carrés est calculée.

Cette somme est appelée somme des carrés de


la régression, et elle est donnée par :

2
SCreg = ∑ ( ŷi − y )

Ainsi, on a :

SCT = SCreg + SCres


D’autre part, le coefficient de corrélation de
l’échantillon peut être calculé de la façon suivante :

rxy = (signe de b1 ) r 2
IV. Hypothèses du modèle :

Même avec une valeur du coefficient de


détermination assez élevé, une analyse approfondie
de la robustesse du modèle supposé doit être faite.

Pour cela, des tests de signification doivent être


effectués et sont basés sur les hypothèses suivantes,
concernant le terme d’erreur ε :
Hypothèses sur le terme d’erreur ε dans le modèle
de la régression : y = β0 + β1 x + ε

(H1) E(ε ) = 0 (donc E(y) = β0 + β1 x )

(H2) La variance de ε notée σ 2 est la même pour


toutes les valeurs de x.

(H3) Les valeurs de ε sont indépendantes entre


elles.

(H4) Le terme d’erreur ε est une v. a. normalement


distribuée (et donc y aussi).
V.Test de signification :

Pour l’équation de régression simple, on a :

E(y) = β0 + β1 x

Ainsi, si β1 = 0 alors E(y) = β0 ; càd x et y ne sont


pas liées; sinon, les deux variables le sont (si
). β1 ≠ 0

Il faudrait donc effectuer un test d’hypothèses pour


déterminer si β1 = 0 .
Estimation de σ 2 :

— La moyenne des carrés des résidus fournit


une estimation de σ 2 :
2 SCres
s = MCres =
n−2
((n-2) ddl)

MCres fournit une estimation sans biais de σ 2 .

— Erreur type de l’estimation :

SCres
s = MCres =
n−2
V-1 Test t de Student :

On teste les hypothèses suivantes concernant β1 :

H 0 : β1 = 0
H a : β1 ≠ 0

Notons d’abord que b0 et b1 sont des statistiques


d’échantillonnage qui ont leur propre distribution
d’échantillonnage; ainsi :
— Les propriétés de la distribution d’échantillonnage
pour b1 sont données par :

Espérance : E(b1 ) = β1

σ
Ecart type de b1 : σ b1 =
∑ i
(x − x ) 2

Forme de la distribution: Normale.

— Comme σ n’est pas connue, alors on calcule :

s
Ecart type estimé de b1 : sb1 =
∑ i
(x − x ) 2
— Test de signification de Student dans le cadre
d’une régression linéaire simple :
H 0 : β1 = 0
H a : β1 ≠ 0

b1
— Statistique de test : t=
sb1

— Règle de rejet :
– Approche par la valeur p : Rejet de H0 si p ≤ α
– Approche par la valeur critique : Rejet de H0 si
t ≤ −tα /2 ou t ≥ tα /2
où tα /2 est basé sur la distribution de Student à (n-2) ddl.
Intervalle de confiance pour β1 :

L’intervalle de confiance pour β1 est :


b1 ± tα /2 sb1

au coefficient de confiance (1− α ) et à (n-2) ddl.

Au seuil de 99%, l’intervalle de confiance nous offre une


alternative pour conclure le test d’hypothèses dans le cadre
de notre exemple.

En effet, puisque 0, la valeur hypothétique de β1 n’appartient


pas à l’intervalle de confiance, nous pouvons alors rejeter H0
et conclure qu’une relation statistiquement significative
existe entre la taille de la population et les ventes
mensuelles.
V-2 Test F de Fisher :

Si β1 = 0, alors la moyenne des carrés de la


régression fournit une autre estimation de σ 2 :
SCreg
MCreg =
Nbr ddl
Pour les modèles de régression considérés ici, le
nombre ddl = nbr de var. indépendantes; càd. :

SCreg SCreg
MCreg = =
Nbr de var. indépendantes 1
Test F de Fisher :

Statistique du test de Fisher :


MCreg
F=
MCres
MCreg suit une loi de Fisher avec 1 ddl au
MCres
numérateur et n-2 ddl au dénominateur
— Test de signification de Fisher:

H 0 : β1 = 0
H a : β1 ≠ 0

— Statistique de test : F = MCreg


MCres

— Règle de rejet :
– Approche par la valeur p : Rejet de H0 si p ≤ α
– Approche par la valeur critique : Rejet de H0 si
F ≥ Fα
où Fαest basé sur la distribution de Fisher à 1 ddl au
numérateur et (n-2) ddl au dénominateur.
Tableau ANOVA :

Source Somme Degrés Moyenne des carrés F


de la des de liberté
variation carrés
Régression SCreg 1 SCreg MCreg
MCreg = F=
1 MCres

SCres
Résidu SCres n-2 MCres =
n−2

Totale SCT n-1


Inférence sur β0 :
Distribution d échantillonnage
FSTG Marrakech

La distribution d’échantillonnage de l’estimateur b0 est une distribution


normale :
) # & ,
1/2

+ % ( .
2
+ % 1 x ( .
Régression Linéaire II

b0 N + β0 ;σ + n .
%n 2 (
+
+ % ∑ ( xi − x ) ( .
.
* $ i=1 ' -
Pr. AIT BABRAM Mohamed

b0 − β0
z=
σ ( b0 )
z N (0,1)
Inférence sur b
Remarque : Dans le cas d’un petit échantillon, l’écart réduit suit une loi
de Student :
FSTG Marrakech

b0 − β 0
t= T (n − 2)
s ( b0 )
Régression Linéaire II

1/ 2
# &
% (
%1 x2 (
s (b0 ) = s% + (
n n
Pr. AIT BABRAM Mohamed

2
% ∑ ( xi − x) (
%
$ i =1
(
'
Remarque : Dans le cas où la taille de l échantillon est grande, la
distribution de l écart réduit est

b0 − β 0
t= N ( 0;1)
s ( b0 )
Intervalle de confiance pour β0 :
FSTG Marrakech

L’intervalle de confiance pour β0 est :

b0 − s ( b0 ) × tα /2; (n−2) ≤ β0 ≤ b0 − s ( b0 ) × tα /2; (n−2)


Régression Linéaire II

f(n-2)
1-α
Pr. AIT BABRAM Mohamed

α/2 α/2

- ta / 2;(n -2 ) t a / 2 ;( n - 2 )
Densité de probabilité de la loi
Student avec (n-2) degré de liberté
Exercice :
Considérons le tableau d’observations suivant:
xi 1 2 3 4 5
yi 3 7 5 11 14

a) Représenter le nuage de points associé à ces données.


b) Développer l’équation estimée de la régression.
c) Utiliser l’équation estimée de la régression pour prévoir
la valeur de y lorsque x=4.
d) Calculer la MCres et l’erreur type de l’estimation.
e) Calculer l’écart type estimé de b1.
f) Utiliser le test de Student et de Fisher pour tester les
hypothèses suivantes :
H 0 : β1 = 0
H a : β1 ≠ 0
g) Présenter les résultats sous forme d’un tableau ANOVA.
STATISTIQUE APPLIQUEE

Chap. III : Régression linéaire simple

Rachid MCHICH
Le ratio (SCreg/SCT) est utilisé pour évaluer
l’adéquation de l’équation estimée de la régression.
Ce ratio est appelé coefficient de
détermination et est noté :
2 SCreg
r =
SCT

Pour notre exemple :

2 SCreg 14200
r = = = 0, 9027
SCT 15730
— Cela veut dire que 90,27% de la SCT peut être
expliquée en utilisant l’équation estimée de la
régression :
ŷ = 60 + 5x

pour prévoir les ventes mensuelles.

— En d’autres termes, 90,27% de la variation des


ventes mensuelles peut s’expliquer par la relation
linéaire entre la taille de la population et les
ventes mensuelles.

Une telle adéquation de l’équation estimée de la


régression est satisfaisante.
D’autre part, le coefficient de corrélation de
l’échantillon peut être calculé de la façon suivante :

rxy = (signe de b1 ) r 2

Pour notre exemple :

rxy = (signe de b1 ) r 2 = +0, 9501

On peut donc conclure qu’il existe une forte


relation linéaire positive entre x et y.
Remarques :
1. Dans le cas d’une relation linéaire entre deux variables, le
coefficient de détermination et le coefficient de
corrélation fournissent une mesure de robustesse de la
relation.

2. Le coefficient de détermination est compris entre 0 et 1,


tandis que le coefficient de corrélation est compris entre
-1 et 1.

3. Alors que le coefficient de corrélation est restreint à des


relations linéaires entre deux variables, le coefficient de
détermination peut être utilisé dans le cas de relations
non-linéaires et de relations comprenant plus de deux
variables indépendantes.
IV. Hypothèses du modèle :

Même avec une valeur du coefficient de


détermination assez élevé, une analyse approfondie
de la robustesse du modèle supposé doit être faite.

Pour cela, des tests de signification doivent être


effectués et sont basés sur les hypothèses suivantes,
concernant le terme d’erreur ε :
Remarques :

1. Les tests de Fisher et de Student conduisent à des


résultats identiques dans le cadre d’une régression
linéaire simple.

2. Rejeter l’hypothèse nulle et conclure que la relation


entre x et y est statistiquement significative ne nous
permet pas de conclure qu’une relation de cause à
effet relie x et y.
3. Le fait de rejeter H0 et de conclure à l’existence d’une
relation significative ne nous permet pas de conclure
que la relation est linéaire entre x et y (x et y sont
liées et une relation linéaire explique une partie de la
variabilité de y par rapport à x).

4. Dans la mesure où la relation est significative, nous


pouvons utiliser (avec confiance) l’équation estimée
de la régression pour effectuer des prévisions pour
des valeurs de x appartenant à l’intervalle des valeurs
observées dans l’échantillon.
5. Très peu d’estimations sont faites sur β 0 :
Exercice :
Considérons le tableau d’observations suivant:
xi 1 2 3 4 5
yi 3 7 5 11 14

a) Représenter le nuage de points associé à ces données.


b) Développer l’équation estimée de la régression.
c) Utiliser l’équation estimée de la régression pour prévoir
la valeur de y lorsque x=4.
d) Calculer la MCres et l’erreur type de l’estimation.
e) Calculer l’écart type estimé de b1.
f) Utiliser le test de Student et de Fisher pour tester les
hypothèses suivantes :
H 0 : β1 = 0
H a : β1 ≠ 0
g) Présenter les résultats sous forme d’un tableau ANOVA.
STATISTIQUE APPLIQUEE

Chap. IV : Régression multiple

Rachid MCHICH
Introduction
L’analyse de la régression multiple est
l’étude de la relation entre une variable
dépendante y et au moins deux variables
indépendantes.

Dans le cas général, nous noterons p le


nombre de variables indépendantes.
I. Modèle de régression multiple

Le modèle de régression utilisé dans une régression


multiple s’écrit :

y = β0 + β1 x1 + β2 x2 +... + β p x p + ε

y : variable à expliquer (dépendante)


xi : variables explicatives (indépendantes)

β0 , β1,..., β p correspondent aux paramètres du modèle

ε est une variable aléatoire appelée: terme d’erreur.

Ce terme prend en compte la variabilité de y qui


n’est pas expliquée par l’impact linéaire des p
variables indépendantes.
Chaque distribution des valeurs de y a sa propre
moyenne. L’équation qui décrit comment la
moyenne de y est liée à x est appelée : équation
de la régression multiple.

Elle est donnée par :

E(y) = β0 + β1 x1 + β2 x2 +... + β p x p
En pratique, la valeur des paramètres n’est pas
connue et doit être estimée en utilisant les données
d’un échantillon. D’où l’équation estimée de la
régression multiple :

ŷ = b0 + b1 x1 + b2 x2 +.... + bp x p

où b0 , b1, b2 ,..., bp sont les estimations de β0 , β1, β2 ,..., β p


et ŷ correspond à la valeur estimée de la variable
dépendante.
II. La méthode des moindres carrés :
On a vu dans le chapitre précédent que la méthode des
moindres carrés qui permet d’utiliser les données de
l’échantillon pour estimer l’équation de la régression (b0 et
b1).

Cette même approche est utilisée pour estimer l’équation


de la régression multiple. Ce critère est formulé comme
suit :

2
min ∑ (yi − ŷi )

yi : valeur observée de l’observation de la variable dépendante

ŷi : valeur observée de l’observation de la variable dépendante


La méthode des moindres carrés permet d’utiliser les
données de l’échantillon pour estimer b0 et b1, dans le cas
d’une régression linéaire simple.

Pour une régression multiple, on a recours à l’utilisation du


calcul matriciel pour avoir une estimation de :

b0 , b1,..., bp

L’utilisation de logiciels permet aussi d’avoir ces valeurs.


Exemple : Pour améliorer les plannings de travail, les responsables
d’une société souhaitent estimer la durée quotidienne des trajets
effectués par les chauffeurs. Pour cela, ils supposent que cette durée
totale des trajets est fortement liée au nombre de kms parcourus
pour effectuer les livraisons. Un échantillon aléatoire simple de dix
livraisons a fourni les données suivantes :

Livraison Xi : Nbr de kms Yi :Temps du


parcourus trajet (en heures)
1 100 9,3
2 50 4,8
3 100 8,9
4 100 6,5
5 50 4,2
6 80 6,2
7 75 7,4
8 65 6,0
9 90 7,6
10 90 6,1
Equation estimée de la régression linéaire simple:
ŷ = 1, 27 + 0, 0678x1
Au seuil de signification: α = 0, 05

F = 15,81; p = 0,004; t = 3,98

Donc hypothèse (H0) à rejeter dans tous les cas. On


peut ainsi conclure que la relation entre la durée
totale des trajets et le nombre de kms parcourus
est significative.

Coefficient de détermination = 0,664. Donc 66,4%


de la durée des trajets peut être expliquée
linéairement par le nombre de kms parcourus.
Cependant les responsables pensent que le nombre de
livraisons peut également expliquer la durée totale du trajet.
D’où le nouveau tableau :
Livraison Xi : Nbr de X2 : Nbr de Y :Temps
kms livraisons du trajet
parcourus effectuées (en
heures)
1 100 4 9,3
2 50 3 4,8
3 100 4 8,9
4 100 2 6,5
5 50 2 4,2
6 80 2 6,2
7 75 3 7,4
8 65 4 6,0
9 90 3 7,6
10 90 2 6,1
En utilisant un logiciel adéquat, l’équation estimée de
la régression multiple est :
ŷ = −0,869 + 0, 0611x1 + 0, 923x2

Notons que la valeur de b1 n’est pas la même dans les deux


cas. Pour une régression linéaire simple, b1 peut être
interprété comme une estimation de l’effet sur y d’une
variation d’une unité de la variable indépendante.

Pour une régression multiple, chaque bi représente une


estimation d’un changement de y suite à un changement
d’une unité de xi lorsque toutes les autres variables
indépendantes sont constantes.
III. Coefficient de détermination :

Comme pour une régression linéaire simple, on a :

SCT = SCreg + SCres

où : 2
SCT = ∑ (yi − y )

2
SCreg = ∑ ( ŷi − y )

2
SCres = ∑ (yi − ŷi )
Le ratio (SCreg/SCT) est utilisé pour évaluer
l’adéquation de l’équation estimée de la régression.
Ce ratio est appelé coefficient de détermination
multiple et est noté :
2 SCreg
R =
SCT
SCreg 21601
Pour notre exemple : R = 2
= = 0, 904
SCT 23900

— Cela veut dire que 90,4% de la variabilité dans le


temps de trajet y est expliquée par l’équation de
la régression multiple (2 var. indpdtes).
Remarques :
1. Beaucoup d’analystes préfèrent ajuster le R2 au nombre
de variables indépendantes pour éviter de surestimer
l’impact de l’ajout d’une variable indépendante sur la
part de la variabilité expliquée par l’équation estimée de
la régression (n: nbr d’observations, p: nbr de var.
indpdtes) :
2 2 n −1
R = 1− (1− R )
a
n − p −1
Pour notre exemple :
2 10 −1
R = 1− (1− 0, 904)
a = 0,88
10 − 2 −1
2. Si une variable est ajoutée dans le modèle, R2 augmente
même si cette variable n’est pas statistiquement
significative. Le coefficient de détermination multiple
ajusté tient compte du nombre de variables
indépendantes présentes dans le modèle.

3. Si la valeur de R2 est faible et que le modèle contient un


nombre de variables indépendantes important, le
coefficient de détermination ajusté peut prendre une
valeur négative. Dans de tels cas, prendre un coefficient
égal à 0.
IV. Hypothèses du modèle :

Même avec une valeur du coefficient de


détermination assez élevé, une analyse approfondie
de la robustesse du modèle supposé doit être faite.

Pour cela, des tests de signification doivent être


effectués et sont basés sur les hypothèses suivantes,
concernant le terme d’erreur ε :
Hypothèses sur le terme d’erreur ε dans le modèle
de la régression : y = β0 + β1 x1 +... + β p x p + ε

(H1) E(ε ) = 0 (donc E(y) = β0 + β1 x1 +... + β p x p )

(H2) La variance de ε notée σ 2 est la même pour


toutes les valeurs des variables indépendantes.

(H3) Les valeurs de ε sont indépendantes entre


elles.

(H4) Le terme d’erreur ε est une v. a. normalement


distribuée (et donc y aussi).
V. Test de signification :
Pour l’équation de régression linéaire simple, les tests de
signification utilisés étaient les tests t de Student et F de Fisher. Et
les deux tests aboutissent à la même conclusion.

Pour une régression multiple, les deux tests n’ont pas le même
objectif:

1. Le test de Fisher est utilisé pour déterminer s’il existe une


relation significative entre la var. dépendante et l’ensemble des
variables indépendantes. On parle du test de signification
globale.
2. Le test de Student est utilisé pour déterminer si chacune des
variables indépendantes est significative. Un test de Student est
effectué pour chaque variable indépendante du modèle; on
parle du test de signification individuelle.
Test de Fisher:

y = β0 + β1 x1 +... + β p x p + ε
On a :

Les hypothèses du test de Fisher concernent les


paramètres du modèle de régression.

H0 : β1 = β2 = ... = β p = 0

Ha : Au moins un des paramètres n’est pas égal à zéro.


Dans le cas d’une régression multiple, la SCT a n-1
degrès de liberté, la SCreg a p degrès de liberté et la
SCres a n-p-1 degrès de liberté. Par conséquent,

SCreg
MCreg =
p

SCreg
MCres =
n − p −1
— Test de signification globale de Fisher:

H 0 : β1 = β2 = ... = β p = 0
H a : Au moins un des paramètres n'est pas égal à 0

MCreg
— Statistique de test : F=
MCres

— Règle de rejet :
– Approche par la valeur p : Rejet de H0 si p ≤ α
– Approche par la valeur critique : Rejet de H0 si
F ≥ Fα
où Fαest basé sur la loide Fisher à p ddl au numérateur et
(n-p-1) ddl au dénominateur.
Dans notre exemple,

MCreg 10,8
F= = = 32, 9
MCres 0, 328
Au seuil de signification :
α = 0, 01
On a :
F0,01 = 9, 55

Donc (H0) à rejeter. Et on peut conclure qu’une


relation significative existe entre la durée des trajets y
et les deux var. indpdtes : nbr de kms parcourus et
nbr de livraisons effectuées.
Tableau ANOVA :

Source Somme Degrés Moyenne des carrés F


de la des de liberté
variation carrés
Régression SCreg p
SCreg MCreg
MCreg = F=
p MCres

SCres
Résidu SCres n – p-1 MCres =
n − p −1

Totale SCT n-1


Test de signification individuelle de Student :
Pour tout paramètre βi
H 0 : βi = 0
H a : βi ≠ 0
bi
— Statistique de test : t =
sbi

— Règle de rejet :
– Approche par la valeur p : Rejet de H0 si p ≤ α
– Approche par la valeur critique : Rejet de H0 si
t ≤ −tα /2 ou t ≥ tα /2
où tα /2 est basé sur la distribution de Student à (n-p-1) ddl.
Remarques :

1. Les tests de Fisher et de Student conduisent à des


résultats identiques dans le cadre d’une régression
linéaire simple.

2. Rejeter l’hypothèse nulle et conclure que la relation


entre x et y est statistiquement significative ne nous
permet pas de conclure qu’une relation de cause à
effet relie x et y.
3. Le fait de rejeter H0 et de conclure à l’existence d’une
relation significative ne nous permet pas de conclure
que la relation est linéaire entre x et y (x et y sont
liées et une relation linéaire explique une partie de la
variabilité de y par rapport à x).

4. Dans la mesure où la relation est significative, nous


pouvons utiliser (avec confiance) l’équation estimée
de la régression pour effectuer des prévisions pour
des valeurs de x appartenant à l’intervalle des valeurs
observées dans l’échantillon.
VI. Multi-colinéarité:
Le terme « variables indépendantes » est utilisé pour expliquer la
valeur de la variable dépendante. Ce terme ne signifie pas que les
variables indépendantes sont elles-mêmes indépendantes au sens
statistique du terme.

Au contraire, la plupart des variables indépendantes sont plus ou


moins corrélées entre elles. Il est alors possible de calculer le
coefficient de corrélation entre chaque couple de variables
indépendantes pour déterminer dans quelle mesure ces deux
variables sont liées.

Ainsi, lorsque les variables indépendantes sont fortement


corrélées, il n’est pas possible de déterminer l’effet propre d’une
variable indépendante particulière sur la variable dépendante.
STATISTIQUE APPLIQUEE

Chap. IV : Test d’hypothèses

Rachid MCHICH
Pour faire un test d’hypothèses, on
commence par faire une hypothèse sur un
paramètre de la population considérée.

Cette hypothèse est appelée: hypothèse


nulle et est notée : H0.

On définit ensuite une autre hypothèse


appelée: hypothèse alternative, notée : Ha.
La procédure de test consiste à utiliser les
données issues d’un échantillon pour tester
les deux assertions en compétition : H0 et
Ha.

Les tests d’hypothèses peuvent concerner


deux paramètres d’une population: la
moyenne et la proportion.
I. Hypothèses nulle et alternative

Exemple 1 : Pour évaluer les performances d’un


nouveau moteur, plusieurs prototypes ont été
construits et le groupe de recherche tente à
prouver que le nouveau moteur augmente en
moyenne le nombre de kilomètres effectués avec un
litre de carburant; d’où :

H 0 : µ ≤ 24
H a : µ > 24

Test unilatéral supérieur


Exemple 2 : Un producteur de boissons gazeuses
affirme que les bouteilles de 2 litres contiennent en
moyenne, au moins 2,028. Un échantillon de
bouteilles est sélectionné et leur contenance est
évaluée par une commission de contrôle; d’où :

H 0 : µ ≥ 2, 028
H a : µ < 2, 028

Test unilatéral inférieur


Exemple 3 : En contrôle de qualité, un agent
n’acceptera une pièce d’un échantillon de pièces que
si elle a une longueur de 2 cm exactement; d’où :

H0 : µ = 2
Ha : µ ≠ 2

Test bilatéral
II . Erreurs de 1ère et de 2nde espèce :

Condition sur la population


H0 vraie Ha vraie
Accepter H0 Conclusion correcte Erreur de 2nde espèce
Conclusion
Rejeter H0 Erreur de 1ère espèce Conclusion correcte

Seuil de signification :

Le seuil de signification est la probabilité de faire une


erreur de 1ère espèce lorsque l’hypothèse nulle est vraie
et satisfaite avec égalité.
Remarque : La plupart des tests d’hypothèses
contrôlent la probabilité de commettre une erreur
de 1ère espèce et sont appelés : tests de signification.

La probabilité de commettre une erreur de 2nde


espèce n’est très souvent pas contrôlée. Par
conséquent si nous décidons d’accepter H0, nous ne
pouvons pas déterminer le degré de confiance que
nous pouvons avoir dans cette décision.

Il est alors recommandé d’utiliser « ne pas rejeter


H0 » au lieu de « accepter H0 ».
III. Moyenne d’une population : σ connu
Rappelons que le seuil de signification est la
probabilité de faire une erreur de 1ère espèce lorsque
l’hypothèse nulle est vraie et satisfaite avec égalité.

Notons aussi que l’erreur type de x correspond à


l’écart type de la distribution d’échantillonnage de x :

σ
σx =
n
Pour effectuer des tests d’hypothèses relatifs à la
moyenne d’une population dans le cas σ connu, nous
utilisons la variable aléatoire centrée réduite z comme
statistique de test pour déterminer si x s’écarte
suffisamment de la valeur hypothétique de µ pour
entraîner le rejet de l’hypothèse nulle :

Statistique de test pour des tests d’hypothèses


relatifs à la moyenne de la population : σ connu
x − µ0
z=
σ
n
Tests d’hypothèses relatifs à la moyenne d’une
population : cas où σ est connu

Test unilatéral Test unilatéral Test bilatéral


inférieur supérieur
Hypothèses H 0 : µ ≥ µ0 H 0 : µ ≤ µ0 H 0 : µ = µ0
H a : µ < µ0 H a : µ > µ0 H a : µ ≠ µ0

Statistique de test x − µ0 x − µ0 x − µ0
z= z= z=
σ σ σ
n n n
Règle de rejet : approche Rejet de H0 si Rejet de H0 si Rejet de H0 si
par la valeur p p ≤α p ≤α p ≤α

Règle de rejet : approche Rejet de H0 si Rejet de H0 si Rejet de H0 si


par la valeur critique z ≤ −zα /2 ou z ≥ zα /2
z ≤ −zα z ≥ zα
Tests d’hypothèses relatifs à la moyenne d’une
population : cas où σ est inconnu

Test unilatéral Test unilatéral Test bilatéral


inférieur supérieur
Hypothèses H 0 : µ ≥ µ0 H 0 : µ ≤ µ0 H 0 : µ = µ0
H a : µ < µ0 H a : µ > µ0 H a : µ ≠ µ0

Statistique de test x − µ0 x − µ0 x − µ0
t= t= t=
s s s
n n n
Règle de rejet : approche Rejet de H0 si Rejet de H0 si Rejet de H0 si
par la valeur p p ≤α p ≤α p ≤α

Règle de rejet : approche Rejet de H0 si Rejet de H0 si Rejet de H0 si


par la valeur critique t ≤ −tα /2 ou t ≥ tα /2
t ≤ −tα t ≥ tα

Distribution de Student avec (n-1) ddl


Tests d’hypothèses relatifs à la proportion d’une
population

Test unilatéral Test unilatéral Test bilatéral


inférieur supérieur
Hypothèses H 0 : p ≥ p0 H 0 : p ≤ p0 H 0 : p = p0
H a : p < p0 H a : p > p0 H a : p ≠ p0

Statistique de test p − p0 p − p0
z=
p − p0
z= z=
p0 (1− p0 ) p0 (1− p0 ) p0 (1− p0 )
n n n
Règle de rejet : approche Rejet de H0 si Rejet de H0 si Rejet de H0 si
par la valeur p p ≤α p ≤α p ≤α

Règle de rejet : approche Rejet de H0 si Rejet de H0 si Rejet de H0 si


par la valeur critique z ≤ −zα z ≥ zα z ≤ −zα /2 ou z ≥ zα /2

Vous aimerez peut-être aussi