Vous êtes sur la page 1sur 113

Niveau de confiance et valeurs de z

(valeurs de la table)

Rique α Niveau de confiance 1-α z


Pour 1%, Et pour un niveau de confiance de 99% la valeur de z est 2,58
Pour 5%, Et pour un niveau de confiance de 95% la valeur de z est 1,96
Pour 10%, Et pour un niveau de confiance de 90% la valeur de z est 1,645
Compétences et connaissances à acquérir

- Savoir choisir la ou les technique(s) statistique(s) appropriée(s) à la


problématique posée
- Savoir interpréter les résultats au regard de la problématique
environnementale concernée
- Savoir traiter des données d’enquête à l’aide du logiciel SPSS
Pré-requis

• Statistique descriptive univariée


• Statistique descriptive bivariée

Suggestion de biblio

• David R. Anderson, Dennis J. Sweeney et Thomas A. Williams (2013)


Statistiques pour l’économie et la gestion, 4ème édition, De boeck, 845 p
• Corinne Hahn et Sandrine Macé (2012) Méthodes statistiques appliquées
au management, Pearson, 335 p
Plan du cours

- Chapitre 1. Test d’hypothèses


- Chapitre 2. Corrélation et régression linéaire (simple et multiple)
- Chapitre 3. Introduction à la régression logistique
- Contrôle continu en salle informatique (logiciel SPSS)
- Examen final, écrit (sur table) : 2h
Chapitre 1. Tests d’hypothèses : pour quoi faire ?

Etude : Déterminer le consentement à payer (CAP) des résidents de la


Région Hauts-de-France pour la protection des sites littoraux

- Deux modes de financement envisageables : Donations versus Taxe


spéciale
- Question (1) : Quel est le mode de financement préféré ?
- Question (2) : Quel est le mode de financement via lequel les résidents de la
Région Nord Pas de Calais sont prêts à payer plus ?
Exemple :

Donation  60% 20 pts


Taxe  40% de différence

Est-ce que 20% de différence sont suffisamment élevés pour conclure que la donation est le
mode de financement préféré des français ?
Il faut faire des tests d’hypothèse quand la différence est trop mince

Donation : 12,30€
Taxe : 18,80€
Le consentement à payer sous forme de taxe est supérieur au consentement à payer sous
forme de donation
Comment on fait le test ?

Population Extraction de 2 échantillons


Hauts-de-France indépendants

Analyse des données sur les échantillons :


• Propositions d’individus acceptant de
payer avec chaque mode de
financement
• Consentement à payer moyen par
mode de financement

Tests d’hypothèses :
Rejeter ou non l’hypothèse Test de comparaison de
concernant la population proportions
Nord Pas de Calais Test de comparaison de
moyennes
• Les échantillons doivent être représentatifs de la population. On
travaille sur des échantillons pour tirer des conclusions sur l’ensemble
de la population : c’est l’inférence statistique
Etapes pour réaliser un test d’hypothèse

1. Choisir le test d’hypothèse approprié


2. Formuler les hypothèses
3. Fixer un risque d’erreur de première espèce
4. Déterminer la statistique du test
5. Conclure
La statistique : la méthode
Les statistiques : les résultats de l’utilisation de la méthode. Elles peuvent être
biaisées.
Sources de biais:
- exogènes : les personnes interrogées sont incitées à répondre d’une telle façon
- endogènes : le chercheur est incompétent
• Test d’hypothèse : méthodes statistiques qui permettent , sur la base de
résultats d’échantillon tiré d’une population donné, de rejeter ou non une
hypothèse concernant cette population.
• 2 types de tests statistiques :
• Tests paramétriques : ils supposent une forme paramétrique particulière des
distributions (i.e. supposent une loi de probabilité) concernant les variables sur les
populations)
• Tests non paramétriques : aucune hypothèse concernant la nature de la distribution
Tests paramétriques :

Au-delà de 30 observations, on suppose que la distribution suit une loi normale.


Equivalents non paramétriques des tests paramétriques

• Test binomial : test de comparaison d’une moyenne ou d’une


proportion à une norme
• Test de Mann-Whitney : test de comparaison de deux moyennes ou
de deux proportions sur échantillons indépendants
• Test de Wilcoxon : test de deux moyennes ou de deux proportions sur
échantillons appariés
Rappel:

• Statistique descriptive univariée : analyse de chaque variable


séparément (âge, revenu...)
• Statistique descriptive bivariée : lien entre 2 variables (comme le
rapport entre l’âge et le revenu)
• Echantillons indépendants : on pose des questions à des personnes
provenant d’échantillons différents
• Echantillons appariés : on pose plusieurs questions à des personnes
provenant d’un même échantillon
A SAVOIR
• Test d’hypothèses : méthodes statistiques qui permettent, sur la base
de résultats d’échantillon tiré d’une population donnée, de rejeter ou
non une hypothèse concernant cette population.
Caractéristiques des principaux tests d’hypothèse
Nombre de Nombre de Type de
Test Question
populations variables variables
Test d’indépendance ou test Etablir une dépendance 1 2 Qualitative
du khi-deux
Test de comparaison d’une Comparer des paramètres 1 1 Quantitative
moyenne à une norme
Test de comparaison d’une Comparer des paramètres 1 1 Qualitative
proportion à une norme
Test de comparaison de deux Comparer des paramètres 2 1 Quantitative
moyennes
Test de comparaison de deux Comparer des paramètres 2 1 Qualitative
proportions
Formuler une hypothèse

• Faire une hypothèse sur un paramètre de la population considérée


• Hypothèse nulle (H0) : exprime une situation de référence, la non-évolution,
l’absence d’effet, le statuquo. C’est cette hypothèse qui est testée. La
démarche du test s’effectue en considérant cette hypothèse comme vraie.
• Définir une hypothèse alternative, notée H1, qui est l’opposée de H0.
Elle exprime un écart, une évolution par rapport à une situation de
référence, la présence d’un effet.
Echantillons indépendants  test de comparaison de moyenne sur échantillons indépendants

Echantillons appariés  test de comparaison de moyenne sur échantillon apparié

Comparer un pourcentage à une norme  test de comparaison d’une proportion à une norme

Exemple :
Touristes Excursionnistes
Visites 12 visites 18 visites

il faut faire un test de comparaisons de 2 moyennes


Hypothèse 0 H0 : μtouriste = μexcursionniste Test bilatéral
Hypothèse 1 H1 : μtouriste ≠ μexcursionniste

μ = moyenne
Autre exemple :
Norme maximale de taurine dans une boisson : 800mg
H0 : μ = μ0
Test unilatéral à droite
H1 : μ > μ0

Norme maximale de taurine dans une boisson : 800mg


H0 : μ = μ0 Test unilatéral à gauche
H1 : μ < μ0
• H0 est facile à formuler car exprimant le statuquo, H1 peut prendre
trois formes

Types de test
Test unilatéral à gauche Test bilatéral Test unilatéral à droite
H0 : μ = μ0 H0 : μ = μ0 H0 : μ = μ0
H1 : μ < μ0 H1 : μ ≠ μ0 H1 : μ > μ0

Le test bilatéral est approprié au cas où l’on cherche une différence entre deux
paramètres, ou entre un paramètre et une valeur donnée sans se préoccuper du
signe ou du sens de la différence.
Fixer un risque d’erreur
• Les tests d’hypothèses étant basés sur les informations d’un échantillon, des possibilités d’erreur
existent.
• Possibilité de se tromper, i.e. rejeter une hypothèse alors qu’elle est vraie dans la population
étudiée. On distingue 2 types de risque d’erreur : risque d’erreur de 1ère espèce et risque d’erreur
de 2ème espèce

Décisions
Ne pas rejeter H0 Rejeter H0
Etats de H0
H0 est vraie Bonne décision Mauvaise décision
Erreur de type 1
α = P(de commettre cette erreur)
= risque de première espèce
H0 est fausse Mauvaise décision Bonne décision
Erreur de type 2
β = P(de commettre cette erreur)
= risque de deuxième espèce
On se demande quel risque d’erreur est acceptable

- Risque d’erreur de 1ère espèce : probabilité de rejeter à tort H0 (alors


que H0 est vrai)
- Risque d’erreur de 2ème espèce : risque d’accepter H0
• Risque d’erreur de 1ère espèce (α) : probabilité de rejeter à tort H0.
Cette probabilité est appelée seuil de signification du test. Ce seuil est
défini à l’avance. Les valeurs les plus courantes sont de 10%, 5%,
parfois 1% (=1% de chance de se tromper = je prends 1% de risque de
rejeter à tort H0).

• Risque d’erreur de deuxième espèce (β) : probabilité d’accepter à tort


H0.

• La majorité des tests d’hypothèse contrôlent uniquement l’erreur de


1ère espèce. Ces tests portent alors le nom de tests de signification.
Déterminer la statistique de test

• Choisir une variable de décision à l’aide de laquelle on va prendre la


décision de rejet ou de non-rejet de H0. On associe ainsi chaque test à
une statistique.
• Dans un test d’hypothèses, la statistique de test est une variable
aléatoire utilisée pour contrôler l’hypothèse nulle. C’est la variable de
décision.
Conclure

• Deux approches pour conclure : approche par la valeur critique ou


celle de la probabilité critique
• Approche par la valeur critique : fixer le risque d’erreur de 1ère espèce
et déduit la zone de rejet.
• Zone de rejet ou région critique : l’ensemble des valeurs calculée de la
statistique de test qui conduisent à rejeter H0
• Zone de non-rejet : l’ensemble des valeurs calculées de la statistique
du test conduisant à ne pas rejeter H0
α = 5%  1,96 dans la table de loi normale
• Valeur critique : valeur de la statistique séparant zone de non-rejet et
zone de rejet
• La détermination de la valeur critique dépend du type de test : test
unilatéral (à gauche ou à droite) et test bilatéral
• Zone de rejet à gauche de la distribution (test unilatéral à gauche) ou
à droite de la distribution (test unilatéral à droite)
• L’aire de la zone de rejet correspond à la probabilité de rejeter H0
alors qu’elle est vraie, i.e. la probabilité α, le risque d’erreur de 1ère
espèce
Cas d’un test unilatéral à gauche

- Si la valeur calculée de la statistique


de test appartient à la zone de rejet
 le test est significatif au niveau de α
 rejet de H0

- Dans le cas contraire, ne pas rejeter H0


Loi normale = courbe en cloche

Si Z calculé = 1,25, alors on est en zone de non-rejet


Cas d’un test bilatéral

- Dans le cas d’un test bilatéral : répartition


équivalente et équitable du risque d’erreur de 1ère
espèce des deux côtés de la distribution

- Zone de rejet de rejet de l’hypothèse principale


se fait de part et d’autre de la distribution de
référence
Approche par la probabilité critique

• Probabilité critique (p-valeur) : probabilité utilisée pour déterminer si


H0 doit être rejetée
• La démarche consiste à calculer cette probabilité critique
• Une fois qu’on a estimé la probabilité critique, on la compare avec le
risque d’erreur de 1ère espèce fixé à l’avance α
P-valeur

< 1%  Rejet de H0 au seuil de signification de 1%


< 5%  Rejet de H0 au seuil de signification de 5%
< 10%  Rejet de H0 au seuil de signification de 10%
• Si p-valeur < α : rejet de l’hypothèse nulle (le test est significatif au
niveau α)
• Si p-valeur > α : pas de raison de rejeter l’hypothèse nulle au risque
d’erreur de 1ère espèce α

Rappel : l’axe horizontal


indique la valeur que peut
prendre la statistique et l’axe
vertical la probabilité que la
statistique prenne une valeur
donnée

Cas A : rejet de H0 et Cas B : non-rejet de H0


Exemple : test de comparaison d’une moyenne à une norme

• Supposons que, d’après des sources gouvernementales, le salaire


annuel moyen des cadres dans un secteur d’activité économique
donné soit de 49738€

• Enquête effectuée auprès d’un échantillon aléatoire de 36 entreprises du


secteur concerné. Résultat : salaire moyen : 50200€ et Ecart-type : 1560€

• Pour un seuil de signification de α = 0,05, l’affirmation provenant des sources


gouvernementales est-elle conforme à la réalité ?

NB : Ici, la valeur hypothétique de la moyenne de la population est μ0 = 49738€


Démarche du test
•1.  Hypothèses statistiques.
H0:μ = 49738 H1:μ ≠ 49738
2. Seuil de signification.
α = 0,05
3. Conditions d’application du test : Grand échantillon, n>30,
provenant d’une population de variance inconnue
4. La statistique qui convient pour le test est X̅ . L’écart réduit est : où
μ0 = 49738. Il est distribué suivant la loi normale centré réduite.
5. Règle de décision. D’après H1 et au seuil α=0,05, les valeurs
critiques de l’écart réduit sont z0,025=1,96 et -z0,025=-1,96 (test
bilatéral)
 
Calcul de l’écart réduit. Puisque =50200, s=1560 et n=36,
on obtient

 On cherche 1,77 dans la table :


en colonne : 1,7
en ligne : 0,07
 croisement des deux = 0,9616 (96,16%)
Si P-valeur < 1% (ou 5% ou 10%) ou peut rejeter l’hypothèse au seuil de
1% (ou 5% ou 10%). La probabilité critique correspond à la probabilité
que z peut prendre la valeur observée (ici : 1,77).
Approche par intervalle de confiance

- L’intervalle de confiance pour une moyenne est donnée par :

; ]

et sont respectivement la moyenne de la variable X et l’écart-type


corrigé calculés dans l’échantillon.
La valeur de z dépend du risque d’erreur de première espèce fixé
Comparaison d’une proportion à une norme

•  La variable d’intérêt est qualitative binaire. Le test se fait sur la


proportion d’une des deux modalités.
• L’objectif est de déterminer si une proportion dans une population,
notée πX, est égale, supérieure ou inférieure à une norme, notée π0
• La statistique de test, suis suit une loi normale centrée réduite, est
donnée par :

• : proportion calculée ; p0 : la norme et n : le nombre d’observations


Comparaison de deux moyennes sur échantillons indépendants

• Vérifier si les moyennes de deux populations différentes peuvent être


ou non considérées comme égales
• Echantillons indépendants se réfèrent au fait qu’un individu ne peut
appartenir qu’à une seule des deux populations
• Cas où les variances dans les 2 populations sont inconnues et la taille
des deux échantillons est grande
• La statistique du test est donnée par :
  𝑀 1 − 𝑀2
𝑍=
´ 21 𝑆´ 22
√(𝑆
+
𝑛1 𝑛1 )
où Z suit une loi normale centrée réduite
- M1 et M2 : estimateur de la moyenne dans la population 1 et la
population 2 respectivement
- -S1 et -S2 : estimateurs de l’écart-type dans la population 1 et la
population 2 respectivement
- N1 et n2 : tailles de l’échantillon 1 et l’échantillon 2 respectivement
• Le département des ressources humaines de l’entreprise X est
préoccupé par l’absentéisme au sein de l’entreprise. Deux échantillons
aléatoires indépendants sur deux groupes de travailleurs de l’entreprise
donnent les résultats suivants concernant le nombre de jours d’absence
:
 
Lamineurs (n1 = 45):
Soudeurs (n1 = 45):

• Peut-on affirmer, au seuil de signification de 1%, que le niveau moyen


d’absentéisme est identique pour les deux groupes de travailleurs ?
 
(11 ,5−9,0) 2,5 2,5
𝑧= = = =3,73
2 2 √ 0,4489 0 ,67
Hypothèses statistiques.
H0:μ1=μ2
H1:μ1≠μ2

(3,2) (2,9)
45 38
+ H :μ =μ H :μ ≠μ
0 1 2, 1 1 2

Seuil de signification.
α=0,01.
NUMERO1

Conditions d’application du test : grands échantillons


aléatoires avec n1>30 et n2>30

Rejet de l’hypothèse nulle car 3.73 > 2.58


• Il y a une autre manière de faire le test de comparaison sur
échantillons indépendants:
• Approche par les intervalles de confiance:
Hommes : 12 visites  [11 ; 15]
Femmes : 7 visites  [3 ; 10]
Si les intervalles de confiance se chevauchent, ne pas rejeter H0
Dans le cas contraire, il faut rejeter H0
Test de comparaison de deux moyennes sur échantillons appariés

• Les mêmes individus sont observés à deux reprises


• Le test de comparaison de moyennes sur échantillons appariés
consiste à comparer, sur la population, les moyennes X1 et X2 et à
vérifier si la différence, notée μD, est nulle ou pas sur la population
•  Dans le cas d’un échantillon de petite taille (n<30), la statistique du
test sous H0 suit une loi de Student avec v=n-1 degrés de liberté

• Où d est l’estimateur de la différence moyenne, S0 est l’estimateur de


l’écart-type de la différence et n est le nombre d’observations.
•  Pour un échantillon de grande taille (n>30), la statistique du test est :

• MD : estimateur de la différence moyenne et SD : estimateur de l’écart-


type de la différence
• La statistique du test suit une loi normale centrée réduite
Test de khi-deux d’indépendance

• Ce test permet de déterminer si deux variables qualitatives sont


indépendantes ou non sur la population
• Hypothèses du test :
• H0 : les deux variables sont indépendantes sur la population
• H1 : les deux variables sont liées sur la population
• La statistique du test est le khi-deux de Pearson. Celui-ci mesure
l’éloignement entre tableau observé et tableau d’indépendance
(effectifs théoriques). Une valeur nulle signifie qu’il y a indépendance.
Test de khi-deux et représentativité de l’échantillon

• La statistique de khi-deux peut être utilisée pour tester la


représentativité d’un échantillon

• La répartition des PME dans l’échantillon est-elle représentative de


celle de la population ?
• Calcul de khi-deux

 
où les sont obtenues en supposant H0 vraie

H0 : L’échantillon est représentatif Calcul de x2


H1 : L’échantillon n’est pas représentatif Modalités

Moins de 50 employés 104 109,99 0,2495

De 50 à 99 employés 14 10,4775 1,1843

100 employés et plus 9 7,3025 0,3946

Somme : X2 = 1,8284

Non-rejet de H0 car 1.8284 < 5.9915


Exemple :
Echantillon Population
- de 50 employés 104 823 86 %
50 - 99 14 79 8,25 %
> 99 4 55 5,7 %
Total 127 957

Tableau théorique du logiciel :

109,22
- de 50 employés 10,48
50 - 99 7,30
> 99
• Pour tester la représentativité, il suffit de comparer la répartition de
l’échantillon à celle que l’on doit s’attendre d’après les données sur la
population.
Chapitre 2. Corrélation et régression linéaire simple

• Deux variables X et Y sont corrélées si les variations de l’une


influencent les variations de l’autre. Si elles varient dans le même sens
: corrélation positive ; si elles varient en sens opposé : corrélation
négative (ou inverse).
• La représentation du nuage de points ou du diagramme de dispersion
renseigne sur l’éventuelle corrélation entre les deux variables et sur la
forme de cette corrélation. Il faut deux variables pour tracer un nuage
de points.
Exemple de nuage de points : la corrélation entre le poids et la taille
•  Covariance : indicateur statistique qui permet de dire si 2 variables
varient ou non dans le même sens :

• N : nombre total d’observations ; : moyenne de la variable x ; :


moyenne de la variable y
• Si Cov positive, les deux variables varient dans le même sens ; si
négative, elles varient en sens inverse ; si proche de 0, absence de
liaison (de forme linéaire) entre les variables X et Y
• Problème : la covariance a les mêmes unités que le produit X Y ; elle
est donc affectée par l’ordre de grandeur des unités de X et de Y.
• Dans le cas d’une corrélation linéaire entre X et Y, le coefficient de
corrélation de Pearson permet de mesurer l’intensité de la liaison
linéaire entre ces deux variables
Le coefficient de corrélation de Pearson est donné par la formule :
 

où :

- r est indépendant des unités de mesure X et Y

- r varie entre -1 (corrélation négative et parfaite) et +1 (corrélation positive et parfaite), r=0, pas de
corrélation linéaire mais possibilité d’une corrélation non-linéaire.
• Nuages de points
Significativité d’une corrélation linéaire
Hypothèses statistiques Règles de décision
H0 : ρ = 0 Rejeter H0 si r>rc ou si r<-rc
Tester la significativité d’une corrélation
H1 : ρ ≠ 0
linéaire revient à déterminer si la corrélation
observée entre X et Y pour l’échantillon H0 : ρ = 0 Rejeter H0 si r>rc
existe bel et bien au sein de la population H1 : ρ > 0
cible. H0 : ρ = 0 Rejeter H0 si r<-rc
H1 : ρ < 0
Soit une corrélation linéaire de 0.67. Quelle
est la valeur critique de r que l’on doit
dépasser pour conclure à une corrélation
positive significative au seuil de α=0,05
pour un échantillon de 210 individus.

- Valeur critique de
r = 0.115 pour n = 210

- r calculé = 0.67  corrélation ????


Significative entre les 2 variables.

Coefficient de Spearman:
Equivalent non-paramétrique du coefficient
de Pearson
Précaution à prendre
• La corrélation n’implique par toujours la causalité

La corrélation implique-t-elle causalité ?


Régression linéaire simple

Les ventes trimestrielles


semblent dépendre de la taille
de la population étudiante. La
relation entre ces variables
semble pouvoir être estimée
par une droite. Elle est donc
linéaire positive.
• L’analyse de régression consiste à étudier la dépendance d’une
variable (notée y) (dépendante) à une ou plusieurs autres variables
(variables explicatives, indépendantes, facteurs, régresseurs) (notés
X1, X2, ...Xn)
• Lorsqu’il n’y a qu’une seule variable explicative, on parle de régression
simple. Lorsqu’il y a plusieurs variables explicatives, on parle de
régression multiple.
• Important : identifier clairement la variable dépendante (Y) et la ou
les variable(s) explicative(s) (XI, i=1,...n)
•   expliquer la dépendance entre une variable et une autre, on fait une régression :
Pour

• La variable explicative est le revenu et la variable expliquée (dépendante) est le consentement à


payer
• a est la pente de la droite
• En analyse univariée, les données sont ajustées à une caractéristique
de la distribution ou à un point (le plus souvent la moyenne)
• En analyse linéaire bivariée, l’ajustement se fait à une droite
• L’équation d’une droite permet d’exprimer la relation entre les deux
variables. Elle est donnée par :
• La droite de régression est une représentation approximative de la
relation fonctionnelle entre Y et X.
•  En l’absence de données sur l’ensemble de la population, on ne peut
pas déterminer directement les paramètres et le terme d’erreur
représenté dans l’équation de la droite de régression. On ne peut que
les estimer sur la base des données d’échantillon.
• Le résidu est l’erreur commise en utilisant pour estimer
• Comme plusieurs droites peuvent s’ajuster à un nuage de points, la
question est de savoir comment trouver l’équation de la droite qui
résume le mieux la relation linéaire entre les variables X et Y.
• Cela revient à trouver les valeurs des paramètres du modèle linéaire
de telle sorte que la droite passe « au plus près » de l’ensemble des
points du nuage.
• Pour calculer cette droite de régression qui est la plus « proche » des
points, on utilise couramment la méthode des moindres carrés
ordinaires (MCO).
Méthode des moindres carrés (MCO)

•  La MCO consiste à minimiser la distance verticale entre les points et la


droite d’ajustement ou encore à minimiser pour tous les individus les
écarts entre la valeur observée Y, et sa valeur prédite , i.e. minimiser
ei (erreur d’ajustement ou résidu)
• : la valeur de que l’on aurait dû observer pour l’observation i si la
relation était parfaitement linéaire
• La MCO a été élaborée par Carl Friedrich Gauss (1777-1855)
Des erreurs d’ajustement sont commises. La
droite de MCO ou droite de régression est celle
qui minimise l’erreur d’ajustement sur l’ensemble
des individus de l’échantillon ou celle qui
minimise la somme des écarts résiduels au carré

Critère des MCO


 
𝒀 𝒊 = 𝒃𝟎 + 𝒃𝟏 𝑿 𝟏 +𝒆 𝒊

• Les valeurs de b0 et b1 qui minimisent la somme des écarts résiduels


au carré sont données par :

𝒄𝒐𝒗(𝑿 ,𝒀 )
   

𝒃𝟏 =
𝒗𝒂𝒓(𝑿 )
  ∑ ( 𝑥 𝑖 − ´𝑥 )( 𝑦𝑖 − ´𝑦 )
𝑏1 =
∑ ( 𝑥𝑖 − ´𝑥 ) 2
 

 
 
2840
¿ =5 = 130 – 5(14)
568 = 60

  L’équation estimée par les MCO s’écrit :

Ici, elle s’écrit :


Interprétation des paramètres estimés

•  L’équation obtenue est un modèle qui donne des informations que les
données seules ne fournissent pas :
• b0 : ordonnée à l’origine (constante de la régression) ; elle représente la valeur
de Y lorsque X est nulle
• b1 : pente de la droite : mesure l’impact de X sur Y.
Si signe positif, l’impact de X sur Y est positif : X=Y
Si signe négatif, l’impact de X sur Y est négatif : X=Y
• Il traduit l’effet de la variation d’une unité de X sur Y. Si X varie de 1 unité,
varie de b1 unité.
•  On peut aussi utiliser la droite de régression pour faire des prévisions :

Quelles devraient être, en moyenne, les ventes trimestrielles d’un


restaurant situé près d’un campus de 16000 étudiants ?

La vente devrait être de 140000€ en moyenne.

Les valeurs prédites devront être proches des valeurs


observées si l’intensité de la liaison linéaire est forte

NB : attention aux prévisions pour des valeurs de la variable


explicative qui sortent de l’intervalle des valeurs observées car il
n’est pas certain que la relation soit linéaire
Coefficient de détermination

• Dans quelle mesure l’équation estimée de la régression s’ajuste-t-elle


aux données, i.e. résume bien le nuage de points ?
• Le coefficient de détermination (r2) mesure la qualité de la régression linéaire.
Il exprime le pourcentage de la variation totale dans la variable dépendante
qui est expliquée par la relation linéaire entre cette variable dépendante et la
variable explicative.
•  Etudier la relation linéaire entre Y (variable dépendante) et X (variable
explicative) consiste à s’intéresser à la capacité de X à expliquer les
variations de Y (i.e. sa variance) grâce à l’ajustement linéaire postulé.
• Rappelons que

Donc :

Variation de Y = variation expliquée par le modèle + variation inexpliquée par le modèle


• 

Différente expliquée Différence inexpliquée par le


par le modèle modèle ou résidu du modèle

- En considérant la somme des carrés de ces différences, on a :

∑ ( 𝑦𝑖 − ´𝑦 ) 2=∑ ( ^𝑦𝑖 − ´𝑦 ) 2+∑ ( 𝑦𝑖− ^𝑦𝑖 )2


 
• 

Somme des carrés Somme des carrés Somme des carrés des résidus
totale (SCtot) dues à la régression (SCres)
(SCreg)

- Le coefficient de détermination est donné par :


• Ce coefficient varie entre 0 (aucun ajustement linéaire : la variation de
Y n’est pas due à la variation de X) et 1 (ajustement linéaire parfait :
cas d’un modèle déterministe  la variation résiduelle est nulle)
• Plus r2 est proche de 1, plus les données sont alignées sur la droite de
régression.
• Dans le cas de la relation linéaire entre les ventes trimestrielles des
restaurants universitaires et la taille de la population étudiante sur les
campus, un r2 = 90,27% signifie que 90,27% de la variation de ventes
trimestrielles s’explique par la relation linéaire entre la taille de la
population étudiante et les ventes trimestrielles.
Hypothèses du modèle linéaire

• Le terme d’erreur est une variable aléatoire de moyenne nulle ; i.e.


E(Ɛ)=0 pour une valeur de x donnée, l’espérance mathématique de Y
est égale à : E(y)=β0+β1
• Homoscédasticité. La variance de l’erreur est constante et son
amplitude est identique, quelle que soit l’observation
• Exogénéité de la variable explicative, i.e. Cov(Ɛi;Xi)=0
• Indépendance des erreurs, i.e. Cov(Ɛi;Xj)=0
Test de signification à l’aide de t de Student

• Il consiste à tester si la relation linéaire entre X et Y est significative. Le


test porte sur la pente de la droite de régression dont le paramètre
correspondant à b1 est β1.
H0 : β1 = 0 La régression n’est

H0 : β1 ≠ 0 pas significative

• La statistique du test est donnée par :


 

qui est distribuée selon la loi de Student avec (n-2) degrés de liberté
et
Approche par l’intervalle de confiance pour β1

• Une autre manière de tester la significativité de la relation linéaire est


de construire l’intervalle de confiance pour β1
• Un intervalle de confiance est une fourchette de valeurs qui a une
certaine probabilité, dite niveau de confiance, de contenir la vraie
valeur du paramètre sur la population
• Le niveau de confiance est noté 1-α
• Donc le risque accepté que l’intervalle de confiance ne contienne pas
la vraie valeur du paramètre sur la population vaut α (le risque de
première espèce)
Approches par l’intervalle de confiance pour β1

•• L’intervalle
  de confiance pour β1 est donnée par :

• b1 est l’estimateur ponctuel et est la marge d’erreur

s(b1)=0,5803 et t théorique associé à α=0,01 et 3,355 pour 8 degrés de liberté


• Un intervalle de confiance à 99% pour β1 est donc :

Cet intervalle a 99 chances sur 100 de contenir la vraie valeur du paramètre sur la
population
H0 : β1 = 0
H0 : β1 ≠ 0

• Si la valeur hypothétique de β1 appartient à l’intervalle de confiance,


ne pas rejeter l’hypothèse nulle. Sinon, la rejeter.
• Dans notre exemple, puisque 0 (la valeur hypothétique de β1) n’est
pas à l’intérieur de l’intervalle de confiance, on peut rejeter
l’hypothèse nulle et conclure qu’il existe bien une relation linéaire
significative entre les deux variables concernées
Approche par le test F de Fisher
 

Somme des carrés Somme des carrés Somme des carrés des résidus
totale (SCtot) dues à la régression (SCres)
(SCreg)

• L’approche par le test de Fisher pour tester la significativité globale du modèle


est appropriée lorsqu’il y a au moins deux variables explicatives dans le
modèle (régression linéaire multiple).
• A chaque somme des carrés est associé un nombre, appelé degré de liberté. La
somme des carrés des résidus n-2 degrés de liberté, puisque deux paramètres
doivent être estimés (β0 et β1) pour calculer cette somme. Pour la somme des
carrés de la régression, le nombre de degrés de liberté est égal au nombre de
variables indépendantes, soit 1 dans le cas d’une régression linéaire simple.
•  Le test de Fisher est utilisable pour tester la significativité de la
relation statistique
• Le test de Fisher constitue un rapport de variances (une variance
attribuable à la régression et l’autre attribuable à la variation
résiduelle)
• Résultat identique à celui d’un test t. Mais dans le cas d’une
régression linéaire multiple, seul le test de Fisher est approprié.
• La statistique de test est donnée par :

• MCreg : moyenne des carrés de la régression et MCres : moyenne des


carrés des résidus
H0 : β1 = 0
H0 : β1 ≠ 0

• Sous H0, la distribution de la quantité F est celle d’une loi de Fisher


avec 1 et (n-2) degré de liberté
• Rejet de H0 si F≥Fα
Prévision avec l’équation de la régression

• Estimation
  ponctuelle de la moyenne des ventes trimestrielles pour tous les
restaurants :

Cas 1) Quelles devraient être, en moyenne, les ventes trimestrielles de tous


les restaurants situés près d’un campus de 10000 étudiants ? Ici, on suppose
que x = 10000

la vente devrait être de 110000€ en moyenne


• Précision des estimations
• estimation d’une intervalle de confiance de la valeur moyenne de y pour une
valeur de x
• l’intervalle de confiance pour E(Y)
• E(Y) est la moyenne ou l’espérance mathématique de la variable dépendante
y correspondant à la valeur donnée x
 
Intervalle de confiance pour E(Yρ) :

• où le coefficient de confiance est égal à 1-α et ta/2 est basé sur la


distribution de Student à n-2 degré de liberté
Exemple type examen

•Si  on nous donne la variable :


-
Remplacer CT par la moyenne (ici : 15)
-

Quel est le nombre de visites moyennes par les touristes :


Avec un code de 1 pour touriste et 0 pour excursionniste (on code uniquement les
variables qualitatives),
- v = 10 – 3 * t
- v = 10 – 3 * 1 = 7
Analyse graphique de la qualité de la régression linéaire
Graphique des résidus

• L’analyse des résidus est le principal outil pour savoir si le modèle de


régression linéaire utilisé est approprié.
• Rappel des hypothèses :
• Le terme d’erreur est une variable aléatoire de moyenne nulle, c’est-à-dire
E(Ɛ)=0 pour une valeur de x donnée, l’espérance mathématique de Y est égale
à : E(y) = β0 + β1x
• Homoscédasticité : la variance de l’erreur est constante et son amplitude est
identique, quelle que soit l’observation
• Exogénéité de la variable explicative, c’est-à-dire Cov(Ɛi ; Xi) = 0
• Indépendance des erreurs, c’est-à-dire Cov(Ɛi ; Ɛj) = 0
Sélection automatique des variables d’un modèle

• Objectif : conserver les variables explicatives les plus significatives


dans le modèle
• La méthode du R2 maximal : permet d’avoir le « meilleur modèle » en
termes de R2 ajusté
• La méthode d’inclusion et d’exclusion des variables « pas à pas »
(stepwise regression) : inclut dans le modèle les variables explicatives
une à une en commençant par la plus corrélée avec la variable
dépendante et s’arrête à la première variable non significative (au
seuil indiqué par le chercheur.
• La méthode « pas à pas » à rebours (backward regression) : part du
modèle total, exclut les variables explicatives une à une en
commençant par la moins significative et s’arrête à la première
variable significative
• Précautions à prendre quant au choix des méthodes
Test de signification

2 tests :
• Test F de Fisher pour tester la signification globale de la régression
linéaire multiple, c’est-à-dire voir s’il y a bien une relation significative
entre Y (variable dépendante) et X (l’ensemble des variables
explicatives)
• Test t de Student pour tester la signification individuelle de chaque
variable explicative. Donc test effectué pour chaque variable
indépendante du modèle
Test F de Fisher

Pour le test de significativité du modèle, on suppose que tous les


paramètres du modèle sont égaux à 0, pour l’hypothèse alternative, au
moins un paramètre est différent de 0 (significatif)
• H0 : β1 = β2 = ... = βp = 0
• Ha (hypothèse alternative) : Au moins un des paramètres n’est pas
égal à 0

F suit une loi de Fisher à p degrés de liberté au numérateur et n-p-1


degrés de liberté au numérateur
Test t de Student

H0 : β1 = 0
Ha : β1 ≠ 0
 

Statistique de test

Approche par la valeur ρ : Rejet de H0 si la valeur ρ ≤ α


Approche par la valeur critique : Rejet de H0 si t ≤ -tα/2 ou si t ≥ tα/2
Où tα/2 est basé sur la distribution de Student à n-ρ-1 degrés de liberté
Multicolinéarité

• Multicolinéarité : lorsque plusieurs variables explicatives sont


corrélées entre elles
• Lorsque la multicolinéarité est très forte, il est difficile de séparer les
effets des variables explicatives concernées sur la variable
dépendante
• Le coefficient de corrélation informe sur le degré de corrélation entre
deux variables explicatives
• Problème si coefficient de corrélation entre deux variables
explicatives supérieur à ±70%
Autre moyen de détecter le problème de multicolinéarité
Ce que donne le logiciel

Variables TOL VIF


Score 0,91 1,10
Artisan/commerçant 0,74 1,36
Intermédiaire 0,67 1,50
Employé 0,62 1,61
Ouvrier 0,51 1,96
Autre 0,70 1,44
Retard 0,91 1,10
Internalité 0,98 1,02
Cas de la régression linéaire multiple

• Expliquer la fréquentation des plages catalanes par le coût de


transport, l’âge et le revenu des répondants

• Ecrire le modèle de régression :


Visite = β0 + β1age + β2h_income + β3cost + α
•A  partir des tableaux ci-dessus, écrire l’équation de régression :
Visite = 7,040 + 0,170age + 0,0001income - 0,020cost
• Calculer le nombre moyen de visites prédites :

= v = 7,040 + 0,170*40,37 + 0,0001*5270,4 – 0,20*146,03


Cas des variables indépendantes qualitatives binaires

• 
Interprétation des paramètres et estimation :
Les variables weightcost (coûts de transport) et local_tourists sont significatives
Moyenne :
v = 4,7 – 0,012cost + 0,0001income+0,04age + 4,4localtourists
avec 1 si touriste local
et 0 si touriste extérieur

v = 4,7 – 0,012 x 146 + 0,0001 x 5278 + 0,04 x 40 + 4,4

Moyenne pour touristes extérieur :

Nombre moyen de visites effectuées par un touriste âgé de 35 ans :


v = 4,7 – 0,012cost + 0,0001income + 0,047*35 + 4,4*1

Vous aimerez peut-être aussi