FSJES
KENITRA
SPSS
Statistical Package for the Social Sciences
Mohammed Kaicer
Avant propos
Ces travaux pratiques de SPSS destinés aux
étudiants de Master M1 ‘’Gestion de Risques
Financiers’’, et a pour objectif une assimilation
du dudit logiciel. Les slides comportent des
rappels théoriques sur les modèles linéaires,
et des illustrations pratiques sur les étapes
essentielles pour traiter un jeu de données.
Modélisation Linéaire
Analyse de la régression
Y f ( X1 , X 2 , X 3 ,..., X n )
Coût du loyer Nombre de pièces
Services offerts
(piscine, stationnement intérieur, etc.)
Une entreprise veut mener une étude sur la relation entre les dépenses
mensuelles en publicité et le volume de ventes qu’elle réalise. On a recueilli au
cours des deux dernières années les données qui se trouvent dans la série
« advert.sav» et on a tracé le nuage de points ou le diagramme de dispersion
de ces données.
Analyse de la régression linéaire simple
Variable expliquée ou
Variable explicative ou
dépendante, Y
indépendante, X
Analyse de la régression
Y f (X )
Par exemple, si la relation semble rassembler les points autour d’une ligne
droite dans le nuage de points, nous pouvons résumer cette relation par
l’équation qui résout le mieux cette droite.
différence
b = l’ordonnée à l’origine
Analyse de la régression linéaire simple
Y=a X+b
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
La droite de régression qui permet
de déterminer le volume moyen des
ventes pour un coût publicitaire
donné x.
Dépenses en publicité
Inférence statistique
Équation empirique
L’analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Règle de décision :
On rejette H0 si la p value est plus petite que 0.05, p < 0,05 (seuil
de significaiton statistique à un niveau de confiance de 95%). On
dit alors que le test est STATISTIQUEMENT SIGNIFICATIF et
GÉNÉRALISABLE à un niveau de confiance de 95%.
Pour ce qui est de l’homoscédasticité, les variances des résidus doivent être
constantes pour toutes les valeurs de X et donc indépendantes des magnitudes
de X et de Y.
Analyse de la régression linéaire simple
Règle de décision
Au risque a, on accepte H0 si la valeur de
Durbin-Watson est proche de 2.
Analyse de la régression linéaire simple
R2 = var(reg)/var(tot)
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Qualité de l’ajustement
Analyse de la régression linéaire simple
Qualité de l’ajustement
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
vs
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple
Analyse multivariée
• Exemples
– Expliquer le prix d’un appartement par la superficie, les prestations,
l’emplacement,…
– Expliquer les ventes d’un magasin par le marché total, le prix,
l’investissement, la publicité,…
– Expliquer la consommation des véhicules par le prix, la cylindrée, la
puissance et le poids.
Avant de commencer!
On doit s’assurer des point suivants:
• N > 30
– Plus il y a de variables, plus l’échantillon devra être grand.
VarInd1
VarDep
VarInd2
r > 0,70
Formule de la régression
Y = Variable Dépendant
a = Constante
x1 , x2 , … , xn = Variables indépendantes
b1, b2, … , bn = pente de chaque VarInd
e est un bruit aléatoire représentant le terme d’erreur.
Formule de la régression
Ecriture matricielle du modèle
a
y1 1 x1,1 x1,n e 1
b1
y p 1 x p ,1 x p ,n e p
bn
y X e
Les hypothèses du modèle
– Les hypothèses de nature probabiliste
• Les variables Xi sont aléatoires
• E(e i)=0 pour tout i
• V(e i)=s2 pour tout i (homoscédasticité des erreurs)
• Cov(e i , e j )=0 pour tout i≠j
– Les hypothèses structurelles
• Det(XTX)≠0 (absence de colinéarité entre les variables
indépendantes ).
• p>n+1
Estimation des coefficients de
régression
La méthode : les moindres carrés ordinaires
Le principe de l’estimation des coefficients de régression :
a, b , b ,..., b
1 des
consiste à minimiser la somme 2 carrés
n des résidus :
p p
i i i
e 2
i 1
( y ˆ
y ) 2
i 1
Estimation de la variance des résidus
i
e 2
ˆ 2 i 1
p n 1
• Le test global de Fisher
Il permet de répondre à la question : la liaison globale entre Y et les Xi est-
elle significative ?
– Hypothèses
H0: b1 = b2 = ... = bn = 0
Y ne dépend pas des variables Xi .
y Y yˆ Y ( y yˆ )
p p p
2 2 2
i i i i
i 1 i 1 i 1
Qualité de la régression
Statistique utilisée
SCE
F n
SCR
p n 1
Règle de décision
Au risque a, on rejette H0 si : a ≥ p-value
(calculée avec une loi de Fisher à n et p-n-1 degrés de liberté)
Qualité de la régression
Le test de Student sur un coefficient de régression
Il permet de répondre à la question suivante :
l’apport marginal d’une variable Xj est-il significatif ?
Hypothèses
H0 : bj = 0
On peut supprimer la variable Xj
H1 : bj 0
Il faut conserver la variable Xj
Qualité de la régression
Statistique utilisée sous l’hypothèse H0
ˆi
ti , sˆ : écart - typeestimé de ˆi
sˆ i
i
Règle de décision
Au risque a, on rejette H0 si : a ≥ p-value (calculée à partir d’une loi
de Student à p-n-1 degrés de liberté).
Analyse des résidus
Normalité
QQ plot
Tests de normalité