Vous êtes sur la page 1sur 103

UNIVERSITE IBN TOFAIL

FSJES
KENITRA

MASTER GESTION DES RISQUES FINANCIERS

SPSS
Statistical Package for the Social Sciences

Mohammed Kaicer
Avant propos
Ces travaux pratiques de SPSS destinés aux
étudiants de Master M1 ‘’Gestion de Risques
Financiers’’, et a pour objectif une assimilation
du dudit logiciel. Les slides comportent des
rappels théoriques sur les modèles linéaires,
et des illustrations pratiques sur les étapes
essentielles pour traiter un jeu de données.
Modélisation Linéaire
Analyse de la régression

 L’analyse de la régression est une méthode statistique qui permet


d’étudier le type de relation pouvant exister entre une certaine variable
(dépendante) dont on veut expliquer les valeurs et une ou plusieurs
autres variables qui servent à cette explication (variables indépendantes)

 En d’autres termes, l’analyse de la régression permet d’étudier les


variations de la variable dépendante en fonction des variations connues
des variables indépendantes.
Analyse de la régression

Le coût du loyer en fonction du nombre de pièces, du niveau d’étage dans


l’immeuble, des services offerts ...

Y  f ( X1 , X 2 , X 3 ,..., X n )
Coût du loyer Nombre de pièces

Services offerts
(piscine, stationnement intérieur, etc.)

L’étage dans l’immeuble



Analyse de la régression

Une analyse de régression est :

dite simple si elle permet de prédire les valeurs d’une variable


dite dépendante (expliquée (Y)) à partir des valeurs prises par
une autre variable dite indépendante (explicative (X)).

dite multiple si elle permet de prédire les valeurs d’une variable


dite dépendante (expliquée (Y)) à partir des valeurs prises par
plusieurs autres variables dites indépendantes (explicatives
(Xi)).
Analyse de la régression

Définition : Nuage de points ou diagramme de dispersion

C’est la représentation graphique dans le plan cartésien de l’ensemble


des paires de données (xi,yi). Ces données proviennent d’une série
statistique de deux variables obtenues à partir d’une étude menée sur
un échantillon ou sur une population.
Analyse de la régression

Exemple : Nuage de points ou diagramme de dispersion

Une entreprise veut mener une étude sur la relation entre les dépenses
mensuelles en publicité et le volume de ventes qu’elle réalise. On a recueilli au
cours des deux dernières années les données qui se trouvent dans la série
« advert.sav» et on a tracé le nuage de points ou le diagramme de dispersion
de ces données.
Analyse de la régression linéaire simple

Exemple : Nuage de points ou diagramme de dispersion

Variable expliquée ou
Variable explicative ou
dépendante, Y
indépendante, X
Analyse de la régression

Objectif d’une analyse de régression simple

Une fois la représentation graphique effectuée, il est facile de soupçonner


l’existence d’une certaine relation entre les deux variables. Il faut maintenant
chercher à exprimer cette relation à l’aide d’une équation mathématique.

Y  f (X )

On essaie de trouver la forme mathématique de la fonction f


Analyse de la régression

Objectif d’une analyse de régression simple


Relation entre X et Y: régression et corrélation

Différence entre régression et corrélation ?

La régression linéaire simple se préoccupe essentiellement de la forme de la


relation linéaire qui existe entre X et Y

La corrélation essaye de mesurer l’intensité ou la force de la relation linéaire


qui existe entre X et Y.
Analyse de la régression linéaire simple
Nous allons maintenant voir comment

 Modéliser une relation linéaire, c'est-à-dire comment représenter le mieux


possible la relation linéaire entre deux variables à l’aide d’une équation
mathématique.
 prédire une variable continue à partir d'une autre.

Par exemple, si la relation semble rassembler les points autour d’une ligne
droite dans le nuage de points, nous pouvons résumer cette relation par
l’équation qui résout le mieux cette droite.

De même, il est possible de modéliser mathématiquement d’autres types de


relation (quadratique, cubique, exponentielle, etc.).
Analyse de la régression linéaire simple

• Les questions auxquelles répond la modélisation de la relation linéaire


ressemblent souvent à celles- ci :

• De combien les ventes d’une compagnie peuvent augmenter lorsque le


budget de publicité est doublé ?
• De combien le taux de cholestérol augmente-t-il en fonction de
l’augmentation du pourcentage de gras ?
• Le nombre d’heures d’étude est-il associé au rendement scolaire ?
• Nous allons étudier la plus simple des modélisations:

La régression linéaire simple.


Analyse de la régression linéaire simple

Définition : Nous appelons régression linéaire l’ajustement d’une droite au


nuage statistique d’une série de couples de données.

Ainsi, une régression linéaire simple va permettre de résumer, d’interpréter


et de prévoir les variations d’un caractère dit dépendant (Y) en fonction d’un
autre dit indépendant (X) et ce en utilisant une droite.
Analyse de la régression linéaire simple

différence

a = la pente de Y=a X+b


la droite de régression

b = l’ordonnée à l’origine
Analyse de la régression linéaire simple

La méthode des moindres carrés

Idée de base : cette méthode essaie de construire une droite de


régression empirique qui minimise la somme des carrés des
distances verticales entre cette droite et chacun des points observés.
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple

Principes de la méthode des moindres carrés

Les estimations ponctuelles


des paramètres de la droite différence
de régression obtenues par la
méthode des moindres carrés
sont :
Analyse de la régression linéaire simple

Manipulation sous SPSS

À partir des données de la série « advert.sav»,

1. Tracez le nuage de points;


2. La droite de régression;
3. Déterminez les estimations ponctuelles des paramètres de la droite de
régression selon la méthode des moindres carrés.
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple

Y=a X+b
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
La droite de régression qui permet
de déterminer le volume moyen des
ventes pour un coût publicitaire
donné x.

Dépenses en publicité

Ordonnée à l’origine (volume de vente


C’est l’augmentation du volume Moyen sans dépenser un sous en publicité)
des ventes (Y) pour une augmentation
unitaire du coût en publicité (X)
Analyse de la régression linéaire simple

Inférence statistique

Équation empirique
L’analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple

Les estimations par intervalle de confiance des paramètres de la droite de


régression.
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple

Règle de décision :

 On rejette H0 si la p value est plus petite que 0.05, p < 0,05 (seuil
de significaiton statistique à un niveau de confiance de 95%). On
dit alors que le test est STATISTIQUEMENT SIGNIFICATIF et
GÉNÉRALISABLE à un niveau de confiance de 95%.

 Le niveau de signification statistique : la probabilité de rejeter H0


alors que H0 est vraie : à un seuil de 0.05, on a 5% des chances de
se tromper en rejetant H0.
Analyse de la régression linéaire simple

Les estimations par intervalle de confiance des paramètres de la droite de


régression.

Interprétation : il existe une relation linéaire entre Y et X


Analyse de la régression linéaire simple

Conditions d’application du test

• Les variables sont quantitatives;


• La relation entre X et Y est linéaire;
• Les valeurs résiduelles sont normalement distribuées;
• Présence d’homoscédasticité.

Pour ce qui est de l’homoscédasticité, les variances des résidus doivent être
constantes pour toutes les valeurs de X et donc indépendantes des magnitudes
de X et de Y.
Analyse de la régression linéaire simple

 Normalité des résidus


 QQ plot

 Tests de normalité (test d’ajustement):

H0: normalité de la distribution


Règle de décision
Au risque a, on rejette H0 si : p-value <= a
 Indépendance des résidus
 Test de Durbin-Watson

Règle de décision
Au risque a, on accepte H0 si la valeur de
Durbin-Watson est proche de 2.
Analyse de la régression linéaire simple

Le test de Durbin-Watson est un test statistique destiné à tester


l'autocorrélation des résidus dans un modèle de régression linéaire. Il a été
proposé en 1950 et 1951 parJames Durbin et Geoffrey Watson

d est approximativement égale à 2(1 − r), avec r c’est autocorrélation des


résidus, d = 2 indique une absence d’autocorrélation. Les valeurs de d sont
entre 0 et 4.
Analyse de la régression linéaire simple

Normalité des résidus


Analyse de la régression linéaire simple

Normalité des résidus


Analyse de la régression linéaire simple

Normalité des résidus


Analyse de la régression linéaire simple

Normalité des résidus


Analyse de la régression linéaire simple

Normalité des résidus


Analyse de la régression linéaire simple

Normalité des résidus


Analyse de la régression linéaire simple

Indépendance des résidus


Analyse de la régression linéaire simple

Indépendance des résidus


Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple

R2 = var(reg)/var(tot)
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple

Coefficient de détermination et nuage de points


Analyse de la régression linéaire simple

Coefficient de détermination et nuage de points


Analyse de la régression linéaire simple

Coefficient de détermination et nuage de points


Analyse de la régression linéaire simple

Coefficient de détermination et nuage de points


Analyse de la régression linéaire simple

Qualité de l’ajustement
Analyse de la régression linéaire simple

Qualité de l’ajustement
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95

vs
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple : série
world95
Analyse de la régression linéaire simple
Analyse multivariée

Régression linéaire multiple


À quoi sert la régression multiple?
• Extension de la régression simple
• Démontrer l’influence de deux ou plusieurs variables indépendantes
(VarInd) sur une variable dépendante (VarDep).

• Exemples
– Expliquer le prix d’un appartement par la superficie, les prestations,
l’emplacement,…
– Expliquer les ventes d’un magasin par le marché total, le prix,
l’investissement, la publicité,…
– Expliquer la consommation des véhicules par le prix, la cylindrée, la
puissance et le poids.
Avant de commencer!
On doit s’assurer des point suivants:

• N > 30
– Plus il y a de variables, plus l’échantillon devra être grand.

• Ne pas utiliser des VarInd qui sont très corrélées entres-elles.


(coefficient de corrélation r <0.7)
– Problème de multicolinéarité
Problème de multicolinéarité

C’est l’existence de corrélations élevées (au delà de 0.70) entre les


variables indépendantes (variables explicatives).
La multicolinéarité a notamment pour conséquences :

• de fausser la précision de l’estimation des coefficients de régression


• de rendre sensible l’estimation des coefficients à de petites variations des
données.
Problème de multicolinéarité

VarInd1

VarDep

VarInd2

VarInd1 VarInd2 VarDep


VI2

r > 0,70
Formule de la régression

Y = a + b1x1 + b2x2 + … + bnxn + e

 Y = Variable Dépendant
 a = Constante
 x1 , x2 , … , xn = Variables indépendantes
 b1, b2, … , bn = pente de chaque VarInd
 e est un bruit aléatoire représentant le terme d’erreur.
Formule de la régression
Ecriture matricielle du modèle

a
 y1  1 x1,1  x1,n    e 1 

     b1   
      
 
  
 y p  1 x p ,1  x p ,n    e p 

  
bn 
y  X  e
Les hypothèses du modèle
– Les hypothèses de nature probabiliste
• Les variables Xi sont aléatoires
• E(e i)=0 pour tout i
• V(e i)=s2 pour tout i (homoscédasticité des erreurs)
• Cov(e i , e j )=0 pour tout i≠j
– Les hypothèses structurelles
• Det(XTX)≠0 (absence de colinéarité entre les variables
indépendantes ).
• p>n+1
Estimation des coefficients de
régression
La méthode : les moindres carrés ordinaires
Le principe de l’estimation des coefficients de régression :

a, b , b ,..., b
1 des
consiste à minimiser la somme 2 carrés
n des résidus :

p p

i  i i
e 2

i 1
 ( y  ˆ
y ) 2

i 1
Estimation de la variance des résidus

i
e 2

ˆ 2  i 1

p  n 1
• Le test global de Fisher
Il permet de répondre à la question : la liaison globale entre Y et les Xi est-
elle significative ?
– Hypothèses
H0: b1 = b2 = ... = bn = 0
Y ne dépend pas des variables Xi .

H1: Au moins un coefficient est non nul


Y dépend d’au moins une variable Xi .
Qualité de la régression
 Décomposition de la somme des carrés totale
SCT : somme des carrés totale
SCR : somme des carrés des résidus
SCE : somme des carrés expliqués par le modèle

SCT = SCE + SCR

 y  Y    yˆ  Y    ( y  yˆ )
p p p
2 2 2
i i i i
i 1 i 1 i 1
Qualité de la régression
 Statistique utilisée

SCE
F n
SCR
p  n 1

 Règle de décision
Au risque a, on rejette H0 si : a ≥ p-value
(calculée avec une loi de Fisher à n et p-n-1 degrés de liberté)
Qualité de la régression
 Le test de Student sur un coefficient de régression
Il permet de répondre à la question suivante :
l’apport marginal d’une variable Xj est-il significatif ?
 Hypothèses

H0 : bj = 0
On peut supprimer la variable Xj
H1 : bj  0
Il faut conserver la variable Xj
Qualité de la régression
 Statistique utilisée sous l’hypothèse H0

ˆi
ti  , sˆ : écart - typeestimé de ˆi
sˆ i
i

 Règle de décision
Au risque a, on rejette H0 si : a ≥ p-value (calculée à partir d’une loi
de Student à p-n-1 degrés de liberté).
Analyse des résidus
 Normalité
 QQ plot

 Tests de normalité

 Indépendance des résidus


 Test de Durbin-Watson
Exemple introductif
Analyse de la régression linéaire multiple

Calculez les corrélations des variables de la série Car_sales.sav


Analyse de la régression linéaire multiple

Calculez les corrélations des variables de la série Car_sales.sav


Analyse de la régression linéaire multiple

Analyse des coefficients de la régression


Test de l’existance d’une relation
linéaire enrte VD et VI

Test sur les coefficients


Analyse de la régression linéaire multiple
Analyse de la régression linéaire multiple

Normalité des résidus


Analyse de la régression linéaire multiple
Analyse de la régression linéaire multiple

Analyse des résidus


Test de normalité

Pvalue >0.05: on accepte H0 « res suit la loi normal »


Analyse de la régression linéaire multiple

Analyse des résidus


Test d’indépendance