Vous êtes sur la page 1sur 35

SPSS Statistics

SPSS
• Fichiers et fenêtres SPSS Statistics
○ La fenêtre Editeur de données
○ L’onglet Vue des variables
○ La fenêtre Viewer
○ Utilisation des fonctions
• Transformation des données
○ Transformation des variables
○ Manipulation des observations
• Statistiques descriptives univariées
○ Variables quantitatives
○ Variables qualitatives
• Autres statistiques univariées
• Statistiques descriptives bivariées
○ Variables quantitatives / qualitatives ordinales
○ Variables qualitatives nominales ou ordinales
• Tests sur une moyenne
• Statistiques multivariés

1
I.  Fichiers SPSS Statistics

SPSS Statistics utilise deux types de fichier : un fichier de


données (extension .sav) et un fichier de résultats (.spv). Ces
deux fichiers sont indépendants et doivent être enregistrés
séparément.

1. Fenêtres SPSS
Cette fenêtre affiche le fichier de données sur lequel les traitements statistiques seront
effectués. Il s’agit d’un tableau dont les lignes correspondent aux observations
(individus) et les colonnes aux variables (caractères):

2
2. Fenêtres SPSS

Il est possible d’utiliser cette fenêtre pour saisir des données, même si en
général, on préfère les saisir dans Excel pour les importer ensuite dans SPSS
Statistics via Fichier > Ouvrir > Données | Fichiers de type > Excel (*.xls, *.xlsx,
*.xlsm).

En bas en gauche de la fenêtre, deux onglets Vue des données et Vue des
variables permettent de passer de l’affichage des données au paramétrage des
variables.

3. L’onglet Vue des variables

Cet onglet permet de définir précisément la nature des


variables et la façon dont elles seront affichées.

Chaque ligne correspond à une variable ; les colonnes 3


représente les différents attributs de chaque variable :
4. L’onglet Vue des variables

●  Nom : nom interne de la variable utilisé par SPSS Statistics. Ce nom doit
être simple, c’est-à-dire, sans accent, sans espace ni caractère exotique.
Se limiter aux 26 lettres de l’alphabet complétées par des chiffres et le tiret
bas (_). En outre, le nom d’une variable est limité à 8 caractères.
●  Type : type (informatique) de données contenues dans la variable. Les
deux type principaux sont Numérique (un nombre, éventuellement décimal,
par exemple 123,45) et Chaîne (une chaîne de caractères, par exemple
Limoges)
●  Largeur/Décimales : précise le format du type de données : nombre de
caractères/chiffres (largeur) et nombre de chiffres après la virgule
(décimales)

5. L’onglet Vue des variables


●  Libellé : nom de la variable utilisé pour l’affichage des résultats. Aucune limitation
pour ce champ. Toutefois, il est préférable éviter les noms trop longs qui
encombreraient l’affichage des résultats.
●  Valeurs : permet de définir des libellés de valeurs utilisées lors de l’affichage des
résultats. Par exemple, il est fréquent de coder 1/0, la réponse à une question
dichotomique (Oui / Non).
●  Manquant : permet de spécifier les valeurs utilisées pour représenter les données
manquantes (données non renseignées). En général, 9, 99, 999, etc.
●  Colonnes/Alignx : permet de définir la largeur de la colonne et l’alignement des
données dans la colonne.
●  Mesure : précise l’échelle de mesure utilisée : Échelle (variable quantitative),
Ordinales (variable qualitative ordinale), Nominales (variable qualitative nominale).

4
6. La fenêtre Viewer
● Cette fenêtre contient la suite chronologique des traitements statistiques
effectués. Le navigateur de résultat, dans la partie gauche de la fenêtre, permet de
passer rapidement d’un résultat à l’autre.

● Il est possible de modifier l’affichage d’un résultat (tableau, graphique, etc) en
double-cliquant dessus. Cette fenêtre peut être enregistrée dans un fichier de
résultats (.spv) via Fichier >Enregistrer.

7. Utilisation des fonctions


●  La plupart des fonctions SPSS Statistics, porte sur les variables définies dans le
fichier de données.
●  Les dialogues permettant d’accéder
à ces fonctions ont souvent une
Apparence proche de celle ci-contre.

●  Le cadre de gauche affiche la liste de toutes les variables. A l’aide de la flèche, on fait
passer dans le cadre de droite les variables qu’on souhaite étudier. Les boutons, du
type Statistiques..., permettent de préciser le traitement à effectuer.

5
II.  Transformation des données
Il arrive très souvent que les variables brutes d'une base de données ne soient pas
suffisantes pour effectuer certaines analyses. On peut avoir besoin de créer une ou des
nouvelles variables à partir des variables existantes, comme dans les cas suivants :

•Créer une variable qui contient la racine carrée d'une variable existante
•Calculer la moyenne ou la somme d'une série de variables existantes…
La commande Compute sert à créer de nouvelles variables sur la base de fonctions
arithmétiques, statistiques ou logiques.

1. Transformation des variables

●  Transformer > Calculer la variable : permet de définir une nouvelle variable à partir
des variables initiale, en utilisant une formule de type Excel. Par exemple, si un prix
est exprimé en Dirham, il est possible de définir une variable P_euros via la formule
P_dirham / 11.20.

●  Transformer > Recoder automatiquement : permet de transformer une variable


qualitative (Mariée, Célibataire, . . . ) en une variable numérique (1,2,. . . ). De plus,
des libellés de valeurs seront automatiquement définies pour la nouvelle variable.

●  Transformer > Regroupement visuel : permet de transformer une variables


quantitative en une variables qualitative ordinale en définissant des classes de
valeurs.

●  Transformer > Création de variables : version paramétrable des deux procédures


précédentes.

6
2. Manipulation des observations
Les expressions conditionnelles permettent de calculer des variables selon une
condition, donc qui s’applique à des sujets ou des observations (lignes) qui répondent à
certains critères que nous allons définir selon nos besoins avec cette commande.
La résultante des expressions conditionnelles peut créer une nouvelle variable ou
bien transformer les valeurs d'une variable existante. Dans le dernier cas, il faut s'assurer
que l'écrasement des valeurs originales ne porte pas à conséquence
Voici l’apparence Syntaxe la commande de cet exercice.
IF (sexe = 1) satis1=MEAN (q01, q03, q05).
Littéralement, elle signifie que SI la valeur de la variable SEXE est égale à « 1 », la
valeur de la variable SATIS1 sera égale à la moyenne des valeurs des variables Q01,
Q03 et Q05..

Expression conditionnelle (IF)

En u%lisant le langage SPS:

7
Sélection de cas

Pour certaines analyses, il peut être nécessaire de filtrer une partie des observations
(cas) pour obtenir des résultats auprès d'un sous-groupe spécifique d'observations.
Il est possible de sélectionner une ou des observations à l’aide de un ou d'une
combinaison de critères, soit par la boîte de dialogue, soit en utilisant une commande
SYNTAXE.
Les conditions de sélection peuvent être uniques ou multiples. Dans le cas d’une
seule condition, on inscrit la variable sur laquelle repose la sélection avec la condition
formulée grâce aux conditions arithmétiques (<, >, =, <=, >=, <>).
Toutes les conditions multiples (deux variables ou plus) doivent utiliser les opérateurs
logiques (AND et OR) pour séparer les conditions.
Pour faire une sélection de cas de manière interactive, allez dans le menu Données,
puis cliquez sur Sélectionnez des observations.

Sélection de cas

8
Sélection de cas

Exemple :
pour choisir les
hommes
de plus de 30 ans,
on entrerait dans la
boîte:
Sexe = 1 AND
âge > 30

Sélection de cas

Si vous préférez taper


la commande manuellement,
vous devriez créer
la syntaxe suivante:

9
3. Statistiques descriptives univariées

L’ensemble des traitements statistiques et des graphiques est regroupé dans les
menus Analyse et Graphiques.

Analyse > Rapport > Récapitulatif des observations : permet de visualiser les
données, en affichant l’ensemble des observations. Il est aussi possible d’afficher des
statistiques descriptives (moyenne, minimum, maximum,. . . ) et même de demander
l’affichage par groupe, suivant une variable qualitative (critère de regroupement).

3.1 Variables quantitatives

Analyse > Statistiques descriptives > Descriptives :


statistiques descriptives pour des variables quantitatives: moyenne, minimum, maximum, écart-
type.
Graphiques > Boîtes... > Histogramme :
représentation graphique, sous forme d’histogramme d’une variable quantitative.

10
3.2 Variables qualitatives

Analyse > Statistiques descriptives > Fréquences : statistiques descriptives pour des
variables qualitatives: tris à plat, mode, médiane, quartiles, centiles,. . . (à préciser dans le
dialogue Statistiques). Il est aussi possible d’obtenir des graphiques via le dialogue
Diagrammes (voir ci- dessous)
Graphiques > Boîtes... > Barres > Simple | Récapitulatifs pour groupes
d’observations : diagramme en bâtons des modalités d’une variable qualitative. Possibilité
d’afficher les effectifs ou les pourcentages. Effectifs préférables. Adapté aux variables
qualitatives ordinales
Graphiques > Boîtes... > Circulaire > Récapitulatifs pour groupes d’observations :
diagramme en secteur (camembert) des modalités d’une variable qualitative . Possibilité
d’afficher les effectifs ou les pourcentages. Pourcentages préférables. Adapté aux variables
qualitatives nominales.

4. Statistiques descriptives bivariées

Corrélation, régression linéaire simple avec


SPSS

11
Introduction : précisions sémantiques

La régression simple indique la nature de la liaison linéaire entre deux variables


(quantitatives). La corrélation indique le degré de linéarité entre deux variables (quantitatives).

Ainsi l’analyse de régression fournit une fonction entière (une droite par exemple) alors que
l’analyse de corrélation fournit un simple nombre – un indice qui renseigne sur l’intensité avec
laquelle 2 variables évoluent ensemble. Ces 2 techniques sont donc complémentaires.

L’analyse causale enfin va plus loin en précisant le sens de la relation, le chemin de la cause
à l’effet.

Exemple

Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la


note obtenue au partiel (Y) :

▪ L’analyse de régression permet de déterminer une fonction qui lie les deux variables :
ex : « Y = aX + b »
▪ L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables : ex : «
le lien est fort et très significatif ».
▪ L’analyse causale détermine le sens de la relation : ex « temps de travail -- > note au
partiel »

12
Analyse bivariée

Corrélation entre deux variables quantitatives

– Le coefficient de corrélation de Pearson r est une mesure d’association (d’interdépendance)


entre deux variables métriques
– Il mesure l’intensité de la co-variation entre les deux variables : les deux variables, mesurées
sur le même ensemble d’observations, varient-elles de façon analogue (si pour une
observation, l’une prend une valeur élevée, l’autre a également une valeur élevée) ?

Analyse bivariée
Calcul du coefficient de corrélation de Pearson :

●  r est toujours compris entre –1 et 1


●  si r est proche de –1 alors le lien est fort
et négatif (quand 1 des 2 variables augmente l’autre diminue), alors que si r est proche de 1 le
lien est fort et positif (quand 1 des deux variable augmente, l’autre augmente aussi)
●  si r est proche de 0 alors il n’y a pas de lien entre x et y

13
Analyse bivariée

r et r2 :
●  Comme r indique le degré de la relation entre la variation d’une variable et celle d’une
autre variable, il peut également représenter la décomposition de la variation totale (en
étant au carré). On retiendra que r2 = variation expliquée / variation totale
-- > r2 mesure la proportion de la variation d’une variable qui est expliquée par l’autre.
●  r et r2 sont des mesures symétriques d’association : la corrélation entre X et Y est la
même que la corrélation entre Y et X. Il n’est pas important de savoir quelle est la variable
indépendante et quelle est la variable dépendante.

14
Analyse bivariée

Interprétation du R2 :

Variance expliquée : R², coefficient de détermination (proportion de variance totale de Y


qui n’est pas due à l’erreur, ou encore proportion de la variance de Y expliquée par la variance
de X)

– R² = 0 : la variable indépendante n’explique rien


– R² = 1 : la variable explique complètement Y
– R² = 0,11 : 11% des variations de Y sont expliquées par le modèle

Analyse bivariée

Précisons tout de suite que r indique la force d’une relation linéaire. Si on a r = 0, cela
signifie qu’il n’y a pas de relation linéaire entre X et Y, mais cela ne signifie pas que les 2
variables ne sont pas liées !!! Il peut très bien y avoir une relation non linéaire entre elles non
traduite par r. -- > Faites un graph !

15
Analyse bivariée

Le coefficient de corrélation linéaire r renseigne sur l’intensité du lien entre 2 variables


quantitatives. Il doit être complété afin de déterminer si l’éventuel lien mis à jour est significatif
ou non. On utilise pour cela un test t :

● Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig.
(bilatérale) »

Analyse bivariée

Exemple SPSS : y a-t-il un lien entre la taille de l’unité sociale de visite (le nombre de
personnes qui forment le groupe) et le temps passé dans le musée d’art ?
○  H0 : il n’y a aucun lien entre ces deux variables (r=0)
○  H1 : il existe un lien entre ces deux variables (r 0)

Analyse --> Corrélation --> Bivariée

Résultat : coefficient de corrélation linéaire de Pearson : r (entre -1 et 1)

16
Analyse bivariée

Corréla+ons

Le coefficient de Pearson est faible et non significa%f. On conclut qu’il n’existe pas de lien entre
la durée de la visite et la taille de l’unité sociale de visite

Analyse bivariée

Exercice

BDD Employés de SPSS : y’a-t-il une corrélation positive significative entre salaire
actuel et salaire à l’embauche ? Entre salaire actuel et nombre de mois
d’ancienneté ?

17
Analyse bivariée

Analyse bivariée

Exemple :
On veut calculer la corrélation entre Y (attitude envers la ville) et X (durée de résidence dans la
ville), après contrôle d’une troisième variable Z (l’importance du climat).
On commence par calculer les corrélations simples entre chaque variables :

rYX = 0,9361
rYZ = 0,7334
rXZ = 0,5495

18
Analyse bivariée

Analyse Corrélation Bivariée

Analyse bivariée (régression simple)


La régression simple :

Est l’une des Méthodes explicatives de l’ADD, elle consiste à déterminer une équation qui relie
2 variables quantitatives. Contrairement à la corrélation simple, elle nécessite d’identifier l’une
des 2 variables comme étant dépendante (à expliquer) et l’autre comme étant indépendante
(explicative). Remarquons tout de même que cette méthode n’implique pas de causalité.
Le modèle type est de la forme :
Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer) X = variable indépendante
(ou explicative) β0 = ordonnée à l’origine de la droite
β1 = pente de la droite
ei = terme d’erreur associé à la ième observation

19
Analyse bivariée (utilité RLS)
Ce modèle permet de :

●  Déterminer le sens de la relation entre la variable à expliquer et la variables explicative;


●  déterminer l’intensité d’une telle relation ;
●  De faire des prévisions .

Exemple: La liaison entre deux variables quantitatives IPM et IPX

L’ensemble des points forme un nuage de points .

Pour faire l'analyse, il convient de remplacer le nuage de point par une courbe inspirée par la
forme du nuage de points.

Analyse bivariée (utilité RLS)


Pour déterminer l'équation de la droite , on utilise la méthode des moindre carrée ordinaire .

20
Analyse bivariée RLS
La régression simple, vocabulaire :

● Coefficient de détermination r2 : proportion de la variation totale de Y expliquée par la


variation de X
● Valeur estimée (ou prédite) de Yi : Ŷi = a + bx avec Ŷi la valeur estimée de Yi et a et b les
estimateurs respectifs de β0 et β1.
● Coefficient de régression : le paramètre b est appelé coefficient de régression non
standardisé.
● L’écart-type résiduel (SEE) : c’est l’écart-type des erreurs (valeurs réelles Y moins valeurs
estimées Ŷ).
● Erreur type (SEb): estimation de l’écart-type de b

Analyse bivariée

La régression simple, vocabulaire (suite):

● Coefficient de régression standardisé (coefficient bêta) : il correspond à la pente


obtenue par la régression de Y sur X lorsque les données sont standardisées.

● Somme des erreurs au carré : les distances de tous les points à la droite de régression
sont élevées au carré et additionnées pour obtenir la somme des erreurs au carré, qui est
une mesure de l’erreur totale

● Statistique t : valeur du t de Student à n-2 degrés de liberté, afin de rejeter ou non H0.
Cette statistique est associée à sa probabilité critique (significative lorsqu’elle est < 0,05)

21
Analyse bivariée
Les étapes d’une analyse de régression simple :

1.  La première étape consiste à représenter le nuage de points, variable dépendante sur l’axe
vertical et variable indépendante sur l’axe horizontal.

Cela permet de se faire une idée sur le type de lien (est-ce linéaire ?) et de détecter les
éventuelles valeurs extrêmes qui risquent de perturber l’analyse.

Sous SPSS : Graph -- > Diagramme de dispersion -- > Simple

Analyse bivariée

22
Analyse bivariée
2.  Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le mieux les données.
On utilise généralement la méthode des moindres carrés. Elle consiste à déterminer la droite
de régression qui minimise le carré des distances verticales entre les points et la droite.

Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à la droite est
représenté par ei.
Les distances de tous les points à la droite élevés au carrés et additionnés forment la somme
des carrés des erreurs, ou « erreur totale », notée
-- > Le but est que cette valeur soit minimale (que les distances verticales soient minimisées)

Analyse bivariée

23
Analyse bivariée
3. Estimation des paramètres de la droite :

Dans la plupart des cas, β0 et β1 sont inconnues et estimées à partir des observations de
l’échantillon en utilisant l’équation : Ŷi = a + bxi
Où Ŷi est la valeur estimée ou prédite de Yi et a et b sont les estimateurs respectifs de β0 et
β1. La constante b, qui est la pente de la droite de régression est généralement appelée
coefficient de régression non standardisé. C’est la variation attendue de Y quand X varie d’une
unité.

Analyse bivariée

4. Estimation du coefficient de régression standardisé :

La standardisation est le procédé par lequel les données brutes sont transformées en
nouvelles variables, ayant une moyenne de 0 et une variance de 1.
L’ordonnée à l’origine prend alors une valeur de 0. La pente obtenue par la régression de Y par
rapport à X (BYX) est alors la même que celle obtenue par la régression de X par rapport à Y
(BXY).
En outre, chacun de ces coefficients de régression standardisés (bêta) est égal au coefficient
de régression simple entre X et Y : BYX = BXY = rXY
Il existe une relation simple entre les coefficients de régression standardisés et non
standardisés : BYX = bXY(SX/SY)

24
Analyse bivariée

5. Test d’hypothèse :

En toute rigueur, la signification statistique de la relation linéaire entre X et Y doit faire l’objet
d’un test d’hypothèse.

On pose : H0 : β1 = 0 et H1 : β1 0

H0 implique qu’il n’y a pas de relation linéaire entre X et Y, tandis que l’hypothèse alternative
H1 en suppose une, positive ou négative. On utilise un test bilatéral t à n-2 degrés de liberté
associé à une probabilité critique pour déterminer la significativité de β1.

Avec b coefficient de régression et SEb l’estimation de l’écart-type de b.

Analyse bivariée

Exercice

1) Réalisez une analyse de corrélation et de régression dans


BDD « employés » entre salaire et salaire embauche.

25
Quel test choisir dans l’analyse bivariée?
Le test à choisir varie selon la nature des variables. Le tableau suivant résume
l’application des tests dans l’analyse bivariée :
Deux mesures avec Une mesure avec échelle non Deux mesures avec échelle
Type de mesure
échelle non métrique métrique et une mesure avec métrique
échelle métrique

Tableau croisé Comparaison de moyennes Corrélation ou régression


Type d’analyse

Chi-deux T de student (deux moyennes) F t (corrélation) ou F (régression)


Tests statistiques
(Anova) (deux moyennes ou plus)
V de Cramer n r ou R
Force de la relation

Analyse Analyse Analyse


↓ ↓ ↓
Statistiques descriptives Comparer les moyennes Corrélation
↓ ↓ ↓
Commande SPSS Tableaux croisés (Crosstabs) Test T pour échantillons indépendants Bivariée
OU OU
ANOVA à un facteur (One-Way Analyse
ANOVA) ↓
Régression ↓ Linéaire

Analyse multivariée

Principe : étudier les relations entre n variables prises simultanément (n>2)


Méthodes :
Explicative : régression multiple, analyse discriminante

Descriptive : analyse factorielle des correspondances (AFC), analyse en composantes principales


(ACP) Nature des variables

Métrique : régression multiple (explicative) et ACP (descriptive)

Nominale : analyse discriminante (explicative), analyse factorielle (descriptive)

26
Analyse multivariée

Pourquoi réaliser des régressions multivariées ?

Limite de la régression simple : un phénomène a rarement une seule cause. Par


exemple, qu’est-ce qui explique les ventes d’un produit ?

-- Le budget pub, le budget force de vente, le prix, le nombre de points de vente,


etc.

La régression multiple permet, elle, de confirmer une relation de cause à effet entre variables, c’est-à-
dire expliquer les variations d’une variable par plusieurs autres variables. Si cette relation est
confirmée, il faut alors évaluer son intensité.

Analyse multivariée

Méthode :

Y est la variable quantitative à expliquer (dépendante), et X1, X2, …, Xi, les i variables explicatives
(indépendantes) quantitatives (à la rigueur binaires). La forme générale du modèle est :
Y = β0 + β1 X1 + β2 X2 + …. + βi Xi + ε avec ε minimum.

-- On recherche une fonction f qui lie les valeurs de Y à celle des X et telle que f(Xi) soit le « plus
proche possible » de Y.

-- Dans la pratique, on calcule l’équation :


Ŷ = b0 + b1 X1 + b2 X2 + …. + bi Xi

27
Analyse multivariée

Présentation des résultats sous SPSS (1/4):


Analyse Régression Linéaire

• La significativité globale du modèle est fournie à l’aide d’un test F et une probabilité associée

• Le R² ajusté indique le % de variance de Y expliquée par l’équation (ajustée au nombre de


variables indépendantes et à la taille de l’échantillon)

• Le coefficient de corrélation multiple R tend vers 1 lorsque la relation est forte, vers 0
lorsqu’elle est nulle

Analyse multivariée

Présentation des résultats sous SPSS (2/4) :

• Les coefficients β, dits coefficients de régression partiels représentent la variation attendue de


Y quand Xi varie d’une unité mais que les autres variables indépendantes sont maintenues
constantes. A chacun d’entre eux est associé un tests t pour en estimer la significativité.

• Pour comparer la contribution relative des Xi à Y, il suffit de comparer les valeurs absolues
des t associés ou de lire les coefficients de régression partiels standardisés Bêta (moyenne=0
et écart-type=1) qui permettent la comparaison entre Xi alors même que celles-ci ont des
unités de mesure différentes (exemple, pour estimer les ventes d’un magasin : surface en m²,
nombre de produits en promo, proximité du centre ville en km etc.)

28
Analyse multivariée

Présentation des résultats sous SPSS (3/4) :

• Il est nécessaire de tester la colinéarité, car la multicolinéarité entre variables


explicatives baissent les estimations de R² :

✔ Il faut étudier la tolérance : pourcentage de la variable explicative non


expliquée par les autres variables explicatives (elle doit être proche de 1, et
en tout cas > 0,3)

✔ Il faut aussi étudier le VIF (variance inflation factor) : degré d’augmentation
de l’erreur lié à la multicolinéarité (le VIF doit être inférieur à 4)

Analyse multivariée

Présentation des résultats sous SPSS (4/4) :

▪ Enfin, il est nécessaire d’examiner les résidus. Le résidu ei est la


différence entre la valeur observée yi et la valeur calculée par le modèle Ŷi.
Ces erreurs ei s’expliquent d’une part par l’effet des variables non prises en
compte dans le modèle, et d’autre part par des variations aléatoires.

▪ Pour que l’interprétation du modèle soit valide, il faut que les résidus se
répartissent de manière aléatoire autour de la valeur calculée. Pour vérifier
ce dernier point, il suffit d’examiner le diagramme PP-Gaussien : il ne doit y
avoir aucune forme apparente dans la distribution des résidus

29
Analyse multivariée

Exercice

Peut-on expliquer l’attitude envers la ville en fonction de la


durée de résidence et de l’importance accordée au climat ?

Analyse multivariée

30
Analyse multivariée

Analyse multivariée

31
Analyse multivariée

Analyse multivariée

32
Analyse multivariée

Analyse multivariée

33
Analyse multivariée
La régression pas à pas :

Le but de la régression pas à pas est de sélectionner, à partir d’un grand


nombre de variables explicatives, un petit sous-ensemble de variables qui
expliquent la plus grande partie de la variation de la variable dépendante (à
expliquer).

Les variables explicatives sont introduites ou retirées une à une de l’équation


que l’on cherche à optimiser.

2 méthodes sont possibles :

Analyse multivariée

●  Régression pas à pas ascendante : les variables sont entrées dans le


modèle les unes après les autres, en recherchant d’abord la variable Xi la
plus explicative, puis celle qui explique le plus la part de variance restant à
expliquer etc.

●  Régression pas à pas descendante : les variables sont éliminées du modèle


global les unes après les autres, en éliminant d’abord la variable Xi la moins
explicative de Y, puis celle qui explique le moins la variance restant à
expliquer etc.

34
Analyse multivariée

Conclusion sur la régression multiple :

● Choisir la régression si l’objectif est un modèle de prédiction


● Bien réfléchir au statut des variables dépendante et indépendantes
● Disposer de variances suffisantes sur les variables introduites dans le
modèle.
● Ne retenir que les β significatifs.
● Eviter les données avec des valeurs extrêmes ou aberrantes

35

Vous aimerez peut-être aussi