Vous êtes sur la page 1sur 28

ANALYSE DES DONNEES

2014-2015
Boulahoual.adil@gmail.com

Pr. BOULAHOUAL Adil 1


Pr. BOULAHOUAL Adil 2
En analyse explicative simple, nous avos essayé de définir la relation qui
existe entre deux variables statistiques.
Exemples :
*Le nombre d’années d’expérience et le nombre d’erreurs commises ;
*Le volume des ventes et les dépenses en publicité ;

Alors qu’en analyse explicative multiple le


types de problème auquel nous nous heurtons et du genre :
La tranche d’âge du conducteur, sa santé, son état d’ébriété, et le
nombre d’accidents d’auto.
Rappel
Pr. BOULAHOUAL Adil 3
Économiste (Expert du domaine)
Exprime une théorie sur un phénomène économique
Ex. La demande dépend du prix

Mathématicien (Modélisation) Statisticien (Estimation)


Propose une formulation Estime les paramètres du
algébrique de la théorie. modèle à partir de données.
Ex. Demande =B0+ (B1*prix) + (B2 *type du bien) Validation statistique.
Ex.: ( B0=2) ; (B1=12) ; (B2 =5)

Sous le contrôle de l’Économiste


Validation de l’Expert du domaine (ex. a est forcément négatif)
Pr. BOULAHOUAL Adil 4
LA REGRESSION MULTIPLE
Exemple introductif

Pr. BOULAHOUAL Adil


Pr. BOULAHOUAL Adil 6
L’encadré Coefficients
Estimations : Valeurs b pour chaque VI et son test de signification
Intervalles de confiance : Intervalle pour chaque coefficient dans la
population,

L’encadré Résidus
Durbin-Watson : Evaluation
de l’indépendance des erreurs
Diagnostic des observations :
Indique quelles observations
ont un résiduel standardisé de
plus de 2 ou 3 é.-t.

Les autres statistiques


Qualité de l’ajustement : Fournit le test pour évaluer l’ensemble du modèle (F), le R multiple, le
R2 correspondant et le R2 ajusté ( ANOVA)
Variation de R-deux : Changement du R2 après l’ajout d’un nouveau bloc de VI
Caractéristiques: Moyenne, é.-t. et N pour toutes les variables du modèle.
Mesure et corrélations partielles : Corrélation entre chaque VI et la VD
Pr. BOULAHOUAL Adil 7
Statistiques descriptives

Examinons d’abord les statistiques descriptives. Nous voyons que l’étude a été
menée auprès de 474 employés qui gagnent en moyenne près de 35 000 dh.
Ils travaillent depuis environ sept ans pour leur entreprise (81 mois) et ont
en moyenne 13 ans de scolarité. Bien entendu, la moyenne des hommes et
des femmes n’est pas une donnée intéressante.

Pr. BOULAHOUAL Adil 8


Le deuxième tableau fournit par SPSS concerne les corrélations entre les
variables étudiées. Nous voyons qu’il y a une corrélation très élevée et
significative entre le salaire et le nombre d’années de scolarité, ainsi qu’entre
le sexe et le salaire. Nous devons porter attention aux relations entre les
variables indépendantes. Si la corrélation entre deux de ces variables se
situait à 0,9 (ou – 0,9), il y aurait un risque important de multicolinéarité.
Nous aurions introduit deux variables qui mesuraient sensiblement la même
chose pour prédire le salaire actuel.

Pr. BOULAHOUAL Adil 9


Variables introduites/éliminées
Le tableau suivant présente les variables retenues dans les étapes
du modèle. Nous constatons que la variable EDUC est présente
puisque nous avions choisi la méthode Entrée. Pour le deuxième
modèle, SPSS a retenu la variable SEXE avec notre critère de
sélection (la probabilité F est significative à p < 0,05).

Pr. BOULAHOUAL Adil 10


Étape 1 : Évaluation de la pertinence du
modèle de régression

Tout comme la régression simple, l’interprétation débute en évaluant la


pertinence du modèle. Nous vérifions si la première étape du modèle
explique significativement plus de variabilité qu’un modèle sans prédicteur.
Ceci revient à prendre une décision sur l'hypothèse nulle d'absence de
relation entre la variable dépendante et la combinaison de variables
indépendantes, i.e. le modèle. Si le modèle tient la route, le travail consiste
ensuite à interpréter la contribution relative de chaque variable
indépendante significative à l’explication de la variance de la variable
dépendante. Dans la mesure où un modèle est non significatif,
l’interprétation s’arrête avec ce constat. Il faut alors retourner à la table à
dessin pour construire et tester un autre modèle.

Pr. BOULAHOUAL Adil 11


Analyse de variance

Le tableau d’ANOVA nous donne les informations nécessaires pour


prendre une décision sur l’hypothèse nulle (H0) à l’effet que notre modèle
n’explique pas significativement plus de variance qu’un modèle sans
prédicteur. Dans le tableau ANOVA suivant, le modèle 1 teste l’H0 que le
nombre d’années de scolarité n’explique pas mieux le salaire qu’un modèle
sans prédicteur. La ligne du modèle 2 teste l’H0 que la combinaison du
nombre d’années de scolarité et du sexe n’explique pas mieux la variation
de salaire qu’un modèle sans prédicteur. Dans les deux cas, l’H0 est que les
modèles ne sont pas significativement plus explicatifs de la variance du
salaire qu’un modèle sans prédicteur.

Pr. BOULAHOUAL Adil 12


Nous constatons à la lecture du tableau que selon la valeur F
obtenue pour les deux modèles, on peut rejeter l’hypothèse nulle.
En effet, les valeurs de F=365,38 et de F=225,51 sont
significatives à p < 0,001, ce qui indique que l’on a moins de
0,1 % de probabilité de commettre une erreur en affirmant que
les modèles contribuent à mieux prédire le salaire qu’un modèle
sans prédicteur.
Pr. BOULAHOUAL Adil 13
Étape 2 : Évaluation de l'ajustement du
modèle de régression aux données
Maintenant que l’on sait que le modèle final est significatif, on
peut estimer dans quelle mesure ce modèle est ajusté aux
données observées. Cette information est contenue dans le
tableau «Récapitulatif des modèles». Dans le cas d’une
régression multiple à entrée forcée, rappelons qu’un seul modèle
ferait l’objet du tableau.

Pr. BOULAHOUAL Adil 14


Ce tableau contient plusieurs informations utiles. Premièrement, la
valeur de la corrélation multiple (R) nous renseigne sur
l’ajustement du modèle. Cet indice varie entre 0 et 1 et représente
en valeur absolue la corrélation entre la variable dépendante et la
combinaison de toutes les variables indépendantes du modèle. Plus
la valeur de R est proche de 1, plus le modèle est ajusté aux
données. Dans notre exemple, le modèle final a une valeur de R de
0,70 ce qui est relativement élevé et qui suggère que le
modèle est bien ajusté.
Pr. BOULAHOUAL Adil 15
Étape 3 : Évaluation de la performance
du modèle de régression
Le tableau permet également d’évaluer la performance du modèle
en termes de proportion de la variance expliquée par la
combinaison des variables indépendantes avec le calcul de la
valeur de R². rappelons que la valeur du R², lorsqu’elle est
multipliée par 100, indique le pourcentage de variabilité de Y
expliquée par le modèle (la combinaison de tous les prédicteurs)..

Pr. BOULAHOUAL Adil 16


Étape 4 : Estimation des paramètres
du modèle
Maintenant que nous savons que notre modèle est significatif et que le
deuxième est celui qui explique le plus de variance, il est possible de
construire l’équation de régression pour prédire une valeur de Y. L’équation
de base était la suivante :
Yi = (β 0 + β 1X1 + β 2X2 + … + β nXn) + εi Y = b 0 + b 1X1 + b 2X2 + b3X 3

Modèle 1 : Salaire = -18331,178 + (3909,907x éducation)


Modèle 2 : Salaire = -7500,990 + (3391,683xéducation) – (8423,462 x sexe)

Pr. BOULAHOUAL Adil 17


L’erreur standard nous renseigne sur la variabilité du coefficient
dans la population. Elle permet également d’indiquer si le coefficient est
significatif. La signification de t nous permet de répondre à la question «est-ce
que le b est différent de 0 ? » Plus la valeur de t est élevée et plus celle de Bêta
est petite, plus le prédicteur contribue fortement au modèle. Nous constatons
donc que les deux variables sont significatives, mais qu’en termes de leur poids
relatif dans le modèle, la variabilité expliquée par le nombre d’années de
scolarité est plus importante que celle expliquée par le sexe.

Pr. BOULAHOUAL Adil 18


La valeur du Beta standardisé (β) apporte aussi une information
intéressante en plus d’indiquer le sens de la relation (+/-) et le poids relatif
de la variable dans le modèle.
Elle indique le changement en écart-type de la VD pour chaque
augmentation d’un écart-type de la VI quand toutes les autres valeurs sont
constantes. Par exemple, la valeur d’un écart-type du salaire est de
17 075,66 dhs et celle d’un écart-type de scolarité est de 2,89ans. Nous
pouvons donc savoir que l’augmentation de d’un é.-t. de la scolarité (2,89)
est associé à l’augmentation de 0,57 é.-t. du salaire (0,57*17 075,66 =
9 733,13). Par conséquent, chaque fois que l’on étudie 2,89 années de
plus, le salaire augmente de 9 733,13 dhs.

Pr. BOULAHOUAL Adil 19


Ce tableau présente également la valeur des corrélations et des corrélations
partielles. Ce sont ces valeurs sur lesquelles se base SPSS lorsqu’il choisit
d’introduire des variables lorsque nous sélectionnons une méthode progressive.
La première variable est choisie à partir de la corrélation simple la plus forte
(ici 0,661 pour EDUC). Le choix des variables suivantes est par contre basé
sur la corrélation partielle, c'est-à-dire la plus forte corrélation entre les
variables toujours disponibles et la partie de variance qui reste à expliquer une
fois que l’on a retiré ce qui est expliqué par la première VI.

Pr. BOULAHOUAL Adil 20


Finalement, la valeur VIF (ou la tolérance qui est l’inverse du VIF )
permet de vérifier la prémisse de multicolinéarité. Nous cherchons à
obtenir une valeur VIF près de 1. Si elle est de 10, c’est problématique.
Inversement, si la valeur de la tolérance est équivalente à 0,1, il y a un
problème sérieux de colinéarité dans le modèle. Probablement que les
corrélations entre 2 VI ou plus sont trop élevées.

Pr. BOULAHOUAL Adil 21


Le diagnostic des observations et la vérification des prémisses
Ce dernier tableau est fourni grâce aux options sélectionnées
préalablement. Il nous renseigne sur la présence de valeurs extrêmes qui
influenceraient le modèle, notamment sur la qualité de l’ajustement des
données. Les valeurs extrêmes font varier les coefficients b et sont mal
prédites par le modèle. Ces valeurs produisent une valeur résiduelle
importante. Comme nous avons vu précédemment dans le rappel
théorique, nous ne voulons aucune valeur résiduelle standardisée de plus de
3,29 (ou de moins de -3,29), pas plus de 1 % de l’échantillon ayant une
valeur de plus de 2,58 (ou de moins de -2,58) ainsi que pas plus de 5 %
des observations ayant une valeur de plus de 1,96 (ou de moins de –
1,96).

Pr. BOULAHOUAL Adil 22


Pr. BOULAHOUAL Adil 23
En examinant le diagnostic des observations, nous constatons que 7
individus ont des salaires de plus de 83 750 $. Ils s’écartent vraiment
des valeurs moyennes, car la valeur résiduelle standardisée pour chacun
est de plus de 3 écart-types. Les employés gagnant plus de 100 000 $
annuellement présentent un problème majeur. Il serait probablement
judicieux de refaire l’analyse en excluant ces hauts salariés et de vérifier
la variation des coefficients.
Les graphiques offerts peuvent vous permettre de vérifier par un examen
visuel les prémisses de la régression linéaire multiple. Celui croisant les
valeurs prédites (*ZPRED) et résiduelles (*ZRESID) standardisées,
depuis le menu diagramme, illustre le respect (ou le non respect) de la
prémisse d’homogénéité (répartition aléatoire des points autour de 0) et
de linéarité (tendance des points à se concentrer autour d’une ligne).

Pr. BOULAHOUAL Adil 24


PIC
Nous pouvons confirmer avec le test de
normalité de Shapiro-Wilks ou de Kolmogorov-
Smirnov. Ces tests sont disponibles dans les
options de la procédure Explorer, Cochez
«Graphes de répartition gaussiens avec tests».
Les deux tests sont significatifs. Nous devons
donc rejeter l'hypothèse nulle de normalité de la
distribution. Encore une fois, nous constatons
qu'il pourrait être judicieux de retirer les valeurs
extrêmes de l’analyse.

Pr. BOULAHOUAL Adil 25


Toutes les options disponibles dans ce menu permettent de créer des
nouvelles variables ayant les valeurs calculées par le modèle. Il s’agit
donc de choisir les variables diagnostiques permettant d’évaluer la
qualité du modèle et celles qui permettent de détecter les variables
ayant une importante influence sur le modèle. Nous choisirons donc
minimalement les résidus standardisés, mais on peut également ajouter
les prévisions non standardisées et/ou standardisées ainsi que la
distance de Cook et les DfBêta(s) standardisés. Notez qu’en cochant
des options dans la boite de dialogue Enregistrer, vous allez obtenir un
tableau de résultats de plus portant sur les statistiques des résidus et
comprenant minimalement la moyenne, l’écart-type, les valeurs
minimales et maximales ainsi que le N.

Pr. BOULAHOUAL Adil 26


La dernière fenêtre, obtenu depuis le bouton « option » vous permet de
déterminer les paramètres de sélection des méthodes progressives. Vous
identifiez la probabilité ou la valeur de F pour introduire ou retirer des
variables. Idéalement, vous conservez les valeurs par défaut à moins
que vous ne vouliez que votre modèle soit plus sévère.

Pr. BOULAHOUAL Adil 27


Finalement, nous pouvons tout de même jeter un coup d’œil aux
prémisses d’homéodasticité et de linéarité avec le graphique de
dispersion. Pour la première prémisse, les points doivent être répartis
aléatoirement autour de 0 (ne pas former d’entonnoir), ce qui semble le
cas ici, bien que les points soient répartis en colonnes. Pour la
deuxième, nous voulons éviter que l’agglomération de points suive une
courbe. Cette prémisse semble aussi respectée. Nous respectons donc la
plupart des prémisses, le modèle est donc probablement valide, mais
gagnerait certainement en précision en éliminant les valeurs extrêmes.

Pr. BOULAHOUAL Adil 28

Vous aimerez peut-être aussi