Vous êtes sur la page 1sur 28

ANALYSE DES DONNEES

2014-2015
Boulahoual.adil@gmail.com

Pr. BOULAHOUAL Adil

Pr. BOULAHOUAL Adil

En analyse explicative simple, nous avos essay de dfinir la relation qui


existe entre deux variables statistiques.

Exemples :

*Le nombre dannes dexprience et le nombre derreurs commises ;


*Le volume des ventes et les dpenses en publicit ;

analyse explicative multiple

Alors quen
le
types de problme auquel nous nous heurtons et du genre :
La tranche dge du conducteur, sa sant, son tat dbrit, et le
nombre daccidents dauto.

Rappel

Pr. BOULAHOUAL Adil

conomiste (Expert du domaine)


Exprime une thorie sur un phnomne conomique
Ex. La demande dpend du prix

Mathmaticien (Modlisation)
Propose une formulation
algbrique de la thorie.
Ex. Demande =B0+ (B1*prix) + (B2 *type du bien)

Statisticien (Estimation)
Estime les paramtres du
modle partir de donnes.
Validation statistique.
Ex.: ( B0=2) ; (B1=12) ; (B2 =5)

Sous le contrle de lconomiste


Validation de lExpert du domaine (ex. a est forcment ngatif)
Pr. BOULAHOUAL Adil

LA REGRESSION MULTIPLE
Exemple introductif

Pr. BOULAHOUAL Adil

Pr. BOULAHOUAL Adil

Lencadr Coefficients
Estimations : Valeurs b pour chaque VI et son test de signification
Intervalles de confiance : Intervalle pour chaque coefficient dans la
population,

Lencadr Rsidus
Durbin-Watson : Evaluation
de lindpendance des erreurs
Diagnostic des observations :
Indique quelles observations
ont un rsiduel standardis de
plus de 2 ou 3 .-t.

Les autres statistiques


Qualit de lajustement : Fournit le test pour valuer lensemble du modle (F), le R multiple, le
R2 correspondant et le R2 ajust ( ANOVA)
Variation de R-deux : Changement du R2 aprs lajout dun nouveau bloc de VI
Caractristiques: Moyenne, .-t. et N pour toutes les variables du modle.
Mesure et corrlations partielles : Corrlation entre chaque VI et la VD
Pr. BOULAHOUAL Adil

Statistiques descriptives
Examinons dabord les statistiques descriptives. Nous voyons que ltude a t
mene auprs de 474 employs qui gagnent en moyenne prs de 35 000 dh.
Ils travaillent depuis environ sept ans pour leur entreprise (81 mois) et ont
en moyenne 13 ans de scolarit. Bien entendu, la moyenne des hommes et
des femmes nest pas une donne intressante.

Pr. BOULAHOUAL Adil

Le deuxime tableau fournit par SPSS concerne les corrlations entre les
variables tudies. Nous voyons quil y a une corrlation trs leve et
significative entre le salaire et le nombre dannes de scolarit, ainsi quentre
le sexe et le salaire. Nous devons porter attention aux relations entre les
variables indpendantes. Si la corrlation entre deux de ces variables se
situait 0,9 (ou 0,9), il y aurait un risque important de multicolinarit.
Nous aurions introduit deux variables qui mesuraient sensiblement la mme
chose pour prdire le salaire actuel.

Pr. BOULAHOUAL Adil

Variables introduites/limines
Le tableau suivant prsente les variables retenues dans les tapes
du modle. Nous constatons que la variable EDUC est prsente
puisque nous avions choisi la mthode Entre. Pour le deuxime
modle, SPSS a retenu la variable SEXE avec notre critre de
slection (la probabilit F est significative p < 0,05).

Pr. BOULAHOUAL Adil

10

tape 1 : valuation de la pertinence du


modle de rgression
Tout comme la rgression simple, linterprtation dbute en valuant la
pertinence du modle. Nous vrifions si la premire tape du modle
explique significativement plus de variabilit quun modle sans prdicteur.
Ceci revient prendre une dcision sur l'hypothse nulle d'absence de
relation entre la variable dpendante et la combinaison de variables
indpendantes, i.e. le modle. Si le modle tient la route, le travail consiste
ensuite interprter la contribution relative de chaque variable
indpendante significative lexplication de la variance de la variable
dpendante. Dans la mesure o un modle est non significatif,
linterprtation sarrte avec ce constat. Il faut alors retourner la table
dessin pour construire et tester un autre modle.

Pr. BOULAHOUAL Adil

11

Analyse de variance
Le tableau dANOVA nous donne les informations ncessaires pour
prendre une dcision sur lhypothse nulle (H0) leffet que notre modle
nexplique pas significativement plus de variance quun modle sans
prdicteur. Dans le tableau ANOVA suivant, le modle 1 teste lH0 que le
nombre dannes de scolarit nexplique pas mieux le salaire quun modle
sans prdicteur. La ligne du modle 2 teste lH0 que la combinaison du
nombre dannes de scolarit et du sexe nexplique pas mieux la variation
de salaire quun modle sans prdicteur. Dans les deux cas, lH0 est que les
modles ne sont pas significativement plus explicatifs de la variance du
salaire quun modle sans prdicteur.

Pr. BOULAHOUAL Adil

12

Nous constatons la lecture du tableau que selon la valeur F


obtenue pour les deux modles, on peut rejeter lhypothse nulle.
En effet, les valeurs de F=365,38 et de F=225,51 sont
significatives p < 0,001, ce qui indique que lon a moins de
0,1 % de probabilit de commettre une erreur en affirmant que
les modles contribuent mieux prdire le salaire quun modle
sans prdicteur.
Pr. BOULAHOUAL Adil

13

tape 2 : valuation de l'ajustement du


modle de rgression aux donnes
Maintenant que lon sait que le modle final est significatif, on
peut estimer dans quelle mesure ce modle est ajust aux
donnes observes. Cette information est contenue dans le
tableau Rcapitulatif des modles. Dans le cas dune
rgression multiple entre force, rappelons quun seul modle
ferait lobjet du tableau.

Pr. BOULAHOUAL Adil

14

Ce tableau contient plusieurs informations utiles. Premirement, la


valeur de la corrlation multiple (R) nous renseigne sur
lajustement du modle. Cet indice varie entre 0 et 1 et reprsente
en valeur absolue la corrlation entre la variable dpendante et la
combinaison de toutes les variables indpendantes du modle. Plus
la valeur de R est proche de 1, plus le modle est ajust aux
donnes. Dans notre exemple, le modle final a une valeur de R de
0,70 ce qui est relativement lev et qui suggre que le
modle est bien ajust.
Pr. BOULAHOUAL Adil

15

tape 3 : valuation de la performance


du modle de rgression
Le tableau permet galement dvaluer la performance du modle
en termes de proportion de la variance explique par la
combinaison des variables indpendantes avec le calcul de la
valeur de R. rappelons que la valeur du R, lorsquelle est
multiplie par 100, indique le pourcentage de variabilit de Y
explique par le modle (la combinaison de tous les prdicteurs)..

Pr. BOULAHOUAL Adil

16

tape 4 : Estimation des paramtres


du modle
Maintenant que nous savons que notre modle est significatif et que le
deuxime est celui qui explique le plus de variance, il est possible de
construire lquation de rgression pour prdire une valeur de Y. Lquation
de base tait la suivante :
Yi = ( 0 + 1X1 + 2X2 + + nXn) + i

Y = b 0 + b 1X1 + b 2X2 + b3X 3

Modle 1 :

Salaire = -18331,178 + (3909,907x ducation)

Modle 2 :

Salaire = -7500,990 + (3391,683xducation) (8423,462 x sexe)

Pr. BOULAHOUAL Adil

17

Lerreur standard nous renseigne sur la variabilit du coefficient


dans la population. Elle permet galement dindiquer si le coefficient est
significatif. La signification de t nous permet de rpondre la question est-ce
que le b est diffrent de 0 ? Plus la valeur de t est leve et plus celle de Bta
est petite, plus le prdicteur contribue fortement au modle. Nous constatons
donc que les deux variables sont significatives, mais quen termes de leur poids
relatif dans le modle, la variabilit explique par le nombre dannes de
scolarit est plus importante que celle explique par le sexe.

Pr. BOULAHOUAL Adil

18

La valeur du Beta standardis () apporte aussi une information


intressante en plus dindiquer le sens de la relation (+/-) et le poids relatif
de la variable dans le modle.
Elle indique le changement en cart-type de la VD pour chaque
augmentation dun cart-type de la VI quand toutes les autres valeurs sont
constantes. Par exemple, la valeur dun cart-type du salaire est de
17 075,66 dhs et celle dun cart-type de scolarit est de 2,89ans. Nous
pouvons donc savoir que laugmentation de dun .-t. de la scolarit (2,89)
est associ laugmentation de 0,57 .-t. du salaire (0,57*17 075,66 =
9 733,13). Par consquent, chaque fois que lon tudie 2,89 annes de
plus, le salaire augmente de 9 733,13 dhs.

Pr. BOULAHOUAL Adil

19

Ce tableau prsente galement la valeur des corrlations et des corrlations


partielles. Ce sont ces valeurs sur lesquelles se base SPSS lorsquil choisit
dintroduire des variables lorsque nous slectionnons une mthode progressive.
La premire variable est choisie partir de la corrlation simple la plus forte
(ici 0,661 pour EDUC). Le choix des variables suivantes est par contre bas
sur la corrlation partielle, c'est--dire la plus forte corrlation entre les
variables toujours disponibles et la partie de variance qui reste expliquer une
fois que lon a retir ce qui est expliqu par la premire VI.

Pr. BOULAHOUAL Adil

20

Finalement, la valeur VIF (ou la tolrance qui est linverse du VIF )


permet de vrifier la prmisse de multicolinarit. Nous cherchons
obtenir une valeur VIF prs de 1. Si elle est de 10, cest problmatique.
Inversement, si la valeur de la tolrance est quivalente 0,1, il y a un
problme srieux de colinarit dans le modle. Probablement que les
corrlations entre 2 VI ou plus sont trop leves.

Pr. BOULAHOUAL Adil

21

Le diagnostic des observations et la vrification des prmisses

Ce dernier tableau est fourni grce aux options slectionnes


pralablement. Il nous renseigne sur la prsence de valeurs extrmes qui
influenceraient le modle, notamment sur la qualit de lajustement des
donnes. Les valeurs extrmes font varier les coefficients b et sont mal
prdites par le modle. Ces valeurs produisent une valeur rsiduelle
importante. Comme nous avons vu prcdemment dans le rappel
thorique, nous ne voulons aucune valeur rsiduelle standardise de plus de
3,29 (ou de moins de -3,29), pas plus de 1 % de lchantillon ayant une
valeur de plus de 2,58 (ou de moins de -2,58) ainsi que pas plus de 5 %
des observations ayant une valeur de plus de 1,96 (ou de moins de
1,96).

Pr. BOULAHOUAL Adil

22

Pr. BOULAHOUAL Adil

23

En examinant le diagnostic des observations, nous constatons que 7


individus ont des salaires de plus de 83 750 $. Ils scartent vraiment
des valeurs moyennes, car la valeur rsiduelle standardise pour chacun
est de plus de 3 cart-types. Les employs gagnant plus de 100 000 $
annuellement prsentent un problme majeur. Il serait probablement
judicieux de refaire lanalyse en excluant ces hauts salaris et de vrifier
la
variation
des
coefficients.
Les graphiques offerts peuvent vous permettre de vrifier par un examen
visuel les prmisses de la rgression linaire multiple. Celui croisant les
valeurs prdites (*ZPRED) et rsiduelles (*ZRESID) standardises,
depuis le menu diagramme, illustre le respect (ou le non respect) de la
prmisse dhomognit (rpartition alatoire des points autour de 0) et
de linarit (tendance des points se concentrer autour dune ligne).
Pr. BOULAHOUAL Adil

24

PIC

Nous pouvons confirmer avec le test de


normalit de Shapiro-Wilks ou de KolmogorovSmirnov. Ces tests sont disponibles dans les
options de la procdure Explorer, Cochez
Graphes de rpartition gaussiens avec tests.
Les deux tests sont significatifs. Nous devons
donc rejeter l'hypothse nulle de normalit de la
distribution. Encore une fois, nous constatons
qu'il pourrait tre judicieux de retirer les valeurs
extrmes de lanalyse.

Pr. BOULAHOUAL Adil

25

Toutes les options disponibles dans ce menu permettent de crer des


nouvelles variables ayant les valeurs calcules par le modle. Il sagit
donc de choisir les variables diagnostiques permettant dvaluer la
qualit du modle et celles qui permettent de dtecter les variables
ayant une importante influence sur le modle. Nous choisirons donc
minimalement les rsidus standardiss, mais on peut galement ajouter
les prvisions non standardises et/ou standardises ainsi que la
distance de Cook et les DfBta(s) standardiss. Notez quen cochant
des options dans la boite de dialogue Enregistrer, vous allez obtenir un
tableau de rsultats de plus portant sur les statistiques des rsidus et
comprenant minimalement la moyenne, lcart-type, les valeurs
minimales et maximales ainsi que le N.
Pr. BOULAHOUAL Adil

26

La dernire fentre, obtenu depuis le bouton option vous permet de


dterminer les paramtres de slection des mthodes progressives. Vous
identifiez la probabilit ou la valeur de F pour introduire ou retirer des
variables. Idalement, vous conservez les valeurs par dfaut moins
que vous ne vouliez que votre modle soit plus svre.

Pr. BOULAHOUAL Adil

27

Finalement, nous pouvons tout de mme jeter un coup dil aux


prmisses dhomodasticit et de linarit avec le graphique de
dispersion. Pour la premire prmisse, les points doivent tre rpartis
alatoirement autour de 0 (ne pas former dentonnoir), ce qui semble le
cas ici, bien que les points soient rpartis en colonnes. Pour la
deuxime, nous voulons viter que lagglomration de points suive une
courbe. Cette prmisse semble aussi respecte. Nous respectons donc la
plupart des prmisses, le modle est donc probablement valide, mais
gagnerait certainement en prcision en liminant les valeurs extrmes.

Pr. BOULAHOUAL Adil

28