Vous êtes sur la page 1sur 16

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple.

Sur Statistica.

I/ La rgression linaire ................................................................... 2 1/ Prambule descriptif de la rgression et de la corrlation ......... 2 2/ Exercice sur Statistica : rgression linaire simple : ................. 3 2.1. Prsentation des donnes : relation entre le stress et la sant ....................................................................................... 3 2.3/ Prsentation des concepts ............................................... 4 Le Coefficient de co-variation et la corrlation: ................... 4 Le R2, et le R 2 ajust:........................................................... 5 Le calcul et la reprsentation de la droite de rgression ........ 5 Calcul de la droite ............................................................ 5 Comment trouver a et b : (cf. valeurs du tableau de calcul de la covariance) : ............................................................ 6 Reprsenter graphiquement la droite de rgression........... 6 Reprsenter lquation partir des seules valeurs de a et de b. ..................................................................................... 7 Lerreur standard ou lerreur type destimation ................. 7 Calcul de lerreur standard destimation............................... 7 Retrouver les rsidus utiliss pour calculer lerreur standard destimation......................................................................... 8 II/La rgression multiple ................................................................. 8 II. 1/ Exercice sur Statistica : rgression linaire multiple : .......... 8 1.1. Prsentation des donnes :.............................................. 9 1.2. Examen des corrlations ................................................ 9 1.2.1.Analyse des inter-corrlations (co-linarit) : .............. 9 1.2.2. Analyse de rgression multiple .................................. 10 Rmultiple, R2 et erreur standard destimation ..................... 10 Les coefficients de rgression (B) et les coefficients de rgression standardiss (b)................................................. 10 Coefficients standardiss................................................ 10

Coefficients non standardiss............................................. 11 A quoi servent les coefficients de rgression non standardiss: .................................................................. 11 Que signifient les coefficients de rgression non standardiss: .................................................................. 11 Les corrlations partielles et les corrlations semi partielles12 Illustration de la corrlation partielle:............................. 12 Lecture des corrlations partielles partir des donnes:.. 12 Lecture des corrlations semi-partielles partir des donnes:......................................................................... 13 III/ Lanalyse de rgression multiple par tapes ou mthode pas pas ...................................................................................................... 13 La rgression par limination descendante ou dite backward ..... 13 La mthode de rgression pas pas de type ascendante par slection ou dite forward : ......................................................... 15

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

I/ La rgression linaire

1/ Prambule descriptif de la rgression et de la corrlation Il sagit dexplorer les relations entre des variables. La corrlation et la rgression peuvent tre distingues en ce qui concerne la dmarche adopte par le chercheur. Lexprimentateur peut avoir pour objectif de prdire Y (e.g., le symptme) sur la base dinformations sur X (e.g., le stress). Il est dans le cas de la rgression. Il peut galement viser obtenir une statistique exprimant le degr de relation entre deux variables, il est dans le cas de la corrlation. Cette distinction est dordre pratique. Cependant le statisticien pose des conditions particulires quil faut connatre : Exemples : 1. Corrlations entre la vitesse de course dans un labyrinthe (Y) et le nombre dessais pour atteindre un critre de russite prcis (X). On obtient pour chaque sujet deux scores lun sur la vitesse et lautre sur le nombre dessais. 2. On sintresse la rgression de la vitesse de course (Y) en fonction du nombre de boulettes de nourriture par renforcement (X). On obtient pour chaque sujet un score sur la vitesse et sur le nombre de boulettes reues. Ces deux situations illustrent les diffrences entre corrlation et rgression. Dans les deux cas Y (vitesse de course) est une variable alatoire. Elle nest pas contrle par lexprimentateur.

Dans le cas de 1. X est galement une variable alatoire, car le nombre dessais dpend du sujet lui-mme. Dans le cas de 2. X est une variable fixe, systmatique que lexprimentateur a fix (0, 1.2.3 boulettes). Donc le statisticien rserve la rgression un modle compos dune variable fixe X qui prcde le prlvement des donnes de la variable alatoire (dans ce cas il ny a quune variable qui varie dune exprience lautre cest Y) alors quil rserve la corrlation deux variables alatoires. Pour toutes les deux il y a une erreur dchantillonnage possible. Cette distinction permet de faire la distinction entre les modles de rgression linaire (fixe et alatoire) et les modles normaux bivaris (deux va alatoires). Pour rendre compte des relations entre deux variables on ralise un diagramme de dispersion reprsentant les coordonnes bidimensionnelles de X et de Y. La variable qui sert de prdicteur est reprsente en abscisse ou axe X alors que la variable qui sert de critre, qui est prdite est en ordonne ou Y. Exemple : Comportement adapt et apprentissage Tableau 1 :
Va. 1 Appren tissage Effectifs au del de la moyenne en de de la moyenne Va2 : Comportement adapt Effectifs au del Effectifs en de de la de la moyenne 7 1 2 10

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

Tableau 2 : Va2 : Comportement adapt


Va. 1 Appren tissage Effectifs au del de la moyenne en de de la moyenne Effectifs au del Effectifs en de de la de la moyenne 6 3 5 6

Ces deux tableaux reprsentent la dispersion des donnes par division en quatre quarts. Le tableau 1 : montre la relation entre les deux variables alors que le second montre labsence de relation entre les deux variables. Les nombres reprsentent les effectifs qui sont au del ou en de de la moyenne dans le cas des deux mesures. Le premier tableau montre une rpartition idale o une majorit des sujets au del de la moyenne sur une premire mesure lest aussi sur la deuxime mesure, et o une majorit des sujets en de de la moyenne sur une premire mesure lest aussi sur la seconde mesure. Lanalyse de rgression teste si cette rpartition suit une relation linaire de cette nature. 2/ Exercice sur Statistica : rgression linaire simple :

Ouvrir le fichier exemple 1. Des auteurs ont tudi la relation entre le stress et la sant mentale des tudiants de premire anne. Lchelle de stress est obtenue partir de questionnaires sur la frquence, limportance perue et la dsirabilit d vnements ngatifs rcents de la vie. Le score reprsente le stress peru par le sujet dans son environnement. Une deuxime mesure reprsente la prsence ou labsence de 57 symptmes psychologiques. X = Stress (Prdicteur, VI) Y = Symptmes (Prdite, VD)

Avant dtudier la relation entre les variables on considre la distribution des donnes

2.1. Prsentation des donnes : relation entre le stress et la sant

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.
Slectionner vos variables (affecter en VIvariable prdictrice, en abscisses- la variable Stress et en VD, variable prdite, en ordonne- la variable symptmes) Valeurs que lordinateur calcule, que lon va retrouver dans le logiciel et que lon va prsenter : Coefficient de co-variation = 134.301 Corrlation = .506 Rmultiple = .506 R2 =.256 et R2 ajust = .248 Erreur type de lestimation = 17.56 Beta (b) = .506 Droite de rgression : Y = b + aX Y = Symptme, X = Stress, b = Ordonne lorigine = 73.88 Coordonne = B = a = .78311 Symptme = 73.890 + .78311 * Stress

Y a til des mesures extrmes? Des sujets extrmes modifient totalement la pente de rgression. Au moins un des sujets a un score de symptme trs lev et un autre un score de stress trs lev. Les enlever si les valeurs sont plus de 2 carts types de la moyenne de leur groupe.

b sera approfondi dans la rgression


multiple. Pour une rgression simple, b est le R multiple = .506.

2.3/ Prsentation des concepts Le Coefficient de co-variation et la corrlation:

2.2./ Analyse de rgression Aprs avoir ouvert le module rgressions multiples slectionner vos variables pour faire lanalyse.

On cherche un coefficient de corrlation (R). Pour le calculer, on sappuie sur une statistique appele covariance (X,Y) ou Sxy. La covariance reflte le degr de variation conjointe de deux variables. Une fois que lon a cette valeur on peut obtenir la corrlation.

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

Sujet
1 2 3 4 5 6 7 8 9 10 . . 107

Stress (X)
30(x1) 27 9 20 3 15 5 10 23 34 . . 27(x107)

Symptmes (Y)
99 (y1) 94 80 70 100 109 62 81 74 121 . . 97 (y107)

Calcul du coefficient de co-variation CovXY =[ (Xi moy X) (Yj moy Y)] / N- 1 = [XY ( X x Y)/N)] / N-1 N = 107 (effectif) X = 2297 Y = 9705 XY = 222576 X2 = 67489 Y2 = 923787 X = 21.467 Moyenne Y = 90.701 Sx = 13.096 (Sx = [(X2) ( ( X) 2/N)]/ N-1) (S = carts-types) Sy = 20.266 (Sy = [(Y2) ( (Y) 2/N)]/ N-1) CovXY = [222576 (2297 x 9 7 0 5 )

Cette relation nexprime pas des relations de causes effet mais suggre que je peux prdire 25% de la variabilit des symptmes en faisant attention au stress des sujets. La part qui reste (75%) correspond tout ce qui nest pas expliqu par le stress des sujets et qui na pas t entr dans le modle. Le R2 donne le degr auquel la variabilit dune mesure est imputable la variabilit dune autre mesure. Donc ici des changements dans le niveau des symptmes peuvent tre prdits partir des changements de stress. Le R2 ajust est utilis pour les petits effectifs car imaginez deux points seulement. Ils constituent une ligne droite eux seuls et la corrlation serait de .1. Ce serait une corrlation biaise par le petit effectif. R2aj = 1 [ (1- R2) (N 1) ] / N-2 = 1 [ (1-.25) (106)] / 105 = .249, Raj = .249 = .499. (Arbitrairement, on peut considrer un effectif comme suffisant quand le produit des variables en colonne (X x Y) est au moins infrieur 9 fois leffectif total). Le test de rgression est significatif, F(1,105)=36,145 p<,0001. La corrlation R, le R2 et le R2ajust sont donc significatifs. Il y a une relation entre les deux variables, le stress aurait un rle prdicteur du symptme. Le calcul et la reprsentation de la droite de rgression Calcul de la droite Pour calculer la droite de rgression il faut partir de lquation dune ligne droite qui est la plus ajuste par rapport aux donnes observes. Lquation est du type : U = b + aX Cette formule quivaut la phrase suivante :

/107]/106 = (222576 20834005)/106 CovXY = 134.301

Une fois que lon a la covariance on calcule la corrlation R = (cov xy)/ (SxSy) = 134.301/(13096*20.266) = .506 On divise la covariance par (les cart types) parce que la covariance est une valeur qui en partie est explique par les carts types de X et de Y (les carts la moyenne). Diviser la valeur de la covariance par les carts types permet de tenir compte de la variabilit des carts pour les deux groupes de donnes. Le R2, et le R 2 ajust: R2 = .506*.506 = .25. Le R2 signifie que 25% de la variabilit touchant lapparition des symptmes est prdite partir de la variabilit touchant le stress des sujets.

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

La valeur prdite du symptme = ordonne lorigine + a stress Ordonne lorigine = valeur que prend Y (symptme) quand X (stress) est gale 0 a = la pente de la droite de rgression (i.e., cest le changement constat au niveau du symptme pour un changement dune unit au niveau du stress. Cest le taux de changement prdit au niveau du symptme par un changement dune unit de stress. Exemple : Prenons lquation Y (essence consomme en litres/km) = - aX (perte de poids en kg) avec par exemple : Y (L/100 km) = -.01 X (kg) Cette quation veut dire que je sais que pour chaque kilo perdu jconomise 0.01 litre par 100 km. Cela veut dire que si je perds 100 kilos, je vais conomiser 1 litres au 100 kilomtres. Comment trouver a et b : (cf. valeurs du tableau de calcul de la covariance) : b = Y - aX = 90.701 (.7831) (21.467) = 73.891 a = covxy / S2X = 134.301/13.0962 = 0.7831 U = b + aX = 73.891+ (0.7831) (X) Cette droite de rgression a rduit les erreurs de prdiction de Y partir de X (Y en X, X est le prdicteur et Y est lobservation prdite par X). Reprsenter graphiquement la droite de rgression 1/Cliquer sur OK 2/ Cliquer sur Corrlation bivarie

3/ slectionnez vos variables puis cliquer sur OK

4/ Graphe et quation :

U = 73.891 + (0.7831) (X)

Si javais voulu prdire le stress par la variable symptme, et rduire les erreurs de prdiction de X partir de Y (Y serait le prdicteur et X lobservation prdite par Y) alors il aurait suffit dinverser les X et les Y dans les quations (X en Y). a = X - bY = 21.467 (.326) (90.701) = -8.10 b = covxy / S2Y = 134.301/20.2662 = 0.326

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

Graphe et quation obtenus si lon voulait prdire le niveau de stress par le niveau de symptme manifest par les sujets. C = b +a Y = 8.10 + (0.326) (Y) Les autres paramtres de lanalyse ne changent pas (R, R2, Beta, etc).

niveau individuel peuvent poser un problme quant lexactitude des prdictions. En effet, la pente reprsente un ajustement de la droite sur lensemble des donnes mais pas pour chacune des donnes. Il y a des sources derreurs possibles pour les prdictions un niveau individuel. Il faut donc considrer les carts la moyenne (lcart-type comme mesure de lerreur). On dispose dun indice qui nous permet de mesurer cet cart la moyenne et que lon appelle lerreur standard destimation. Cette mesure nous donne la variabilit rsiduelle qui subsiste lorsque nous utilisons X pour prdire Y (cest lerreur type mise au carr). Calcul de lerreur standard destimation Sujet Stress X Symptmes Symptmes Y observ U prdit Y obs - U prdit

Reprsenter lquation partir des seules valeurs de a et de b. Comment reprsenter cette droite sur laxe. On prend deux valeurs quelconques de X (aux deux extrmes de lchelle par exemple) et on calcule U pour chacune delles. Pour Xi = 0, Ui = .7831X(0) + 73.891 = 73.891 Pour Xi = 50 Ui = .7831 (50) + 73.891 = 113.046 Il suffit de reporter les deux valeurs obtenues sur un graphe. Lerreur standard ou lerreur type destimation Pour une valeur de stress, je peux prdire le niveau de symptme que les sujets manifesteront. Ces prdictions me permettent davoir une ide de la relation entre ces deux variables et de la pente de la relation. Lutilit de la pente de rgression est quelle nous permet dimaginer pour un sujet ce que seraient ses symptmes au vu de son niveau de stress. Mais ces prdictions au

1 30 99 97.383 1.617 2 27 94 95.034 -1.034 3 9 80 80.938 -.938 4 20 70 89.552 19.552 5 3 100 76.239 23.761 6 15 109 Etc... N = 107 S2yx = S (Yobs - Uprdit)2 = 32388.049 S Y2 = 923787 = S (Yobs - Uprdit)2 /N-2 = 32388.049/105 = 308.458 Syx = 308.458 =17.563 erreur standard destimation Cette erreur standard destimation est utile car plus cette valeur est leve moins le r (la corrlation) est leve et plus la variabilit

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

(erreur dans le modle) des mesures par rapport aux valeurs prdites est importante. Retrouver les rsidus utiliss pour calculer lerreur standard destimation

II/La rgression multiple Les rgressions linaires simples ont un seul critre Y et un prdicteur X. Dans ce cas on veut prdire Y sur la base de X. Ici, il sagit dexaminer un critre Y et plusieurs prdicteurs X (X1, X2, X3, Xn). On veut connatre Y sur la base de la connaissance simultane de tous les prdicteurs. Par exemple, je veux prdire la russite des tudes de troisime cycle (Y) sur la base de la moyenne des points obtenus par les tudiants de Licence (X1), les rsultats lexamen de matrise (X2), le nombre de cours suivis dans la matire principale (X3), le caractre favorable des lettres de recommandation des enseignants (X4). Avec la rgression linaire simple, on part dune quation Y = a + bX. On recherche deux inconnues qui minimisent la diffrence entre les valeurs attendues de Y. Pour la rgression multiple il sagit de faire de mme Y = (b0 + b1X1 + b2X2 + .... + bpXp) b0 = lordonne lorigine, cest la constante, on lappelle aussi intercept. b1, b2, b3, bn, sont les coefficients de rgression des prdicteurs X1, X2, Xp. Comme pour la rgression linaire on cherche les valeurs prdites de Y qui se rapprochent le plus des valeurs observes de Y. Rappelons que lon obtient Yen faisant la somme des diffrences entre les valeurs thoriques et celles observes de Y et on llve cette somme au carr (cf., 2.3. Calcul de a et de b).

Cliquer sur analyse des rsidus

Cliquer sur valeurs prvues et rsidus


La colonne 1 donne les valeurs observes pour chaque sujet, la colonne 2 les valeurs prdites par le modle et la colonne 3 lcart entre les donnes observes et celles calcules. Pour une observation plus lcart est important plus lerreur au niveau dun individu est importante.

A gauche les carts sont donns de faon figurative.

Il peut tre utile dextraire de la base de donne les sujets dont les scores vont au del de lquivalent de 2 carts types de la moyenne du groupe. Prcisons que lun des critres pour raliser une analyse de rgression est la distribution norme des donnes.

II. 1/ Exercice sur Statistica : rgression linaire multiple :

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

1.1. Prsentation des donnes : Il sagit dune base de donnes de 6 colonnes et de 50 observations. Une association a ralis une valuation des cours dune universit durant un semestre. Le questionnaire contenait des chelles en 5 points (de trs mauvais excellent). La premire VI est la qualit globale des exposs, ensuite les aptitudes pdagogiques du professeur, la qualit des examens, la connaissance dont tmoigne lenseignant sur sa matire selon le point de vue des tudiants, les rsultats auxquels sattendent les tudiants pour ce cours (trs bon insuffisant) et le nombre dinscriptions son cours. La qualit globale perue du cours est la VD. Les 5 autres variables sont les prdicteurs. Les 50 observations correspondent diffrents cours par exemple la 4me ligne est le 4me cours. Il sagit ici des donnes moyennes obtenues pour chaque cours sur chaque critre.
1 - tude de la distribution des valeurs pour les diffrentes variables (faire tude descriptive des donnes / distributions, moyennes et variances etc.) : Elles sont peu prs distribues normalement, la variabilit est raisonnable, les notes sont sensiblement suprieures 3. Il y a un biais positif. Les enseignants sont jugs mdiocres pdagogues, mais ils semblent bien matriser leurs cours (deux scores trs bas pour les qualits pdagogiques) et on note deux valeurs extrmes pour la frquentation des cours (220 et 800). Le cours 3 est fort en nombre, de faible qualit pdagogique et lexamen est jug peu adapt.

1.2.1.Analyse des inter-corrlations (co-linarit) :

Affecter les variables et lancer lanalyse

de rgression.

Slectionner dans le module Rsidus, statistiques descriptives, puis corrlations

Lexploration des corrlations se fait avant lanalyse de rgression. La lecture du tableau de corrlation nous rvle que la qualit perue est lie avec la pdagogie (.804) puis la connaissance attribue lenseignant (.682) ensuite avec les attentes en matire dexamen (.596). En revanche il y a une relation ngative entre la qualit perue et le nombre dtudiants en cours (-.240 mais cette 9

1.2. Examen des corrlations .

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

corrlation est faible ce qui tend remettre en cause lide du lien entre nombre dlve et valuation ngative). Il y a des liens levs entre la qualit perue de lexamen et les aptitudes pdagogiques de lenseignant (.720), le rsultat attendu (.610) et le nombre dinscrits (-.558). Le type dexamen est corrl avec beaucoup dautres variables. Il y a ce quon appelle colinarit. Ceci est gnant si les corrlations sont leves. Quest-ce que cela fait ? Lexamen a des points communs avec les autres variables et donc il ne doit pas possder beaucoup dinformations uniques (cest--dire quil est satur par beaucoup dautres variables) et donc cela veut dire que la variable examen offrira peu dinformations pour expliquer la variabilit touchant la variable valuation globale (Rappel : la rgression a pour objectif de vrifier quelles variables contribuent ou expliquent la variabilit dune mesure).

explique prs de 75% de la variance (R2 = .755), et lerreur standard destimation est peu importante (0,32). Les coefficients de rgression (B) et les coefficients de rgression standardiss (b) Coefficients standardiss La lecture du tableau nous permet de reprer les coefficients de rgression standardiss b (Beta) au niveau de la premire colonne (colonne Beta). Un coefficient exprime pour une variable indpendante le poids explicatif quelle exerce sur la variable dpendante. Plus ce coefficient est important (oscille entre + 1 et -1) plus le poids de la variable est important. La significativit du poids de chaque variable est donne (dans le cas prsent les variables b Pdagogie = + .66 /p < .000001/ et b Connaissance = + .32 /p < .0008/ ont un rle prdicteur signifiant sur lvaluation de la qualit de lenseignement). Cela se lit comme une corrlation mais cest davantage quune corrlation. Cela veut dire par exemple, pour le cas de la variable pdagogie, que lvaluation de la pdagogie de lenseignant est dpendante de la qualit de son enseignement. Il en est de mme pour la variable Connaissance. Le b signifie galement que la variable (e.g., connaissance) exerce une influence directe sur la qualit globale perue de lenseignement indpendamment de leffet potentiel de toutes les autres variables qui ont t introduites dans le modle. Le b exprime leffet net , ou un effet principal de la VI sur la VD, sachant que les effets des autres VI sur la VD ont t contrls ou maintenus constants (cest--dire que les valeurs des VI ne changent pas). Autrement dit la variation de la VI connaissance entrane une variation positive de la VD quand les autres variables restent fixes.

1.2.2. Analyse de rgression multiple Rmultiple, R2 et erreur standard destimation Slectionner synthse de rgression pour obtenir lessentiel des informations

Le R multiple (.869) est significatif, F(5, 44) = 27.18, p < . 0001. Lensemble des variables (i.e., les 5 variables impliques dans le modle : pdagogie, examen, connaissance, rsultat, inscriptions)

10

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

Finalement, les b permettent de faire le graphe de rgression partir de la constitution de la droite de rgression. Les trois autres valeurs b ne sont pas significatives. La variable examen ne contribue pas la prdiction de la VD. Cette variable tait pourtant corrle avec la VD .596, et le r tait significatif. Ceci montre quune corrlation entre deux mesures ne dit pas tout et notamment sur la contribution et la prdiction de la VD par une autre mesure. Un test t est ralis pour rendre compte de la significativit du b. Coefficients non standardiss La colonne 3 nomme B donne les coordonnes de lquation ou les coefficients de rgressions non standardiss qui permettent de rendre compte de la justesse du modle. Qualit globale = -1.195 + 0.001 Inscriptions + 0.132 Examen - .184 Rsultat + .489 Connaissance + .763 Pdagogie
A quoi servent les coefficients de rgression non standardiss:

Connaissance observ = 4.5 Pdagogie observ = 3.8 Prenons lquation de la rgression multiple : Qualit globale prdite = -1.195 + 0.001 x (Inscription observ) + 0.132 x (Examen observ) - .184 x (Rsultat observ) + .489 x (Connaissance observ) + .763 x (Pdagogie observ) Le tableau suivant donne les erreurs pour chaque cours entre la valeur prdite et la valeur observe.
Lquation prdit que : 1/ Qualit globale prdite = -1.195 + 0.001 x 21 (dInscription) + 0.132 x 3.8 (dExamen) - .184 x 3.5 (de Rsultat) + .489 x 4.5 (de Connaissance) + .763 x 3.8 (de Pdagogie) 2/ Qualit globale prdite = -1.195 + (0.001 x 21) + (0.132 x 3.8) (.184 x 3.5) + (.489 x 4.5) + (.763 x 3.8) = 3.773 3/ On compare la valeur observe de Qualit globale (3.4) la valeur prdite de Qualit globale (3.733): rsidu sujet 1 = 3.4 3.773 = - 0.373. Il y a une surestimation (erreur ou rsidu) de .3733 du modle pour le cours numro 1.

Elle permet de prdire thoriquement la VD (Qualit globale) pour chaque sujet (ici il sagit dun cours) et elle permet de calculer lajustement du modle aux donnes observes (lerreur). Prenons les valeurs observes du cours 1 (premire ligne de la base de donnes) pour les 5 variables indpendantes et pour la VD: VD (Qualit globale observe) = 3.4, Inscription observ= 21, Examen observ= 3.8, Rsultat observ = 3.5,

Vous retrouvez ce tableau dans analyse des rsidus. Que signifient les coefficients de rgression non standardiss:

La lecture de lquation (Qualit globale = -1.195 + 0.001 Inscriptions + 0.132 Examen - .184 Rsultat + .489 Connaissance + .763 Pdagogie) rvle qu chaque fois quun tudiant de plus viendrait suivre le cours de lenseignant, lvaluation globale de lenseignant par les tudiants samliorerait de 0.001 point. Donc un 11

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

cours not 3,1 quand il y a 10 tudiants qui composent la classe passerait 3,101 quand un 11me tudiant viendrait suivre ce cours). Attention, cette lecture nest vraie que si, dans labsolu, aucune autre variable que la taille des effectifs nest modifie. Ceci nest pas possible dans la ralit, car si vous augmentez les effectifs, vous allez modifier certainement dautres paramtres, comme la pdagogie et en retour, la pdagogie peut modifier les valeurs des autres scores. Pourquoi ? Parce que toutes ces VI sont relies entre elles et quelles saffectent les unes les autres. La lecture de lquation pour les autres variables de lquation suit le mme principe. Par exemple, pour la variable connaissance, si la qualit globale de lenseignant est note 3,1 par ses tudiants, et que la pertinence des connaissances enseignes augmente dune unit (par exemple note moyenne qui passe de 3 4), la qualit globale de lenseignant sera de 3.589 (soit + 0.489). Attention, ces scores de rgression nindiquent pas limportance relative des diffrents prdicteurs (ce sont les Beta qui apportent cette information). Ce nest pas parce que la valeur de laptitude pdagogique 0,763 est plus grande que la valeur taille des effectifs 0,001 quelle explique davantage la VD. Les corrlations partielles et les corrlations semi partielles Illustration de la corrlation partielle: On constate que le revenu des personnes (VD) et leur russite luniversit (VI) sont corrls positivement. On peut ne pas se satisfaire de cette relation. On peut penser quune troisime variable comme le QI explique tout cela. Pour trancher ce diffrend, il faut calculer le coefficient de corrlation partielle

entre les revenus (VD) et la russite luniversit (VI1) en contrlant le QI (VI2) dans ces deux variables. Pour faire cela, il faut raliser une rgression du revenu (VD) en fonction du QI (VI2) et recueillir les rsidus. Ces rsidus (ces erreurs) correspondent la variation du revenu qui ne peut tre impute au QI (qui est purifi de linfluence du QI et qui dpend dautre chose que le QI et par exemple la russite luniversit). Ensuite nous ralisons une rgression de la russite (VD) en fonction du QI (VI2) et nous obtenons nouveau les rsidus qui reprsentent la partie de la russite qui nest pas imputable au QI (mais qui peut tre imputable notamment au revenu). La corrlation partielle, entre le revenu et la russite lcole lorsque le QI est contrl, correspondra la corrlation entre le rsidu obtenu avec la premire rgression et le rsidu obtenu avec la deuxime rgression. Autrement dit, la corrlation partielle entre Revenu et Russite est une corrlation qui contrle les effets du QI la fois dans la VD (Revenu) et dans la VI (Russite).
Lecture des corrlations partielles partir des donnes:

12

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

Cliquer sur Corrlations partielles

Il sagit de contrler leffet quune premire VI a sur une deuxime VI afin dexplorer leffet de cette dernire sur la VD. Sachant que cette deuxime VI nest plus contamine par les effets de la premire VI, la corrlation semi-partielle donne leffet direct de la deuxime VI sur la VD. Toutefois, cette corrlation est semi-partielle car leffet de la premire VI sur la VD na pas t contrl. Dans le cas de la Variable Pdagogie, la corrlation semi-partielle est .42801. La corrlation semi partielle leve au carr est de .1835 (.428081 * .428081). En contrlant les effets de toutes les autres variables sur la pdagogie, on observe que la VI pdagogie explique 18,35 % de la variation de la VD. Ces informations (corrlations partielles et semi-partielles) sont utiles quand, une fois un prdicteur retenu, vous voulez vritablement connatre le poids de son influence indpendamment des autres variables existantes.

Dans ce tableau, on voit que, pour la variable pdagogie, la corrlation partielle est .6544. Cela veut dire que leffet de la pdagogie (VI1) sur la qualit globale est pur des effets des autres VI sur elle mme et sur la VD. Lorsque cette valeur est leve au carr (.6544 * .6544), nous obtenons un R2 = .42836. Cela veut dire que 42,836 % de la variation touchant la qualit globale qui ne peut tre explique par les autres prdicteurs peut tre explique par les aptitudes pdagogiques.
Lecture des corrlations semi-partielles partir des donnes:

III/ Lanalyse de rgression multiple par tapes ou mthode pas pas Ces techniques permettent daffiner lanalyse de rgression multiple puisquelles permettent de dterminer un sens dans lanalyse. Soit rechercher les lments qui dterminent significativement la VD (mthode ascendante), soit rechercher les lments dterminants significatifs une fois que lon a cart tous ceux qui ne ltaient pas (mthode descendante). La rgression par limination descendante ou dite backward Cest une procdure dite pas pas qui suit une tape logique. On part dun modle incluant tous les prdicteurs. On regarde les 13

La corrlation semi-partielle est la corrlation entre une variable dpendante et un prdicteur control.

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

coefficients partiels, semi partiels et on limine la variable qui est lorigine de la contribution la plus faible au modle (qui nest pas significative). On recommence ensuite la rgression multiple en liminant le prdicteur et on cherche la nouvelle variable qui apporte la contribution la plus rduite, non significative. On sarrte quand tous les prdicteurs sont significatifs. On peut dterminer des critres comme le seuil de rejet p< .05 ou p < .01 etc ou la valeur critique du F . Le logiciel nous les donne par dfaut, mais vous pouvez les changer (tre plus ou moins exigeants). Ici statistica fait les tapes pour nous et nous donne les valeurs.

Pour passer ltape 1, cliquer sur suivant (ici tous les lments sont intgrs, le R2 est de .7554. (75% de la variance).

Etape 1 cest lexamen qui est enlev. Le R2 ne change pas (- 0,01 %). On peut passer l tape suivante. 1/ Slectionner vos variables, puis cliquer sur OK 2/ Cliquer sur Annuler 3/ Slectionner Incrmentielle descendante et affichage des rsultats A chaque tape. Vous pouvez fixer les seuils dinclusion ou exclusion et p de vos choix.

14

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

On procde de mme et lon sarrtera ltape 3. Le R2 reste important. Lanalyse des rsultats suit le principe dcrit dans les parties prcdentes. On ne conserve que deux variables prdictrices.

La mthode de rgression pas pas de type ascendante par slection ou dite forward :

Le passage de ltape 1 ltape 2 permet de vrifier qu elle seule (tape 1) la pdagogie apporte 64,61% de linformation, puis qu ltape 2 la connaissance apporte environ 9 % de plus (R2 =73,87%) et enfin que linscription ajoute, lors de ltape 3 seulement environ 1% dinformation (R2 =74,78%) On pourrait sarrter la deuxime tape et ne relever les paramtres de la rgression qu cette deuxime tape. Cliquer sur corrlations partielles et sur synthse de rgression de ltape 2.

15

DESS. Chargs dtude et Formateurs. Enseignement : Analyses statistiques de donnes. J.-F. Verlhiac : Rgressions linaires simple et multiple. Sur Statistica.

La lecture du tableau suit les principes de lecture habituels. Les Beta des deux variables sont donnes dans le premier tableau, le R2 total. Les corrlations partielles sont dans le tableau du bas. Le tableau du milieu prsente les paramtres des variables absentes du modle (examen, rsultat, inscription). Cette dernire tape est plus courante que la premire. Exercice : Reprendre les donnes de lanalyse de rgression simple (Stress, symptmes) et ajouter la variable sexe en tant que variable indpendante (recoder les modalits + 1 pour sexe masculin et 1 pour sexe fminin). Faite lanalyse de rgression multiple puis interprter les rsultats de lanalyse de rgression en tenant compte de leffet du sexe. Vous pouvez rcuprer les bases de donnes sur : intranet.u-paris10.fr Documents personnels >>>> V >>> VERLHIAC >>> STAT DESS

16