Vous êtes sur la page 1sur 44

Octobre 2008

Numro 41

Cahiers de lIMA

Fascicule SPSS

Ingrid Eva G. T. Paola Rgis Chiara Thomas Pascal Ricciardi-Joos

Gilles Green Ricciardi Joos Scheidegger Storari Tuescher Wagner-Egger Ricciardi-Joos

Institut de Mathmatiques Appliques Facult des S.S.P. Universit de Lausanne Anthropole 1015 Lausanne

Historique du fascicule Le fascicule SPSS que vous tenez entre les mains prsente plusieurs particularits. La premire est quil est un travail collectif. La deuxime caractristique, qui est la plus importante notre avis, consiste dans le fait que ce fascicule est le produit de la pratique des auteurs lie un enseignement spcifique, celui de la recherche en psychologie sociale. En effet, ce fascicule est ne de la ncessit de rendre capables des tudiants en sciences sociales doprer des analyses statistiques simples avec le logiciel SPSS. Telle tait, par exemple, la demande du sminaire Psychologie sociale : recherche de lUniversit de Lausanne, dirig pendant cette priode par le Professeur (devenu ensuite Professeur Honoraire) Jean-Claude Deschamps. Puisque le plus souvent les tudiants en sciences sociales de luniversit de Lausanne adhrent eux-mmes au fcheux strotype qui veut quils ne soient pas dous en mathmatiques, le fascicule en question na pas t conu comme un manuel de statistique, mais plutt comme un guide pratique pour lapplication de certains tests statistiques aux sciences sociales. Ainsi, le lecteur avis ne devrait pas tre trop incommod si des notions statistiques se trouvent amputes, simplifies ou simplement elles ne sont pas abordes. Il existe dautres manuels dutilisation spcifiques au logiciel SPSS. Cependant, ceux-ci sont souvent trop dtaills et dutilisation peu pratique. Les auteurs du fascicule ont essay de crer un document facile lire et utiliser, en se fondant sur leur exprience directe des problmes et des ncessits des tudiants. Ce document ne se veut pas limit la psychologie sociale, mais tout tudiant qui se trouve confront pour la premire fois avec SPSS et qui ne dispose que de quelques notions de base en statistique. Nous esprons quil sera utile dautres personnes comme il la t pour nous. Les auteurs tiennent remercier le Professeur Honoraire Jean-Claude Deschamps, les assistants de lUniversit de Lausanne qui ont t confront de prs ou de loin avec lenseignement des statistiques aux tudiants en sciences sociales et qui ont stimul la rflexion des auteurs, les tudiants de lUniversit de Lausanne qui ont particip aux enseignements, ainsi que les tudiants venir. Nous remercions galement lInstitut des Mathmatiques Appliques de lUniversit de Lausanne, qui nous a permis de rendre ce document disponible toute personne intresse, et tout particulirement Jean-Philippe Antonietti. Nous remercions galement Karine Henchoz, Andr Berchtold et Dominque Joye pour leurs commentaires aviss.

TABLE DES MATIERES


6. Statistiques infrentielles___________________________________ 1. Constitution dune base de donnes SPSS______________________
1.1.2. Options de lancement de SPSS____________________________ 1.2. Fentre principale____________________________________________ 1.3. Dfinition dune variable et de ses proprits_______________________ 1.4. Enregistrement des donnes____________________________________ 1.5. Quitter SPSS________________________________________________

p. 33
p. 34 p. 38 p. 40

p. 5
p. 5 p. 6 p. 7 p. 11 p. 11

6.1. Le Khi carr_________________________________________________ 6.2. Corrlations de Pearson (variables numriques)_____________________ 6.3. Test statistique de la diffrence entre deux moyennes________________

1.1. Lancer SPSS (PC ou MAC)_____________________________________ p. 5

6.3.1. T-test avec 1 variable numrique et 1 variable nominale deux modalits_______________________________________________________ p. 40 6.3.2. One Way ANOVA avec 1 variable numrique et 1 variable nominale deux modalits___________________________________________________ p. 43 6.3.3. Test statistique de la diffrence entre plusieurs moyennes: ANOVA avec 1 variable numrique et 1 variable nominale plus de 2 modalits_______________________________________________________ p. 46 6.3.4. Test statistique de la diffrence entre plusieurs moyennes dfinies par plusieurs variables: ANOVA avec 1 variable numrique et plusieurs variables nominales_______________________________________________________ p. 49 6.3.5. Test statistique de la diffrence entre deux ou plusieurs moyennes provenant des mmes participants : ANOVA avec 2 variables numriques mesures rptes (VD) et une variable nominale (VD)___________________________________________________________ p. 56 6.3.6. Test statistique de la diffrence entre deux moyennes provenant des mmes participants : T-test avec 2 variables numriques mesures rptes________________________________________________________ p. 60

2. Importation dun ficher de donnes partir dExcel______________


2.1. Fichier de donnes Excel_______________________________________ 2.2. Importation des donnes _______________________________________

p. 11
p. 11 p. 12

3. Fonctions de base de SPSS__________________________________ p. 14


3.1. Insrer une nouvelle variable / dplacer une variable (sur la feuille de donnes)_______________________________________________________ p. 14

4. Manipulation des donnes__________________________________

p. 16

4.1. Crer une variable partir d'une ou de plusieurs variables existantes_______________________________________________________ p. 16 4.2. Recoder des variables_________________________________________ p. 18

4.3. Fragmenter la base de donnes (travailler uniquement sur une partie des donnes)_______________________________________________________ p. 23 4.4. Travailler sur une partie des donnes_____________________________ p. 24

6.4. Vrifier la fiabilit interne d'une chelle : alpha de Cronbach_____ 6.5. Analyse en Composantes Principales Exploratoire (ACP)________

p. 61 p. 64

5. Statistiques Descriptives____________________________________ p. 25
5.1. Calcul des frquences (variables nominales)________________________ p. 25 5.2. Tableaux croiss ou tableaux de contingence (2 variables nominales)______________________________________________________ p. 27 5.3. Moyennes (variables numriques)________________________________ p. 30 5.4. Obtention de la moyenne et de l'cart type de plusieurs sous-groupes de l'chantillon_____________________________________________________ p. 31

6.6. Analyse de rgression linaire______________________________ p. 73

1. Constitution dune base de donnes SPSS


1.1. Lancer SPSS (PC ou MAC)
Sous PC, 2 faons : 1) Aller dans le menu Dmarrer puis dans Programmes, choisir SPSS parmi la liste des programmes. 2) S'il existe un raccourci de l'application sur le bureau, double cliquez sur l'icne SPSS

Cette fentre vous propose diffrentes options. La plupart du temps, on choisira : 1) L'option Tape in data pour faire la saisie des donnes rcoltes l'aide des questionnaires. 2) L'option Open an existing data source pour ouvrir un fichier dj existant. Lorsque vous slectionnez l'option Tape in data, vous voyez apparatre au premier plan la fentre qui se trouvait en arrire plan et qui reprsente la fentre principale de SPSS. Lorsque vous ouvrez une base de donnes dj existante, il se peut qu'une autre fentre s'ouvre automatiquement : l'output (fentre d'dition des rsultats). Pour l'instant nous ne nous occuperons que de la fentre principale.

1.2. Fentre principale


Sous Mac : Dans le menu Applications, vous trouverez le dossier SPSS et il suffit de cliquer sur l'icne de celui-ci. Elle se compose de plusieurs parties :

1.1.2. Options de lancement de SPSS


Lorsque l'application est lance, deux fentres s'ouvrent. En premier plan :

1) La barre des menus et des boutons de commande 2) La fentre principale de SPSS pour l'entre et le traitement des donnes 3) La fentre de rsum des variables :

Pour la saisie des donnes, il faut dans un premier temps dfinir le nom des variables que l'on utilise.

1.3. Dfinition dune variable et de ses proprits


Cette opration s'effectue dans la fentre Variable view. Vous pouvez passer d'une fentre l'autre en cliquant sur les onglets correspondants dans la barre en bas gauche de la fentre. Sous la colonne Name on indique le nom de la variable (nom sans accent, selon les versions du programme, vous disposez de 8 lettres et le seul trait reconnu est le soulign _ ), par exemple age pour l'ge des participants. On appuie ensuite sur Enter pour valider cette entre. Des proprits par dfaut s'inscrivent alors sur la ligne qui concerne cette variable :

Vous dfinissez galement le nombre de caractres que vous pouvez inscrire (pour des variables nominales) et le nombre de dcimales (pour les variables numriques). Ces deux informations vont galement s'inscrire dans les colonnes width et decimals. Width correspond l'tendue de la case (le nombre de lettres ou de chiffres que vous pouvez inscrire). Par dfaut, ces valeurs sont 8 et 2 respectivement. Vous pouvez les modifier tout moment en changeant les chiffres qui apparaissent dans les cases correspondantes. 2) Label : le label correspond au descriptif de la variable. C'est un aide-mmoire. Le label est entr dans la case aprs avoir double cliqu dessus. Vous avez disposition autant de caractres que vous le dsirez. Pour agrandir physiquement cette case, slectionnez la limite droite, gardez slectionn et dplacez le curseur droite ou gauche selon que vous voulez agrandir ou rtrcir la case. 3) Value : en gnral, les variables sont codes. Par exemple pour la variable sexe, on va attribuer le code 1 aux femmes et 2 aux hommes. Autre exemple, pour une question pose, on notera les rponses selon une chelle allant de 1 6 pour laquelle 1 correspondra pas d'accord et 6 correspondra tout fait d'accord . Les codages peuvent tre entrs sous Values afin de ne pas oublier quelles sont les valeurs qui leur sont attribues.

1) Type (par dfaut, SPSS affiche numeric) :

On obtient la fentre variable type en double cliquant sur le rectangle gris figurant dans la case type de chaque variable. Ici il s'agit d'indiquer quelle est la nature de la variable pour laquelle le type est dfini. Si vous entrez des chiffres ayant une valeur numrique cliquez sur Numeric Si vous entrez des chiffres sans valeur numrique, des lettres, des mots cliquez sur String

Pour entrer une valeur il faut double cliquer sur le rectangle gris qui apparat dans la case une fois celle-ci slectionne. La fentre ci-dessus s'affiche alors. Il suffit alors d'entrer dans l'onglet Value le premier code (par exemple 1 pour la variable sexe) et dans Label la modalit correspondante (par exemple femme). On clique alors sur Add pour valider la manuvre. Attention, si vous ne cliquez pas sur Add, votre label ne sera pas pris en compte. Vous pouvez modifier labels et valeurs tout moment. Pour tout nouveau label ajout, rptez la procdure prcdente. Pour enlever un label, cliquez sur la valeur et le label que vous voulez supprimer. L'onglet Remove apparat alors. Cliquez dessus. Pour modifier un label, cliquez sur la valeur ou le label modifier, effectuez les modifications dans les deux fentres suprieures et au lieu de cliquer sur Add, cliquez sur Change.

Pour une variable continue (par exemple la variable politique qui va de 1 = extrme gauche 8 = extrme droite), vous pouvez n'indiquer que le code correspondant extrme gauche et le code correspondant extrme droite sans dfinir toutes les valeurs de l'chelle (cela vous permet de vous rappeler les bornes de l'chelle):

sociale) manipulent trs souvent ces variables suivant les mmes critres. Cest pourquoi nous avons dcid de les regrouper EXCEPTIONNELLEMENT dans la mme catgorie des variables numriques. Si plusieurs colonnes doivent avoir exactement les mmes caractristiques, cest--dire le mme type, avec le mme label, le mme format de colonne, etc., utilisez dans Variable view les fonctions Copy et Paste du menu Edit. Le principe est le mme que dans word : vous allez sur la case dont vous voulez copier le contenu, vous le copiez, vous allez sur la case dans laquelle vous dsirez copier le contenu, et vous collez le contenu de la premire case. Attention : vous devez avoir nomm une variable (la case lextrme gauche sur variable view) pour copier les autres cases. Au fur et mesure que vous dfinissez les variables et leurs proprits, la feuille des donnes (data view) se forme :

NB : les valeurs et labels indiqus dans cette fentre ne sont qu'indicatifs!!!! Modifier les labels et valeurs ne modifiera pas les donnes rentres dans la fentre Data view! Il s'agit d'un aide-mmoire. 4) Missing : pour indiquer une non rponse (ou valeur manquante). Lorsque vous remplissez votre base de donnes, si des participants n'ont pas rpondu certaines question, vous pouvez laisser les casses correspondantes vides ou indiquer une valeur qui va tre dfinie comme donne manquante (par exemple 999). La premire technique (ne rien mettre) ne vous permet pas de diffrencier entre elles plusieurs types de donnes manquantes (non rponse, n'a pas voulu rpondre, ne sait pas), alors qu'avec le deuxime technique cela est possibles sans que les valeurs correspondantes soient prises en compte dans les calculs. 5) Columns : permet de contrler la largeur physique de la case de la variable. Laissez 8 par dfaut. 6) Align : permet de choisir si le texte dans les colonnes sera align droite, gauche ou centr. Laissez droite par dfaut. 7) Measure : permet d'indiquer si la variable que vous dfinissez est nominale (Nominal), ordinale (Ordinal) ou numrique (Scale). Laissez scale par dfaut. Le type danalyse que vous allez demander sur une variable va dfinir implicitement le type de variable que vous utilisez (si vous effectuez un chi carr, spss prsume que les variables sont nominales). Cela ne sert pas grande chose de les redfinir ici. Dans la suite de ce fascicule, nous utilisons les termes variables nominales et variables numriques. Dans ce fascicule, nous avons dcid de regrouper les variables ordinales, les variables de rapport et les variables continues dans la catgorie des variables numriques. Cela ne signifie pas que nous considrons que ces diffrents types de variables prsentent les mmes caractristiques statistiques (pour une dfinition des diffrents types de mesure et de variables, nous vous conseillons de faire rfrence un manuel statistique, comme Howell, D.C. (2008). Mthodes statistiques en sciences sociales). Cependant, dans la pratique les chercheurs (du moins en psychologie

Les variables s'affichent en haut des colonnes et chaque ligne reprsente un participant. Pour rsumer: 1) Dans Data view une ligne = un participant et une colonne = une variable. 2) Dans Variable view une ligne = une variable et une colonne = les caractristiques de cette variable. Pour rentrer les donnes il faut donc remplir en ligne les informations correspondantes chaque participant dans Data view:

10

1.4. Enregistrement des donnes


La premire fois que vous enregistrez vos donnes (mme principe que dans word) : On enregistre les donnes en excutant loption Save As du menu File. Dans un premier temps, on choisit lemplacement sur le quel on veut enregistrer le fichier (bouton enregistrer dans). Il est conseill de sauver les donnes sur le bureau, vous les retrouverez plus simplement. Dans un deuxime temps, on entre un nom dans la fentre Nom du fichier ; ensuite on clique sur le bouton Enregistrer. Lextension dun fichier de donnes SPSS est .sav et cette extension sinscrit automatiquement la suite du nom de votre fichier, il nest donc pas ncessaire de la rajouter lorsque vous enregistrez vos donnes. Mais si vous voyez un fichier du type nom.sav sachez que cest un fichier de donnes spss. Pour ajouter des donnes un fichier dj existant (mme principe que dans word) : lorsque votre document est ouvert, cliquez simplement sur save ( !!pas save as !!). Lordinateur va ajouter les nouvelles donnes votre ancien dossier. Si vous cliquez save as , le programme va crer une nouvelle base de donnes avec les nouvelles donnes ajoutes aux anciennes. Vous aurez alors deux bases de donnes. Si vous sauvez aprs chaque questionnaire saisi (ce qui est vivement conseill) et que vous avez 100 participants, vous allez vous retrouver avec 100 bases de donnes. La dernire sera la bonne, mais comment sen rappeler ?

2.2. Importation des donnes


Dans SPSS, il faut suivre les tapes suivantes: Spcifiez que vous dsirez ouvrir un fichier dj existant (Open an existing data source). Cliquez sur More Files et ensuite, OK.

1.5. Quitter SPSS


Sur PC : On excute loption Exit du menu File pour quitter SPSS. Le logiciel vous demande si vous voulez vraiment quitter lapplication, cochez yes. Sur MAC : On excute loption Quit SPSS du menu SPSS (qui se trouve gauche du menu file). Le logiciel vous demande si vous voulez sauver les donnes contenues dans chaque fentre avant de quitter, rpondez yes.

2. Importation dun ficher de donnes partir dExcel


2.1. Fichier de donnes Excel
Le fichier aura comme extension .xls Les variables correspondent aux colonnes et les participants aux lignes, comme dans SPSS. Le nom des variables doit figurer sur la premire ligne de la grille et doivent avoir 8 caractres au maximum (si vous voulez importer les donnes sous une version de SPSS antrieure la 15). N'utilisez pas de caractres spciaux ou d'accent.

Indiquer dans la fentre Open File que le fichier importer (Fichier de type : ) est de type Excel (.xls). Vous trouvez dans vos rpertoires votre fichier Excel : slectionnez-le et cliquez sur Ouvrir.

11

12

3. Fonctions de base de SPSS


Le logiciel SPSS travaille sur plusieurs feuilles (fentres) en mme temps : 1) La feuille de donnes sur laquelle vous entrez vos donnes et dans laquelle elles sont dfinies. Cette feuille a une extension .sav (elle comprend la page data view et la page variable view). Vous pouvez ouvrir uniquement une fentre .sav en mme temps (uniquement si vous utilisez la version 14 sur PC vous pouvez ouvrir plusieurs fentres .sav). 2) La (les) feuille(s) de sortie ou output sur laquelle apparaissent les rsultats de vos analyses statistiques. Cette feuille a une extension .spo. Vous pouvez ouvrir plusieurs fentres de ce type en mme temps. Sur ces fentres, le logiciel va vous prsenter les rsultats de vos analyses sous forme de tableaux ou de graphiques. 3) La (les) feuille(s) de syntaxe (syntax) sur laquelle vous pouvez programmer des analyses sans utiliser les menus. Cette feuille a une extension .sps. Vous pouvez ouvrir plusieurs fentres de ce type en mme temps. Sur ces fentres, le logiciel va vous prsenter les ordres que vous avez formul la machine sous forme crite (programmation). Cette fentre vous permet de sauver les analyses sans devoir passer par loutput (qui est un fichier lourd ). En plus, sauver la syntaxe peut tre utile pour garder une trace des nouvelles variables que vous avez dfini lors de vos analyses (voir chapitre 4).

Cochez la case Read variable names from the first row of data dans la fentre Opening Data Source et cliquez sur OK.

3.1. Insrer une nouvelle variable / dplacer une variable (sur la feuille de donnes)
Pour insrer une nouvelle variable dans une base de donnes existante, slectionnez une colonne dans data view (ou une ligne dans variable view), puis suivez le chemin suivant : Data => Insert Variable (soit dans la fentre data view soit dans variable view) Apparat alors une nouvelle colonne vide dans data view ou une ligne dans variable view, prcdant celle que vous avez slectionne, prdfinie par dfaut mais sans nom.

Cette fonction permet au logiciel de reconnatre la premire ligne de votre feuille excel comme tant le nom des variables. Attention les caractristiques de vos variables sont dfinies par dfaut par SPSS, puisque le logiciel ne dispose d'aucune information sur les donnes depuis Excel. Le fichier de donnes s'ouvre alors dans SPSS et vous pouvez utiliser les fonctionnalits de SPSS. N'oubliez pas de sauvegarder le nouveau fichier. Prsentation des donnes, synthse. Aprs avoir saisi vos donnes, vous devez avoir un tableau des donnes avec : 1) Une ligne par participants (dans data view) 2) Une colonne par variables (dans data view) 3) Tous les rsultats en chiffres (vitez les lettres) 4) Les caractristiques de chaque variable dfinies

13

14

4. Manipulation des donnes


4.1. Crer une variable partir d'une ou de plusieurs variables existantes
But : crer une nouvelle variable partir de variables existantes, soit en les modifiant (par addition, soustraction, etc.), soit en les agglomrant (moyenne dun ensemble de variables). Laspect central de ces manipulations est que vous oprez des calculs sur vos variables (sous forme de simple quation ou sous forme dune fonction). Il est trs important de se rappeler de cet aspect. Normalement ces oprations sont effectues sur des variables numriques. Exemple : vous avez cod la taille des participants en centimtres (nom variable : tai_cen) et vous voulez crer une variable nomme tai_met, qui reprsente leur taille en mtres. Chemin : Transform Compute...

Pour dplacer une variable dans la base de donnes, insrez une colonne comme ci-dessus l'endroit voulu, puis slectionner la colonne dplacer. Suivez alors le chemin suivant : Edit => Cut. Puis slectionnez la colonne vide et Edit => Paste. Si vous voulez dplacer une variable qui contient des participants (par exemple vous avez entr 20 participants), vous devez slectionner toute la colonne, cest--dire toutes les valeurs entres. Pour les copier, vous devez slectionner un nombre de cases gal ou suprieur au nombre de participants (dans ce cas 20). Si vous en slectionnez un nombre infrieur, spss va coller uniquement les cases qui ont une place . Par exemple les 15 premiers sujets, si vous navez slectionn que 15 cases.

Dans Target Variable inscrire le nom de la nouvelle variable que vous voulez crer (par exemple tai_met). Dans Numeric expression inscrire, grce au pav numrique, la formule correspondante au calcul qui vous permet dobtenir votre nouvelle variable (par exemple tai_cen/100). Vous avez deux possibilits : soit vous inscrivez vous mmes le nom des variables dans lexpression, soit vous pouvez les chercher dans la fentre de gauche. Avec la flche, vous les dplacez dans la fentre Numeric expression aprs les avoir slectionn (une

15

16

la fois). Pour dterminer les oprations, vous pouvez utiliser les symboles du pav numrique qui se trouve sous la fentre Numeric expression. Dans la fentre Functions, comme dans Excel, vous disposez dun certain nombre de fonctions prenregistres. Par exemple, pour calculer la moyenne de plusieurs variables agrges, cherchez Mean, slectionnez cette fonction et faite-la glisser dans la fentre Numeric expression grce la flche. Dans ce cas, le logiciel propose la fonction (par exemple mean) et des parenthses. Dans les parenthses, vous devez introduire les variables que vous voulez agrger, spares par une virgule (les symboles les plus importants sont : *multiplication, / division, < plus petit que, <= plus petit ou gal, > plus grand que). Cliquez ensuite sur OK. Exemple 1 : Dans notre base de donnes, il y a lanne de naissance des participants (variable naiss dans SPSS) mais pas leur ge. Nous voudrions travailler avec lge. Il faut donc crer cette variable. Pour obtenir lge partir de la date de naissance, il faut crire lopration suivante : ge = 2006 naiss (2006 reprsente lanne de l'tude). On reproduit donc ce calcul dans notre fentre SPSS :

Exemple 2 : On a not les points (scores) des participants quatre tests que lon a appels test1, test2, test3 et test4. Ces tests mesurent laptitude au calcul des enfants, mais de manire diffrente (par quations, par des cubes de couleur, par calcul mentale ou par suite logique de chiffres). On veut calculer la moyenne de ces quatre tests pour crer une variable gnrale qui mesure laptitude gnrale au calcul. Toujours dans transform puis compute, on utilise la fonction mean comme indiqu ci-dessous :

4.2. Recoder des variables


But : partir de variables dj existantes, crer dautres variables. Dans ce cas, vous nallez pas oprer des oprations arithmtiques sur vos donnes originales, mais vous allez plutt recoder diffremment les valeurs que vous avez donn des catgories de rponse. Cela signifie que vous allez manipuler les tiquettes que vous avez dtermines pour vos donnes. Cette fonction vous permet aussi de crer des groupes : vous allez regrouper diffremment des catgories de rponse pour en crer dautres. Souvent, ce genre de manipulation porte sur des variables nominales, mais cela peut galement concerner des variables numriques. Par exemple, si vous voulez former des classes d'ge (variable nominale) partir de l'ge des participants (variable numrique). Vous devez utiliser cette fonction lorsque vous tes amens inverser lordre de lchelle utilise pour mesurer une variable

Le variable ge ainsi cre va venir s'ajouter la fin de la base de donnes, comme dernire variable.

17

18

Chemin : Transform Recode... Cliquez ensuite sur Old and New values Une fentre apparat alors et vous propose deux options. Le plus souvent slectionnez : Into Different Variable. Cela signifie que le logiciel cre une nouvelle variable qui va sajouter la fin de votre base de donnes. Si vous cliquez sur Into same variable le logiciel va modifier lancienne variable sans en modifier le nom. Le problme est que de cette manire, vous ne gardez pas de trace de cette transformation et il devient difficile de se rappeler si une variable est encore sous sa forme originale ou pas. Dans les deux cas, le principe est le mme. Pour la premire option, la fentre apparat : Une nouvelles boite de dialogue apparat. Celle-ci vous permet de dterminer quelles nouvelles valeurs doivent tre assignes aux anciennes.

Slectionnez dans le cadre de gauche le nom de la variable recoder (age) et cliquez sur la flche. Le nom de cette variable apparat dans le cadre Input Variable -> Output Variable. crire dans le cadre de droite, sous Name: le nom de la future variable recode (groupe_age). Cliquer sur Change. Si vous ne cliquez pas sur change, vous ne pouvez pas procder la cration de la nouvelle variable. Un conseil: lorsque vous nommez la nouvelle variable, reprenez le nom de lancienne en lui rajoutant quelque chose qui vous rappelle quelle a t recode. Par exemple, lancienne variable sappelle v30 et la nouvelle v30_re. Dans le cadre Old Value et sous Value, crire la valeur recoder et droite, dans le cadre New Value et sous Value, la nouvelle valeur recode. Si, par exemple, vous travaillez avec une variable numrique allant de 1 5 que vous voulez inverser, lancienne valeur 1 deviendra la nouvelle 5, lancienne valeur 2 deviendra 4, lancienne valeur 3 deviendra 3, lancienne valeur 4 deviendra 2, et lancienne valeur 5 deviendra 1. Aprs chaque nouvelle valeur, cliquez sur Add; la transformation prvue s'affiche dans le cadre Old New. Vous pouvez modifier ces valeurs, il suffit de slectionner celle qui vous intresse dans le cadre Old New et de cliquer sur change. Par la suite, vous pouvez confirmer le changement en cliquant sur Add. Vous pouvez galement liminer un codage en cliquant sur remove. Une fois toutes les valeurs modifier inscrites dans ce cadre, cliquez sur Continue puis cliquez sur OK. La premire bote de dialogue se ferme et le logiciel a cr votre nouvelle variable la fin de la base de donnes.

19

20

Exemple 1 : Le test1 a t mesur laide dune chelle allant de 1 6, 1 = tout fait russi et 6 = pas du tout russi, alors que le codage est inverse pour les trois autres tests (1 = pas du tout russi et 6 = tout fait russi). Pour pouvoir calculer la moyenne de ces 4 variables (les tests), il faut que les chelles aillent toutes dans le mme sens . Il faut donc inverser lchelle du test1 de faon ce que la valeur 1 = pas du tout russi et que la valeur 6 = tout fait russi (bien entendu, il faut aussi recoder les valeurs intermdiaires). On suit la procdure dcrite plus haut et on aboutit la fentre suivante :

Exemple 2 : Dans les exemples traits jusqu'ici, il tait question de faire correspondre un nouveau code un ancien code. Il est galement possible de crer des groupes, c'est--dire de faire correspondre un nouveau chiffre un ensemble de chiffres. Par exemple, on veut crer 3 catgories d'ge (la catgorie 1 qui regroupe les individus qui ont moins de 21 ans, la catgorie 2 qui regroupe les individus qui ont entre 21 et 24 ans, et la catgorie 3 qui regroupe les individus qui ont plus de 24 ans) partir de notre variable numrique age. Dans les cadres Old Value et New Value, les catgories peuvent tre dfinies de la manire suivante (pour ne pas recoder chaque valeur individuelle comme dans le cas prcdent, puisquil serait trop laborieux ici) : A gauche, Range:, Lowest through (plus petit queles chiffres qui dterminent les limites de la catgorie sont comprises dans celle-ci) 21 et droite, dans le cadre New Value, crire 1. puis cliquer sur Add. Ainsi toutes les valeurs infrieures 21 (comprise) vont tre regroupes dans une nouvelle catgorie 1. gauche, Range, 21 through 23 et droite, dans le cadre New Value, crire 2. Cliquer sur Add. Les valeurs comprises entre 21 (non compris) et 23 (compris) vont tre modifies dans une nouvelle catgorie 2. gauche, Range 23 through highest et droite, dans le cadre New Value, crire 3. Cliquer sur Add. Ainsi, ceux qui ont plus de 24 ans (compris) seront regroups dans une nouvelle catgorie 3. Une fois toutes les valeurs modifier inscrites dans ce cadre, cliquez sur Continue puis OK.

Aprs avoir appuy sur Add pour ajouter le dernier recodage, on peut cliquer sur Continue puis OK. La nouvelle variable Test1_inv apparatra la fin de la base de donnes.

21

22

4.3. Fragmenter la base de donnes (travailler uniquement sur une partie des donnes)
But : travailler sur lensemble des donnes, mais en obtenant des informations distinctes sur divers groupes en parallle comme les hommes et les femmes. Les rsultats apparaissent alors sparment pour les groupes concerns dans loutput. Cette option vous permet de pouvoir considrer des groupes diffrents en mme temps. Cest--dire que le logiciel, au lieu de travailler sur lensemble des individus, va faire la mme analyse sur plusieurs groupes dindividus et va vous prsenter les rsultats pour chaque groupe sparment. Souvent la variable qui dfinit la fragmentation des donnes est une variable nominale (qui identifie des groupes de participants). Chemin : Data Split File...

4.4. Travailler sur une partie des donnes


But : lorsquune seule partie de lchantillon vous intresse, vous pouvez demander de n'avoir les rsultats que pour cette partie, pourvu quelle soit dfinie par des variables inclues dans la base de donnes (par exemple : rsultats pour les femmes). Encore une fois, la variable qui vous permet de slectionner les individus est, la plupart du temps, une variable nominale. La diffrence entre cette fonction et la prcdente est quici vous navez pas les rsultats pour tous les groupes (par exemple les hommes et les femmes), mais uniquement pour une catgorie de participants (les femmes). Chemin : Data Select cases

Cliquez sur organize output by groups (ou compare groups si vous dsirez avoir linformation dans un seul tableau la place de plusieurs. Le rsultat est le mme, uniquement la prsentation change). Slectionnez dans la fentre de gauche la variable en fonction de laquelle vous voulez sparer vos rsultats (ici sexe) et faites-la glisser dans la fentre de droite (Groups based on : ) laide de la flche. Noubliez pas de dsactiver le split file quand vous nen avez plus besoin. Il ne se dsactive pas seul et le logiciel ne vous rappelle pas quil est activ. Cette fonction peut tre dsactive par: Data Split file Analyse all cases et OK.

Cliquez sur If condition is satisfied, puis If

23

24

Chemin : Analyze Descriptive Statistics Frequencies...

Slectionnez dans la fentre de gauche les variables, puis passez-les droite en utilisant la flche.

Ecrire l'expression numrique ncessaire. Par exemple, pour traiter uniquement les donnes qui portent sur les femmes (cods 2), crire : sexe = 2. Puis cliquer sur Continue et OK. Cette slection est active pour toute analyse faite par la suite jusqu' ce que vous la dsactiviez ou quittiez l'application. Pour dsactiver : Data Select cases All cases et OK.

Dans la fentre Statistics, on peut choisir l'information que l'on dsire avoir sur les donnes. Ainsi vous pouvez avoir des indices de tendance centrale (moyenne, mdiane et mode), vous pouvez obtenir la valeur pour laquelle l'chantillon sera divis en x sous chantillons composs du mme nombre ( peu prs) de participants (cut points for x equals groups) et dautres informations. Slectionnez ce qui vous intresse.

5. Statistiques Descriptives
Jusqu prsent, il a t question de manipuler la base de donnes et les variables que celle-ci comprend. Nous passons maintenant la phase de description des donnes.

5.1. Calcul des frquences (variables nominales)


But : calculer la frquence (nombre et / ou pourcentage) des units (participants) qui sont regroupes dans chaque modalit d'une variable nominale (par exemple, le sexe : N ou % de femmes et d'hommes). Cliquez sur Continue puis OK pour lancer votre analyse. Le logiciel va alors crer une nouvelle fentre, celle des rsultats (output).

25

26

SPSS output : Sexe Frequency 76 97 173 Percent 43.9 56.1 100.0 Percent valid 43.9 56.1 100.0 Cumulative percent 43.9 100.0

Valid

homme femme Total

Dans cet chantillon, il y a 76 hommes (43.9% de lchantillon) et 97 femmes (56.1% de lchantillon). Vous remarquez qu'en ligne, vous avez les catgories qui composent votre variable (si vous leur avez donn des labels lors de la constitution des variables, ces noms apparaissent dans le tableau, autrement vous avez les chiffres). En colonne, vous voyez les frquences (Frequency : le nombre de participants dans chaque catgorie). Les participants qui ne peuvent pas tre classs sont indiqus comme missing system. Suivent (toujours de gauche droite), les pourcentages des participants dans chaque catgorie (percent) : attention, parmi ces pourcentages se trouvent galement les participants qui nont pas rpondu. Si vous vouliez indiquer les pourcentages de participants dans les catgories qui ont rpondu la question, vous devez faire rfrence la colonne qui suit (valid percent). La dernire colonne est la somme des pourcentages des individus chaque nouvelle catgorie (cumulative percent).

5.2. Tableaux croiss ou tableaux de contingence (2 variables nominales)


But: calculer la frquence (nombres et/ou pourcentage) des participants qui sont compris dans les modalits d'une variable nominale, croise avec les participants qui sont compris dans les modalits d'une seconde variable nominale (par exemple, nombre et pourcentage d'hommes et de femmes selon leur habitude fumer). Attention : vous nallez utiliser que des variables nominales pour cette fonction. Chemin : Analyze Descriptive Statistics Crosstabs... Entrer une premire variable dans la fentre Row(s): et une deuxime variable sous Column(s): toujours en les slectionnant et en cliquant sur la flche qui spare les deux fentres. Lordre et la position que vous utilisez pour entrer les variables nest pas important pour le rsultat. Exemple 1 : Dans une tude sur la consommation de tabac, on croise le sexe (sexe) et la consommation de tabac des participants (statut_fum : 1 = fumeurs, 2 = fumeur occasionnel, 3 = ancien fumeur, 4 = non-fumeur). Ensuite, cliquez sur Cells pour demander les pourcentages (en ligne, en colonne et totaux).

27

28

SPSS output : Si vous avez entr la variable statut_fum en colonne (column) cela signifie que les catgories fumeur, ancien fumeur, non fumeur et fumeur occasionnel seront sur le haut du tableau et dfinissent les colonnes de celui-ci. Les pourcentages en colonne se lisent alors comme le pourcentage des quatre groupes de fumeurs dans les catgories de la variable en ligne. Pour savoir quelle valeur regarder, faites attention quels chiffres donnent une somme de 100% en colonne. Si vous avez entr la variable sexe en ligne (row) cela signifie que les catgories de sexe seront sur le ct gauche du tableau et dfinissent les lignes de celui-ci. Les pourcentages en ligne se lisent alors comme le pourcentage dhommes ou de femmes dans les catgories de la variable en colonne. Pour savoir quelle valeur regarder, faites attention quels chiffres donnent la somme de 100% en ligne. Sexe*statut_fum Cross tabulation
Statut_fum Fumeur Anc_fumeur Non_fum Fumeur_occ Total Sexe Homme Count % within sexe % within statut_fum % of Total Femme Count % within sexe % within statut_fum % of Total Total Count % within sexe % within statut_fum % of Total 26 34.2% 43.3% 15.0% 34 35.1% 56.7% 19.7% 60 34.7% 100% 34.7% 33 43.3% 40.2% 19.1% 49 50.5% 59.8% 28.3% 82 47.4% 100% 47.4% 10 13.2% 47.6% 5.8% 11 11.3% 52.4% 6.4% 21 12.1% 100% 12.1% 7 9.2% 70.0% 4.0% 3 3.1% 30.0% 1.7% 10 5.8% 100% 5.8% 76 100% 43.9% 43.9% 97 100% 56.1% 56.1% 173 100% 100% 100%

5.3. Moyennes (variables numriques)


Obtenir la moyenne d'une ou de plusieurs variables. Chemin: Analyze Descriptives statistics Descriptives Entrer la variable en question dans Variable(s):

Dans longlet Option, il est possible de demander plusieurs indices statistiques descriptifs concernant la variable slectionne: la moyenne (mean), lcart-type (std deviation), la somme (Sum) et dautres. Ce qui vous intresse le plus souvent est la moyenne (mean), lcart-type (std deviation), la valeur minimale (minimum) et la valeur maximale (maximum).

On peut voir que lchantillon se compose de 34 femmes fumeuses et qu'elles reprsentent 35.1% des femmes de l'chantillon, 56.7% des fumeurs de l'chantillon et 19.7% du total de lchantillon. Remarque : lchantillon est lensemble des participants qui constituent la base des donnes.

29

30

Exemple 1 : Quelle est la moyenne dge des participants qui composent notre chantillon ? SPSS output : Descriptive Statistics N 170 170 Minimum 18.00 Maximum 64.00 Mean 33.8294 Std. Deviation 11.64516 Pour modifier la forme du tableau, diffrentes options peuvent tre slectionnes dans le menu Layout ( vous d'essayer). Ensuite, il est ncessaire de demander que les valeurs indiques comprennent au moins deux chiffres aprs la virgule (autrement SPSS ne vous montre que le chiffre entier de la moyenne, par exemple 6 la place de 6.13). Cliquer sur Statistics, une bote de dialogue souvre.

Age Valid N (liswise)

Le tableau montre que lge moyen des 170 participants est de 33.83 ans. Le plus jeune des participants est g de 18 ans et le plus g, de 64 ans. L'cart-type est de 11.64.

5.4. Obtention de la moyenne et de l'cart type de plusieurs sousgroupes de l'chantillon


But: Obtenir la moyenne d'une variable numrique pour diffrents sous-groupes de participants, donc en fonction d'une variable nominale. Dans le chapitre 5.3, vous avez calcul la moyenne sur lensemble des participants qui constituent lchantillon. Dans ce cas-ci, vous voulez calculer la moyenne de certains groupes : par exemple, quelle est la moyenne dge des femmes et des hommes. Vous pouvez procder de plusieurs manires. Au chapitre 4.4, nous vous avons montr comment diviser vos participants en plusieurs sous-groupes (ou slectionner seulement les participants qui vous intressent). Vous pouvez utiliser cette mthode, mais il y a une autre manire de procder (plus lgante), qui consiste crer des tableaux avec linformation que vous cherchez. Attention : il est question dune variable numrique et dune variable nominale !!!! Chemin : Analyze Tables Basic Tables Entrez la variable numrique dans la fentre Summaries: et la (ou les) variable(s) nominale(s) dans la fentre Across (vous pouvez galement lintroduire dans la fentre down ou separate tables, le rsultat est le mme, uniquement la prsentation est diffrente, vous d'essayer).

gauche vous avez les diffrentes indications quil est possible dobtenir (notamment la moyenne et cart-type). Slectionnez ce que vous dsirez connatre (par exemple mean) et dplacez-le dans la fentre de droite. Slectionnez-le une fois dplac et allez sous Format, sous la fentre de gauche. Choisissez le format ddd.dd et sous Decimals modifier le 0 en 2 (ou plus, comme vous dsirez. Cest le nombre de dcimaux aprs la virgule). Cliquez sur change. Si vous ne cliquez pas sur change, le logiciel ne tient pas compte de la modification). Cette opration est excuter pour chaque information demande. Cest--dire que pour chaque lment que vous dplacez dans cell statistics, vous devez la slectionner et en modifier le format. Cliquez sur Continue et OK une deuxime fois. Exemple 1 : Moyenne dge en fonction du sexe des participants. SPSS output : Homme Std. Deviation 12.56 Femme Std. Deviation 10.80

Mean 35.17

Count 76.00

Mean 32.74

Count 97.00

Les hommes de lchantillon ont en moyenne 35.17 ans alors que les femmes ont en moyennes 32.74 ans.

31

32

6. Statistiques infrentielles
Dans le chapitre 5, il a t question de dcrire vos donnes. Dans cette partie, il est question de tester des hypothses. Avant de prsenter les tests, nous proposons un petit tableau qui vous aidera dcider quelle analyse est la plus adquate selon le type de variables (nominale ou numrique) dont il est question dans votre base de donnes et selon le rle de chacune de celles-ci (variable dpendante ou indpendante). Tableau de dcision statistique : rcapitulation du choix des analyses statistiques VD VI Variable nominale (exemple : sexe, section dtudes) Variable nominale (exemple : sexe, section dtudes) Khi2 (variables de mme type: nominales) Variable numrique (exemple : ge)

Il y a deux faons de se tromper lors d'un test statistique: 1) Il y a la possibilit de rejeter H0 comme fausse alors qu'elle est vraie. On appelle ce risque le risque de premire espce et en gnral on note la probabilit de se tromper dans ce sens. 2) Il y a la possibilit d'accepter H0 comme vraie alors qu'elle est fausse. On appelle ce risque le risque de deuxime espce et en gnral on note la probabilit de se tromper dans ce sens. Dans l'idal, on aimerait bien que ces deux erreurs soient nulles, malheureusement ce n'est pas possible, et il faut alors faire un choix. Ainsi, on peut dcider de dfinir un seuil qui dfinit UN RISQUE RAISONNABLE DE SE TROMPER lorsquon rejette H0 comme fausse. La valeur p prsente par SPSS est calcule en tenant compte de ces deux types derreurs et la communaut scientifique (du moins pour ce qui concerne la psychologie sociale) sest accorde pour considrer que lorsque la valeur du p est infrieure .05 (p < .05), on peut rejeter H0 comme fausse et donc accepter H1 EN PRENANT UN RISQUE RAISONNABLE DE SE TROMPER AINSI FAISANT. Si p < .05 on dit que le test est significatif. Par exemple, vous posez lhypothse selon laquelle 'il y a plus de femmes que dhommes qui tudient la psychologie l'universit (Hypothse 1, H1). Lhypothse nulle, H0, sera quil y a la mme proportion de femmes que dhommes qui tudient la psychologie l'universit. SPSS vous donne une indication du risque que vous avez de vous tromper en rejetant H0 et en acceptant H1. Plus la valeur p est leve (par exemple p = .98), plus vous avez de chances de vous tromper en rejetant H0 comme fausse (dans lexemple, 98%). Notations : Si p > .10 (normalement 0,10 mais en notation scientifique .10), on note ns (Non Significatif). Le risque de rejeter H0 est trop lev et votre hypothse H1 nest pas vrifie. Si .10 > p > .05, on note p = (valeur donne, par exemple .06) et on considre que le teste est tendanciel (pas significatif mais presque). Le risque de rejeter H0 est moins lev que dans le cas prcdent, mais il est toujours trop lev pour les standards. 1) Si .05 > p > .01, on note p < .05. 2) Si .01 > p > .001, on note p < .01. Dans tous ces cas, on dit que le test est significatif : le risque de se tromper en rejetant H0 est raisonnablement petit selon les standards.

ANOVA, t-test (variables de type diffrent : VI(s) nominale(s) et VD numrique) Corrlation (deux variables de mme type: numriques. Toutes les variables sont de mme niveau, il ny a pas de VI ou de VD)) Analyse de rgression (variables de mme type : VI(s) numrique(s) et VD numrique) Analyse factorielle en composantes principales (variables de mme type : numriques. Toutes les variables sont de mme niveau, il ny a pas de VI ou de VD)

Variable numrique (exemple : ge)

Nous ne traitons pas ce cas

ATTENTION TRES IMPORTANT, concernant la logique des tests dhypothses et la notation officielle !!!! Pour chaque test statistique que nous vous prsentons, le logiciel associe une probabilit qui donne une indication du risque que vous prenez en considrant que votre hypothse H0 est fausse. En effet, un test d'hypothse en statistique consiste dans une dmarche qui vous porte rejeter ou accepter une hypothse nulle, sur la base d'un chantillon de donnes. Une notion fondamentale concernant les tests statistiques est la probabilit que l'on a de se tromper. Dans l'idal, on souhaiterait avoir un test qui renvoie toujours le "bon" rsultat. Par exemple on aimerait avoir un test qui choisisse toujours l'hypothse nulle lorsque celle ci est vraie et qui rejette tout le temps l'hypothse nulle lorsque celle ci est fausse. Vous pouvez constater quun test statistique ne teste pas si H1 est vraie, mais si H0 peut tre rejete comme fausse.

3) Si p <. .001, on note p < .01.

6.1. Le Khi carr


Principe du test : comparer une distribution observe (cest--dire la distribution relle des participants) une distribution thorique (cest--dire la distribution quil aurait fallu obtenir si lhypothse dindpendance des variables, H0, tait vraie). Le principe gnral consiste analyser lcart existant entre la distribution thorique et la distribution observe (cest le calcul de la diffrence entre la valeur relle et la valeur thorique pondre). Cela revient tester la relation entre deux variables nominales dans un tableau de contingence (un tableau des frquences). Plus lcart entre les deux distributions est grand, moins la valeur relle est proche de la valeur de lindpendance. Cela signifie quil y a dpendance entre les variables (H1 est accepte).

33

34

Question pose par le test : Est-ce quil existe une vraie relation entre les variables X et Y (H1). Hypothse nulle: il ny a pas de relation entre les variables X et Y (H0). Attention : Le p donne linformation uniquement sur la probabilit de lexistence dune relation entre X et Y, mais pas sur la force de cette relation. Cest--dire que le p trait auparavant vous indique le RISQUE pris en rejetant H0 (qui suppose que le lien entre les deux variables est d au hasard) comme fausse. Par contre, la valeur du p ne vous donne aucune indication de la FORCE du lien entre ces deux variables. Par exemple, un p = .03 signifie que vous pouvez considrer que le lien entre les deux variables nest pas d au hasard, mais cela ne signifie pas que le lien entre deux variable X et Y est plus fort que le lien existant entre deux variables Z et A pour qui p = .05. Conditions de validit du test : Thoriquement, il faut au moins cinq participants dans chaque case du tableau crois de la distribution thorique pour que lanalyse soit valable (le logiciel vous indique si cest le cas). Remarque Dans le test du Khi carr, il ny a pas vraiment de variable dpendante (VD) et de variable indpendante (VI) : les deux variables sont de mme niveau. Le test questionne le lien entre elles. Exemple 1 : Tester s'il existe une relation entre le fait dtre un homme ou une femme (variable X) et le fait de fumer (variable Y, voir chapitre 5.2). Exemple de H1 : les hommes sont plus souvent des fumeurs que les femmes. Chemin : Analyze Descriptive Statistics Cross tabs... Dans Rows, ajouter une des variables (sexe). Dans Columns, ajouter l'autre variable (statut_fum). Que vous placiez le sexe dans columns et statut_fum dans row, ne change rien au rsultat. Dans Cells demandez les pourcentages (row, column and total). CONSEIL : faites leffort de comprendre la manire dont les pourcentages sont organiss par colonne et par ligne. Ce nest pas difficile, mais cest indispensable linterprtation des rsultats ! Dans l'onglet Statistics cochez Chi-square, puis cliquez sur Continue, puis OK.

35

36

SPSS output:
Statut_fum Fumeur Anc_fumeur Sexe Homme Count % within sexe % within statut_fum % of Total Femme Count % within sexe % within statut_fum % of Total Total Count % within sexe % within statut_fum % of Total 26 34.2% 43.3% 15.0% 34 35.1% 56.7% 19.7% 60 34.7% 100% 34.7% 33 43.3% 40.2% 19.1% 49 50.5% 59.8% 28.3% 82 47.4% 100% 47.4% Non_fum fumeur_occ Total 10 13.2% 47.6% 5.8% 11 11.3% 52.4% 6.4% 21 12.1% 100% 12.1% 7 9.2% 70.0% 4.0% 3 3.1% 30.0% 1.7% 10 5.8% 100% 5.8% 76 100% 43.9% 43.9% 97 100% 56.1% 56.1% 173 100% 100% 100%

La valeur du 2 est de 3.34, le degr de libert est de 3 et la probabilit associe ce test est de .34, ce qui est suprieur au seuil de p = .05. Le test nest donc pas significatif et il y a proportionnellement autant d'hommes que de femmes qui fument; 2(3) = 3.34, n.s. Le risque de rejeter H0 en faveur dH1 est trop lev.

6.2. Corrlations de Pearson (variables numriques)


Principe du test : mesurer la force et la direction dune relation linaire entre deux variables numriques X et Y. Par exemple, on peut tester la corrlation entre lge X et lattitude vis-vis de loisirs Y. L'hypothse (H1a) est : plus les gens sont gs et plus ils aiment les loisirs. H0 : pas de lien entre ge et le fait daimer ou pas les loisirs. Tout comme dans le cas du Khi2, il ny a pas de variable dpendante (VD) et de variable indpendante (VI) dans le calcul dune corrlation. Ainsi, une hypothse alternative est (H1b) : plus les gens aiment les loisirs, plus ils sont gs. Le test est le mme : la corrlation ne teste pas leffet d'une variable sur une autre (la causalit), mais uniquement la relation entre elles. La corrlation vous donne une indication du fait que, plus X alors plus Y dans le cas dune corrlation positive ou plus X alors moins Y dans le cas dune corrlation ngative. Description : le coefficient de corrlation (r) peut tre ngatif ou positif, ainsi la relation est ngative (si r a une valeur entre -1 et 0), positive (si r a une valeur entre 0 et 1) ou absente (si r= 0). Donc la valeur de r varie entre 1 et +1. Concepts cls de linterprtation des rsultats : 1) Il ny a pas de rel accord sur la ncessit dvaluer la probabilit (le p dune corrlation), mais nous allons partir du principe que cest important. Si r est significatif (p < .05) alors la relation entre les deux variables nest pas due au hasard et vous pouvez rejeter H0 (cela signifie quil ny a pas de lien entre les deux variables). 2) Une fois que vous avez contrl que la relation entre les deux variables nest pas due au hasard (si le risque de rejeter H0 est raisonnablement petit), vous allez vous intresser la force et la direction de la relation: la valeur du r. Il ny a pas de rgles fixe pour dfinir quand la taille du coefficient de corrlation montre un vrai lien. Les conventions considrent quune corrlation en dessous de .30 est faible, de .30 .50 moyenne et de .50 et plus, forte. Attention : la significativit (valeur de p) dpend fortement du nombre de sujets dans l'chantillon. Plus il y a de sujets, plus la corrlation devient facilement significative. Il se peut quune corrlation de r = .10 soit significative (p < .05), cela ne signifie pas quelle est forte ! Dans ce cas, on parle de force du lien, mais elle ne dpend pas de la valeur du p ! SPSS calcule le coefficient de corrlation (r), annonce leffectif (le nombre de participants pris en compte dans le calcul, n) et teste la significativit du coefficient (p). Exemple 1 : Dans un questionnaire, des chelles ont t passes pour mesurer lgalitarisme, le besoin de statut des individus, la faon dont ils justifient le systme conomique ainsi que leur position politique. H1 est : quelle est la relation entre les rponses des participants ces questions ? Attention : une corrlation teste toujours le lien existant entre deux variables la fois uniquement ! Chemin : Analyze Correlate Bivariate...

On obtient donc le tableau crois avec le nombre et le pourcentage de participants correspondant chaque case. 2 Value Pearson Chi-square Likelihood Ratio Fisher Exact Test Linear-by-Linear Association N of Valid Cases 3.336(a) 3.350 3.274 1.367(b) df 3 3 Valeur du p associ au 2 Asymp. Sig. (2-sided) .343 .341 Exact Sig. (2-sided) .349 .355 .353 .270

.242

173

a 1 cell(12.5%) have expected count less than the minimum. Expected minimum count is 4.39 b the standardized statistic is -1.169

Condition de validit du test (a) : on peut voir quune case ne remplit pas la condition ncessaire au test. Le Expected minimum est infrieur 5 (4.39). Le test risque de ne pas tre fiable.

37

38

SPSS calcule toutes les corrlations possibles deux deux et les prsente sous forme de tableau crois. On ne sintresse donc quaux rsultats en dessus (ou en dessous) de la diagonale, puisque le tableau est symtrique. Vous remarquez que la diagonale prsente des corrlations de valeur r = 1 : une variable est parfaitement corrle avec elle-mme. Dans le tableau, les corrlations significatives sont accompagnes dtoiles *. Plus il y a dtoiles, plus le p est petit. Noubliez pas de regarder la valeur du p en tout cas (habituezvous). Commentons quelques corrlations : 1) On observe une corrlation positive significative entre la position politique (pol) et la justification du systme (just) : r = .475, p < .001. Cette corrlation est assez forte et indique que plus les personnes se disent de droite (lchelle de pol va de 1 = gauche 8 = droite) plus elles justifient le systme conomique (lchelle de justification du systme va de 1 = ne pas justifier 6 = justifier) et inversement, cest--dire que plus les individus justifient le systme, plus ils se disent de droite. En fait, le test ne permet pas de dterminer quelle variable est la consquence de l'autre. 2) On observe une corrlation ngative significative entre la justification du systme et lgalitarisme (egal) : r = -.56, p < .001. Cette corrlation est forte et indique que plus les personnes justifient le systme conomique, moins elles voudraient que tous les groupes soient gaux dans la socit et inversement. 3) Le besoin de statut et la politique ne sont pas corrls : r = .15, ns. Il na pas de relation entre le fait de se positionner gauche ou droite et le besoin de statut de lindividu. Attention : une corrlation ne vous permet pas de dire, par exemple, que cest parce que les participants justifient le systme quils disent tre de droite. Elle vous permet uniquement de dire que les deux mesures sont lies. De plus, linterprtation des corrlations dpend du sens de vos chelles ! Faites attention ce que signifient sur vos chelles des valeurs leves ou basses. Si, par exemple, lge est mesur de 1 100 ans et le fait daimer les loisirs de 1 = aimer pas du tout 10 = aimer tout fait, une corrlation positive signifie que plus les individus sont gs, plus ils aiment les loisirs. Si lchelle des loisirs va de 1 = aimer tout fait 10 = aimer pas du tout, une corrlation positive signifie que plus les gens sont gs, moins ils aiment les loisirs !!!!!

Comme toujours, vous trouvez la liste des variables dans la fentre de gauche. Slectionnez les variables qui vous intressent et passez-les dans la fentre Variables laide de la flche qui se situe entre les deux fentres. Attention, vos variables doivent tre indiques comme tant numriques par SPSS. Si ce nest pas le cas, vous ne pourrez pas les transfrer. Par dfaut, la case Pearson est coche (Kendalls tau-b ou Spearman reprsentent dautres manires de calculer vos coefficients). Nous allons toujours utiliser le test de Pearson, la diffrence avec les deux autres coefficients tant minime. Cliquez sur OK. SPSS output : Correlations pol pol Pearson correlation Sig. (2-tailed) N Pearson correlation Sig. (2-tailed) N Pearson correlation Sig. (2-tailed) N Pearson correlation Sig. (2-tailed) N 1 79 -.467** .000 79 .475** .000 79 .147 .196 79 egal -.467** .000 79 1 80 -.556** .000 80 -.296** .008 80 just .475** .000 79 -.556** .000 80 1 80 .276* .013 80 bes_stat .147 .196 79 -.296** .008 80 .276* .013 80 1 80 Valeur du p associe au r

egal

6.3. Test statistique de la diffrence entre deux moyennes


6.3.1. T-test avec 1 variable numrique et 1 variable nominale deux modalits
But: tester si la diffrence observe entre deux moyennes est statistiquement significative, et donc si cette diffrence ne peut pas tre explique par le hasard. On utilise en gnral le t-test lorsque lon a une ide sur le type de diffrence entre les deux groupes de participants ltude.

just

bes_stat

** Correlation is significant at the 0.01 level (2-tailed) * Correlation is significant at the 0.05 level (2-tailed)

Coefficient de corrlation Nombre de participants degrs de libert du r

39

40

Par exemple, nous pouvons tester lhypothse suivante : les femmes justifient moins le systme conomique que les hommes (H1). Notre VI est donc le sexe (variable nominale 2 modalits) des participants et notre VD est la justification du systme (variable numrique). Chemin : Analyze compare means independant samples T-test...

SPSS Output :

Independent Samples Test


Levenes Test for Equality of Variance 95% Confidence Interval of the Difference Mean Differe nce -.404 Std. Error Differe nce .285

F Just Equal variances assumed Equal variances not assumed 1.04

Sig. .31

t 1.73

Df 78

Sig. (2tailed) .087

Lower -1.06

Upper .074

-1.87

48.85

.067

-.494

.263

-1.02

.035

Dplacez votre VD (pour notre exemple, just) de la liste de gauche vers longlet Test Variable(s) laide de la petite flche du haut. Dplacez ensuite votre VI (pour notre exemple, sexe) de la liste de gauche vers longlet Grouping Variable(s) laide de la petite flche du bas. Le logiciel vous demande alors de dfinir les groupes de votre VI dont vous voulez comparer les moyennes. Cliquez sur Define Groups

Dans ce premier tableau se trouvent les informations qui concernent la significativit de la diffrence entre les deux moyennes. Deux cas sont possibles : 1) Dans la colonne Levenes test for equality of variance le F est non significatif (ici F = 1.04, p = .31, ns) et on regarde les rsultats sur la colonne Equal variances assumed. 2) Dans la colonne Levenes test for equality of variance le F est significatif (il faudrait que p < .05, ce qui nest pas le cas ici) et lon regarde les rsultats sur la colonne Equal variances not assumed. Dans notre exemple, on considre la premire ligne (Equal variances assumed). Dans la colonne t on peut lire la valeur -1.73 et dans la colonne Sig (2-tailed) on peut lire .087. Cela veut dire que la diffrence entre hommes et femmes concernant la justification du systme nest que tendanciellement significative. Les degrs de libert sont nots dans la colonne df, donc on crit t(78) = -1.73, p = .09. Group Statistics

Une petite fentre apparat alors et vous devez spcifier que le groupe 1 correspond la modalit 1 de votre VI (les femmes) et que le groupe 2 correspond la modalit 2 de votre VI (les hommes). just Cliquez sur continue puis OK

sexe Femme Homme

N 57 23

Mean -.1420 .3520

Std. Deviation 1.21024 1.00228

Std. Error Mean .16030 .20899

Dans ce second tableau, vous pouvez lire les effectifs pour chaque groupe (57 femmes et 23 hommes), ainsi que les moyennes correspondantes. On voit que les femmes justifient tendanciellement moins le systme (M = -.14, SD = 1.21) que ne le font les hommes (M = .35, SD = 1.00).

41

42

6.3.2. One Way ANOVA avec 1 variable numrique et 1 variable nominale deux modalits
But: tester si la diffrence observe entre deux moyennes est statistiquement significative, et donc si cette diffrence ne peut pas tre explique par le hasard. Pour cela, l'analyse de variance prend en compte non seulement l'importance de la diffrence des moyennes, mais galement la dispersion des rponses des participants autour de la moyenne (lcart-type). Si cette dispersion est forte, la diffrence entre les moyennes risque de ne pas tre significative, tandis que si les rponses des participants sont proches de la moyenne (faible dispersion), la diffrence entre les moyennes a plus de chances d'tre significative. Contrairement lanalyse prsente au chapitre 6.3.1, ici H1 se limite postuler lexistence dune diffrence entre les groupes (les hommes et les femmes se diffrencient entre eux quant leur adhsion au systme), mais elle ne dfinit pas dans quelle direction va cette diffrence (par exemple, si les hommes adhrent davantage au systme que les femmes). Exemple 1 : H1: les femmes et les hommes justifient diffremment le systme conomique. Notre VI est donc le sexe des participants (variable nominale 2 modalits) et notre VD est la justification du systme (variable numrique). Chemin : Analyze Compare means One Way ANOVA... Slectionnez la case Descriptive. Puis Continue et la deuxime bote de dialogue se ferme. Cliquez sur OK. SPSS Output : Degrs de libert de leffet du sexe Sum of Squares 3.999 104.123 108.122 Degrs de libert de lerreur Afin de comparer les deux moyennes laide dune ANOVA, SPSS calcule un indice appel F. Cest la valeur de ce F et la probabilit p qui lui est associe qui vont nous permettre ou non de vrifier lhypothse H1. Le F qui nous intresse dans le tableau est celui qui est associ notre facteur intergroupe (Between groups). Dans notre exemple, il est de 2,99. Valeur du F pour le sexe p associ au F pour le sexe

ANOVA

Just df 1 78 79 Mean Squares 3.999 1.335 F 2.996 Sig .087

Between Groups Within Groups Total

Entrez la variable numrique dans la fentre Dependent List: et la variable nominale (dans ce cas : sexe) dans la fentre Factor: Puis cliquez sur Option. Une nouvelle bote de dialogue s'ouvre et vous pouvez demander que les statistiques descriptives apparaissent dans l'output.

43

44

Par convention on note F(1,78) = 2.99, p = .087. Soit F (degrs de libert de leffet, degrs de libert de lerreur) = valeur du F pour le sexe, p = valeur de Sig dans tableau (ici F est tendanciel, donc il faut noter la valeur exacte du p). Descriptives Just 95% Confidence Interval for Mean Std. Lower Upper Error Bound Bound Minimum Maximum .16030 -.4631 .1791 -2.62 2.20 .20899 -.0814 .7854 -1.56 1.85 .13080 .2603 .2603 -2.62 2.20

Descriptives pol
Std. Deviation 1.45 1.38 1.48 Std. Error .19 .29 .17 95% Confidence Interval for Mean Lower Upper Bound Bound Minimum Maximum 3.22 3.99 1.00 8.00 3.97 5.16 3.00 8.00 3.55 4.22 1.00 8.00

N Femme Homme Total 56 23 79

Mean 3.60 4.56 3.88

femme homme Total

N 57 23 80

Mean -.1420 .3520 .0000

Std. Deviation 1.12024 1.00228 1.16989

On peut dire qu'il y a un effet significatif de l'appartenance sexuelle des participants sur leur position politique : F(1,77) = 7.34, p < .01. Effectivement, le tableau des moyennes nous indique que les femmes disent voter plus gauche (M = 3.60, SD = 1.45) que ne le font les hommes (M = 4.56, SD = 1.38). Nous rejetons H0 comme fausse en faveur de H1.

Dans le tableau, se trouvent les moyennes des hommes et des femmes sur la VD (dans notre exemple, la justification du systme labellis Just). Vous voyez que les femmes justifient tendanciellement moins le systme (M = -.14, SD = 1.21) que ne le font les hommes (M = .35, SD = 1.00). Dans un rapport, on crit : On trouve un effet tendanciel de l'appartenance sexuelle sur la justification du systme : F(1,78) = 2.99, p = .087. Cet effet nous indique que les femmes justifient moins le systme (M = -.14, SD = 1.21) que les hommes (M = .35, SD = 1.00) mais cette diffrence nest que tendancielle. Exemple 2 : H1 : les femmes et les hommes se positionnent diffremment sur l'chiquier politique. Notre VI est toujours le sexe des participants ltude, notre VD est la position politique. On effectue lanalyse comme prcise plus haut: SPSS output : ANOVA pol Sum of Squares 14.965 157.009 171.975 df 1 77 78 Mean Square 14.965 2.039 F 7.339 Sig. .008

6.3.3. Test statistique de la diffrence entre plusieurs moyennes: ANOVA avec 1 variable numrique et 1 variable nominale plus de 2 modalits
Le cadre exprimental est comparable celui expos dans le chapitre 6.3.2 (une VD numrique et une VI nominale). But : parfois, la variable indpendante nominale a plus de deux modalits (on compare donc entre elles les moyennes de plusieurs groupes). L'ANOVA indique si ces moyennes sont globalement diffrentes entre elles, sans prciser exactement quelles moyennes sont diffrentes ou similaires entre elles. Cest--dire que le test peut signifier que la moyenne1 est diffrente de la moyenne2, mais que la moyenne 2 nest pas diffrente de la moyenne3, alors que la moyenne1 est diffrente de la moyenne3. Mais il peut galement signifier que la moyenne1 nest pas diffrente de la moyenne2, qui, elle, est diffrente de la moyenne3. Par contre, la moyenne1 nest pas diffrente de la moyenne3. Ainsi, une fois avoir vrifi que le test global (le F de lANOVA) est significatif, il faut tester les effets spcifiques. Exemple : H1 : les tudiants universitaires justifient plus le systme lorsquils entrent luniversit que lorsquils en sortent. Notre VI est donc lanne dtude (3 modalits : 1 = premire anne bachelor, 2 = deuxime anne bachelor, 3 = troisime anne bachelor) et notre VD, la justification du systme. H0 : pas de diffrence entre les moyennes. H1 : il y a une diffrence entre au moins deux des trois moyennes.

Between Groups Within Groups Total

45

46

Chemin : Analyze Compare Means One-Way ANOVA...

SPSS Output : ANOVA Just Sum of Squares 4.830 102.347 107.177 df 2 76 78 Mean Squares 2.415 1.347 F 1.793 Sig .173

Between Groups Within Groups Total

Le tableau dANOVA montre que, globalement, la diffrence entre les trois groupes dtudiants nest pas significative : F(2, 76) = 1.79, ns. Ce qui signifie que les moyennes ne sont pas significativement diffrentes entre elles. Comme dans le paragraphe prcdent, entrez votre VI dans Factor: et votre VD dans Dependent list Pour le test des moyennes deux deux, cliquez sur Post Hoc Une nouvelle fentre s'ouvre: Just
Mean 95% Confidence Interval for Mean Std. Deviation 1.17339 1.06543 1.17579 1.17220 Std. Error .17492 .32124 .24517 .13188 Lower Bound -.2108 -.5516 -.9063 -.2748 Upper Bound .4943 .8799 .1106 .2503
Minimum Maximum

Descriptives

N 1 2 3 Total 45 11 23 19 .1418 .1641 -.3978 -.0122

-2.50 -1.45 -2.62 -2.62

2.20 1.44 1.85 2.20

Multiple Comparaisons Dependent variable : just Sheffe Demandez le test de Scheffe, puis cliquez sur Continue. Vous pouvez utiliser d'autres tests post-hoc disponibles dans SPSS, ce qui les diffrencie est la pondration des comparaisons entre les moyennes. (I) anne Sous Option, n'oubliez pas de demander les statistiques descriptives. 1.00 2.00 3.00 (J) anne 2.00 3.00 1.00 3.00 1.00 2.00 Mean Difference (i J) -.02237 .53962 .02237 .56199 -.53962 -.56199 95% Confidence Interval Lower Bound -.9969 -.2031 -.9522 -.5002 -1.2823 -1.6242 Upper Bound .9522 1.2823 .9969 1.6242 .2031 .5002

Std. Error .39032 .29745 .39032 .42541 .29745 .42541

Sig. .998 .200 .998 .422 .200 .422

47

48

Ce tableau (Multiple Comparaisons) nous permet de tester les diffrences entre les moyennes prises deux deux. Par exemple, on voit quentre les 1res annes et les 2mes annes la diffrence entre les deux moyennes est de .022 et que cette diffrence nest pas significative, puisque p > .05 (= .998). Puisque le test global nest pas significatif, vous ne devez normalement pas vous intresser ce tableau. Ici, nous lavons prsent comme exemple. Si le test global avait t significatif, il aurait t possible quune des 3 comparaisons (regardez bien, 3 dentre elles sont des rptitions) ait t significative. Toutefois, le fait que le test global soit significatif, nest pas une garantie dobserver une diffrence significative lors des comparaisons deux deux. Ne paniquez pas : cela est d au fait que le test post-hoc de Scheffe pondre les effets et que cette pondration peut ne pas mettre en lumire certains effets.

6.3.4. Test statistique de la diffrence entre plusieurs moyennes dfinies par plusieurs variables: ANOVA avec 1 variable numrique et plusieurs variables nominales
La variable dpendante (VD) de lanalyse est la variable numrique, alors que les variables indpendantes (VI) sont nominales. La diffrence par rapport au test prsent au chapitre 6.4 est que vous allez valuer leffet de plusieurs VI la fois sur la mme VD et non plus leffet dune seule VI ! But: tester simultanment l'effet de plusieurs variables nominales, ainsi que celui de leurs interactions, sur la variable dpendante. Par exemple, nous cherchons savoir sil existe un effet conjoint du sexe (VI1) et de la position politique (VI2, variable que lon rendra dichotomique : les participants qui se disent de gauche et les participants qui se disent de droite) sur le fait de justifier le systme. Nos deux VI sont donc le sexe et la position politique, toutes deux doivent tre nominales. Notre VD est la justification du systme, variable numrique. En premier lieu il est ncessaire de recoder la variable pol. Cest un recodage et non une transformation mathmatique ! Les tudiants SSP tant plutt gauche, on peut supposer quil ny a pas vraiment de participants qui se dclarent de droite. Il est donc plus intressant de comparer ceux qui sont plus droite ou gauche relativement lchantillon des participants plutt que de crer les catgories de 1 4 et de 5 8, priori selon lchelle utilise (de 1 = gauche 8 = droite). Ce qui signifie que, si lchelle va de 1 8, vous nallez pas crer deux groupes sur la base de lchelle (le groupe de gauche qui regroupe les gens qui ont rpondu de 1 4 et le groupe de droite qui regroupe les gens qui ont rpondu de 5 8), mais vous allez plutt demander spss de sparer les individus en deux groupes gaux (avec le mme nombre de participants) sur la base des rponses de ceux-ci. On procde donc au dcoupage des participants en deux groupes. Pour obtenir deux groupes d'effectifs quivalents, allez sous Descriptive statistics puis Frequencies, slectionnez la variable pol et dplacez-la dans la fentre de droite. Cliquez ensuite sur Statistics, une nouvelle bote de dialogue s'ouvre:

En haut gauche se trouve la phrase cut point for X equal groups . Cochez-la et dans la case vide, ajoutez le nombre de groupes dsir (dans ce cas 2). Cliquez sur Continue et OK. SPSS output : Statistics pol N Percentiles

Valid Missing 50

79 1 4.0000

Pol

49

50

Valid

Missing

Gauche 2 3 4 5 6 7 Droite Total System

Frequency 3 9 23 18 17 5 2 2 79 1

Percent 3.8 11.3 28.8 22.5 21.3 6.3 2.5 2.5 98.8 1.3

Valid Percent 3.8 11.4 29.1 22.8 21.5 6.3 2.5 2.5 100.0

Cumulative Percent 3.8 15.2 44.3 67.1 88.6 94.9 97.5 100.0

Entrez la variable numrique (VD) dans la fentre Dependant Variable: et les variables nominales (VI) dans la fentre Fixed Factor(s). Demandez les Descriptives sous les Options. L'analyse donne la fois les effets principaux comme auparavant (diffrences ventuelles entre hommes et femmes, et entre les participants de gauche et les participants de droite) et, nouveaut, l'effet d'interaction entre les deux variables (par exemple diffrence ventuelle entre hommes et femmes, mais seulement parmi les participants de gauche). Un effet dinteraction reprsente le croisement des effets du sexe et du positionnement politique sur la VD. Par exemple, il se peut quil ny ait pas de diffrence significative entre les hommes et les femmes, ni entre les participants de gauche et les participants de droite, mais que les femmes de gauche se diffrencient des femmes de droite, et les hommes de gauche ne se diffrencient pas des hommes de droite. Plusieurs cas de figure sont possibles. Vous pouvez formuler des hypothses sur les effets principaux et sur les effets dinteraction, cela dpend de votre cadre thorique.

Le premier tableau indique le nombre de rponses valides et que la mdiane se situe la valeur 4. Le deuxime tableau montre que pour la valeur 4 on atteint un pourcentage cumul de 67.1%. Cest--dire que 67.1% des participants a rpondu en dessous du 4 (compris). Nous navons donc pas de valeur qui coupe lchantillon exactement 50%. Nous allons donc subdiviser les participants sur la base de la valeur la plus proche de 50%, savoir la valeur 3 et pour laquelle on atteint un pourcentage cumul de 44.3%. Cela signifie que, pour obtenir deux groupes des participants plus ou moins gaux, il est ncessaire de regrouper les participants qui ont rpondu 1, 2, ou 3 dans une catgorie (1 = participants de gauche), et les participants qui ont rpondu 4, 5, 6, 7 et 8 dans une autre (2 = participants de droite). Bien entendu, ces deux catgories sont relatives la distribution des rponses des participants ltude et elles ne sont pas absolues. Pou crer la nouvelle variable politique dichotomique (voir chapitre 4.2) : Chemin : Transform Recode Into different variable... Maintenant vous pouvez procder l'analyse avec la variable sexe et la nouvelle variable gauche-droite (pol_rec dans l exemple). Chemin : Analyze General Linear Model Univariate

SPSS output : Between-Subjects Factor Value Label Femme Homme Gauche Droite N 56 23 35 44

Sexe

1.00 2.00 Pol_rec 1.00 2.00

Descriptive Statistics
Dependent Variable : Just

Sexe femme

homme

Total

Pol_rec 1.00 2.00 Total 1.00 2.00 Total 1.00 2.00 Total

Mean -.5310 .2482 -.1414 -.6051 .7707 .3520 -.5458 .4382 .0023

Std. Deviation 1.32216 .98739 1.29191 .79771 .77734 1.00228 1.22532 .94213 1.17719

N 28 28 56 7 16 23 35 44 79

51

52

Test of Between-Subjects Effects


Dependent Variable : Just

Tableau moyennes 3.sexe*pol_rec Dependent Variable : just Mean Square 7.229

Source Corrected Model Intercept sexe Pol_rec sexe*pol_rec Error Total Corrected Total

Type III Sum of Squares 21.686 (a) .050 .726 16.779 1.287 86.404 108.091 108.090

df 3 1 1 1 1 75 79 78

F 6.275

Sig. .001 .863 .430 .000 .294

Sexe Femme Homme

.050 .043 .726 .630 16.779 14.564 1.287 1.117 1.152

Pol_rec Gauche Droite Gauche Droite

Mean -.531 .248 -.605 .771

Std. Error .203 .203 .406 .268

95% Confidence Interval Lower Bound Upper Bound -.935 .127 -.156 .652 -1.413 .203 .236 1.305

A R Squared = .201 (Adjusted R Squared = . 169)

Dans le tableau Tests of Between-Subjects Effects, on voit que leffet du sexe est non significatif : F(1,75) = .63, ns. Les hommes et les femmes ne diffrent pas quant leurs rponses sur lchelle de justification. Mme si les valeurs des moyennes ne sont pas exactement les mmes, le test a mis en vidence que cette diffrence nest pas significative. Pour la politique, nous observons un effet significatif : F(1, 75) = 14.56, p <.001. Dans le tableau moyennes 2.pol_rec, on voit que les participants qui indiquent tre de gauche justifient moins le systme (M = -.56; SD = .22) que ceux qui indiquent tre de droite (M = .51; SD = .17). Linteraction entre les deux variables indpendantes n'est pas significative : F(1,75) = 1.11, ns. Donc il ny a pas de diffrences significatives entre le fait dtre un homme qui indique tre de droite, un homme qui indique tre de gauche, une femme qui indique tre de gauche ou une femme qui indique tre de droite, dans les rponses donnes sur la justification. Si linteraction avait t positive, le tableau moyennes 3.sexe*pol_rec nous aurait permis dinterprter cette interaction. Attention, sur les tableaux qui prsentent les moyennes ne figurent pas directement les carts-types. Vous pouvez les obtenir en utilisant la fonction Descriptives Statistics. Topo rapide sur les interactions Parfois, il est plus simple de reprsenter des diffrences entre les groupes par des graphiques, plutt que par des tableaux avec des moyennes. Cest souvent le cas lorsquil est question deffets dinteraction. partir de vos tableaux des moyennes (par exemple le tableau moyennes 3.sexe*pol_rec), vous pouvez raliser les graphiques de vos interactions. Ceux-ci peuvent vous aider interprter vos effets et ils sont ncessaires pour la prsentation de vos rsultats. Nous allons vous proposer des allures de graphiques selon quil y a interaction ou pas. Pour illustrer nos graphiques, nous dirons que nous avons ralis une exprience sur des hommes et sur des femmes, qui taient soumis pour la moiti un entranement une tche verbale et pour lautre moiti non. Nous avons regard ensuite si cet entranement tait bnfique, en fonction du sexe, sur une tche de rapidit de lecture. Les variables indpendantes sont le sexe des participants (variable nominale 2 modalits) et le fait davoir suivi un entranent ou pas (variable nominale deux modalits), la variable dpendante est le score la tche de rapidit de lecture (variable numrique, chelle 1 = pas du tout rapide, 10 = trs rapide).

Les deux premiers tableaux donnent une indication des codes utiliss pour identifier les groupes et de leurs labels (homme ou femme, gauche ou droite) et aussi des moyennes de chaque condition prise en compte, les carts-types et les effectifs (nombre de participants pas case). Ces informations ne sont pas essentielles pour interprter lanalyse. Le premier tableau que vous devez regarder est nomm Tests of Between-Subjects Effects. Dans ce tableau, on trouve les effets de chaque variable indpendante (effets principaux), puis de linteraction (sexe*pol_rec). Donc sur la ligne sexe, vous avez leffet du sexe sur la VD avec le F et le p associ, sur la ligne pol_rec vous avez leffet de la position politique sur la VD (avec F et p), et sur la ligne sexe*pol_rec, vous avez leffet des deux variables conjointes, auquel est associ un F et un p. Dans les tableaux qui suivent vous avez les moyennes correspondant aux effets. Tableau moyennes 1.sexe Dependent Variable : just Sexe Femme homme Mean -.141 .083 Std. Error .143 .243 95% Confidence Interval Lower Bound Upper Bound -.427 .144 -.402 .567

Tableau moyennes 2.pol_rec Dependent Variable : just Pol_rec Gauche Droite Mean -.568 .509 Std. Error .227 .168 95% Confidence Interval Lower Bound Upper Bound -1.020 -.116 .174 .845

53

54

Le plan exprimental se prsente ainsi :

- Cas 2 : Interaction significative, deux sortes

Trois effets (et donc trois types d'hypothses) sont possibles : 1) Effet principal du sexe des participants (par exemple : les femmes lisent plus rapidement que les hommes) 2) Effet principal de lentranement (par exemple : les participants qui ont suivi un entranement lisent plus rapidement des participants qui nont pas suivi cet entranement). 3) Effet dinteraction (par exemple : leffet de lentranement va amliorer la rapidit de lecture chez les femmes et empirer chez les hommes Dans cet exemple, lintrt est de vous montrer comment reprsenter graphiquement leffet significatif dinteraction ou leffet non significatif dinteraction (selon les valeurs des moyennes dans le tableau) - Cas 1 : pas dinteraction significative Dans ce cas, on voit que leffet de lentranement na pas les mmes rpercussions sur les hommes et sur les femmes. Les femmes russissent mieux la tche lorsquelles ne reoivent pas dentranement que lorsquelles en reoivent un, alors que pour les hommes cest exactement linverse. Les 4 conditions exprimentales diffrent les unes des autres. Encore une fois, pour parler de diffrences, il faut que le test de linteraction soit significatif.

partir du moment o les droites sont parallles, il ny a pas dinteraction. Le graphique montre les effets principaux du sexe des participants et de lentranement la tche de lecture. Si vous regardez les points qui reprsentent les femmes et les hommes, vous remarquez que les femmes sont plus rapides que les hommes la tche de lecture. En ce qui concerne leffet de lentranement, les positions des points qui reprsentent ces groupes (et les lignes qui les unissent) montrent quen gnral lorsquil y a entranement les performances des hommes et des femmes sont meilleures. Il va de soi que pour pouvoir dire quil y a diffrence ou pas, il faut que le test soit significatif !!!! Les deux droites pourraient aussi tre confondues ou plates, ce qui indiquerait la disparition dun des deux effets principaux (sexe ou entranement).

Il sagit encore dune interaction, mais cette fois-ci leffet de lentranement nest bnfique que pour les hommes et na pas deffet sur les femmes. Cest un effet simple du sexe.

6.3.5. Test statistique de la diffrence entre deux ou plusieurs moyennes provenant des mmes participants : ANOVA avec 2 variables numriques mesures rptes (VD) et une variable nominale (VD)
Les variables dpendantes (VD) sont des variables numriques, alors que la variable indpendante (VI) est nominale. La spcificit de ce test est que vous allez valuer leffet

55

56

dune VI sur la diffrence qui existe entre deux VD. Cest--dire quil nest plus question de comparer des groupes sur une variable, mais de comparer des groupes sur la diffrence entre deux variables ! But : effectuer une analyse en croisant une mesure rpte (2 variables numriques ou plus mesures sur les mmes participants) et une variable indpendante nominale. Par exemple, on pose deux questions aux participants sur leur opinion par rapport la Suisse : 1) Je suis fier/re de la Suisses dans le domaine de sa russite conomique (nom de la variable var7a, variable dpendante numrique, les individus ont rpondu sur une chelle qui va de 1 = tout fait daccord 5 = pas du tout daccord 2) Je suis fie/re de la Suisse dans le domaine de ses russites dans les arts et la littrature (nom de la variable var7b, variable dpendante numrique, les individus ont rpondu sur une chelle qui va de 1 = tout fait daccord 5 = pas du tout daccord ; cest important que les chelles des VD soient les mmes). On se demande si la position politique (gauche ou droite, variable indpendante nominale, catgorie 1 = gauche et catgorie 2 = droite) a un impact sur les rponses ces deux questions. Les hypothses peuvent tre de diffrente nature, mais nous allons en proposer seulement un exemple. En premier lieu, il est possible de faire lhypothse dune diffrence entre laccord aux deux variables dpendantes. Hypothse 1a (H1a): les participants sont plus fiers de la Suisse dans le domaine de la russite conomique que dans le domaine des arts et de la littrature. La deuxime hypothse porte sur leffet de la variable indpendante sur cette diffrence. Hypothse 1b (H1b) : les participants quindiquent tre de gauche sont plus fiers de la Suisse dans le domaine de lart et de la littrature que dans le domaine de sa russite conomique, alors que les participants qui indiquent tre de droite sont plus fiers de la Suisse dans le domaine de sa russite conomique que dans le domaine des arts et de la littrature. Pour tester lhypothse 1a, il faut crer ce que SPSS appelle un facteur, plus prcisment un facteur intra-individuel. Lappellation intra-individuel signifie que ce sont les mmes participants qui ont rpondu aux VD et que lanalyse compare les participants avec euxmmes par rapport leurs rponses des variables diffrentes. Cest--dire que lanalyse compare la rponse du participant x la question var7a la rponse du mme participant x la question var7b. Cest pourquoi lanalyse cre une variable indpendante additionnelle qui sappelle facteur intra-individuel. Nos VI sont: la position politique (gauche ou droite) et la position des participants sur les deux VD (var7a et var7b) qui est une mesure rpte puisque chaque participant a une valeur pour var7a et var7b.

Chemin: Analyze General Linear Model Repeated Measures...

Il faut d'abord dfinir un facteur, c'est--dire la combinaison des deux VD numriques (mesure rpte), en lui donnant un nom (on peut laisser le nom par dfaut, Factor 1), puis dfinir le nombre de VD numriques qui constituent le facteur (2 ou plus, 2 dans lexemple). Ensuite, cliquez Add afin que le facteur apparaisse dans la fentre en bas, puis Define. Une nouvelle fentre apparat :

Entrez les deux ou plus VD numriques dans la fentre Within-Subjects Variables, puis la variable indpendante nominale dans Between-Subjects Factor(S). Cliquez sur Options pour demander les Descriptive statistics (les moyennes et les carts-types), cliquez sur Continue puis OK.

57

58

SPSS produit plusieurs tableaux, mais seulement ceux qui sont comments nous intressent. SPSS output : Test of Within-Subjects Contrasts Meausure : MEASURE_1 Source Factor 1 Factor 1 * G_D Error (Factor 1) Factor1 Linear Linear Linear Type III Sum of Square 3.675 1.008 12.675 df 1 1 28 Mean Square 3.675 1.008 .453 F 8.118 2.227 Sig. .008 .147

ce cas est le premier tableau qui met en vidence le fait que, oui, il y a une diffrence significative entre la manire de rpondre la var7a et la var7b (les VD), puisque F(1, 28) = 8.118, p < .01. Le rsultat de ce test se trouve sur la ligne factor1. Les moyennes prsentes dans le troisime tableau montrent les participants sont globalement plus fiers de la Suisse par dans ses avances en matire dconomie (M = 2.40 ; SD = .77) quen matire darts et culture (M = 2.83 ; SD = .79). Faites attention lchelle avec laquelle vous avez mesur les variables. En ce qui concerne leffet dinteraction entre le facteur intra-individuel (les VD) et la variable indpendante (ce qui revient dire : leffet de la variable indpendante sur les diffrences entre les rponses aux deux variables dpendantes), ou encore la manire de rpondre ces deux variables dans les deux groupes de participants, il ny a pas de diffrence significative, puisque : F(1, 28) = 2.23, ns. Ce qui signifie que, indpendamment du groupe des participants (gauche ou droite), tous les participants interrogs sont plus fiers des russites de la Suisse dans le domaine conomique que dans le domaine des arts et de la littrature. Vous pouvez rsumer vos rsultats laide dun tableau comprenant les moyennes et cartstypes ou dun graphique. Ainsi, H1a a t confirme , alors que cela na pas t le cas dH1b.

Tests of Between-Subjects Effects Measure : MEASURE_1 Transformed Variable : Average Type III Sum of Squares 364.008 8.333E-03 21.675 Mean Square 1 1 28

Source Intercept G_D Error

df

Sig. .000 .918

6.3.6. Test statistique de la diffrence entre deux moyennes provenant des mmes participants : T-test avec 2 variables numriques mesures rptes
Dans cette analyse, il est question de deux variables dpendantes (VD) numriques, sans aucune variable indpendante. But: tester si la diffrence entre les rponses des mmes participants des variables diffrentes est statistiquement significative. Nous prenons, par exemple, les rponses des participants aux questions var7a et var7b (voir chapitre 6.3.5 pour leur dfinition). Mais nous voulons seulement savoir si les participants ont rpondus diffremment ces deux questions. Cest--dire que la seule hypothse (H1a) qui vous intresse est celle qui dit (toujours selon lexemple) : les individus sont plus fiers des russites de la Suisse dans le domaine de lconomie que dans le domaine de lart et de la littrature. Chemin : Analyze Compare Means Paired-Sample T-Test...

364.008 470.230 8.333E-03 .774 .011

Descriptive Statistics Pol_rec 1.00 2.00 Total 1.00 2.00 Total Mean 2.50 2.20 2.40 2.75 3.00 2.83 Std. Deviation .889 .422 .770 .851 .667 .791 N 20 10 30 20 10 30

var7.a

vr7.b

Dans le premier tableau (Test of Within-Subjects Contrasts), spss prsente les tests de la diffrence entre les deux V et entre les deux VD dans les deux groupes de participants, de gauche ou de droite. Dans le deuxime tableau (Test of Between-Subjects Contrasts), est rsum le test de la diffrence dans les deux groupes de participants de la variable nominale si les deux VD sont agglomres pour en constituer une seule (cest la moyenne des rponses aux deux VD). Ce serait lquivalent dune nouvelle variable qui mesure la fiert des participants envers la Suisse de manire plus gnrale. Dans le troisime tableau (Descriptive Statistics) se trouvent rsumes les moyennes des deux VD selon le groupe des participants. Si on regarde le deuxime tableau, on peut remarquer que si lon agglomre les variables var7a et var7b, il ny pas de diffrence entre les participants qui indiquent tre gauche et les participants qui indiquent tre droite : F(1, 28) = .011, ns. Ce qui nous intresse le plus dans

59

60

Cliquez sur la premire des deux variables numriques (var_7a, par exemple), cliquez sur la seconde variable numrique (var_7b). Les introduire toutes deux dans la fentre Paired Variables: puis cliquez sur OK. SPSS output: T-test Paired Samples Statistics Mean 2.42 2.82 N 33 33 Std. Deviation .792 .769 Std Error Mean .138 .134

questions qui donnent des indications sur le revenu des personnes sans poser la question directement. Par exemple, ils peuvent demander aux participants dindiquer le nombre de pices dans lesquelles ils vivent, le nombre et le type des voitures du foyer, le budget pour les vacances. Ces mesures peuvent tre agrges pour en crer une unique variable qui va sappeler niveau de vie . Mais, est-ce que le nombre et le type des voitures, le nombre de pices et le budget pour les vacances sont bien des sous-dimensions qui indiquent le niveau de vie des participants? Lalpha de Cronbach permet de rpondre cette question et dvaluer dans quelle mesure ces trois variables vont bien ensemble et peuvent en constituer une seule. La valeur de lalpha varie entre 0 et 1 et on considre cet indice comme bon ds quil est de .80 et plus. Entre .60 et .80, il est satisfaisant. En de il devient risqu dutiliser les variables pour en former une unique. Exemple 1 :

Pair1 var7.a var7.b

Paired Sample Correlations N Pair 1 var7.a & var7.b 33 Correlation .233 Sig. .191

Dans un questionnaire, 7 variables sont censes mesurer lattitude des participants envers une vision galitaire de la socit. Pour les participants en question, ces 7 variables vont-elles bien ensemble ? Est-ce que les participants les peroivent comme relevant de la mme sousdimension o ils les considrent comme indpendantes les unes des autres ? Chemin : Analyze Scale Reliability analysis...

Paired Sample T-test


Paired Differences Std. Std. Error Lower Deviation Mean Bound .966 .168 -.74

Pair

Var7.a var7.b

Mean -.39

Upper Bound -.50

t -2.342

df 32

Sig. (2tailed) .026

Toujours dans la mme logique, vous devez avant tout vous intresser la valeur du test de vos variables (dans ce cas : le test de la diffrence entre les deux moyennes), donc au tableau Paired Samples T-test. La valeur du t est de -2.342, et la valeur du p associe est de .026 (criture t(32) = -2.34, p < .05). Ce qui signifie que le test est significatif, et donc que la diffrence entre les deux VD est significative. A ce moment, vous allez regarder les moyennes dans le tableau pour savoir dans quel sens va la diffrence. Vous les trouvez dans le tableau Paired Samples Statistics. On voit que les sujets sont dans lensemble plus fiers de la Suisse dans le domaine conomique (M = 2.42 ; SD = .79) que dans la littrature et dans lart (M = 2.82 ; SD = .77).

6.4. Vrifier la fiabilit interne d'une chelle : alpha de Cronbach


But : lorsquon dispose de plusieurs questions dont on pense quelles sous-tendent la mme ide, il est ncessaire de vrifier quelles peuvent tre rsumes en une seule variable. Sans cela, il serait erron de les associer pour constituer une seule et mme mesure. Gnralement, cette opration porte sur des variables numriques. Cest--dire que, normalement, la cohrence interne mesure si un ensemble de variables vont bien ensemble et sous-tendent le mme concept. Par exemple, il parat quen Suisse le salaire gagn soit un sujet tabou. Cest pourquoi la question quel est votre salaire ? il peut y avoir un taux lev de personnes qui ne rpondent pas. Pour dpasser ce problme, les chercheurs peuvent crer une srie de 61

Slectionnez dans la fentre de gauche les variables qui sont censes aller ensemble (mesurer la mme sous-dimension) et faites-les glisser dans la fentre Items grce la flche entre les deux fentres. Dans Model, le test alpha est slectionn par dfaut. Ne changez rien.

62

Cliquez sur longlet Statistics. Une nouvelle fentre souvre : Scale Mean If Item Deleted 45.3250 45.3125 44.1000 44.6375 44.1875 45.6125 45.7500

Item-Total Statistics Scale Variance if Item Deleted 46.804 48.091 57.635 49.981 58.619 45.582 51.025 Corrected ItemTotal Correlation .669 .643 .474 .712 .433 .568 .397 Cronbachs Alpha If Item Deleted .754 .759 .793 .752 .798 .778 .813

l1 l2 l3 l4 l5 l6 l7

Dans la rubrique Descriptives for, cochez les cases Scale (celle-ci vous donne lindication de la valeur de lalpha pour lensembles des variables que vous avez slectionn) et Scale if item deleted (celle-ci vous donne lindication de la valeur de lalpha si vous enlevez une variables particulire de sa composition). Le fait de cocher cette dernire case vous permet dvaluer la contribution de chaque variable la mesure globale et de pouvoir liminer, le cas chant, celle ou celles qui rduisent la valeur de lalpha de la mesure globale. Cliquez sur Continue puis OK. SPSS output : Reliability Statistics Cronbachs Alpha .805

Ce second tableau indique que la variable qui contribue le moins la mesure globale est la I7. Si elle navait pas t entre dans le test, lalpha aurait t de .813. Ainsi si notre alpha navait pas t bon, nous aurions pu ne pas inclure la variable I7 pour le faire remonter. Ce qui veut dire que lorsquon crera la mesure globale on effectuera la moyenne sans la variable I7. Important: lorsque vous travaillez sur des chelles qui comportent plusieurs variables et qui ont dj t valides par dautres tudes, vous navez pas dintrt enlever des variables de la mesure globale juste pour remonter la valeur de lalpha. Il se peut que le fait denlever une variable modifie la signification du tout! Dans ces cas, une fois que la cohrence interne est satisfaisante (et si cest une bonne chelle, cela est le cas), crez la mesure globale en comprenant toutes les variables. Autrement... posez-vous la question de la validit de lchelle elle-mme ! ATTENTION : lorsquon calcule un alpha, il faut que les chelles de mesure de toutes les variables aillent dans le mme sens! Si votre alpha comporte des valeurs ngatives, cela signifie quil y a des variables qui sopposent dautres dans votre analyse et il faudra probablement inverser certaines dentre elles travers un recodage (voir chapitre 4.2).

N of Items 7

6.5. Analyse en Composantes Principales Exploratoire (ACP)


Description : mthode danalyse exploratoire (qui ne teste pas des hypothses) permettant d'organiser et de synthtiser un ensemble de variables numriques en quelques dimensions (les agrger pour avoir moins de variables tudier). L'analyse montre quelles variables dcrivent et mesurent une mme dimension (appele facteur par lanalyse). Fonction : dtecter des dimensions (par exemple, lorsque vous avez cr une chelle qui mesure notion par plusieurs variables et vous vous demandez si les variables sorganisent comment vous pensez) ou tudier la fiabilit dun modle existant (par exemple, lorsque vous utilisez une chelle qui mesure plusieurs notions laide de plusieurs variables et vous voulez contrler que les variables de lchelle mesurent bien des choses diffrentes). Attention : dans ce dernier cas rappelez-vous que vous ne testez pas un modle, mais vous ltudiez de manire exploratoire. Fondement : le calcul se base sur la matrice des corrlations entre toutes les variables prises en compte dans lanalyse. Condition ncessaire pour mener lanalyse: le nombre de participants doit tre au moins 5 fois suprieur au nombre de variables inclues dans lanalyse et inclure au moins 100 participants. 63 64

Ce premier tableau vous indique que lalpha global des 7 variables est de .805, ce qui reprsente un bon alpha. On peut donc crer une variable unique en calculant la moyenne des 7 variables. Sur Mac et sur des versions plus rcentes de SPSS, la configuration des tableaux est un peu diffrente et vous trouvez la valeur de lalpha tout au fond de lanalyse plutt quau dbut, mais la description est la mme! Puisque la valeur de lalpha est trs satisfaisante, vous pouvez vous arrter l et crer votre indice partir des 7 variables. Pour lexercice, nous considrons galement si la valeur de lalpha peut tre augmente (amliore) en ne prenant pas en compte certaines variables.

Normalement, lanalyse factorielle exploratoire ne teste pas des diffrences entre les groupes de participants, mais sintresse lorganisation des rponses de la totalit des participants. Concepts cls de linterprtation des rsultats: 1) La relation entre une variable et un facteur est exprime par un indice de saturation allant de -1 1. Les variables qui saturent fortement sur un facteur (saturation proche de 1 ou de -1) sont celles qui rsument (reprsentent) le mieux ce facteur. Une saturation ngative indique que la variable en question soppose aux autres variables qui saturent fortement sur le mme facteur, mais avec une saturation de signe oppos (la signification dun facteur est interprter intuitivement ou laide dune thorie). Normalement, ce qui vous intresse ce nest pas la variable individuelle qui sature sur un facteur, mais plutt lensemble de variables qui saturent sur ce facteur; linterprtation porte sur lensemble des variables qui saturent sur un facteur. Le facteur est une sous-dimension qui sous-tend les rponses des participants ces variables et qui organise leurs rponses. Comme dans lexemple du salaire, le niveau de vie est la sous-dimension qui sous-tend la rponse ces variables. 2) Il y a trois types de facteurs : 1) facteur gnral : toutes les variables entres dans lanalyse saturent sur ce facteur et la valeur des saturations est de mme signe, 2) facteur unipolaire : toutes les variables qui saturent sur le facteur sont positives ou ngatives, ou 3) facteur bipolaire : une partie des variables qui saturent sur le facteur prsente une saturation positive, alors quune autre partie prsente une saturation ngative. Attention : la valeur de la saturation (positive ou ngative) peut dpendre de lchelle de mesure des variables !!!! Il est toujours prfrable que les chelles de mesure des variables aillent dans le mme sens , cela simplifie linterprtation des facteurs. 3) Communalit (communality): la variance relative une variable qui est explique par les facteurs retenus et qui est de 1 au maximum (lensemble des facteurs mis en vidence par lanalyse expliquent le 100% de la variabilit des rponses des participants). Il faut quelle ne soient pas trop basses (< .5). Si cest le cas, cela signifie que votre analyse explique trs peu de cette variable. 4) Valeur-propre (Eigenvalue): la variance totale explique par le facteur. Si cette valeur est infrieure 1, cela signifie que le facteur explique moins quune seule variable; il est donc sans intrt. Options : SPSS vous permet de limiter le nombre des facteurs que vous dsirez retenir. Si vous ne limitez pas le nombre de facteurs, SPSS utilise un critre statistique comme la rgle de Kaiser, pour ne pas retenir un nombre trop lev de facteurs. La rgle de Kaiser retient tous les facteurs qui ont une valeur propre suprieure 1 (eigenvalue). Logique des facteurs : le logiciel organise les variables retenues pour lanalyse en facteurs et indique le pourcentage de variance des rponses des participants qui est explique par chacun de ces facteurs. Le premier facteur sortant de lanalyse est celui qui explique le plus de variance dans les rponses des participants et le dernier est celui qui en explique le moins. Pour faciliter linterprtation des facteurs, SPSS vous donne la possibilit doprer une rotation sur vos rsultats. Une rotation maximise les saturations de certaines variables sur les facteurs. Il existe diffrents types de rotation : 1) rotation orthogonale (par exemple VARIMAX) qui produit des facteurs indpendants les uns des autres (pas lis entre eux) et qui est la mthode la plus utilise, 2) rotation oblique (par exemple OBLIMIN) qui produit des facteurs dpendants les uns des autres (lis entre eux).

Exemple 1: Nous avons utilis une chelle destime soi qui est compose de 20 variables et se composant thoriquement 3 sous-dimension: 1) une sous-dimension estime de soi sociale , 2) une sous-dimension estime de soi performance et 3) une sous-dimension estime de soi physique (chelle 1 = pas du tout, 6 = tout fait). Est-ce que nous retrouvons ces trois dimensions dans les rponses de notre chantillon de participants? Chemin : Analyze Data reduction Factor

Slectionnez dans la fentre de gauche toutes les variables de l'chelle (pour nous : de est1 est20) et faites-les passer dans la fentre Variable l'aide de la flche du milieu. Dans Descriptives, slectionnez la case KMO. Cliquez sur Continue.

Le KMO vous indique si les rsultats de lACP sont fiables. Il doit tre suprieur .600 pour que ce soit le cas, autrement cela signifie quil ny a pas de relle organisation dans les rponses des participants.

65

66

Dans Extraction

Dans Options

Slectionnez Missing Values : exclude cases pairwise (pour dterminer le traitement des donnes manquantes). Dans Coefficient Display Format, cochez Sorted by size : les variables seront organises selon la valeur de leurs saturations sur chaque facteur en ordre dcroissant, ce qui en facilite linterprtation. Cliquez sur Continue, puis sur OK. SPSS output: Dans longlet Extract : on peut choisir un nombre de facteur que lanalyse doit retenir en utilisant loption Number of factors si l'on a une hypothse/une ide de nombre de sousdimensions. Si ce nest pas le cas, on maintient le critre de slection par dfaut (Eigenvalue > 1). Dans lexemple, vous pouvez slectionner trois facteurs, puisque lchelle utilise comporte trois sous-dimensions. Laissez les autres cases enchanges. Cliquez sur Continue. Dans Rotation KMO and Bartletts Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy Barttletts Test of Sphericity Approx. Chi-Square Df Sig. .764 1006.168 190 .000

Total Variance Explained


Initial Eigenvalues % of Varian ce 29.462 13.281 8.588 6.996 5.098 4.728 4.211 4.100 3.550 3.359 3.131 2.737 2.084 1.964 1.697 1.536 1.158 1.057 .651 .613 Extraction Sums of Squared Loadings % of Varian Cumul Total ce ative % 5.892 29.462 29.462 2.656 13.281 42.743 1.718 8.588 51.331 1.399 6.996 58.327 1.020 5.098 63.425 Rotation Sums of Squared Loadings % of Varian Cumul Total ce ative % 3.221 16.107 16.107 2.942 14.709 30.816 2.681 13.405 44.220 1.978 9.892 54.112 1.863 9.313 63.425

Dans l'onglet Method, cochez Varimax. Cliquez sur Continue.

Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Total 5.892 2.656 1.718 1.399 1.020 .946 .842 .820 .710 .672 .626 .547 .417 .393 .339 .307 .232 .211 .130 .123

Cumul ative % 29.462 42.743 51.331 58.327 63.425 68.153 72.364 76.464 80.014 83.373 86.504 89.241 91.325 93.289 94.986 96.522 97.680 98.737 98.387 100.00

67

68

SPSS output: Le premier tableau vous indique la valeur du KMO. Ici, KMO =.76, l'analyse est donc fiable. Le tableau Total Variance Explained, montre que lanalyse retient 5 facteurs (si on nintroduit pas des limitations dfinies priori et sur la base de la valeur propre). La premire srie de trois colonnes (de gauche droite) met en vidence tous les facteurs qui sont sortis de lanalyse. Leur valeur propre se trouve tout gauche (Total), suivie par le pourcentage de variance dans les rponses des participants qui est explique par chaque facteur (% of variance) et par la variance cumule chaque fois qu'un facteur sajoute aux prcdents (cumulative %). La srie de trois colonnes du milieu contient les mmes informations, limites aux facteurs retenus (ici, selon leur valeur propre suprieure 1). Attention: ces valeurs font rfrence aux facteurs AVANT ROTATION. Si vous avez appliqu une rotation vos donnes et que vous allez prendre en compte les rsultats qui drivent de celle-ci, vous devez vous intresser la srie de trois colonnes de droite. Remarquez que chaque facteur explique de moins en moins de variance, mais complique de plus en plus linterprtation des rsultats. Il faut que vous tranchiez entre une interprtation qui rsume le plus de variance possible et le fait de ne pas compliquer le modle en incluant trop de facteur. Dans lexemple, les 5 facteurs expliquent 63.42% de la variance des rponses des participants. Pour rduire le nombre de facteurs, nous pouvons refaire lanalyse et la forcer ne mettre en vidence que trois facteurs, puisque thoriquement lchelle comporte 3 sous-dimensions (il faut toujours faire rfrence la thorie dans ces cas): Le premier tableau est strictement le mme. KMO and Bartletts Test Kaiser-Meyer-Olkin Sampling Adequacy Barttletts of Sphericity Measure of .764

Test Approx. Chi-Square df Sig.

1006.168 190 .000

Le tableau qui rsume les informations concernant les facteurs est semblable celui de la premire analyse, mais il y a quelque diffrence :

Total Variance Explained


Initial Eigenvalues % of Varian ce 29.462 13.281 8.588 6.996 5.098 4.728 4.211 4.100 3.550 3.359 3.131 2.737 2.084 1.964 1.697 1.536 1.158 1.057 .651 .613 Extraction Sums of Squared Loadings % of Varian Cumul Total ce ative % 5.892 29.462 29.462 2.656 13.281 42.743 1.718 8.588 51.331 Rotation Sums of Squared Loadings % of Varian Cumul Total ce ative % 3.699 18.495 18.495 3.470 17.350 35.845 3.097 15.486 51.331

Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Total 5.892 2.656 1.718 1.399 1.020 .946 .842 .820 .710 .672 .626 .547 .417 .393 .339 .307 .232 .211 .130 .123

Cumul ative % 29.462 42.743 51.331 58.327 63.425 68.153 72.364 76.464 80.014 83.373 86.504 89.241 91.325 93.289 94.986 96.522 97.680 98.737 98.387 100.00

Dans ce nouveau tableau, on retrouve bien 3 facteurs comme demand. Ces trois facteurs expliquent eux trois, 51.33% de la variance, ce qui est moins que lors de lanalyse prcdente qui avait retenu 5 facteurs. Ainsi, en contraignant lACP limiter la solution 3 facteurs, on perd de linformation. Le prcdent modle tait plus complexe, mais celui-ci explique moins de variance. Le choix dun modle plutt quun autre se justifie sur la base de la thorie. 69 70

Le tableau montre que, aprs rotation VARIMAX, le premier facteur explique 18.5% de la variance, le second explique 17.3% et le dernier 15.5%. Pour ce qui est de linterprtation des facteurs, lanalyse produit dautres tableaux. Component Matrix(a) Component 1 2 3 est15 .776 .047 .152 est11 -.730 .165 .053 est12 -.703 .387 .368 est4 .699 .056 .267 est1 -.697 .270 -.011 est10 .602 .270 .181 est3 -.600 .326 .506 est19 .579 .183 .127 est16 .564 -.315 -.314 est20 .535 .364 .097 est14 -.511 .142 -.446 est8 .487 .233 .020 est6 -.322 .236 -.300 est17 .354 .776 -.251 est13 .395 .731 -.232 est2 .390 .650 -.018 est9 -.341 .367 -.039 est7 .425 -.238 -.569 est5 .508 -.216 .518 est18 .187 -.165 .217 Extraction Method : Principal Component Analysis. a 3 components extracted Ce tableau (Component Matrix(a)) donne le dtail des variables qui composent chaque facteur avant la rotation. En gnral, si vous avez opr une rotation vous ne consultez pas ce premier tableau, mais faites attentions de ne pas linterprter la place de celui qui suit!

Rotated Component Matrix(a) Component 2 -.021 -.054 .050 -.096 -.126 -.187 -.177 .844 .842 -.736 -.692 .555 .543 .352 -.076 .090 -.228 -.354 .112 -.015

est17 est13 est2 est20 est10 est19 est8 est12 est3 est7 est16 est11 est1 est9 est5 est14 est4 est15 est6 est18

1 .851 .836 .757 .599 .555 .473 .468 -.100 -.089 .074 .077 -.282 -.174 .110 .086 -.152 .430 .472 .026 -.042

3 -.257 -.205 -.017 .247 .380 .355 .205 -.238 -.055 -.119 .178 -.418 -.484 -.342 .749 -.670 .571 .528 -.486 .365

Ce tableau (rotated component matrix(a)) est lire comme indiqu sur celui qui suit (que nous avons remani). Component 2

est17 est13 est2 est20 est10 est19 est8 est12 est3 est7 est16 est11 est1 est9 est5 est14 est4 est15 est6 est18

1 .851 .836 .757 .599 .555 .473 .468

.844 .842 -.736 -.692 .555 .543 .352 .749 -.670 .571 .528 -.486 .365 72

71

Cest--dire que les variables qui saturent le plus sur le premier facteur sont: est17, est13, est2, est20, est10, est19 et est8. La variable est12 sature davantage sur le 2me que sur le 1er facteur, cela veut dire que lon passe la constitution du 2me facteur. Les variables pour ce second facteur sont : est12, est3, est7, est16, est11, est1 et est9. La variable est5 sature davantage sur le 3me facteur que sur le 2nd, donc on passe la constitution du 3me facteur compos des variables : est5, est14, est4, est15, est6, est18. On peut voir que, pour les facteurs 2 et 3, les saturations des items sont positives et ngatives : ce sont des facteurs bipolaires. Cela signifie par exemple que les variables est7 et est16 sopposent aux variables est12, est3, est11, est1 et est9. Dans cet exemple, lanalyse tait mene sur une chelle qui fait rfrence un modle thorique, et il ne nous reste plus qu valuer la concordance entre nos rsultats et lchelle originale. Sil ny avait pas eu de modle pralable (les trois sous-dimensions de lchelle), il faudrait chercher quoi se rapportent nos facteurs et leur donner un nom. Il ny a pas de rgle pour faire cela, le nom que vous donnez au facteur (qui fait rfrence la sous-dimension que vous supposez quil mesure) dpend de votre thorie et du contenu (signification) des variables qui le constituent. Remarques 1) Souvent, il est plus clair de prsenter lanalyse en composantes principales sous forme de tableau (du mme type que le tableau rotated component matrix) 2) Si possible, donnez la formulation complte des variables dans le tableau (ou au moins les tables), pour faciliter linterprtation des facteurs

Voir figure 1 pour la droite de rgression). Ainsi, en termes de corrlations, cela signifierait quil y a une corrlation positive entre les deux variables. Lanalyse de rgression permet en addition de tester la causalit (quelle variable a un effet sur quelle variable), ce qui nest pas le cas de lanalyse des corrlations. Figure 1. Reprsentation graphique du nuage de points et de la droite de rgression dans le cas dune variable X (VI) qui prdit une variable Y (VD)
Attention En cours

y = a + bx
y3 _ y y2 y1

6.6. Analyse de rgression linaire


Description : lanalyse de rgression linaire fonctionne sur le mme principe que lanalyse des corrlations. Cest--dire que cette analyse permet de quantifier le type (positif ou ngatif) et la force du lien (valeur du r) existant entre deux ou plusieurs variables. La diffrence principale entre lanalyse de rgression et lanalyse des corrlations est que, dans le cas de lanalyse de rgression, il est question dune variable dpendante (la VD, note Y dans lquation de rgression) et de plusieurs variables indpendantes (les VI, notes Xi dans lquation de rgression). Ainsi, lanalyse de rgression teste limpact dune ou plusieurs de VI sur une VD (on introduit donc lide de causalit). Principe : partir du nuage de points (voir figure 1) obtenu sur la base des corrlations entre les variables incluses dans lanalyse, SPSS dfinit une droite rsumant le mieux possible ce nuage. Cette droite est appele droite de rgression. Par rsumant le mieux , on entend que la somme des distances, au carr, entre chaque point sur le graphique et la droite est la plus petite possible. Par exemple, si on tudie dans quelle mesure le nombre dheures de sommeil en dehors des cours (VD ou X) prdit lattention des tudiants en cours (VD ou Y), chaque tudiant interrog sera reprsent par un point sur un graphique regroupant ces deux informations (nombre dheures de sommeil en dehors des cours et attention en cours). Lhypothse H1 est alors que plus le nombre dheures de sommeil en dehors des cours augmente, plus lattention en cours augmente. La nouveaut de lanalyse de rgression par rapport lanalyse des corrlations est que la premire permet aussi de tester le fait que ce sont les heures de sommeil en dehors des cours qui causent laugmentation de lattention en cours, et non pas linverse. Nous faisons donc lhypothse dun lien linaire positif entre ces deux variables, lien linaire qui sexprime par une droite de rgression rsume par lquation Y = a + b*X (a est une valeur constant calcule par lanalyse, cest lintercept). 73

Heures de sommeil

Comme le montre la figure ci-dessous, un nombre dheures de sommeil en dehors des cours (qui reprsentent laxe des x) correspondent des points qui nont pas la mme ordonne lorigine, cest--dire des valeurs y qui reprsentent lattention en cours (y1, y2 et y3). Par exemple : plusieurs tudiants dorment le mme nombre dheure en dehors des cours, mais ils nont pas le mme niveau dattention en cours. De mme, un nombre dheures en dehors des cours x correspond une valeur dattention sur la droite de rgression (y = a + b*Xi). Le rle de SPSS sera de trouver la droite permettant de minimiser lcart entre les trois points y1, y2 et y3 et la droite elle-mme. Cela signifie que la somme des diffrences y1-y, y2-y et y3y au carr est la plus petite possible. Dans cet exemple, nous avons utilis uniquement deux variables qui dfinissent un espace deux dimensions. Lanalyse de rgression sintresse ltude de n variables X (ou VI) qui prdisent la variable Y (ou VD) et qui dfinissent un espace n + 1 dimensions, mais le principe prsent dans la figure 1 reste le mme. Concepts cls de linterprtation des rsultats: 1) Pour chaque VI, le logiciel calcule un coefficient qui correspond la pente de la droite de rgression. Par exemple, si vous avez 3 VI, cest--dire X1, X2 et X3, lquation de la droite de rgression sera Y = a + 1*X1 + 2*X2 + 3*X3. 1 est un indice de la force de la relation entre X1 (une des VI introduites dans lquation de rgression) et Y (la VD), une fois que le lien entre Y (la VD) et les autres Xi (dans ce cas X2 et X3, les autres VI introduites dans lquation de rgression) est maintenu constant. Lorsque le coefficient est standardis, il varie entre -1 et +1, il est not B et appel Bta. Les valeurs des coefficients nonstandardiss sexpriment dans les units originales dans lesquelles les variables ont t mesures, alors que les valeurs des coefficients standardiss ne dpendent pas des units de 74

mesure. Pour pouvoir comparer directement limpact respectif des diffrentes VI sur la VD, nous vous proposons donc de considrer les coefficients standardiss Bta 2) chaque (ou Bta, si standardis) correspond un t (qui correspond au t de student du chapitre 6.3.1) et qui indique si le Xi (ou VI) auquel il est associ prdit significativement Y (ou VD). Plus prcisment, la probabilit p associe au t vous dit si le Bta est significatif et donc si la VI (X) prdit la VD (Y). La valeur du Bta vous donne alors une ide de la force du lien entre la VI et la VD. Le principe est le mme que dans linterprtation des corrlations (voir chapitre 6.2) 3) Une autre mesure est importante : lindice associ la puissance de lanalyse elle-mme. Il sagit du R2 (appel aussi R square par SPSS). Cet indice donne une indication du pourcentage de variance totale de la VD explique par la ou les Xi introduites dans la droite de rgression (lanalyse). La valeur du R2 dpend du nombre de participants inclus dans ltude. Ainsi, il est prfrable de prendre en compte le R2 ajust (appel adjusted R square par SPSS). Plus la valeur du R2 ajust est leve, plus les Xi sont pertinentes pour expliquer Y (la VD) 4) la valeur du R2 ajust est associ un F (identique au F de Fischer du chapitre 6.3.2) qui indique si le R2 ajust, cest--dire la proportion de variance explique par lanalyse, est significative. En dautres termes, si la variance de Y qui est explique par lanalyse ne peut tre pas tre attribue au hasard, mais aux Xi Type de variables prises en compte: sagissant du mme principe que les corrlations, lanalyse de rgression peut tre applique uniquement des variables numriques. Cependant, des variations sont possibles. Par exemple, moyennant certaines transformations, des variables nominales peuvent tre introduites dans la droite de rgression, mais les analyses spcifiques qui prennent en compte cette possibilit dpassent le but de ce fascicule. Pour rsumer : 1) Lanalyse de rgression porte sur une VD (Y) prdite par une ou plusieurs VI (Xi) 2) En principe, les variables introduites dans lanalyse de rgression sont numriques. 3) Premire tape de lanalyse : vrifier que les Xi introduites dans la droite de rgression (lanalyse) prdisent de manire significative la variance de Y. Cest--dire vrifier que la valeur du F associe au R2 ajust soit significative. Si cela nest pas le cas, la droite de rgression ne prdit pas Y (aucune Xi ne prdit Y) 4) Seconde tape de lanalyse : vrifier la significativit du Bta associ chaque Xi (VI). Si la valeur du t est significative, examiner la valeur du coefficient Bta, qui vous donne une indication de la direction (positif ou ngatif) et de la force du lien entre Xi et Y une fois que la valeur des autres Xi est maintenue constante Exemple1 1 : Rgression linaire avec une X (VI) Afin de tester lhypothse (H1) selon laquelle le nombre dheures de sommeil en dehors des cours (X) prdit positivement lattention des tudiants en cours (Y), nous avons interrog 100 tudiants. Dans ce cas, H0 est que le nombre dheures de sommeil en dehors des cours ne prdit pas lattention en cours. Nous avons demand ces 100 tudiants le nombre dheures par jour quils dorment en moyenne en dehors des cours (X ou VI numrique) et nous avons
1

dfini un indice dattention en cours (Y ou VD numrique) qui a t mesur sur une chelle qui a va de 1 = aucune attention 6 = beaucoup dattention. Dans SPSS, nous avons une variable h_som (qui reprsente une colonne dans la fentre variables view) qui correspond au nombre dheures de sommeil en dehors des cours de chaque tudiants et une variable ATT et qui correspond lattention en cours du mme tudiant. Ainsi, lquation de la droite de rgression est ATT = a + *h_som. Procdure suivre afin de raliser lanalyse de rgression linaire dans SPSS : Chemin : Analyze Regression Linear

Slectionnez dans la fentre de gauche la variable ATT et faites-la passer dans la fentre Dependent droite (Y ou VD). Slectionnez gauche la variable h_som et faites-la passer dans la fentre gauche Independent(s) (X ou VI). Cliquez sur longlet statistics...

Les exemples proposs dans ce chapitre ont pris en compte des variables centres. Pour ce faire, nous avons soustrait la moyenne gnrale de la variable spcifique des valeurs de celle-ci. Opration compute, quation varx Moyenne de x. Pour cette raison, les chiffres sur les graphiques peuvent tre ngatifs.

75

76

Par dfaut les cases Estimates et Model fit sont slectionnes (gardez-les slectionnes). Cochez la case Collinearity diagnostics. Cliquez sur Continue. Vous retombez alors su la premire fentre. Cliquez sur OK. SPSS affiche alors la fentre d'output. 3 tableaux sont importants pour analyser les rsultats :

Model Summary Adjusted R Square .254 Std. Error of the Estimate 1.18240

Model 1

R R Square .512(a) .262

Dans le troisime tableau, on trouve les coefficients de rgression (B et Bta). Celui qui nous intresse concerne notre variable X h_som (dernire ligne du tableau). Pour cette variable, le B est gal .39 et le Bta (standardisez Coefficients) correspondant est de .51. Ces valeurs sont associes un t(98) = 5.90; p < .001 (voir chapitre 6.3.1), qui indique que le nombre d'heures de sommeil en dehors des cours influence significativement l'attention pendant les cours. Le Bta est positif, ce qui signifie que plus le nombre d'heures de sommeil en dehors des cours augmente, plus l'attention pendant les cours augmente. Le tableau indique aussi les tolrances pour chaque X (ou VI). La tolrance est un indicateur de la corrlation existante entre la X en question et les autres Xi. Pour que les rsultats de lanalyse de rgression soient fiables, il faut que les Xi soient peu corrles entre elles (dans le cas contraire, il y a un problme de multicollinarit). La valeur de la tolrance doit tre suprieure .60. Dans lexemple, la valeur de la tolrance associe h_som est 1 (tolrance parfaite) puisque lanalyse ninclut quune seule X et elle ne peut pas tre corrle avec dautres Xi. Les rsultats peuvent tre rdigs de la faon suivante: le nombre d'heure de sommeil en dehors des cours prdit de manire positive l'attention des tudiants pendant les cours (R2 ajust = .26 ; F(1,98) = 34.78, p < .001). Plus les tudiants dorment en dehors des cours, plus ils sont attentifs en cours (Bta = .51; t(98) = 5.90, p < .001). Exemple 2 : Rgression linaire 2 Xi (VI)

a Predictors: (Constant), h_som

Les heures de sommeil en dehors des cours expliquent le 25% de lattention en cours (de la variance de Y ou VD).

Le R2 peut tre influenc par le nombre de participants inclus dans ltude. Pour disposer dune estimation de la variance de Y (ou VD) explique par X (la VI) qui prend en compte un nombre constant de participants, on considre le R2 ajust.

ANOVA(b) Sum of Squares 48.629 137.011 185.640

Model 1 Regression Residual Total

df 1 98 99

Mean Square 48.629 1.398

F 34.783

Sig. .000(a)

a Predictors: (Constant), h_som b Dependent Variable: ATT

Valeur du F

Le principe est exactement le mme que lorsqu'il n'y a qu'une X. La diffrence se situe dans le fait que l'on rentre deux X dans la fentre Indepentents au lieu d'une. Admettons que l'on veuille tester l'impact des heures de sommeil en dehors des cours sur l'attention en cours, mais aussi celui des heures de sommeil effectues en cours (variable som_cours dans la base de donnes), indpendamment des heures de sommeil en dehors des cours. Notre premire hypothse (H1a) est que le nombre d'heures de sommeil en dehors des cours (X1) augmente l'attention en cours (Y). Notre deuxime hypothse (H1b) est que le nombre dheures de sommeil pendant les cours (X2) diminuent l'attention en cours. Effectivement, on peut penser que plus les tudiants dorment en cours, moins ils sont attentifs. Chemin : Analyze Regression Linear

Ce second tableau est le tableau d'ANOVA associ au R2 ajust. Il indique un F significatif: F(1, 98) = 34.78; p < .001 (voir chapitre 6.3.2). Cela signifie que la VI (X) introduite dans lanalyse (dans ce cas, les heures de sommeil en dehors des cours) prdit de manire significative Y (ou la VD ; dans ce cas, lattention en cours). Ainsi, les 25% de part de variance de lattention en cours qui est explique par le nombre d'heures de sommeil en dehors des cours ne sont pas attribuables au hasard. Le nombre d'heures de sommeil en dehors des cours est donc une variable pertinente pour expliquer l'attention en cours.

Coefficients(a)
Model Unstandardized Coefficients Std. B Error 3.060 .118 .391 .066 Standardized Coefficients Beta .512 25.880 5.898 .000 .000 Collinearity Statistics
Tolerance VIF

Sig.

Constant h_som

1.000

1.000

a Dependent Variable: ATT

Rien ne change aux autres rglages par rapport l'analyse prsente prcdemment.

77

78

Aprs avoir effectu ces rglages et cliqu sur ok pour lancer l'analyse, on obtient l'output suivant:

Model Summary Adjusted R Square .485 ANOVA(b) Mod el 1 Sum of Squares 91.501 92.999 184.500 Mean Square 45.750 .979 Std. Error of the Estimate .98941

Model 1

R R Square .704(a) .496

nouvelle variable l'aide du compute, qui correspond simplement la multiplication des deux Xi (dans le compute rentrer dans la ligne de calcul: h_som * som_cours) et que nous appelons inter. Pour rsumer, lanalyse comprend trois VI : h_som, som_cours et inter. Notre hypothse concernant linteraction entre ces deux variables est que le nombre d'heures de sommeil en dehors des cours influence davantage l'attention en cours lorsque la proportion d'heures de sommeil ralises en cours est faible (H1c). On ralise l'analyse de la mme manire que dans les deux exemples prcdents. Dans la fentre principale, on rentre les deux Xi et l'interaction dans Independents. La VD (Y) est toujours introduite dans Dependent.

a Predictors: (Constant), som_cours, h_som

df 2 95 97

Regression Residual Total

F 46.735

Sig. .000(a)

a Predictors: (Constant), som_cours, h_som b Dependent Variable: ATT

Coefficients(a)
Unstandardized Coefficients Std. Error B 1 (Constant) 3.060 .100 h_som .478 .057 som_cours -.596 .089 a Dependent Variable: ATT Mode l Standardize d Coefficients Beta .625 -.499 30.618 8.349 -6.665 .000 .000 .000 Collinearity Statistics Tolerance .947 .947 VIF 1.056 1.056

Sig.

On obtient l'output suivant:


Model Summary

L'analyse des tableaux est identique, si ce n'est que deux effets sont commenter. Ainsi, on observe que nos deux Xi expliquent 49% de la variance de Y et que cette proportion est significative, F(2, 95) = 46.73, p < .001. Comme prcdemment, le nombre d'heures de sommeil en dehors des cours influence positivement lattention en cours (Bta = .63, t(95) = 8.34, p < .001). Conformment notre hypothse, nous trouvons galement que les heures de sommeil pendant les cours diminuent l'attention en cours (Bta = -.50, t(95) = -6.66, p < .001). Ainsi plus les tudiants dorment pendant les cours, moins ils sont attentifs pendant les cours. Nous observons que la tolrance est de .95 pour les deux X, ce qui est largement suprieur .60. Les deux X ne sont donc pas trop lies entre elles et les rsultats de lanalyse sont fiables. Exemple 3 : Rgression linaire avec 2 X et linteraction entre elles X (3 variables indpendantes sont incluses dans lquation) Contrairement une analyse de variance ANOVA, l'interaction entre deux Xi n'est pas calcule automatiquement dans une analyse de rgression (voir chapitre 6.5). Avant de procder l'analyse, il faut donc crer linteraction entre les deux Xi. Pour cela, on cre une 79

Adjusted R R R Square Square .796(a) .634 .623 a Predictors: (Constant), inter, h_som, som_cours Model 1

Std. Error of the Estimate .84710

ANOVA(b) Sum of Squares 117.048 67.452

Model 1

df 3 94

Regression Residual Total

Mean Square 39.016 .718

F 54.372

Sig. .000(a)

184.500 97 a Predictors: (Constant), inter, h_som, som_cours b Dependent Variable: ATT

80

Coefficients(a) Unstandardized Coefficients B 3.174 .545 -.330 -.242 Std. Error .088 .050 .089 .041 Standardized Coefficients Beta 36.206 .711 -.276 -.452 10.828 -3.723 -5.967 .000 .000 .000 .000 .901 .707 .677 1.110 1.414 1.476

Model

Sig.

Collinearity Statistics Tolerance VIF

variable amliore la prdiction de lattention en cours. Nous ajouterons finalement l'interaction entre les deux Xi (X3 = inter), pour tester si le fait de tenir compte de leffet diffrent des heures de sommeil en cours selon le nombre dheures de sommeil en dehors des cours explique de manire plus prcise lattention en cours. La dmarche est la mme que prcdemment:

(Constant) h_som som_cour s inter

Analysze regression linear...


Dans la fentre Dependent glissez la variable ATT. Dans la fentre Independent glissez la variable h_som. La droite de rgression (le modle) est Y = a + 1*h_som.

a Dependent Variable: ATT

Lanalyse montre que les deux Xi et leur interaction expliquent 63% de la variance de l'attention en cours (Y, la VD) et que cette proportion de variance explique est significative: F(3, 94) = 54.37, p < .001. Les coefficients de rgression standardiss (Bta) indiquent que le nombre d'heures de sommeil en dehors des cours a une influence positive sur la VD (Bta = .71 ; t(94) = 10.83, p < .001). De mme, la proportion d'heures dormies en classe influence ngativement la VD (Bta = -.28; t(94) = -3.72, p < .001). Ces effets reproduisent les rsultats de lexemple 2. Lanalyse montre que l'interaction entre les deux Xi a une influence significative sur la VD (t(94) = -5.97, p < .001) et que cette influence est ngative (Bta = .45). Cette interaction nous apprend que, chez les tudiants qui dorment peu dheures en dehors des cours, la proportion d'heures qu'ils passent dormir en cours n'influence pas leur niveau d'attention en cours, qui reste assez bas. Par contre, quand le nombre d'heure de sommeil en dehors des cours augmente, on observe que plus la proportion d'heures de sommeil en cours diminue, plus l'attention aux cours augmente (pour linterprtation des rsultats, voir remarque et graphique 2). Notre hypothse H1c est ainsi confirme. Exemple 4 : Rgression linaire hirarchique Le principe des rgressions hirarchiques est un peu diffrent de celui de la rgression linaire simple dont nous avons trait jusqu maintenant. Il s'agit ici de tester les effets de chaque variable indpendante au cours de plusieurs tapes. la premire tape, on rentre une ou plusieurs Xi et on teste les effets de cette X ou ces Xi. ltape suivante, on rentre une ou plusieurs Xi qui vont sajouter celles dj prsentes dans lanalyse. Ainsi, on teste leffet de ces variables et si leur ajout augmente significativement la partie de la variance de la VD (Y) qui est explique par lanalyse. Le but principal de lanalyse de rgression hirarchique est de vrifier si l'ajout des nouvelles variables Xi chaque tape augmente la variance de la VD (Y) explique et si cette augmentation est significative. Le nombre d'tapes et les variables ajoutes lanalyse de rgression de dpart dpendent des hypothses du chercheur. La logique est ici davantage une logique de test de modles (chaque droite de rgression reprsente un modle): on teste un modle de base (la premire tape) auquel on ajoute des variables Xi de faon tester si le deuxime modle (la deuxime tape) amliore de manire significative le premier modle. Le but tant d'expliquer au mieux les variations de la VD (Y). Nous allons raliser la mme analyse de lexemple 3, mais avec une analyse hirarchique. La rgression de base (X1 = h_som) testera l'impact du nombre d'heures de sommeil en dehors des cours sur l'attention en cours (Y ou VD). Nous ajouterons ensuite la proportion d'heures passe dormir en cours (X2 = som_cours), pour tester si le fait de tenir compte de cette

Cliquez sur l'onglet Next situ en haut droite de la fentre Independent. Cette fentre se vide . Il s'agit en fait de la fentre Independent pour l'tape 2. Glissez alors la variable som_cours dans la fentre Independent. La variable h_som ne disparat pas de lanalyse, simplement cela signifie que la variable som_cours sajoutera celle-ci dans la deuxime droite de rgression (le modle), qui est Y = a + B1*h_som + B2*som_cours.

2me tape

81

82

Cliquez nouveau sur Next. La fentre Independent se vide nouveau et vous pouvez alors y glisser la variable inter. La droite de rgression (le modle) est Y = a + 1*h_som + 2*som_cours + 3*inter.

Chaque tableau prsente trois droites de rgression (trois modles), qui correspondent aux trois tapes (Model). Dans ce premier tableau, on voit que la premire tape (Model 1, avec X1 h_som) explique 26% de variance de la VD (Y), que la seconde tape (Model 2, les deux Xi h_som et som_cours) explique 49% et enfin que la troisime tape (Model 3, les deux Xi et l'interaction des deux) explique 63% de variance de la VD (Y). Ce sont les mmes rsultats des exemples prcdents (exemple 1, 2 et 3). Le R Square Change indique laugmentation de R2 entre les tapes. Par exemple l'ajout de l'interaction aux deux Xi lors de ltape 3 augmente le R2 de 14% par rapport ltape 2. Le F Change est le F associ au R change. Ainsi entre la 1re et la 2me tape, le R2 augmente de 24%, ce qui est significatif (F(1, 95) = 44.42 ; p < .001). Entre la 2me et la 3me tape, le R2 augmente de 14%, ce qui est significatif (F(1, 94) = 35.60 ; p < .001). Ainsi, l'ajout de X2 (som_cours) X1 (h_som) et de l'interaction des deux (inter) est pertinent et amliore significativement la prdiction de lattention en cours.
ANOVA(d) Sum of Squares 48.018 136.482 184.500 91.501 92.999 184.500 117.048 67.452

3me tape

Model 1

df 1 96 97 2 95 97 3 94

Regression Residual Total

Mean Square 48.018 1.422 45.750 .979 39.016 .718

F 33.775

Sig. .000(a)

Cliquez alors sur l'onglet Statistics... la fentre ci-dessous apparat. Comme prcis plus haut, Estimates et Model fit sont cochs par dfaut. Cochez Collinearity diagnostics et R squared change (cette dernire mesure permet de constater si lajout des variables de chaque tape amliore le modle de manire significative par rapport ltape prcdente).

Regression Residual Total

46.735

.000(b)

Regression Residual

54.372

.000(c)

a b c d

Total 184.500 97 Predictors: (Constant), h_som Predictors: (Constant), h_som, som_cours Predictors: (Constant), h_som, som_cours, inter Dependent Variable: ATT

L'interprtation de ce second tableau ne change pas par rapport aux exemples prcdents. Ce tableau montre que lexplication de la VD (Y) ne peut pas tre attribue au hasard lors de chaque tape (voir exemple 1 pour le Model 1, exemple 2 pour le Model 2 et exemple 3 pour le Model 3). Cliquez sur Continue. Vous revenez la premire fentre, cliquez alors sur OK. L'output suivant apparat :
Model Summary Std. Error of the Estimate 1.19235 .98941 R Square Change .260 .236 .138 Model 1 df1 1 1 1 df2 96 95 94 Sig. F Change .000 .000 .000 3 2 (Constant) h_som (Constant) h_som som_cours (Constant) h_som som_cours inter a Dependent Variable: ATT Unstandardized Coefficients B 3.062 .391 3.060 .478 -.596 3.174 .545 -.330 -.242 Std. Error .120 .067 .100 .057 .089 .088 .050 .089 .041 .711 -.276 -.452 .510 .625 -.499 Coefficients(a) Standardized Coefficients Beta

t Tolerance 25.424 5.812 30.618 8.349 -6.665 36.206 10.828 -3.723 -5.967

Sig. VIF .000 .000 .000 .000 .000 .000 .000 .000 .000

Collinearity Statistics B 1.000 .947 .947 .901 .707 .677 Std. Error 1.000 1.056 1.056 1.110 1.414 1.476

Model 1 2

R .510(a) .704(b)

R Square .260 .496

Adjusted R Square .253 .485

F Change 33.775 44.418 35.603

3 .796(c) .634 .623 .84710 a Predictors: (Constant), h_som b Predictors: (Constant), h_som, som_cours c Predictors: (Constant), h_som, som_cours, inter

83

84

Ce troisime tableau est interprt de la mme manire que les tableaux de coefficients de rgressions des trois exemples qui prcdent. Le modle 1 indique que le nombre d'heures de sommeil en dehors des cours influence significativement l'attention pendant les cours. (voir exemple 1). Le modle 2 indique qu'en plus de cet effet, on trouve un effet principal de la proportion d'heures passes dormir en cours. (voir exemple 2). Enfin, le modle 3 indique qu' ces deux effets s'ajoute celui de l'interaction des deux Xi (voir exemple 3).

Remarques
1) Souvent, il est plus clair de prsenter les rsultats des analyses de rgression sous forme de tableau (par exemple, avec les informations relatives au R2 ajust, sa significativit, les valeurs Bta (ou B) et leur significativit, et le test de significativit du R square change lors de chaque tape sil est question dune analyse de rgression hirarchique). 2) L'interprtation des interactions n'est pas toujours vidente, puisqu'il ne s'agit pas ici de comparer des moyennes. Le graphique d'interaction peut tre ralis, mais SPSS ne le fournit pas. Le seul moyen de construire ce graphique est de rsoudre l'quation de la droite de rgression correspondant l'analyse (dans ce cas, il convient dutiliser les coefficients nonstandardiss pour le calcul). Dans lexemple 3, lquation de la droite de rgression est : Y = a + 1*X1 + 2*X2 + 3*X1X2, dans laquelle a = 3.17, 1 = .54, 2 = -.33 et 3 = -.24. Lquation devient, Y = X1* (1 + 3*X2) + 2*X2. Maintenant, il faut dfinir X1. Nous avons choisi de calculer les moyennes pour un tudiant qui dort une heure en dehors des cours (X1 = 1) ou 10 heures (X1 = 10). Ainsi, nous obtenons deux quations : Y = 3.17 + (.54 + -.24*X2) + -.33*X2 et Y = 3.17 + 10*(.54 + -.24*X2) + -.33*X2. Pour calculer les moyennes de ces deux variables, on doit encore dfinir la valeur de X2. Nous avons dcid de considrer le cas dun tudiant qui dort 1 heure pendant les cours et dun autre qui dort 10 heures. Ainsi, nous obtenons 4 valeurs de Y: - tudiant qui dort 1 heure par jour en dehors des cours et 1 heure pendant les cours : Y = 3.14 (attention en cours) - tudiant qui dort 1 heure par jour en dehors des cours et 10 heures pendant les cours : Y = -1.99 - tudiant qui dort 10 heures par jour en dehors des cours et 1 heure pendant les cours : Y = 5.84 - tudiant qui dort 10 heures par jour en dehors des cours et 10 heures pendant les cours : Y = -18.73 Au niveaux graphique, cela donne (graphique 2):
10

0 Attention en cours 1 heure pendant les cours 10 heures pendant les cours

-5

1 heure par jour 10 heures par jour

-10

-15

La ligne pointille reprsente les tudiants qui dorment 1 heure en dehors des cours et la ligne continue reprsente les tudiants qui dorment 10 heures en dehors des cours. Vous pouvez voir que la diffrence est bien plus marque chez les seconds que chez les premiers (interaction).

-20

85

Vous aimerez peut-être aussi