Académique Documents
Professionnel Documents
Culture Documents
Rappel :
1
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
- Chargez ensuite le package grâce au menu déroulant de l’invite de
commande: Packages > charger le package
- Importez vos données grâce à la fonction read.csv2()
read.csv2("data.csv", sep=";", header=TRUE, na.string="NA")-> data
- Chargez vos données
data
- Créez votre matrice de corrélation
mat<-corr.test(data,use="pairwise",method="spearman")
Explication :
Ici l’argument use="pairwise", permet d’écarter les variables manquantes,
l’argument method="spearman" permet de spécifier le test à effectuer, ici le
coefficient de corrélation de Pearson
- Afficher la matrice de corrélation
mat
corrplot(mat$r,"number","upper",p.mat=mat$p,diag=F)
Plutôt que de tester l’effet isolé de chaque variable sur les critères d’intérêt, il peut
être plus judicieux, lorsque cela a du sens, de grouper ensemble (dimension ou
facteur) les variables qui corrèlent entre elles.
.
Cela est d’autant plus vrai lorsque les variables
en question sont des items (questions,
énoncés) supposés rendre compte d’un même
facteur ou d’une même dimension.
3
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
data1<-na.omit(data)
data1
ACP<-PCA(data1)
Interprétation : sur ce diagramme, les variables
sont représentées sur un plan en 2 dimensions.
La première sur un plan (un axe) horizontal
(dimension1), la seconde sur un plan (un axe)
vertical (dimension2)
4
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
a. Condition préalables
Avant cela il faut s’assurer qu’il n’y a pas d’items inversés. Si c’est le cas, il faudra
procéder à une inversion de la cotation des items afin que les items aillent tous dans
le même sens.
L’inversion de cotation se fait grâce à la fonction recode() disponible dans le
package car.
Installer et charger le package car.
Procéder au recodage pour chaque item le nécessitant. Ici on veut recoder les items
3 et 6
Absence d’outliers (ou données extrêmes). Pour cela, il est possible d’effectuer des
boxplot mais assurez-vous en dès la saisie des questionnaires en filtrant vos
données.
5
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
Il faut également s’assurer que les données sont suffisamment factorisables.
Cela signifie qu’il faut que la matrice de corrélation contienne suffisamment de
corrélations importantes pour faire émerger un ou plusieurs facteurs. Cela peut
commencer par une inspection de la matrice de corrélation effectuée plus haut grâce
à la fonction corr.test() qui donne la matrice de corrélation ainsi que les p-
valeurs associées à chaque corrélation.
Cette inspection visuelle doit obligatoirement s’accompagner de l’obtention de deux
indices : le KMO (Kaiser-Meyer-Olkin) et le test de Bartlett. Ces deux indices nous
indiquent si la matrice de corrélations contient suffisamment de corrélations pour être
considérée comme adaptée à l’AFE.
Les deux fonctions sont issues du package psych (installé auparavant)
KMO(data[,1:6])
cortest.bartlett(data[,1:6], n=92)
Le résultat du test doit être significatif afin de pouvoir dire que notre matrice est
significativement différente d’une matrice ne comportant que des corrélations nulles.
b. Paramétrage de l’AF
Une fois s’être assuré que les conditions préalables sont remplies il faut déterminer
la méthode d’extraction, le nombre de facteurs à extraire, ainsi que la méthode de
rotation à retenue.
La méthode d’extraction : dans le cadre d’une AFE il existe deux grandes
méthodes d’extraction de facteur. La méthode par le maximum de vraisemblance
(ML) pour les données qui suivent une loi normale et la factorisation en axe
principaux (PA) pour les données qui ne suivent pas une loi normale.
Cela suppose donc en amont de tester si les données suivent une loi normale.
Pour ce faire, il faut soumettre chaque item au test de Shapiro grâce à la fonction
Shapiro.test()
shapiro.test(data$item1)
shapiro.test(data$item2)
shapiro.test(data$item3)…
6
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
Si le résultat du test est significatif, cela indique que les données ne suivent pas une
loi normale, on optera alors pour la méthode de factorisation en axe principaux. Si le
test est non significatif, cela indique que les données suivent une loi normale. On
choisira alors la méthode par le maximum de vraisemblance.
Cette fonction produit le scree plot de l’analyse qu’il faut maintenant interpréter pour
choisir le nombre de facteurs à extraire.
Trois élément du scree plot sont à prendre en considération conjointement :
- L’endroit où la droite pleine (« actual data ») passe sous le seuil représentant
la valeur propre de 1
- L’endroit où la droite pleine (« actual data ») passe sous les droites en
pointillés (« simulated data » et « resampled data »)
- L’endroit où la droite pleine (« actual data ») s’aplanit indiquant qu’un facteur
supplémentaire n’apporte que peu de variance expliquée additionnelle.
c. Réalisation de l’AFE
Utiliser la fonction fa() en précisant les données sur lesquelles portent l’analyse, le
nombre de facteurs à extraire (que l’on aura déterminé grâce au scree plot), la
méthode d’extraction fm= "ml" ou fm= "pa" (que l’on aura déterminé en fonction
du résultat des tests de Shapiro), la méthode de rotation rotate= "varimax"
pour une rotation orthogonale ou rotate= "oblimin" pour une rotation oblique et
enfin le paramètre de gestion des données manquantes use="pairwise".
7
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
Afin de pouvoir effectuer la rotation, il est nécessaire d’installer sur certaines version
de R le package GPArotation
install.packages("GPArotation")
library(GPArotation)
fa(data[,1 :6],nfactors=2,rotate="oblimin",fm="pa",use="pairwi
se")
Plus un item est unique (cf. colonne u2 qui indique le critère uniqueness), moins il a
de points communs avec les autres items. Les valeurs uniqueness (variance propre
de l’item, c’est-à-dire la variance non partagée avec les autres items) doivent être
faibles, au moins inférieures à .60 indiquant que l’item participe à la solution, c’est-à-
dire qu’il est utile.
Chaque item doit présenter une saturation factorielle supérieure à .30 voire .40. De
plus, pour assurer une solution factorielle simple, il faut que chaque item sature de
façon claire sur un seul facteur.
Ici on observe que les items 1, 2 et 3 saturent sur le facteur PA1 mais pas sur le
facteur PA2 et les items 4, 5 et 6 saturent sur PA2 et pas sur PA1. On peut donc dire
que la solution factorielle est satisfaisante. Si un ou plusieurs items posent problème
8
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
(absence de saturation ou saturation sur plusieurs facteurs), il faudra exclure ces
items et reprendre l’analyse depuis le départ.
Les deux facteurs sont ici corrélés à r=.52, ce qui tend à valider rétrospectivement le
recours à la rotation oblimin.
Pour étudier la consistance interne d’un facteur, on peut utiliser la fonction alpha()
du package psych qui permet d’obtenir l’alpha de Cronbach, un indice
d’homogénéité.
Pour calculer cet indice, il faut appliquer la formule aux items retenus pour chaque
facteur.
Par exemple, pour connaître la consistance interne du facteur 2 on va appliquer la
formule aux items 4, 5 et 6
alpha(data[4 :6])
9
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
On peut améliorer l’alpha en retirant certains items. Ici la valeur de l’alpha du facteur
PA2 serait légèrement améliorée (.92) en retirant l’item 6. Elle chuterait par contre à
.71 si l’on retirait l’item 4
La décision de retirer un item doit être prise uniquement lorsque l’alpha mérite d’être
amélioré, que l’amélioration obtenue apparaît suffisamment importante et que le
facteur dispose d’assez d’items (on ne réduit pas un facteur qui ne contient que 3
items)
3.2. Analyse Factorielle Confirmatoire - AFC
Rappel : l’Analyse Factorielle Confirmatoire permet de vérifier ou de confirmer une
structure plutôt que de la chercher sans a priori.
Elle vise à savoir si les données dont on dispose s’ajustent suffisamment au modèle
que structurel que l’on propose de vérifier.
Pour cela créer un objet model<-‘ ’ au sein duquel on définira les facteurs.
Dans notre exemple, le facteur F1 qui est défini (=~ ) par les items 1, 2 et 3 et le
facteur F2 est défini (=~ ) par les items 4, 5 et 6 .
Indiquer également que les facteurs F1 et F2 sont corrélés entre eux (~~).
Pour définir le modèle, on changera de ligne (touche « entrée ») entre chaque
instruction et on terminera la dernière instruction par une apostrophe.
model<-'
F1=~item1+item2+item3
F2=~item4+item5+item6
F1~~F2'
Une fois que l’objet model a été crée, on créée un second objet que l’on appellera
fit<- avec la fonction cfa() du package lavaan.
Cela suppose donc d’installer ce package en amont et de le charger.
Dans cette fonction cfa() on indique dans un premier temps la structure du modèle
à tester (model), l’ensemble des données à utiliser (data=data) et la méthode
d’estimation selon que les données sont distribuées normalement
(estimator="ML") ou pas (estimator="WLS").
On indique également l’élimination des données manquantes
(missing= "listwise")
10
UE4 Méthodes 5 – méthode de l’enquête : le questionnaire
L3 Sciences de l’éducation
Enseignant : Nadia LEROY
On peut ensuite utiliser la fonction standardizedSolution() et enfin la fonction
fitMeasures() du package lavaan sur l’objet fit afin d’obtenir différents
indices d’ajustement du modèle
Ici on peut voir que les différents items saturent correctement (>.40) sur les facteurs
dont ils dépendent. L’item 6 présente la saturation la plus faible (.56).
Par ailleurs on peut constater que les facteurs F1 et F2 sont corrélés à .53.
Il convient également d’examiner les indices d’ajustement :
- Le Khi-deux : il doit être non-significatif. Dans le cas contraire, cela signifie
que le modèle spécifié s’ajuste mal aux données. Cet indicateur est considéré
comme peu fiable quand les données ne sont pas normalement distribuées et
que l’échantillon est important (> 200)
- Le RMSEA : il doit être <.06
- Le AGFI : doit être >.90
- Le SRMR : doit être <.08
- Le CFI : doit être >.90
11