Vous êtes sur la page 1sur 15

Test d’indépendance de khi-deux et corrélation

Objectif :
Etude de la relation existante :
-   entre deux variables nominales ;
-   entre deux variables numériques ;
-   entre une variable numérique et une variable nominale.

Exercice

Le fichier « Etudiant.sav » comprend des données relatives aux étudiants d’universités


américaines. On y retrouve le sexe (female), l’origine raciale (race), le statut socio-
économique (ses), le type d’établissement (schtyp), le type de programme (prog), les résultats
de tests de lecture (read), d’écriture (write), de mathématiques (math), des sciences (science)
et d’études sociales (socst).

1) Donner les fréquences observées et les fréquences théoriques relatives aux données
croisées entre les deux variables « type d’école » et « sexe ». Existe-t-il une relation entre le
type d’école fréquentée et le sexe des étudiants ?
2) Existe-t-il une relation entre le sexe et le niveau socio-économique ?
3) Existe-t-il une corrélation entre les scores des tests de lecture et d’écriture ? Dresser un
diagramme de dispersion et catégorisez sur un même diagramme la variable « female » en
hommes et femmes.
4) Déterminer la corrélation des variables score d’écriture (write) et le sexe (female).
Comment appelle-t-on ce coefficient ? Que permet- il (élevé au carré) d’expliquer ?

Solution

1) Les deux variables sont nominales : on applique donc un test khi-deux d’indépendance
(Analyse – Statistiques Descriptives – Tableaux croisés).

Dans Statistiques : cocher sur Khi-deux.


Dans Cellules : cocher sur Effectif observé, effectif théorique.

   
 

1
Tableau  croisé  female  *  type  of  school  
 
type  of  school  
    public   private   Total  
Female   male   Effectif   77   14   91  
Effectif  
76,4   14,6   91,0  
théorique  
female   Effectif   91   18   109  
Effectif  
91,6   17,4   109,0  
théorique  
Total   Effectif   168   32   200  
Effectif  
168,0   32,0   200,0  
théorique  
 

  Tests  du  Khi-­deux  


 
Significatio
n   Significatio
asymptotiq Significatio n  exacte  
ue   n  exacte   (unilatérale
    Valeur   ddl   (bilatérale)   (bilatérale)   )  
Khi-­deux  de  
,047(b)   1   ,828          
Pearson  
Correction  pour  la  
,001   1   ,981          
continuité(a)  
Rapport  de  
,047   1   ,828          
vraisemblance  
Test  exact  de  
            ,849   ,492  
Fisher  
Association  
linéaire  par   ,047   1   ,829          
linéaire  
Nombre  
d'observations   200                  
valides  
a    Calculé  uniquement  pour  un  tableau  2x2  
b    0  cellules  (,0%)  ont  un  effectif  théorique  inférieur  à  5.  L'effectif  théorique  minimum  
est  de  14,56.  
 

On observe que la statistique khi-deux est 0.047 qui est non significativement différente de 0
(p-value ou Signification Asymptotique = 0.828>0.05).
Donc, on accepte l’hypothèse d’indépendance entre les deux variables. Ainsi, il n’y a pas une
relation de dépendance entre « le type d’école fréquentée » et « le sexe des étudiants ».

2) Il s’agit de deux variables nominales, on procède à nouveau à un test de khi-deux


d’indépendance. On obtient :

2
  Tableau  croisé  female  *  ses  
 
ses  
        low   middle   high   Total  
female   Male   Effectif   15   47   29   91  
Effectif  
théoriqu 21,4   43,2   26,4   91,0  
e  
Female   Effectif   32   48   29   109  
Effectif  
théoriqu 25,6   51,8   31,6   109,0  
e  
Total   Effectif   47   95   58   200  
Effectif  
théoriqu 47,0   95,0   58,0   200,0  
e  
 

  Tests  du  Khi-­deux  


 
Significatio
n  
asymptotiq
ue  
    Valeur   ddl   (bilatérale)  
Khi-­deux  de  
4,577(a)   2   ,101  
Pearson  
Rapport  de  
4,679   2   ,096  
vraisemblance  
Association  
linéaire  par   3,110   1   ,078  
linéaire  
Nombre  
d'observations   200          
valides  
a    0  cellules  (,0%)  ont  un  effectif  théorique  inférieur  à  5.  L'effectif  théorique  minimum  
est  de  21,39.  
 
Ici encore la dépendance des deux variables n’est pas établie : la statistique khi-deux est égale
à 4.577 avec une p-value de 0.101 supérieure aux niveaux usuels (niveaux à 5% et 1%).

3) Les deux variables sont de type « numérique » ; il convient de calculer le coefficient de


corrélation de Pearson et de faire une représentation « diagramme de dispersion » :

Le coefficient de corrélation s’obtient par « Analyse – corrélation - bivariée» et le


diagramme de dispersion par « graphe- diagramme de dispersion - simple ».

3
   
 
 
                                                         Corrélations  
 
reading   writing  
        score   score  
reading  score   Corrélation  de  
1   ,597(**)  
Pearson  
Sig.  (bilatérale)       ,000  
N   200   200  
writing  score   Corrélation  de  
,597(**)   1  
Pearson  
Sig.  (bilatérale)   ,000      
N   200   200  
**    La  corrélation  est  significative  au  niveau  0.01  (bilatéral).  
 
Le coefficient de corrélation de Pearson vaut 0.597 et est significativement différent de 0 (p-
value = 0.000<0.05). La présence d’une relation linéaire entre ces deux variables se confirme
par le graphique de dispersion (diagramme de dispersion).

4
female
80,00
male
female

70,00

60,00
reading  score

50,00

40,00

30,00

20,00

30,00 40,00 50,00 60,00 70,00


writing  score

4) Une des variables est nominale (female) et l’autre est de type « numérique ». Le coefficient
de corrélation de ces deux variables est appelé le coefficient de corrélation bisérial de point.

Procédure : « Analyse – corrélation – bivariée »

5
  Corrélations  
 
writing  
        score   female  
writing  score   Corrélation  de  
1   ,256(**)  
Pearson  
Sig.  
    ,000  
(bilatérale)  
N   200   200  
female   Corrélation  de  
,256(**)   1  
Pearson  
Sig.  
,000      
(bilatérale)  
N   200   200  
**    La  corrélation  est  significative  au  niveau  0.01  (bilatéral).  

Le coefficient de corrélation bisérial de point vaut 0.256 et est significativement différent de


0. La p-value =0.000<0.05. On accepte l’hypothèse d’existence d’une corrélation entre les
deux variables.
 
 
En prenant le carré de ce nombre on obtient 6.55 %, ce qui peut se traduire comme suit : 6.55
% de la variance du score d’écriture est expliqué par le sexe de l’étudiant.

6
Régression

Objectif :
Etude d’un modèle de régression simple permettant la modélisation d’une relation existante
entre deux variables quantitatives.

Exercice 1
A partir des données du fichier «Etudiant.sav », on souhaite observer la relation entre les
scores des tests d’écriture (Y=write) et ceux de lecture (X=read).
1) Peut-on prédire un score d’écriture en fonction d’un score de lecture ?
2) Déterminez l’équation de la droite de régression Y=a+bX et donner les écarts type des
estimateurs de la constante a et du coefficient de la régression b.
3) Donner les intervalles de confiance de chacun des deux paramètres a et b.
4) Tester la significativité de la constante et de la pente.
5) Calculer le coefficient de détermination et interpréter sa valeur ?
6) Quelle est la valeur prédite au test d’écriture d’une personne qui a obtenu 57 au test de
lecture ?
7) Calculer  les  résidus  studentisés.  Y-­‐a-­‐t-­‐il  des  valeurs  aberrantes  ou  mal  expliquées  par  le  modèle  ?  
8) Donner l’intervalle de prévision pour la valeur 57 de la variable « read ».

Solution

1) Oui parce que le graphique de dispersion (graphes – Diagramme de dispersion – Simple)


entre les deux variables montre la présence d’une tendance linéaire croissante.

7
70,00

60,00
writing  score

50,00

40,00

30,00

20,00 30,00 40,00 50,00 60,00 70,00 80,00


reading  score

2) L’équation s’obtient par la procédure « Analyse – régression – Linéaire » avec « write »


en variable dépendante et « read » en variable indépendante.

Dans la rubrique Enregistrer, cocher sur Résidus standardisés.


Dans la rubrique Statistiques, cocher sur Estimation, Intervalles de confiance, qualité de
l’ajustement.

8
 
       
 
Coefficients(a)  
 
Coefficien
ts   Intervalle  de  
Coefficients  non   standardi confiance  à  95%  
standardisés   sés   de  B  
Erreur   Borne   Borne  
standar Signifi inférieur supéri
Modèle       B   d   Bêta   t   cation   e   eure  
1   (consta 29,49
23,959   2,806       8,539   ,000   18,426  
nte)   2  
reading   10,46
,552   ,053   ,597   ,000   ,448   ,656  
score   5  
a    Variable  dépendante  :  writing  score  
 
 
 
 
 
Le modèle de régression simple a la forme suivante : Y=a + b X+E.

Le tableau précédent donne l’estimation de la constante (a=23.959) et de la pente (b=0.552)


de la droite de régression. Ainsi
L’équation de la droite de la régression est donc : Y= 23.959 + 0.552X

9
L’écart type de l’estimateur de a est 2,806,  alors  que  l’écart  type  de  l’estimateur  de  b  est    
0,053.  

3) L’intervalle de confiance pour a est [18.426 ; 29.492] : il y a une probabilité de 0.95 pour
que l’intervalle [18.426 ; 29.492] recouvre la valeur réelle du paramètre a.
L’intervalle de confiance pour b est [0.448 ; 0.656] : il y a une probabilité de 0.95 pour que
l’intervalle [0.448 ; 0.656] recouvre la vraie valeur du paramètre b.

4) Soit l’hypothèse H0 : a=0 contre H1 : a différent de 0. La statistique du test est 8,539, la


signification est 0.000<0.05, donc on rejette H0.

Soit l’hypothèse H0 : b=0 contre H1 : b différent de 0. La statistique du test est 10,465, la


signification est 0.000<0.05, donc on rejette H0.

La pente b et la constante a sont significativement différentes de zéro.

5)
Récapitulatif  du  modèle(b)  
 
Erreur  
standard  
de  
Modèl R-­deux   l’estimatio
e   R   R-­deux   ajusté   n  
1   ,597(a)   ,356   ,353   7,62487  
a    Valeurs  prédites  :  (constantes),  reading  score  
b    Variable  dépendante  :  writing  score  
 

R correspond au coefficient de corrélation (entre X et Y) en valeur absolue.

Le coefficient de détermination est R-deux = 0.356.


Il donne une estimation de la proportion de la variance de la variable dépendante (ici « write
») expliquée par la régression (le modèle donc par la relation avec la variable indépendante).
Dans ce cas, on peut conclure que plus de 35 % de la variabilité de « write » est expliquée par
la variable « read » à travers ce modèle linéaire.

  ANOVA(b)  
 
Somme  
des   Carré   Significati
Modèle       carrés   ddl   moyen   F   on  
1   Régress
6367,421   1   6367,421   109,521   ,000(a)  
ion  
Résidu   11511,45
198   58,139          
4  
Total   17878,87
199              
5  

10
a    Valeurs  prédites  :  (constantes),  reading  score  
b    Variable  dépendante  :  writing  score  
 

6) Cliquer sur Enregistrer et cocher sur Prévisions Non standardisés.

Si une personne obtient une note de 57 au test de lecture, son score prédit au test d’écriture est
55,40663.

7) Cliquer sur Enregistrer et cocher Résidus studentisés.

Les valeurs de « résidus studentisés » se trouvent dans la variable SRE (studentized residual)
dans l’éditeur des données.
Le box plot de la variable SRE a la forme suivante :

4,00000

2,00000

0,00000

-­2,00000

-­4,00000

Studentized  Residual

On observe une majorité de résidus compris entre –2 et 2.


Les individus (les étudiants qui ont les identifiants suivants) : 133- 16- 18- 126 – 81 – 85 – 86
– 32 sont des  valeurs  aberrantes  ou  mal  expliquées  par  le  modèle.  

8)
Cliquer sur Enregistrer : Cocher sur Individuelle de l’intervalle de la prévision.
L’intervalle de prévision pour la valeur 57 de « read » est : [40.32456, 70.48871].

11
ANOVA

Objectif
Etude de la relation existante entre une variable qualitative et une variable quantitative.

Exercice
A partir des données du fichier «Etudiant.sav », on souhaite tester si les notes moyennes au
test d’écriture (write) sont différentes suivant le programme suivi (prog).
1) Vérifiez les conditions de normalité et d’homoscédasticité des variances.
2) Vérifier que le score moyen en lecture varie à travers les divers programmes.
3) Utiliser des tests robustes pour comparer les scores moyens en lecture dans les trois
groupes.
4) Faire des comparaisons multiples.

Solution

1) La variable dépendante est « le score d’écriture » et la variable indépendante ou le facteur


est le « programme » suivi.

La procédure « Analyse – Statistiques descriptives - Explorer » fournit le graphique box


plot et les tests de K-S pour chaque groupe (type de programme) :

12
Le fichier des résultats donne : le box plot et les tests de normalité.
70,00

60,00
writing  score

50,00

40,00

52

30,00

general academic vocation


type  of  program

  Tests  de  normalité  


 
Kolmogorov-­Smirnov(a)   Shapiro-­Wilk  
type  of   Statistiq Significati Statistiq Significati
    program   ue   ddl   on   ue   ddl   on  
writing   general   ,123   45   ,086   ,959   45   ,111  
score   academic   ,187   105   ,000   ,919   105   ,000  
vocation   ,093   50   ,200(*)   ,972   50   ,289  
*    Il  s'agit  d'une  borne  inférieure  de  la  signification  réelle.  
a    Correction  de  signification  de  Lilliefors  
 
Dans  les  groupes  «  general  »  et  «  vocation  »,  la  normalité  des  données  est  vérifiée  
car  les  significations  sont  supérieures  au  seuil  0.05  (0.086>0.05,  0.200>0.05).  
 
La condition de normalité est mise en défaut dans le groupe « Academic » car la signification
est 0.000 < 0.05 qui implique le rejet de l’hypothèse de normalité.

On devra utiliser des tests plus robustes que l’ANOVA, par exemple les tests de Welsh et de
Brown & Forsythe.

Mais, on commence par l’ANOVA :

13
La procédure « Analyse – comparer les moyennes – ANOVA à un facteur »
Après avoir placé « write » comme variable dépendante, et « prog » comme facteur,
sélectionnez dans les test post-hoc le test de Tukey

Sélectionnez :
Dans « option » : Descriptive - Test d’homogénéité des variances – Welsh et Brown&
Forsythe ;
Dans « post hoc » : Tukey.

Le test de Levene ne rejette pas l’homogénéité des variances car la signification est égale à
0.181>0.05.

Test  d'homogénéité  des  variances  


 
writing  score  
Statistique   Significati
de  Levene   ddl1=   ddl2   on  
1,726   2   197   ,181  
 
2)
  ANOVA  
 
writing  score  
Somme   Moyenne  
des   des   Significati
    carrés   ddl   carrés   F   on  
Inter-­
3175,698   2   1587,849   21,275   ,000  
groupes  
Intra-­ 14703,17
197   74,635          
groupes   7  
Total   17878,87
199              
5  
 
Le tableau d’analyse de variance rejette de manière très significative l’égalité des moyennes
car la p-value du test est 0.000<0.05.

3) L’hypothèse de normalité n’est pas vérifiée, c’est pourquoi on doit utiliser des tests
robustes :

  Tests  d'égalité  des  moyennes  


 
writing  score    
Statistiqu
    e(a)   ddl1=   ddl2   Sig.  
Welch   20,421   2   90,895   ,000  
Brown-­
19,418   2   132,623   ,000  
Forsythe  

14
a    Distribution  F  asymptotique.  
 
Les tests de Welch et Brown & Forsythe rejettent de manière très significative l’égalité des
scores moyens d’écriture entre les 3 types de programmes car la signification est 0.000 < 0.05.

4)
Le test Post Hoc permet la comparaison des moyennes deux à deux. Il y a plusieurs tests
comme le test de Tukey, le test de Scheffe.

Comparaisons  multiples  
 
Variable  dépendante:  writing  score    

Différence  
de   Erreur  
(I)  type  of   (J)  type  of   moyennes   stand Signific Intervalle  de  confiance  à  
    program   program   (I-­J)   ard   ation   95%  

Borne   Borne  
                        inférieure   supérieure  
Test  de  Tukey   general   academic   1,539
-­4,92381(*)   ,005   -­8,5589   -­1,2887  
28  
        vocation   1,775
4,57333(*)   ,029   ,3811   8,7655  
18  
    academic   general   1,539
4,92381(*)   ,005   1,2887   8,5589  
28  
        vocation   1,484
9,49714(*)   ,000   5,9916   13,0027  
43  
    vocation   general   1,775
-­4,57333(*)   ,029   -­8,7655   -­,3811  
18  
        academic   1,484
-­9,49714(*)   ,000   -­13,0027   -­5,9916  
43  
Scheffe   general   academic   1,539
-­4,92381(*)   ,007   -­8,7204   -­1,1272  
28  
        vocation   1,775
4,57333(*)   ,038   ,1949   8,9518  
18  
    academic   general   1,539
4,92381(*)   ,007   1,1272   8,7204  
28  
        vocation   1,484
9,49714(*)   ,000   5,8358   13,1584  
43  
    vocation   general   1,775
-­4,57333(*)   ,038   -­8,9518   -­,1949  
18  
        academic   1,484
-­9,49714(*)   ,000   -­13,1584   -­5,8358  
43  
*    La  différence  de  moyennes  est  significative  au  niveau  .05.  
 
 

Le test Post Hoc nous informe que les trois types de programme donnent des résultats
significativement différents deux à deux. Ils forment ainsi 3 sous- groupes distincts. Puisque,
toutes les significations sont inférieures à 0.05 (0.005<0.005, 0.029<0.05, 0.000<0.05).

15