Vous êtes sur la page 1sur 15

U.F.R.

SPSE Master 1
PMP STA 21 Mthodes statistiques pour l'analyse des donnes en psychologie

Chapitre 1
Etude de la liaison entre deux variables. Analyse descriptive des donnes
et tests d'indpendance
1re partie. Introduction gnrale
Dans ce cours, on prsente direntes techniques de traitement statistique de donnes.

I Cadre gnral
On tudie une population partir de donnes recueillies sur un chantillon d'individus tirs au sort dans la
population.
Les donnes :
 proviennent d'une ou plusieurs variables qui sont mesures simultanment sur les individus.
 apportent une information partielle sur la population tudie.
Objectif gnral :
On se pose des questions sur la population tudie. Pour y rpondre :
 1re phase descriptive : analyses des donnes observes, l'aide de mthodes descriptives adaptes ;
 2e phase infrentielle : utiliser les rsultats de ces analyses pour tirer des conclusions gnrales sur la
population. On utilise pour cela des mthodes infrentielles adaptes aux questions poses.
Toute conclusion doit tre nonce avec le risque d'erreur qui lui est associ.

II Dnitions et notations de base utilises


Population P : compose de tous les individus sur lesquels porte l'tude.
Taille de la population : N , en gnral inconnue.
 Variable X : mesure un caractre commun tous les individus de P .
 Type de la variable
 variable qualitative : ses valeurs (modalits) sont des symboles qui codent des catgories d'individus.
 variable quantitative : prend des valeurs numriques.
Elle peut tre discrte (valeurs possibles en nombre ni) ou continue (valeurs dans un intervalle de
nombres).
 Echantillon E de taille n, compos de n donnes ou observations


E = {x1 , . . . , xn } .
xi : valeur de X observe sur le ie individu tir au sort.
Mthode de tirage : tirage alatoire avec remise de n individus dans la population ; A chaque tirage, on

tire au sort un individu, on le replace dans la population avant le tirage suivant.

III Les mthodes prsentes


Problmes gnraux abords dans le cours :

 synthtiser les donnes ;


 faire des comparaisons ;
 tudier les relations entre plusieurs variables ; modliser ces relations.
1

IV

ETUDE DESCRIPTIVE (EXPLORATOIRE) DES DONNES

Mthodes prsentes : descriptives et infrentielles.


 Mthodes descriptives

Elles permettent de synthtiser les donnes observes sur un chantillon.


Calcul de rsums statistiques et reprsentations graphiques des donnes adapts leur type, qualitatif
ou quantitatif.

Mthodes infrentielles
 Tests d'hypothses :


Tests d'indpendance de 2 variables ;


Tests de comparaison (moyennes, mdianes).

Modlisation des relations entre une variable quantitative (VD) que l'on cherche expliquer et un
ensemble de variables (VI) explicatives.
Mthodes de rgression linaire et d'anova.

Conditions d'application des mthodes

Chaque mthode a ses propres conditions (postulats) d'application qu'il faudra vrier avant sa mise en
oeuvre.
Exploration graphique des donnes, contrle par des tests statistiques des postulats de chaque mthode :
tests de normalit, test d'galit de variances...
Exemple : pour un test de Student sur une moyenne avec petit chantillon : dans la population, la variable
doit avoir une distribution normale.
Vrier la normalit de la distribution dans la population.
Ces vrications sont faire partir des donnes chantillonnes.

IV Etude descriptive (exploratoire) des donnes


Pralable toute analyse  avance  d'un ensemble de donnes : tude descriptive des donnes l'aide de
techniques descriptives de base, outils graphiques et indices synthtiques adapts.
 Objectif pour une variable :
Dcrire et synthtiser la distribution (rpartition) des mesures observes.
 Objectif pour plusieurs variables tudies simultanment :
Visualiser et mesurer par des indices les ventuelles relations existant entre ces variables.
 Pour des donnes chantillonnes : les graphiques et indices statistiques calculs apportent une information partielle sur la variable dans la population et prparent les analyses infrentielles.
 Etude descriptive pour une variable : en TD.
 Etude de deux variables : 2e partie du chapitre.

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

2epartie. Etude de la liaison entre deux variables


I Introduction
Etude simultane de deux variables X et Y dnies sur une mme population P : mettre en vidence une
ventuelle liaison (relation, dpendance) entre les variables.
Exemples
Etude de la liaison entre
 le QI du pre et le QI du ls (quantitatives) ;
 le salaire et le sexe (quantitative / qualitative) ;
 la couleur des yeux et la couleur des cheveux (qualitatives).
1 )

Notions de dpendance et d'indpendance

Variables lies : les variations de l'une dpendent des variations de l'autre.


Variables indpendantes : les deux variables varient indpendamment l'une de l'autre. Dans ce cas :

 la connaissance de la valeur prise par l'une des deux variables sur un individu n'apporte aucune
information sur la valeur prise par l'autre variable sur cet individu ;
 Exemple : si le salaire et le sexe sont deux variables indpendantes, connatre le sexe d'un employ
n'apporte aucune information sur son salaire.
Rle des variables dans la relation : dans certains cas, une variable peut en expliquer une autre,
dans d'autres cas, les variables jouent des rles symtriques.
Vocabulaire : Pour des variables qualitatives : association. Pour des variables quantitatives : corrlation.
2 )

Observations

Pour tudier la relation entre deux variables, on fait des observations sur un chantillon de n individus tirs
au sort dans la population.
On note xi et yi les valeurs de X et Y observes sur le ie individu tir au sort.
On dispose ainsi de deux chantillons apparis de mesures.
individu n i 1 i n
variable X x1 xi xn
y1 yi yn
variable Y
Les mthodes utilises pour tudier la relation dpendent du type des variables tudies.

II Etude de la liaison entre deux variables quantitatives


Deux variables quantitatives sont corrles si elles tendent varier l'une en fonction de l'autre.
On parle de corrlation positive si elles tendent varier dans le mme sens, de corrlation ngative si elles
tendent varier en sens contraire.

Exemple 1

On veut tudier la relation entre le QI du pre (X ) et le QI du ls (Y ).


Sur un chantillon alatoire de 12 couples (pre, ls), on a relev le QI du pre et le QI du ls. On dispose
de 2 chantillons apparis de mesures (xi , yi ) :

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

couple (pre, ls) no i 1


2
3
4
5 6
7
8
9
10 11 12
QI du pre xi
123 144 105 110 98 138 131 90 119 109 125 100
QI du ls yi
102 138 126 133 95 146 115 100 142 105 130 120
1 )

Analyse descriptive des donnes

Comment dtecter une corrlation, quelle en est la forme, le sens (les variables varient-elles dans le mme
sens ou bien en sens contraire), l'intensit ?
 Outil graphique : le nuage de points.
 Indicateur numrique de sens et d'intensit : coecient de corrlation.

a ) Graphique : nuage de points (diagramme

de dispersion, scatter-plot

1. Exemple 1

Le nuage de points, graphique 1 :


Chaque couple (pre, ls) est reprsent par un point : l'abscisse est le QI du pre et l'ordonne
le Qi du fils. L'ensemble forme un nuage de points.
La forme du nuage
Le nuage est allong , tir du bas gauche vers le haut droite. Les QI ont tendance varier
dans le mme sens. La corrlation observe est positive. La forme est allonge mais l'tirement est
modr.
Scores QI des pres et des fils

120
90

100

110

QI fils

130

140

150

r = 0,6071

80

90

100

110

120

QI pres

Graphique 1
2. Exemples-type, graphique 2 :

130

140

150

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

(1) Pas de corrlation

(2) Corrlation linaire, positive

r = 0.043

r = 0.962

(3) Corrlation linaire, ngative


r = 0.7

(4) Corrlation non linaire parfaite


r= 0

Graphique 2
 (1) nuage trs arrondi ; pas de relation apparente ;
 (2) nuage trs tir : le nuage a une forme linaire trs marque. On observe sur l'chantillon une
tendance de X et Y varier dans le mme sens. La corrlation observe est positive.
 (3) nuage modrment tir (forme linaire moins marque) , du haut gauche vers le bas droite :
on observe sur l'chantillon une tendance de X et Y varier dans des sens opposs ; la corrlation
observe est ngative.
 (4) les points sont sur une courbe (parabole) non linaire. Il y a corrlation parfaite entre les variables,
de type non linaire. Il n'y a pas monotonicit : la courbe est d'abord dcroissante pluis croissante.
3. Forme de rfrence la plus simple : la droite
La droite exprime une relation entre X et Y du type Y = aX + b.
Si la forme du nuage s'apparente une droite, on parle alors de corrlation linaire entre les variables.
Plus le nuage est tir et plus la corrlation linaire est forte.
Pour mesurer la force et le sens de la corrlation linaire, on calcule un indicateur numrique : le
coecient de corrlation linaire.
Remarque : dans le chapitre sur la rgression linaire, on dterminera la droite qui s'ajuste le mieux
aux donnes.

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

b ) Coecient de corrlation linaire


Scores QI des pres et des fils

(xi 116)(yi 121) > 0

121

QI fils

(xi 116)(yi 121) < 0

(xi 116)(yi 121) > 0

(xi 116)(yi 121) < 0


116

QI pres

Graphique 3
1. Covariance
Le centre du nuage (centre de gravit ou barycentre) est dni par le point M qui a pour coordonnes
les moyennes des deux variables : 116 pour QI du pre et 121 pour Qi du fils. Il est reprsent par
un cercle plein. Les points du nuage se rpartissent autour de leur centre avec une certaine dispersion.
Cette dispersion est mesure par la covariance dnie par la formule (chantillon)
P
(xi x)(yi y)
cov (x, y) =
.
n1

Chaque individu contribue la covariance par la quantit (xi x)(yi y) qui mesure son cart au
couple de moyennes.
 Cette quantit est positive pour les couples (pre, ls) dont les deux QI sont, soit tous les deux
suprieurs leur moyenne, soit tous les deux infrieurs. Elle est ngative pour les couples qui ont un
QI en dessous de la moyenne et l'autre QI au-dessus.
 La covariance peut prendre n'importe quelle valeur relle.
 Son signe renseigne sur le sens de variation des variables. Elle est positive si les variables ont tendance
varier dans le mme sens et ngative en sens contraire.
 Elle est sensible aux units de mesure.

Exemple 1. Rsums des donnes et calcul de la covariance :


QI pre :

QI ls :

xi = 1392

x2i

= 164566

x
= 116

yi = 1452

yi2 = 179068

y = 121

xi yi = 170394

cov (x, y)

P
=

(formule de calcul)

rP

x2i n
x2
= 16, 7712
rP n 1
yi2 n
y2
sy =
= 17, 5188
n1

sx

xi yi n
xy
170394 12 116 121
=
= 178, 3636.
n1
11

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

2. Coecient de corrlation linaire


Le coecient mesure le sens et l'intensit de la corrlation linaire.
Il est not dans la population et r sur l'chantillon.
Formule de calcul sur un chantillon :
r(x, y) =

cov (x, y)
.
sx sy

 Coecient indpendant des units de mesure.


 Compris entre 1 et 1.
 r = 0 si la corrlation linaire est nulle.
 r = 1 si la corrlation linaire est parfaite. Les points sont aligns.
 Le coecient est positif si la liaison est positive.
 Le coecient est ngatif si la liaison est ngative.
Exemple 1. Calcul du coecient :
r(x, y) =

178, 3636
= 0, 6071.
16, 7712 17, 5188

La corrlation linaire est positive et relativement forte.


Pour les exemples-type prcdents :
 (1) r quasiment nul ; pas de relation linaire apparente entre les deux variables. Le nuage est rond.
 (2) r = 0, 962 : la corrlation linaire observe est positive et trs forte. Le nuage est trs tir.
 (3) r = 0, 7 : la corrlation linaire observe est ngative et forte. Le nuage est modrment tir.
 (4) le nuage prsente une corrlation non linaire parfaite : les points sont sur une courbe y = f (x).
La corrlation linaire est nulle, r = 0.
3. Attention aux sous-groupes dnis par une variable qualitative

Graphique 4
Y-a-t-il une relation entre la taille d'un individu et la longueur de ses cheveux 1 ? Le nuage donne
l'impression d'une corrlation lineaire ngative assez forte entre les deux variables avec un coecient
r = 0, 6018.
1. Exemple emprunt R. rakotomalala...

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

Si l'on direncie les hommes et les femmes, on voit que pour chaque groupe le nuage est arrondi, la
corrlation est quasiment nulle (rH = 0, 0736 etrF = 0, 1411).
4. Attention aux valeurs extrmes

Graphique 5
2 )

Tests d'indpendance pour deux variables quantitatives

a ) Cadre gnral
On tudie deux variables quantitatives X et Y dnies sur une population P .
On veut tester l'existence d'une liaison entre les deux variables.
Hypothses du test et niveau :
H0 : les variables sont indpendantes
H1 : les variables sont lies (positivement, ngativement)
Risque x.
Observations : Pour raliser le test, on a tir au sort un chantillon d'individus de taille n dans la
population.
On dispose de deux chantillons apparis de mesures (xi , yi ).

Exemple 1, suite :

Relation entre le QI du pre (X ) et le QI du ls (Y ).


P : couples (pre, ls)
Variable X : QI du pre
Variable Y : QI du ls.
On dispose de deux chantillons apparis de scores observs sur n = 12 couples (pre, ls) :
couple (pre, ls) no i 1
2
3
4
5 6
7
8
9
10 11 12
QI du pre xi
123 144 105 110 98 138 131 90 119 109 125 100
QI du ls yi
102 138 126 133 95 146 115 100 142 105 130 120
8

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

Tests d'indpendance : On prsente deux tests alternatifs, utilisables pour des variables continues.
Pour dterminer le test utiliser, on doit considrer la loi du couple de variables (X, Y ).

1. la loi du couple est binormale : test paramtrique sur le coecient de corrlation linaire
(Bravais-Pearson) ; binormalit vrier, ce qui est dicile (voire impossible) pour de petits chantillons. Test utilisable sans la normalit pour des chantillons assez grands.
2. la loi du couple n'est pas binormale : test non paramtrique bas sur le coecient de corrlation
empirique de Spearman.

b ) Test paramtrique sur le coecient de corrlation linaire


On note le coecient de corrlation de X et Y dni sur la population.
1. Postulat requis
Le couple de variables (X, Y ) doit se distribuer suivant une loi  binormale .
Gnralisation de la loi normale un couple de variables. Toute combinaison linaire des deux variables
est normale. En particulier, X et Y sont des variables normales.
On doit vrier ce postulat avant d'appliquer le test, voir le point 3. ci-dessous.
Exemple 1 : on admet que le couple de QI se distribue selon une loi binormale.
2. Droulement du test
(a) Hypothses du test
Sous le postulat de binormalit, l'indpendance quivaut = 0. On teste alors
H0 : = 0 (indpendance)
H1 : 6= 0; > 0; < 0 (liaison, liaison positive, liaison ngative).
(b) Observations - Statistique du test
La statistique est une variable alatoire calcule sur les donnes de l'chantillon tir au sort. Sa
valeur observe sur l'chantillon est un rsum des donnes permettant de choisir entre H0 et H1 .
La statistique utilise pour le test est le coecient de corrlation linaire empirique, not R.
Exemple 1 : Sa valeur observe sur l'chantillon tir au sort est r(x, y) = 0, 6071.
La statistique R est un estimateur du coecient de la population. Sa valeur observe 0, 6071 est
la valeur estime de fournie par l'chantillon.
(c) Loi sous H0 de la statistique
R prend des valeurs entre -1 et 1.
Sa loi sous H0 est symtrique en 0 et dpend de n.

n 2R
qui suit sous H0 la
1 R2

Remarque : les calculs sont bass sur la statistique quivalente T =

loi de Student n 2 ddl.


(d) Intervalle d'acceptation, rgion critique
Pour le test d'une liaison (H1 : 6= 0) :
Sous H0 , on s'attend observer une valeur de R proche de 0. Les valeurs de R les plus proches
de 0 sont les plus conformes H0 .
Sous H1 , on attend une valeur de R plus proche de -1 ou 1. Les valeurs de R les plus extrmes
sont les plus signicatives de H1 .
La RC est situe aux deux extrmits du domaine.
9

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

(e) Dcision 2
Pour la dcision, on calcule la p-valeur
= PH0 (|R| |r(x, y)|).

Rgle base sur la p-valeur : si obs , on rejette H0 au risque d'erreur . Sinon, on conserve
H0 avec un risque d'erreur inconnu.

Exemple 1 :

Pour = 5%, obs = PH0 (|R| 0, 6071) = 0, 03632 < . On rejette H0 et on conclut l'existence
d'un lien entre les deux QI, au risque = 5%. Le rsultat du test est signicatif au niveau 5%.

Calcul ralis avec Statistica : t = 10 0,6071 2 = 2, 4158, et p-valeur associe t : p =


10,6071
0, 03662.
(f) Remarques
 Pour le test d'une liaison positive, la RC est situe droite du domaine et dans ce cas, on a
obs = PH0 (R r(x, y)). Exemple modi : H1 : les QI sont lis positivement. n = 12 ; = 5 %.
On a obs = PH0 (R 0, 6071) = 0, 01816...
Rq : La p-valeur est multiplie par 2 pour le test bilatral (test plus  conservatif ).
 Pour le test d'une liaison ngative, la RC est situe gauche du domaine et dans ce cas, on a
obs = PH0 (R r(x, y)).
3. Vrication du postulat
La binormalit est dicile vrier, surtout pour de petits chantillons.
Pour de grands chantillons : le nuage a la forme d'ellipses concentriques.
Pour n assez grand, ici on prendra n 75 : des rsultats approximatifs sur la loi de R sous H0
permettent d'utiliser le test sans se soucier de la normalit.
Pour n petit : alternativement, on peut utiliser le test de Spearman.

c ) Test non paramtrique bas sur le coecient de corrlation empirique de Spearman


On reprend l'exemple 1.
1. Postulat requis
On utilise le test pour des variables X et Y continues (ce qui priori exclut les ex-aequo). La loi du
couple est quelconque.
La prsence de nombreux ex-aequo, surtout sur des chantillons petits aecte le rsultat du test, voir
le point 3. ci-dessous.
2. Droulement du test
(a) Hypothses du test
On teste ici l'existence d'une liaison qui n'est pas ncessairement linaire.
H0 : les variables sont indpendantes
H1 : les variables sont lies (positivement, ngativement)
Risque x.
matrice des corrlations, on trouve t = 2, 4158,
Calculateur de probabilits / Corrlations de Statistica,

2. Calcul de la p-valeur avec Statistica. Dans la sortie dtaille du module

df = 10

p = 0, 03662 associe t
p-valeur p partir de r .

et la p-valeur

on peut obtenir la

. Dans le module

10

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

(b) Statistique du test Le test est bas sur le coecient de corrlation empirique de Spearman, calcul
sur les donnes apparies de l'chantillon.
i. Dnition et formule de calcul sur l'chantillon

Sur l'exemple 1

On ordonne sparment les xi et les yi pour transformer les donnes en rangs. Le coecient de
corrlation de Spearman est le coecient de corrlation linaire entre les deux sries apparies
de rangs :
 On classe les n mesures xi par ordre croissant. On attribue le rang 1 la plus petite valeur
et le rang n la plus grande. On note x0i le rang de la mesure xi .
 On classe les n mesures yi par ordre croissant. On note yi0 le rang de la mesure yi .
 S'il y a des ex-aequo, on calcule les rangs moyens. Aprs les deux classements, on dispose
de deux sries apparies de rangs.
 Le coecient de corrlation de Spearman rS (x, y) est dni par rS (x, y) = r(x0 , y 0 ).
Dans le cas o il n'y a pas d'ex-aequo, on dispose de la formule de calcul suivante :
rS (x, y) = 1

(x0i yi0 )2
.
n (n2 1)

Cette formule reste utilisable quand il y a peu d'ex-aequo.


Calcul de rS (x, y) pour les donnes de l'exemple 1 :
n = 12
xi
yi
rang x0i
rang yi0
x0i yi0
(x0i yi0 )2
P 0
(xi yi0 )2

123 144 105 110 98 138 131 90 119 109 125 100
102 138 126 133 95 146 115 100 142 105 130 120
8 12
4
6 2 11 10
1
7
5
9
3
3 10
7
9 1 12
5
2 11
4
8
6
5
2
-3
-3 1
-1
5
-1
-4
1
1
-3
25
4
9
9 1
1 25
1 16
1
1
9
6102
= 102 et rS (x, y) = 1 12(122 1) = 0, 643.

ii. Proprits
 Le coecient de Spearman est toujours compris entre -1 et 1.
Pour deux classements identiques, on a rS = +1.
Pour deux classements en opposition parfaite, on a rS = 1.
Lorsqu'il n'y a aucune relation entre les rangs, on a rS = 0.
Pour la corrlation entre les deux variables :
Le coecient de Spearman n'apporte aucune information sur la forme de la relation entre les
variables. Il renseigne sur une relation monotone  croissante  ou  dcroissante .
 Le signe renseigne sur le sens de la corrlation : positive ou ngative. Les variables ont
tendance varier dans le mme sens ou bien en sens opposs.
Les valeurs 1 correspondent une relation croissante ou dcroissante parfaite entre les
deux variables.
iii. Exemple 2.

11

II

ETUDE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES

graphique 6
Le nuage de points montre une relation dcroissante entre X et Y . Il y a deux ex-aequo dans
les valeurs yi . Ces deux valeurs occupent les rangs 7 et 8. On leur attribue le rang moyen
7, 5. La prsence des ex-aequo fait que la relation n'est pas parfaitement dcroissante. Cela se
traduit par des couples de rangs quasiment aligns (aux ex-aequo prs) et par un coecient
de Spearman de 0, 9991.
(c) Loi de la statistique RS sous H0
RS prend ses valeurs entre -1 et 1. La loi est symtrique par rapport au centre 0. Elle dpend de
n.
Pour n petit, n 30, la loi exacte est tabule.
Pour n > 30, on utilise une approximation normale de la loi. 3
(d) IA, RC et rgle de dcision base sur la p-valeur
 Si H0 est vraie, les variables sont indpendantes et il n'y a donc aucune relation entre les rangs.
On s'attend donc observer sur l'chantillon un coecient proche de 0. Les valeurs de RS les
plus proches de 0 sont les plus conformes H0 .
 Si H1 est vraie, on s'attend au contraire observer un coecient plus proche de 1. Les valeurs
extrmes de RS sont les plus signicatives de H1 .
La RC est aux deux extrmits du domaine de RS .
3.

Approximation normale

Pour

n > 30,

sous

H0 ,

on peut faire l'approximation normale

Statistica utilise pour le test la statistique de Student.

12

n 1RS

approxt

N (0, 1) .

IV

LIAISON ENTRE DEUX VARIABLES QUALITATIVES

 p-valeur
Exemple : n = 12 ; = 5 %. obs = PH0 (|RS | |rs (x, y)|) = 0, 02692.
Dcision : obs < .
On rejette H0 et on conclut l'existence d'une liaison entre les deux QI au risque d'erreur
= 5 %...
(e) Remarques
 Si l'on veut tester une liaison positive, la RC est situe droite du domaine et dans ce cas, on
a obs = PH0 (RS rs (x, y)).
Exemple modi : H1 : les QI sont lis positivement. n = 12 ; = 5 %.
On a obs = PH0 (RS 0, 643) = 0, 01346.
 Si l'on veut tester une liaison ngative, la RC est situe gauche du domaine et dans ce cas,
on a obs = PH0 (RS rs (x, y)).
3. Problme des ex-aequo
En prsence d'ex-aequo, on calcule les rangs moyens. Il est prfrable de calculer le coecient avec la
formule du coecient de corrlation linaire.
Pour n < 30, on considre dans ce cours que l'on peut appliquer le test s'il y a trs peu d'ex-aequo (2
ou 3).
Pour n 30, on peut l'appliquer sans problme (calcul approximatif de la p-valeur).

III Relation entre une variable qualitative et une variable quantitative


Les deux variables ne jouent pas un rle symtrique. On veut tudier l'inuence d'une variable qualitative
(par exemple le sexe) sur une variable quantitative (par exemple le salaire).
L'tude sera faite dans le cadre d'une anova : analyse de la variance un facteur.

IV Liaison entre deux variables qualitatives


Cette dernire partie n'est pas au programme de ce cours. Le test du khi-deux d'indpendance qui est rappel
ci-dessous a t trait dans le cours de statistique de 3e anne de licence.
Exemple 3 :
On utilise les donnes releves sur un chantillon de 50 enfants de 2 16 ans sourant d'un TSPT (trouble
de stress post-traumatique ) la suite d'un accident domestique ou de circulation.
P : enfants de 2 16 ans sourant d'un TSPT la suite d'un accident domestique ou de circulation.
Variable X : sexe, qualitative L = 2 modalits (Ai ) .
Variable Y : type d'accident, qualitative C = 2 modalits (Bj ).
On veut tudier la relation entre le sexe et le type d'accident survenu.
Pour les 50 enfants de l'chantillon, on a relev le sexe et le type d'accident survenu.
1 )

Etude descriptive des donnes

La relation est tudie partir du tableau de contingence construit partir des donnes. Elle est mesure
par dirents coecients d'association.

13

IV

LIAISON ENTRE DEUX VARIABLES QUALITATIVES

a ) Tableau de contingence
On croise les deux variables et pour chaque couple de modalits (Ai , Bj ), on relve l'eectif observ nij :
nombre d'individus prenant simultanment les deux valeurs.
Les LC eectifs observs sont donnes dans un tableau de contingence.

Tableau 1. Eectifs observs nij

Sexe \ Accident
circulation
domestique
Totaux lignes Li
lle
10
9
19
garon
19
12
31
Totaux colonne Cj
29
21
n = 50
On a calcul les marges du tableau : totaux lignes Li et totaux colonne Cj .

b ) Tableau des eectifs thoriques


A partir des eectifs marginaux Li et Cj , on peut calculer les eectifs attendus lorsque X et Y sont indpendantes.
Ces eectifs thoriques, nots eij , sont donns par la formule
eij =

Sexe \Accident
lle

Li Cj
.
n

Tableau 2. Eectifs thoriques eij


circulation

19 29
= 11, 02
50
31 29
= 17, 98
50

domestique

19 21
= 7, 98
50
31 21
= 13, 02
50

Totaux lignes Li
19

31
garon
Totaux colonne Cj
29
21
50
Ex. Les lles reprsentent L1 /n = 19/50 = 38% des enfants de l'chantillon. S'il n'y pas de lien entre
les variables, on s'attend trouver 38% de lles chez les enfants ayant subi un accident domestique (soit
2919/50 = 11, 02 lles) et 38% de lles chez les enfants ayant subi un accident domestique (soit 2119/50 =
7, 58 lles).

c ) Coecients d'association
La liste n'est pas exhaustive. Le coecient le plus important est celui du khi-deux qui est utilis pour tester
l'indpendance des deux variables partir d'un chantillon d'individus.
 Coecient du khi-deux q 2
Le coecient est une mesure de  l'cart la situation d'indpendance .
Il mesure la distance globale entre les eectifs nij relevs et les eectifs thoriques eij attendus lorsque X
et Y sont indpendantes :
q2 =

X (nij eij )2
= 0, 363.
eij

 le coecient est positif ou nul ; la valeur 0 correspond l'indpendance des variables.


La valeur du coecient augmente avec l'intensit de la relation mais aussi avec n et avec L et C , ce qui le
rend dicilement interprtable.
r
2

 Coecient Phi-deux 2 =
ou Phi =
.
n
n
On limine l'eet de la taille n mais la valeur augmente encore avec L et C . On l'utilise surtout pour des
tables 2x2 car alors il est compris entre 0 et 1.
14

IV

LIAISON ENTRE DEUX VARIABLES QUALITATIVES

 Coecient
de Cramer
r
V =
2 )

2
o d = inf(L, C). Le coecient est compris entre 0 et 1.
d1

Test d'indpendance pour deux variables qualitatives

On reprend l'exemple 3.
Pour tester l'existence d'une liaison entre le sexe et le type d'accident survenu, on utilise le test du khi-deux
d'indpendance.

a ) Les direntes tapes du test


1. Les hypothses et le niveau du test
H0 : les variables sont indpendantes
H1 : les variables sont lies
= 5%

2. Les observations
On dispose d'un chantillon de taille n = 50. Les 2 chantillons apparis de mesures sont rsums par
la distribution des eectifs joints observs nij donne dans le tableau 1.
3. La statistique du test : statistique du khi-deux
On utilise le coecient empirique du khi-deux, not Q2 dans le cours et dni par la formule
Q2 =

X (Nij eij )2
.
eij

 Les valeurs de Q2 sont positives ou nulles. Plus la valeur est grande et plus l'cart l'indpendance
observ sur l'chantillon est important.
2 = 0, 363.
 Sa valeur observe est qobs
4. loi de Q2 sous H0
Sous les conditions n 30 et tous les eij 5, la statistique Q2 suit approximativement la loi du
khi-deux (L 1)(C 1) = 1 ddl.
5. Rgion de rejet de H0 associe = 5%
Sous H0 , on s'attend observer une valeur de Q2 proche de 0. Plus la valeur de Q2 est grande et plus
elle est en faveur de H1 .
La rgion de rejet est situe l'extrmit droite du domaine. Elle contient les 5% de valeurs les plus
grandes de Q2 .
6. p-valeur obs
C'est la probabilit sous H0 d'observer une valeur de Q2 au moins aussi grande que 0,363 :
obs = PH0 (Q2 0, 363) = 0, 547.

7. Dcision
Rgle base sur la p-valeur : si obs , on rejette H0 au risque d'erreur .
La p-valeur dpasse (largement) le niveau 5% choisi. On ne peut pas rejeter H0 . On ne peut pas
conclure (au niveau 5% et avec un risque d'erreur inconnu) qu'il existe un lien entre le sexe et le type
d'accident survenu.
15