Vous êtes sur la page 1sur 19

Chapitre 3 : Analyse bivariée

() 1 / 19
I. Tableau de contingence et khi-carré

Objectif
L’objectif du Tableau de contingence et khi-carré est d’étudier les liens
entre deux variables qualitatives mesurées sur une même population.

() 2 / 19
I. Tableau de contingence et khi-carré

1. Tableau de contingence
Soient X et Y deux variables qualitatives à p et q modalités,
respectivement. Le croisement de ces deux variables se fait en dressant le
tableau de contingence suivant :

X |Y y1 . . . yj . . . yq
x1 n11 . . . n1j . . . n1q n1.
..
.
xi ni1 . . . nij ... niq ni.
..
.
xp np1 . . . npj . . . npq np.
n.1 . . . n.j . . . n.q n

() 3 / 19
I. Tableau de contingence et khi-carré
Dans ce tableau
q
ni. = ∑ nij , (Total ligne)
j =1
p
n.j = ∑ nij , (Total ligne)
i =1
p q
n= ∑ ∑ nij , (Total)
i =1 j =1
Profil ligne i :
On divise chaque terme de la ligne i par l’effectif de la ligne
ni1 nij niq
li : ... ...
ni. ni. ni.
Profil marginal correspondant :
n.1 n.j n.q
fj : ... ...
n n n
() 4 / 19
I. Tableau de contingence et khi-carré

Si les deux variables qualitatives X et Y étaient indépendantes, les profils


lignes seraient tous identiques, et donc identiques au profil marginal
correspondant.
nij n.j ni. n.j
= , ou encore nij =
ni. n n
Souvent cette relation est exprimée par

fij = fi. f.j


nij n.j
avec fij = n , fi.= nni. et f.j = n .
Remarque : On pouvait établir la relation précédente en raisonnant sur
les profils colonnes.

() 5 / 19
I. Tableau de contingence et khi-carré

2. Définition du Khi-deux
Pour mesurer l’indépendance des deux variables X et Y , on utilise des
tests d’hypothèses.
On a donc deux hypothèses :
• H0 : X et Y sont indépendantes.
• H1 : X et Y ne sont pas indépendantes.
Pour chaque case du tableau de contingence, on peut calculer le nombre
de cas attendus (théoriques) (sous l’hypothèse d’indépendance)

ni. n.j
Eij = nfi. f.j =
n

() 6 / 19
I. Tableau de contingence et khi-carré

On aura le tableau suivant :

X |Y y1 . . . yj . . . yq
x1 E11 . . . E1j . . . E1q
..
.
xi Ei1 . . . Eij ... Eiq
..
.
xp Ep1 . . . Epj . . . Epq
Pour comparer les nombres de cas attendus Eij aux nombres observés nij .
On utilise la statistique
p q ni. n.j 2
(nij − n )
χ2 = ∑∑ ni. n.j
i =1 j =1 n
p q
(nij − Eij )2
χ2 = ∑∑
i =1 j =1 Eij
() 7 / 19
I. Tableau de contingence et khi-carré

3. Test
Si les deux variables sont indépendantes, cette expression de χ2 suit une
distribution du Khi-deux avec un nombre de degrés de liberté égal à :
(p − 1)(q − 1).
Dans une table statistique on lit χ2α,k : c’est la valeur ayant une probabilite
α d’être dépassée pour une distribution du khi-deux avec
k = (p − 1)(q − 1) degrés de liberte.
Si χ2 ≤ χ2α,k on accepte H0 : independance
Si χ2 > χ2α,k on rejette H0 .

() 8 / 19
I. Tableau de contingence et khi-carré

Remarque :
Les logiciels statistiques proposent la présentation suivante :
- Calcul du χ2 .
- Calcul de la probabilité (p-value) pour une v.a. suivant une loi du
khi-deux a (p − 1)(q − 1) d.d.l. de dépasser χ2 .
Si cette p-value est faible (en général < 5% ), on rejette l’hypothèse
d’indépendance entre les deux variables qualitatives.

() 9 / 19
I. Tableau de contingence et khi-carré

Exemple : Test d’indépendance du khi-deux


[Voir fichier]

() 10 / 19
II. Analyse de la variance

L’analyse de la variance (ANalysis Of VAriance=ANOVA) à un


facteur permet l’étude de la relation entre deux variables statistiques,
une quantitative Y et une qualitative X ou facteur qui engendre k
classes (ou populations).
L’objectif est de comparer les distributions de Y pour chacune des
classes de X , en particulier les moyennes.
II. Analyse de la variance I

Données
Pour chaque classe j de X (j = 1, . . . , k), on observe nj valeurs Yij
(L’indice i pour l’individu, j pour la classe) de la variable Y . On pose
N = ∑kj=1 nj .
Décompositionde la variance
La moyenne et la variance dans chaque classe (population) j sont :
nj nj
1 1
Ȳj =
nj ∑ Yij , sj2 = nj ∑ (Yij − Ȳj )2
i =1 i =1

La moyenne sur tout l’échantillon est


k nj
1
Ȳ =
N ∑ ∑ Yij
j =1 i =1

() 12 / 19
II. Analyse de la variance

Soit µj la moyenne théorique de la classe j ; elle est estimée (sans biais)


par Ȳj .
On considère la décomposition suivante des sommes de carrés :

(Yij − Ȳ ) = (Yij − Ȳj ) + (Ȳj − Ȳ )

(Yij − Ȳ ) : représente l’écart total ;


(Yij − Ȳj ) : représente l’écart résiduel ;
(Ȳj − Ȳ ) : représente l’écart factoriel.

() 13 / 19
II. Analyse de la variance
Donc
k nj k nj k nj
2 2
∑ ∑ (Yij − Ȳ ) = ∑ ∑ (Yij − Ȳj ) +∑ ∑ (Ȳj − Ȳ )2
j =1 i =1 j =1 i =1 j =1 i =1
! "# $ ! "# $ ! "# $
SCT (total ) SCR (within,intra) SCF (between,inter )

Test
Il s’agit de la comparaison de plusieurs moyennes.
Hypothèses à tester : On considère l’hypothèse

H0 : µ 1 = µ 2 = . . . = µ k

qui revient à dire que la moyenne est indépendante de la classe ou que le


facteur n’a pas d’effet, contre l’hypothèse

H1 : ∃(i, j ) tel que µi ̸= µj


qui revient à reconnaitre un effet ou une influence du facteur sur Y .
() 14 / 19
II. Analyse de la variance

Estimation des variances


Les estimations des variances associées sont :
SCT
Variance totale : N −1 ;
SCF
Variance due au facteur : k −1 , estimateur de σ2 si H0 est vraie ;
SCR
Variance résiduelle : N −k , estimateur de σ2 quelque soit le modèle.
Tableau de l’analyse de la variance

Source de variation SC ddl CM F


SCF /k −1
Total SCT N −1 SCT /N − 1 SCR/N −k
SCF
inter SCF k −1 k −1
SCR
Intra SCR N-k N −k

SC = Somme des carrés. CM = Variances. ddl = degré de liberté.

() 15 / 19
II. Analyse de la variance

Critère de décision
Soit la statistique
SCF /k − 1
F =
SCR/N − k
Sous H0 , F suit une loi de Fisher F (k − 1, N − k ) de degrés de
liberté k − 1 et N − k..
Soit α le risque d’erreur et F(1−α)(k −1,N −k ) le quantile d’ordre (1 − α)
de la loi de Fisher F (k − 1, N − k ).

() 16 / 19
II. Analyse de la variance

Conclusion : règle de décision


Si F > F(1−α)(k −1,N −k ) , l’hypothèse H0 est rejetée au risque d’erreur
α : le facteur controlé a un effet significatif en moyenne sur les valeurs
de la variable étudiée.
Si F ≤ F(1−α)(k −1,N −k ) l’hypothèse H0 est acceptée : le facteur
controlé n’a pas d’effet significatif en moyenne sur les valeurs de la
variable étudiée.
Remarque : (Logiciel) La p − valeur = P (Fobs ≤ F ), on rejette H0 si
p − valeur < α.

() 17 / 19
II. Analyse de la variance

Conditions d’application de l’ANOVA :


On suppose qu’à l’intérieur de chaque classe (population) j :
Normalité : les observations sont distribuées selon une loi normale.
(pour que le rapport des variances suive une loi de fisher) ;
Homoscédasticité : Egalité des variances des observations des
différents classes (σ2j = σ2 ) ;
Indépendence des données : Les données sont échantillonnées de
façon indépendante.

() 18 / 19
II. Analyse de la variance

Vérification des conditions d’application de l’ANOVA


Normalité :
• Inspection graphique des données ;
• Densité de probabilité - plot des quantiles normaux (qq norm)
• Tests de normalité : Kolmogorov-Smirnof, Shapiro Wilk’s, ou
Lilliefors ;
Homoscédasticité : Tests de Lévène, Bartlett ;
Indépendence des données : ceci dépend du plan d’échantillonage.

() 19 / 19

Vous aimerez peut-être aussi