Vous êtes sur la page 1sur 7

contenu

menu
navigation
pied de page

Introduction à l'analyse de données quantitatives Deuxième


semestre 2011-2012 - Mehdi Khaneboubi Université de Cergy-
Pontoise
A. Objectifs
B. 1-introduction à l'analyse de données
C. 2-Le vocabulaire de la statistique
D. 3-Les graphiques
E. 4-Résumés de variables quantitatives : moyenne et médiane
F. 5-Résumés de variables quantitatives : les caractéristiques de dispersion
G. 6-Construire un tableau de contingence
H. 7-Le test de khi-deux
1. Introduction
2. Le test de khi deux de contingence : à quoi ça sert ?
3. Le test de khi-deux pas à pas
4. Le test de khi-deux avec R
5. Le test de Khi-deux avec un tableur
I. 8-Situation problème
J. Conclusion

Le test de khi-deux pas à pas

Méthode
Les grandes étapes d'application du test de khi-deux de
contingence

A - Identifier si le test de khi-deux est applicable sur le tableau.


B - Si oui, formuler l'hypothèse d'indépendance : "On fait l'hypothèse qu'il y
a une relation d'indépendance entre les lignes et les colonnes du tableau".
C - Calculer l'indicateur de khi-deux en calculant le tableau des effectifs
théorique et le tableau des écarts à l'indépendance.
D - Confronter l'indicateur de khi-deux à la table de loi de khi-deux ce qui
nous permet d'accepter ou de rejeter l'hypothèse d'indépendance.
E - Interpréter les résultats du test en examinant le tableau d'origine (ou
tableau des effectifs observés), le tableau des effectifs théoriques et le
tableau des écarts à l'indépendance
Voici notre notre tableau de départ intitulé "Faites-vous faire des recherc
internet à vos élèves  ?". L'effectif total est de 179 observations, chaque
tableau a plus de 5 observations, les conditions d'applications du test de k
de contingence sont donc réunis.

Formulons l'hypothèse d'indépendance : il y a indépendance entre les lign


colonnes de ce tableau. Autrement dit, notre hypothèse est  : "Dans cet éch
de réponses à un questionnaire, il n'y a pas de lien statistique significat
l'utilisation d'internet par les élèves et la discipline enseignée".

T
1) Ajoutons à ce tableau une ligne et une colonne de totaux. Appe
tableau .

La ligne et la colonne de totaux sont appelées marges du tableau.

T0
2) Calculons le tableau des effectifs théoriques ou tableau d'indépenda
l'on appelle . Ce calcul s'effectue grâce aux marges du tableau.

Méthode

On calcule l'effectif théorique de chaque case du tableau


multipliant les totaux qui lui correspondent et en divisant p
l'effectif total.
Ainsi pour la première case du tableau on multiplie le nombre to
d'enseignants appartenant à une discipline dominante ( ) par
nombre total de réponses "oui" ( ) divisé par l'effectif total (

Pour la deuxième case du tableau (celle des enseignants apparten


à une discipline dominante ayant répondu non) on fait la mê
chose :

et ainsi de suite pour chaque case du tableau :

On obtient ainsi le tableau des effectifs théoriques ou table


d'indépendance.

Le tableau des effectifs théoriques ou d'indépendance représen


distribution équiprobable c'est à dire la distribution pour laquelle il n'y
lien statistique entre les deux variables. Nous allons maintenant comp
tableau à notre tableau d'origine.

R^2
3) Le test de khi-deux est une méthode pour comparer le tableau et le
. Pour ce faire on va soustraire termes à termes chaque cases du tabl
chaque case du tableau on va appeler ce nouveau tableau . En
effectue l'opération termes à termes
Nous n'avons pas besoin pour le moment de la colonne et de la ligne de

Une fois le calcul effectué notre tableau est le suivant :

On va ensuite élever chaque terme au carré pour obtenir le tableau

R^2/T_0
4) Enfin on divise termes à termes le tableau par le tableau des
théoriques
On remet ensuite les colonnes de totaux pour obtenir le tableau suivant

L'indicateur du khi deux est le total de ce tableau soit 5,67. On ap


tableau, le tableau des écarts à l'indépendance ( ).

Interprétation de l'indicateur de khi-deux


5) Consulter la table de loi de khi deux
Pour connaître le résultat du test il est nécessaire de consulter la tabl
de khi deux comme celle-ci (http://nte-serve
lyon1.fr/nte/immediato/math2000/TABLES/Khi2EnTete.htm) (en ligne) o
ci () (hors ligne en pdf).

Qu'est ce c'est que cette table ?

Dans notre situation, c'est un moyen d'évaluer la "rareté" de notre ind


de khi-deux en fonction du nombre de ligne et de colonne de notre tab
colonne figure une probabilité, c'est la "rareté" d'un indicateur de k
(que nous venons de calculer) et c'est ce que nous cherchons à éva
travers du test de khi-deux d'indépendance. Pour plus de précision
construction de cette table rendez-vous sur w
(http://fr.wikipedia.org/wiki/Loi_de_probabilit%C3%A9) .
En bref, cette table va nous permettre de trouver une probabilité d'acc
de l'hypothèse d'indépendance en fonction de notre indicateur de khi de

Qu'est ce que l'hypothèse d'indépendance ?

Lorsque l'on réalise notre test, on fait l'hypothèse qu'il n'y a pas de di
significative entre le tableau et le tableau . C'est ce que l'on
l'hypothèse d'indépendance (parfois appelée hypothèse nulle ou ). À
du test on se prononce sur l'acceptation ou le rejet de cette hy
d'indépendance.
Si on ne peut pas accepter l'hypothèse d'indépendance quelle est la pro
que l'on se trompe ? La table de la loi de khi-deux nous permet d'évalu
probabilité.
En pratique, comme nous allons le voir plus loin, un logiciel de tra
statistique qui se respecte réalise cette opération automatique
notre place et fournit directement la probabilité souvent appelée p-

Comment lire cette table ?


Dans tous les cas une seule ligne de cette table nous intéresse. On do
d'abord identifier à quelle ligne du tableau nous devons nous report
ensuite trouver le seuil de probabilité d'acceptation ou de rejet de l'hy
d'indépendance.
En ligne figurent les degrés de libertés (appelé sur cette table ()
calculer le nombre de degrés de liberté d'un tableau, c'est très sim
effectue le calcul suivant :
(nombres de lignes – 1) (nombres de colonnes – 1)
Notre tableau d'origine a 2 lignes (“disciplines dominantes” et “dis
secondaires”) et 2 colonnes (“oui” et “non”). Le nombre de degré de libe
donc de :
On va donc s'intéresser à la première ligne de la table.
Notre indicateur de khi deux est de 5,67 il se situe donc entre la 1
12ème colonnes. En effet 5,67 est compris entre 5,02 et 6,63.
Explications  : On peut considérer que cette table est construite en ti
hasard un très grand nombre de tableaux croisés et en les dénombran
l'intersection entre la 11ème colonne et le première ligne de l
indique que 2,5% ( ) des tableaux de contingenc
degré de liberté, ont un indicateur de khi-deux supérieur ou égal à 5

En colonne figure ce que l'on peut considérer comme le seuil de pro


d'acceptation ou de rejet de l'hypothèse d'indépendance.
Comme 5,02 correspond à 0,975 on peut dire que nous rejetons l'hy
d'indépendance au seuil de 0,975. Autrement dit, on rejette l'hy
d'indépendance entre les lignes et les colonne de notre tableau avec
(0,975) de chances de ne pas se tromper ou bien avec 2,5% (que l'on ap
value=1-0,975=100%-97,5%=2,5%) de chances de se tromper.
Par convention, on rejette le plus souvent l'hypothèse d'indépendance
l'on a au maximum 5% de chance de se tromper. Si le p-value a
supérieur à 5% on aurait accepté l'hypothèse d'indépendance. Par exe
notre indicateur de khi-deux avait été de 2,71, ce qui correspond à
value=1-0,900=0,10=10% on aurait accepté l'hypothèse d'indépendan

Conclusion du test
Khi deux = 5,67

Degrés de liberté = (nombre de lignes-1) x (nombres de colonnes -1) =


Seuil de rejet ou p-value : inférieur à 2,5 %

On rejette l'hypothèse d'indépendance entre les lignes et les colon


tableau avec moins de 2,5 % de chances de se tromper. On peut donc a
avec moins de 2,5 % de chances de se tromper, qu'il existe, dans ce tab
lien entre le type de disciplines enseignées et l'utilisation d'internet
élèves.

Complément

En examinant le tableau ou tableau des écarts à l'indépendan


on constate que l'indicateur de khi-deux est principalement le fait d
enseignants de disciplines secondaires.

En effet, les deux valeurs les plus importantes du tableau des écart
l'indépendance ( ) correspondent aux enseignants des disciplin
secondaires :
- on avait 14 enseignants de cette catégorie qui ont répondus "n
dans notre tableau , on en attendaient 21 dans le tableau , et c
correspond à soit 41,9% de l'inertie de l'indicateur de khi-de
dans le tableau des écarts à l'indépendance.
- même chose pour ceux qui ont répondu "oui" avec 37 répon
observées ( ) alors que l'on en attendait presque 30 ( ) et que c
correspond à soit 29,4% de l'inertie du khi-deux dans le table
des écarts à l'indépendance.

Remarque

En général, les tests de khi deux, et les analyses descriptives


générale, ne permettent pas de répondre à la question : pourquoi
est nécessaire de confronter ces résultats a des éléments n
statistiques comme le contexte de réalisation de l'enquête,
entretiens, des observations pour comprendre le phénomène...

Ce n'est pas clair ?


L'activité qui va suivre va vous permettre de comprendre comment m
œuvre le test de Khi-deux avec R. Vous allez constater que c'est beauco
simple à faire qu'à expliquer.
Néanmoins, je vous recommande vivement la lecture de cet exce
indispensable document de Julien Barnier consultabl
(http://alea.fr.eu.org/j/test_khi2.html) ou ici (http://alea.fr.eu.org/pag
ainsi que celui-ci (http://cibois.pagesperso-orange.fr/EcartsIndependan
de Philippe Cibois qui vont éclaircir grandement ce que je viens d'expos
Accessoirement vous pouvez aussi consulter les sites web de ces deux
ou vous trouverez beaucoup de ressources claires, utiles et adap
débutants à propos du khi-deux sur le site de Philippe
http://cibois.pagesperso-orange.fr/Text.html (http://cibois.pag
orange.fr/Text.html) et à propos du logiciel R  sur le site de Julien B
http://alea.fr.eu.org/ (http://alea.fr.eu.org/) (http://alea.fr.eu.org/j/) .
Mehdi Khaneboubi 2011-2012

Vous aimerez peut-être aussi