Théorie Du Khi2

Tout ce que vous navez jamais voulu savoir sur le 2 sans jamais avoir eu envie de le demander
Julien Barnier Groupe de Recherche sur la Socialisation CNRS UMR 5040 julien.barnier@ens-lyon.fr 26 janvier 2011
Table des matires

1 Introduction 1.1 propos de ce document 1.2 Mode demploi . . . . . . 1.3 Le test du quoi ? . . . . . 1.4 Et sinon, a sert quoi ? . 3 3 3 4 4 5 5 6 7 8 8 9 10 11 13 13 14 17 19 20 21 22 22 22 23 24 25 26 26 30 30 31 33 33 34 35 36
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
2 Lhypothse dindpendance 2.1 Petits rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Lindpendance des lignes et des colonnes . . . . . . . . . . . . . . . . . . . . . . . 2.3 En rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Calculer lindpendance 3.1 Le biais dchantillonnage . . . . . . . 3.2 Contraintes sur les marges du tableau 3.3 Calculs des eectifs thoriques . . . . 3.4 En rsum . . . . . . . . . . . . . . . . 4 Calcul du 2 dun tableau 4.1 Observons les carts . . . . . . . 4.2 Variations lchelle dune cellule 4.3 2 partiels et 2 du tableau . . . 4.4 Les degrs de libert . . . . . . . 4.5 Le calcul nal . . . . . . . . . . . 4.6 En rsum . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
5 Interprtation 5.1 Rsum des pisodes prcdents . . . . 5.2 Valeur du p . . . . . . . . . . . . . . . 5.3 Le test du 2 est symtrique . . . . . 5.4 Le test du 2 dpend du dcoupage en 5.5 Le test du 2 dpend des eectifs . . . 5.6 Le test du 2 ne mesure pas lintensit 5.7 Les rsidus . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . modalits . . . . . . . . . . . . . . de la dpendance . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
6 Limites 6.1 Fausse limite : quand les eectifs thoriques sont trop faibles . . . . . . . . . . . . 6.2 Vraie limite : les variables caches . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Ranements 7.1 Le V de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 La correction de continuit de Yates . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Le test exact de Fisher pour les tableaux 2 2 . . . . . . . . . . . . . . . . . . . . 8 Aide-mmoire
Partie 1
Introduction
1.1 propos de ce document
Ce document a pour ambition dessayer de prsenter les principes du test statistique dit test du 2 , autant que possible de manire pas trop rbarbative. On insistera trs peu sur le mode de calcul eectif (tous les logiciels de statistiques actuels sen chargent bien mieux que nous) et beaucoup plus sur les concepts sur lesquels le test repose.
A La version de rfrence de ce document ainsi que le code source L TEX sont disponibles ladresse :
http://alea.fr.eu.org/pages/khi2 Tous les chiers relatifs ce document sont diuss sous licence Creative commons . Contributions : nos remerciements Denis Duplan pour sa remarque sur lutilisation des carrs des carts, et Julien Biaudet pour avoir pris le temps de nous signaler plusieurs coquilles.
1.2
Mode demploi
limage de son titre, ce document est long. Trs long. Trop long. La lecture intgrale de ce document pourrait avoir des consquences en termes dquilibre psychique et dexacerbation de sentiments agressifs lgard de son prochain que nous ne saurions valuer de manire parfaitement rigoureuse. Le principe de prcaution nous dicte donc de prvoir des modes de lecture alternatifs. Voici donc un plan rapide de ce qui suit an que ceux qui le souhaitent naient pas supporter la lecture de lensemble : la partie 2 prsente lhypothse dindpendance, qui est au cur du test du 2 . La partie 3 prsente la manire dont cette hypothse dindpendance se traduit par le calcul dun tableau deectifs thoriques ; la partie 4 prsente les direntes tapes de calcul du 2 dun tableau et les rsultats quon peut en tirer ; la partie 5 se penche sur linterprtation qui peut tre faite des rsultats du 2 , et notamment sur les facteurs qui inuencent la valeur du test ; la partie 6 aborde les limites lies au test et quil faut prendre en compte dans linterprtation ; la partie 7 indique des subtilits ou des complments au test. Elle peut tre joyeusement ignore en cas de premire lecture. 3
Introduction
Enn, la partie 8 se veut un rcapitulatif des dirents points importants retenir. Chacun dentre eux est accompagn du numro de la page correspondant si on souhaite un peu plus de dtail. Cette partie peut tre utilise comme porte dentre pour le reste du document si on ne souhaite pas une lecture linaire intgrale.
1.3
Le test du quoi ?
Premire interrogation : comment a se prononce ? Le nest pas un X mais bien une lettre grecque dont le petit nom est khi, lequel se prononce qui . Et le 2 , qui pourrait se prononcer au carr , se prononce plutt tout simplement deux . Moralit, si vous souhaitez briller dans un congrs international de statistiques, dites test du qui-deux plutt que test du x-au-carr 1 .
1.4
Et sinon, a sert quoi ?
En une phrase, le test du 2 permet de dterminer la probabilit que les lignes et les colonnes dun tableau crois sont indpendantes 2 . Dit autrement, il permet dvaluer si la rpartition des eectifs dans une table de contingence est signicativement dirente de celle de la table calcule sous lhypothse dindpendance des deux variables croises. Comme tout cela est absolument incomprhensible, nous allons commencer par dnir les concepts de base, et en premier lieu le terme dindpendance.
1. Quoi que lexpression qui-carr semble galement tout fait acceptable, dautant que la version anglaise est chi squared . 2. Note pour les puristes : nous nabordons dans ce document que le test du 2 de contingence, cest--dire celui qui teste lindpendance des lignes et des colonnes dun tableau crois. On ne parlera pas des autres applications de la statistique du 2 , notamment pour tester ladquation une loi ou une rpartition donne.
Partie 2
Lhypothse dindpendance
2.1 Petits rappels
Une variable qualitative est une variable qui mesure une donne pouvant tre dcoupe en un nombre restreint de modalits, par exemple : le genre de lenqut : homme, femme ; la couleur de son arrosoir : vert, rouge, bleu, noir. . . ; son ge en classes de cinq ans : 21-25 ans, 26-30 ans, 31-35 ans. . . ; le dernier livre quil a lu : Tractatus logico-philosophicus, Oui-oui et la voiture jaune . . .
Une table de contingence, ou tableau crois, est un tableau qui indique les eectifs du croisement entre deux variables qualitatives. Un petit exemple, croisant lge et le dernier livre lu par la personne interroge :
0 10 ans Tractatus Logico-philosophicus Oui-oui et la voiture jaune 1 854
11 70 ans 15 2
71 ans et plus 2 621
Sur ce genre de tableau, on peut regarder quelle est la rpartition ges des lecteurs de chaque ouvrage. Pour cela on calcule les pourcentages en ligne, cest dire quon divise les eectifs de chaque case par leectif total de la ligne du tableau laquelle elle appartient. Ce qui nous donne ici :
0 10 ans Tractatus Logico-philosophicus Oui-oui et la voiture jaune 5,6 % 57,8 %
11 70 ans 83,3 % 0,1 %
71 ans et plus 11,1 % 42,0 %
Total 100 % 100 %
La lecture de ce tableau donnerait 5,6 % de ceux dont le dernier livre lu est le Tractatus Logico-philosophicus ont entre 0 et 10 ans . On peut aussi regarder la rpartition de la lecture des livres en fonction de lge. Dans ce cas on calcule les pourcentages colonnes, cest dire quon divise les eectifs de chaque case par leectif total de la ligne du tableau laquelle elle appartient. Ce qui nous donne ici : 5
Lhypothse dindpendance
0 10 ans Tractatus Logico-philosophicus Oui-oui et la voiture jaune Total 0,1 % 99,9 % 100 %
11 70 ans 88,2 % 11,8 % 100 %
71 ans et plus 0,3 % 99,7 % 100 %
Ce qui pourrait se lire : 11,8 % des 11 70 ans ont lu comme dernier livre Oui-oui et la voiture jaune . Plutt que de pourcentages lignes et de pourcentages colonnes , on parle galement parfois de prols lignes et prols colonnes .
2.2
Lindpendance des lignes et des colonnes
Lobjectif du test du 2 est de dterminer si les lignes et les colonnes dun tableau crois (cest dire les deux variables tudies) ne sont pas indpendantes. Par indpendantes, on veut dire que le fait dappartenir une modalit de la premire variable na pas dinuence sur la modalit dappartenance de la deuxime variable. Prenons tout de suite un petit exemple avec les deux tableaux suivants, qui croisent le genre et le plat prfr : Homme Choucroute garnie Brocolis vapeur 10 10 Femme 10 10 Choucroute garnie Brocolis vapeur Homme 0 20 Femme 20 0
Dans le tableau de gauche, les eectifs se rpartissent de manire totalement uniforme : le fait dtre un homme ou une femme ne semble avoir aucune inuence sur le plat prfr. On ne peut donc pas parler dun lien entre les deux variables : elles sont indpendantes. Dans le tableau de droite, inversement, on constate que le fait dtre un homme ou une femme conditionne totalement le fait de prfrer la choucroute ou les brocolis. On a donc un lien extrmement fort entre les deux variables : elles ne sont absolument pas indpendantes. Ces deux tableaux prsentent cependant une version quelque peu radicale de lindpendance 1 . Pour obtenir quelque chose dun peu moins caricatural, on peut repartir de la dnition donne plus haut en la reformulant : dire que les lignes et les colonnes dun tableau sont indpendantes, cest dire que la modalit dappartenance en colonne na pas dinuence sur la modalit dappartenance en ligne. Ceci signie donc que la rpartition des eectifs du tableau entre les direntes lignes est la mme quelle que soit la colonne. Dit autrement, cela signie que les pourcentages colonnes du tableau sont identiques pour toutes les colonnes. On comprendra sans doute mieux en regardant le tableau suivant : Homme Choucroute garnie Brocolis vapeur Total 20 % 80 % 100 % Femme 20 % 80 % 100 %
Avec une telle rpartition il est assez naturel den dduire que la prfrence culinaire est indpendante du sexe.
1. Si nous osions, nous parlerions mme de vision tendance indpendantiste.
2.3. En rsum
Comme les lignes et colonnes dun tableau sont parfaitement interchangeables, le raisonnement vaut aussi dans lautre sens, cest dire que lindpendance entre les lignes et les colonnes dun tableau crois signie que les pourcentages lignes de ce tableau sont les mmes pour toutes les lignes.
2.3
En rsum
Il ny a quune seule chose retenir : dire que les variables dun tableau crois sont indpendantes revient dire les trois choses suivantes. 1. le fait dappartenir lune des modalits de la premire variable na aucune inuence sur la modalit dappartenance de la seconde ; 2. les pourcentages lignes du tableau crois sont les mmes pour toutes les lignes ; 3. les pourcentages colonnes du tableau crois sont les mmes pour toutes les colonnes.
Partie 3
Calculer lindpendance
3.1 Le biais dchantillonnage
Les exemples prcdents utiliss pour illustrer ce quest lhypothse dindpendance restent thoriques. En eet, nous ne rencontrerons jamais lors du traitement dune vraie enqute des tableaux o les pourcentages lignes et colonnes sont tous exactement les mmes et o les deux variables croises sont parfaitement indpendantes : dune part car un lien entre deux variables ne se traduit jamais en sciences sociales par du tout ou rien . On pourra toujours trouver une personne sans diplme grande lectrice de Proust ou un spcialiste en droit constitutionnel collectionneur de nains de jardins ; dautre part car les rsultats obtenus sont en partie lis aux personnes interroges. On nomme ce type de variations biais dchantillonnage. Pour mieux comprendre ce quest ce biais, reprenons notre exemple gastronomique prcdent. Imaginons que nous avons une population de 1000 personnes, 500 hommes et 500 femmes. On sait par ailleurs dune part que le sexe na aucune inuence sur le fait de prfrer les brocolis ou la choucroute, et dautre part quil y a autant de personnes qui apprcient les deux plats. Si nous interrogeons tout le monde, nous obtenons donc le tableau suivant : Homme Choucroute Brocolis 250 250 Femme 250 250
Seulement voil, interroger tout le monde prend du temps et cote des sous. On choisit donc en gnral de ninterroger quune partie des gens, disons 100 personnes. Si on choisit ces 100 personnes de manire totalement alatoire, on peut sattendre trouver le tableau suivant : Homme Choucroute Brocolis 25 25 Femme 25 25
Mais en pratique, il sut que Charles-Emmanuel, qui tait malade parce quil avait mang trop de brocolis, ne puisse pas rpondre au questionnaire et quil soit remplac au pied lev par Jean-Kevin qui est un fan de choucroute pour que vous obteniez le rsultat suivant : Homme Choucroute Brocolis 8 26 24 Femme 25 25
3.2. Contraintes sur les marges du tableau
Et en pratique, vous risquez surtout dobtenir quelque chose qui va ressembler lun des tableaux suivants : Homme Choucroute garnie Brocolis vapeur 27 23 Femme 26 24 Choucroute garnie Brocolis vapeur Homme 28 24 Femme 22 26
La question qui se pose, ds lors, est de savoir partir de quand on peut dire que les variations observes sont dues au hasard, et partir de quand on peut estimer quelles sont dues un lien entre les deux variables. Cest tout lobjet du test du 2 . Mais avant den arriver l nous devons regarder dun peu plus prs ce que signie lindpendance entre deux variables qualitatives dans un tableau crois.
3.2
Contraintes sur les marges du tableau
Imaginons maintenant un nouvel exemple. partir dune population de 120 personnes, nous souhaitons tudier le lien entre la couleur des cheveux (bruns, blonds, roux) et la couleur des nils (marrons ou bleus) 1 . La question pose est de savoir quoi ressemblerait notre tableau dans le cas o couleur des cheveux et couleur des nils seraient totalement indpendants 2 . Intuitivement, et cest ce que nous avons fait jusque ici, on pense au tableau thorique suivant : Bruns Marrons Bleus 20 20 Blonds 20 20 Roux 20 20
Table 3.1 Tableau des eectifs thoriques (faux)
Mme eectif dans toutes les cases, et eectif total de 120 correspondant notre population. Comment pourrait-on trouver une plus belle marque dindpendance ? Certes. Mais cette rpartition thorique sappuie sur une hypothse trs forte : elle suppose dune part quil y a autant de bruns, de blonds et de roux dans notre population, et dautre part quil y a autant de personnes aux yeux marrons que de personnes aux yeux bleus. Or cette hypothse est trs probablement fausse. Imaginons que notre tude se passe en Sude. On observerait alors dans notre population de 120 personnes les rpartitions de couleurs des cheveux et des nils suivantes : Bruns 12 Blonds 90 Roux 18 Total 120 Marrons 30 Bleus 90 Total 120
Table 3.2 Rpartition des couleurs des cheveux et des nils dans la population
Rajoutons maintenant notre tableau 3.1 les totaux en ligne et en colonnes :

1. Les donnes qui suivent sont totalement imaginaires et fantaisistes, mais vous laurez sans doute dj devin. . . 2. Dans ce qui suit, on nommera ce tableau sous hypothse dindpendance tableau thorique, mais il faudrait en fait lire tableau de rpartition thorique sous lhypothse dindpendance des lignes et des colonnes.
10
Bruns Marrons Bleus Total 20 20 40
Blonds 20 20 40
Roux 20 20 40
Total 60 60 120
Table 3.3 Tableau des eectifs thoriques (toujours faux)
On voit tout de suite que quelque chose ne colle pas : si on a bien 120 personnes en tout, on a 60 personnes aux yeux marrons et 60 aux yeux bleus, alors que notre population en compte respectivement 30 et 90. Mme chose pour la couleur des cheveux. Cette rpartition avec 20 personnes dans chaque case est donc tout simplement impossible. Petit point de vocabulaire : on appelle les totaux en lignes et en colonnes du tableau 3.3 les marges du tableau crois. Et on nomme les rpartitions des couleurs des cheveux et des nils indiques tableau 3.2 les tris plat de ces variables. En un mot, on vient de rajouter une contrainte forte sur notre tableau thorique de rpartition sous lhypothse dindpendance : les marges de ce tableau doivent correspondre aux tris plat des variables correspondantes dans notre population. Dans ce qui suit, on nommera cette contrainte contrainte sur les marges du tableau de rpartition thorique.
3.3
Calculs des eectifs thoriques
Bon, cest bien gentil tout a, de nous rajouter des contraintes supplmentaires, mais concrtement, il va ressembler quoi notre tableau thorique ? Pour comprendre, nous allons dabord transformer la rpartition des direntes couleurs de cheveux et de nils du tableau 3.2 en pourcentages, ce qui donne le rsultat suivant : Bruns 10 % Blonds 75 % Roux 15 % Total 100 % Marrons 25 % Bleus 75 % Total 100 %
Table 3.4 Rpartition des couleurs des cheveux et des nils dans la population, en pourcentages
Avertissement les trois paragraphes qui suivent peuvent tre un peu pnibles comprendre. Si la lecture des prcdentes sections vous a dj plong dans un tat de lthargie avanc, il est temps daller prendre un caf ou un jus de carottes. Sinon, nhsitez pas relire plusieurs fois les passages incomprhensibles. On se pose la question suivante : sachant que dans une population nous avons 10 % de bruns et 25 % de personnes aux yeux marrons, sous lhypothse dindpendance des couleurs de cheveux et de nils, quelle proportion dindividus devrait avoir les cheveux bruns et les yeux marrons ? Pour rpondre cette question, on peut penser au fait que lhypothse dindpendance signie que la proportion de personnes aux yeux marrons est la mme quelle que soit la couleur des cheveux. Elle est donc de 25 % pour les personnes ayant les cheveux bruns. Cela signie quun quart des 10 % de personnes aux cheveux bruns ont les yeux marrons, ou encore que 2,5 % 3 de la population totale a la fois les cheveux bruns et les yeux marrons.
3. 2,5 tant un quart de 10.
3.4. En rsum
11
Pourcentages thoriques De manire gnrale, la rgle est la suivante : le pourcentage thorique, sous lhypothse dindpendance, des individus ayant la couleur de cheveux x et la couleur des nils y est gal au produit entre le pourcentage dindividus ayant la couleur de cheveux x et le pourcentage dindividus ayant la couleur des nils y . Pour reprendre un exemple, sachant quon a 75 % de blonds et 25 % de personnes aux yeux bleus, la proportion de personnes blondes aux yeux bleus dans notre population totale sous lhypothse dindpendance vaut : 25 18, 75 75 = , soit 18, 75% 100 100 100 Avec cette rgle on peut dsormais calculer le tableau des pourcentages thoriques sous lhypothse dindpendance : Bruns Marrons Bleus Total 2,5 % 7,5 % 10 % Blonds 18,75 % 56,25 % 75 % Roux 3,75 % 11,25 % 15 % Total 25 % 75 % 100 %
Table 3.5 Tableau des pourcentages thoriques (exacts)
Et maintenant que nous avons nos pourcentages thoriques, il est trs facile de passer aux eectifs : il sut de multiplier, dans chaque case, le pourcentage thorique par leectif total du tableau. Ainsi, pour les bruns aux yeux marrons, on obtient un eectif thorique de 2, 5% 120, cest dire 3 personnes. On fait de mme pour toutes les cases du tableau et on obtient : Bruns Marrons Bleus Total 3 9 12 Blonds 22,5 67,5 90 Roux 4,5 13,5 18 Total 30 90 120
Table 3.6 Tableau des eectifs thoriques (exacts)
Petite surprise : le tableau contient des nombres virgule ! En eet, comme il sagit deectifs thoriques, il ne sagit pas forcment de nombres entiers. Par contre, on remarquera que les marges de notre tableau correspondent bien aux tris plat de nos variables indiques tableau 3.2, ce qui est plutt rassurant puisque cest quand mme pour a que nous avons souert depuis quelques pages.
3.4
En rsum
Pour faire notre test du 2 , nous avons besoin de dterminer quoi ressemblerait notre tableau si les deux variables croises taient totalement indpendantes. Le calcul de ce tableau seectue en deux temps : 1. on calcule le tableau des pourcentages thoriques, en multipliant pour chaque case la proportion observe dans la population des deux modalits correspondantes ; 2. puis, le tableau des eectifs thoriques se calcule en multipliant le tableau des pourcentages thoriques par leectif total.
12
En pratique, il est important de comprendre le principe, et notamment lexistence de la contrainte sur les marges. Le mode de calcul importe peu puisquil sera toujours ralis par un logiciel ddi.
Partie 4
Calcul du 2 dun tableau

4.1 Observons les carts
Prenons maintenant un autre exemple, toujours plus passionnant. Lors dune enqute grande chelle ralise en partenariat avec lINSEE, lINED et lINSERM, on a demand 200 personnes leur profession et on a crois cette information avec une variable indiquant sils possdent ou non une brouette. Le rsultat est le suivant : Sociologue Avec brouette Sans brouette Total 37 65 102 Banquier 36 43 79 Archologue 12 7 19 Total 85 115 200
Table 4.1 Eectifs observs
Nous savons dsormais calculer le tableau des pourcentages thoriques sous lhypothse dindpendance entre les deux variables : Sociologue Avec brouette Sans brouette Total 21,7 29,3 51,0 Banquier 16,8 22,7 39,5 Archologue 4,0 5,5 9,5 Total 42,5 57,5 100
Table 4.2 Pourcentages thoriques (en pourcentages, arrondis)
Et nous savons aussi en dduire rapidement les eectifs thoriques correspondant : Sociologue Avec brouette Sans brouette Total 43,4 58,7 102 Banquier 33,6 45,4 79 Archologue 8,0 10,9 19 Total 85 115 200
Table 4.3 Eectifs thoriques (arrondis)
13
14
Intuitivement, il semble assez logique maintenant de comparer les eectifs observs avec les eectifs thoriques. On peut donc calculer les carts entre les deux pour chaque case du tableau en soustrayant le tableau 4.3 du tableau 4.1 : Sociologue Avec brouette Sans brouette Total -6,4 6,4 0 Banquier 2,4 -2,4 0 Archologue 3,9 -3,9 0 Total 0 0 0
Table 4.4 carts entre eectifs observs et eectifs thoriques (arrondis)
La premire chose que lon remarque est que la somme des carts vaut 0 pour chaque ligne et chaque colonne du tableau. Pourquoi ? Tout simplement parce que nous lavons bien cherch ! En eet, la contrainte sur les marges que nous avons dnie dans la section prcdente pour le calcul des eectifs thoriques disait que les sommes en lignes et en colonnes des eectifs observs devaient tre les mmes que celles des eectifs thoriques. Ceci implique donc que la somme des carts doit tre gale 0 pour chaque ligne, chaque colonne, et donc pour la totalit du tableau. Pour bien comprendre, prenons la deuxime colonne de notre tableau. Dans la premire case, nous avons ajout 2,4 aux eectifs observs pour passer aux thoriques. Comme nous voulons avoir le mme total au bout du compte, on a gure le choix sur ce quon peut faire dans la deuxime case : Si on a rajout 2,4 dans la premire, on est oblig denlever la mme chose dans la deuxime. Et la somme du tout vaut forcment 0.
4.2
Variations lchelle dune cellule
Avertissement : cette section a tendance sloigner du 2 proprement dit, elle est de plus dune lecture plutt ardue. Son intrt tant davantage pdagogique que pratique, elle peut tre allgrement ignore en cas de premire lecture ou de dbut de mal de crne. On passera alors directement la section suivante, page 17. Bien, nous avons dsormais notre tableau dcart. Il est trs joli. Mais, au fond, il ne nous dit pas grand-chose. Essayons de comprendre ce que signie la premire ligne : ce quelle nous dit, cest que nous avons 6,4 sociologues brouette de moins que ce quoi on aurait d sattendre avec lhypothse dindpendance. Par contre, nous avons 2,4 banquiers et 3,9 archologues brouette de plus. Cest intressant, mais concrtement, cest beaucoup ou cest pas beaucoup ? Essayons de reformuler la question. 6,4 sociologues brouette en moins, est-ce que cest d la variation due au biais dchantillonnage ou au fait quil y a un lien entre les deux variables ? Reformulons encore : si on recommenait notre enqute plusieurs fois, est-ce quon obtiendrait souvent un cart de 6,4 ? Ou est-ce que lcart varierait beaucoup dune enqute lautre ? Lidal pour cela serait de pouvoir disposer dune population correspondant notre questionnement et dinterroger un chantillon alatoire tir plusieurs reprises dans cette population pour voir quels rsultats on obtient. Cest trs dicile faire en pratique, mais cest trs facile simuler avec un ordinateur. Pour cela, nous nous plaons sous lhypothse dindpendance. On imagine que nous disposons dune population trs vaste parmi laquelle nous savons que la proportion de sociologues brouettes est exactement de 21,7 %, cest--dire la frquence thorique que nous avons calcule sous hypothse dindpendance. On choisit 200 personnes au hasard dans cette population et on note le nombre de sociologues
4.2. Variations lchelle dune cellule
15
brouette parmi ces 200 personnes. Ensuite on recommence : on choisit nouveau 200 personnes et on note sur la mme feuille le nombre de sociologues avec brouette. Et on recommence. Et on recommence. On obtient une liste de chires qui pourrait ressembler a : 50 48 44 49 46 51 53 44 42 44 36 34 42 41 58 45 37 35 38 39 Quavons nous fait exactement ? En notant le nombre de sociologues brouettes parmi les 200 personnes, nous navons rien fait dautre que de noter leectif de la case du tableau crois correspondant aux sociologues possdant une brouette. Et en utilisant une frquence de 21,7 % de sociologues brouettes, nous nous sommes mis dans les conditions exactes dexprience exiges par lhypothse dindpendance entre les variables. Nous avons donc simul par ordinateur, et plusieurs reprises, une ralisation de notre enqute sous lhypothse dindpendance. Maintenant on va oublier les tableaux (pas pour longtemps rassurez-vous) et on va faire des dessins. Imaginons que nous reproduisons lexprience 100 fois. On se retrouve avec une srie de 100 nombres ressemblant celle indique prcdemment. On va maintenant compter le nombre de fois o on retrouve chaque nombre, cest dire le nombre de fois o on a trouv 42 sociologues brouettes, le nombre de fois o on a trouv 43 sociologues brouettes, etc. On obtient un tableau qui ressemble a :
Nombre de sociologues brouette Nombre doccurrences
... ...
41 10
42 9
43 12
... ...
Enn, on transforme ce tableau en graphique pour avoir une ide de la rpartition de lensemble des nombres trouvs. Ce qui donnerait quelque chose comme la gure suivante :
Rsultats pour 100 expriences
Nombre d'occurrences
0 32
34
36
38
40
42
44
46
48
50
52
54
56
59
Nombre de sociologues brouette trouvs
16

700 80
60
Nombre d'occurrences 25 29 32 35 38 41 44 47 50 53 56 59 63
40
20
0 23 26 29 32 35 38 41 44 47 50 53 56 59 62 Nombre de sociologues brouette trouvs
100
200
300
400
500
600
68 71

70000 7000
Nombre d'occurrences 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 Nombre de sociologues brouette trouvs 68 72
0 16
10000
1000
20000
2000
30000
3000
40000
4000
50000
5000
60000
6000
20
24
28
32
36
40
44
48
52
56
60
64
68
73
Figure 4.1 Simulation du tirage de sociologues brouette
Ce que nous dit la gure, cest quon a trouv au minimum 32 et au maximum 59 sociologues brouettes parmi nos 100 simulations denqutes, et que le nombre de sociologues brouette le plus frquemment observ est de 40. Lavantage dune simulation par ordinateur cest quon peut en faire facilement autant quon veut. On vient den faire 100, on va maintenant en faire 1 000, 10 000, 100 000 et 1 000 000. Les rsultats sont indiqus gure 4.1. Que constate-t-on ? dabord la forme de la rpartition semble se stabiliser avec le nombre de tirages, pour atteindre une forme qui rappelera sans doute quelque chose ceux qui ont subi quelques cours de statistiques durant leurs tudes. En gros, plus on fait dexpriences et plus on observe que les rsultats ressemblent la fonction de densit dune loi normale (ou courbe de Gauss). Le maximum semble tre atteint pour la valeur 43. Or, on remarquera que les eectifs thoriques que nous avons calculs slvent justement 43,4. Cest normal, car les eectifs thoriques sont ceux quon a la plus grande probabilit de trouver sous lhypothse dindpendance. Soit, voil une bien jolie courbe. Mais cela ne rpond toujours pas notre question de savoir si
4.3. 2 partiels et 2 du tableau
17
lcart que nous avons observ est important ou non. Pour cela nous pouvons regarder o se trouve leectif observ dans notre vraie enqute, cest--dire 37, dans le dernier graphique de la gure 4.1. Pour viter la survenue dune presbytie trop prcoce, nous avons pris la peine de surligner la barre du graphique incrimine en rouge. Le nombre de fois o on a trouv 37 slve en fait 38 806. Si on ramne notre million dexpriences cela signie quon a 3,9 chances sur 100 de trouver un tel rsultat sous lhypothse dindpendance des deux variables. En pratique, la probabilit associe la seule valeur 37 nous intresse en fait assez peu : ce qui nous intresse cest de savoir si 37 est une valeur signicativement petite ou pas. Donc ce quon cherche, ce nest pas la probabilit dobtenir exactement 37, mais plutt celle dobtenir 37 ou moins. Ici, on obtient une valeur infrieure ou gale 37 dans 155 360 cas sur un million, soit une probabilit de 15,5 chances sur 100. a nest pas norme, mais pas non plus ngligeable. Reformulons ce que nous venons de dire : si obtient 37 en valeur observe, il y a 15,5 chances sur 100 que cette valeur soit due au hasard, cest--dire au biais dchantillonnage. Reformulons encore : si on observe un eectif de 37 et quon arme quil y a un lien entre le fait dtre sociologue et le fait davoir une brouette, on a 15,5 chances sur 100 de se tromper. Est-ce que cest beaucoup ou pas ? La statistique na pas de rponse cette question. Par convention, elle xe cependant un seuil de signicativit qui est en gnral 5 chances derreur sur 100 (cest le fameux signicatif au seuil de 5 % ). Ce nest quune convention, mais dfaut dtre mathmatique elle a pour elle le fait que presque tout le monde lutilise. Quavons nous fait ici ? Nous avons montr quon peut, par simulation, arriver calculer la probabilit dobtenir un eectif observ au plus gal une certaine valeur sous lhypothse dindpendance. La statistique ne nous permet pas de dire si une valeur observe est signicativement plus petite ou signicativement plus grande en soi, mais elle permet destimer une probabilit dobserver cette valeur dans le cas o les deux variables sont indpendantes.
4.3
2 partiels et 2 du tableau
Nous venons donc de voir comment, par simulation, on pouvait essayer de dterminer si les variations observes lchelle dune cellule ont peu ou beaucoup de chances dtre dues au hasard, ou plus prcisment au biais dchantillonnage. Il nous reste voir la mme chose, mais cette fois au niveau du tableau tout entier. Intuitivement 1 , pour passer de la case du tableau au tableau tout entier, on aurait envie de faire la somme de tous les carts observs dans chaque case pour obtenir une sorte dcart global lindpendance lchelle du tableau. Et bien cest une excellente ide que vous avez l, et je vous en flicite, mais comme dhabitude il y a encore une ou deux subtilits dont il va falloir tenir compte. Tout dabord, si on essaie immdiatement de faire la somme des carts du tableau 4.4 page 14, on obtient tout aussi immdiatement. . . 0 ! Si cela ne vous semble pas logique, cest que vous navez pas lu assez attentivement le paragraphe causant des contraintes sur les marges, page 14. Cest donc loccasion de vous resservir un caf ou un jus de tomates et de reprendre la lecture de ce passionnant passage. Faire la somme, cest donc une bonne ide, mais il faut tenir compte du fait que certains carts sont positifs et dautres ngatifs et que tout a nit par sannuler. On pourrait sen sortir en faisant la somme de la valeur absolue de chaque cart (cest--dire en transformant les carts ngatifs en cart positif), mais les statisticiens, souvent dhumeur un peu chafouine, prfrent utiliser le carr
1. En fait ce nest pas intuitif du tout, mais lexpression intuitivement permet lauteur dviter de fournir de nouvelles explications laborieuses tout en donnant limpression que pour lui tout a cest quand mme vachement simple et naturel.
18
des carts, ce qui revient peu prs au mme dans la mesure o le carr dun nombre est toujours positif 2 . Il reste une deuxime subtilit prendre en compte, que nous comprendrons mieux en regardant directement le tableau 4.4. Si nous regardons la case des sociologues sans brouette, nous constatons un cart de 6,4. Si on regarde celle des archologues avec brouette, on obtient un cart de 3,9. Spontanment on pourrait vouloir comparer les deux valeurs en armant que lcart est plus grand chez les sociologues sans brouette que chez les archologues avec brouette. Mais il faut tenir compte dune chose : les eectifs thoriques ne sont pas du tout les mmes dans les deux cases, puisque nous avions 58,7 sociologues sans brouette attendus contre 8 archologues avec brouette. Or, un cart de 6 sur une valeur de rfrence de 58 semble tout de suite moins importante quun cart de presque 4 sur une valeur de rfrence qui vaut 8. . . En additionnant les carts de toutes les cases sans tenir compte des eectifs de rfrence auxquels ces carts se rapportent, on risque donc de mlanger des choux, des carottes, des pommes de terre et des betteraves. Tout a peut faire une trs bonne soupe (surtout si on enlve les betteraves), mais du point de vue mathmatique le mlange est assez indigeste. Pour viter de boire le potage, on va donc eectuer une opration assez courante en statistiques, et quon nomme standardisation, ce qui signie quon va tout rapporter une mme chelle, ce qui va permettre de pouvoir travailler sur des choses comparables entre elles. En pratique, on va diviser la valeur des carts par celle des eectifs thoriques correspondant. Rcapitulons Nous avons notre tableau deectifs observs, notre tableau deectifs thoriques. Nous pouvons partir de l calculer les carts entre les deux, mais pour raisonner lchelle du tableau entier nous devons rendre les carts comparables en tenant compte dune part de leur signe (en les levant au carr) et dautre part du fait quils ne se rapportent pas aux mmes eectifs de dpart (en les divisant par les eectifs thoriques). On va donc calculer un nouveau tableau dont les cases contiennent la valeur suivante : (Eectif observ Eectif thorique)2 Eectif thorique Cette valeur est appele le 2 partiel de la case du tableau. Dans notre exemple, on obtient le tableau suivant : Sociologue Avec brouette Sans brouette 0,93 0,68 Banquier 0,18 0,12 Archologue 1,91 1,41
Table 4.5 2 partiels (arrondis)
Allluia ! Nous avons enn de beaux carts bien positifs et bien standardiss, que nous allons pouvoir additionner tous ensemble dans la joie et lallgresse. Ce faisant, nous obtenons la fort jolie valeur de 5,2402, qui nest rien dautre que la valeur du 2 pour notre tableau crois. Passe leuphorie bien comprhensible due la beaut de ce rsultat arrach grand renfort dempilements successifs de subtilits statistiques et de verres de jus dartichaut vides dans lvier de la cuisine, nous devons nanmoins nous rendre lvidence : 5,2402, cest magnique, mais nous sommes encore et toujours confronts la mme question : cest beaucoup ou cest pas beaucoup ? Avant de rpondre, nous allons devoir tenir compte dune dernire subtilit statistique. Ne vous inquitez pas si ce genre de phrase commence gnrer chez vous une certaine lassitude. Mais
2. Le choix de passer les carts au carr sexplique aussi sans doute par le fait quil permet de distendre les carts entre les valeurs et de faciliter certains calculs.
4.4. Les degrs de libert
19
regardez l-bas au fond, ne voyez vous pas une faible lueur apparatre dans lobscurit ? Le bout du tunnel nest pas loin, et vous devriez latteindre encore plus facilement en reprenant un grand verre de nectar davocat.
4.4
Les degrs de libert
La dernire chose dont nous devons tenir compte pour obtenir le rsultat dnitif de notre test porte le doux nom de degr de libert. Lappellation ne manque pas de charme, mais la notion quelle recouvre nest pas forcment la plus intuitive qui soit 3 . En fait, la notion de degrs de liberts dans le cas du test du 2 dindpendance dun tableau crois signie que la valeur calcule du 2 pour ce tableau doit tre rapporte au nombre de colonnes et de lignes du tableau en question. Pour tenter de comprendre, reprenons une clbre enqute mene auprs de 100 professeurs agrgs, 50 en lettre modernes et 50 en lettres classiques, auxquels on a demand leur style musical prfr. On fait lhypothse que les deux variables sont indpendantes. On aurait alors obtenu, par exemple, le tableau suivant : Lettres classiques Hip-hop Mtal Total 20 30 50 Lettres modernes 20 30 50 Total 40 60 100
Imaginons maintenant que lenqute ait distingu des sous-genres musicaux lintrieur des catgories Hip-hop et Mtal : Lettres classiques Urban Street Gangsta Rap Funky Groovy Soul Industrial Death Metal Gothic Hard Rock Total 5 15 10 20 50 Lettres modernes 5 15 10 20 50 Total 10 30 20 40 100
Maintenant, imaginons quun premier agrg de lettres classiques nait pas entendu la sonnerie du tlphone au moment o notre enquteur lappelait car il coutait le dernier Dr. X and the freakin street boyz plein volume pendant quil travaillait sur une nouvelle traduction de lAncien testament. Et que du coup cest un autre agrg de lettres classiques qui a t enqut, car celui-ci avait coup le son de Sexy groovy funky girlz pour pouvoir couter les commentaires du match Lorient - Valenciennes. Dans le cas de notre deuxime enqute, ceci a une consquence claire : leectif de la case Lettres classiques - Urban Street Gangsta Rap perd un enqut, au prot de la case Lettres classiques Funky Groovy Soul. Mais dans le cas de notre premire enqute, cet vnement na aucune inuence : dans les deux cas on reste dans la case Lettres classiques - Hip-hop. Moralit ? Plus il y a de cases dans le tableau, plus les donnes sont susceptibles de varier alatoirement et donc plus elles sont sensibles au biais dchantillonnage. Version mathmatique Dun point de vue mathmatique, cette notion de plus grande sensibilit au biais dchantillonnage est fortement lie aux contraintes sur les marges.
3. Lauteur larme dautant plus facilement quelle est loin de ltre pour lui-mme et que a fait un moment quil se demande comment il va bien pouvoir essayer dexpliquer ce machin.
20
Pour essayer de comprendre, regardons le premier tableau : de par les contraintes sur les marges, je sais quels doivent tre mes totaux en lignes et en colonnes. Maintenant xons leectif de la premire case du tableau (20 dans lexemple donn). Comme je sais que le total de la premire ligne vaut 40, jen dduis immdiatement la valeur de la deuxime case de la premire ligne. Et comme je connais aussi les totaux en colonne, je peux aussi en dduire les valeurs des cases de la deuxime ligne. En fait, ds que je connais la valeur dune des cases, je connais celles de lensemble du tableau. On peut donc considrer que toute la variabilit possible du tableau est contenue dans une seule case. Regardons maintenant le deuxime tableau. Si je xe la premire case, je peux calculer leectif de la deuxime case de la premire ligne, mais pas plus. En fait, pour pouvoir reconstruire lensemble du tableau, jai besoin de connatre les eectifs de trois cases. De manire plus gnrale, le nombre de cases dun tableau pouvant varier librement dans un tableau avec contraintes sur les marges est toujours gal : (Nombre de lignes 1) (Nombre de colonnes 1) Et cest prcisment avec cette formule quon calcule le nombre de degrs de libert dun tableau 4 .
4.5
Le calcul nal
Bien, nous avons dsormais dun ct la valeur du 2 pour notre tableau, et de lautre son nombre de degrs de liberts. Rappelez-vous ce que nous avions fait dans la section 4.2 page 14 : nous avions russi calculer, pour une cellule de tableau, la probabilit dobtenir un eectif donn sous lhypothse dindpendance. Ce calcul avait t obtenu en faisant toute une srie de simulations informatiques. On pourrait procder de la mme manire lchelle de lensemble du tableau, mais on se heurte vite deux obstacles : 1. Cest plus compliqu. 2. Les ordinateurs nexistaient pas quand le test du 2 a t invent. La statistique va donc nous permettre de dterminer directement le mme rsultat qu lchelle de la cellule, mais sans avoir eectuer de simulations 5 et en utilisant des raisonnements mathmatiques. Elle va ainsi nous permettre de dterminer immdiatement quelle est la probabilit dobtenir le 2 observ sur notre tableau compte tenu du nombre de degrs de liberts et sous lhypothse dindpendance 6 . Pour tre un peu plus concret, reprenons notre exemple des sociologues brouettes. partir du tableau 4.5 page 18, nous avions dduit que la valeur de notre 2 tait de 5,2402. Du fait que le tableau en question a 2 lignes et 3 colonnes, nous en dduisons que son nombre de degrs de liberts vaut (2 1) (3 1) = 2. Et ce que notre logiciel favori va nous indiquer 7 , cest que la probabilit dobserver un tel rsultat compte tenu de lhypothse dindpendance slve 0,0728. Cest le fameux p.
4. Les logiciels qui appliquent le test du 2 indiquent en gnral le nombre de degrs de libert du tableau. En gnral la notation utilise est ddl pour les logiciels francophones, et df pour les anglophones. 5. Les ordinateurs et les algorithmes actuels rendent cependant possibles lutilisation de simulation, ce qui est peut tre trs utile dans certains cas. On en reparlera dans le cas o les eectifs thoriques sont considrs comme trop faibles, voir section 6.1 page 30. 6. Plus prcisment, ce que nous dit la statistique cest que la valeur du 2 calcul pour un tableau donn sous lhypothse dindpendance des lignes et des colonnes tend vers une loi du 2 au nombre de degrs de liberts correspondant celui du tableau. 7. Auparavant les statisticiens, qui devaient connatre des week-end longs et pluvieux plus frquemment que la moyenne, samusaient rechercher ces informations dans des tables. . .
4.6. En rsum
21
Comment interprter ce p ? Plusieurs formulations sont possibles, toutes signient la mme chose : la probabilit dobserver une valeur du 2 de 5,2402 avec deux degrs de libert slve 0,0728 ; la probabilit dobtenir le tableau crois observ sous lhypothse dindpendance des deux variables est denviron sept chances sur cent ; si jarme partir du tableau crois observ que la profession exerce a une inuence sur le fait davoir ou non une brouette, jai 7 % de chances davoir tort. Sept chances sur cent de me tromper, cest beaucoup ou pas ? L la statistique na plus de rgle mathmatique fournir. En gnral, le seuil partir duquel on considre le rsultat comme rellement signicatif, cest dire le niveau acceptable de la probabilit de se tromper, est x par convention et habitude 5 %. Dans le tableau que nous observons depuis maintenant un bon moment, nous sommes donc la limite : si on se contente dappliquer mcaniquement le traditionnel seuil de 5 %, alors on ne pourra pas rejeter lhypothse dindpendance entre la profession et le fait de possder une brouette. Mais on peut saccorder davantage de souplesse et prendre en compte des rsultats jusqu 10 % ou mme un peu plus. . .
4.6
En rsum
La section qui prcde a t longue et fastidieuse. Les dtails du calcul ne sont l que pour comprendre la dmarche et faciliter linterprtation, les calculs eux-mmes tant mis en uvre par un logiciel appropri. 1. Le 2 dun tableau reprsente lcart entre la rpartition observe dans ce tableau et celle quon observerait si les lignes et les colonnes de ce tableau taient indpendantes, cest--dire, si le fait dappartenir une modalit dune des deux variables croises navait aucun inuence sur la modalit dappartenance de la deuxime variable. 2. Le nombre de degrs de liberts dpend du nombre de lignes et de colonnes dun tableau. 3. Avec les deux valeurs prcdentes, on peut estimer la probabilit p dobtenir le tableau observ dans le cas o lignes et colonnes sont indpendantes. p reprsente le nombre de chances que jai de me tromper si jarme que les deux variables croises ne sont pas indpendantes. 4. Le seuil de signicativit pour le p est par convention x 5 %, ou 0,05, ou 5 chances sur cent. Si le p est infrieur ce seuil, cest--dire si on a moins de 5 chances sur 100 de se tromper, alors on rejette lhypothse dindpendance et on considre quun lien existe entre les deux variables. Nous allons maintenant enn pouvoir sortir de cette partie thorique aussi distrayante que lobservation dun escargot par temps sec pour aborder des exemples plus concrets dutilisation du test et dinterprtation des rsultats.
Partie 5
Interprtation
5.1 Rsum des pisodes prcdents
Pour ceux qui nauraient pas voulu lire les sections prcdentes, ceux qui auraient craqu en cours de route, ou ceux qui auraient ressenti le besoin de se reposer un moment avant dattaquer la suite en faisant deux ou trois semaines de stage de mditation dans un monastre bouddhiste, voici un rcapitulatif des ides bien assimiler pour comprendre ce qui suit. Le test du 2 vise tester lhypothse dindpendance des lignes et des colonnes dun tableau crois. Cette hypothse signie que : 1. Le fait dappartenir lune des modalits de la premire variable na aucune inuence sur la modalit dappartenance de la seconde. 2. Les pourcentages lignes du tableau crois sont les mmes pour toutes les lignes. 3. Les pourcentages colonnes du tableau crois sont les mmes pour toutes les colonnes. Le test du 2 se base sur la valeur du 2 du tableau, qui est une mesure de lcart entre le tableau observ et le tableau quon aurait obtenu si les variables taient parfaitement indpendantes, et sur le nombre de degrs de libert du tableau, qui dpend du nombre de lignes et de colonnes. partir de ces deux donnes, le test donne une valeur p qui est, le nombre de chances de se tromper si on dit que les deux variables ne sont pas indpendantes.
5.2
Valeur du p
Le tableau suivant est, pour une fois, tir de donnes relles, en loccurrence celles de lenqute Histoire de vie ralise en 2003 par lINSEE 1 . Il croise le fait davoir t lev par sa mre seule jusqu 18 ans par la catgorie socio-professionnelle du pre en 6 postes.
Agriculteur lev par sa mre seule Autre 22 990 Indpendant 50 801 Cadre 60 572 Intermdiaire 57 800 Employ 50 690 Ouvrier 161 2861
Table 5.1 Croisement de la CS du pre avec le fait davoir t lev seul par sa mre Le 2 vaut 44,63, le nombre de degrs de liberts est 5, p vaut 0,00000001726.
1. Dans ces exemples on sest content des donnes brutes et on na pas utilis la pondration donne par lINSEE.
22
5.3. Le test du 2 est symtrique
23
On peut donc rejeter lhypothse dindpendance sans crainte, puisquon na quune chance sur plus de 57 000 000 de se tromper 2 . La catgorie sociale dappartenance du pre a une inuence sur le fait davoir t ou non lev par sa mre seule. Le tableau qui suit croise le fait de pratiquer ou non le football et le sentiment dappartenir ou non une classe sociale : Pratique le football Sentiment dappartenance Pas de sentiment dappartenance Ne sait pas 93 92 1 Ne pratique pas le football 3921 4165 131
Le 2 vaut 1,5448, le nombre de degrs de liberts est 2, p vaut 0,4619. Lhypothse dindpendance entre les deux variables ne peut donc a priori pas tre rejete, on ne peut pas tablir de lien entre les deux variables.
5.3
Le test du 2 est symtrique
Comme on a dj eu loccasion de le souligner 3 , les lignes et les colonnes dun tableau crois sont interchangeables. Vous pouvez donc changer vos deux variables, le rsultat du test sera toujours exactement le mme. Ceci signie notamment que le tableau na pas en lui-mme de sens de lecture : cest notre connaissance de lobjet tudi qui nous fait dire le sexe a une inuence sur le fait de prfrer la choucroute ou les brocolis et non pas le fait de prfrer la choucroute ou les brocolis a une inuence sur le sexe . Ce que le 2 nous dit, cest les deux variables sont dpendantes . Ce quil ne nous dit pas, cest la variable Y est dpendante de la variable X . Le fait de considrer une variable comme ayant une inuence sur une autre relve de linterprtation et de lanalyse. Cela se traduit en gnral par le choix dutiliser les pourcentages lignes ou les pourcentages colonnes dans la lecture du tableau. Si on reprend lexemple du tableau 5.1, linterprtation va naturellement dans le sens dune inuence de la catgorie sociale du pre sur le fait davoir t lev seul par sa mre, et non linverse. Ceci se traduit par lutilisation de pourcentages colonnes pour lanalyse du tableau :
Agriculteur lev par sa mre seule Autre Total 2,2 % 97,8 % 100,0 % Indpendant 5,9 % 94,1 % 100,0 % Cadre 9,5 % 90,5 % 100,0 % Intermdiaire 6,7 % 93,3 % 100,0 % Employ 6,8 % 93,2 % 100,0 % Ouvrier 5,3 % 94,7 % 100,0 % Ensemble 5,6 % 94,4 % 100,0 %
Cest grce aux pourcentages colonnes quon peut approfondir lanalyse du tableau au-del de la seule existence ou non dune dpendance entre les variables. Ils nous permettent en eet, par exemple, de constater que seuls 2,2 % des enquts dont le pre est agriculteur ont t lev seuls par leur mre, contre 9,5 % de ceux dont le pre est cadre, la moyenne pour lensemble des enquts tant de 5,6 % 4 .
1 2. 0,00000001726 = 57 937 428, soit quatre fois moins de chances que de gagner au Loto. 3. Mais vous aurez remarqu que ce document ne recule pas devant une certaine dose de rptitions, mais si celle-ci frise parfois le radotage. 4. Cette analyse sera grandement facilite et statistiquement valide par lutilisation des rsidus, voir section 5.7 page 26.
24
Interprtation
5.4
Le test du 2 dpend du dcoupage en modalits
Dans ce qui prcde on a pu dire indiremment que le test du 2 portait sur lindpendance des lignes et des colonnes dun tableau crois, ou bien sur les deux variables dun tableau crois. En fait, la premire formulation est plus rigoureuse, car la deuxime tend masquer le fait que la manire dont chacune des deux variables est dcoupe en modalits joue un rle considrable dans la valeur nale du test. Il semble parfois contre-intuitif dimaginer que la manire dont on code, dcoupe ou regroupe une variable en classes ou en modalits puisse inuencer sa dpendance ou son indpendance vis-vis dautres variables. Si on tient compte de la manire dont le 2 est calcul, cette inuence sexplique cependant assez bien : si on regroupe des modalits existantes ou si on en cre de nouvelles, les dimensions du tableau changent, et donc le degr de libert qui lui est associ galement. Ceci inuence donc la valeur nale du p ; mais surtout, selon la manire dont on regroupe ou clate ces modalits, on peut masquer des carts lindpendance ou au contraire en faire apparatre de nouveaux. Prenons un exemple nouveau tir de lenqute Histoire de vie en croisant lge (dcoup en classes) et la variable indiquant si les types dmission prfrs la tlvision sont les sries et les feuilletons. Commenons par un dcoupage en ges assez n (ici on donne les pourcentages colonnes) :
25 et moins Oui Non Total 20,4 % 79,6 % 100,0 % 26-35 9,8 % 90,2 % 100,0 % 36-45 7,5 % 92,5 % 100,0 % 46-55 7,5 % 92,5 % 100,0 % 56-65 8,1 % 91,9 % 100,0 % 66 et plus 12,5 % 87,5 % 100,0 % Ensemble 10,2 % 89,8 % 100,0 %
Le 2 est extrmement signicatif (p quasiment gal zro). On constate que les sries et les feuilletons sont prfrs la fois par les plus jeunes et par les plus gs 5 . Imaginons maintenant que la question qui nous intressait au dpart tait de direncier les moins de 55 ans des plus de 55 ans. Nous aurions alors obtenu le tableau suivant :
55 et moins Oui Non Total 10,0 % 90,0 % 100,0 % 56 et plus 10,5 % 89,5 % 100,0 % Ensemble 10,2 % 89,8 % 100,0 %
Avec un 2 plus du tout signicatif, puisque le p vaut dsormais 0,49 ! En regroupant les classes dge, on a regroup des catgories o la prfrence pour les sries tait sur-reprsente et dautres o elle ne ltait pas du tout. Au nal, on a construit deux populations homognes en regroupant des populations htrognes mais opposes. De manire gnrale, il est donc prfrable de partir avec des dcoupages en classes les plus dtaills possibles, pour pouvoir ventuellement ensuite pouvoir regrouper entre elles des modalits ayant des prols semblables (identis par leurs pourcentages lignes ou colonnes). Dans notre exemple, on aurait pu regrouper les tranches dge de 36 65 ans pour mieux faire ressortir lopposition entre les ges intermdiaires et les ges extrmes .
5. Phnomnes bien connus en sociologie des mdias et identis respectivement sous les noms deet Prison break et deet Derrick.
5.5. Le test du 2 dpend des eectifs
25
5.5
Le test du 2 dpend des eectifs
Dans une tude videmment trs srieuse ralise par le ministre de la Sant, on a voulu tudier le lien entre le degr de calvitie et le fait davoir ou non attrap un rhume dans les six derniers mois. On a interrog un premier chantillon en obtenant les rsultats suivants : A eu un rhume Totalement chauve Partiellement chauve Porte une perruque 7 4 9 Na pas eu de rhume 5 8 12
Si on fait les pourcentages lignes, on obtient le tableau suivant : A eu un rhume Totalement chauve Partiellement chauve Porte une perruque Ensemble 58,3 % 33,3 % 42,9 % 44,4 % Na pas eu de rhume 41,7 % 66,7 % 57,1 % 55,6 % Total 100 100 100 100 % % % %
Le 2 de notre tableau nest pas du tout signicatif, avec un p de 0,459. Fort du, le ministre a dcid de renouveler lenqute mais en accordant une rallonge budgtaire qui a permis dinterroger dix fois plus de personnes, avec les rsultats suivants : A eu un rhume Totalement chauve Partiellement chauve Porte une perruque 70 40 90 Na pas eu de rhume 50 80 120
Si on calcule les pourcentages lignes de ce nouveau tableau, on obtient exactement les mmes que prcdemment, car les eectifs de chaque case ont tous t multiplis par 10. Par contre, le 2 de ce nouveau tableau est lui devenu trs signicatif, avec un p infrieur 0,001. Que sest-il pass ? On vient tout simplement dobserver le fait que plus les eectifs de notre tableau augmentent, plus les carts lindpendance observs ont de chances dtre signicatifs. Si jinterroge dix personnes et que jobtiens six fois oui et quatre fois non, je ne peux rien dire. Mais si jen interroge 10 000 et que jobtiens 6 000 oui et 4 000 non, l je peux en conclure quelque chose. Le 2 est donc extrmement sensible aux eectifs : plus ceux-ci sont levs, plus le risque de se tromper en rejetant lhypothse dindpendance est faible, et donc plus la valeur du p est petite. Un 2 non signicatif peut donc signier soit quon ne peut rejeter lhypothse dindpendance entre les lignes et les colonnes du tableau (dans le cas o les pourcentages lignes ou colonnes sont trs proches les uns des autres), soit quil ny a pas indpendance mais que les eectifs dont je dispose ne me permettent pas den tre sr statistiquement (dans le cas o les pourcentages lignes ou colonnes sont sensiblement dirents).
26
Interprtation
5.6
Le test du 2 ne mesure pas lintensit de la dpendance
En fait, ceci dcoule directement de la section prcdente et de la sensibilit du 2 aux eectifs. Prenons les deux tableaux suivants : Rouge Rond Carr 10 20 Vert 20 10 Rond Carr Rouge 100 200 Vert 200 100
Si on veut parler de la force de la dpendance entre les deux variables, on ne peut pas direncier ces deux tableaux : la rpartition des eectifs entre les cases est la mme, les pourcentages lignes et colonnes sont identiques. Pourtant si dans le premier cas on a bien un 2 signicatif dune valeur de 5,4 avec un p de 0,02, dans le second le test devient extrmement signicatif avec un 2 de 65,34 et un p quasiment gal zro. Le raisonnement ici est exactement le mme que dans la section prcdente : pour une mme rpartition dans mon tableau, jai dautant plus de chances dtre signicativement loign de lindpendance que mes eectifs sont importants. Ce quon peut en conclure ici cest que les valeurs du 2 et du p ne doivent pas tre utilises comme indicateurs de la force du lien de dpendance entre les variables du tableau crois. On ne peut donc pas comparer les rsultats du test du 2 pour deux tableaux dirents en en concluant que la dpendance entre les variables serait plus forte pour lun que pour lautre 6 .
5.7
Les rsidus
Les rsidus sont une aide linterprtation extrmement utile pour lanalyse dun tableau crois. Pour le dire rapidement, le 2 indique si les carts lindpendance sont signicatifs lchelle du tableau, les rsidus, eux, donnent cette indication lchelle de chaque cellule. Leur rsultat est en fait trs proche de ce que nous avons eectu dans la section Variations lchelle dune cellule, page 14. Dans cette section, nous avions tent de voir comment on peut, par simulation, estimer si, lchelle dune case, un cart entre un eectif observ et un eectif attendu tait statistiquement signicatif ou non. Les rsidus permettent dobtenir cette information pour toutes les cases et donc de dterminer dans quels sens vont les carts et o ceux-ci sont signicatifs. Dun point de vue mathmatique, il existe deux types de rsidus : les rsidus de Pearson et les rsidus de Pearson standardiss (ou ajusts). La dirence entre les deux a relativement peu dimportance, car leur interprtation est semblable. Dun point de vue calcul et titre tout fait indicatif, la formule pour les rsidus de Pearson est la suivante : Eectifs observs Eectifs thoriques Eectifs thoriques La formule des rsidus est un tantinet plus complexe 7 , mais linterprtation est la mme dans les deux cas. Au nal il ny a que deux choses retenir :
6. Pour tre tout fait rigoureux, on pourrait le faire mais seulement quand les deux tableaux ont les mmes dimensions et les mmes eectifs totaux. Mais dans tous les cas on prfre utiliser des indices calculs exprs pour, comme le V de Cramer, que nous verrons section 7.1 page 33. 7. Pour plus dinformations, on pourra se reporter (Agresti, 2002, p. 81).
5.7. Les rsidus
27
si un rsidu est positif, cest que les eectifs dans la case sont suprieurs ceux attendus sous lhypothse dindpendance. Sil est ngatif, cest que les eectifs observs sont infrieurs aux eectifs thoriques ; les rsidus correspondant des carts statistiquement signicatifs sont grosso modo ceux dont la valeur est suprieure 2 ou infrieure -2 8 . Tout cela peut sembler compliqu, mais un exemple permettra de mieux comprendre de quoi il sagit. Exemple rel cette fois, tir toujours de lenqute Histoire de vie, et pour lequel nous allons croiser la catgorie sociale et le sentiment dappartenir une classe sociale : Appartient Agriculteur Indpendant Cadre Intermdiaire Employ Ouvrier 125 190 588 842 1105 888 Nappartient pas 194 300 433 694 1227 1024 Ne sait pas 9 6 9 10 38 45
Le 2 est extrmement signicatif, avec un p proche de zro. On peut regarder les pourcentages lignes : Appartient Agriculteur Indpendant Cadre Intermdiaire Employ Ouvrier Ensemble 38,1 38,3 57,1 54,5 46,6 45,4 48,4 % % % % % % % Nappartient pas 59,1 60,5 42,0 44,9 51,8 52,3 50,1 % % % % % % % Ne sait pas 2,7 1,2 0,9 0,6 1,6 2,3 1,5 % % % % % % %
Plus le nombre de cases est lev, plus il devient dicile de lire le tableau. Regardons ce que valent les rsidus (ici les rsidus de Pearson) : Appartient Agriculteur Indpendant Cadre Intermdiaire Employ Ouvrier -2,7 -3,2 4,0 3,4 -1,2 -1,9 Nappartient pas 2,3 3,3 -3,7 -2,9 1,1 1,4 Ne sait pas 1,8 -0,6 -1,7 -2,8 0,4 2,8
Les rsidus permettent dorienter le regard vers les cases o les carts sont statistiquement signicatifs. A priori, en regardant ce dernier tableau on peut se rendre compte que le sentiment dappartenance une classe sociale est moins frquent que la moyenne chez les agriculteurs et les indpendants, tandis quil lest plus chez les cadres et les professions intermdiaires. Par ailleurs, ceux-ci sont moins nombreux que la moyenne ne pas savoir sils appartiennent ou non une classe sociale, tandis que les ouvriers sont un peu plus nombreux que la moyenne tre dans ce cas.
8. Ceci tant d au fait que les rsidus tendent suivre une loi normale centre rduite.
28
Interprtation
Il y a cependant une chose importante noter lorsquon utilise les rsidus, cest que ceux-ci mesurent la signicativit de lcart par rapport aux eectifs thoriques attendus de la case. Ils sont donc lis ces derniers : un cart de 10 quand les eectifs thoriques taient de 20 (cest--dire un eectif observ de 30) sera sans doute signicatif, tandis que le mme cart de 10 quand les eectifs thoriques sont de 2 000 ne le sera pas. Ainsi, de la mme manire que pour le 2 , avoir un rsidu trs suprieur 2 ne signie pas que lcart entre eectifs observs et eectifs thoriques est trs lev. Ceci signie juste quil est trs signicativement dirent de zro. Dans notre exemple, si on regarde la case des ouvriers ne sachant pas sils appartiennent ou non une classe sociale, on a un rsidu suprieur 2 avec un cart de seulement 0,8 points par rapport au prol moyen (2,3 % contre 1,5 %). Encore une fois, cest en se rapportant aux pourcentages lignes ou colonnes quon peut voir si lcart au prol moyen est lev ou pas. Rsumons : les rsidus indiquent dans quelle case on a des sur-reprsentations (si leur valeur est suprieure 2) ou des sous-reprsentations (si elle est infrieure -2) statistiquement signicatives ; ils orientent le regard vers les cases pour lesquelles on peut dire quelque chose, et montrent linverse celles pour lesquelles lcart au prol moyen nest pas signicatif ; en dernier lieu ce sont toujours les pourcentages lignes ou colonnes qui permettent de mesurer lamplitude de cet cart. Les rsidus sont donc trs utiles pour lanalyse dun tableau dont le 2 permet de rejeter lhypothse dindpendance. Ils le seront dautant plus que le tableau comporte un grand nombre de cases. Ils permettent de plus de valider statistiquement les carts observs lchelle de la case 9 . Reprsentation graphique Lutilisation des rsidus a un autre avantage, cest de permettre la reprsentation graphique de tableaux croiss incluant les liens entre les direntes modalits, cest dire les cases dans lesquelles les eectifs observs sont signicativement suprieurs ou infrieurs aux eectifs thoriques. Prenons par exemple la gure 5.1 page ci-contre. Elle reprsente le tableau croisant, pour lenqute Histoire de vie, la catgorie professionnelle de lenqut et la frquence de ses visites sa famille proche ou loigne. Ce graphique contient une reprsentation visuelle de chaque case construite de la faon suivante : la largeur de chaque case est proportionnelle au pourcentage ligne correspondant. On a dailleurs indiqu dans chaque case la valeur de ce pourcentage ; la surface de la case est proportionnelle aux eectifs observs ; la couleur de la case dpend de la valeur du rsidu de Pearson associ : bleu si le rsidu est signicativement positif, rouge sil est signicativement ngatif, gris sil nest pas signicatif. La lecture de ce type de graphique nest peut-tre pas vidente de prime abord, mais une fois habitu elle permet de synthtiser de manire visuelle la quasi-totalit des informations ncessaires pour lanalyse. Pour reprendre lexemple de la gure 5.1, on peut ainsi voir immdiatement que les employs et les ouvriers ont plus frquemment des visites familiales hebdomadaires, tandis que les cadres et les professions intermdiaires en ont moins souvent. On remarquera galement que le pourcentage est trs lev chez les agriculteurs (49,4 %), mais que lcart nest pas signicatif, sans doute du fait deectifs trop faibles. On peut galement remarquer que les cadres ont plus souvent des frquences de visite intermdiaires (plusieurs fois par mois ou par an) tandis que les ouvriers ont plus souvent des frquences de visite extrmes (soit hebdomadaires, soit exceptionnelles ou inexistantes). Ce type de graphique en mosaque permet donc de faciliter lanalyse, l encore plus particulirement dans le cas de tableaux croiss avec un nombre de cases lev.
9. Il est dommage que certaines logiciels comme Modalisa ne proposent pas le calcul des rsidus pour les tableaux croiss, mme si dans ce cas lutilisation du PEM (pourcentage de lcart maximum) sen rapproche (Cibois, 1993).
5.7. Les rsidus
29
Agriculteurs Indpendants Cadres
49.4 44.2 19.2
25 20.8
18.9 10.9
5.5 1.2 5
Exceptionnellement Jamais
Rencontres avec la famille

Au moins une fois par semaine Une trois fois par mois Plusieurs fois dans l'anne
Pearson residuals: 6.34
28.3
33.3
29.4
6.6 2.3
4.00 2.00 0.00 2.00 4.00
CS de l'enqut
Interm.
39.1
25.8
25.8
6.3 3.1
Employs
49
21.7
18.4
6.8 4.1
Ouvriers
49.2
20.3
15.8
10
4.7
7.57 pvalue = < 2.22e16
Figure 5.1 Graphique en mosaque du croisement entre la CS de lenqut et la frquence des visites dans la famille
Partie 6
Limites
6.1 Fausse limite : quand les eectifs thoriques sont trop faibles
Commenons par un exemple. Soit le tableau crois suivant, qui sintresse au fait de gagner ou non au Loto selon quon possde un tre quatre feuilles, un fer cheval ou aucun des deux : Perdant Tre Fer Aucun 220 200 200 Gagnant 7 1 1
Le 2 est signicatif, avec un p 0,03. Cependant tout bon logiciel de statistique qui se respecte devrait vous gratier dun joli message davertissement vous annonant amicalement que le rsultat obtenu pourrait bien ntre pas plus valable que celui dun thme astral ralis par un docteur en sociologie. Pourquoi donc ? Car en calculant votre 2 , vous avez enfreint le commandement suivant : dans tout tableau crois, jamais plus de 20 % deectifs thoriques infrieurs 5 tu nauras. Quest-ce que cest encore que a ? Pour comprendre lorigine de ce principe, il faut se rappeler que le rsultat du test du 2 (le p) est une approximation, qui en toute rigueur ne deviendrait parfaitement exacte que quand les eectifs de mon tableau seraient extrmement levs. Plus prcisment, on peut se rappeler que dans le calcul des 2 partiels associs chaque case, on a standardis lcart entre eectifs observs et eectifs thoriques de manire ce quun cart de 15 dans une case o on attendait 6 ne soit pas considr de la mme manire quun cart de 15 dans une case o on en attendait 6 000. Une consquence de cette standardisation est quun poids important est accord aux petites cases, mme si en eectifs les carts correspondants sont relativement faibles. Reprenons notre tableau et calculons respectivement les eectifs thoriques, les carts entre eectifs observs et eectifs thoriques, et les rsidus :
Perdant Tre Fer Aucun 223,7 198,1 198,1 Gagnant 3,2 2,9 2,9 Tre Fer Aucun Perdant -3,8 1,9 1,9 carts Gagnant 3,8 -1,9 -1,9 Tre Fer Aucun Perdant -0,3 0,1 0,1 Rsidus Gagnant 2,1 -1,1 -1,1
Eectifs thoriques
30
6.2. Vraie limite : les variables caches
31
Que constate-t-on ? Malgr la signicativit du 2 , les carts entre eectifs observs et eectifs thoriques sont plutt faibles. Les rsidus nous indiquent que la seule case o cet cart est signicatif est la case gagnant avec un tre , mais celle-ci a un eectif observ de 7 au lieu dun eectif thorique attendu de 3,2, ce qui ne constitue pas forcment une variation trs sensible. On voit donc comment des variations sur des cases faible eectif peuvent gnrer un 2 globalement signicatif partir dcarts pourtant assez minimes en termes deectifs. Cest pourquoi une rgle assez courante (mais qui relve de la convention et non de la dmonstration mathmatique) veut que pour viter ce genre de perturbations , on ne doit pas avoir, dans un tableau crois, plus de 20 % des cases avec un eectif thorique infrieur 5. Dans le tableau qui nous intresse, ce sont 3 cases sur 6 qui sont dans ce cas, soit 50 %, donc la condition de validit nest pas remplie. Bien, et quest-ce quon fait alors ? On abandonne notre tude, empli de frustration et damertume, et quelque peu angoiss lide dexpliquer tout a notre directeur de thse qui tait dj en train de cocher ses numros, un tre quatre feuilles dans chaque main ? Et bien non ! Comme nous lavons voqu prcdemment, le fait dutiliser une approximation mathmatique pour valuer le p du test du 2 nest plus une obligation compte tenu de lvolution des algorithmes et de la puissance de calcul des ordinateurs. Plutt que de calculer le p par cette approximation, on peut en eet procder une simulation, de la mme manire que nous lavons fait lchelle dune case du tableau dans la section 4.2 1 . Pour aller trs vite, ce calcul du p par simulation seectue en tirant au sort un grand nombre de tableaux (plusieurs milliers) dont les lignes et les colonnes sont indpendantes et ayant les mmes dimensions et les mmes marges que notre tableau dintrt. Pour chaque tableau, on calcule la valeur de son 2 . Une fois quon a tous ces 2 , on regarde quelle proportion dentre eux sont suprieurs celui de notre tableau : ce pourcentage nest rien dautre que la valeur du p 2 . Le dtail du calcul importe peu. Ce quil faut retenir cest quon a l une mthode qui nous permet de calculer un p pour nimporte quel tableau crois, quels que soient les eectifs thoriques 3 . Si on applique tout ceci notre exemple, on obtient un p par simulation denviron 0,025. Notre test demeure donc toujours signicatif et nous allons pouvoir poursuivre notre enqute. Il reste que les rsidus nous ont indiqu que lcart lindpendance dans notre tableau se jouait essentiellement sur une seule case, et avec des eectifs trs faibles. Parfois cela rend le tableau inintressant du point de vue de lanalyse. Dans notre cas, montrer que la possession dun tre quatre feuilles augmente signicativement la probabilit de gagner au loto peut tre un sujet dintrt central dans notre tude et pour notre directeur de thse.
6.2
Vraie limite : les variables caches
Partons dun nouvel exemple rel tir une fois de plus de lenqute Histoire de vie en croisant le fait de tenir ou davoir tenu un journal intime, et celui davoir pratiqu le tricot, la broderie ou la couture au cours des douze derniers mois. Tient ou a tenu un journal A pratiqu broderie, tricot ou couture Na pas pratiqu 348 1166 Na jamais tenu de journal 1065 5824
1. Des logiciels comme Modalisa ne le proposent pas. R, lui, le permet laide de loption simulate.p.value de la fonction chisq.test (R Development Core Team, 2008). 2. Ceux, combien nombreux, que ces questions passionnent pourront se rfrer (Chessel, 2005) pour plus de dtails. 3. lexception des tableaux ayant un eectif thorique nul, mais ceci narrive que si lune des marges du tableau est nulle, cest donc fort peu probable.
32
Limites
Le 2 de ce tableau est trs signicatif, avec un p quasiment gal zro. Le fait de pratiquer la broderie aurait donc une inuence sur le fait de tenir un journal intime (ou inversement). Ce rsultat est tout fait passionnant, mais ny aurait-il pas un petit biais ? On peut par exemple remarquer que les deux pratiques sont en gnral perues comme plutt fminines . Le sexe naurait-il donc pas un eet dans tout a ? Pour le savoir, la mthode la plus ecace est de recommencer notre test en sparant les hommes et les femmes. On eectue deux test du 2 sur les deux tableaux suivants : Journal Couture Pas de couture 2 286 Hommes Pas de journal 26 3473 Couture Pas de couture Journal 346 880 Femmes Pas de journal 1039 2351
Si on regarde les 2 , on constate quaucun des deux nest signicatif : le p vaut 0,79 pour les hommes, et 0,12 pour les femmes. Que peut on en conclure ? Qua priori la rpartition observe dans notre premier tableau ntait pas due un eet dune variable sur lautre, mais au fait que les deux sont troitement lies au sexe. On a dcouvert l ce quon appelle lexistence dune variable cache. On observe une dpendance entre les variables A et B , mais en fait cette dpendance provient uniquement du fait que toutes deux dpendent dune troisime variable C . Le plus souvent, C sera une des grandes variables socio-dmographiques classiques, comme le sexe ou lge. Ainsi, les particularits observes pour la catgorie socio-professionnelle des employs sont assez souvent lies au fait quil sagit dune catgorie o les femmes sont largement sur-reprsentes. La mthode pour vrier lexistence dune variable cache est toujours la mme : on applique nouveau les tests sur des sous-populations peu prs homognes par rapport la variable suspecte. Dans le cas du sexe, on sparera les hommes et les femmes. Dans le cas de lge, on appliquera le test sur des tranches dge plus ou moins nes, etc.
Partie 7
Ranements
Nous dtaillons ici des amliorations du test du 2 dont vous entendrez peut-tre parler ou qui pourront vous tre utiles.
7.1
Le V de Cramer
Dans la section 5.6 page 26, nous avons montr en quoi le 2 ntait pas une mesure du degr de dpendance entre les lignes et les colonnes dun tableau. On a notamment soulign que du fait de sa sensibilit la fois leectif total et aux nombres de lignes et de colonnes, les rsultats du test du 2 et la valeur du p ne peuvent en gnral pas tre compars dun tableau lautre. Cest justement pour remdier ce problme que Monsieur Harald Cramr 1 a mis au point une statistique joliment prnomme V et qui se calcule de la manire suivante : 2 Eectif total min(nombre de lignes 1, nombre de colonnes 1)
V =
Cette formule complique sapplique de la manire suivante : tant donn un tableau, on calcule la valeur de son 2 , on la divise par leectif total lui-mme multipli par la plus petite dimension du tableau laquelle on aura enlev un. Puis on fait la racine carre de tout a. Prenons un exemple de calcul sur le tableau suivant (il sagit dune copie honte du tableau 4.1 page 13) : Sociologue Avec brouette Sans brouette 37 65 Banquier 36 43 Archologue 12 7
Le 2 de ce tableau, nous lavons dj calcul, vaut 5,24. Leectif total vaut 200. La plus petite dimension du tableau est le nombre de lignes, qui vaut 2. On obtient donc le calcul suivant : 5, 24 = 0, 162 200 (2 1)
V =
1. Penser prononcer Crameur et non Cram .
33
34
Ranements
Les proprits du V retenir sont les suivantes : la valeur du V est toujours comprise entre 0 et 1 ; plus le V est lev, plus la dpendance entre les deux variables est forte. Plus le V est faible, plus les variables se rapprochent de lindpendance. Les cas extrmes sont V = 0, dans le cas o les deux variables sont parfaitement indpendantes, et V = 1, dans le cas o les variables sont identiques ; le V ne dpendant ni des eectifs ni des dimensions du tableau, il peut tre compar dun tableau lautre. Prenons comme dhabitude quelques exemples :
Homme Choucroute Brocolis V =0 20 20 Femme 20 20 Choucroute Brocolis V = 0, 5 Homme 10 30 Femme 30 10 Choucroute Brocolis V =1 Homme 0 40 Femme 40 0
On voit bien avec ces trois tableaux que le V varie bien en fonction du niveau de dpendance dans le tableau, de 0 (indpendance totale) 1 (dpendance totale). Cest ce qui lui vaut le nom de ccient de contingence (la contingence tant linverse de lindpendance) : plus la valeur du V est leve, plus la contingence dans le tableau est forte. Par ailleurs, on peut montrer que la valeur du V est insensible leectif total du tableau :
Homme Choucroute Brocolis Lasagnes 20 15 38 Femme 10 35 21 Choucroute Brocolis Lasagnes Homme 200 150 380 Femme 100 350 210 Choucroute Brocolis Lasagnes Homme 2 000 1 500 3 800 Femme 1 000 3 500 2 100
V = 0, 34
V = 0, 34
V = 0, 34
7.2
La correction de continuit de Yates
La correction de continuit de Yates vient du fait que les lois statistiques utilises dans le test du 2 sont par nature continues (elles peuvent prendre nimporte quelle valeur, y compris avec plein de chires derrire la virgule) tandis que les eectifs des cases de notre tableau ne peuvent tre que des nombres entiers. Ceci peut entraner une survaluation de la valeur du 2 dans certains cas. La correction de Yates consiste enlever 0,5 la valeur absolue des carts entre les eectifs observs et les eectifs thoriques avant de les mettre au carr dans le calcul des 2 partiels, ce qui donne la formule suivante : 2 partiel = (|Eectif observ Eectif thorique| 0.5)2 Eectif thorique
Les conditions dapplication de cette correction ne font pas forcment lobjet dun consensus. Parfois on la limite aux tableaux ayant 2 lignes et 2 colonnes, parfois non. En gnral elle est recommande lorsque les eectifs sont insusants, mais l aussi les critres pour le insusant sont varis. Bref, le mieux est de laisser faire le logiciel qui, sil est bien lev, devrait lappliquer dans des conditions peu prs dnies. Dans tous les cas cette correction na deet sensible que lorsque les eectifs sont faibles 2 .
2. Modalisa, dans sa version 4, applique systmatiquement cette correction aux cases dont les eectifs thoriques sont infrieurs 5. R, lui, lapplique si le tableau est de dimension 22.
7.3. Le test exact de Fisher pour les tableaux 2 2
35
7.3
Le test exact de Fisher pour les tableaux 2 2
Le test exact de Fisher est une alternative au test du 2 , mais qui vise tester la mme hypothse et sinterprte exactement de la mme manire. La principale dirence est quil sagit dun test exact, et non dune approximation tire dune loi statistique. La bonne nouvelle est donc que ce test peut sappliquer quels que soient les eectifs thoriques du tableau. La mauvaise nouvelle est quil est assez gourmand en temps de calcul. Cest la raison pour laquelle on le limite en gnral aux tableaux de dimension 22. On peut cependant lappliquer des tableaux de plus grande dimension.
Partie 8
Aide-mmoire
Cette partie rcapitule les points importants retenir de tout ce qui prcde. On indique chaque fois, entre crochets, le numro de la page correspondant au passage o ce point a t trait. Le test du 2 sapplique un tableau croisant deux variables qualitatives [5]. Il vise tester lindpendance des lignes et des colonnes de ce tableau. Dire que les lignes et les colonnes dun tableau crois sont indpendantes revient dire lune des phrases suivantes [6] : le fait dappartenir la modalit dune des deux variables na aucune inuence sur la modalit dappartenance de lautre variable ; les prols lignes du tableau crois sont tous identiques ; les prols colonnes du tableau crois sont tous identiques. Le test du 2 vise dterminer si lon peut raisonnablement rejeter lhypothse dindpendance des lignes et des colonnes de notre tableau. Pour cela, on commence par calculer les eectifs quon observerait si les lignes et les colonnes taient parfaitement indpendantes, en tenant notamment compte des contraintes sur les marges du tableau [9]. On obtient ainsi le tableau des eectifs thoriques sous lhypothse dindpendance [10]. On calcule ensuite les carts entre eectifs observs et eectifs thoriques et on les standardise pour quils soient tous positifs et comparables : on obtient ainsi le 2 partiel pour chaque case du tableau [17]. La somme de ces 2 partiels donne la valeur du 2 pour notre tableau. partir de cette valeur et du nombre de degrs de liberts de notre tableau [19], la statistique nous permet de dduire un p qui nest autre que la probabilit dobtenir le tableau crois observ si nos variables taient indpendantes [20]. Le tableau 8.1 page suivante donne quelques exemples de valeurs de p que lon peut obtenir et de linterprtation qui peut en tre faite [22]. Linterprtation du test du 2 se fait en comparant les prols lignes ou les prols colonnes leur prol moyen pour dterminer limportance des carts [23]. Lutilisation des rsidus [26] permet de dterminer, lchelle de chaque case, quels sont les carts qui sont statistiquement signicatifs. Ils sont trs utiles pour lanalyse notamment quand le nombre de cases est important, et peuvent mme conduire une reprsentation graphique du tableau crois [29]. Certains points importants sont prendre en compte quand on interprte le rsultat du 2 : le dcoupage des variables en modalits inue considrablement sur le rsultat et peut faire apparatre ou masquer des carts lindpendance [24] ; la valeur du 2 et donc du p est sensible leectif total du tableau : un p infrieur 5 % peut signier que les eectifs ne sont pas susamment important pour que le lien de dpendance soit statistiquement avr [25] ; le rsultat du test nest pas un indicateur de la force du lien entre les deux variables [26] : 36
37
p 0,7 0,15
Interprtation On ne peut pas rejeter lhypothse dindpendance. En toute rigueur, on ne devrait pas rejeter lhypothse dindpendance. Mais il est possible que des eectifs plus importants nous le permettrait. Les variables ne sont pas indpendantes au seuil classique de 5 % Lhypothse dindpendance doit tre rejete, il y a un lien entre les deux variables Lhypothse dindpendance est tellement peu probable que le logiciel narrive mme pas acher tous les zros derrire la virgule.
0,05 0,0001 0
Table 8.1 Exemples de valeur de p et de son interprtation
comme la valeur du 2 et du p dpendent des eectifs et des dimensions du tableau, on ne peut comparer ces valeurs dun tableau lautre. Pour ce genre de chose on utilise plutt un ccient de contingence comme le V de Cramer [33] ; le lien de dpendance entre les deux variables peut en fait tre d une variable cache laquelle les deux variables tudies sont lies [31]. Enn, il faut tenir compte du fait que le test peut perdre en abilit dans le cas o des cases du tableau ont des eectifs thoriques faibles [30]. On peut cependant y remdier soit en calculant le p par simulation, soit laide du test exact de Fisher [35].
Bibliographie
Alan Agresti : Categorical Data Analysis. Wiley Series in Probability and Statistics. WileyInterscience, Hoboken, 2002. Daniel Chessel : Comment comparer des frquences trs faibles ?, avril 2005. URL http://pbil. univ-lyon1.fr/R/querep/qrc.pdf. Philippe Cibois : Le pem, pourcentage de lcart maximum : un indice de liaison entre modalits dun tableau de contingence. Bulletin de mthodologie sociologique, (40):4363, septembre 1993. URL http://pagesperso-orange.fr/cibois/bms93.pdf. R Development Core Team : R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2008. URL http://www.R-project.org. ISBN 3-900051-07-0.
38

Théorie Du Khi2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Théorie Du Khi2

Transféré par

Droits d'auteur :

Formats disponibles

Tout ce que vous navez jamais voulu savoir sur le 2 sans jamais avoir eu envie de le demander

Table des matires

Et sinon, a sert quoi ?

0 10 ans Tractatus Logico-philosophicus Oui-oui et la voiture jaune 1 854

71 ans et plus 2 621

0 10 ans Tractatus Logico-philosophicus Oui-oui et la voiture jaune 5,6 % 57,8 %

11 70 ans 83,3 % 0,1 %

71 ans et plus 11,1 % 42,0 %

Total 100 % 100 %

11 70 ans 88,2 % 11,8 % 100 %

71 ans et plus 0,3 % 99,7 % 100 %

Lindpendance des lignes et des colonnes

3.2. Contraintes sur les marges du tableau

Contraintes sur les marges du tableau

Table 3.1 Tableau des eectifs thoriques (faux)

Rajoutons maintenant notre tableau 3.1 les totaux en ligne et en colonnes :

Bruns Marrons Bleus Total 20 20 40

Table 3.3 Tableau des eectifs thoriques (toujours faux)

Calculs des eectifs thoriques

3. 2,5 tant un quart de 10.

Table 3.5 Tableau des pourcentages thoriques (exacts)

Table 3.6 Tableau des eectifs thoriques (exacts)

Calcul du 2 dun tableau

Table 4.1 Eectifs observs

Table 4.2 Pourcentages thoriques (en pourcentages, arrondis)

Table 4.3 Eectifs thoriques (arrondis)

Calcul du 2 dun tableau

Table 4.4 carts entre eectifs observs et eectifs thoriques (arrondis)

Variations lchelle dune cellule

4.2. Variations lchelle dune cellule

Nombre de sociologues brouette Nombre doccurrences

Rsultats pour 100 expriences

Nombre de sociologues brouette trouvs

Calcul du 2 dun tableau

Rsultats pour 1000 expriences

Rsultats pour 10000 expriences

0 23 26 29 32 35 38 41 44 47 50 53 56 59 62 Nombre de sociologues brouette trouvs

Nombre de sociologues brouette trouvs

Rsultats pour 100000 expriences

Rsultats pour 1000000 expriences

Nombre d'occurrences 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 Nombre de sociologues brouette trouvs 68 72

Nombre de sociologues brouette trouvs

Figure 4.1 Simulation du tirage de sociologues brouette

4.3. 2 partiels et 2 du tableau

Calcul du 2 dun tableau

Table 4.5 2 partiels (arrondis)

4.4. Les degrs de libert

Les degrs de libert

Calcul du 2 dun tableau

5.3. Le test du 2 est symtrique

Le test du 2 est symtrique

Le test du 2 dpend du dcoupage en modalits

5.5. Le test du 2 dpend des eectifs

Le test du 2 dpend des eectifs

Le test du 2 ne mesure pas lintensit de la dpendance

5.7. Les rsidus

5.7. Les rsidus

Agriculteurs Indpendants Cadres

49.4 44.2 19.2

Rencontres avec la famille

Pearson residuals: 6.34

4.00 2.00 0.00 2.00 4.00

7.57 pvalue = < 2.22e16