Vous êtes sur la page 1sur 23

Chapitre 2 Tableaux de frquences ` 2 e a variables

Nous considrons maintenant le cas de 2 variables conjointes discr`tes, mesures e e e chez les mmes sujets (ou units). e e

2.1
2.1.1

Introduction
Tableau de contingence (ou tableau de frquences) e

On consid`re une certaine population, et on sintresse ` 2 variables discr`tes: e e a e La variable X, avec I valeurs possibles v1 , . . . , vI La variable Y , avec J valeurs possibles w1 , . . . , wJ On sintresse aux quantits suivantes: e e ij i. .j j|i i|j = = = = = P (X = vi , Y = wj ) P (X = vi ) P (Y = wj ) P (Y = wj |X = vi ) P (X = vi |Y = wj )

An destimer ces quantits, on dispose dun chantillon alatoire de taille e e e n, disons (X1 , Y1 ), . . . , (Xn , Yn ) issu de notre population. On note alors Nij = # dobservations pour lesquelles X = vi et Y = wj 20

Notez que les observations (X1 , Y1 ), . . . , (Xn , Yn ) constituent les donnes brutes e e alors que les frquences Nij (i = 1, . . . et j = 1, . . . , J) reprsentent les e donnes groupes. Ces donnes groupes sont habituellement prsentes sous e e e e e e la forme dun tableau appel tableau de frquences ` deux variables ou encore e e a tableau de frquences I J. Un tel tableau est reprsent ` la table 2.1. e e e a Nous dnissons donc e Table 2.1: Tableau w1 w2 v1 N11 N12 v2 N21 N22 ... ... ... vI NI1 NI2 Total N.1 N.2 de frquence I J e . . . wJ Total . . . N1J N1. . . . N2J N2. ... ... ... . . . NIJ NI. . . . N.J n

Ni. =
j=1 I

Nij Nij
i=1

N.j =

Il est donc facile de voir que les observations du tableau de contingence suivent une loi Multinomiale: (Nij , i = 1, . . . , I; j = 1, . . . , J) Multinomiale(n, ij , i = 1, . . . , I; j = 1, . . . , J) (N1. , . . . , NI. ) Multinomiale(n, 1. , . . . , I. ) (N.1 , . . . , N.J ) Multinomiale(n, .1 , . . . , .J )

2.1.2

Les dirents types dchantillonnage e e

Selon le type dtude, les donnes peuvent tre collectes selon dirents e e e e e modes dchantillonnage. Il en existe 3 principaux, dont voici des exemples e a) Echantillonnage multinomial simple: Exemple 1 On demande ` 1000 personnes si elles votent pour le parti politique A, B ou a 21

C et si elles sont ages de 65 ans ou plus. On obtient les donnes suivantes e e au tableau 2.2.

Table 2.2: Exemple 1: chantillonnage multinomial simple e A B C Total - 65 ans 100 100 150 350 + 65 ans 250 200 200 650 Total 350 300 350 1000

b) Echantillonnage multinomial multiple: Exemple 2 On demande ` 30 personnes dans chacun des centre dachat A, B, C si ils a ont trouv ce quils cherchaient, avec Oui, Non ou Ne cherchait rien e comme rponses possibles. On obtient les donnes suivantes au tableau 2.3. e e

Table 2.3: Exemple 2: chantillonnage multinomial multiple e Oui Non Ne cherchait rien Total A 20 5 5 30 B 18 10 2 30 C 22 7 1 30 Total 60 22 8 90

c) Echantillonnage de Poisson: Exemple 3 On observe les accidents dans la cte de lautoroute du Vallon en 2004. On o obtient les donnes suivantes au tableau 2.4. e Table 2.4: Exemple 3: chantillonnage de Poisson e Vitesse excessive en cause Vitesse normale Chaueur homme 12 4 Chaueur femme 4 4 Total 16 8

Total 16 8 28

22

2.1.3

Estimateurs des probabilits dintrt e e e

Selon le type dchantillonnage, nous nous intressons aux probabilits jointes e e e ij ou conditionnelles i|j ou j|i . Quelque soit le type dchantillonnage, il est facile de trouver les estie mateurs de ces probabilits. En ce qui concerne les probablits jointes, on e e a ij = i|j j|i Nij , n Nij = N.j Nij = Ni.

2.2

Tester lassociation entre X et Y

La question principale dintrt lorsque lon tudie conjointement 2 variables ee e X et Y est de savoir si X et Y sont associes. Selon le mode dchantillonnage, e e cette association est reprsente selon direntes hypoth`ses: e e e e - Echantillonnage multinomial simple: on veut tester si X et Y sont indpendantes, i.e. e H0 : ij = i. .j , pour tous i = 1, . . . , I et j = 1, . . . , J. Ce type dhypoth`se requiert un test dindpendance. e e - Echantillonnage multinomial multiple: on veut tester si la distribution des valeurs de Y est la mme (homog`ne) dans chacune des I e e populations de X, i.e. H0 : P (Y = j|X = i) = P (Y = j|X = i ), pour tous (i, i ) = 1, . . . , I et pour tous j = 1, . . . , J. Ce type dhypoth`se requiert un test dhomognit. e e e e 23

2.2.1

Les tests dindpendance de X et Y e

Ces test assument que les totaux des lignes et colonnes du tableau ne sont pas xs davance. Seul le total n est x ici. Les 2 test dindpendance que e e e nous allons voir ici sont a) Le test du maximum de vraisemblance b) Le test du 2 de Pearson Exemple 4 Une enqute est mene aux Etats Unis aupr`s de 980 personnes pour sonder e e e les intentions de vote. On veut savoir si les intentions de vote dpendent du e sexe. Les donnes sont prsentes au tableau 2.5. e e e Table 2.5: Exemple 4: Intentions de vote et sexe Dmocrate Indpendant Rpublicain Total e e e Femmes 279 73 225 577 Hommes 165 47 191 403 Total 444 120 416 980

2.2.2

Test dhomognit de I populations e e e

On consid`re ici que chaque valeur de X correspond ` une population, cest e a ` dire que les totaux des ranges (les ni. ) sont xs davance. Par exemple, a e e nous pouvons reprendre lexemple 4 en considrant que lenqute a t mene e e ee e sparment aupr`s de 403 femmes et de 980 hommes. e e e Mme si il ny a pas de dirence dun point de vue mathmatique entre le e e e test dindpendance et le test dhomognit, il est important de comprendre e e e e que dans les 2 cas, les hypoth`ses testes ne sont pas les mme. e e e Si on fait un test dindpendance (seul le grand total n est x), on teste e e H0 : ij = i. .j , pour tous i = 1, . . . , I et j = 1, . . . , J.

24

Si on fait un test dhomognit (les totaux des lignes sont xs), on teste e e e e H0 : P (Y = j|X = i) = P (Y = j|X = i ), pour tous (i, i ) = 1, . . . , I et j = 1, . . . , J. Remarques: 1) Les seuils des tests sont bass sur une approximation de la distribution e de la statistique du test du Chi2 et de la statistique du test du rapport de vraisemblance. Lorsque n est petit, lapproximation est meilleure pour le test du Chi2. Pour que lapproximation du test du rapport de vraisemblance soit raisonnable, il faut que n/(IJ) 5. 2) Les valeurs des statistiques des tests du rapport de vraisemblance et du Chi2 restent inchanges si on permute les lignes du tableau, ou si on e permute les colonnes. On assume donc ici quil ny a pas dordre dans les valeurs des variables X et Y. Si X ou Y sont ordinales, il faut donc utiliser de nouvelles techniques. Cest ce que nous allons voir dans la section suivante.

2.3

Le cas particulier des tableaux de frquence e 2 2: association entre X et Y

Un tableau de frquence 2 2 est un tableau de frquences pour lequel les e e variables X et Y ne prennent que 2 valeurs possibles. Cest donc un cas particulier des tableaux I J lorsque I = 2 et J = 2. Les mthodes que nous avons vu pour tester lassociation entre 2 variables e X et Y dans le cas des tableaux I J sont bien sr valables dans le cas des u tableaux 2 2. Cependant, le test dhomognit de I populations peut aussi e e e tre vu comme un test dgalit de 2 proportions, dans le cas o` I = 2. Cest e e e u ce que nous allons voir dans la prochaine section.

2.3.1

Une re-visite du test dhomognit de 2 popue e e lations: comparaison de 2 proportions

Le test dhomognit de 2 populations dans un tableau de frquence 2 2 e e e e peut aussi tre construit de la mme faon quun test classique de 2 propore e c 25

tions. Exemple 5: Un tude cherche ` tester si la prise rguli`re daspirine rduit la more a e e e talit cause par les maladies cardiovasculaires. Deux groupes de personnes e e sont tudis. Un premier groupe de 11034 personnes ont pris un comprim e e e daspirine tous les 2 jours pendant 5 ans. Un second groupe de 11037 personnes ont pris un placbo pendant 5 ans. A la n de ltude, on observe le e e nombre de personnes ayant souert dun infarctus. Les rsultats sont donns e e au tableau 2.6. Table 2.6: Exemple 5: Infarctus et aspirine Groupe Infarctus Pas dinfarctus Total Placbo e 189 10845 11034 Aspirine 104 10933 11037

2.3.2

Mesures dassociation de 2 variables

On consid`re ici un tableau de frquences de 2 variables X et Y de la forme e e 2.7. Table 2.7: Tableau 2 2 Y=1 Y=2 Total X=1 N11 N12 N1. X=2 N21 N22 N2. Total N.1 N.2 n

Un test dgalit de proportions permet de tester lassociation entre 2 varie e ables. Dans le cas de lexemple de linfarctus, tester si la prise daspirine est associ au risque de maladie cardiovasculaire revient a tester si P (Inf arctus|Aspirine) = e ` P (Inf arctus|P lacebo). Outre le test formel dhypoth`ses, il existe direntes e e mesures permettant de quantier la force dassociation de 2 variables, lorsque celles-ci ont 2 niveaux chacune. Ces mesures sont: a) La dirence de 2 proportions e 26

b) Le risque relatif c) Le rapport de cotes Notez que lorsque X et Y ne sont pas associes, la dirence des 2 proportions e e est nulle, et le risque et rapport de quotes sont tous les deux gaux ` 1. e a

2.3.3

Infrence exacte pour de petits chantillons e e

Le test dhomognit que nous avons vu a la section 2.2.2, le test dindpendance e e e ` e vu ` la section 2.2.1 , le test dgalit de 2 proportions vu a la section 2.3.1 a e e ` ainsi que le test sur le rapport de cotes vu a la section 2.3.2 sont tous bass ` e sur le Thor`me Central Limite. Ce sont donc des test approximatifs, valides e e lorsque n (ou ni. , n.j ) est assez grand. Si ce nest pas le cas, on peut alors utiliser un test exact, appel Test de Fisher. e Nous cherchons donc ` tester si les 2 variables X et Y sont associes, cest a e ` dire que nous testons a H0 : H1 : = = < > 1, 1, 1, 1,

o` reprsente le rapport de quote des variables X et Y. La mthode du test u e e de Fisher est la suivante: e e e 1) Pour chaque valeur possible de n11 (tant donn les sommes des ranges et colonnes), on calcule P (N11 = n11 |N1. = n1. , N2. = n2. , N.1 = n.1 , N.2 = n.2 ) 2) Le seuil du test est alors obtenu ainsi: Pour H1 : > 1:
e Seuil = P (N11 nobserv|N1. = n1. , N2. = n2. , N.1 = n.1 , N.2 = n.2 ) 11

Pour H1 : < 1:
e Seuil = P (N11 nobserv|N1. = n1. , N2. = n2. , N.1 = n.1 , N.2 = n.2 ) 11

27

Pour H1 : = 1: Seuil =
n11 I e o` I = {n11 tels que P (N11 = n11 | . . .) P (N11 = nobserv| . . .)}. u 11

P (N11 = n11 |N1. = n1. , N2. = n2. , N.1 = n.1 , N.2 = n.2 ),

Exemple 6: exemple du th e Une dame prtend quelle peut deviner si le lait a t vers avant ou apr`s le e ee e e th, simplement en le gotant. e u On lui fait donc boire 8 tasses de th (4 tasses avec le lait en premier, et 4 e tasses avec le lait en second) et on lui demande quelles sont les 4 tasses qui ont reu le lait en premier. Les rponses de la dame sont donnes au tableau c e e 2.8. Table 2.8: Exemple 6: Th et lait e Rpond lait en premier e 3 1 4 Rpond lait en second e 1 3 4 Total 4 4 8

Lait vers en premier e lait vers en second e Total

Remarque: Si les totaux des colonnes ou ranges ne sont pas xs, il existe des tests e e exacts moins conservateurs que celui de Fisher (ces test ne sont pas vus dans ce cours). On peut eectuer le test de Fisher sur des donnes o` les marges ne sont pas e u xes davance, mais il faut tre conscient que le seuil du test nous donne la e e e e probabilit dobtenir une valeur de N11 aussi extrme que la valeur observe, e e dans une exprience ou H0 est vraie ET que les totaux des colonnes et ranges e sont xes. 28

2.4

Quelques exemples particuliers dchantillonnage e en biostatistique

Letude de variables discr`tes se retrouve beaucoup dans le domaine mdical e e (biostatistique). Il nest donc pas rare de sparer des sujets dune tude e e en 2 groupes distincts, an dtudier leet dune seconde variables chez les e 2 groupes (voir exemple de laspirine). On identie en particulier 2 types dtudes: e Les tudes observationnelles (Exemple 7): e Les sujets dcident par eux mme auquel des 2 groupes ils appartiene e nent. Par exemple, on cherche ` tudier si le fait davoir dj` fum a e ea e dans sa vie augmente les chances davoir un infarctus du myocarde. Les donnes sont prsentes au tableau 2.9. e e e Table 2.9: Exemple 7: Infarctus du myocarde et cigarette Infarctus du myocarde 172 90 Pas dinfarctus du myocarde 173 346

A dja t fumeur e ee Na jamais t fumeur ee

Les tudes exprimentales: e e Les sujets sont assigns aux deux groupes dtudes par les chercheurs. e e Un exemple typique est celui de laspirine et de linfarctus (exemple 5) vu plus tt. Ce genre dtude, o` les sujet sont assigns alatoirement o e u e e ` un des deux groupes (aspirine ou placbo) est appel essai clinique a e e (clinical trial). On note 2 grands types dtudes observationnelles: e Les tudes Cas-tmoin (case-control): e e Les variables X et Y peuvent tre mesures immdiatement. Par exe e e emple, dans lexemple de la cigarette et de linfarctus du myocarde (exemple 7), on a chantillonn 2 groupes de sujets: un groupe ayant e e eu un infarctus, et un groupe nayant jamais eu dinfarctus. On demande ensuite aux sujets si ils ont dja fum ou non dans leur vie. e e 29

Les tudes de cohorte (cohort study): e On assigne les sujets ` 2 groupes (variable X). On doit parfois attendre a plusieurs annes avant dobserver la variable Y . Dans lexemple de e la cigarette et de linfarctus du myocarde, si on avait chantillonn e e dabord les 2 groupes fumeurs / non fumeur, on aurait t en prsence ee e dune tude de cohorte. e Attention !: Quelque soit le type dtude, les analyses statistiques ne e changent pas. Par contre, linterprtation des rsultats et la dnition des e e e quantits dintrt peuvent changer !! e ee

Etude dtaille de lExemple 7 avec SAS e e Le programme SAS pour cet exemple est le suivant:

data fumee; input fumee myoc count @@; cards; 1 1 172 1 2 173 2 1 90 2 2 346 ; proc freq order=data ; weight count; tables fumee*myoc / chisq expected measures; run; La sortie de SAS nous donne les rsultats suivants: e The SAS System 09:13 Thursday, January 18, 2007 10

The FREQ Procedure Statistics for Table of fumee by myoc Statistic DF 30 Value Prob

-------------------------------------------------------Chi-Square 1 73.7287 <.0001 Likelihood Ratio Chi-Square 1 74.2583 <.0001 Continuity Adj. Chi-Square 1 72.4241 <.0001 Mantel-Haenszel Chi-Square 1 73.6343 <.0001 Phi Coefficient 0.3073 Contingency Coefficient 0.2937 Cramers V 0.3073

Fishers Exact Test -----------------------------------Cell (1,1) Frequency (F) 172 Left-sided Pr <= F 1.0000 Right-sided Pr >= F 6.762E-18 Table Probability (P) Two-sided Pr <= P 1.888E-17 1.029E-17

Statistics for Table of fumee by myoc Statistic Value ASE -----------------------------------------------------Gamma 0.5853 0.0526 Kendalls Tau-b 0.3073 0.0343 Stuarts Tau-c 0.2882 0.0328 Somers D C|R Somers D R|C Pearson Correlation Spearman Correlation Lambda Asymmetric C|R Lambda Asymmetric R|C Lambda Symmetric Uncertainty Coefficient C|R 31 0.2921 0.3232 0.3073 0.3073 0.0000 0.2377 0.1351 0.0745 0.0332 0.0359 0.0343 0.0343 0.0000 0.0410 0.0239 0.0168

Uncertainty Coefficient R|C Uncertainty Coefficient Symmetric

0.0693 0.0718

0.0157 0.0162

Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits ----------------------------------------------------------------Case-Control (Odds Ratio) 3.8222 2.7934 5.2299 Cohort (Col1 Risk) 2.4152 1.9532 2.9864 Cohort (Col2 Risk) 0.6319 0.5629 0.7093 Sample Size = 781

Options SAS de la procdure FREQ e Voici quelques options de la procdure FREQ qui vous permettent dobtenir e les direntes statistiques que nous avons vu en classe: e - Test dassociation du rapport de vraisemblance: option CHISQ - Test dassociation du Chi2 de Pearson: option CHISQ - Achage des valeurs espres Eij pour le test dassociation du e e Chi2 de Pearson: option EXPECTED - Test de Fisher pour les tables 2 2: option CHISQ - Test exact de Fisher pour les tables I J: option EXACT ou FISHER - Mesures dassociations pour les tables 2 2, et tests correspondants: option MEASURES 32

2.5

Le cas particulier des donnes paires: e e tableaux I I

Nous considrons ici le cas o` les variables X et Y sont paires, cest ` dire e u e a que X et Y sont naturellement dpendantes. Voici 2 exemples de donnes e e paires: e Exemple 8: Un groupe de 1600 canadiens en age de voter participent a une tude. On ` e leur demande tout dabord leur opinion (favorable ou dfavorable) au sujet e de la performance du premier ministre canadien. On leur repose la mme e question 6 mois plus tard, et on obtient les rsultats du tableau 2.10. La e question dintrt est donc de savoir si il y a une dirence signicative entre ee e les rsultats du premier et second sondage. e Table 2.10: Exemple 8: Opinion politique des canadiens a 6 mois dintervalle ` Second sondage Favorable Premier sondage Dfavorable e Total 86 880 570 720 656 1600 Favorable 794 Dfavorable e 150 Total 944

Exemple 9: Deux mdecins doivent diagnostiquer un groupe de 100 patients. Le diagnose tique est malade/sain. Chaque patient est examin par les 2 mdecins. On e e obtient les rsultats du tableau 2.11. La question dintrt est donc de savoir e ee si il y a une dirence signicative entre les diagnostiques des 2 mdecins. e e

33

Table 2.11: Exemple 9: Diagnostique des mmes patients par 2 mdecins e e Second mdecin e Malade Sain Total Malade 23 15 38 Premier mdecin e Sain 20 42 82 Total 43 57 100

2.5.1

Test de la symtrie de la loi conjointe e


H0 : ij = ji ,

Ce test sert ` tester si X et Y sont symtriques, cest ` dire: a e a

pour tous (i, j). Nous allons voir 2 faons de raliser ce test: c e a) Test du rapport de vraisemblance b) Test du Chi2 de Pearson

2.5.2

Test dhomognit des marginales e e e

On cherche ` tester ici si les distributions marginales de X et Y sont idena tiques. On teste donc H0 : i. = .i , pour tous i = 1, . . . , I. Cela implique donc que sous H0 , nous avons les contraintes suivantes: 11 + . . . + 1I = 11 + . . . + I1 , 21 + . . . + 2I = 12 + . . . + I2 , ... I1 + . . . + II = 1I + . . . + II . Il nest pas possible de trouver explicitement le maximum de vraisemblance a sous H0 , cest ` dire sous les contraintes ci-dessus. Cela requiert donc lutilisation dun logiciel, an de trouver une solution numrique ` ltape e a e 34

de maximisation. Une fois que les estimateurs du maximum de vraisemblance sous H0 sont obtenus, le test du rapport de vraisemblance et du Chi2 de Pearson peuvent tre eectus exactement de la mme faon que dhabitude. e e e c Les degrs de libert du test sont: e e #degrs de libert = (dim espace param`tre) - (dim espace sous H0 ) e e e 2 2 = (I 1) (I I) = I 1

2.5.3

Cas particulier des donnes paires dans un tableau e e 2 2: le test de McNemar

Re-considrons maintenant le cas des tests de symtrie de la loi conjointe et e e le test dhomognit des lois marginales dans le cas dun tableau 22. Dans e e e ce cas, on a Symtrie de la loi conjointe Homognit des lois marginales e e e e Il sen suit que dans le cas 2 2, le test de symtrie de la loi conjointe et le e test dhomognit des lois marginales sont exactement le mme test. Notez e e e e aussi que les degrs de libert obtenus dans les 2 tests: I(I 1)/2 (symtrie) e e e et I 1 (homognit) coincident lorsque I = 2. La statistique du Chi2 de e e e Pearson obtenue ` la section 2.5.1 se simplie normment, et on obtient: a e e (N12 N21 )2 . N12 + N21

2 = 0

e La valeur-p du test est donc P (2 2 ). Ce test est appel le test de 1 0 McNemar.

2.5.4

Etude dtaille de lexemple 8 avec SAS e e

Le programme SAS pour cet exemple est le suivant:

35

data sondage; input sond1 sond2 count @@; cards; 1 1 794 1 2 150 2 1 86 2 2 570 ; proc freq order=data ; weight count; tables sond1*sond2 / agree; run; La sortie de SAS nous donne les rsultats suivants: e Statistics for Table of sond1 by sond2 McNemars Test Statistic (S) DF Pr > S 17.3559 1 <.0001

Simple Kappa Coefficient Kappa ASE 95% Lower Conf Limit 95% Upper Conf Limit Sample Size = 1600 0.6996 0.0180 0.6644 0.7348

Autres options SAS de la procdure FREQ e Voici une option de la procdure FREQ qui vous permet deectuer les tests e de McNemar, de symtrie et homognit des marginales. e e e e - Test de McNemar: option AGREE 36

- Test de symtrie des marginales: option AGREE e - Test dhomognit des marginales: option AGREE e e e

2.6

Tableaux I J et donnes ordinales e

Nous considrons ici le cas o` la variable X ou Y (ou bien X et Y) est ore u dinale. Les tests dassociation que nous avons vu jusqu` prsent (Section a e 2.2) peuvent en thorie sappliquer, mais nous perdons de la puissance en e nexploitant pas la structure ordinale des donnes. Il est donc prfrable e ee dutiliser des tests et mesures dassociation prenant en compte lordinalit e des donnes. e Exemple 10 Une enqute a t mene aupr`s de 410 Qubecois pour sonder leur appui au e ee e e e projet de fusion des municipalits, en fonction de leur revenu familial. Les e variables sont codes de la faon suivante: on note X le revenu et Y lappui e c au projet, tel que X=1 si revenu <25,000$ X=2 si revenu entre 25,000$ et 50,000$ X=3 si revenu entre 50,000$ et 100,000$ X=4 si revenu >100,000$ Y=1 Y=2 Y=3 Y=4 Y=5 si si si si si appuie appuie appuie appuie appuie pas du tout un peu moyennement beaucoup normment e e

Les donnes sont prsentes dans le tableau 2.12. e e e On cherche ici ` savoir si il existe une association entre le niveau dappui a Table 1 1 10 2 15 3 14 4 10 2.12: 2 18 26 18 15 Exemple 3 4 19 7 33 24 20 46 18 32 10 5 8 9 33 35

au projet de fusion et le revenu. 37

2.6.1

Mesures dassociation pour des donnes ordinales: e les coecients de correlation

Lorsque X et Y sont ordinales, une mesure dassociation naturelle est le coecient de corrlation, qui mesure lassociation linaire entre X et Y. Nous e e allons voir 2 types de coecients de corrlation: e

a) Le coecient de Pearson Dans le cas dun tableau de frquence I J, o` X peut prendre I e u e valeurs v1 , . . . , vI et Y peut prendre J valeurs w1 , . . . , wJ , on dnit
I

nij (vi v )(wj w) r=


i=1 j=1J I J

, n.j (wj w)2

ni. (vi v )2
i=1 j=1

o` v = I ni. vi /n et w = J n.j wj /n. u i=1 j=1 Si X et Y sont numriques, ce coecient est tr`s utile. Par contre, e e si X et Y sont ordinales (voir exemple 10), le choix des valeurs prises par X et Y est arbitraire, et r changera si on change ces valeurs. Ceci arrivera mme si en thorie, le niveau dassociation ne dpend pas des e e e valeurs choisies.

b) Le coecient de Spearman e e Soit Rk le rang de la ki`me observation de X et Sk le rang de la ki`me observation de Y . Le coecient de Spearman entre X et Y est dnit e comme tant le coecient de Pearson entre les (Rk , Sk ). e Si un groupe dobservations sont de mme valeur, on leur assigne toutes e leur rang moyen.

Dans lexemple 10, on se retrouve donc a calculer le coecient de Pear` son sur le tableau suivant: 38

Table 2.13: Exemple 10: coecient de Spearman 25 88 171.5 271 368 31.5 10 18 19 7 8 11.6 15 26 33 24 9 235 14 18 20 46 33 355.5 10 15 18 32 35

2.6.2

Tests dassociation pour des variables ordinales: test de Cochran-Mantel-Haenszel


e H0 : X et Y sont indpendantes

On veut tester lhypoth`se e

Pour faire un tel test sur lorsque X et Y sont ordinales, on va se baser sur le coecient de correlation r (Pearson ou Spearman). Ceci revient donc a ` tester: H0 : r = 0 La statistique de test est: M= (n 1)r

e Sous H0 , M N (0, 1). On peut donc calculer le seuil observ du test sous lhypoth`se alternative unidirectionnelle (dpendance positive ou ngative) e e e ou bi-directionnelle.

2.6.3

Etude de lexemple 10 avec SAS

Les options de SAS permettant dobtenir les statistiques vues dans cette section sont: - Coecients de correlations (Pearson et Spearman): option MEASURES - Test de Cochran-Mantel-Haenszel (avec le coef de correlation de Pearson): option CMH1 (attention, ne pas confondre avec la statistique Mantel-Haenszel Chi-Square de loption CHISQ) 39

- Test de Cochran-Mantel-Haenszel (avec le coef de correlation de Spearman): option CMH1 SCORES=RIDIT Le programme utilis pour analyser les donnes de lexemple 10 est le suivant: e e data sondage; input revenu reponse frequence @@; cards; 1 1 10 1 2 18 1 3 19 1 4 7 1 5 8 2 1 15 2 2 26 2 3 33 2 4 24 2 5 9 3 1 14 3 2 18 3 3 20 3 4 46 3 5 33 4 1 10 4 2 15 4 3 18 4 4 32 4 5 35 ; proc freq order=data;weight frequence; tables revenu*reponse / cmh1 measures ; run;

La sortie SAS est la suivante: The FREQ Procedure Statistics for Table of revenu by reponse Statistic Value ASE ---------------------------------------------------------------------Gamma 0.2944 0.0503 Kendalls Tau-b 0.2267 0.0392 Stuarts Tau-c 0.2302 0.0399 Somers D C|R Somers D R|C Pearson Correlation Spearman Correlation 0.2349 0.2189 0.2593 0.2711 0.0406 0.0380 0.0472 0.0471

40

Lambda Asymmetric C|R Lambda Asymmetric R|C Lambda Symmetric Uncertainty Coefficient C|R Uncertainty Coefficient R|C Uncertainty Coefficient Symmetric Sample Size = 410

0.0797 0.0860 0.0828 0.0391 0.0456 0.0421

0.0390 0.0477 0.0364 0.0104 0.0121 0.0112

Summary Statistics for revenu by reponse Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob ---------------------------------------------------------------1 Nonzero Correlation 1 27.4976 <.0001

Total Sample Size = 410

2.7

Tableaux I J ` frquences faibles a e

Les tests du khi-deux et du rapport de vraisemblance tant des tests asymptoe tiques, il est possible avec SAS dobtenir des distributions exactes des statistiques de test lorsque les frquences des cellules du tableau sont faibles. Pour e obtenir ces tests exacts, il sut dutiliser loption EXACT de la procdure e FREQ. Voici un exemple dun programme SAS qui gn`re des donnes dun e e e tableau a frquences faibles. ` e data faible; do lig=1 to 3; do col=1 to 9; 41

input frequen @@;output; end; end; cards; 0 7 0 0 0 0 0 1 1 1 1 1 1 1 1 1 0 0 0 8 0 0 0 0 0 0 0 ; proc print; proc freq data=faible;weight frequen; tables lig*col / chisq exact; exact chisq; run; La sortie SAS est la suivante: The SAS System STATISTICS FOR TABLE OF LIG BY COL Prob Prob Statistic DF Value (Asymptotic) (Exact) ----------------------------------------------------------------Chi-Square 16 22.286 0.134 1.32E-03 Likelihood Ratio Chi-Square 16 24.274 0.084 1.51E-03 Mantel-Haenszel Chi-Square 1 1.729 0.189 0.213 Fishers Exact Test (2-Tail) 1.51E-03 Phi Coefficient 0.964 Contingency Coefficient 0.694 Cramers V 0.681 Sample Size = 24 WARNING: 93% of the cells have expected counts less than 5. (Asymptotic) Chi-Square may not be a valid test.

Conclusion : Le seuil observ bas sur la mthode exacte permet de ree e e jeter lhypoth`se dindpendance entre les variables avec un seuil observ = e e e 1.32E-03. 42

Vous aimerez peut-être aussi