Académique Documents
Professionnel Documents
Culture Documents
TEST VISANT À VÉRIFIER L’HYPOTHÈSE D’INDÉPENDANCE ENTRE LES LIGNES ET LES COLONNES D’UN TABLEAU DE CONTINGENCE, C’EST-À-DIRE ENTRE LES MODALITÉS DE DEUX
VARIABLES QUALITATIVES
n observé n théorique 2 n f ij n f i f j
2
2 ij n théorique
ij n f i f j
Mesure du chi² par case, ici : Statut dans l'emploi \ 2. Other 3. Rural 4. Rural 5. Rural Effectifs Mesure du chi² par ligne
1. Accra
(42 - 51,792)² / 51,792 = 1,851 Localisation Urban Coastal Forest Savannah marginaux
1. Employed 0,051 0,226 2,466 17,803 28,339 48,885
Mesure du chi² total
2. Unemployed 1,851 0,551 5,115 45,832 76,994 130,344
Mesure du chi² par colonne 3. Not in labor force 0,320 0,344 4,400 25,567 38,249 68,879
Effectifs marginaux 2,222 1,120 11,981 89,203 143,582 248,108
Le test de significativité du chi² par case indique, pour chaque case, si la valeur observée est inférieure (<) ou supérieure (>) à la valeur théorique, et si
l'écart à la valeur théorique est significatif ou non ; il permet d’identifier quelles cases s’écartent significativement de la valeur théorique et donc sur
quelles associations (positives ou négatives) de modalités se fonde la relation de dépendance entre les deux variables qualitatives.
p-values
Statut dans l'emploi \ 2. Other 3. Rural 4. Rural 5. Rural
Probabilité de rejeter à tort 1. Accra
Localisation Urban Coastal Forest Savannah
l’hypothèse d’indépendance
entre les deux modalités 1. Employed 0,645 0,185 0,000 0,000 0,000
considérées 2. Unemployed 0,158 0,337 0,013 0,000 0,000
3. Not in labor force 0,526 0,428 0,019 0,000 0,000
Significativité par case
La population de la région de
Statut dans l'emploi \ 2. Other 3. Rural 4. Rural 5. Rural savane rurale est significativement
1. Accra
Localisation Urban Coastal Forest Savannah moins souvent employée qu’elle ne
1. Employed > > > > < devrait l’être sous hypothèse
d’indépendance
2. Unemployed < < < < >
3. Not in labor force > < < < >
Tests d’hypothèses pour l’analyse exploratoire
Self- Self-
Région \ Other Private Public « Les employés du public sont sous-représentés dans la
Retired employed employed Unemployed
Statut emploi Inactive Employee Employee région Nord »
(agric) (non-agric)
Ashanti < > < < < > < « La capitale compte relativement peu d’inactifs et
B. Ahafo < < < < > < < d’auto-employés de l’agriculture, mais se distingue par
Central < > > > < > < une proportion importante d’employés du privé, de
Eastern > < > < > > < retraités et d’auto-employés non-agricoles »
Gt. Accra < > > > < > < « La région Nord compte relativement peu d’employés du
Northern < < < < > < < privé ou du public, de retraités et d’auto-employés non-
Upper East > < < < > < > agricoles et se distingue par l’abondance relative d’auto-
Upper West > < > < > < > employés agricoles »
Volta < < < > > > < Etc…
Western < > > < > < <
Tests d’hypothèses pour l’analyse exploratoire
Le coefficient de corrélation linéaire r est un nombre sans dimension permettant de quantifier le degré de corrélation linéaire entre
deux variables ; c’est un indicateur du degré de proximité entre les points du nuage et la droite de régression de ce nuage
Attention :
• Un coefficient r proche de zéro n’implique pas nécessairement une absence de corrélation entre les deux variables ; il peut
exister une corrélation non linéaire entre les deux variables
• Une valeur élevée de r (proche de 1 en valeur absolue) n’implique pas nécessairement une forte corrélation entre les deux
variables considérées ; une troisième variable peut conduire mécaniquement à ce résultat (vente de glaces et nombre de
rhumes via la température, par exemple)
• Corrélation n’est pas causalité ; impossible de dire si x cause y, si y cause x ou si x et y sont liées à une troisième variable…
• Le coefficient de corrélation au carré, appelé R² (coefficient de détermination), donne une idée de la proportion de variabilité
d'une variable explicable par l'autre
• Les p-values calculées pour les coefficients de corrélation permettent de tester l'hypothèse nulle de corrélation non
significativement différente de zéro entre les variables
Tests d’hypothèses pour l’analyse exploratoire
p-values (Pearson) :
Variables identifiant âge taille men revenu pc % alim
Interprétation du test : identifiant 0 0,672 0,176 0,066 0,110
H0 : Le coefficient de corrélation linéaire âge 0,672 0 <0,0001 <0,0001 <0,0001
est égal à zéro taille du ménage 0,176 <0,0001 0 <0,0001 <0,0001
Ha : Le coefficient de corrélation linéaire revenu per capita 0,066 <0,0001 <0,0001 0 <0,0001
est différent de zéro % dépense alimentaire 0,110 <0,0001 <0,0001 <0,0001 0
Etant donné que la p-value calculée est 5,6 % de la variance de la part de la
inférieure au niveau de signification Coefficients de détermination (Pearson) : dépense alimentaire peut
alpha=0,05, on doit rejeter l'hypothèse Variables identifiant âge taille men revenu pc % alim s’expliquer par celle du revenu par
nulle H0 et retenir l'hypothèse alternative tête… et inversement !
Ha.
identifiant 1 0,000 0,000 0,000 0,000
âge 0,000 1 0,019 0,028 0,016
Il existe une relation linéaire (ici négative)
entre les deux variables considérées
taille du ménage 0,000 0,019 1 0,236 0,010
revenu per capita 0,000 0,028 0,236 1 0,056
% dépense alimentaire 0,000 0,016 0,010 0,056 1
Tests d’hypothèses pour l’analyse exploratoire
Le coefficient de corrélation polychorique permet de calculer la liaison entre deux variables qualitatives ordinales issues de la
discrétisation de deux variables quantitatives supposées normalement distribuées ; usage fréquent avec certaines variables
quantitatives plus faciles à collecter de manière ordinale (revenus, âges ou échelles d’accord / de satisfaction par exemple)
Basic
Primary Secondary Superior
sexe \ educ No school secondary Total
education education education
education
Femme 2849 191 1042 193 91 4366
Homme 6701 348 1984 417 190 9640
Proportion de femmes sans éducation = 2849 / 4366 = 0,653 ; proportion d’hommes sans éducation = 6701 / 9640 = 0,695
𝒑𝒇 𝒑𝒉
Valeur du test z : , avec ph et pf les proportions et
Test z pour deux proportions / Test bilatéral 𝒑𝒉(𝟏 𝒑𝒉) 𝒑𝒇 (𝟏 𝒑𝒇)
Différence -0,043 𝒏𝒉 𝒏𝒇
Interprétation du test :
H0 : La différence entre les proportions est égale à 0.
Ha : La différence entre les proportions est différente de 0.
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse alternative Ha.
La proportion de femmes sans éducation est légèrement, mais significativement, inférieure à celle des hommes
Tests d’hypothèses pour l’analyse exploratoire
Basic
Primary Secondary Superior
sexe \ educ No school secondary Total
education education education
education
Femme 2849 191 1042 193 91 4366
Homme 6701 348 1984 417 190 9640
Proportion de femmes avec éducation supérieure = 91 / 4366 = 0,021 ; proportion d’hommes avec éducation supérieure = 190 / 9640 = 0,020
𝒑𝒇 𝒑𝒉
Test z pour deux proportions / Test bilatéral Valeur du test z : , avec ph et pf les proportions et
𝒑𝒉(𝟏 𝒑𝒉) 𝒑𝒇 (𝟏 𝒑𝒇)
Différence 0,001 𝒏𝒉 𝒏𝒇
Interprétation du test :
H0 : La différence entre les proportions est égale à 0.
Ha : La différence entre les proportions est différente de 0.
Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0.
La proportion de femmes ayant une éducation supérieure n’est pas significativement supérieure à celle des hommes
Tests d’hypothèses pour l’analyse exploratoire
REGION Moyenne du revenu per capita Ecart-type du revenu per capita Total Total
Homme Femme Homme Femme Moyenne Ecart-type
Western 3671 3367 3531 2293 3585 3229
Central 4209 3763 3461 3432 4030 3455
Gt. Accra 7209 6742 5875 5334 7054 5704
Volta 2829 2685 2845 2354 2774 2667
Upper East 1632 1766 2548 2024 1668 2418
Eastern 3912 3403 3775 2465 3736 3387
Ashanti 4959 4120 4193 3152 4641 3853
B. Ahafo 3305 3055 3365 2706 3223 3164
Northern 2066 2177 2662 2363 2082 2622
Upper West 1429 1581 1805 1605 1465 1760
Total 3462 3455 3907 3337 3460 3739
Les moyennes de revenus par tête diffèrent parfois considérablement, non seulement entre hommes et femmes, mais aussi d’une
région à l’autre… les variances (écarts-types) également !
Tests d’hypothèses pour l’analyse exploratoire
Tests de comparaison des variances et des moyennes entre sous-populations (variables quantitatives)
TESTS VISANT À VÉRIFIER QUE LES DIFFÉRENCES DE CARACTÉRISTIQUES STATISTIQUES (MOYENNE ET VARIANCE) D’UNE VARIABLE QUANTITATIVE ENTRE DEUX SOUS-POPULATIONS
SONT SIGNIFICATIVEMENT DIFFÉRENTES DE ZÉRO
Les revenus par tête moyens sont-ils différents entre hommes et femmes ?
On teste d’abord la différence entre les variances du revenu par tête dans les deux sous-populations (hommes et femmes)
Test F de Fisher / Test bilatéral : 𝝈𝟐𝒇
Valeur du test F : , avec σh et σf les écarts-types observés dans les deux sous-populations
Rapport 0,729 𝝈𝟐𝒉
Interprétation du test :
H0 : Le rapport entre les variances est égal à 1.
Ha : Le rapport entre les variances est différent de 1.
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse alternative Ha.
Les variances du revenu par tête sont statistiquement différentes entre les hommes et les femmes
Note : le test F suppose la normalité des distributions de la variable quantitative dans les deux sous-populations et il est particulièrement
sensible à la non normalité ; en cas de doute, il existe donc des alternatives comme le test de Bartlett ou le test de Levene qui sont beaucoup
moins sensibles à ce problème.
Tests d’hypothèses pour l’analyse exploratoire
Tests de comparaison des variances et des moyennes entre sous-populations (variables quantitatives)
Les revenus par tête moyens sont-ils différents entre hommes et femmes ?
On teste ensuite la différence entre les moyennes du revenu par tête dans les deux sous-populations (hommes et femmes) ; selon le
résultat du test d’égalité des variances, on conduit le test approprié et on adapte les degrés de liberté en conséquence :
Test t pour deux échantillons indépendants / Test bilatéral : Différence observée entre les deux moyennes
Différence -7,333
t (Valeur observée) -0,114 Valeur du test t : , avec 𝑥 , 𝑥 les moyennes observées dans les deux sous-
|t| (Valeur critique) 1,960 𝝈²
𝒉
𝝈²𝒇
𝒏𝒉 𝒏𝒇
DDL 9763,881
populations, σh et σf les écarts-types respectifs et nh et nf les effectifs respectifs
p-value (bilatérale) 0,909
alpha 0,050 Probabilité de rejeter à tort l’hypothèse H0
Le nombre de degrés de liberté est calculé en utilisant la formule de Welch-Satterthwaite
Interprétation du test :
H0 : La différence entre les moyennes est égale à 0.
Ha : La différence entre les moyennes est différente de 0.
Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0.
Les moyennes du revenu par tête ne sont pas statistiquement différentes entre les hommes et les femmes
Tests d’hypothèses pour l’analyse exploratoire
Tests de comparaison des variances et des moyennes entre sous-populations (variables quantitatives)
Les revenus par tête moyens sont-ils différents entre les régions « Western » et « Eastern » ?
Test F de Fisher / Test bilatéral :
Rapport 1,100
F (Valeur observée) 1,100 Interprétation du test :
|F| (Valeur critique) 1,112 H0 : Le rapport entre les variances est égal à 1.
DDL1 1394 Ha : Le rapport entre les variances est différent de 1.
Probabilité de rejeter
DDL2 1330 Etant donné que la p-value calculée est supérieure au niveau de signification seuil
à tort l’hypothèse H0
p-value (bilatérale) 0,080 alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0.
alpha 0,050
Les variances du revenu par tête sont statistiquement identiques entre les deux régions
Test t pour deux échantillons indépendants / Test bilatéral : Différence observée entre les deux moyennes
Différence 150,735
t (Valeur observée) 1,188 Valeur du test t : , avec 𝑥 𝑒𝑡 𝑥 les moyennes observées dans les deux
𝟏 𝟏
|t| (Valeur critique) 1,961 𝝈
𝒏𝒉 𝒏𝒇
Tests de comparaison des variances et des moyennes entre sous-populations (variables quantitatives)
Les revenus par tête moyens sont-ils différents entre hommes et femmes dans la région « Ashanti » ?
Les variances du revenu par tête sont statistiquement différentes entre hommes et femmes dans cette région
Test t pour deux échantillons indépendants / Test bilatéral : Différence observée entre les deux moyennes
Différence -838,444
t (Valeur observée) -4,726 Valeur du test t : , avec 𝑥 , 𝑥 les moyennes observées dans les deux sous-
𝝈² 𝝈²𝒇
|t| (Valeur critique) 1,961
𝒉
𝒏𝒉 𝒏𝒇
Interprétation du test :
H0 : La différence entre les moyennes est égale à 0.
Le revenu par tête moyen des hommes est statistiquement
Ha : La différence entre les moyennes est différente de 0.
Etant donné que la p-value calculée est inférieure au niveau de signification supérieur à celui des femmes dans la région « Ashanti »
alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse alternative Ha.
Tests d’hypothèses pour l’analyse exploratoire
TESTS PERMETTANT DE COMPARER DEUX SOUS-POPULATIONS, OU PLUS, SIMULTANÉMENT DÉCRITES PAR PLUSIEURS VARIABLES QUANTITATIVES ; ILS PERMETTENT D’OBTENIR UNE
CONCLUSION GLOBALE CONCERNANT LA RESSEMBLANCE STATISTIQUE ENTRE LES SOUS-POPULATIONS CONSIDÉRÉES
Les populations féminine et masculine sont-elles semblables du point de vue de leurs dépenses de consommation respectives ?
Les populations féminine et masculine ne sont pas statistiquement semblables du point de vue de la répartition de leurs dépenses
de consommation
Tests d’hypothèses pour l’analyse exploratoire
Il n’y a pas de différence statistique de répartition des dépenses de consommation entre les individus à identifiant pairs
et impairs