Vous êtes sur la page 1sur 13

Résumé de la capsule

Test du khi-deux

Le test d’indépendance du khi-deux a pour objectif de répondre à la question :

Existe-t-il une relation entre deux variables qualitative

Un exemple
Mise en situation : L’entreprise MG a besoin de savoir si la fiabilité des composantes
qu’elle utilise est liée au fournisseur qui l’approvisionne. En effet, s’il existe une relation,
cela signifie qu’elle doit porter attention au choix du fournisseur.

Les données nécessaires pour répondre à cette question se présentent sous la forme
d’un tableau de contingence :

Fournisseur
Total
A B C
Oui 15 20 40 75
Défectueuse?
Non 485 480 460 1425
Total 500 500 500 1500

Ce tableau est appelé tableau des effectifs observé, puisqu’il présente ce que l’on
observe dans les données collectées.

On considère les hypothèses suivantes :


H 0 :Le fait d'être ou non défectueuse est indépendant du fournisseur ;
'
H 1 : Il existe un lien entre le fait d être défectueuse ou non et le fournisseur .
On étudie ainsi le lien entre deux variables de type qualitative :
1. le fournisseur;
2. le fait que la composante soit défectueuse ou non.
Rappelons que pour déterminer si l’on doit rejeter H 0, tout test d’hypothèse se base sur
une mesure de distance entre ce qui est observé dans les données et ce qui est attendu
sous l’hypothèseH0

Comme H 0est ici une hypothèse d’indépendance, on doit comparer le tableau de


contingence (ou tableau des effectifs observé) au tableau correspondant à ce à quoi on
s’attendrait si H 0 était vraie. Ce dernier tableau est appelé tableau des effectifs
espérer, et on se base sur la théorie des probabilités pour le construire :

Rappel : Si les événements A et B sont indépendants, alors P ( A et B )=P( A)× P(B).

Dans l’exemple, le tableau des effectifs espéré correspond à :

Fournisseur
Total
A B C
Oui 25 25 25 75
Défectueuse?
Non 475 475 475 1425
Total 500 500 500 1500

Comme le nombre d’observations est ici le même pour chacun des trois
fournisseurs, on peut affirmer que si l’hypothèse d’indépendance entre le
fournisseur et le fait qu’une composante est défectueuse ou non était vraie, alors le
nombre de pièces défectueuses serait ________________ pour les trois
fournisseurs. Cette affirmation est cohérente avec le tableau ci-haut.
Exemple de calcul :
 La probabilité qu’une composante choisie au hasard soit défectueuse et
provienne du fournisseur A est calculée de la manière suivante :
P ( composante défectueuse ET fournisseur A )
¿ P ( composante défectueuse ) × P ( fournisseur A )
75 500 1 compléter
¿ × =
1500 1500 60

 Comme il y a au total 1500 composantes, l’effectif espéré sera de


1 compléter
×1500=25 pièces défectueuses chez le fournisseur A.
60

Cas général

Tableau des effectifs espéré


De façon générale, l’effectif espéré d’une case de ce tableau se calcule de la façon
suivante :

somme de la ligne × somme de la colonne


Effectif espéré=
somme totale

Le test du khi-deux
On utilise le test du khi-deux pour déterminer s’Il existe une relation entre les variables
X et Y . Les hypothèses confrontées sont :

H 0 :Les variables X et Y sont indépendantes


H 1 : Les variables X et Y sont dépendantes

La statistique du test mesure la distance entre les effectifs observés et les effectifs
espérés sous H 0. On s’appuie pour notre part sur le seuil expérimental, calculé à l’aide
d’un logiciel, pour déterminer si cette distance est trop grande pour que H 0 soit
vraisemblable.
Décision :

 Seuil expérimental > α  On ne rejette pas H 0

 Seuil expérimental ≤ α  On rejette H 0

Conditions de validité du test du khi-deux :


Le test d’indépendance du khi-deux n’est valide que sous les conditions suivantes :

1. La taille d’échantillon doit être grande (n ≥ 30)


ET
2. Tous les effectifs espérés sous H 0 doivent être ≥ 5

Le coefficient de Cramer
L’intensité de la relation entre deux variables de type qualitative peut être mesurée à
l’aide du coefficient de Cramer. Il peut être calculé à l’aide du gabarit Excel.
Il varie de 0 à 1 :

0 1

Pas de relation entre Plus la valeur du coefficient augmente, plus l’association entre les
les deux variables variables est forte.
Exercices
Les exercices suivants nécessitent l’utilisation du gabarit Excel Test du khi2. Assurez-vous
d’avoir visionné la capsule vidéo associée à ce gabarit avant de compléter les exercices.

1. Existe-t-il un lien entre le fait d’aimer magasiner et d’être une fille ou un garçon?
Vous disposez des données d’un échantillon :

Aime
Tableau de
magasiner Total
contingence
Oui Non
Fille 30 20 50
Sexe
Garçon 10 40 50
Total 40 60 100

a) Calculer à la main le tableau des effectifs espérés.

b) À l’aide du gabarit, effectuer le test d’indépendance approprié. Ne pas oublier de


poser adéquatement les hypothèses et de vérifier les conditions de validité.

2. tiré du livre : Statistiques pour l’économie et la gestion


La brasserie Alber produit et vend trois types de bières : légère, normale et brune.
Considérant la segmentation du marché de la bière entre ces trois catégories, le
groupe de recherche marketing de la firme s’est demandé si les préférences des
consommateurs en matière de bière étaient différentes pour les hommes et les
femmes. Si les préférences en matière de bière sont indépendantes du sexe du
consommateur, une campagne publicitaire sera mise en place pour toutes les
catégories de bière Alber. Par contre, si les préférences en matière de bière
dépendent du sexe du consommateur, l’entreprise adaptera ses publicités en
fonction des marchés ciblés. Que pensez-vous que la brasserie Alber devrait faire ?
Vous trouverez les réponses récoltées auprès de 150 consommateurs dans le fichier
EXCEL « Alber_khi-deux.xlsx ».
3. Une compagnie ayant un site de vente en ligne désire analyser le comportement de
ses clients. Pour cela, un échantillon de 472 transactions, effectuées via le site web,
a été examiné. En particulier, le tableau suivant présente les données selon le
moment du jour où les transactions sont effectuées et le mode de paiement utilisé :

Moment du jour
Journée Soirée ou nuit Total
Crédit 174 125 299
Mode de Paypa 93 80 173
paiement l
Total 267 205 472

Existe-t-il un lien entre le mode de paiement et le moment du jour où est effectuée


la transaction ?

4. Un sondage réalisé auprès des étudiants du cours 1-620 à l’automne 2015 nous
donne les résultats :
Laquelle des phrases suivantes décrit le mieux votre atti-
tude face au cours de statistique 1-620-15 ?

46
41

30 31

Croyez-vous qu’il existe une relation entre le genre de l’étudiant et l’attitude qu’il a face
à son cours de statistique (1-620-15) si on observe la répartition suivante :
Q1 : sexe
Répartition des résultats selon le genre de l’étudiant Féminin Masculi
n Total
La statistique m’intimide. Ça me stresse de suivre ce 22 8 30
cours.
Quel ennui, mais bon, je n’ai pas le choix. 17 14 31
Je suis intéressé(e) par le cours, mais, je crains qu’il ne 35 11 46
soit difficile.
Je crois que ce sera intéressant. Ce type de cours me 15 26 41
plaît habituellement.
Super ! Le sujet m’intéresse vraiment beaucoup. 1 7 8
Total 90 66 156

5. Une chaîne hôtelière effectue un sondage afin de connaître la satisfaction des


clients par rapport à leurs trois catégories d’hôtel : Golden Palm, Palm Royale et
Palm Princess. Les résultats indiquent que 156 clients n’ont pas l’intention d’y
revenir. Une seconde question permet d’identifier les raisons de cette insatisfaction.
Le tableau de contingence nous présente les résultats :

Golden Palm Palm


Total
Raison Palm Royale Princess
prix 23 7 37 67
localisation 39 13 8 60
chambre 13 8 8 29
Total 75 28 53 156

Peut-on conclure que la raison de l’insatisfation des clients est indépendante de l’hôtel
fréquenté?
Solutions
1.
a) Le tableau des effectifs espérés est le suivant :
Aime
Tableau de
magasiner Total
contingence
Oui Non
Fille 20 30 50
Sexe
Garçon 20 30 50
Total 40 60 100
Calcul pour l’effectif espéré de la case fille-aime magasiner :
50 × 40/100=20 .
Les autres calculs sont similaires.
b) Les hypothèses du test sont :
H 0: le sexe est indépendant de l’attribut d’aimer magasiner
H 1: le sexe est lié à l’attribut d’aimer magasiner
L’échantillon est grand (n=100) et tous les effectifs espérés sont supérieurs à 5
(voir la partie a).
À l’aide du gabarit, on trouve que le seuil expérimental est 0.000045. Celui-ci est
inférieur à 0.01.
Au niveau de signification 1%, les données montrent une dépendance entre le
fait d’aimer magasiner et le genre.
2. Un tableau croisé dynamique effectué sur l’ensemble de données fournit les
résultats de l’échantillon aléatoire:
Préférence en matière de bière
Légère Normale Brune Total
Homme 20 40 20 80
Sexe
Femme 30 30 10 70
Total 50 70 30 150
Hypothèses :
H 0 : Les variables genre et préférence en matière de bière sont indépendantes
H 1 : Les variables sont dépendantes
Niveau de signification du test α : α = 5%
Conditions : n>30 ET tous les effectifs espérés > 5
Conclusion : Le fichier EXCEL « Test du khi-deux » fournit le seuil expérimental
On rejette
Seuil expérimental = 0.0468 ≤ α ⇒
H0
Au niveau de signification α =5%, les données observées nous permettent de rejeter
l’hypothèse nulle. Il semble donc qu’il y ait une relation entre le fait d’être un
homme ou une femme et la préférence en matière de bière. Ainsi, vous pourriez
suggérer à la brasserie Alber d’adapter ses publicités. Toutefois, comme les budgets
de publicité sont dispendieux et que le seuil expérimental s’avère très près du
niveau α, il pourrait être judicieux de recommander à la compagnie de collecter un
nouvel échantillon pour valider les résultats.
3. Le test d’indépendance du khi-deux nous permet de répondre à la question.
H 0 : Les variables « mode de paiement » et « moment du jour » sont
indépendantes
H 1 : Les variables sont dépendantes

Niveau de signification du test α : α = 5%

Conditions : n>30, tous les effectifs espérés > 5


Conclusion : Le fichier EXCEL « Test du khi-deux » fournit le seuil expérimental
On ne rejette pas
Seuil expérimental = 0.3497 > α H0

Au niveau de signification 5%, les données ne permettent pas d’affirmer que le


mode de paiement et le moment du jour d’une transaction sont reliés.

4. Existe-t-il une relation entre le genre de l’étudiant et la perception de son cours de


statistique ? Posez les hypothèses appropriées, utilisez le fichier EXCEL et donnez vos
conclusions.
1. Formuler les hypothèses H 0 et H 1.
H 0 : il y a indépendance entre le genre de l’étudiant et la perception du
cours 1-620
H 1 : il y a une relation entre genre de l’étudiant et la perception du
cours 1-620

2. Fixer le niveau de signification du test α .


On peut choisir α =1 % , 5 % ou 10 %. On choisit 5%.
3. Un échantillon aléatoire de 156 étudiants a été recueilli.

4. Calculer le seuil expérimental sur la base de l’échantillon observé.


Le fichier Excel Test du khi-deux calcule le seuil expérimental. Ici, il faut
constater que les conditions du test ne sont pas respectées.

Il faut par exemple regrouper les deux dernières catégories pour satisfaire les
exigences (toutes les valeurs espérées doivent être supérieures à 5). Il est en effet
possible d’effectuer ce regroupement sans modifier le sens de l’interprétation. En effet,
les catégories « Je crois que ce sera intéressant » et « Le sujet m’intéresse vraiment
beaucoup » peuvent avoir une interprétation similaire quant à l’attitude face au cours
1620. Le tableau devient donc :

5. Conclure en appliquant la règle de décision


Seuil expérimental ≤ α ⇒ On rejette H 0
Seuil experimental = 0.000063 <
0.05

Interpréter la conclusion dans le contexte :


Au niveau de signification 5%, les données montrent une relation entre la
perception face au cours 1-620 et le genre de l’étudiant. Les garçons et les filles
ne semblent pas avoir la même attitude face au cours de statistique.
5. On peut répondre à cette question au moyen d’un test du khi-deux, dont les
hypothèses sont :
H 0 :la raison de l’insatisfaction est indépendante de l’hôtel fréquenté;
H 0 :la raison de l’insatisfaction et l’hôtel fréquenté sont dépendants;
Le seuil expérimental est de 0.000019, donc on rejette H 0 avec α =1 %.
Avant de conclure, on doit s’assurer que les conditions de validité sont satisfaites :
o La taille d’échantillon est grande, avec n=156.
o Tous les effectifs espérés sont supérieurs à 5 :
Tableau des effectifs espérés
hôtel
Golden Palm Palm Royale Palm Princess Total
prix 32.21 12.03 22.76 67
raison localisation 28.85 10.77 20.38 60
chambre 13.94 5.21 9.85 29
Total 75 28 53 156
Au niveau de signification 1%, les données permettent d’affirmer que l’hôtel
fréquenté est lié à la raison de l’insatisfaction des clients.

Vous aimerez peut-être aussi