Vous êtes sur la page 1sur 28

Analyse des données

M. Abdon Privat PAMBOU


Chapitre 2: Analyse bivariée
Principe:
 Etudier le lien entre deux variables

Objectif
 Mettre en évidence l’existence d’une relation de dépendance

entre deux variables


 Qu’est ce qui est la cause ?
 Qu’est ce qui est la conséquence ?

On distingue trois cas:


 Lien entre deux variables quantitatives

 Lien entre deux variables qualitatives

 Lien entre une variable qualitative et une variable quantitative

Cours Analyse des données A. P. PAMBOU 2


Quelques exemples de l’étude du lien
entre deux phénomènes
Etre une femme a-t-il une influence sur la catégorie
socioprofessionnelle ?

La durée d’obtention d’un emploi est-elle liée au type de diplôme


obtenu ?

Le sexe de l’enquêté est-elle lié à l’opinion sur le chômage ?

Les études que l’on choisit sont-elles liées à la profession des


parents ?

Outils d’analyse : on utilise le test d’indépendance du Khi-Deux

Cours Analyse des données A. P. PAMBOU 3


Quelques exemples de l’étude du lien
entre deux phénomènes
Être un homme a-t-il une influence sur la rémunération ?

 Il s’agit de regarder s’il existe une différence de rémunération


statistiquement significative entre les hommes et les femmes.

 Outils:
 Test paramétrique : Test de comparaison des moyennes entre les
hommes et les femmes
 Test non paramétrique : Test basé sur les rangs

Le budget publicitaire d’une entreprise a-t-il une influence sur son


chiffre d’affaires ?

Cours Analyse des données A. P. PAMBOU 4


Quelques exemples cas de deux
variables quantitatives
Le budget publicitaire d’une entreprise a-t-il une influence sur son
chiffre d’affaires ?

La motivation au travail est-elle proportionnelle au salaire?

Outils d’analyse : Étude de la corrélation


 Test du coefficient de corrélation linéaire

Cours Analyse des données A. P. PAMBOU 5


Etude du lien entre deux variables
qualitatives
Présentation des données: On dispose d’une base des données
Individu Variable 1 Variable 2 Variable j Variable p

1 𝑥11 𝑥12 ⋯ 𝑥1𝑗 ⋯ 𝑥1𝑝

2 𝑥11 𝑥12 ⋯ 𝑥1𝑗 ⋯ 𝑥1𝑝

3 𝑥31 𝑥32 ⋯ 𝑥3𝑗 ⋯ 𝑥3𝑝

⋮ ⋮ ⋮ ⋯ ⋮ ⋯ ⋮
𝑖 𝑥𝑖1 𝑥𝑖2 ⋯ 𝑥𝑖𝑗 ⋯ 𝑥𝑖𝑝

⋮ ⋮ ⋮ ⋯ ⋮ ⋯ ⋮

n 𝑥𝑛1 𝑥𝑛2 ⋯ 𝑥𝑛𝑗 ⋯ 𝑥𝑛𝑝

Cours Analyse des données A. P. PAMBOU 6


Etude du lien entre deux variables
qualitatives
Présentation des données: On croise les modalités des variables
Les modalités de la variable X: 𝑥1 , 𝑥2 , … , 𝑥𝑝
Les modalités de la variable Y: 𝑦1 , 𝑦2 , … , 𝑦𝑞
Individu 𝒚𝟏 𝒚𝟐 ⋯ 𝒚𝒋 ⋯ 𝒚𝒒 Total

𝑥1 𝑛11 𝑛11 ⋯ 𝑛11 ⋯ 𝑛1𝑞 𝒏𝟏+

𝑥2 𝑛21 𝑛22 ⋯ 𝑛2𝑗 ⋯ 𝑛2𝑞 𝒏𝟐+

⋮ ⋮ ⋮ ⋯ ⋮ ⋯ ⋮ ⋮
𝑥𝑖 𝑛𝑖1 𝑛𝑖2 ⋯ 𝑛𝑖𝑗 ⋯ 𝑛𝑖𝑞 𝒏𝒊+

⋮ ⋮ ⋮ ⋯ ⋮ ⋯ ⋮ ⋮

𝑥𝑝 𝑛𝑝1 𝑛𝑝2 ⋯ 𝑛𝑝𝑗 ⋯ 𝑛𝑝𝑞 𝒏𝒑+

Total 𝒏+𝟏 𝒏+𝟐 ⋯ 𝒏+𝒋 ⋯ 𝒏+𝒒 𝑵


Cours Analyse des données A. P. PAMBOU 7
Etude du lien entre deux variables
qualitatives

On porte à l’intersection de la ligne i et colonne j le nombre


d’individus ayant à la fois la modalité (X=xi) et (Y=yj)

L’analyse peut se faire à partir de la statistique 𝜒 2 (du Khi-Deux de


Pearson).

La statistique du Khi-Deux de contingence est définie par

𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑜𝑏𝑠𝑒𝑟𝑣é − 𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡ℎé𝑜𝑟𝑖𝑞𝑢𝑒 2


𝜒2 =
𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡ℎé𝑜𝑟𝑖𝑞𝑢𝑒

𝑛𝑖+ × 𝑛+𝑗
𝑁

Cours Analyse des données A. P. PAMBOU 8


Lien entre deux variables qualitatives
Tableau des effectifs théoriques

On appelle « effectif théorique » d’un couple de modalités 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗


l’effectif attendu (𝑡𝑖𝑗 ) pour ce couple de modalités en cas situation
d’indépendance entre les variables X et Y

Effectif théorique égale = Effectif total de la ligne multiplié par l’effectif total
de la colonne j divisé par l’effectif total du tableau

On note
𝑛𝑖+ × 𝑛+𝑗
𝑡𝑖𝑗 =
𝑁

Cours Analyse des données A. P. PAMBOU 9


Lien entre deux variables qualitatives:
Tableau des effectifs théoriques
Sous l’hypothèse d’indépendance, on porte à l’intersection de la
ligne i et colonne j le nombre théorique d’individus ayant à la fois la
modalité (X=xi) et (Y=yj)
Y
𝒚𝟏 … 𝒚𝒋 … 𝒚𝒒 Total
X
𝑛1+ × 𝑛+1 𝑛1+ × 𝑛+𝑗 𝑛1+ × 𝑛+𝑞
𝒙𝟏 … … 𝒏𝟏+
𝑁 𝑁 𝑁
⋮ ⋮ … ⋮ … ⋮ ⋮
𝑛𝑖+ × 𝑛+1 𝑛𝑖+ × 𝑛+𝑗 𝑛𝑖+ × 𝑛+𝑞
𝒙𝒊 … … 𝒏𝒊+
𝑁 𝑁 𝑁
⋮ ⋮ … ⋮ … ⋮ ⋮
𝑛𝑝+ × 𝑛+1 𝑛𝑝+ × 𝑛+𝑗 𝑛𝑝+ × 𝑛+𝑞
𝒙𝒑 … … 𝒏𝒑+
𝑁 𝑁 𝑁

Total 𝒏+𝟏 … 𝒏+𝒋 … 𝒏+𝒒 𝑵

Cours Analyse des données A. P. PAMBOU 10


Lien entre deux variables qualitatives :
Application:
Une enquête sur le tabagisme a été réalisé auprès de 1000
personnes dans une université
Les résultats sont donnés dans le tableau suivant

Tableau des effectifs observés


Tabagisme
Genre Fumeurs Non fumeurs Total
Masculin 420 280 700
Féminin 75 225 300
Total 495 505 1000

Question : « Peut on admettre qu’il existe un lien entre le genre et


l’addiction au tabagisme » ?
Présenter le tableau des effectifs théoriques
Cours Analyse des données A. P. PAMBOU 11
Lien entre deux variables qualitatives :
Tableau des effectifs théoriques

Tableau des effectifs théoriques

Tabagisme
Genre Fumeurs Non fumeurs Total
Masculin 700 × 495 700 × 505 700
1000 1000
Féminin 300 × 495 300 × 505 300
1000 1000
Total 495 505 1000

Cours Analyse des données A. P. PAMBOU 12


Lien entre deux variables qualitatives :
Tableau des effectifs théoriques

Tableau des effectifs théoriques

Tabagisme
Genre Fumeurs Non fumeurs Total
Masculin 346,5 353,5 700

Féminin 148,5 151,5 300

Total 495 505 1000

Cours Analyse des données A. P. PAMBOU 13


Lien entre deux variables qualitatives :
Le test du khi d’indépendance
Ce test permet de se prononcer sur le rejet ou l’acceptation de
l’indépendance.

On teste les hypothèses suivantes :


𝐻0 : « Les variables X et Y sont indépendantes »
𝐻1 : « Les variables X et Y sont dépendantes »

On calcule la statistique du Khi-Deux


𝐸𝑜𝑏𝑠 − 𝐸𝑡ℎé𝑜 2
2
𝜒 =
𝐸𝑡ℎé𝑜
𝑛𝑖+ × 𝑛+𝑗 2
𝑝 𝑞 𝑛𝑖𝑗 −
𝑁
𝜒2 = 𝑛𝑖+ × 𝑛+𝑗
𝑖=1 𝑗=1
𝑁

Cours Analyse des données A. P. PAMBOU 14


Lien entre deux variables qualitatives :
Test du khi d’indépendance: Application
On teste les hypothèses suivantes :

𝐻0 : « L’addiction au tabagisme n’est pas liée au sexe de l’enquêté(e) »


𝐻1 : « L’addiction au tabagisme est liée au sexe de l’enquêté(e) »

420 − 346,5 2 280 − 353,5 2 75 − 148,5 2 225 − 151,5 2


𝜒2 = + + +
346,5 353,5 148,5 151,5

𝜒 2 = 102,91

Cours Analyse des données A. P. PAMBOU 15


Le test du khi : Règle de décision

Règle 1: On se fixe un seuil de risque 𝜶 . On compare la


valeur calculée du Khi-Deux à la valeur théorique 𝝌𝟐𝒍𝒖 fournie
par la loi du Khi-Deux en fonction de 𝜶 et du degré de
liberté (ddl) égal à (𝒑 − 𝟏)(𝒒 − 𝟏)

 Si 𝜒𝐶𝑎𝑙
2 2
≤ 𝜒𝑙𝑢 , on accepte l’hypothèse d’indépendance des
variables X et Y

 Si 𝜒𝐶𝑎𝑙
2 2
> 𝜒𝑙𝑢 , on rejette l’hypothèse d’indépendance des
variables X et Y

Ici, pour un seuil de risque de 5%, 𝑑𝑑𝑙 = (2 − 1)(2 − 1) = 1, la


valeur critique est 𝜒𝑙𝑢
2
= 3,841
2
𝜒𝐶𝑎𝑙 2
= 102,91 > 𝜒𝑙𝑢 = 3,841 alors les deux variables sont liées au
seuil de 5%

Cours Analyse des données A. P. PAMBOU 16


Le test du khi : Règle de décision

Règle 2 : on se fixe un seuil de risque. On compare la


probabilité fournie par le logiciel à 𝜶 fixé
 Si 𝐏𝐫𝐨𝐛 > 𝜶, on accepte l’hypothèse d’indépendance des
variables X et Y
 Si 𝐏𝐫𝐨𝐛 ≤ 𝜶, on rejette l’hypothèse d’indépendance des
variables X et Y

Règle 3: On compare la Valeur-Test (VT) fournie par le


logiciel à la Valeur Critique (CV) au seuil de signification 𝛼
fixé a priori
 Si 𝑽𝑻 ≤ 𝑪𝑽 on accepte l’hypothèse d’indépendance des
variables X et Y
 Si 𝑽𝑻 > 𝑪𝑽, on rejette l’hypothèse d’indépendance des
variables X et Y

Cours Analyse des données A. P. PAMBOU 17


Lien entre deux variables qualitatives
Exercice sous SPAD
A partir du fichier « ENQUETE » de SPAD
1) Déterminer le pourcentage des enquêtés
 qui pensent que « Oui, la famille est le seul endroit où l’on se sent
bien »
 Déterminer l’âge moyen des personnes interrogées
 Le pourcentage des femmes qui ont moins de 50 ans

2) Au regard des résultats de cette étude, pensez-vous que :


 L’opinion sur le mariage est-elle liée au sexe de la personne
interrogée?
 L’attitude au risque du chômage est-elle liée au niveau d’études?
Prendre un seuil de risque de 5%.

Cours Analyse des données A. P. PAMBOU 18


Exercice d’application

On considère le fichier ASPI 1000 de SPAD


Peut-on admettre que l’opinion à propos du mariage est liée au sexe de la
personne interrogée.

Corrigé

Il s’agit de vérifier si les variables « Opinion à propos du mariage » et


« sexe » de la personne interrogée sont indépendantes

On teste alors les hypothèses suivantes:


H0: « L’opinion à propos du mariage est indépendante du sexe de la personne
interrogée »

H1: « L’opinion à propos du mariage est dépendante du sexe de la personne


interrogée »

Cours Analyse des données A. P. PAMBOU 19


Exercice d’application: Tableau croisé

On considère le fichier ASPI 1000 de SPAD


Peut-on admettre que l’opinion à propos du mariage est liée au sexe de la
personne interrogée.

Corrigé
Instructions SPAD
Insérer la base « ASPI1000 » au niveau de la filière
Choisir la méthode « TABLE »
Paramètres
 Sélections des variables
 En ligne: : Placez la variable « Opinion à propos du mariage » V
 En colonne : Placez la variable « Sexe » V
 Cliquer sur le bouton « Valider »

 Cliquez sur le bouton « Ok »Valide


Exécuter méthode

Cours Analyse des données A. P. PAMBOU 20


Exercice d’application: Tableau croisé
On considère le fichier ASPI 1000 de SPAD
Peut-on admettre que l’opinion à propos du mariage est liée au sexe de la
personne interrogée.
X= Opinion à propos du mariage Y= sexe de la personne interrogée
Effectifs Masculin Féminin ENSEMBLE
% ligne
% colonne
Union indissoluble 120 111 231
51,9% 48,1% 100,0%
25,6% 20,9% 23,1%
Dissout si pb. grave 142 200 342
41,5% 58,5% 100,0%
30,3% 37,7% 34,2%
Dissout si accord 186 201 387
48,1% 51,9% 100,0%
39,7% 37,9% 38,7%
Ne sait pas 21 18 39
53,8% 46,2% 100,0%
4,5% 3,4% 3,9%
ENSEMBLE 469 530 999
46,9% 53,1% 100,0%
100,0% 100,0% 100,0%
L’opinion à propos du mariage est-elle liée au sexe de la personne
interrogée au seuil de risque de 5%?
Cours Analyse des données A. P. PAMBOU 21
Règle 1: Lecture de la valeur critique du Khi-Deux

En utilisant le Tableur « Excel », la valeur critique de la loi du


Khi-Deux est obtenue grâce à la fonction
« LOI.KHIDEUX.INVERSE.DROITE »

On constate que le Khi-Deux calculé (7,30) est inférieur à la


valeur théorique (7,815), on admet que les deux variables sont
indépendantes,

Cours Analyse des données A. P. PAMBOU 22


Règle 3: Lecture de la valeur critique de
la loi normale N(0,1)
En utilisant le Tableur « Excel », la valeur critique de la loi
normale N(0, 1) est obtenue grâce à la fonction
« LOI.NORMALE.STANDARD.INVERSE.N »

On constate que la valeur Test, en valeur absolue (1,53) est


inférieure à la valeur théorique (1,96), on admet que les deux
variables sont indépendantes,

Cours Analyse des données A. P. PAMBOU 23


Analyse bivariée :
Lien entre deux variables quantitatives
Il s’agit de vérifier s’il existe une liaison fonctionnelle 𝑓 entre les
valeurs observées de la variable Y et celles de la variable X
𝑦𝑖 = 𝑓 𝑥𝑖 + 𝜀𝑖
Dans le cas d’une liaison linéaire, ( 𝑦 = 𝑎𝑥 + 𝑏), on utilise le
coefficient de corrélation linéaire introduit par Pearson (le
Mathématicien anglais, 1857 - 1936)

L’intensité de la liaison est mesurée par le coefficient de corrélation


linéaire
𝐶𝑜𝑣(𝑋, 𝑌)
𝑟 𝑋, 𝑌 =
𝜎(𝑋)𝜎(𝑌)

𝑛
1
𝐶𝑜𝑣 𝑋, 𝑌 = 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
𝑛
𝑖=1

Cours Analyse des données A. P. PAMBOU 24


Lien entre deux variables quantitatives
La covariance indique la variation simultanée entre les valeurs
de X et celles de Y

La covariance est la généralisation à deux variables de la notion


de variance

En posant Y=X, on retrouve l’expression de la variance de X


𝑛
1
𝐶𝑜𝑣 𝑋, 𝑋 = 𝑥𝑖 − 𝑥 𝑥𝑖 − 𝑥 = 𝑉𝑎𝑟(𝑋)
𝑛
𝑖=1

Cours Analyse des données A. P. PAMBOU 25


Lien entre deux variables quantitatives
Propriétés
On a toujours
−1 ≤ 𝑟(𝑋, 𝑌) ≤ 1
𝑟 𝑋, 𝑌 > 0 : globalement les deux variables évoluent simultanément dans le
même sens.

𝑟 𝑋, 𝑌 < 0 : globalement les deux variables évoluent simultanément en sens


inverse.

Plus le coefficient de corrélation est proche de 1 ou de -1, plus la corrélation


est forte.

𝑟 𝑋, 𝑌 = 0 signifie une absence de corrélation linéaire. Mais il peut exister


une autre forme de corrélation.

Cours Analyse des données A. P. PAMBOU 26


Exercice 2: relation entre le budget de publicité
et ventes trimestrielle

t Pub Vente
1 2 108 Budget moyen de publicité 6,6
2 3 123 Vente moyenne 160,9
3 5 134 Variance budget de Publicité 9,24
4 9 186 Variance vente 1126,7
5 4 148 Covariance(Pub, Vente) 99,16
6 6 154 Coeff de corrél(Pub, Vente) 0,9718
7 7 152
8 8 186 Coefficients de régression
9 10 201 a-chapeau 10,732
10 12 217 b-chapeau 90,071

Cours Analyse des données A. P. PAMBOU 27


Exercice 2: Relation entre Distance de livraison
et prix du service de livraison
X=Distance de livraison Y=Prix au Km
Point Distance Prix
1 10 3 Distance moyenne 52,4
2 16 4 Prix moyen 6,14
3 20 4,8 Variance distance 1328,8
4 40 6,2 Variance prix 3,1544
5 87 8 Covariance(Dist, Prix) 61,264
6 120 8,5 Coeff de corrélation(Dist, Prix) 0,9463
7 30 5,5
8 36 6 Coefficients de régression
9 65 7 a-chapeau 0,0461
10 100 8,4 b-chapeau 3,7242

Cours Analyse des données A. P. PAMBOU 28

Vous aimerez peut-être aussi