Académique Documents
Professionnel Documents
Culture Documents
CHAPITRE VI
Analyses statistiques bivariées
1. Introduction
Les analyses bivariées
Elless consistent à étudier les variables prises en couple, via des
techniques descriptives ou probabilistes.
L’objectifs de ces études est :
• la mise en évidence d’un lien ou d’une absence de lien entre
2 variables ;
• lorsqu’il existe, l’étude de ce lien (sens, intensité).
Bâtons superposés
2. Couple qualitatif
Un couple de variables qualitatives est décrit par ses fréquences
conjointes dans un tableau tris croisés.
Les fréquences obtenues peuvent être calculées
• par rapport à l’effectif total ;
• par rapport aux effectifs marginaux, par ligne ou par colonne.
7 1 11 Interna
Total 42,9% AGE 73,3% 25,0% 25,0% 45,7%
12 8 35 AGT 27,3% 34,3% 63,6% 22,9%9,1% 100,0%
100,0%
Limousin France tional Total AGTLimousin France 58,3%
20,0% tional 12,5%
Total 31,4%
Total
Mention CAI 42,9%
1 34,3%
2 522,9% 8 100,0% Mention
Total CAI 2,9%
100,0%5,7%100,0%
14,3% 100,0%
22,9% 100,0%
n * Lieu de travail Tableau
AGE croisé Mention
11 * Lieu
3 de travail
2 16 AGE 31,4% 8,6% 40,0%
5,7% 45,7%
%Diagrammes
compris dans
AGT Lieu de travail
3 7 1 11 AGT 8,6% 20,0% 2,9% 31,4%
e travail
Exemple : Effectifs et fréquences (2)
Total 15 12
Lieu de travail 8 35 Total 42,9% 34,3% 22,9% 100,0%
Interna
20,0%
Internati
rance
on tional
* Lieu de travail Total Tableau
Tableaucroisé
croiséMention
Mention ** Lieu
Lieu de
de travail
travail Tableau croisé Mention * Lieu de travail
25,0% 62,5% 100,0% %% compris dans Limousin
Mention France onal Total % compris dans Lieu de travail
du total
Mention CAI 6,7% 16,7% 62,5% 22,9%
u 18,8%
de travail12,5% 100,0% AGE 73,3%
Lieu de travail
travail
25,0% 25,0% 45,7%
Lieu de travail
63,6% 9,1% 100,0% Interna 0,0%
Interna AGT 20,0% 58,3% Interna
12,5% 31,4% Internati CAI AGE AGT
34,3% 22,9% 100,0% Total Limousin
100,0% France tionaltional TotalTotal
France tional Total Limousin 100,0%
France 100,0% 100,0% Mention M1 AES
Mention Limousin France onal Total
2 5 8 MentionCAICAI 12,5%
2,9% 25,0% 14,3%
5,7% 62,5% 100,0%
22,9%
AGE 68,8% 18,8% 5,7%12,5% 100,0% Mention CAI 6,7% 16,7% 62,5% 22,9%
3 2 16 AGE 31,4% 8,6% 45,7% Tableaux croisés
AGE 73,3% 25,0% 25,0% 45,7%
7 1 11 AGT
AGT 27,3% 63,6% 2,9%
8,6% 20,0% 9,1% 100,0%
31,4%
AGT 20,0% 58,3% 12,5% 31,4%
12 8 35 Total
Total 42,9% 34,3%
42,9% 34,3% 22,9%
22,9% 100,0%
100,0% Total 100,0% 100,0% 100,0% 100,0%
Mesure du lien entre deux variables qualitatives
ntion * Lieu de travail Diagrammes
Tableau croisé Mention * Lieu de travail Le lien existant entre deux variables quantitatives peut se mesu-
% compris dans Lieu de travail
u de travail Lieu de travail
rer à l’aide de l’écart à l’indépendance ϕ2 ou de sa version norma-
Interna
Internati
lisée appelée V de Cramer :
France tional Total
25,0% 62,5% 100,0% Limousin France onal Total
18,8% 12,5% 100,0% Mention CAI 6,7% 16,7% 62,5% 22,9%
V =du0Khi-deux
• Tests : les variables sont indépendantes ;
AGE 73,3% 25,0% 25,0% 45,7% Signific
63,6% 9,1% 100,0%
34,3% 22,9% 100,0% Total
AGT 20,0%
100,0%
58,3%
100,0%
12,5%
100,0%
31,4%
100,0%
• V = 1 : lesValeur
variables
ddl
sont.
(totalement) liées.
Khi-deux de Pearson 16,101a 4 ,003
Rapport de vraisemblance 14,796 4 ,005
Association linéaire par linéaire 2,449 1 ,118
Nombre d'observations valides 35
a. 7 cellules (77,8%) ont un effectif théorique inférieur à 5.
Vincent Jalby – Université de Limoges – M1 AES - Analyse des données – 2018-2019 – VI. Analyses statistiques bivariées Page 1
L'effectif théorique minimum est de 1,83.
Tests du Khi-deux
Signific
Valeur ddl . Mesures symétriques
Khi-deux de Pearson 16,101a 4 ,003
Tests du Khi-deux Valeur Signific.
Valide Transport
Manquant Total
Ressources Temps de
N
processeur
Pourcentage /FORMAT=AVALUE
N00:00:00,01
Pourcentage N Pourcentage
Sexe * Transport 200 100,0% 0TABLES 0,0% 200 100,0%
Temps écoulé 00:00:00,00
/STATISTICS=PHI
Dimensions
Exemple : V = 0.359 demandées /CELLS=COUNT
2 3. Couple quantitatif
Tableau croisé Sexe * Transport
Cellules
/COUNT ROUND CELL.
Effectif disponibles 524245
Ressources Temps de
Transport
La description exhaustive d’un couple de variables quantitatives
processeur 00:00:00,01
n’est pas possible. On peut par contre
Transport en
Récapitulatif
Vélo de traitement
commun des observations
Voiture Total
Temps écoulé 00:00:00,00
Sexe Homme 20 30 5Observations
0 100
• en faire une représentation graphique ;
Femme 5 0Dimensions
Valide 30 2 0Manquant
100 2
Total
demandées6 0
Total N 70 Pourcentage N7 0 200
Pourcentage •N étudier le lien entre les deux variables.
Pourcentage
Sexe * Transport 2 0 0Cellules
100,0% 0 0,0% 200 100,0%
disponibles 524245
Mesures symétriques
Exemple : V = 0 Tableau croisé Sexe * Transport Exemple : vente d’immeubles par Agence Immobilière
Signification
Effectif Récapitulatif • Prix : prix (effectif) de vente de l’immeuble ;
de traitement des observations
approximative
Valeur
Nominal par Transport
Phi ,359 ,000
Nominal Transport en
V de Cramer commun
,359 ,000
• Appartement : nombre d’appartements dans l’immeuble ;
Observations
Vélo Voiture Total
N d'observations valides Valide
200 Manquant Total;
• Age : âge de la construction
Sexe Homme 20 30 50 100
Femme 20 N 30Pourcentage
50 100 N Pourcentage N Pourcentage
• Terrain : superficie du terrain ;
Sexe * Transport 4 0
Total 2 0 0 6 0 100,0% 100 200 0 0,0% 200 100,0%
CROSSTABS • Parking : nombre de parkings ;
/TABLES=Sexe BYMesures symétriques
Transport
Exemple : V =Tableau
1
/FORMAT=AVALUE croisé Sexe * Transport
TABLES
• Superficie : superficie totale des appartements.
/STATISTICS=PHI Signification
Effectif Valeur approximative
/CELLS=ROW
/COUNTpar
Nominal ROUND CELL.
Phi Transport
,000 1,000
Nominal V de Cramer ,000 1,000
Vélo Voiture Total
Tableaux croisés
N d'observations valides 200
Sexe Homme 0 100 100
Femme 100 0 100
Total 100 100 200
DATASET ACTIVATE Jeu_de_données0.
SAVE OUTFILE='/Users/vincent/Desktop/lien_quali.sav'
/COMPRESSED.
TestCROSSTABS
du Khi-Deux Page 6
Lorsque les donnéesBYsont
/TABLES=Sexe issues d’un échantillon, le test du khi-
Transport
deux permet de vérifier
/FORMAT=AVALUE l’existence du lien.
TABLES
/STATISTICS=PHI
Lorsque la signification (sig.) de ce test est inférieure à 5 % ou
/CELLS=COUNT
10 %,/COUNT
on peutROUND CELL. qu’il existe un lien significatif entre les
considérer
deux variables. croisés
Tableaux
L’étude plus précise de ce lien utilise une technique multi-
dimensionnelle : l’analyse des correspondances.
Page 2
Lien entre deux variables quantitatives
Exemple Pour mesurerPage 5 entre X et Y, on utilise le coefficient de cor-
le lien
rélation linéaire :
∑( x i − x )( y i − y )
r= σx σy
∈ [−1, +1]
Y = aX + b
Y = aX + b avec a>0
Y = aX + b avec a<0
Vincent Jalby – Université de Limoges – M1 AES - Analyse des données – 2018-2019 – VI. Analyses statistiques bivariées Page 2
Exemple
&[PageTitle]
Corrélations
Exemple : r = 0.968
&[PageTitle]
20
Page 1
15
Régression linéaire
La régression linéaire a pour but d’étudier en détail la liaison li-
Parking
Age
Variables Variables
Modèle introduites éliminées Méthode
1 Superficiea . Introduire
a. Toutes variables requises introduites
b. Variable dépendante : Prix
Récapitulatif du modèle
Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,968a ,937 ,934 54148,601
&[PageTitle]
a. Valeurs prédites : (constantes), Superficie
ANOVAb
Somme des
Modèle carrés ddl Carré moyen F Signification
1 Régression 1,01E+012 1 1,006E+012 343,250 ,000a
Résidu 6,74E+010 23 2932071036
Total 1,07E+012 24
a. Valeurs prédites : (constantes), Superficie
b. Variable dépendante : Prix
Coefficientsa
1800
Coefficients non Coefficients
standardisés standardisés
800000
Erreurpour la moyenne
Borne Borne
N Moyenne Erreur
Ecart-type Borne
standard inférieure
Borne supérieu
A 1 facteur standard inférieure supérieure
N Moyenne Ecart-type Minimum
1500
CAI 8 1806,25 332,133 117,427 1528,58 2083,
CAI 8 1806,25 332,133
Descriptives 117,427 1528,58 2083,92 1450
AGE 16 1558,75 130,735 32,684 1489,09 1628,
SalaireAGE
mensuel net 16 1558,75
CAI 130,735 AGE 32,684 1489,09
AGT 1628,41 1300
600000 AGT 12 1531,67 164,694
Intervalle
47,543
de confiance à 95%
1427,02 1636,
AGT 12 1531,67 164,694
Mention M1 AES47,543 1427,02 1636,31 1230
Total 36 1604,72 pour la moyenne 37,265
223,587 1529,07 1680,
Prix
2000
Exemple 1750
Les salaires (moyens) des anciens étudiants de M1 AES sont-ils 1800
liés à la mention suivie ?
Moyenne de Salaire mensuel net
A 1 facteur 1500
Descriptives
Salaire mensuel net
Intervalle de confiance à 95% 1250
pour la moyenne
Erreur Borne Borne
N Moyenne Ecart-type standard inférieure supérieure Minimum Maximum
1700 CAI AGE AGT
CAI 8 1806,25 332,133 117,427 1528,58 2083,92 1450 2500
AGE 16 1558,75 130,735 32,684 1489,09 1628,41 1300 1750 Mention M1 AES
AGT 12 1531,67 164,694 47,543 1427,02 1636,31 1230 1800
Total 36 1604,72 223,587 37,265 1529,07 1680,37 1230 2500