Vous êtes sur la page 1sur 37

Lanalyse statistique bivarie

Analyse conjointe de deux variables


Ltude simultane de deux caractres donne lieu une srie de couples dobservations (xi, yi) que lon regroupe dans des tableaux croiss dit tableaux de contingence.
yj
xi
x1 x2 . xi

y1
n11 n21 ni1 np1 n.1

y2 ... ....yj..yq
n12 n22 ni2 np2 n.2 n1j n2j nij npj n.j n1q n2q niq npq n.p

ni.
n1. n2. ni. np. n..

.
Xp

n.j

Analyse conjointe de deux variables


Exemple
Distribution de 17500 jeunes salaris selon lge et le salaire en MDH
Salaire Age

[5 ; 6[ [6 ; 7[ [7 ; 8[

ni.

[20 ; 22[ [22 ; 24[ [24 ; 26[ n.j


n11 = 1200 n32 = 5000

1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500

Il y a 1200 salaris gs de 20 22 ans et touchant un salaire entre 5000 et 6000 DH. Il y a 5000 salaris gs de 24 26 ans et touchant un salaire entre 6000 et 7000 DH.

f32 = 5000 / 17500 = 0,28 28% des indivis ont entre 24 et 26 ans et gagnant entre 6000 et 7000 Dh.

Analyse conjointe de deux variables


Distributions marginales La srie (xi, ni.) est appele distribution marginale X.
xi
x1 x2 . xi . Xp

ni.
n1. n2.

ni. np.

Etudier une distribution marginale revient tudier une variable un seul caractre. On obtient ainsi :

..

=1 1 ..

Var(X)=

=1 .

( )2
=1

Avec .. =

= =1 . =1

Leffectif total

Analyse conjointe de deux variables Distribution marginale de la variable Age


n1. = 1800:Effectif des salaris ayant entre 20 et 22 ans. n3.= 9100: Effectif des salaris ayant entre 24 et 26 ans. fi. =ni./n.. : Frquence marginale de xi f2. = 6600 / 17500 = 0,377 37,7% des individus sont gs de 22 24 ans. La moyenne marginale est de
1 ..

Age

ni.

[20 ; 22[ 1800 [22 ; 24[ 6600 [24 ; 26[ 9100 n.. 17500

3 =1

= 1/17500 [(21*1800) +(23*6600)+(25*9100)] = 23,8


Lge moyen des individus est de 23 ans, 9 mois et 18 jours

Var(X)=

1 ..

3 =1 .

( )2

Analyse conjointe de deux variables Distribution marginale de la variable Salaire


Salaire

[5 ; 6[ [6 ; 7[ [7 ; 8[

n..

n.j

5500 9000 3000 17500

1 ..

3 =1 1 ..

. ( )2
=
=1 =1

Var(Y)=

3 =1 .

Avec .. =

= =1 . =1 .

Leffectif total

Analyse conjointe de deux variables


Distributions conditionnelles
En plus des frquences marginales, chaque valeur yj de Y donne lieu une frquence conditionnelle qui donne la frquence relative de la valeur xi de X sachant que Y prsente la valeur yj.

fi/j = nij / n.j :Reprsente la proportion dindividus prsentant la modalit xi parmi les individus prsentant uniquement la modalit yi.
Salaire Age

[5 ; 6[ [6 ; 7[ [7 ; 8[

ni.

[20 ; 22[ [22 ; 24[ [24 ; 26[ n.j

1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500

Analyse conjointe de deux variables


F1/1 = 1200 / 5500 = 0,22 22% des individus qui touchent entre 5000 et 6000 DH ont entre 20 et 22 ans. fi=2/j=1 = 2500/5500 = 0,45 Salaire [5 ; 6[ Age f3/1 = 1800/5500 = 0,33
[20 ; 22[ [22 ; 24[ [24 ; 26[ n.j

[6 ; 7[ [7 ; 8[

ni.

1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500

Moyenne conditionnelle
1 = 1/5500 [(1200*21) + (2500*23) + (1800 * 25)] = 23,22
Lge moyen des individus qui gagnent entre 5 et 6 MDH est de 23,22 ans.

Analyse conjointe de deux variables


Distributions conditionnelles
De mme, chaque valeur xi de X donne lieu une frquence conditionnelle qui donne la frquence relative de la valeur yj de Y sachant que X prsente la valeur xi.

fY=yj/X=xi = nij / ni. :Reprsente la proportion dindividus prsentant la modalit yj


parmi les individus prsentant uniquement la modalit xi.

Salaire Age

[5 ; 6[ [6 ; 7[ [7 ; 8[

ni.

[20 ; 22[ [22 ; 24[ [24 ; 26[ n.j

1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500

Analyse conjointe de deux variables


Salaire Age [5 ; 6[ [6 ; 7[ [7 ; 8[ ni.

fj=1 / i=2= 2500 / 6600 = 0,378 37,8 des individus qui ont entre 22 et 24 ans touchent un salaire entre 5 et 6 MDH.

[20 ; 22[ [22 ; 24[ [24 ; 26[ n.j

1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500

Moyenne conditionnelle yi
= 1/6600 [(2500*5,5)+(3500*6,5)+ (600 * 7,5)] = 6,212

Le salaire moyen des individus qui ont entre 22 et 24 ans est de 6212 Dh.

Lanalyse statistique bivarie Analyse de la dpendance

A) RELATIONS ENTRE DEUX VARIABLES QUALITATIVES NOMINALES


Exemple: Enqute auprs de 200 tudiants Variable X: Provenance des tudiants R1 R2 et R3 (3 regions). Variable Y : Choix de l'universit U1 U2 et U3 (3 universits).

Njk U1 U2 R1 28 73 R2 0 2 R3 12 25 N.k 40 100

U3 Nj. 29 130 18 20 13 50 60 200

A-1) Tableau des frquences relatives


Proportion d'individus possdant simultanment les modalits Uj et Rk:
Njk R1 R2 R3 N.k U1 14,000% 0,000% 6,000% 20,000% U2 36,500% 1,000% 12,500% 50,000% U3 14,500% 9,000% 6,500% 30,000% Nj. 65,00% 10,00% 25,00% 100,00%

Commentaires 14% des tudiants viennent de la rgion R1 et sont a l'universit U1 65% des tudiants viennent de la rgion R1 30% des tudiants sont a l'universit U3

A-2) Tableaux des frquences conditionnelles A-2-a)Tableau des profils-lignes


Proportion des individus prsentant la modalit Uj parmi les individus ayant la modalit Rk :

Njk R1 R2 R3 N.k

U1 21,54% 0,00% 24,00% 20,00%

U2 56,15% 10,00% 50,00% 50,00%

U3 22,31% 90,00% 26,00% 30,00%

Nj. 100,00% 100,00% 100,00% 100,00%

Commentaire : Dans les tudiants venant de la rgion R2, 10% ont choisi l'universit U2.

A-2) Tableaux des frquences conditionnelles A-2-b) Tableau des profils-colonnes


Proportion des individus prsentant la modalit Rk parmi les individus ayant la modalit Uj:

Njk R1 R2 R3 N.k

U1 70,00% 0,00% 30,00% 100,00%

U2 73,00% 2,00% 25,00% 100,00%

U3 48,33% 30,00% 21,67% 100,00%

Nj. 65,00% 10,00% 25,00% 100,00%

Commentaire : Dans les tudiants ayant choisi l'universit U3, 30% viennent de la rgion R2.

A-3) Situation d'indpendance

A-3-a) Les frquences (relatives) thoriques espres sous l'hypothse d'indpendance:


Sous lhypothse de lindpendance:

les effectifs thoriques dans le cas de l'indpendance Njk U1 U2 U3 Nj. R1 26 65 39 130 R2 4 10 6 20 R3 10 25 15 50 N.k 40 100 60 200

les effectifs observes Njk R1 R2 R3 U1 28 0 12 U2 73 2 25 U3 29 18 13 Nj. 130 20 50

N.k

40

100

60

200

les effectifs thoriques dans le cas de l'indpendance

Njk
R1 R2

U1
26 4

U2
65 10

U3
39 6

Nj.
130 20

R3
N.k

10
40

25
100

15
60

50
200

A-3-b) Ecarts l'indpendance


Les carts l'indpendance sont donns par

La matrice des carts est calcule en soustrayant de la matrice des effectifs observs N, la matrice des effectifs thoriques esprs sous l'hypothse d'indpendance N*.

A-3-c) Mesures d'association du chi-carr

Interprtation : Plus la valeur est grande, plus on scarte de l'indpendance.

A-3-d) Rgle de dcision

On rejette lhypothse de lindpendance si la valeur de D est suprieure la valeur du quantile dordre 1- dune khi-deux (K-1)*(J-1) degrs de libert. K: le nombre de modalits de la variable Y J: le nombre de modalits de X : le risque de premier degr ( en gnrale 1% ou 5%) Dans notre exemple: D = 38.78 et la valeur critique= 9.49 donc les deux variables sont dpendantes

A-3-e) La force de la relation

Cest bien de dire quune relation est significative, mais encore faut-il vrifier lintensit de la relation. On peut mesurer la force de la relation entre les deux variables par le biais de lindice quon appelle le V de Cramer :
V D2 n ( L 1)

n = nombre dobservations (total des frquences) L = minimum des lignes et des colonnes du tableau (on prend le + petit des 2) 0 < V < 1 : plus V se rapproche de 1, plus la relation est forte

A-3-f) La force de la relation


Interprtation qualitative de la statistique V
=

0,50 0,30 0,10 0,01

V V V V V V

0,70 0,69 0,49 0,29 0,09 0,00

relation trs forte relation forte relation modre relation faible relation trs faible relation nulle

Dans notre exemple

38.78 0.311 200(2 1)

Application
Supposons la situation suivante: Au cours d'une enqute, on interroge 1 369 mres d'enfants ns avec une malformation et 2 968 mres d'enfants ns sans malformation. On constate que 35,06% des mres d'enfants ns avec malformations et 33,02% des mres d'enfants ns sans malformations fumaient.

le fait d'tre mal form la naissance dpend t-il du fait que la mre soit fumeuse ou non.

valeurs observes: mre fumeuse mre non fumeuse Total

enfant malform 480 889 1369 Effectifs thoriques

enfant "normal" 980 1988 2968

Total 1460 2876 4337

valeurs thoriques: mre fumeuse mre non fumeuse

enfant malform 1369 *1460 / 4337 = 460,85 1369 * 2876 / 4437 = 908,14 1369 les carts

enfant "normal" 2968 *1460 / 4437 = 999,15 2968 * 2876 / 4437 = 1968,86 2968

1460 2876 4437

mre fumeuse mre non fumeuse

enfant malform [ 480 - 460,85 ]2 / 460,85 (889 - 908,14)2 / 908,14 1369

enfant "normal" [(980 - 999,15)2 / 999,15 (1988 - 1968,86)2 / 1968,86 2968

1460 2876 4437

mre fumeuse mre non fumeuse

enfant malform 0,783 0,397

enfant "normal" 0,361 0,183

Remarque:
Conditions dapplication du test de khi-deux: La taille de lchantillon n doit tre assez grande (n>=30) Les effectifs thoriques doivent tre tous suprieurs 5

A) RELATIONS ENTRE DEUX VARIABLES QUANTITATIVES


1) La covariance
la covariance est un nombre permettant d'valuer le sens de variation de deux variables et, ainsi, de qualifier l'indpendance de ces variables. Si deux variables sont indpendantes alors leur covariance est nulle, mais la rciproque est fausse. L'unit de mesure de la covariance cov(X,Y) est le produit des units des variables alatoires X et Y et sa valeur est comprise dans

2) Coefficient de corrlation linaire:


Le coefficient de corrlation linaire a pour objet de mesurer l'intensit de la liaison linaire entre deux variables X et Y :

covx, y r x . y
Le coefficient de corrlation linaire est une mesure de dpendance linaire sans unit et prend ses valeurs dans [ 1;1]

-1 rxy 1 rxy = 1 relation fonctionnelle linaire rxy = 0 indpendance linaire -1 < rxy < 1 dpendance linaire d'autant plus forte que rxy est grand

3) La rgression linaire simple


La rgression linaire simple consiste dcrire au mieux la faon dont une variable quantitative y varie en fonction dune autre variable quantitative x. La variable dpendante est dsormais note y, et la variable indpendante est note x.

a) Reprsentation graphique
La premire tape consiste observer les donnes pour dterminer sil est raisonnable dtablir un lien linaire entre les variables.

Le poids moyen varie en fonction du terme il y a une liaison entre le terme et le poids de naissance

En pratique, on ne recherche pas la forme exacte de la courbe. On se contente le plus souvent dune droite dquation :

= aX + b
est lestimation de y partir de lquation de rgression

La droite de rgression permettant de mieux reprsenter les points est : = 162,30 x - 3115,6
Sans tre strictement linaire, la liaison entre le terme et le poids peut tre reprsente par une droite.

b) Lestimation du modle
Estimation par la mthode des Moindres Carres
La Somme des Carrs des Ecarts (SCE) est donne par : 2 S= ( ) = =1 =1(

)2

La mthode des Moindres Carres consiste chercher les valeurs de a et b (=aX + b) qui minimise la fonction S, ce qui revient rsoudre le systme:

= 0

et

= 0

Par consquent on obtient :

a=

( , ) ( )

et

b = - a

c) La vrification du modle
Le R2 ou coefficient de dtermination mesure la qualit de l'ajustement des estimations de l'quation de rgression. Il permet d'avoir une ide globale de l'ajustement du modle. Le R2 s'interprte comme la part de la variance de la variable Y explique par le modle de rgression, varie entre 0 et 1 et s'exprime souvent en pourcentage.

2 =1 ( ) ( )2 =1

Var (y ) Var (y)

=corr(x,y)

Applications
Lindice moyen dun salaire a volu de la faon suivante : Anne Indice 1 2 3 4 5 6 7 165 176 193 202 222 245 253

a) Reprsenter cette srie statistique par un nuage de points. b) En utilisant la mthode des moindres carres, calculer lquation de la droite reprsentant lindice en fonction de lanne. c) Comment pourrait-on prvoir lindice lanne 9 ?