Vous êtes sur la page 1sur 53

LES MESURES DE LIAISON

DISTRIBUTIONS A DEUX CARACTERES


REGRESSION - AJUSTEMENT – CORRELATION

à un individu de l’échantillon on attache plusieurs caractères

VARIABLES STATISTIQUES

Variables indépendantes variables liées

CORRELATION
variables statistiques LIEES
par des relations fonctionnelles

liaisons stochastiques
variables liées sans liaisons fonctionnelles
l’analyse des liaisons peut se faire entre variables
quantitatives
quantitatives et qualitatives
qualitatives

étude d’une corrélation entre une variable y et une variable x

quelle est la forme de la liaison ? comment mesurer l’intensité de la liaison ?


linéaire coefficient de corrélation
polynomiale rapport de corrélation
logarithmique
exponentielle
TAILLE xi 161 179 182 171 159 192 188 168 161
POIDS yi 55 75 81 67 45 103 79 80 74

série statistique à deux variables quantitatives, ensemble des couples (xi,yi)


notation : (x,y)

y
x x1 x2 x3 x4 tableau d’effectifs
tableau de contingence
y1 n11 n12 n13 n14 Σn1 j
nii éléments diagonaux
y2 n21 n22 n23 n24 Σn2 j
y3 n31 n32 n33 n34 Σn3 j nij éléments non - diagonaux

y4 n41 n42 n43 n44 Σn4 j


Σnk1 Σ nk 2 Σ nk 3 Σ nk 4 effectifs marginaux
LIAISONS ENTRE DEUX VARIABLES QUALITATIVES

TABLEAUX DE CONTINGENCE
exemple

échantillon de n individus
variables x (couleurs des cheveux)
Variable y (couleurs des yeux)

i x y i x cheveux y yeux
1 x1 y1 blond brun bleu vert
2 x2 y2 1 0 1 0 1
2 0 1 1 0
3 x3 y3
3 1 0 1 0
. .
. quantification .
. présent 1 .
i xi yi i 1 0 1 0
absent 0 .
.
. .
n 0 1 1 0
n xn yn
modalités
TABLEAU CROISE
bleu noir total
yeux
cheveux
blond
n11 n12 n1. nombre de blonds
totaux
brun
n21 n22 n2. nombre de bruns
marginaux

total
n.1 n.2 n.. ni • ligne

nombre d’yeux bleus nombre d’yeux noirs eff


ec
tif
tot
al
totaux marginaux

n• j colonne
nij
effectif partiel associé au couple (xi, yj)

n•• effectif total

nij fréquence partielle sur effectif total


f ij = proportion d’individus satisfaisant à la fois à la modalité xi et
n•• à la modalité yi

nij proportion d’individus présentant la modalité xi parmi


fi / j = les individus qui présentent la modalité yi
n• j f de i si j

fréquences partielles conditionnelles

nij proportion d’individus présentant la modalité yi parmi


f j/i = les individus qui présentent la modalité xi
ni • f de j si i
MISE EN EVIDENCE D’UNE LIAISON
modalités

yeux bleu noir total


cheveux
blond
modalités

200 0 200 tous les blonds ont les yeux bleus

brun 0 150 150 tous les bruns ont les yeux noirs

total 200 150 350

tous les bruns ont les yeux noirs


tous les blonds ont les yeux bleus

LIAISON PARFAITE : une modalité ligne est associée à une modalité colonne
yeux bleu noir vert TOTAL
cheveux
blond 200 0 100 300 2 variables avec des
modalités différentes
brun 0 150 0 150
TOTAL 200 150 100 450

regroupement de yeux bleu ou vert noir TOTAL


modalités cheveux
blond 300 0 300
brun 0 150 150
LIAISON PARFAITE
TOTAL 300 150 450
yeux bleu noir TOTAL
cheveux
blond 200 100 300
valeurs identiques
brun 200 1O0 300
TOTAL 400 200 600

LIAISON IMPARFAITE
DEFINITION DES PROFILS

nombre de lignes : l nombre de colonnes : c

profils ligne profils colonnes

nkj nkj
nk • n• j

c nkj l nkj
Σn
j =1
=1 Σn
k =1 •j
=1
k•
profils marginaux ligne profils marginaux colonne

n• j nk •
profils = fréquences
n•• n••

c n• j l n j•
Σn
j =1 ••
=1 Σn
j =1 ••
=1

REMARQUE : connexion entre l’ensemble des fréquences de ligne (de colonne)


et les profils marginaux de la ligne (de la colonne)
yeux bleu noir TOTAL
cheveux
blond 200 100 300
brun 20 10 30
TOTAL 220 110 330

recherche de la nature de liaison entre les variables


bleu noir TOTAL PROFILS DE LIGNE

blond 200 100 300


300 300 300
brun 20 10 300
30 30 300
TOTAL 400 200 600
300 300 300

PROFILS DE COLONNE bleu noir TOTAL


blond 200 100 400
220 110 220
brun 20 10 40
220 110 220
TOTAL 220 110 440
220 110 220
ABSENCE DE LIAISON

nkj n• j nkj nk •
= ET =
nk • n•• n• j n••

nk • n• j
nkj =
n••

effectifs observés effectifs théoriques


LIAISONS INTERMEDIAIRES

nk • n• j nk • n• j
nkj ≠ nkj − ≠0
n•• n••

l C nk • n• j
ΣΣ [ nkj
k =1 j =1

n••
]≠0

compensation entre les écarts relatifs positifs et négatifs


l C
l C nk • n• j
Σ Σ [nkj − ΣΣ − 2
] 2
[O kj Tkj ]
k =1 j =1 n•• k =1 j =1

effectifs observés
effectifs théoriques
mesure de la liaison

l C [Okj − Tkj ] 2

ΣΣ =χ 2

k =1 j =1 Tkj
χ 2
max = n•• [min(l , c ) − 1]
C nature de la
coefficient de CRAMER
Coefficient liaison
Cramer
0 nulle
χ 2
0 - <0,2 faible
C= 0,2 - <0,4 moyenne
χ max
2
0,4 - <0,7 forte
0,7 - <1 très forte
1 parfaite
nk • n• j
[nkj − ] 2

n••
C kj = contribution absolue d’une case
nk • n• j
n••

C kj
×100
χ 2 contribution relative d’une case
LIAISONS ENTRE DEUX VARIABLES
QUANTITATIVES
x et y sont des variables quantitatives discrètes

(xi, yi) valeur des caractères de l’individu i

M(xi, yi) : point représentatif dans le repère choisi

le nuage de points permet de visualiser la nature de


la courbe d’ajustement

liaison positive : x et y varient dans le même sens

liaison négative : x et y varient en sens inverse


y +
y ++
+ +
++ + ++
+ ++ + +
+++ ++
+ + ++
+ + +
+ +
x x

corrélation linéaire corrélation exponentielle

y
y +
+ ++ ++ +
+ ++
++ + ++ +
++ ++ +
+ + ++ +
++
++
x x

corrélation polynomiale corrélation logarithmique


y
+ + + + +
+ + + + +
+ + + + +
+ + + + +
+ + + + +

x
indépendance entre les deux caractères

y y
+
+ + + ++
+ + ++ ++ + +
+ + + + ++
+ + + ++++
+ ++ + +
+ ++ +
+ + +

x
x
corrélation linéaire corrélation linéaire
pente positive pente positive
MESURE DE LA LIAISON

variables d’effectifs égal à 1

1 n•• 1 n••
mesure = Σ
n•• i =1
xi yi mesure = Σ
n•• i =1
( x i − x )( yi − y )

mesure non satisfaisante l’absence de liaison est détectée par


mesure = 0

covariance

1 n••
cov( x , y ) = [ Σ x i yi ] − x y
n•• i =1
cas d’une distribution en classe
série pondérée

1 l c
cov( x, y ) = Σ Σ
n•• i =1 j =1
nij ( xi y j ) − x y

l : nombre de lignes c : nombre de colonnes

l c
cov( x, y ) = Σ Σ f ij ( xi y j ) − x y
i =1 j =1
CALCULER

x y s x
s y s xy
Y
X
2 3 4 5 ni • ni • yi
12 120
10 2 3 7 0 1 l
7 140 y= Σ
n•• i =1
ni • y i
20 0 1 4 2 14 420
10 × 12 + 20 × 7 + 30 × 14 + 40 × 3
3 120 y=
30 1 3 9 1 36
3 7 22 4 36 800
n40•i 0 0 2 1 800
y= = 22.22
6 21 88 20 135
36
n•i xi
1 c
x= Σ
n•• i =1
n•i x i

2 × 3 + 3 × 7 + 4 × 22 + 5 × 4 135
x= = = 3.75
36 36
l l
sx sy n•• Σ ni • y − [Σ ni • yi ]2
2
i
s 2y = i =1 i =1

Y
X
2 3 4 5 n•i ni • yi ni • yi2 n•2•
12 120 1200
10 2 3 7 0
7 140 2800 36 × 21400 − [800 ] 2
s y2 =
20 0 1 4 2 14 420 12600 36 2

30 1 3 9 1
3 120 4800
s y2 = 100.62
3 7 22 4 36 800 21400
n40i • 0 0 2 1

6 21 88 20 135
n•i xi

n•i xi2 12 63 352 100 527


s = 0.58
2
x
c c
n•• Σ n x − [Σ n•i xi ]2
2
•i i 36 × 527 − [135] 2

s x2 = i =1 i =1 s =
2
x 2
n•2• 36
X
Y 2 3 4 5

10 2 3 7 0
l c
Σn i =1
ij yi 20 0 1 4 2 Σn
j =1
ij xj

30 1 3 9 1

20 30 70 0
40 0 0 22 13 4 5
10
41 10 410
4 9 28 0
20 0 20 80 40
29 20 580
0 3 16 10
30 30 90 270 30 52 30 1560
2 9 36 5 13 40 520
40 0 0 80 40
0 0 8 5
50 140 500 110 3070
2 3 4 5
3070
100 420 2000 550 3070 s xy = − 3.75 * 22.22 = 1.95
36
EXERCICES
CALCULER
x 0 1 2 3 - les distributions marginales;
y
- les moyennes et les écarts types;
0 4 1 0 0
- la covariance.
10 0 2 7 1

20 0 0 1 3

x 5 10 15 20 25 30 40 50 60
y
5 7 28 31 15 12 0 3 0 0

15 0 0 0 23 7 2 10 2 0
25 0 0 2 4 19 0 6 1 0
50 0 0 0 2 1 0 4 0 0
80 0 0 0 0 0 0 0 0 1
COURBES DE REGRESSION ET CORRELATION

POPULATION

y = f ( x) N = n•• x = g( y)
C y/ x individus
Cx/ y
x, y
deux variables quantitatives

les variations de la variable x lorsque le nuage de points semble


(variable explicative) sont la avoir une allure générale identifiable,
cause des variations de la on cherche à approcher (à AJUSTER)
variable y (variable à expliquer) le nuage par une courbe dont il faudra
déterminer les paramètres

Il existe trois catégories de courbes de régression relatives à une distribution


à deux variables
LIAISON FONCTIONNELLE

à chaque valeur de xi correspond une valeur de yi et réciproquement

x 1 3 5 ni • 1 l
1 l n• j l
y xj =
n• j Σ nij x i =
n• j Σn •j xi =
n• j Σx i = xi
20 3 0 0 3 i =1 i =1 i =1

40 0 0 3 3 les moyennes conditionnelles sont égales aux valeurs


des variables
90 0 4 0 4
les courbes de régression sont confondues
n• j 3 4 3 10 y=f(x) identique à x=g(y)

Il existe une loi rigoureuse entre les deux variables

1 c 1 c ni • c
yi = Σ
ni • j =1
nij y j = Σ
ni • j =1
ni • y j = Σ
ni • j =1
y j = yi
LIAISON NULLE OU INDEPENDANCE TOTALE
deux variables x et y sont totalement indépendantes si les variations de l’une
n’entraînent pas de variations de l’autre
les courbes de régerssion sont des droites perpendiculaires parallèles aux axes

x x1 x2 ni • nij 3 5 8
y fi / j = = = =
n• j 9 15 24
y1 3 5 8
nij 6 10 16
fi / j = = = =
y2 6 10 16 n• j 9 15 24
n• j 9 15 24
f i / j = f i• f j / i = f• j
nij3 6 9 les fréquences conditionnelles sont
f j/i = = = =
ni • 8 16 24 égales aux fréquences marginales
les moyennes conditionnelles sont
nij 5 10 15 égales aux moyennes marginales
f j/i = = = = pour chaque variable
ni • 8 16 24
yi → x
yy
Cx/ y Indépendance totale

+ + + + + + + +
+ + + + + + + +
+ + + + + + + +
C y / x xi → y
y + + + + + + + +
+ + + + + + + +
+ + + + + + + +

0 x
x
LIAISON RELATIVE

Il n’y a plus de propriétés remarquables dans le tableau de contingence

la corrélation n’est pas une propriété réciproque


y lié à x n’implique pas que x soit lié à y

corrélation directe ou positive


les deux caractères varient dans le même sens

corrélation inverse ou négative


les deux caractères varient en sens contraire

corrélation linéaire
les deux courbes de régression sont des droites
non parallèles aux axes de coordonnées

la liaison sera d’autant plus forte que l’angle entre ces deux droites est petit
un angle de 90° correspond à l’indépendance décrite précédemment
la mesure de cet angle est une mesure de la qualité de la liaison fonctionnelle
PRINCIPE D’UN AJUSTEMENT LINEAIRE

OBJECTIF
à partir des observations (xi, yi) on recherche une fonction qui lie les deux variables
y = ax + b

AJUSTEMENT AFFINE
les paramètres a et b de la droite d’ajustement sont obtenus en exprimant que
chaque observation est sur la droite à une erreur près appelée résidu
résidu = yi –(axi + b)

Rappel
si une droite est connue par un point M(x0, y0) et le coefficient directeur a,
l’équation de la droite s’écrit
(y – y0) = a(x – x0)
AJUSTEMENT GRAPHIQUE

à l’aide de la règle, on détermine visuellement la droite qui partage le nuage de


points de manière équitable

point d’appui G ( x, y)

LISSAGE PAR LA METHODE DES MOYENNES MOBILES

des groupes de points de même effectif sont remplacés par leurs points moyens
(barycentres)
L’ajustement graphique est ensuite plus aisé sur un nombre de points restreint
équation d’une droite définie par deux points

( x1 , y1 ) ( x2 , y2 )

y1 = ax1 + b y2 = ax 2 + b

y 2 − y1
a=
x 2 − x1
b est obtenu en reportant a dans l’une des équations de la droite
METHODE DE MAYER

le nuage de points est partagé en deux parties raisonnablement équilibrées


on détermine les deux points moyens partiels (barycentres) G1 et G2

la droite de Mayer passe par ces deux points


y + ++ +
+ + +
+ x +
+ G2
++
+
x
+ G ( x, y )
+ +
+ +
+ + +
x +
++ G
+ 1 +
+ +

O x
LA DROITE D’ALLOMETRIE

hypothèse
rôle symétrique de x et y
la droite a un coefficient directeur positif

minimisation de la somme des produits


∧ ∧
Mi point expérimental
∆x∆y = ( x i − x )( yi − y)
y i i Ni
points sur la droite d’allométrie

Mi ∆x i Pi
yi x x la droite d’allométrie passe par le point G ( x, y )
Ni
∆y i
∧ sy
y x y − y = a( x − x) a =
i
Pi sx

∧ x
xi x i
AJUSTEMENT LINEAIRE : METHODE DES MOINDRES CARRES

y M i +2 x y = ax + b
x
Mi
yi x x

y '
x
x
M i +1
'
i M i
x

x
M i −1
xi x
ajustement de y en fonction de x y = ax + b
les deux inconnues du problème sont a et b
pour chaque abscisse xi l’ordonnée sera y’i = axi + b

les résidus sont algébriques et se notent ε i = yi − yi'

si le point expérimental est sur la droite d’ajustement εi = 0

méthodes des moindres carrés


minimisation de la quantité

N N
S (a , b) = Σ ε = Σ [ yi − (ax i + b)]
2 2
i
2

i =1 i =1
procédure de minimisation

N N

Σ i Σ i
ε = − − + + +
2 2 2 2 2 2
[ y 2ax y
i i 2by i a x i 2abx i b ]
i =1 i =1

minimisation

∂ N 2 N
[Σ ε i ] = Σ [−2 x i yi + 2ax i + 2bx i ]
2

∂a i =1 i =1

∂ N 2 N
[Σ ε i ] = Σ [−2byi + 2ax i + 2b]
∂b i =1 i =1
système de deux équations à deux inconnues (a et b) à résoudre
N
(1) Σ xi [ yi − axi − b] = 0
i =1
détermination de b

N N N N

( 2) Σ[ y
i =1
i − ax i − b] = 0 Σy
i =1
i − a Σ x i − b Σ1 = 0
i =1 i =1
N

Σ1 = N
i =1

1 N
1 N
( 2)
N Σ
i =1
yi − a
N Σx
i =1
i −b = 0 y −ax −b = 0
la courbe d’ajustement passe bien
par le point

G ( x, y)
y x b = y −ax
détermination de a
N
1 N N

Σ xi yi − a Σx − b Σ xi = 0
2
(1) i
i =1 N i =1 i =1
N

b = y −ax Σx
i =1
i =Nx

N
1 N 2
Σ xi yi − a Σx − N x y + ab x = 0
2
(1) i
i =1 N i =1

N N N

Σx y −Nxy y Σ x − x Σ xi yi
2
i i i
a= i =1
N
b= i =1
N
i =1
2 2
Σx −Nx Σx −Nx
2 2
i i
i =1 i =1
Remarque : si l’effectif total de l’échantillon est petit et si les caractères sont des
nombres entiers, il est conseillé de centrer les variables. Dans ces conditions :

Σ(x i − x )( y i − y )
a= i =1
N

Σ(x − x) 2
i
i =1
AUTRE FORMULATION

y = ax + b ( y − y) = a( x − x)

cov( x , y )
a= 2
sx
cov( x , y )
b = y −ax b= y−
sx2
x

Rappel : la courbe d’ajustement passe par le point G ( x, y)


permutation des rôles
ajustement de x en fonction de y

( x − x) = a ( y − y)'
cov( x , y )
a ='
2
sy
le coefficient directeur de 1
cette droite est :
a'

y = f ( x) droite de coefficient directeur a


1
x = g( y) droite de coefficient directeur
'
a
coefficient de corrélation linéaire = mesure de la corrélation

cov( x , y )
r = aa ' r =
2
− 1 ≤ r ≤ +1
sx s y

r =1 r =0 0 < r <1
existence d’une corrélation
dépendance totale indépendance
plus ou moins forte suivant
ajustement justifié ajustement rejeté que r est plus ou moins
proche de 1

ajustement bon
si r voisin de 1
corrélation forte corrélation faible
y
y

y x
G y x
G

x x
O O
x x
qualité d’un ajustement

le coefficient de corrélation permet de mesurer la corrélation entre deux variables


d’une série statistique

la qualité de la régression est mesurée par l’écart quadratique moyen

1 N
s = Σ i −
2 2
c [ y f ( x i )]
N i =1

yi − y = yi − f ( xi ) + f ( xi ) − y

s =s +s
2
y
2
c
2
r contribution
de l’ajustement

1 N

s =s
2 2
1− r 2 sr = Σ i −
2 2
[ f ( x ) y ]
c y N i =1
AJUSTEMENTS NON LINEAIRES
ajustement exponentiel

y = ba x
ln y = ln b + x ln a
a et b sont des constantes

Y B xA
on arrive donc à un ajustement de type linéaire Y = B + xA
finalement
a=e A
b=e B
ajustement logarithmique

y = a ln x + b changement de variable

a et b sont des constantes X = ln x

on arrive donc à un ajustement de type linéaire Y = aX + b


ajustement par une fonction puissance

y = bx a
ln y = ln b + a ln x
a et b sont des constantes

Y B aX

on arrive donc à un ajustement de type linéaire Y = B + aX


finalement
b=e B