Académique Documents
Professionnel Documents
Culture Documents
Corrélation et
régression
linéaire simple
Analyse de corrélation
Poids 67 69 85 83 74 81 97 92 114 85
(kg)
Pression 120 125 140 160 130 180 150 140 200 130
Analyse de corrélation
Coefficient de correlation = coefficient de corrélation de
Pearson
xy − x y
r= n
x −
2
( x) 2
. y −
2
( y) 2
n n
Analyse de corrélation
Coefficient de correlation = coefficient de corrélation de
Pearson
Poids
Age (x) xy X2 Y2
(y)
1 7 12 84 49 144
2 6 8 48 36 64
3 8 12 96 64 144
4 5 10 50 25 100
5 6 11 66 36 121
6 9 13 117 81 169
Total ∑xy= ∑x2= ∑y2=
∑x= 41 ∑y= 66
461 291 742
Analyse de corrélation
Coefficient de correlation = coefficient de corrélation de
Pearson
41 66
461 −
r= 6
(41) 2 (66) 2
291 − .742 −
6 6
r = 0.759 ; Forte correlation
Analyse de corrélation
Coefficient de rang de Spearman (rs)
A Preparatoire 2500
B Primaire 1000
C Universitaire 8000
D secondaire 1000
E secondaire 1500
F Illitrée 500
G Universitaire 6000
Analyse de corrélation
Autres Coefficients
1. Coefficient de corrélation bisérial ponctuel (rpb)
• utilisé pour les variables continues, nominale, ordinale
ou dichotomique.
• utilise la même formule de Pearson
Attractiveness Date?
3 0
4 0
1 1
2 1
5 1
6 0
rpb = -0.49
Analyse de corrélation
Autres Coefficients
Attractiveness Date?
0 0
1 0
1 1
1 1
0 0
1 1
= 0.71
Analyse de corrélation
Facteurs affectants la corrélation
• Limites:
• En regardant seulement une petite partie du diagramme de
dispersion total (en regardant une plus petite partie de la
variabilité des scores), on diminue r.
• Réduire la variabilité réduit r
• Non-linéarité
• La corrélation de Pearson (et les autres) mesurent le degré de
relation linéaire entre deux variables
• Si une relation non linéaire existe, r fournira une mesure faible,
ou du moins inexacte, de la relation vraie.
Analyse de corrélation
Facteurs affectants la corrélation
• Echantillons hétérogènes:
Exemples : taille et poids,
N −2
t=r
1− r 2
Ddl = N -2
Analyse de corrélation
Evaluation de la signification de la corrélation
Country Cigarettes CHD
11 26
1
2 9 21
• Dans cet exemple, r était 0,71
3 9 24 • N-2 = 21 - 2 = 19
4 9 21
5 8 19
8 13
N −2
6
8 19 19 19
t=r = .71* = .71* = 6.90
7
8 6 11
9
10
6
5
23
15
1− r 2
1 − .712
.4959
11 5 13
12 5 4
5 18
13
14 5 12
• T-crit (19) = 2,09
15 5 3 • Puisque 6.90 est supérieur à 2,09, rejetez r =
16 4 11
17 4 15
0.
18 4 6
19 3 13
20 3 4
21 3 14
Analyse de corrélation
Evaluation de la signification de la corrélation
SPSS Printout
Correlations
CIGARET CHD
CIGARET Pearson Correlation 1 .713**
Sig. (2-tailed) . .000
N 21 21
CHD Pearson Correlation .713** 1
Sig. (2-tailed) .000 .
N 21 21
**. Correlation is significant at the 0.01 level (2-tailed).
Analyse de corrélation
Evaluation de la signification de la corrélation
Régression linéaire simple
Définition
• une analyse de régression consiste à déduire, en se
basant sur les données d’échantillonnage, une équation
d'estimation (ou de régression) , qui décrit la nature
fonctionnelle de la relation entre les variables.
Régression linéaire simple
Objectifs
• L'équation d'estimation servira à estimer la valeur d'une
des variables à partir de la valeur prise par l'autre
variable.
• L'analyse de corrélation vise à mesurer le degré
d'association entre les variables.
• l'expression "analyse de corrélation" englobe souvent
les deux éléments, régression et corrélation.
Régression linéaire simple
Procédure
• La variable dépendante, ou à
prédire, est la variable qui doit
être estimée. Cette variable est
placée en général sur l'axe des Y
(ordonnée).
• La variable indépendante ou
prédictrice (notée X et portée sur
l'axe des abscisses X) est
censée exercer une influence
sur la variable dépendante Y.
Régression linéaire simple
La relation de causalité en statistique
• Si une relation existe entre deux variables, il y aura
corrélation entre elles mais la
seule existence d'une corrélation statistique n'est
pas une preuve de causalité.
Yˆ = bX + a = 2.042 X + 2.367
• Les droites
représentées
décrivent la relation
entre les variables.
• Ces droites sont
appelées droites de
régression (ou
d'estimation)
Analyse de régression
Notion de covariance
• cov (x,y) = moyenne des produits des écarts à la
moyenne. 1/N * S1N(xi-x)*(yi-y) pour i = 1 à N
si x' = ax+b et y'=cy + d, Cov(x'y') = ac Cov (x,y)
• toujours inférieure ou égale au produit des écart types
• positive = "nuage" croissant
• négative = "nuage" décroissant
• calcul :
y = a + bx
où :
a = ordonnée à l'origine (la valeur de y pour x = 0)
b = pente de la droite de régression (la variation de y pour une
variation d'une unité de x)
x = valeur de la variable indépendante.
y = valeur calculée de la variable dépendante
Analyse de régression
Droite de régression
La valeur de b qui donne la somme des carrés
minimale
Ainsi 97,1 % de la
variation dans la variable
y, est expliqué ou attribué
à la variation dans la
variable x.