Vous êtes sur la page 1sur 43

Chapitre 4

Corrélation et
régression
linéaire simple
Analyse de corrélation

• La corrélation est une technique statistique


utilisée pour déterminer le degré de
corrélation entre deux variables.
• Trouver la relation entre deux variables
quantitatives sans pouvoir déduire des
relations causales
Types de corrélation
Autres corrélation
• Corrélation Type I: positive, négative ou nulle
• Corrélation Type II:
➢ Corrélation simple: Sous corrélation simple;
problème il n'y a que deux variables qui sont étudiées.
➢ Corrélation multiple: Corrélation de trois ou plus de trois
variables sont étudiés.
Exemple: Qd = f (P, PC, PS, t, y)
➢ Corrélation partielle: l'analyse reconnaît plus que deux
variables mais ne considère que deux les variables gardant
l'autre constante.
➢ Corrélation totale: est basée sur tous les facteurs pertinents
variables, ce qui n’est normalement pas faisable.
Types de corrélation
Autres corrélation
• Corrélation Type III:
➢ Corrélation linéaire:
La corrélation est dite linéaire lorsque la le changement dans une
variable tend à porter un rapport constant à la quantité de
changement dans la autre. Le graphique des variables ayant un
linéaire relation formera une ligne droite.
Exemple: X = 1, 2, 3, 4, 5, 6, 7, 8,
Y = 5, 7, 9, 11, 13, 15, 17, 19, Y = 3 + 2x

➢ Corrélation non linéaire:


La corrélation serait non linéaire si la quantité de changement dans
une variable ne provoque pas un rapport constant à la quantité de
changement dans l'autre variable.
Analyse de corrélation
Analyse de corrélation
Exemple : Relation entre le poids et la pression artérielle

Poids 67 69 85 83 74 81 97 92 114 85
(kg)
Pression 120 125 140 160 130 180 150 140 200 130
Analyse de corrélation
Coefficient de correlation = coefficient de corrélation de
Pearson

• Il mesure la nature et la force entre deux variables du


type quantitatif.

 xy −  x y
r= n

x −
2
(  x) 2
 
.  y −
2
(  y) 2


 n  n 
  
Analyse de corrélation
Coefficient de correlation = coefficient de corrélation de
Pearson

Exemple: Un échantillon de 6 enfants : âge et poids.


Corrélation entre l'âge et le poids.
No Age poids(Kg)
(année)
1 7 12
2 6 8
3 8 12
4 5 10
5 6 11
6 9 13
Analyse de corrélation
Coefficient de correlation = coefficient de corrélation de
Pearson

Poids
Age (x) xy X2 Y2
(y)
1 7 12 84 49 144
2 6 8 48 36 64
3 8 12 96 64 144
4 5 10 50 25 100
5 6 11 66 36 121
6 9 13 117 81 169
Total ∑xy= ∑x2= ∑y2=
∑x= 41 ∑y= 66
461 291 742
Analyse de corrélation
Coefficient de correlation = coefficient de corrélation de
Pearson
41  66
461 −
r= 6
 (41) 2   (66) 2 
291 − .742 − 
 6  6 
r = 0.759 ; Forte correlation
Analyse de corrélation
Coefficient de rang de Spearman (rs)

• C'est une mesure non paramétrique de corrélation.


• Cette procédure utilise les deux ensembles de rangs
pouvant être affectés aux valeurs d'échantillon de x et Y.
• Le coefficient de corrélation de Spearman pourrait être
calculé dans les cas suivants:
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives ordinales.
– Une variable est quantitative et l'autre est ordinale
qualitative.
Analyse de corrélation
Coefficient de rang de Spearman (rs)
Exemple: relation entre le niveau d’éducation et le revenu,
les données suivantes ont été obtenues. Trouvez la relation
entre eux et commentez.
N0 Education (X) Salaire (Y)

A Preparatoire 2500
B Primaire 1000
C Universitaire 8000
D secondaire 1000
E secondaire 1500
F Illitrée 500
G Universitaire 6000
Analyse de corrélation
Autres Coefficients
1. Coefficient de corrélation bisérial ponctuel (rpb)
• utilisé pour les variables continues, nominale, ordinale
ou dichotomique.
• utilise la même formule de Pearson

Attractiveness Date?
3 0
4 0
1 1
2 1
5 1
6 0
rpb = -0.49
Analyse de corrélation
Autres Coefficients

2. Coefficient Phi ()


• utilisé avec deux échelles dichotomiques.
• utilise la même formule de Pearson

Attractiveness Date?
0 0
1 0
1 1
1 1
0 0
1 1
 = 0.71
Analyse de corrélation
Facteurs affectants la corrélation
• Limites:
• En regardant seulement une petite partie du diagramme de
dispersion total (en regardant une plus petite partie de la
variabilité des scores), on diminue r.
• Réduire la variabilité réduit r

• Non-linéarité
• La corrélation de Pearson (et les autres) mesurent le degré de
relation linéaire entre deux variables
• Si une relation non linéaire existe, r fournira une mesure faible,
ou du moins inexacte, de la relation vraie.
Analyse de corrélation
Facteurs affectants la corrélation

• Echantillons hétérogènes:
Exemples : taille et poids,

• Les valeurs aberrantes


Surestimer la corrélation
Corrélation sous-estimée
Analyse de corrélation
Evaluation de la signification de la corrélation
Nous pouvons convertir r en t et tester son importance:

N −2
t=r
1− r 2

Ddl = N -2
Analyse de corrélation
Evaluation de la signification de la corrélation
Country Cigarettes CHD
11 26
1
2 9 21
• Dans cet exemple, r était 0,71
3 9 24 • N-2 = 21 - 2 = 19
4 9 21
5 8 19
8 13
N −2
6
8 19 19 19
t=r = .71* = .71* = 6.90
7
8 6 11
9
10
6
5
23
15
1− r 2
1 − .712
.4959
11 5 13
12 5 4
5 18
13
14 5 12
• T-crit (19) = 2,09
15 5 3 • Puisque 6.90 est supérieur à 2,09, rejetez r =
16 4 11
17 4 15
0.
18 4 6
19 3 13
20 3 4
21 3 14
Analyse de corrélation
Evaluation de la signification de la corrélation
SPSS Printout

Correlations

CIGARET CHD
CIGARET Pearson Correlation 1 .713**
Sig. (2-tailed) . .000
N 21 21
CHD Pearson Correlation .713** 1
Sig. (2-tailed) .000 .
N 21 21
**. Correlation is significant at the 0.01 level (2-tailed).
Analyse de corrélation
Evaluation de la signification de la corrélation
Régression linéaire simple
Définition
• une analyse de régression consiste à déduire, en se
basant sur les données d’échantillonnage, une équation
d'estimation (ou de régression) , qui décrit la nature
fonctionnelle de la relation entre les variables.
Régression linéaire simple
Objectifs
• L'équation d'estimation servira à estimer la valeur d'une
des variables à partir de la valeur prise par l'autre
variable.
• L'analyse de corrélation vise à mesurer le degré
d'association entre les variables.
• l'expression "analyse de corrélation" englobe souvent
les deux éléments, régression et corrélation.
Régression linéaire simple
Procédure
• La variable dépendante, ou à
prédire, est la variable qui doit
être estimée. Cette variable est
placée en général sur l'axe des Y
(ordonnée).

• La variable indépendante ou
prédictrice (notée X et portée sur
l'axe des abscisses X) est
censée exercer une influence
sur la variable dépendante Y.
Régression linéaire simple
La relation de causalité en statistique
• Si une relation existe entre deux variables, il y aura
corrélation entre elles mais la
seule existence d'une corrélation statistique n'est
pas une preuve de causalité.

• Les relations de causalité peuvent être classées en


deux catégories : la cause à effet et la cause
commune.
Régression linéaire simple
La relation de causalité en statistique
• La relation de cause à effet existe si la variation d'une
variable est attribuable à la variation de l'autre variable.
Exemple : variation de température dans une réaction chimique et
variation du résultat de cette réaction.

• Un facteur commun: peut influencer conjointement


deux variables.
Exemple : variation de la croissance et du poids d'un animal et
variation de l'état nutritionnel de cet animal.
Analyse de régression
Exemple : On voudrait savoir s'il existe une relation entre
les notes obtenues en contrôle continu (x) et celles
obtenues à un concours national (y) pour 8 étudiants
Analyse de régression
Diagramme de dispersion
Analyse de régression
Diagramme de dispersion

Pour voir des relations entre variables (corrélation) dans


Spss: Graphes→ Dispersion/points
Analyse de régression
SPSS Printout

Yˆ = bX + a = 2.042 X + 2.367

b A Yˆ = 2.042*10 + 2.367 = 22.787


Analyse de régression
Diagramme de dispersion

• Les droites
représentées
décrivent la relation
entre les variables.
• Ces droites sont
appelées droites de
régression (ou
d'estimation)
Analyse de régression
Notion de covariance
• cov (x,y) = moyenne des produits des écarts à la
moyenne. 1/N * S1N(xi-x)*(yi-y) pour i = 1 à N
si x' = ax+b et y'=cy + d, Cov(x'y') = ac Cov (x,y)
• toujours inférieure ou égale au produit des écart types
• positive = "nuage" croissant
• négative = "nuage" décroissant
• calcul :

• la moyenne des produits des écarts (S.P.E)


Analyse de régression
Notion de covariance
Exemple: Calculer la covariance des deux distributions
suivantes : (x, y) ; (x',y)
Analyse de régression
Notion de covariance

• La valeur absolue de la covariance et son signe, sont


des indicateurs de la liaison existant entre deux
caractères :
• la covariance est positive et élevée : les caractères sont
liés et varient dans le même sens ; on parle de liaison
positive ;
• la covariance est négative et élevée : les caractères sont
liés et varient en sens inverse ; on parle de liaison
négative ;
• la covariance est voisine de 0 : les caractères sont
indépendants ; il n'y pas de liaison entre les caractères.
Analyse de régression
Droite de régression
• La régression linéaire simple et la fonction obtenue est
l'équation d'une droite : la droite de régression de y sur
x ( ou de y en x ) ou droite des moindres carrés .

y = a + bx
où :
a = ordonnée à l'origine (la valeur de y pour x = 0)
b = pente de la droite de régression (la variation de y pour une
variation d'une unité de x)
x = valeur de la variable indépendante.
y = valeur calculée de la variable dépendante
Analyse de régression
Droite de régression
La valeur de b qui donne la somme des carrés
minimale

b = coefficient de régression de y sur x


Analyse de régression
Exemple :
Analyse de régression

Sur la base de cette équation on pourra ainsi prévoir la


note au concours d’un étudiant qui a obtenu 6 de moyenne
au contrôle continu simplement en substituant 6 à x dans
l'équation de régression. L'estimation désirée sera donc :
Analyse de régression
l'erreur type de l'estimation
1. Calcul de l'erreur type de l'estimation : Ey.x
L'erreur type de l'estimation:

Remarque: il y a une similitude entre l'écart type et l'erreur


type sur le point calcul et interprétation.
Analyse de régression
l'erreur type de l'estimation
2. Intervalles de prédiction

- 68, 3 % des valeurs


centrales de la distribution
se situent à moins d'un
écart type de chaque côté
de la moyenne
- 95,4 % des valeurs se
situent à une distance
maximale de deux écarts
types de la moyenne
- 99,7 % des valeurs sont à
moins de trois écarts
types de cette moyenne.
Analyse de régression
Le coefficient de détermination = r2
le coefficient de détermination ( r2 ) est une mesure de la
proportion de la variation dans la variable y qui
s'explique par la présence de la variable x (ou par la
droite de régression), c'est-à-dire :
Analyse de régression
Le coefficient de détermination = r2
Exemple :
Analyse de régression
Le coefficient de détermination = r2

Ainsi 97,1 % de la
variation dans la variable
y, est expliqué ou attribué
à la variation dans la
variable x.

Remarque: Le coefficient de détermination n'indique pas


la nature de la relation qui unit les deux variables ; il
n'indique que la part de la variation qui pourrait être
expliquée si une relation de causalité existait.
Analyse de régression
Le coefficient de corrélation

Remarque: Il ne faut pas interpréter le coefficient de


corrélation comme un pourcentage. En effet, si r = 0,6, cela
ne veut pas dire que 60 % de la variation de y est
expliquée ; en fait, pour r = 0,6 nous avons r2 = 0,36 ;
autrement dit seulement 36 % de la variation est
expliquée.

Vous aimerez peut-être aussi