Vous êtes sur la page 1sur 14

CORRÉLATION LINÉAIRE (une variable)

Le coefficient de corrélation et de détermination sont des mesures d'association qui impliquent des
variables quantitatives. S'y ajoutent au niveau graphique le nuage de points et la droite de régression.

À la différence des mesures d'association impliquant des variables qualitatives (Khi deux et
coefficient de contingence), où le procédé consiste à travailler avec les fréquences et non avec les
modalités des variables, les mesures d'association impliquant des variables quantitatives se
déterminent à partir des valeurs de chacune des variables.

Il s'agit alors de regarder si les valeurs des deux variables, considérées simultanément, se
comportent comme une droite, dans le cas de la corrélation linéaire.

=> Deux exemples dans les feuilles "Illustration"

Procédure:
1- Déterminer la variable indépendante (x) et dépendante (y) Procédure Excel pour faire le diagramme de dispersion:
2- Construire un diagramme de dispersion. 1- Sélectionner la colonne des x et la colonne des y.
3- Calculer le coefficient de corrélation (r) et en faire son 2- Dans assistant graphique choisir nuage de points.
interprétation. 3- Ajouter les titres. Fermer la fenêtre.
4- Calculer la régression linéaire et application de cette dernière. 4- Cliquer sur un point avec le "piton" de droite de la souris
5- Calculer le coefficient de déternination (r2) et en faire son et choisir "ajouter une courbe de tendance". Sélectionner
interprétation. linéaire et option "afficher l'équation sur le graphique" et
"afficher les coefficient de détermination R² sur le
graphique" .

Plus le nuage de point se rapproche de la doite plus


le lien est fort.
Une illustration de la théorie et des fonctionnalités avec Excel.
(Exercice sur le revenu des consommateurs et les dépenses de restauration)
Fichier "préparation corrélation linéaire ". Plus le nuage de point est circulaire, donc s'éloigne
de la droite, plus le lien est faible.

Régression linéaire:
Interprétation:
Si le lien est fort on peut trouver un modèle qui relie les 2 variables.
r est toujours entre -1 et 1
1 étant le lien parfait positif
y = Ax + b
-1 étant le lien parfait négatif (Ce qui signifie
que les deux variables ne varient pas dans
Application:
le même sens.)
Si je connais la valeur de x, je peux trouver la valeur de y en utilisant    
les valeurs de a et b que vous aurez en faisant afficher l'équation de la
régression dans le graphique.

Force du linéaire entre les deux variables


[0 à 0,1[ : lien statisitque presque nul
[0,1 à 0,2[ : lien statistique faible
Formule du coefficient de détermination (r2): [0,2 à 0,5[: lien statistique moyen
[0,5 à 0,7[: lien statistique fort
Le coefficient de détermination signifie la proportion de la variation [0,7 à 0,9[: lien statistique fort à très fort
de la variable y qui est expliquée par la variation de la variable x. [0,9 à 1] : lien statistique très fort à parfait
L’analyse des variations agricoles (régression à plusieurs variables).
On s’est rendu compte qu’il était très important de distinguer trois types de variation dans le
rendement du blé :
Les variations annuelles, qui résultaient directement des conditions climatiques stimulant la
croissance des plantes; les variations stables qui avaient été attribuées à la détérioration des
nutriments emmagasinés dans le sol ; et enfin les variations de la luminosité.
Limites de la régression linéaire à une variable :
Modèle qui ne convient pas à des phénomènes exponentiels, logarithmiques etc.
1 seule variable explicative.

ie
s

Lorsque le coefficient de corrélation R est proche de 0, la


corrélation linéaire est presque nulle.
Toutefois, on ne peut pas affirmer qu’il n’y a pas de
corrélation entre les deux variables, mais plutôt quelles
ne sont pas liées linéairement. Il se pourrait qu’ il y ait un
lien exponentiel…
De plus, une corrélation très forte ne permet pas
d’affirmer que la relation est causale.
parfait
CORRÉLATION LINÉAIRE

Le coefficient de corrélation ( r ) mesure l'intensité du lien linéaire entre deux


variables quantitatives.

Dans le cas d'un lien linéaire presque total, le coefficient atteint une valeur
voisine de 1 ou de -1.

Dans le cas de l'absence totale de lien linéaire, le coefficient prend comme valeu
0.

Dans le cas où le coefficient est négatif, l'alignement des valeurs se fait selon un
droite de pente négative.

Dans le cas où le coefficient est positif, l'alignement des valeurs se fait selon un
droite de pente positive.

Nuage de points selon la force du coefficient de corrélation.


a) b)
r = -1

y y
x

r=1
x

1 -1
x

c) y
d)
y -1 < r <0
1>r>0

0.91 -0.9
x x

e) f)
y r≈0 y r≈0
y r≈0 y r≈0

0.1 -0.02
x x
néaire entre deux

eint une valeur

prend comme valeur

eurs se fait selon une

eurs se fait selon une


2 2 4 2
3 3 3 3
4 4 2 4
5 5 1 5

c) d)
1 1 1 5.5
1.5 2 1.5 5
2 1.5 2 4
2 3 2 5
2.5 3.5 2.5 4
3 3 3 4.5
3 4 3 4
3.5 4.5 3.5 3
4 4 4 3.5
4 5 4 3
4.5 4 4.5 1.5
5 5 5 2
5 5.5 5 1

e) f)
2.1 3 2.3 3.3
2.5 2 2.5 2
2.5 4 2.5 4
3 1.5 2.45 1.5
3 4.5 2.4 3
3.7 1.5 2.4 4.7
3.8 4 2.55 3.1
4.1 2.2 2.35 4
4.2 3
2.5 3
2.3 2.5

2.45 3.8
2.35 1.8
2.4 2
CORRÉLATION LINÉAIRE

On a noté l'âge de cinq individus ainsi que le nombre de tours de piste que
chacun peut effectuer à la course en 20 minutes.

Nbre de
Âge
Individu tours
1 17 25
2 19 35
3 31 21
4 40 15
5 50 14

1) Identifier : a) la variable indépendante :


b) la variable dépendante :

2) Représenter le nuage de points, tracer la droite de régression et en


afficher son équation.

3)     Calculer le coefficient de corrélation et donner sa signification dans le


contexte de l’énoncé.

Coefficient de corrélation (r):

Signification : Force du lien


deux variable
relation
4) Estimer le nombre de tours de piste d'un individu dont l'âge
serait de 25 ans.
Résultat: tours

5)     Calculer le coefficient de détermination et donner sa signification


dans le contexte de l’énoncé.

r2 =

Signification : En quoi la var


indépendante
variable dépe
Pour faire le diagramme de dispersion (nuage de points),
il faut toujours que la variable indépendante (x) soit à
gauche et la variable dépendante (y) à droite.

Dans le titre:
Y selon X
La variable dépendante selon la variable
indépendante

Force du lien linéaire entre les


deux variables et sens de la
relation
En quoi la variable
indépendante explique la
variable dépendante.
CORRÉLATION LINÉAIRE

On a noté l'âge de cinq individus ainsi que le nombre de tours de piste


que chacun peut effectuer à la course en 20 minutes.

Individu Âge Nbre de


tours
1 17 25
2 19 35
3 31 21
4 40 15
5 50 14

1) Identifier: a) la variable indépendante : Âge


b) la variable dépendante : Nbre de tours
(indépendante) (dépendante)
x y
17 25
19 35
31 21
40 15
50 14

2) Représenter le nuage de points, tracer la droite de régression et en


afficher son équation.
Nbre de tours

Nombre de tours de piste selon l'âge des individus


40
35
30
25
f(x) = − 0.528673835125448 x + 38.6003584229391

20
15
10
5
0
15 20 25 30 35 40 45 50 Âge55

3)     Calculer le coefficient de corrélation et donner sa signification dans


le contexte de l’énoncé.

Coefficient de corrélation (r): -0.86


Signification : Il existe une corrélation négative forte à très forte entre les deux
variables. Ainsi le nombre de tours de piste des individus
échantillonnés varie en fonction de leur âge. Plus l'âge est élevé,
plus le nombre de tours de piste diminue.

4) Estimer le nombre de tours de piste d'un individu dont l'âge


serait de 25 ans.

Résultat: 25 tours

5)     Calculer le coefficient de détermination et donner sa signification


dans le contexte de l’énoncé.

r2 = 75%

Signification : 75% de la variation du nombre de tours de piste des


individus est expliquée par leur âge. Ainsi 25% de cette
variation est due à d'autres facteurs que leur âge.
re les deux
vidus
ge est élevé,

Vous aimerez peut-être aussi