Vous êtes sur la page 1sur 4

Analyse de données Mme.

Dumoulin

Chapitre 3 : Corrélation – Régression

C’est la mise en évidence d’un lien, d’une liaison entre 2 ou plusieurs variables.
On utilise une droite de régression y = ax+b pour mettre en évidence une corrélation.

On va faire uniquement pour 2 variables. C’est une corrélation simple ou linéaire : lien entre
2 variables
Lorsqu’il y a plusieurs variables c’est une corrélation
multiple ou Analyse en composante principale.

Les corrélations simples et linéaire sont caractérisés par :


 Le sens de la corrélation
Si on a une corrélation positive on a une droite positive
(y=ax+b avec a > 0)
Si on a une corrélation négative on a une droite négative
(y=ax+b avec a < 0)
Si on a une droite sans pente alors on a une absence de
corrélation.

 La forme de la corrélation
Liaison linéaire y = ax+b : régularité, constance
Liaison exponentielle y = b eax y= eax+b : accélération
Liaison puissance x = ßxa : stagnation

 L'importance de la corrélation
Elle va être défini par le coefficient linéaire r, permet
de résumer l’importance de leur corrélation. Si on a
un coefficient proche de r, à 1 c’est une corrélation
forte positive. Si on a un coefficient à -1 on a une corrélation forte négative. Si on est proche
de 0, on a une corrélation faible. A partir de 0,7 ou -0,7 : corrélation forte

n Σ xy− ( Σ x ) (Σ y )
R=
√ n ( Σ x )−( Σ x ) √ n ( Σ y ) −(Σ y)
2 2 2 2

Exemple :
Est-ce qu’il existe une corrélation entre la valeur de l’arbre et son âge ?
Age x Valeur y xy x2 y2
46 1778 81788 2116
36 2004 72144 1296
16 694 11104 256
43 2144 92192 1849
63 2094 131922 3969
51 2008 102408 2601
39 2264 88296 1521
59 2562 151158 3481
Analyse de données Mme. Dumoulin

28 461 12908 784


41 1802 73882 1681
Σx Σy Σxy Σx
2
Σy
2

422 17811 817802 19554 35821837

On cherche la valeur en fonction de l’âge.

10∗817802−422∗17811
R=
√10 ( 19554 )−( 422 ) √ 10 ( 35821837 )−( 17811)
2 2

= 0,266
donc corrélation linéaire positive faible donc pente faible

Le coefficient de la corrélation nous donne une information sur la corrélation.

Pour la corrélation, il existe 2 types de tests :


- Test informel : pas de calcul uniquement avec la table de signification r
On s’appuie donc sur la table de Pearson pour avoir une valeur de r théorique qu’on
comparera avec le r calculé (pour des valeurs de n supérieur à 30)
- Test formel : test t table de student
√n−2
On va donc devoir calculer un t théorique selon : t = r
√1−r 2
Etapes :

H0 : il n’existe pas de corrélation dans la population ( ρ ) donc ρ=0


H1 : il existe une corrélation dans la population donc ρ ≠ 0

La droite de régression de Y sur X


Y =aX +b

Le centroïde est un point qui a pour coordonnées C ( x , y )


Analyse de données Mme. Dumoulin

n ( ∑ xy ) −( ∑ x )( ∑ y )
a= 2
n ( ∑ x ² ) −( ∑ x )

b = y−a x

Le coefficient de détermination r² : il permet de trouver l’écartement des valeurs des


nuages de points
Quantité de variation de y expliquée par la droite de régression
- Notion d’erreur standard de l’estimation
Erreur standard Se
= mesure des différences entre les valeurs observées de y et les valeurs
prédites ^y

Se=
√ ∑ ( y− ^y )2
n−2
Aucun intérêt pour le calcul

Se=
√ ∑ y ²−b ∑ y−a ∑ xy
n−2

- Notion d’intervalle de prédiction (Marge d’erreur) pour une valeur y


1 n ( x 0−x ) ²
E=t α × Se × 1+ +
n n ( ∑ x ² ) −( ∑ x ) 2
x 0 : Valeur étudiée
x : Moyenne de l’échantillon

La corrélation multiple :
ACP : Analyse en Composante Principale
AFC : Analyse Factorielle des Correspondances

Les deux traits sont perpendiculaires l’un à l’autre donc


on peut changer le mode de représentation sans se
baser sur x et y mais se baser sur la droite en elle-même
et le r2.
L’ACP correspond donc à une superposition de plusieurs
corrélations linéaires. On pourra donc superposer les corrélations en modifiant le référentiel.
On aura donc des plans à plusieurs dimensions.

L’intérêt des ACP :


- Permet de faire émerger l'essentiel de l'information
- Composantes principales = variables indépendantes
- Problème d'interprétation, d'expression des unités des variables

Différence entre ACP et AFC


- AFC = Superposition de 2 ACP
- 1e sur les lignes du tableau de données
Analyse de données Mme. Dumoulin

- 2e sur les colonnes du tableau


- ACP pour tableaux de mesures
- AFC pour tableaux de fréquences

Vous aimerez peut-être aussi