Vous êtes sur la page 1sur 5

CPGE : Reda Slaoui Année scolaire : 2022/2023

Analyse de données : Droite de régression

1 Vocabulaire
Définition 1.1: Population, individu, effectif

L’ensemble des éléments Ω = {ω1 , ω1 . . . , ωN } dont on étudie les données s’appelle population,
ses éléments sont appelés individus. Le cardinal N de Ω est l’effectif de la population.

Définition 1.2: Variable

Une variable est une application X définie sur Ω.

• Si X est à valeurs réelles, X est une variable quantitative.

• Sinon X est une variable qualitative.

Exemple

• La taille des habitants d’un pays donné ou les notes obtenues à une épreuve de concours par
des candidats sont des variables quantitatives.

• La couleur des yeux des habitants d’un pays donné est une variable qualitative.

1.1 Modalités
Définition 1.3: Modalités

Les valeurs prises par une variable X s’appellent les modalités de X.

1
Définition 1.4: Série statistique

• La liste des valeurs prises (des modalités) par X est une série statistique :

[x1 , x2 , . . . , xN ] avec xi = X(wi )

Définition 1.5: Série statistique double

Soient un échantillon Ω = {ω1 , ω2 , . . . , ωn } et deux séries statistiques X = [x1 , x2 , . . . , xn ] et


Y = [y1 , y2 , . . . , yn ]. On appelle série statistique double la donnée de la liste :

[(x1 , y1 ), (x2 , y2 ), ..., (xn , yn )]

chaque couple (xi , yi ) étant associé à un seul individu ωi de la population.

Objectif C’est le recueil simultané des modalités de deux variables X et Y chez les mêmes sujets.
L’intérêt se porte le plus souvent sur la relation entre les deux variables : la recherche de corrélation.

Exemple On mesure le poids X et la taille Y de 10 individus.


modalités xi 60 64 68 70 72 75 78 85 96 98
modalités yi 155 157 164 170 178 180 173 179 180 189

2 Représentation graphique
Définition 2.1: Nuage de points

On appelle nuage de points d’une série statistique double, l’ensemble des points Mi de coordon-
nées (xi , yi ).
Pour tracer un nuage de points en Python :

plt.scatter(x,y)
plt.show()

Définition 2.2: Point moyen

On appelle point moyen du nuage, le point de coordonnées (X, Y )


Pour marquer le point moyen du nuage en python dans un graphique :

mx = np.mean(x)
my = np.mean(y)
plt.scatter(mx,my,marker=’x’)
plt.show()

2
3 Droite de régression
Lorsqu’on étudie une série statistique double, on peut penser que l’une des variables, par exemple X,
est une cause de l’autre, par exemple Y . On dit alors que X est la variable explicative et que Y
est la variable à expliquer.

Exemple: L’acuité visuelle dépend de l’age d’une personne. A priori, la variable explicative est
l’âge (caractère X) et la variable à expliquer est l’acuité visuelle (caractère Y ).

Si le nuage de points associé à une série statistique double possède une forme étirée, on peut avoir
l’idée de chercher quelle droite approcherait au mieux les points de ce nuage.
Le problème consiste donc à identifier une droite y = ax+b qui ajuste bien le nuage de points. L’erreur
que l’on commet en utilisant la droite de régression pour prédire yi à partir de xi est yi − (axi + b).

3.1 Équation de la droite de régression linéaire


Définition 3.1:

Soit x = (xi )1≤i≤N une série statistique:

• On appelle V (X) la variance de x le réel:

1 XN
V (X) = (xi − X)2
N i=1

• On appelle σX l’écart type de x le réel:


q
σx = V (X)

3
Définition 3.2: Covariance

On appelle covariance de la série statistique double (xi , yi )1≤i≤n le réel :

1X n
Cov(X, Y ) = (xi − X)(yi − Y ) = X.Y − X.Y
n i=1

Propriété 3.1: Équation de la droite de régression linéaire

Soit (xi , yi )1≤i≤n une série statistique double, La droite de régression linéaire a pour équation
y = ax + b où:
Cov(X, Y )
a= b = y − ax
V (X)
En Python soit x et y deux vecteurs de même taille :

• np.var(x) donne la variance du vecteur x

• np.std(x) donne l’écart-type du vecteur x.

• np.mean(x*y)-np.mean(x)*np.mean(y) donne la covariance de la série statistique double


(xi , yi )1≤i≤n

• On détermine les réels a et b tels que y = ax + b est l’équation de la droite de régression


linéaire pour la série statistique double (xi , yi )1≤i≤n à l’aide de la propriété précédente :

s = np.mean(x*y)-np.mean(x)*np.mean(y)
a = s/np.var(x)
b = np.mean(y)-a*np.mean(x)

3.2 Coefficient de corrélation linéaire


Définition 3.3: Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire de la série double (xi , yi )1≤i≤n le réel :

Cov(X, Y )
ρX,Y =
σX σY
En Python , on calcul le coefficient de corrélation par:

s = np.mean(x*y)-np.mean(x)*np.mean(y)
vx = np.std(x)
vy = np.std(y)
corr = s/(vx*vy)

4
Remarque 3.4

Le coefficient de corrélation linéaire mesure la dépendance linéaire entre deux variables.

• S’il est proche de 1 ou -1, alors X et Y sont fortement corrélés.

• S’il est proche de 0, alors X et Y sont faiblement corrélés.

Vous aimerez peut-être aussi