7 Cours

CPGE : Reda Slaoui Année scolaire : 2022/2023
Analyse de données : Droite de régression
1 Vocabulaire
Définition 1.1: Population, individu, effectif
L’ensemble des éléments Ω = {ω1 , ω1 . . . , ωN } dont on étudie les données s’appelle population,
ses éléments sont appelés individus. Le cardinal N de Ω est l’effectif de la population.
Définition 1.2: Variable
Une variable est une application X définie sur Ω.
• Si X est à valeurs réelles, X est une variable quantitative.
• Sinon X est une variable qualitative.
Exemple
• La taille des habitants d’un pays donné ou les notes obtenues à une épreuve de concours par
des candidats sont des variables quantitatives.
• La couleur des yeux des habitants d’un pays donné est une variable qualitative.
1.1 Modalités
Définition 1.3: Modalités
Les valeurs prises par une variable X s’appellent les modalités de X.
1
Définition 1.4: Série statistique
• La liste des valeurs prises (des modalités) par X est une série statistique :
[x1 , x2 , . . . , xN ] avec xi = X(wi )
Définition 1.5: Série statistique double
Soient un échantillon Ω = {ω1 , ω2 , . . . , ωn } et deux séries statistiques X = [x1 , x2 , . . . , xn ] et

Y = [y1 , y2 , . . . , yn ]. On appelle série statistique double la donnée de la liste :
[(x1 , y1 ), (x2 , y2 ), ..., (xn , yn )]
chaque couple (xi , yi ) étant associé à un seul individu ωi de la population.
Objectif C’est le recueil simultané des modalités de deux variables X et Y chez les mêmes sujets.
L’intérêt se porte le plus souvent sur la relation entre les deux variables : la recherche de corrélation.
Exemple On mesure le poids X et la taille Y de 10 individus.

modalités xi 60 64 68 70 72 75 78 85 96 98
modalités yi 155 157 164 170 178 180 173 179 180 189
2 Représentation graphique
Définition 2.1: Nuage de points
On appelle nuage de points d’une série statistique double, l’ensemble des points Mi de coordon-
nées (xi , yi ).
Pour tracer un nuage de points en Python :
plt.scatter(x,y)
plt.show()
Définition 2.2: Point moyen
On appelle point moyen du nuage, le point de coordonnées (X, Y )

Pour marquer le point moyen du nuage en python dans un graphique :
mx = np.mean(x)
my = np.mean(y)
plt.scatter(mx,my,marker=’x’)
plt.show()
2
3 Droite de régression
Lorsqu’on étudie une série statistique double, on peut penser que l’une des variables, par exemple X,
est une cause de l’autre, par exemple Y . On dit alors que X est la variable explicative et que Y
est la variable à expliquer.
Exemple: L’acuité visuelle dépend de l’age d’une personne. A priori, la variable explicative est
l’âge (caractère X) et la variable à expliquer est l’acuité visuelle (caractère Y ).
Si le nuage de points associé à une série statistique double possède une forme étirée, on peut avoir
l’idée de chercher quelle droite approcherait au mieux les points de ce nuage.
Le problème consiste donc à identifier une droite y = ax+b qui ajuste bien le nuage de points. L’erreur
que l’on commet en utilisant la droite de régression pour prédire yi à partir de xi est yi − (axi + b).
3.1 Équation de la droite de régression linéaire

Définition 3.1:
Soit x = (xi )1≤i≤N une série statistique:
• On appelle V (X) la variance de x le réel:
1 XN
V (X) = (xi − X)2
N i=1
• On appelle σX l’écart type de x le réel:

q
σx = V (X)
3
Définition 3.2: Covariance
On appelle covariance de la série statistique double (xi , yi )1≤i≤n le réel :
1X n
Cov(X, Y ) = (xi − X)(yi − Y ) = X.Y − X.Y
n i=1
Propriété 3.1: Équation de la droite de régression linéaire
Soit (xi , yi )1≤i≤n une série statistique double, La droite de régression linéaire a pour équation
y = ax + b où:
Cov(X, Y )
a= b = y − ax
V (X)
En Python soit x et y deux vecteurs de même taille :
• np.var(x) donne la variance du vecteur x
• np.std(x) donne l’écart-type du vecteur x.
• np.mean(x*y)-np.mean(x)*np.mean(y) donne la covariance de la série statistique double

(xi , yi )1≤i≤n
• On détermine les réels a et b tels que y = ax + b est l’équation de la droite de régression

linéaire pour la série statistique double (xi , yi )1≤i≤n à l’aide de la propriété précédente :
s = np.mean(x*y)-np.mean(x)*np.mean(y)
a = s/np.var(x)
b = np.mean(y)-a*np.mean(x)
3.2 Coefficient de corrélation linéaire

Définition 3.3: Coefficient de corrélation linéaire
Le coefficient de corrélation linéaire de la série double (xi , yi )1≤i≤n le réel :
Cov(X, Y )
ρX,Y =
σX σY
En Python , on calcul le coefficient de corrélation par:
s = np.mean(x*y)-np.mean(x)*np.mean(y)
vx = np.std(x)
vy = np.std(y)
corr = s/(vx*vy)
4
Remarque 3.4
Le coefficient de corrélation linéaire mesure la dépendance linéaire entre deux variables.
• S’il est proche de 1 ou -1, alors X et Y sont fortement corrélés.
• S’il est proche de 0, alors X et Y sont faiblement corrélés.

7 Cours

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

7 Cours

Transféré par

Droits d'auteur :

Formats disponibles

CPGE : Reda Slaoui Année scolaire : 2022/2023

Analyse de données : Droite de régression

Définition 1.2: Variable

Une variable est une application X définie sur Ω.

• Si X est à valeurs réelles, X est une variable quantitative.

• Sinon X est une variable qualitative.

Les valeurs prises par une variable X s’appellent les modalités de X.

[x1 , x2 , . . . , xN ] avec xi = X(wi )

Définition 1.5: Série statistique double

Soient un échantillon Ω = {ω1 , ω2 , . . . , ωn } et deux séries statistiques X = [x1 , x2 , . . . , xn ] et

[(x1 , y1 ), (x2 , y2 ), ..., (xn , yn )]

chaque couple (xi , yi ) étant associé à un seul individu ωi de la population.

Exemple On mesure le poids X et la taille Y de 10 individus.

Définition 2.2: Point moyen

On appelle point moyen du nuage, le point de coordonnées (X, Y )

3.1 Équation de la droite de régression linéaire

Soit x = (xi )1≤i≤N une série statistique:

• On appelle V (X) la variance de x le réel:

• On appelle σX l’écart type de x le réel:

On appelle covariance de la série statistique double (xi , yi )1≤i≤n le réel :

Propriété 3.1: Équation de la droite de régression linéaire

• np.var(x) donne la variance du vecteur x

• np.std(x) donne l’écart-type du vecteur x.

• np.mean(x*y)-np.mean(x)*np.mean(y) donne la covariance de la série statistique double

• On détermine les réels a et b tels que y = ax + b est l’équation de la droite de régression

3.2 Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire de la série double (xi , yi )1≤i≤n le réel :

Le coefficient de corrélation linéaire mesure la dépendance linéaire entre deux variables.

• S’il est proche de 1 ou -1, alors X et Y sont fortement corrélés.

• S’il est proche de 0, alors X et Y sont faiblement corrélés.

Vous aimerez peut-être aussi

• np.mean(xy)-np.mean(x)np.mean(y) donne la covariance de la série statistique double