Académique Documents
Professionnel Documents
Culture Documents
7 Cours
7 Cours
1 Vocabulaire
Définition 1.1: Population, individu, effectif
L’ensemble des éléments Ω = {ω1 , ω1 . . . , ωN } dont on étudie les données s’appelle population,
ses éléments sont appelés individus. Le cardinal N de Ω est l’effectif de la population.
Exemple
• La taille des habitants d’un pays donné ou les notes obtenues à une épreuve de concours par
des candidats sont des variables quantitatives.
• La couleur des yeux des habitants d’un pays donné est une variable qualitative.
1.1 Modalités
Définition 1.3: Modalités
1
Définition 1.4: Série statistique
• La liste des valeurs prises (des modalités) par X est une série statistique :
Objectif C’est le recueil simultané des modalités de deux variables X et Y chez les mêmes sujets.
L’intérêt se porte le plus souvent sur la relation entre les deux variables : la recherche de corrélation.
2 Représentation graphique
Définition 2.1: Nuage de points
On appelle nuage de points d’une série statistique double, l’ensemble des points Mi de coordon-
nées (xi , yi ).
Pour tracer un nuage de points en Python :
plt.scatter(x,y)
plt.show()
mx = np.mean(x)
my = np.mean(y)
plt.scatter(mx,my,marker=’x’)
plt.show()
2
3 Droite de régression
Lorsqu’on étudie une série statistique double, on peut penser que l’une des variables, par exemple X,
est une cause de l’autre, par exemple Y . On dit alors que X est la variable explicative et que Y
est la variable à expliquer.
Exemple: L’acuité visuelle dépend de l’age d’une personne. A priori, la variable explicative est
l’âge (caractère X) et la variable à expliquer est l’acuité visuelle (caractère Y ).
Si le nuage de points associé à une série statistique double possède une forme étirée, on peut avoir
l’idée de chercher quelle droite approcherait au mieux les points de ce nuage.
Le problème consiste donc à identifier une droite y = ax+b qui ajuste bien le nuage de points. L’erreur
que l’on commet en utilisant la droite de régression pour prédire yi à partir de xi est yi − (axi + b).
1 XN
V (X) = (xi − X)2
N i=1
3
Définition 3.2: Covariance
1X n
Cov(X, Y ) = (xi − X)(yi − Y ) = X.Y − X.Y
n i=1
Soit (xi , yi )1≤i≤n une série statistique double, La droite de régression linéaire a pour équation
y = ax + b où:
Cov(X, Y )
a= b = y − ax
V (X)
En Python soit x et y deux vecteurs de même taille :
s = np.mean(x*y)-np.mean(x)*np.mean(y)
a = s/np.var(x)
b = np.mean(y)-a*np.mean(x)
Cov(X, Y )
ρX,Y =
σX σY
En Python , on calcul le coefficient de corrélation par:
s = np.mean(x*y)-np.mean(x)*np.mean(y)
vx = np.std(x)
vy = np.std(y)
corr = s/(vx*vy)
4
Remarque 3.4