Vous êtes sur la page 1sur 7

statistique descriptive bivariée

Hamza CHioukh
Amina Merah
Ayoub Bakiri
31 May 2023

Introduction
La statistique est un ensemble de méthodes mathématiques basées sur l’or-
ganisation et la présentation de données ce qui conduit à la construction de
résumé numérique, de décrire et d’analyser des phénomènes susceptibles d’être
dénombrés. On distingue généralement deux types : la statistique inférentielle et
la statistique descriptive, ce dernier vise à étudier et décrire de façon synthétique
et parlante des données observées pour mieux les analyser, et qui à leur tour,
sont composées en deux parties : la statistique descriptive univariée et la sta-
tistique descriptive bivariée. Nous nous intéressons dans notre mémoire à la
statistique descriptive bivariée et l’étude de données associées à deux variables,
que celle-ci soit d’une variable qualitative ou quantitative.
La statistique descriptive : La Statistique descriptive est un ensemble de méthodes
utilisées pour décrire les caractéristiques étudiées d’un ensemble de données à
l’aide de moyens appropriés, et elle vise à décrire , classer , et organiser ,résumer
un ensemble de données (qualitatives ,quantitatives),puis l’afficher clairement
sous forme de tableaux en fonction des valeurs calculées (moyenne ,médiane ,
écart type . . .) ou des graphiques (histogramme ,camembert graphique . . .).

La statistique descriptive bivariée : est une branche de la statistique qui étude


la relation entre deux variable. Elle permet de décrire et de mesurer l’association
ou la corrélation entre deux variables.

Notions de bases statistiques


— Population : : On appelle population l’ensemble des unités statistiques
homogènes ou ensemble des éléments auxquels se rapportent les données
étudiées, elle est notée. Par exemple : les étudiants d’une classe, ensemble
des habitants d’une ville. . .
— Echantillon On appelle échantillon le sous-ensemble de la population
sur lequel sont effectivement réalisées les observations .Par exemple :
l’ensemble des étudiants d’une salle de classe d’une université. . ..

1
— Individu : (Unité statistique) élément de base constituant la population
ou l’échantillon, elle est notée ! : Par exemple : l’étudiant d’une université,
le livre d’une bibliothèque
— Caractère ou variable statistique : (C’est la propriété étudiée) Un
caractère X étant une variable qui discerne les individus de cette popu-
lation, les valeurs possibles d’un caractère sont appelées ses modalités.
— Modalités : Les modalités xi sont les différentes possibilités que peut
prendre le caractère X (ou les différentes situations de X), où chaque
caractère a deux ou plusieurs façons de modalités, par exemple : Les
modalités du caractère sexe sont masculin et féminin, Les modalités du
caractère nationalité sont Algérien, Marocain, Français,...

• Série statistique bivariée On s’intéresse à deux variables x et y. Ces


deux variables sont mesurées sur les n unités d’observation. Pour chaque unité,
on obtient donc deux mesures. La série statistique est alors une suite de n
couples des valeurs prises par les deux variables sur chaque individu x1, y1), .
. . , (xi, yi), . . . , (). Chacune des deux variables peut être, soit quantitative,
soit qualitative. On examine deux cas. – Les deux variables sont quantitatives.
– Les deux variables sont qualitative

Première partie
Cas deux variable quantitatives
Un caractère est dit quantitatif si toute ses valeurs possibles ou l’ensemble
des observations sont numériques, et ses déférentes modalités sont mesurables
ou repérables, on distingue deux types de variables quantitatives :

— Variable quantitative discrète


— Variable quantitative continue

1 Représentation graphique de deux variables


Dans ce cas, chaque couple est composé de deux valeurs numériques. Un
couple de nombres (entiers ou réels) peut toujours être représenté comme un
point dans un plan (x1, y1), . . ., (xi, yi), . . ., () est appelé nuage de points.
Le nuage de points permet de représenter simplement la relation entre deux
variables quantitatives.
Age(mois) textbfMass(kg)
120 1920
240 3827
360 5542
480 6995
600 8681

2
Figure 1 – Le nuage de points

2 La moyenne :
La moyenne est un outil de calcul permettant de résumer une liste de valeurs
numériques en un seul nombre réel, indépendamment de l’ordre dans lequel la
liste est donnée.
La moyenne de x est donnée par :
n
1X
x̄ = xi (1)
n i=1
La moyenne de y est donnée par :
n
1X
ȳ = yi (2)
n i=1
Exemple :
à partir des données du tableau 1, la moyenne des âges est :
1
x̄ =
(120 + 240 + 360 + 480 + 600 + 720) = 420 (3)
6
La moyenne des masses est :
1
ȳ = (1920 + 3827 + 5542 + 6995 + 8681 + 11207) = 6362 (4)
6

3
3 La varience
La variance est une mesure de la dispersion des valeurs d’un échantillon ou
d’une variable aléatoire
n n
1X 1X
s2x = (xi − x)s2y = (xi − y)
n i=1 n i=1

Exemple :
La variance des âges s2y = 205
La variance des masses s2y = 3057

4 Covarience
La covariance mesure la relation linéaire entre deux variables. La covariance
est similaire à la corrélation entre deux variables, La covariance est définie :
n
1X
cov(x, y) = sx y = (xi − x)(yi − y)
n i=1

4.1 Remarque
— La covariance peut prendre des valeurs positives, négatives ou nulles.
— Quand xi = yi , pour tout i = 1, . . ....n la covariance est égale à la variance
— cov(x,y)=cov (y,x)

5 La coefficient Corrélation
Le coefficient de corrélation mesure la plus ou moins grande dépendance
entre les deux caractères X et Y .
cov(x, y)
r=
δx δy

5.1 Remarque
— Le coefficient de corrélation mesure la dépendance linéaire entre deux
variables :
2
−1 ≤ rx y ≤ 1 0 ≤ rxy ≤1
— Si le coefficient de corrélation est positif, les points sont alignés le long
d’une droite croissante.
— Si le coefficient de corrélation est négatif, les points sont alignés le long
d’une droite d´décroissante.

4
— Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de
dépendance linéaire. On peut cependant avoir une d´dépendance non-
linéaire avec un coefficient de corrélation nul.
Exemple :
À partir des données du tableau 1 :
624500
r= = 0, 9967
205 ∗ 3057

6 Droite de régression linéaire


Le point moyen est le point qui a pour coordonnées la moyenne de X et la
moyenne de Y. On l’appelle aussi le centre de gravité. La droite de régression
est une droite qui passe par le point moyen. C’est aussi la droite qui minimise la
somme des carrés des écarts des observations. Le problème consiste à identifier
une droite qui ajuste bien le nuage de points. Si les coefficients a et b étaient
connus, on pourrait calculer les résidus de la régression d´définis par :
ei = yi − a − bxi
Le résidu ei est l’erreur que l’on commet en utilisant la droite de régression
pour prédire yi à partir de xi. Les résidus peuvent être positifs ou négatifs.
On considère que la variable X est explicative et que la variable Y est
Dépendante. L’équation d’une droite est : Y = a + bx

6.1 Remarque
La droite de régression de y en x n’est pas la même que la droite de régression
de x en y.
Exemple :
x y
10 400
15 600
20 700
30 800
35 900
40 950

5
Figure 2 – droite de régression

6.2 Utilité de la droite de régression :


La droite de régression sert d’abord à vérifier l’existence d’une relation
linéaire et la nature de celle-ci. Ainsi, dans notre exemple, le coefficient di-
recteur de la droite a = 0, 5258 est positif ce qui dénote une relation positive :
x et y varient dans le même sens. La droite de régression sert ensuite à faire
des prévisions. Ainsi, nous pouvons utiliser l’équation de la droite de régression
pour calculer des valeurs de Y associées à une valeur de X que l’on se donne

7 Résidus et valeurs ajustées


Les valeurs ajustées sont obtenues au moyen de la droite de régression :

yi∗ = a + bxi

Les valeurs ajustées sont les ‘prédictions’ des yi réalisées au moyen de la variable
x et de la droite de régression de y en x.
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées
de la variable dépendante
ei = yi − yi∗
Les résidus représentent la partie inexpliquée des yi par la droite de régression.

6
8 Coefficient de corrélation et coefficient de détermination
Il existe un lieu entre le coefficient de corrélation et la droite de régression.
Ce lien est donné par la formule :
R2 = a ∗ a′
Ou a est le coefficient de la droite de régression de Y en X (C’est -à-dire la droite
de régression de la forme Y = aX + b) et ou a’ est le coefficient de la droite de
régression de X et Y (C’est-à-dire le coefficient de la droite de régression de X
en Y ).
Le terme R2 est appelé coefficient de détermination. En pratique, il n’est pas
nécessaire de passer par la formule R2 = a ∗ a′ . il suffit en effet de calculer r et
de l’élever au carré.

Deuxième partie
Cas deux variable quantitatif
Un caractère est dit qualitatif si toutes ses valeurs possibles ne sont pas
numériques, il ne peut pas etre mesuré, et on distingue deux types de variables
qualitatives :
Variable qualitative nominale : Une variable qualitative est dite no-
minale lorsque ses modalités ne peuvent etre classées et ordonnées de façon
naturelle. Par exemple : le cas de la variable couleur des yeux, ou encore de la
variable de sexe, la nationalité...
Variable qualitative ordinale : une variable qualitative est dite ordinale
lorsque ses modalités peuvent etre classées dans un certain ordre naturel. Par
exemple : le degré de sévérité d39 ;une maladie(forte, moyenne, faible).

9 Tableau de contingence
On appelle tableau de cotingence , ou tableau à double entrée, les tableau
statistiques qui décrivent l’effectif N i,j, de la population des individus qui ont
simultanément la modalité Xi, du caractère X et la modalité Yi du caractère Y.
Les données observées peuvent etre regroupées sous la forme d’un tableau de
contingence
amp ; Y1 amp ; Y2 amp ; ... amp ; Yj amp ; ... amp ; Yk amp ; Ni.
X1 amp ; N11 amp ; amp ; amp ; amp ; amp ; amp ; N1.
X2 amp ; amp ; N22 amp ; amp ; amp ; amp ; N2k amp ; N2.
... amp ; amp ; amp ; amp ; amp ; amp ; amp ; N3.
Xi amp ;... amp ;... amp ; ... amp ; Nij amp ;... amp ;... amp ; Ni.
... amp ; amp ; amp ; amp ; amp ; amp ; amp ; ...
Xp amp ; ... amp ; ... amp ; ... amp ; ... amp ;... amp ; Npk amp ; Np.
N.k amp ; N.1 amp ; N.2 amp ;... amp ; N.j amp ; ... amp ; N.k amp ; N..

Vous aimerez peut-être aussi