Académique Documents
Professionnel Documents
Culture Documents
Hamza CHioukh
Amina Merah
Ayoub Bakiri
31 May 2023
Introduction
La statistique est un ensemble de méthodes mathématiques basées sur l’or-
ganisation et la présentation de données ce qui conduit à la construction de
résumé numérique, de décrire et d’analyser des phénomènes susceptibles d’être
dénombrés. On distingue généralement deux types : la statistique inférentielle et
la statistique descriptive, ce dernier vise à étudier et décrire de façon synthétique
et parlante des données observées pour mieux les analyser, et qui à leur tour,
sont composées en deux parties : la statistique descriptive univariée et la sta-
tistique descriptive bivariée. Nous nous intéressons dans notre mémoire à la
statistique descriptive bivariée et l’étude de données associées à deux variables,
que celle-ci soit d’une variable qualitative ou quantitative.
La statistique descriptive : La Statistique descriptive est un ensemble de méthodes
utilisées pour décrire les caractéristiques étudiées d’un ensemble de données à
l’aide de moyens appropriés, et elle vise à décrire , classer , et organiser ,résumer
un ensemble de données (qualitatives ,quantitatives),puis l’afficher clairement
sous forme de tableaux en fonction des valeurs calculées (moyenne ,médiane ,
écart type . . .) ou des graphiques (histogramme ,camembert graphique . . .).
1
— Individu : (Unité statistique) élément de base constituant la population
ou l’échantillon, elle est notée ! : Par exemple : l’étudiant d’une université,
le livre d’une bibliothèque
— Caractère ou variable statistique : (C’est la propriété étudiée) Un
caractère X étant une variable qui discerne les individus de cette popu-
lation, les valeurs possibles d’un caractère sont appelées ses modalités.
— Modalités : Les modalités xi sont les différentes possibilités que peut
prendre le caractère X (ou les différentes situations de X), où chaque
caractère a deux ou plusieurs façons de modalités, par exemple : Les
modalités du caractère sexe sont masculin et féminin, Les modalités du
caractère nationalité sont Algérien, Marocain, Français,...
Première partie
Cas deux variable quantitatives
Un caractère est dit quantitatif si toute ses valeurs possibles ou l’ensemble
des observations sont numériques, et ses déférentes modalités sont mesurables
ou repérables, on distingue deux types de variables quantitatives :
2
Figure 1 – Le nuage de points
2 La moyenne :
La moyenne est un outil de calcul permettant de résumer une liste de valeurs
numériques en un seul nombre réel, indépendamment de l’ordre dans lequel la
liste est donnée.
La moyenne de x est donnée par :
n
1X
x̄ = xi (1)
n i=1
La moyenne de y est donnée par :
n
1X
ȳ = yi (2)
n i=1
Exemple :
à partir des données du tableau 1, la moyenne des âges est :
1
x̄ =
(120 + 240 + 360 + 480 + 600 + 720) = 420 (3)
6
La moyenne des masses est :
1
ȳ = (1920 + 3827 + 5542 + 6995 + 8681 + 11207) = 6362 (4)
6
3
3 La varience
La variance est une mesure de la dispersion des valeurs d’un échantillon ou
d’une variable aléatoire
n n
1X 1X
s2x = (xi − x)s2y = (xi − y)
n i=1 n i=1
Exemple :
La variance des âges s2y = 205
La variance des masses s2y = 3057
4 Covarience
La covariance mesure la relation linéaire entre deux variables. La covariance
est similaire à la corrélation entre deux variables, La covariance est définie :
n
1X
cov(x, y) = sx y = (xi − x)(yi − y)
n i=1
4.1 Remarque
— La covariance peut prendre des valeurs positives, négatives ou nulles.
— Quand xi = yi , pour tout i = 1, . . ....n la covariance est égale à la variance
— cov(x,y)=cov (y,x)
5 La coefficient Corrélation
Le coefficient de corrélation mesure la plus ou moins grande dépendance
entre les deux caractères X et Y .
cov(x, y)
r=
δx δy
5.1 Remarque
— Le coefficient de corrélation mesure la dépendance linéaire entre deux
variables :
2
−1 ≤ rx y ≤ 1 0 ≤ rxy ≤1
— Si le coefficient de corrélation est positif, les points sont alignés le long
d’une droite croissante.
— Si le coefficient de corrélation est négatif, les points sont alignés le long
d’une droite d´décroissante.
4
— Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de
dépendance linéaire. On peut cependant avoir une d´dépendance non-
linéaire avec un coefficient de corrélation nul.
Exemple :
À partir des données du tableau 1 :
624500
r= = 0, 9967
205 ∗ 3057
6.1 Remarque
La droite de régression de y en x n’est pas la même que la droite de régression
de x en y.
Exemple :
x y
10 400
15 600
20 700
30 800
35 900
40 950
5
Figure 2 – droite de régression
yi∗ = a + bxi
Les valeurs ajustées sont les ‘prédictions’ des yi réalisées au moyen de la variable
x et de la droite de régression de y en x.
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées
de la variable dépendante
ei = yi − yi∗
Les résidus représentent la partie inexpliquée des yi par la droite de régression.
6
8 Coefficient de corrélation et coefficient de détermination
Il existe un lieu entre le coefficient de corrélation et la droite de régression.
Ce lien est donné par la formule :
R2 = a ∗ a′
Ou a est le coefficient de la droite de régression de Y en X (C’est -à-dire la droite
de régression de la forme Y = aX + b) et ou a’ est le coefficient de la droite de
régression de X et Y (C’est-à-dire le coefficient de la droite de régression de X
en Y ).
Le terme R2 est appelé coefficient de détermination. En pratique, il n’est pas
nécessaire de passer par la formule R2 = a ∗ a′ . il suffit en effet de calculer r et
de l’élever au carré.
Deuxième partie
Cas deux variable quantitatif
Un caractère est dit qualitatif si toutes ses valeurs possibles ne sont pas
numériques, il ne peut pas etre mesuré, et on distingue deux types de variables
qualitatives :
Variable qualitative nominale : Une variable qualitative est dite no-
minale lorsque ses modalités ne peuvent etre classées et ordonnées de façon
naturelle. Par exemple : le cas de la variable couleur des yeux, ou encore de la
variable de sexe, la nationalité...
Variable qualitative ordinale : une variable qualitative est dite ordinale
lorsque ses modalités peuvent etre classées dans un certain ordre naturel. Par
exemple : le degré de sévérité d39 ;une maladie(forte, moyenne, faible).
9 Tableau de contingence
On appelle tableau de cotingence , ou tableau à double entrée, les tableau
statistiques qui décrivent l’effectif N i,j, de la population des individus qui ont
simultanément la modalité Xi, du caractère X et la modalité Yi du caractère Y.
Les données observées peuvent etre regroupées sous la forme d’un tableau de
contingence
amp ; Y1 amp ; Y2 amp ; ... amp ; Yj amp ; ... amp ; Yk amp ; Ni.
X1 amp ; N11 amp ; amp ; amp ; amp ; amp ; amp ; N1.
X2 amp ; amp ; N22 amp ; amp ; amp ; amp ; N2k amp ; N2.
... amp ; amp ; amp ; amp ; amp ; amp ; amp ; N3.
Xi amp ;... amp ;... amp ; ... amp ; Nij amp ;... amp ;... amp ; Ni.
... amp ; amp ; amp ; amp ; amp ; amp ; amp ; ...
Xp amp ; ... amp ; ... amp ; ... amp ; ... amp ;... amp ; Npk amp ; Np.
N.k amp ; N.1 amp ; N.2 amp ;... amp ; N.j amp ; ... amp ; N.k amp ; N..