Vous êtes sur la page 1sur 28

Table des matières

1 Terminologies 4
1.1 Population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Variables ou caractères statistiques . . . . . . . . . . . . . . . 5
1.3.1 Variables quantitatives . . . . . . . . . . . . . . . . . . 5
1.3.2 Variables qualitatives . . . . . . . . . . . . . . . . . . . 5

2 Statistique descriptive univariée 7


2.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.2 Effectif et fréquence . . . . . . . . . . . . . . . . . . . . 8
2.1.3 Effectifs cumulés croissants et décroissants . . . . . . . 8
2.2 Paramètres caractéristiques . . . . . . . . . . . . . . . . . . . 9
2.2.1 Paramètres de position . . . . . . . . . . . . . . . . . . 9
2.2.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . 13
2.2.3 Paramètres de formes . . . . . . . . . . . . . . . . . . . 15
2.2.4 Paramètre d’aplatissement(kutosis) . . . . . . . . . . . 16
2.3 Représentation graphique . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Représentation d’effectifs ou de fréquences . . . . . . . 17
2.3.2 Diagramme de Tukey (ou boîte à moustaches ou boîte
à pattes) . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Statistique descriptive bivariée 21


3.1 Série statistique bivarié . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Cas de deux variables quantitatives . . . . . . . . . . . . . . . 21
3.2.1 Paramètre marginaux . . . . . . . . . . . . . . . . . . . 21
3.2.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.3 Coefficient de corrélation et de détermination . . . . . 22
3.2.4 Nuage de points . . . . . . . . . . . . . . . . . . . . . . 23
3.2.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . 24
3.3 Cas de deux variables qualitatives . . . . . . . . . . . . . . . 24

1
TABLE DES MATIÈRES

3.3.1 Tableaux de contingence . . . . . . . . . . . . . . . . . 24


3.3.2 Tableaux des fréquences . . . . . . . . . . . . . . . . . 25
3.3.3 Paramètres conditionnels . . . . . . . . . . . . . . . . . 26
3.3.4 Représentation graphique . . . . . . . . . . . . . . . . 26
3.4 Variables mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . 27

présenté par Waly DIOME 2 2 sur 28


TABLE DES MATIÈRES

Introduction générale
Théoriquement la statistique peut être définie comme une science, une
méthode et une technique qui consiste en l’étude de données observées. La
statistique comprend : la collecte des données, le traitement des données col-
lectées, l’interprétation des données, la présentation afin de rendre les données
compréhensibles par tous. Les domaines d’application de la statistiques sont
nombreux et variés. Elle s’applique entre autres, en météorologie, en assu-
rances, en biologie, en marketing, en médecine, en psychologie, en politique,
à la justice, à la production industrielle, etc.

présenté par Waly DIOME 3 3 sur 28


Chapitre 1

Terminologies

1.1 Population
La population statistique est l’ensemble des éléments sur lesquels porte
l’étude.
Les éléments de la population sont appelés individus statistiques ou unités
statistiques. La population constitue l’univers de référence de l’étude.

On représentera une population de N individus par Ω = {ω1 , ω2 , ..., ωN },


ωi désignant, pour i variant de 1 à N, les individus qui la composent.

NB : La population doit être définie avec précision.

Exemple

1.2 Echantillon
Un échantillon de taille n est un sous-ensemble formé de n individus de
la population (n ≤ N ).
La notion d’échantillon est fondamentale car, dans plusieurs situations, la
population entière n’est pas disponible ou observable. Dans ce cas, seul un
échantillon est étudié et les résultats obtenus sont extrapolés à la population.

4
CHAPITRE 1. TERMINOLOGIES

1.3 Variables ou caractères statistiques


On appelle caractère (ou variable) statistique ce qui est observé sur chaque
individu. C’est une application notée X, définie sur une population Ω et à
valeur dans M appelé ensemble des modalités.
X : Ω −→ M
ωi 7−→ X(ωi )
Les modalités correspondent aux valeurs possibles de la variable statistique.
C’est l’ensemle :
X(Ω) = {x1 , x2 , ..., xi , ..., xr }
avec r le nombre de modalités distinctes.

1.3.1 Variables quantitatives


Une variable statistiques est dite quantitative si ses modalités sont mesu-
rables.
Il existe deux types de variables quantitatives : les variables quantitatives
discrètes et les variables quantitatives continues.

Variables quantitatives discrètes


Une variable quantitative est dite discrète si l’ensemble de ses modalités
est un ensemble fini ou dénombrable. Ainsi, l’ensemble des modalité peut
être donné sous la forme d’une liste de nombre M = {x1 , x2 , ..., xi , ...}, finie
ou infinie.
Le plus souvent, les modalités appartiennent à l’ensemble des entiers naturels.
Cependant, une variable discrète peut prendre des valeurs non entières.

Variables quantitatives continues


Une variable quantitative est dite continue si l’ensemble de ses modalités
n’est pas dénombrable. Ainsi, une variable quantitative continue peut prendre
toutes les valeurs d’un intervalle.

1.3.2 Variables qualitatives


Une variable statistique est dite de nature qualitative si ses modalités ne
sont pas mesurables.
On distingue deux types de variables qualitatives : Les variables qualitatives
nominales et les variables qualitatives ordinales

présenté par Waly DIOME 5 5 sur 28


CHAPITRE 1. TERMINOLOGIES

Variables qualitatives nominales


Une variable statistique qualitative est dite nominale si ses modalités ne
sont pas naturellement ordonnées.

Variables qualitatives ordinales


Une variable statistique est dite ordinale si l’ensemble de ses modalités
peut être doté d’une relation d’ordre, c’est-à-dire qu’on peut opérer un clas-
sement de l’ensemble des données de la plus petite à la plus grande (ou
inversement).

Exemple 1 : Une grande entreprise utilise 5 usines de fabrication de taille


différente. Les parts du chiffre d’affaires (CA) pour chacune d’entre elles
sont : 30%, 30%, 20%, 15% et 5%.
1. Quelle est la population étudiée ? Donner un individu de cette population.
2. Quelle est le caractère (ou la variable) étudié(e) ?
3. Quelle est la nature de la variable ?
4. Donner une modalité.

présenté par Waly DIOME 6 6 sur 28


Chapitre 2

Statistique descriptive univariée

La statistique descriptive a pour but d’analyser les données, de les ordon-


ner et de dégager certaines caractéristiques du domaine observé.

2.1 Présentation des données


Il existe plusieurs niveaux de description statistique : la présentation brute
des données, des présentations par tableaux numériques, des représentations
graphiques et des résumés numériques fournis par un petit nombre de para-
mètres caractéristiques.
Après avoir défini la population et préciser les caractères relevés sur chacun
des individus de la population ou de l’échantillon, le premier travail consiste
à présenter les données sous forme de tableau statistique. Ce tableau révèle la
distribution statistique en organisant les données en couple (xi , ni ) ou (xi , fi )
où les xi sont les modalités et les ni et les fi désignent respectivement leurs
effectifs et leurs fréquences.

2.1.1 Définitions
Série statistique
Une série statistique correspond aux différentes modalités d’un caractère
sur un échantillon d’individus appartenant à une population donnée.
Le nombre d’individus qui constituent l’échantillon étudié s’appelle la taille
de l’échantillon.

7
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Données brutes
On appelle données brutes ou tableau élémentaire le tableau relevant pour
chaque unité statistique la modalité de la variable étudiée.

Tri à plat
On appelle tri à plat la transformation qui permet de passer du tableau
des données brutes au tableau de la distribution statistique présentant les
modalités et les effectifs, les modalités étant classées par ordre croissant.

Classes
Pour pouvoir décrire des variables continues, il est parfois nécessaire de
les discrétiser, c’est à dire les répartir en classes : des intervalles de valeurs
successifs. Les classes peuvent être définies en fonction du nombre de classe
que l’on veut obtenir ou selon une amplitude fixe.

L’amplitude d’une classe est alors la différence entre la borne supérieure et


la borne inférieure de l’intervalle défini : soit [a; b[ une classe d’une variable
quantitative, on dit que A = b − a est l’amplitude de cette classe. a et b
représentent respectivement la borne inférieure et la borne supérieure

On appelle centre de classe le milieu de l’intervalle, c’est à dire la valeurs


c = a+b
2
.
On appelle densité d’une classe, le quotient de l’effectif par l’amplitude. On
le note par d,
n
d=
A

2.1.2 Effectif et fréquence


a-) L’effectif d’une valeur donnée d’une variable est le nombre d’individus
pour lesquelles la variable considérée prend la valeur en question.
L’effectif total est la somme de tous les effectifs d’une variable.
b-) La fréquence d’une valeur donnée est le rapport de l’effectif correspon-
dant à l’effectif total. La fréquence totale est toujours égale à 1.

2.1.3 Effectifs cumulés croissants et décroissants


Quand les modalités ou les classes d’une variable sont rangées dans l’ordre
croissant (resp. décroissant), les effectifs cumulés croissants (resp. décrois-
sants) d’une valeur s’obtiennent en ajoutant à chaque effectif les effectifs des

présenté par Waly DIOME 8 8 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

valeurs qui la précédent.


Les fréquences cumulées s’obtiennent en divisant les effectifs cumulés par
l’effectif total.

Exemple 2 : Le tableau suivant donne la distribution de candidats par


leurs notes lors d’un concours.

Notes sur 20 6 8 10 12 15 18 19
Nombre des étudiants 2 6 9 9 3 3 3
1. Quelles est la population étudiée ?
2. Déterminer la variable et sa nature.
3. Quel est l’effectif des participants ?
4. Calculer les effectifs cumulés croissants et déccroissants.
5. Combien de participants ont une note au moins égales à 10 ?
6. Pour être retenu il faut avoir au moins 12, combien de candidats sont-ils
recalés ?
7. Combien d’étudiants ont une note au plus égales à 18 ?
8. Quelle est la fréquence de la notes 10 ?
9. Quel est le pourcentage des candidats retenus ?

2.2 Paramètres caractéristiques


2.2.1 Paramètres de position
Le mode
Le mode (noté Mo ), pour un caractère discret, est la valeur du caractère
qui correspond au plus grand effectif.
Pour un caractère continu, on parle de classe modale . Si les classes ont la
même amplitude la classe modale est la classe qui correspond au plus fort
effectif.

Remarque :
– Le mode peut être calculé pour tous les types de variable, quantitative
et qualitative
– Le mode n’est pas forcément unique.

présenté par Waly DIOME 9 9 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

La médiane
Cas d’une variable quantitative discrete

La médiane (pour une série ordonnée de manière croissante) est la valeur


notée Me du caractère qui partage la population en deux sous-ensembles de
même effectif . Les éléments du premier sous-ensemble correspondent à des
valeurs du caractère inférieures ou égales à Me , ceux du second correspondent
à des valeurs du caractère supérieures ou égales à Me
Soit x1 , x2 , ..., xN la série statistique ordonnée par ordre croissante. On dis-
tingue deux cas :
– Si N est impair
Me = x N +1
2

– Si N est pair
x N + x N +1
2 2
Me =
2

Remarque : La médiane peut être calculée sur des variables quantitatives


et des variables qualitatives ordinales

Exemple 3 : Quels sont le mode et la médiane de la série statistique de


l’exemple 2 ?

Cas d’une variable quantitative continue

La moyenne
La moyenne (ou moyenne arithmétique) est la somme des valeurs obser-
vées divisée par leur effectif, elle est notée x. On a :
N
x1 + x2 + ... + xN 1 X
x= = xi
N N 1

En considérant les valeurs distinctes de la série et leurs effectifs, on a :


J
1 X
x= n j xj
N j=1

présenté par Waly DIOME 10 10 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

La moyenne géométrique
Si xi ≥ 0, on appelle moyenne géométrique la quantité

N
! N1
1
Y
G= xi = (x1 × x2 × ... × xN ) N
i=1

En utilisant des propriétés connues, on peut l’écrire comme l’exponentielle


de la moyenne arithmétique des logarithmes des valeurs observées. Ainsi,

N
! N1  N
!
Y 1 X
G = exp(log G) = exp log xi  = exp log xi
i=1
N i=1

La moyenne harmonique
Si xi ≥ 0, on appelle moyenne harmonique la quantité
1
H = PN 1
i=1 xi

Remarque : la moyenne harmonique est toujours inférieure ou égale à


la moyenne géométrique qui est toujours inférieure ou égale à la moyenne
arithmétique.
H≤G≤x

La moyenne pondérée
Dans le cas où on n’accorde pas le même poids à toutes les observations,
on peut pondérer les modalités par leurs poids.
Par exemple, en calculant la moyenne des notes pour un programme d’étude,
on peut pondérer les notes de l’étudiant par le nombre de crédits ou par le
nombre d’heures de chaque cours. Si on désigne par wi ≥ 0, i = 1, ..., N les
poids associés à chaque observation, la moyenne pondérée par wi est définie
par : PN
w i xi
xw = Pi=1 N
i=1 wi

Exemple 4 : Quelles sont la moyenne arithmétique, géométrique, harmo-


nique et pondérée de la série de l’exemple 2.

présenté par Waly DIOME 11 11 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Les quantiles
On parle de quantile quand la série est divisé en k sous-ensembles, comme
pour le cas de la médiane où k = 2.
Si k = 4, les quantiles sont appelés quartiles et si k = 10 on parle de déciles.
. Les quartiles

Ils sont au nombre de trois, premier quartile, deuxième quartile et troi-


sième quartile, notés respectivement Q1 , Q2 et Q3

– Le premier quartile est la plus petite valeur de la série telle qu’au


moins 25% des valeurs de celle-ci lui sont inférieures ou égales .

– Le deuxième quartile Q2 correspond à la médiane.

– Le troisième quartile est la plus petite valeur de la série telle qu’au


moins 75% des valeurs de celle-ci lui sont inférieures ou égales.
En pratique, on distingue les cas suivant :

variable quantitative discrète

. Si N4 est un entier, le premier quartile Q1 est la valeur qui,


dans cette liste, occupe le rang N4 et le troisième quartile Q3
est la valeur qui, dans cette liste, occupe le rang 3N
4
.

. Si N4 n’est pas un entier, le premier quartile Q1 est la valeur qui,


dans cette liste,occupe le rang immédiatement supérieur à N4 et
le troisième quartile Q3 est la valeur qui, dans cette liste, occupe
le rang immédiatement supérieur à 3N 4
.

variable quantitative continue

. Q1 est la valeur correspondant à la fréquence cumulée croissante


égale à 0, 25.

. Q3 est la valeur correspondant à la fréquence cumulée croissante


égale à 0, 75.

. Les déciles

présenté par Waly DIOME 12 12 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Il existe neuf déciles, mais en générale, on s’intéresse aux premier et


au neuvième décile, notés respectivement D1 et D9 .

– Le premier décile est la plus petite valeur de la série telle qu’au moins
un dixième (10%) des valeurs de celle-ci lui sont inférieures ou égales.
– Le neuvième décile est la plus petite valeur de la série telle qu’au
moins neuf dixième (90%) des valeurs de celle-ci lui sont inférieures
ou égales.

2.2.2 Paramètres de dispersion


L’étendu
L’étendue d’une série statistique est la différence entre la plus grande et
la plus petite valeur observée.
E = x N − x1

La distance interquartile
La distance interquartile est la différence entre le troisième et le premier
quartile.
IQ = Q3 − Q1

La variance
La variance est la somme des carrés des écarts à la moyenne divisée par
le nombre d’observations :
N
1 X
V (x) = (xi − x)2
N i=1

On peut démontrer que la variance peut aussi s’écrire


N
1 X 2
V (x) = x − x2
N i=1 i

Démonstration
N
1 X
V (x) = (xi − x)2
N i=1
N
1 X 2
= (xi − 2xi x + x2 )
N i=1

présenté par Waly DIOME 13 13 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

N N N
1 X 2 1 X 1 X 2
= x − 2x xi + x
N i=1 i N i=1 N i=1
N
1 X 2
= x − 2x x + x2
N i=1 i
N
1 X 2
= x − 2x2 + x2
N i=1 i
N
1 X 2
= x − x2
N i=1 i
En considérant les modalités distinctes, la variance devient
J
1 X
V (x) = nj (xj − x)2
N i=1

ou encore
J
1 X
V (x) = nj x2j − x2
N i=1

L’écart-type
L’écart-type est la racine carrée de la variance :
p
σx = V (x )

Les moments
. On appelle moment à l’origine d’ordre r ∈ N le paramètre
N
1 X r
m0r = x.
N i=1 i

Dans le cas les modalités sont distinctes


J
1 X
m0r = ni xri .
N j=1

présenté par Waly DIOME 14 14 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

. On appelle moment centré d’ordre r ∈ N le paramètre


N
1 X
mr = (xi − x)r .
N i=1

Si les modalités sont distinctes


J
1 X
mr = ni (xi − x)r .
N j=1

2.2.3 Paramètres de formes


Coefficient d’asymétrie de Fisher
Le coefficient d’asymétrie de Fisher noté g1 est donné par la formule
suivante
m3
g1 = 3
σx
où σx3 est le cube de l’écart-type et m3 désigne le moment d’ordre 3 et est
donné par
N
1 X
m3 = (xi − x)3 ,
N 1
.

Coefficient d’asymétrie de Yule


Le coefficient d’asymétrie de Yule dépend des 3 quartiles (premier quar-
tile, médiane et troisième quartile), et de la distance interquartile. Si on le
note par AY , on a :
Q3 + Q1 − 2Me
AY =
Q3 − Q1

Coefficient d’asymétrie de Pearson


Le coefficient d’asymétrie de Pearson est donné par la différence entre la
moyenne et le mode, divisé par l’écart-type. On le note AP .
x − Mo
AP =
σx

présenté par Waly DIOME 15 15 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Remarque Tous les coefficients d’asymétrie ont les mêmes propriétés, ils
sont nuls si la distribution est symétrique, négatifs si la distribution est al-
longée à gauche (left asymmetry), et positifs si la distribution est allongée à
droite (right asymmetry).

2.2.4 Paramètre d’aplatissement(kutosis)


Pour mesurer l’aplatissement opn peut utiliser le coefficient d’aplatisse-
ment de Peason, définit par
m4
β2 = 4
σx
ou le coefficient d’aplatissement de Fisher
m4
g2 = β2 − 3 = − 3,
σx4

où m4 est le moment centré d’ordre 4, et σx4 le carré de la variance.

présenté par Waly DIOME 16 16 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

2.3 Représentation graphique


2.3.1 Représentation d’effectifs ou de fréquences
Pour voir plus clair dans la répartition des valeurs d’une variable d’une
série statistique, plusieurs diagrammes sont proposés. Le type de diagramme
utilisé dépend du type de variable.

Variables qualitatives
.Diagramme en barres
Les modalités de la variable sont placées sur l’axe des abscisse et les effec-
tifs (ou les fréquences) sur l’axe des ordonnées. La hauteur de la barre est
proportionnelle à l’effectif. Les barres ont une certaine épaisseur pour faire
la différence avec les diagrammes en bâtons réservés à des variables quanti-
tatives discrètes.

Exemple 5 Soit la série statistique qui groupe des étudiant selon le type
de sport pratiqué

Type de sport football basket handball voleyball autres


Effectif 10 8 6 2 12

.Diagramme circulaire
L’effectif total est représenté par un disque. Chaque modalité est représentée
par un secteur circulaire dont les angles au centre sont proportionnels à
l’effectif correspondant. L’angle de la modalité xi est donné par :
ni
αi = × 360◦
N

présenté par Waly DIOME 17 17 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple 6 : Le diagramme circulaire de l’exemple ci-dessus donne ceci :

Variables quantitatives
.Diagramme en bâtons
Les valeurs discrètes xi prises par les variables sont placées sur l’axe des abs-
cisses, et les effectifs (ou les fréquences) sur l’axe des ordonnées. La hauteur
du bâton est proportionnelle à l’effectif correspondant.

Exemple 7 : Soit une enquête portant sur le nombres d’enfant dans trente
quatre familles.

Nbre d’enfants 1 2 3 4 5 6
Effectif 5 2 8 4 10 5

présenté par Waly DIOME 18 18 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

.Histogramme
L’histogramme est utilisé pour les variables quantitatives continues (regrou-
pées en classes). C’est un ensemble de rectangles. Chaque rectangle est associé
à une classe et il a une surface proportionnelle à l’effectif (ou fréquence) de
cette classe.
On distingue deux cas :

– Amplitudes égales : Si les classes ont la même amplitude, on place en


ordonnée l’effectif (ou la fréquence) des classes.
– Amplitude différentes : si les amplitudes sont différentes, on place en
ordonnée la densité di (l’effectif divisé par l’amplitude de la classe) pour
que la surface de chaque rectangle soit proportionnelle à l’effectif (ou
fréquence).

Exemple 8 : Soit la répartion en âge des élèves d’une école


Classe [6, 8[ [8, 10[ [10, 12[ [12, 14[ [14, 16[
Effectif 25 20 15 30 18

présenté par Waly DIOME 19 19 sur 28


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

2.3.2 Diagramme de Tukey (ou boîte à moustaches ou


boîte à pattes)
Les diagrammes de Tukey (ou boîtes à moustaches ou boîte à pattes) per-
mettent de représenter sur une même figure des intervalles. En règle générale,
on indique les valeurs extrêmes, les 1er et (k − 1)e quantiles (Q1 et Q3 pour
les quartiles, D1 et D9 pour les déciles, etc.) et éventuellement la médiane
d’une série.

Exemple 9 : Soit la série statistique représentant des notes d’étudiants :


5; 5; 6; 8; 10; 10; 10; 12; 12; 12; 14; 14; 15; 16; 17; 20; 20

présenté par Waly DIOME 20 20 sur 28


Chapitre 3

Statistique descriptive bivariée

3.1 Série statistique bivarié


Dans ce chapitre on étudie des séries statistiques composées de deux va-
riables. Pour chaque unité statistique, on obtient deux mesures. La série est
une suite de N couples de valeurs prises par les deux variables sur chaque
individu.
Considérons une population finie Ω de taille N sur laquelle on étudie deux
caractères (qualitatifs ou quantitatifs) notés X et Y . Soient respectivement
(x1 , x2 , ..., xi , ..., xN ) et (y1 , y2 , ..., yi , ..., yN ) les modalités de X et Y. On a la
série bivariée représentées par les N couples suivants :
(x1 , y1 ), (x2 , y2 ), ..., (xi , yi ), ..., (xN , yN ).

3.2 Cas de deux variables quantitatives


3.2.1 Paramètre marginaux
Pour chacune des variables X et Y on peut calculer séparément les para-
mètres tels que la moyenne, la variance, l’écart-type, etc. Ainsi, on :
N N
1 X 1 X
x= xj y= yj
N j=1 N j=1

N N
1 X 2 1 X 2
V (x) = (xi − x) = xj − x2
N i=1 N i=1
N N
1 X 2 1 X 2
V (y) = (yi − y) = yj − y 2
N i=1 N i=1

21
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

On parle de moyenne marginale, variance marginale, etc.

3.2.2 Covariance
La covariance généralise à deux variables la notion de la variance. On la
définit comme suit :
N
1 X
cov(x, y) = (xi − x)(yi − y)
N i=1

ou
N
1 X
cov(x, y) = xi y i − x y
N i=1

Remarque
– La covariance peut être positive, négative ou nulle.
– Quand xi = yi , pour tout i = 1, ..., n, la covariance est égale à la
variance.

3.2.3 Coefficient de corrélation et de détermination


On défini le coefficient de corrélation par

cov(x, y)
rxy =
σx σy

Le coefficient de détermination est le carré du coefficient de corrélation.


2
dxy = rxy

Remarque
– le coefficient de corrélation est compris entre −1 et 1 (−1 ≤ rxy ≤ 1)
– le coefficient de détermination est compris entre 0 et 1 (0 ≤ rxy ≤ 1)

Interprétation
Le coefficient de corrélation est égal à 1 si l’une des variables est une
fonction affine croissante de l’autre variable, à -1 dans le cas où une variable
est une fonction affine décroissante.
Les valeurs intermédiaires renseignent sur le degré de dépendance linéaire
entre les deux variables.

présenté par Waly DIOME 22 22 sur 28


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Plus le coefficient est proche des valeurs extrêmes -1 et 1, plus la corrélation


entre les variables est forte ; on emploie l’expression " fortement corrélées"
pour qualifier les deux variables. Une corrélation égale à 0 signifie que les
variables ne sont pas corrélées.

3.2.4 Nuage de points


On représente chaque couple de valeur par un point dans le plan. L’en-
semble de ces point est appelé nuage de point.

Exemple 10 Soit l’âge x (en année) et le poids y en kg de 15 individus.

x 10 15 20 20 25 30 30 30 35 40 45 45 50 60 60
y 35 45 50 55 60 60 65 70 80 80 80 75 75 85 70

Propriétés
– Si le coefficient de corrélation est égale à 1 les points sont alignés le
long d’une droite crossante.
– Si le coefficient de corrélation est égale à −1 sont alignés le long d’une
droite crossante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de
dépendance linéaire.

présenté par Waly DIOME 23 23 sur 28


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

3.2.5 Régression linéaire


On appelle droite de régression linéaire la droite qui ajuste au mieux un
nuage de points au sens des moindres carrés.

Définition de la droite des moindres carrés


On cherche à exprimer la relation entre deux variables x et y :
– x est appelé la variable indépendante ou explicative. C’est des valeurs
fixées ou connues sans erreurs.
– y est la valeur dépendante ou expliquée. Ses valeurs peuvent être dé-
terminer à partir de la variable x à une erreur près. L’un des objectif
de la régression linéaire est d’estimer cette erreur.
– On cherche une relation de la forme y = ax + b + E. C’est l’équation
d’une droite.

Solution de la droite des moindres carrés


La méthode consiste à chercher les valeurs des paramètres a et b qui
rendent la somme des carrés des erreurs résiduelles minimales.
n
X n
X
mina,b e2i = (yi − axi − b)2
i=1 i=1

Proposition Si var(x) 6= 0 alors la droite des moindres carrés a pour


coefficient directeur a = cov(x,y)
var(x)
et pour constante b = y − ax.

3.3 Cas de deux variables qualitatives


On prend x et y deux variables qualitatives. Les valeurs distinctes de x
et y sont respectivement notées

x1 , ..., xi , ..., xp

et
y1 , ..., yj , ..., yq

3.3.1 Tableaux de contingence


Le tableau suivant est appelé tableau de contingence

présenté par Waly DIOME 24 24 sur 28


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

x\y y1 ··· yj ··· yq total


x1 n11 ··· n1j ··· n1q n1.
.. .. .. .. ..
. . . . .
xi ni1 ··· nij ··· niq ni.
.. .. .. .. ..
. . . . .
xp np1 ··· npj ··· npq np.
total n.1 ··· n.j ··· n.q N
Les efectifs ni. et n.j sont appelés effectifs marginaux
– nij représente l’effectif de du couple (xi , yi )
– ni. représente l’effectif de la modalité xi
– n.j représente l’effectif de la modalité yj
Nous avons les relation suivantes :
q
X
ni. = nij , pour tout j = 1, ..., q
j=1
p
X
n.j = nij , pour tout i = 1, ..., p
i=1
q p p q
X X X X
ni. = n.j = nij = N
j=1 i=1 i=1 j=1

Exemple 11

3.3.2 Tableaux des fréquences


x\y y1 ··· yj ··· yq total
x1 f11 ··· f1j ··· f1q f1.
.. .. .. .. ..
. . . . .
xi fi1 ··· fij ··· fiq fi.
.. .. .. .. ..
. . . . .
xp fp1 ··· fpj ··· fpq fp.
total f.1 ··· f.j ··· f.q 1
Avec
nij
fij = , pour tout i = 1, ..., p et j = 1, ..., q
N
ni.
fi. = , pour tout j = 1, ..., q
N
n.j
f.j = , pour tout i = 1, ..., p
N

présenté par Waly DIOME 25 25 sur 28


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

3.3.3 Paramètres conditionnels


On appelle fréquence de y sous la condition x = xi (c’est-à-dire en consi-
dérant la ligne numéro i) :

nij fij
fj|i = =
ni. fi.

On appelle fréquence de x sous la condition y = yj (c’est-à-dire en considé-


rant la colonne numéro j)

nij fij
fi|j = =
n.j f.j

3.3.4 Représentation graphique


On représente les variables qualitatives à l’aide d’un diagramme en barre.

Exemple 12 On considère les secteurs d’activités suivants et les statuts de


leurs personnels
Statut salariés Patrons Travailleurs familiaux Total
Secteur
Agriculture 50 10 80 140
Industrie 80 15 100 195
Commerce 60 5 110 175
Fonction publique 70 10 90 170
Total 260 40 380 680

présenté par Waly DIOME 26 26 sur 28


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

3.4 Variables mixtes


On appelle variables (ou caractères) mixte le cas où x est quantitative et
y qualitative et inversement.

Exemple 13 On considère les variables sexe et âge d’un groupe d’étu-


diants.
– Le sexe a pour modalités : M ou F (variable qualitative)
– L’âge peut avoir pour modalité : 19, 20, 21, 22, 23, 24, 25, ... (quantita-
tive discrète) ou [19, 22[, [22, 25[... (quantitative continue).

présenté par Waly DIOME 27 27 sur 28


Bibliographie

[1] Initiation aux statistiques descriptives : cours, Mathieu Loiseau


[2] Statistiques - Cours, Henri IMMEDIATO
[3] http ://www.mat.ulaval.ca/
[4] http ://fr.wikipedia.org/wiki/Statistique
[5] http ://fr.wikibooks.org/wiki/Statistiques/Généralités
[6] Polycopié de Statistique Descriptive Faculté d’économie de Gro-
noble

28

Vous aimerez peut-être aussi