Vous êtes sur la page 1sur 22

Chapitre I

Statistique descriptive

1 Introduction

1.1 Statistique descriptive :

C’est l’ensemble des outils qui permet de résumer l’information contenue dans les données
de façon synthétique et efficace à travers :
— Tableaux
— Représentations graphique.
— Indicateur de position/dispersion.

1.2 Statistique inférentielle :

C’est l’ensemble des techniques qui permet de généraliser des conclusions relatives à la
population entière, à partir d’un sous ensemble tiré selon une méthode scientifique. Elle
permet également de prendre des décisions pour les hypothèses imposées sur les para-
mètres d’une population d’une population.
Remarque: Les méthodes statistiques : repose sur l’observation des phénomènes
concrets et utile les probabilités comme outils d’analyse et de généralisation.
La théories des probabilité : permet de modéliser efficacement certains phénomènes
aléatoires et d’en faire l’étude théorique.

2 Vocabulaire-Définitions
a) Individu C’est l’unité statistique faisant l’objet d’une observation (exemples : les
banques, les pays . . . ) ; cette unité statistique est l’entité abstraite qui représente
un consommateur, un logement ou un produit.
b) Populationl’ensemble des individus ou des unités statistiques qui font l’objet d’une
étude (exemples : ensemble des habitants d’un pays, l’ensemble des navires d’une
flotte navale) ; dans la plupart des études l’observation de tout les individus de la

1
2 Statistique descriptive

population pourrait être difficile et trop couteuse, dans ce cas on peut sélectionner
un sous ensemble représentatif de cette population appelé : échantillon.
c) Echantillon un sous-ensemble tiré de la population mère dont les individus sont
concernés par une étude. Le choix de l’échantillon se fait en respectant certaines
règles qui permettent d’assurer la représentativité de l’échantillon par rapport à la
population mère.

Exemple 1 Si l’échantillon est un groupe TD de L2 Info :


— individu : un étudiant.
— population :l’ensemble des étudiants de L2 Info/ de l’ISIMM/ de la Tunisie.
— les variables :
— le sexe des étudiants.
— La taille.
— La moyenne/ la mention

2.1 Les types d’un caractère statistique

a Caractère statistique

Le caractère est le phénomène étudié en statistique, il représente l’objet de l’observation


statistique auprès des individus.

Exemple 2 L’âge, la taille, le revenu d’un salarié, la couleur des yeux, la localisation
géographique sont des caractères.

b Modalité

Les modalités d’une variable sont les valeurs ou les positions que peut prendre celle ci.

Exemple 3 Les modalités de la variable situation amoureuse sont célibataire, ma-


rié, divorcé, veuf.
Les modalités de la variable moyenne sont 0,..,20.

c caractère qualitatif

un caractère qualitatif ou variable qualitative est une variable qui possèdes des modalités
sans unité de mesure ni orientation. Exemple : la région géographique, la nationalité. . .

d caractère quantitatif discrèt (nominal)

les modalités d’un caractère quantitatif discret son mesurables et peuvent êtres ordonnées.
Les modalités sont finies et dénombrables et elles sont en général des entiers naturels.
Exemple : le nombre des pièces d’un logement, le salaire des employés d’une usine...
3. Répresentation des données statistiques 3

e caractère quantitatif continu (métrique)

les modalités d’un caractère quantitatif continu son mesurables et peuvent êtres ordonnées.
Les modalités sont infinies et leur représentation nécessite le recours à des intervalles ou
classes. Exemple : le revenu du chef du ménage.

f série de données statistique

l’ensemble des modalités observées auprès des individus constitue une série de données
statistiques. Cette série est l’objet de l’analyse descriptive, qui à pour objectif de la résumer
par des tableaux des graphiques et des indicateurs.

3 Répresentation des données statistiques


On distingue les méthodes de représentation d’une variable statistique en fonction de la
nature de cette variable (qualitative ou quantitative). Les représentations recommandées
et les plus fréquentes sont les tableaux et les diagrammes (graphe). Le graphique est un
support visuel qui permet :
‚ la synthèse :visualiser d’un seul coup d’œil les principales caractéristiques.
‚ la découverte : : met en évidence les tendances.
‚ Le contrôle : on aperçoit mieux les anomalies sur un graphique que dans un tableau.
‚ La recherche des régularités :régularité dans le mouvement, répétition du phéno-
mène.
Pour un groupe de 15 étudiants, on a observé les valeurs des variables Couleurs des
yeux, Sexe,Mention au Bac et Note à l’examen de Statistiques . On a le tableau
des données suivant qui sera souvent utilisé dans la suite

Etudiants couleur des yeux Sexe Mention au Bac Note/Stat


1 V H P 12
2 B H AB 8
3 N H P 13
4 M H P 11
5 B F AB 10
6 V H P 9
7 N H B 16
8 M F AB 14
9 B F P 11
10 V F B 15
11 N F P 4
12 B H TB 18
13 V H AB 12
14 N H P 6
15 M F P 2
4 Statistique descriptive

3.1 Tableau statistique

Le tableau statistique permet de résumer la série statistique en faisant un regroupement


des individus associés aux modalités auxquelles ils appartiennent. La représentation gé-
nérale d’un tableau statistique est la suivante :

a caractère qualitatif

De façon générale, la fréquence d’une modalité "M" d’une variable qualitative se calcule
au moyen de la formule suivante :
effectif correspondant à "M"
fM “ .
effectif total
On a de plus, le pourcentage de cette modalité,
pM “ fM ˆ 100.
Modalités Effectifs Fréquences
m1 n1 f1
m2 n2 f2
.. .. ..
. . .
mk nk fk
Total n

Exemple 4 Tableau de la répartition de la variable Mention au Bac


Mention au bac Effectifs Fréquence Pourcentage
P n1 =8 f1 =8/15=0.53 53%
AB n2 =4 0.26 26.1%
B n3 =2 0.13 13.3%
TB n4 =1 0.06 6.7%
Total n=15 1 100%

b caractère quantitatif discrèt

De façon général, à chaque valeur k d’une variable quantitative discrète correspond un


effectif, noté par nk , il s’agit en fait du nombre des individus pour lesquels on abservée la
valeur k. La fréquence fk de la valeur k se calcul au moyen de la formule :
nk
fk “ .
n
Xi Effectif (fréquence absolue)
X1 n1
X2 n2
.. ..
. .
Xk nk
Total n
3. Répresentation des données statistiques 5

Exemple 5 Tableau de la répartition de la variable "Note à l’examen de sta-


tistique"
Note à l’examen Effectifs Fréquence
k=0 0 0
k=1 0 0
k=2 1 1/15
k=3 0 0
k=4 1 1/15
k=5 0 0
k=6 1 1/15
k=7 0 0
k=8 1 1/15
k=9 1 1/15
k=10 1 1/15
k=11 2 2/15
k=12 2 2/15
k=13 1 1/15
k=14 1 1/15
k=15 1 1/15
k=16 1 1/15
k=17 0 0
k=18 1 1/15
k=19 0 0
k=20 0 0
Total n=15 1

c caractère quantitatif continu

L’infinité des valeurs observables d’une variable quantitative continue ne rend pas possible
la généralisation d’un diagramme en bâtons. L’établissement d’un tableau de répartition
exige que l’on découpe l’intervalle de variation d’une telle variable, en k sous-intervalles
re0 , e1 s, re1 , e2 s, ..., rek´1 , ek s.
Chacun de ces intervalles est appelé classe.
L’amplitude de la classe rei´1 , ei s est égale à ai “ ei ´ ei´1 .

Classes Effectif (fréquence absolue)


re1 , e2 r n1
re2 , e2 r n2
.. ..
. .
rek´1 , ek r nk
Total n

Remarque: Les classes peuvent être construites ? avec des amplitudes inégales, et le
nombre total des classes peut être approximé par n.
6 Statistique descriptive

Exemple 6 La répartition des employés suivant les salaires annuels.


Modalités Effectifs Fréquences
r1500, 2000r 2 0.1
r2000, 2500r 5 0.25
r2500, 3000r 4 0.2
r3000, 3500r 1 0.05
r3500, 4000r 3 0.15
r4000, 4500r 2 0.1
r4500, 5000r 3 0.15
Total 20 1

3.2 Représentation graphique

a caractère qualitatif

A partir de l’observation d’une variable qualitative, deux diagrammes permettent de re-


présenter cette variable : le diagramme en bandes (dit tuyaux d’orgue) et le diagramme
à secteurs angulaires (dit camembert).
Etudions le caractère couleur des yeux. On a
couleur Bleu Marron Noir Vert
Effectif 4 3 4 4
Tuyaux d’orgues On porte en abscisses les modalités, de façon arbitraire. Nous portons
en ordonnées des rectangles dont la longueur est proportionnelle aux effectifs, ou aux
fréquences, de chaque modalité.

Diagramme en secteurs (camembert) Les diagrammes circulaires, ou semi-circulaires,


consistent à partager un disque ou un demi-disque, en tranches, ou secteurs, correspondant
aux modalités observées et dont la surface est proportionnelle à l’effectif, ou à la fréquence,
de la modalité.
Remarque: Le degré d’un secteur est déterminé au moyen de la formule
αi “ fi ˆ 360.
3. Répresentation des données statistiques 7

b Caractère quantitatif discrèt

De façon génèrale, à chaque valeur k d’un caractère quantitatif discrèt correspond un


effectif noté par nk ; il s’agit en fait du nombre des individus pour lesquels on a observé
la valeur k. La fréquence fk de la valeur k, se calcule au moyen de la formule :
nk
fk “ ,
N
où nk désigne l’effectif correspondant à la valeur k et N l’effectif total, en multipliant les
fréquences par 100, on obtient les pourcentages correspondantes.

Diagramme en batôns Les modalités de la variable sont portées sur l’axe des abscisses
et les fréquences absolues ou relatives sont portées sur l’axe des ordonnées. Le principe de
construction de ce diagramme est basé sur le fait qu’à partir de chaque modalité on trace
un segment de droite et la hauteur de chaque segment est proportionnelle aux fréquences.

Exemple 7 On considère la variable quatitative ’Note à l’examen de statistique’, alors


sa représentation graphique en bâton est donnée par
8 Statistique descriptive

Cette forme se prête difficile pour l’interprétation, pour y remédier il faut créer des classes
de notes.

variable classée Effectifs Fréquences


r0, 4s 2 2/15
r4, 8s 2 2/15
r8, 12s 6 6/15
r12, 16s 4 4/15
r16, 20s 1 1/15

Sous cette répartition la représentation graphique sera de la forme suivante :

c Caractère quatitatif continu

Histogramme : L’histogramme des fréquences est un graphique qui permet de repré-


senter un caractère quantitatif continu, il est constitué de rectangles juxtaposés dont les
surfaces sont proportionnelles aux fréquences des classes et par conséquent à leurs effec-
tifs.
Remarque:
‚ Lorsque les classes ont toutes la même amplitude, les hauteurs des rectangles sont
proportionelles à leurs surfaces, par conséquent les hauteurs des rectangles sont
proportionnelles aux fréquences et aux effectifs.
‚ Dans le cas où les classes sont d’amplitudes inégales, la hauteur du rectangle correspon-
dant à la ième classe sera hi “ afii (c’est à dire la fréquence par unité d’amplitude)
ou encore Hi “ naii (c’est à dire l’effectif par unité d’amplitude).

Exemple 8 On considère la variable quatitative continu dans l’exemple 6, la représenta-


tion graphique est la suivante :
4. Fonction cumulative (de répartition) d’un caractère quantitatif 9

4 Fonction cumulative (de répartition) d’un carac-


tère quantitatif
La fonction de répartition est une fonction qui permet de calculer la proportion des indi-
vidus ayant une modalité inferieur à une modalité donnée.

Définition 1 La fonction de répartition d’un caractère X est définie par

F : R Ñ r0, 1s
x Ñ PpX ď xq.

C’est la proportion des individus ayant des modalités inférieures ou égale à x.

4.1 Effectifs cumulés

On considère X une variable quantitative continue ou encore discrète classée. Les effectifs
correspondant à ces classes sont notés n1 , .., nk .
L’effectif cumulé de la première classe est le nombre N1 d’individus pour lesquels la
variable X prend une valeur au plus égale à e1 , donc

N1 “ n1 .

L’effectif cumulé de la deuxième classe est le nombre N2 d’individus pour lesquels


la variable X prend une valeur au plus égale à e2 , donc

N2 “ n1 ` n2 .

Plus généralement, l’effectif cumulé de la ième classe est le nombre Ni d’individus


pour lesquels la variable X prend une valeur au plus égal à ei , on a donc
i
ÿ
Ni “ nl .
l“1
10 Statistique descriptive

4.2 Fréquences cumulées

La fréquence cumulées de la ième classe est définie par

i
Ni ÿ
Fi “ “ fl ,
n l“1

où fl est la fréquence cumulée de la lème classe. Ainsi on a

k
ÿ k
ÿ
nl “ n et fl “ 1.
l“1 l“1

X(modalité) Ni (effectif) fi (fréquence) Fi (fréquence cumulée)


x1 n1 f1 F 1 “ f1
x2 n2 f2 F 2 “ f1 ` f2
.. .. .. ..
. . . .
řk
xk nk fk Fk “ i“1 fk “ 1

4.3 Représentation graphique de la foction cumulative

a Caractère quantitatif discrèt

Pour tout i P t1, ..., nu, on a Fx pxi q “ Fi


Ainsi la courbe de FX passe par les points px1 , F1 q, px2 , F2 q, ... et pxn , Fn q.

Proposition 1 La fonction de répartition satisfait, pour i P t1, .., nu


— L’égalité, FX pxi q “ Fi . $

’ 0, si x ă x1 ;
& F1 , si x1 ď x ă x2 ;


— L’expression de FX est donnée par FX pxq “ F2 , si x2 ď x ă x3 ;
Fi , si xi ď x ă xi`1 ;




1, si x ě xn .
%

La représentation graphique de la fonction de répartition doit passer par une courbe en


escalier. On considère l’exemple 5, alors la fonction cumulative /de répartition est donnée
par :
5. Indicateur de position 11

b caractète quantitatif continu

La courbe de FX est nulle avant x1 , constante égale à 1 après xn et joint les points
px0 , 0q, px1 , F1 q, ..., pxn , 1q par des segments de droites.
On considère l’exemple 6, alors la fonction de répartition est donnée par :

5 Indicateur de position

Ces indicateurs sont des paramètres calculés à partir de la série statistique dans le but de
donner un résumé interprétable et exhaustif de l’information contenue dans cette série.

5.1 Les moyennes

La moyenne est un indicateur de tendance centrale qui permet de déterminer le centre de


la distribution, la moyenne arithmétique est la moyenne est la plus utilisée, mais il existe
d’autres types de moyennes utilisées dans le calcul de la tendance centrale de distributions
statistiques telles que la moyenne géométrique et la moyenne quadratique.
12 Statistique descriptive

a moyenne arithmetique

La moyenne arithmétique est la somme de toutes les données observées divisées par le
nombre des individus de l’échantillon.
n
1ÿ
x“ xi
n i“1

si les données sont représentés dans un tableau statistique dans le quel chaque modalité est
associée à fréquence absolue ou relative alors on calcule la moyenne arithmétique pondérée
ainsi :
k k
1ÿ ÿ
x“ ni xi , ou X “ f i xi .
n i“1 i“1

Remarque: Dans le cas d’une variable continu on remplace xi par ci le centre de la


classe rei , ei`1 r.

b Moyenne géométrique

la moyenne géométrique d’une série statistique brute est donnée par


d
źn
xG “ n
xi .
i“1

Pour les données groupés, elle est calculée au moyen de


a
xG “ n xn1 1 xn2 2 ...xnk k .

c Moyenne harmonique

La moyenne harmonique est la moyenne de l’inverse de la variable x, ou bien l’inverse de


la moyenne arithmétique, elle est calculée ainsi pour des données brutes :
n
1ÿ 1
xh “ .
n i“1 xi

Pour les données groupées, elle est calculée au moyen de la formule suivante :
k
1ÿ ni
xh “ .
n i“1 xi

La moyenne harmonique permet de calculer la moyenne des grandeurs obtenues à partir


d’un rapport de deux variables tels que le taux de change, l’indice du prix le taux de
chômage. . .
5. Indicateur de position 13

d Moyenne quadratique

La moyenne quadratique permet de calculer la moyenne des carrés des caractères, pour
une série de données brute elle est calculée au moyen de la formule suivante
n
1ÿ
xq “ x2 .
n i“1 i

Pour les données groupés, elle est calculée au moyen de la formule suivante :

k
1ÿ
xq “ ni x2i .
n i“1

Remarque: L’ensemble des moyennes calculées pour un caractère doivent vérifier l’in-
égalité suivante :
min xi ď xh ď xg ď x ď xq ď max xi .

Exemple 9 On considère la distribution des logements suivant les nombres de pièces


donnée par le tableau suivant :

xi ni ni xi xni i 1
xi
x2i
1 5 5 1 1 5
2 9 18 512 0.5 36
3 3 9 27 0.33 27
4 7 28 16384 0.25 112
5 2 10 25 0.2 50
Total n “ 26 70 / / /

Dans cet exemple on a

x “ 2.3 xg “ 1.45 xh “ 0.08 xq “ 8.84

5.2 Mode

Le mode correspond à la modalité la plus fréquente, il est noté M0 . Pour un caractère


continu ou discrèt pour le quel les données sont groupées en classes, la classe modale
correspond à celle associée à l’effectif le plus élevé ou graphiquement au plus haut rectangle
de l’histogramme.
Dans ce cas le mode est calculé à partir du centre de la classe modale selon la méthode
suivante :
14 Statistique descriptive

si le mode appartient à la classe rei , ei`1 r alors


` d1 ˘
M0 “ ei ` ˆ ai
d1 ` d2

Remarque: On peut avoir plus qu’un mode ou rien

5.3 Médiane

La médiane, notée Me est la modalité qui divise la série des données statistiques en deux
parties égales après avoir ranger ces données en ordre croissant (ou décroissant). Plus
précisément, il y a autant d’individus pour lesquels on a observé une valeur supérieure à
Me que d’individus pour lesquels on a observé une valeur inférieure à Me .

a Caractère discrèt

Lorsqu’on possède la série des données brutes et distribution (non classeé), on doit ranger
les n observations en ordre croissant.
` ˘ème
‚ si n est impair, la médiane est n`1 2
observation.
‚ si n est pair, la médiane est habituellement définie comme étant le point milieu entre
` n ˘ème ` ˘ème
2
et n2 ` 1 observation.

b Caractère continu

C’est la modalité x tel que F pMe q “ 0.5.


Pour calculer la médiane on doit déterminer la classe médiane à partir des fréquences
cumulées croissant, puis on calcule la valeur ponctuelle de la médiane selon l’hypothèse
de l’uniformité de la répartition des individus à l’intérieur de la classe médiane.
Si Me appartient à la classe rei , ei`1 r alors
` 0.5 ´ Fi´1 ˘
Me “ ei ` ˆ ai .
Fi ´ Fi´1
6. Indicateur de dispersion 15

Exemple 10

Exemple 11 On considère le caractère de l’exemple 9, alors


‚ le mode correspond à 2.
‚ la médiane correspond à 1.

5.4 Les quantiles

Ce sont les indicateurs qui divisent la distribution en quatre parties égales.


‚ Le premier quantile est indicateur noté Q1 tel que

PpX ď Q1 q “ 0.25.

‚ Le troisième quatile est noté Q3 ,

PpX ď Q3 q “ 0.75.

6 Indicateur de dispersion
Pour analyser une distribution on peut utiliser en plus des indicateurs de tendance cen-
trale, telles que la médiane ou la moyenne, d’autres indicateurs qui permettent de mesurer
la dispersion ou l’éparpillement de la série dans le but de bien décrire la distribution d’une
variable. Par exemple, les deux séries d’observations suivantes :
‚ -20,-10,0,10,20
‚ -2000,-1000,0,1000,2000.
Possèdent la même moyenne et la même médiane (0) mais se diffèrent selon un autre
indicateur qui mesure l’écart des ses observations par rapport à la valeur centrale. On va
présenter dans cette partie les mesures de dispersion les plus utilisées : l’étendue, l’écart
interquartile, la variance, l’écart-type et le coefficient de variation.

6.1 L’étendu

L’étendue est un paramètre qui mesure l’écart entre la valeur la plus élevée et la valeur
la plus faible de la distribution
e “ xmax ´ xmin .
16 Statistique descriptive

6.2 Variance, écart-type

L’écart type est l’indicateur de dispersion le plus utilisé et le plus simple à interpréter.
Il permet de comparer les distributions dont la tendance centrale est identique. Il donne
la variation moyenne de la distribution autour de la moyenne arithmétique. Pour calculer
l’écart type on doit d’abord calculer la variance de X qui est égale à la somme des carrés
des écarts à la moyenne divisée par l’effectif n, par la suite l’écart-type est égal à la racine
de la variance. n
1ÿ
V arpXq “ pxi ´ xq2 ,
n i“1
cette forme peut égaelement s’écrire sous la forme :
k
1ÿ
V arpXq “ ni pxi ´ xq2 ,
n i“1

où k désigne le nombre de valeurs distinctes de X et fi “ nn1 est la fréquence de la valeur


xi .
Une autre formule importante permettant de calculer la variance est :
n
1ÿ
V arpXq “ x2 ´ pxq2 .
n i“1 i
a
σX “ V arpXq.

6.3 Le coefficient de variation

Lorsqu’on veut comparer la dispersion ou l’étalement de deux séries d’observations qui


n’ont pas le même ordre de grandeur ou qui portent sur des variables différentes, on ne
peut pas utiliser directement les écarts types. Le coefficient de variation se définit comme
le rapport de l’écart type divisé par la moyenne, exprimé en pourcentage.
σx
Cv “ .
x

Exemple 12 On considère le caractère étudié dans l’exemple 9, alors on a

xi ´ x pxi ´ xq2 ni pxi ´ xq2


-1.3 1.69 8.45
-0.3 0.09 0.18
0.7 0.49 1.47
1.7 2.89 11.56
2.7 7.29 36.45

Ainsi
VarpXq “ 2.235 σX “ 1.49 et Cv “ 0.64.
Chapitre II

Statistiques bivariées

1 Introduction

Dans le chapitre précédent, on a présenté présenté les méthodes qui permettent de résumer
et représenter les informations relatives à une variable. Un même individu peut être étudié
à l’aide de plusieurs caractères (ou variables). Par exemple

‚ On observe simultanément sur un échantillon de 200 foyers, le nombre d’enfants X et


le nombre de chambre Y .

‚ On observe sur un échantillon de 20 foyers, le revenu mensuel X en Dinars et les


dépenses mensuelles Y .

‚ Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité
X et le volume des ventes Y qu’elle réalise.

‚ Une entreprise mène une étude sur les salaries en regardant l”ancienneté et le niveau
d’étude des salariés.

‚ On observe la croissance d’un enfant en regardant son poids et sa taille.

Dans la suite, On introduit l’étude globale des relations entre deux variables.

2 Distribution jointe-Distribution marginales

2.1 Le tableau de contingence

Soit X une variable statistique pouvant prendre K modalités x1 , ..., xK et Y une variable
statistique pouvant prendre L modalités y1 , ..., yL . On construit le tableau suivant appelé
tableau de contingence :

17
18 Statistiques bivariées

X/Y y1 .... yL Total


x1 n11 ou f11 .... n1L ou f1L n1. ou f1.
.. .. .. .. ..
. . . . .
xi ni1 ou fi1 ni. ou fi.
.. .. .. .. ..
. . . . .
xK nK1 ou fK1 nKL ou fKL nK. ou fK.
Total n.1 ou f.1 n.L ou f.L n (1)

Dans cette présentation on a : A chaque couple pxi , yj q on a nij est l’effectif qui représente
le nombre d’individus qui prennent en même temps la valeur xi et yj . On note fij “ nnij .

L
ÿ K
ÿ K ÿ
ÿ L
nk. “ nkl n.l “ nkl n“ nkl
l“1 k“1 k“1 l“1

Exemple 13 La distribution des logements : nombre de pièces (X) en fonction de la


superficie en m2 (Y ) :
X/Y r10, 30r r30, 50r r50, 70r r70, 90r Total
1 3 1 0 0 4
2 1 14 3 0 18
3 0 1 7 4 12
4 0 0 10 7 17
Total 4 16 20 11 51

2.2 Les distributions marginales

Sur la marge du tableau de contingence, on peut extraire les données seulement par rap-
port à X et seulement par rapport à Y .
On appelle distribution marginale des fréquences (des effectifs) la distribution des fré-
quences (effectifs) obtenue dans la marge d’un tableau de contingence, en ajoutant les
fréquences (effectifs) ligne par ligne, ou colonne par colonne.

a Loi marginale par rapport à Y

K K
ÿ n.j ÿ
n.j “ nij , f.j “ “ fij .
i“1
n i“1

b Loi marginale par rapport à X

L L
ÿ ni. ÿ
ni. “ nij fi. “ “ fij .
j“1
n i“1
2. Distribution jointe-Distribution marginales 19

Remarque: On a
K ÿ
ÿ L L ÿ
ÿ K
nij “ nij “ n.
i“1 j“1 j“1 i“1

K ÿ
ÿ L L ÿ
ÿ K
fij “ fij “ 1.
i“1 j“1 j“1 i“1

2.3 La distribution jointe

nij
PpX “ i, Y “ jq “ fij “ .
n
Remarque: Dans le cas continu, xi et yj représentent respectivement le centre des classes
de X et Y , c’est à dire
ei`1 ´ ei ej`1 ´ ej
xi “ et yj “ .
2 2

Exercice 1 On considère 10 salariés qui sont observés à l’aide de deux variables "age"
et "salaire". Les informations brutes sont données dans le tableau suivant :

Age 15 26 20 43 47 37 52 34 50 44
salaire 6000 7400 7500 8200 8207 8900 9100 9900 9950 10750

1. Déterminer le tableau de contingence (X âge et Y salaire). Pour l’âge et le salaire


former respectivement des classes de pas de 10 et de 1000).
2. Calculer f21 , f12 , et f33 .
3. Déterminer les effectifs marginaux de X et de Y . Tracer le nuages de points.
4. Déterminer le tableau statistique de deux séries marginales X et Y .

2.4 La distribution conditionelle

a Série conditionelle par rapport à X

Elle st notée X|yj , on dit que c’est la série conditionelle de X sachant que Y “ yj . On
calcule dans ce cas

nij fij
fi|j “ PpX “ k|Y “ lq “ “ .
n.j fij
20 Statistiques bivariées

On a aussi la moyenne conditionnelle xj , qui est définit par


K
ÿ
xj “ fi|j xi .
i“1
a
Pour l’écart type conditionnelle on a σXj “ V arpXj q avec
K
ÿ
VarpXj q “ “ fi|j pxi ´ xj q2 .
i“1

b Série conditionelle par rapport à Y

Elle est otée Y |xj on dit que c’est la série conditionelle de Y par rapport à X “ xj . On
calcule dans ce cas

fij
fj|i “ PpY “ j|X “ iq “ .
fi.

3 Notion de covariance et correlation

3.1 Covariance

La covariance entre deux variables X et Y notée CovpX, Y q est le paramètre qui donne la
variabilité de X par rapport à Y .

La covariance se calcule au moyen de la formule suivante


K ÿ L
1ÿ
CovpX, Y q “ xy ´ xy “ nij xi yj ´ xy.
n i“1 j“1

3.2 Indépendance

Définition 2 On dit que deux variables statistiques X et Y sont indépendantes si et


seulement si, pour tout i et j,
fij “ fi. ˆ f.j
3. Notion de covariance et correlation 21

Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux
variables ne soient pas indépendantes.. De manière équivalente, pour tout i et j,
n ˆ nij “ ni. ˆ n.j .
Dans ce cas, si X et Y sont indépendantes alors (réciproque est fausse)
CovpX, Y q “ 0.

Cette définition donne une interprétation intéressante de d’indépendance ; elle signifie que
dans ce cas, les effectifs des modalités conjointes peuvent se calculer uniquement à partir
des distributions marginales, supposées « identiques » aux distributions de X et Y dans
la population ; en d’autres termes, si X et Y sont indépendantes, les observations séparées
de X et de Y donnent la même information qu’une observation conjointe.

3.3 Coefficient de correlation

Les coefficients de corrélation permettent de donner une mesure synthétique de l’intensité


de la relation entre deux caractères et de son sens lorsque cette relation est monotone.
Le coefficient de corrélation de Pearson permet d’analyser les relations linéaires (voir
cidessous). Il existe d’autres coefficients pour les relations non-linéaires et non-monotones,
mais ils ne seront pas étudiés dans le cadre de ce cours.

Définition 3 La quantité
CovpX, Y q
ρXY “ ,
σX σY
s’appelle le coefficient de corrélation.

Proposition 2 Le coefficient de corrélation ρXY est compris entre r´1, 1s


|ρXY | ď 1.

Le coefficient ρXY mesure le degré de liaison linéaire entre X et Y . Nous avons les deux
caractéristiques suivantes :
‚ Plus le module de ρXY est proche de 1 plus X et Y sont liées linéairement.
‚ Plus le module de ρXY est proche de 0 plus il y absence linéaire entre X et Y .
22 Statistiques bivariées

Remarque: Par définition si ρXY “ 0 alors X et Y sont indépendantes.

Exercice 2 Nous considérons 10 joueurs et soient :


— Y la variable qui représente le nombre de jeux auquel un joueur joue.
— X la variable qui représente le gain ou perte (+1 s’il gagne 10 Dinars et 1 s’il perd
10 Dinars et 0 sinon).
Nous avons le tableau de contingence suivant,

X|Y 1 2 3 4 ni.“
-1 0 1 2 2
0 1 1 0 1
1 0 1 1 0
n.j

1. Compléter le tableau.
2. Calculer CovpX, Y q, conclure.