Vous êtes sur la page 1sur 86

Note de Cours de Statistiques Descriptives

Essiomle Kokou, Ph.D.

2022-10-27
Objectifs du cours

I Apprendre les principales techniques de statistiques descriptives


univariées et bivariées.
I Etre capable de mettre en oeuvre ces techniques de manière
appropriée dans un contexte donné.
I Etre capable d’utiliser les commandes de base du Language R.
Pouvoir appliquer les techniques de statistiques descriptives au
moyen du language R.
Variables, données statistiques, tableaux,
effectifs

Quelques définitions
I La statistique : est un ensemble de principes et de méthodes
scientifiques pour recueillir, classer et synthétiser des données
numériques en vue de leur utilisation pour en tirer des
conclusions et prendre des décisions.
I La population et les unités statistiques : la population est
un ensemble dont chaque élément est un individu ou une unité
statistique.
I Les caractères : pour décrire une population, on classe les
individus selon certains attributs que l’on appelle des caractères
(sexe, genre) ou des variables (âge).
Mesure et variable

I On s’intéresse à des unités statistiques ou unités


d’observation : par exemple des individus, des entreprises, des
ménages.
I Sur ces unités, on mesure un caractére ou une variable, le
chiffre d’affaires de l’entreprise, le revenu du ménage, l’âge de
la personne, la catégorie socioprofessionnelle d’une personne.
I Les valeurs possibles de la variable, sont appelées modalités.
I L’ensemble des valeurs possibles ou des modalités est appelé
le domaine de la variable
NB : Les variables sont désignées par simplicitée par une lettre
(X , Y , Z ).
Typologie des variables
I Variable qualitative : La variable est dite qualitative quand
les modalités sont des catégories.
I Variable qualitative nominale: La variable est dite
qualitative nominale quand les modalités ne peuvent pas être
ordonnées.
I Variable qualitative ordinale : La variable est dite qualitative
ordinale quand les modalités peuvent être ordonnées.
I Variable quantitative : Une variable est dite quantitative si
toute ses valeurs possibles sont numériques.
I Variable quantitative discrète : Une variable est dite
discrète, si l’ensemble des valeurs possibles est dénombrable.
I Variable quantitative continue : Une variable est dite
continue, si l’ensemble des valeurs possibles est continu.
Typologie des variables (suite)

Exemple 1. Les modalités de la variable sexe sont masculin (codé


M) et féminin (codé F). Le domaine de la variable est {M, F}
Exemple 2. Les modalités de la variable nombre d’enfants par
famille sont 0, 1, 2, 3, 4, · · ·. C’est une variable quantitative discrète.
Série statistique
On appelle série statistique la suite des valeurs prises par une
variable X sur les unités d’observation.
I Le nombre d’unités d’observation est noté n.
I Les valeurs de la variable X sont notées.

x1 , · · · , xi , · · · , xn

Exemple 3. On s’intèresse à la variable état-civil notée X et à la


série statistique des valeurs prises par X sur 50 personnes. La
codification est
Code Désignation
M: Marié
C: Celibataire
D: Divorcée
V: Veuf
Variable qualitative nominale

Effectifs et fréquences
Une variable qualitative nominale a des valeurs distinctes qui ne
peuvent pas être ordonnées.
On appelle effectif d’une modalité ou d’une valeur distincte, le
nombre de fois que cette modalité (ou valeur distincte) apparaît.
Si on note ni l’effectif de la modalité xi , la fréquence d’une modalité
est donc l’effectif divisé par le nombre d’unités (n) d’observation.
ni
fi =
n
Tableau statistique

L’exemple ci-dessous donne une idée de comment presenter un


tableau statistique.
Exemple 4. Avec la série de l’exemple précédent, on obtient le
tableau statistique :

xi ni fi
M: 15 0.30
C: 12 0.24
D: 11 0.22
V: 12 0.24
Total 50 1.00
Diagramme en secteurs et diagramme en barres

I Un diagramme en secteur montre les relations entre les parties


et le tout d’une variable.
I C’un cercle divisé en sections ou tranches. Chaque tranche
représente un dénombrement ou un pourcentage des
observations d’un niveau de la variable.
I Un diagramme en barres montre les dénombrements de valeurs
pour les niveaux d’une variable catégorielle ou nominale.
Diagramme en secteurs (suite)

Divorcée
Celibataire

Marié
Veuf

Diagramme en secteurs des fréquences


Diagramme en barres (suite)
15

10

Modalite
Celibataire
Effectif

Divorcée
Marié
Veuf

Celibataire Divorcée Marié Veuf


Modalite
Variable qualitative nominale
Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées,
ce qu’on écrit

x1 < x2 < · · · < xj < · · · < xJ


La notation x1 < x2 se lit x1 précède x2 .
Si la variable est ordinale, on peut calculer les effectifs cumulés
j
Nj = j = 1, · · · , J
X
nk ,
k=1

On a N1 = n1 et NJ = n. On peut également calculer les fréquences


cumulées
j
Nj
Fj = = j = 1, · · · , J
X
fk ,
n k=1
Le tableau statistique (suite)

Exemple 5. On interroge 100 personnes sur leur dernier diplôme


obtenu (variable Y ). La codification a été faite selon le tableau
ci-dessous qui réprésente la série statistique

Dernier diplôme obtenu xj nj Nj fj Fj


Sans diplôme Sd 8 8 0.08 0.08
Primaire P 22 30 0.22 0.30
Secondaire Se 28 58 0.28 0.58
Supérieur non-universitaire Su 18 76 0.18 0.76
Universitaire U 24 100 0.24 1.00
Diagramme en secteur et diagramme en barre (suite)

100
25

80
Sd

20
P

60
Se

15

40
10

Su

20
5
0

0
P Sd Se Su U P Sd Se Su U

Diagramme en secteurs des fréquences Diagramme en barres des effectifs Diagramme en barres des effectifs cumulés
Variable quantitative discrète
Le tableau statistique
On parle de variable quantitative discrète lorsque le domaine est
dénombrable
Exemple 6. Une entreprise est composé de 40 personnes reparti
en 8 département et chaque département est subdivisé en 5 sections
et la variable Z représente le nombre de personnes par section . Les
valeurs de la variable sont

dép1 dép2 dép3 dép4 dép5 dép6 dép7 dép8


section1 1 1 1 2 2 2 2 2
section2 2 2 2 3 3 3 3 3
section3 3 3 3 3 3 4 3 4
section4 4 4 4 4 4 4 4 5
section5 5 5 5 6 6 7 8 8
Tableau statistique (suite)

Comme pour les variables qualitatives ordinales, on peut calculer les


effectifs, les effectifs cumulés, les fréquences, les fréquences
cumulées. Le tableau statistique peut seprésenter comme suit

xj nj Nj fj Fj
1 3 3 0.075 0.075
2 8 11 0.200 0.275
3 11 22 0.275 0.550
4 9 31 0.225 0.775
5 4 35 0.100 0.875
6 2 37 0.050 0.925
7 1 38 0.025 0.950
8 2 40 0.050 1.000
Diagramme en bâtonnets des effectifs et Fonction de
répartition
Quand la variable est discrète, les effectifs sont représentés par des
bâtonnets. La fonction de répartition est donnée par

x < x1 0;


F (x ) = Fj ; xj ≤ x < xj+1

1;

xJ ≤ x

1.0
10

0.8
8

0.6
Effectif

0.4
4

0.2
2

0.0
0

1 2 3 4 5 6 7 8 0 2 4 6 8

Diagramme en bâtonnets des effectifs pour une variable quantitative discrète Fonction de répartition d’une variable quantitative discrète
Variable quantitative continue

Le tableau statistique
I Une variable quantitative continue peut prendre une infinité de
valeurs possibles. Le domaine de la variable est alors R ou un
intervalle de R. En pratique, une mesure est limitée en
précision.
I On peut alors traiter les variables continues comme des
variables discrètes.
I Pour la représentations graphiques et la construction le tableau
statistique, on procède aux regroupements en classes.
I Le tableau regroupé en classe est souvent appelé distribution
groupée.
I cj− ; cj+ designe la classe j, on note, de manière générale
 
Variable quantitative continue (suite)
I cj− la borne inférieure de la classe j,
I cj+ la borne supérieure de la classe j,
c + +c −
I cj = j 2 j le centre de la classe j,et
I aj = cj+ − cj− l’amplitude de la classe j.
Critère de selection du nombre de classe et longueur de
l’intervalle
I Règle de Sturge : J = 1 + (3.3 × log(n))
1
I Règle de Yule : J = 2.5 × n 4
I longueur de l’intervalle = xmax −xJ
min

Remarque. Il faut arrondir le nombre de classe J à l’entier le plus


proche. Par commodité, on peut aussi arrondir la valeur obtenue de
l’intervalle de classe.
I A partir de la plus petite valeur observée, on obtient les bornes
de classes en additionnant successivement l’intervalle de classe
Variable quantitative continue (suite)
Exemple 7. On mesure la taille en centimetres de 50 étudiants du
college de paris lomé et on obtient les résultats suivant

IT IT IT IT IT
152 152 152 153 153
154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
Variable quantitative continue (suite)

On construit le tableau statistique comme suit

nj Nj fj Fj
(151,155] 10 10 0.20 0.20
(155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66
(163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00
Variable quantitative continue (suite)

Histogramme et densité
L’histogramme consiste à représenter les effectifs (resp. les
fréquences) des classes par des rectangles contigus dont la surface
(et non la hauteur) représente l’effectif (resp. la fréquence). Pour
un histogramme des effectifs, la hauteur du rectangle correspondant
à la classe j est donc donnée par :
nj
hj =
aj
I hj est appelé densité d’effectif.
I L’aire de l’histogramme est égale à l’effectif total n, puisque
l’aire de chaque rectangle est égale à l’effectif de la classe j :
aj × hj = nj .
Histogramme et densité (suite)

I Pour un histogramme des fréquences on a

fj
dj =
aj

I dj est appelé densité fréquences.


L’aire de l’histogramme est égale à l’effectif total 1, puisque l’aire de
chaque rectangle est égale ‘a l’effectif de la classe j : aj × dj = fj .
NB : On peut agréger deux classes en une seule pour construire
l’histogramme lorsque leur effectifs sont faibles
Histogramme (suite)
0.06

0.06
0.05

0.05
0.04

0.04
0.03

0.03
0.02

0.02
0.01

0.01
0.00

0.00

151.5 155.5 159.5 163.5 167.5 171.5 151.5 155.5 159.5 163.5 171.5

Histogramme des fréquences avec les deux dernières classes


Histogramme des fréquences agrégées
Variable quantitative continue (suite)
La fonction de répartition et densité
La fonction de répartition F (x ) est une fonction de R dans [0, 1],
qui est définie par



 0; x < c1−
fj −
; cj− ≤ x < cj+

F (x ) = Fj−1 + cj+ −cj−
x − cj

1;

x ≥ cJ+

0.06

1.0
0.8
0.04

0.6
0.4
0.02

0.2
0.00

0.0

151.5 155.5 159.5 163.5 167.5 171.5

Fonction de densité d’une distribution groupée Fonction de répartition d’une distribution groupée
Statistique descriptive univariée
Paramètres de position

Le mode
I Le mode est la valeur distincte correspondant à l’effectif le plus
élevé ; il est noté xM .
Considerons l’exemple ci-dessous,

xi ni fi
M: 15 0.30
C: 12 0.24
D: 11 0.22
V: 12 0.24
Total 50 1.00

Le mode est la modalité M et xM = 15


Mode (suite)

I Le mode peut être calculé pour tous les types de variable,


quantitative et qualitative.
I Le mode n’est pas nécessairement unique.
I Quand une variable continue est découpée en classes, on peut
définir une classe modale (classe correspondant à l’effectif le
plus élevé)
La moyenne
I définie uniquement que sur une variable quantitative.
I La moyenne (x̄ ) est la somme des valeurs observées divisée
par leur nombre.

n
x1 + · · · + xn 1X
x̄ = = xi
n n i=1

I Formule pour des valeurs distinctes et des effectifs

J
1X
x̄ = nj xj
n j=1

Exemple. Les nombres d’enfants de 6 familles sont les suivants 0,


1, 1, 2, 3, 5. La moyenne est

0+1+1+2+3+5
x̄ = =2
6
Moyenne (suite)
On peut aussi faire les calculs avec les valeurs distinctes et les
effectifs. On considère le tableau

xj nj
0 1
1 2
2 1
3 1
5 1

0×1+1×2+2×1+3×1+5×1
x̄ =
6
2+2+3+5
=
6
= 2
Moyenne géométrique

I Pour xi > 0, on appelle moyenne géométrique la quantité

n
Y 1/n
1/n
G= xi = x1 × x2 × · · · × xn
i=1
n
1X
 
G = exp ln(xi )
n i=1

I Cas pratique de la moyenne géométrique: calcul du taux


d’intèrêt.
Moyenne géométrique (suite)

Exercice. Supposons que les taux d’intèrêt pour 4 années


consécutives soient respectivement de 5, 10, 15, et 10%. Que
va-t-on obtenir après 4 ans si on place 100 francs
Après 4 ans on a : 100 × 1, 05 × 1, 1 × 1, 15 × 1, 1 = 146, 1075F
I Moyenne arithvmtique 1,05+1,1+1,15+1,1
4 = 1, 1
I Moyenne géométrique
 1/4
1, 05 × 1, 1 × 1, 15 × 1, 1 = 1, 099431377

I Le bon taux moyen est bien G et non x̄

100 × G 4 = 100 × 1, 0994313774 = = 146, 1075F


Moyenne harmonique

Pour xi > 0, on appelle moyenne harmonique la quantité

n
H = Pn 1
i=1 xi

Exercice.
Un cycliste parcourt 4 étapes de 100 km. Les vitesses respectives
pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h.
Quelle a été sa vitesse moyenne ?
I Temps écoulé après les 4 étapes est :
10h + 3h20 + 2h30 + 5h = 20h50 = 20, 8333h
I Vitesse moyen: 400
20,8333 = 19, 2 km/h
Moyenne harminque

I moyenne arithmétique des vitesses


x̄ = 10+30+40+20
4 = 25 km/h
I moyenne harmonique des vitesses
H = 1 + 1 +4 1 + 1 = 19, 2 km/h
10 30 40 20

I
H ≤ G ≤ x̄
Moyenne pondérée
Dans certains cas, on n’accorde pas le même poids à toutes les
observations. Par exemple, si on calcule la moyenne des notes pour
un programme d’étude, on peut pondérer les notes de l’étudiant par
le nombre de crédits ou par le nombre d’heures de chaque cours. Si
wi > 0, i = 1, · · · , n sont les poids associés à chaque observation,
alors la moyenne pondérée par wi est définie par :
Pn
wi xi
x̄w = Pi=1
n
i=1 wi
Exemple.

Note Crédits
12 6
14 3
8 4
16 3
5 4
Moyenne pondérée (suite)

I La moyenne pondérée des notes par les crédits est alors

12 × 6 + 14 × 3 + 8 × 4 + 16 × 3 + 5 × 4
x̄w =
6+3+4+3+4
72 + 42 + 32 + 48 + 20
=
20
= 10, 7
La médiane
La médiane, notée x1/2 ou Q0.5 , est une valeur centrale de la série
statistique obtenue de la manière suivante :
I On trie la série statistique par ordre croissant des valeurs
observées. Avec la série observée :
I la série observée :3 2 1 0 0 1 2,
I on obtient : 0 0 1 1 2 2 3,
I La médiane x1/2 est la valeur qui se trouve au milieu de la série
ordonnée.
I x1/2 = 1
I n est impair, il n’y a pas de problème
I n est pair deux valeurs se trouvent au milieu de la série
I La médiane x1/2 est la moyenne de ces deux valeurs
La médiane (suite)
## [1] 0 0 1 1 2 2 3
## [1] 0 0 1 1 2 2 3 4
1.00

1.00
0.75

0.75
0.50

0.50
0.25

0.25
0.00

0.00

−1 0 1 2 3 4 −1 0 1 2 3 4 5
La médiane (suite)

I la série ordonnée par ordre croissant x(1) , · · · , x(i) , · · · , x(n)


I n impair x1/2 = x n+1

2

1
 
I n pair x1/2 = x n + x 
2 2
n
2
+1

I Variable discrète
 : 
x1/2 = min xi | i ∈ {∈ 1, 2, · · · , n}, F (xi ) ≥ 1
2
 
I Variable continue : x1/2 = min x ∈ R | F (x ) = 1
2

I La médiane peut être calculée sur des variables quantitatives et


sur des variables qualitatives ordinales.
Quantiles
I Généralise la notion de médiane.
Pour 0 < r ≤ 1,
 
I n × r est un nombre entier : Qr = 1
2 x(n×r ) + x(n×r +1)

I n × r n’est pas un nombre entier : Qr = x(bn×r c+1) où bx c


réprésente la partie entiere de x .
 
I Variable discrète : Qr = min xi | F (xi ) ≥ r
 
I Variable continue : Qr = min x ∈ R | F (x ) = r

Exemple.
## [1] 12 13 15 16 18 19 22 24 25 27 28 34
## 25% 50% 75%
## 15 19 25
Paramètres de dispersion
Etendue
I différence entre la plus grande et la plus petite valeur observée

δe = x(n) − x(1)

Distance interquartile
I différence entre le troisième et le premier quartile

IQ = δq = x3/4 − x1/4 = Q0.75 − Q0.25

Variance
Définition.
Si X est discrète (respectivement continue), sa variance, notée
Var(X), est la moyenne des écarts quadratiques des valeurs
(respectivement des centres des classes) de X à sa moyenne :
Variance (suite)
I Varaince avec biais

n 2
1X

Var (X ) = xi − x̄
n i=1

J
1X
 
Var (X ) = nj x 2 − x̄ 2
n j=1 j

n
1X
 
Var (X ) = x 2 − x̄ 2
n i=1 i

I Variance sans biais

n 2
1 X

Var (X ) = xi − x̄
n − 1 i=1
Variance (suite)

I Variance est toujours positive


I s’annule si et seulement si toutes les observations effectuées
sont:
1. identiques si X est discrète ;
2. dans la même classe si X est continue.
Ecart-type
I L’écart-type de X , noté σX , est la racine carrée de la variance
q
σX = Var (X )
Ecart moyen absolu
Définition.
L’ écart moyen absolu est la somme des valeurs absolues des écarts
à la moyenne divisée par le nombre d’observations

n
1X
emoy = |xi − x̄ |
n i=1

Définition
L’ écart médian absolu est la somme des valeurs absolues des écarts
à la médiane divisée par le nombre d’observations :

n
1X
emed = |xi − x1/2 |
n i=1
Moments

I moment à l’origine d’ordre r ∈ N

n
1X
mr0 = xr
n i=1 i

I moment centré à l’origine d’ordre r ∈ N

n
1X r
mr = xi − x̄
n i=1

I
m10 = x̄ , m2 = Var (X )
Paramètres de forme

Coefficient d’asymétrie
Une distribution est parfaitement symétrique, si les valeurs qu’elle
prend sont également dispersées de part et d’autre de la moyenne.
Dans ce cas, son mode, sa moyenne et sa médiane sont confondues,
et son histogramme admet un axe de symétrie (symétrie par rapport
à la valeur de la moyenne)
I Coefficient d’asymétrie de Fisher (skewness)
m3
γ1 =
σX3
1. γ1 = 0 =⇒ distribution symétrique
2. γ1 < 0 =⇒ distribution allongée à gauche (les grandes
valeurs sont plus fréquentes que les petites)
3. γ1 > 0 =⇒ distribution allongée à droite (les petites valeurs
sont plus fréquentes que les grandes)
Coefficient d’asymétrie de Yule

Le coefficient d’asymétrie de Yule est basé sur les positions des 3


quartiles (1er quartile, médiane et troisi‘eme quartile), et est
normalisé par la distance interquartile

Q0.75 + Q0.25 − 2Q0.5


CAYule =
IQ

Coefficient d’asymétrie de Pearson


Le coefficient d’asymétrie de Pearson est basé sur une comparaison
de la moyenne et du mode, et est standardisé par l’écart-type
x̄ − xM
CAPearson =
σX
NB Les coefficient d’asymétrie de Yule et de Pearson possède les
mêmes propriétés que celui de Fisher
Coefficient d’aplatissement
I Le coefficient d’aplatissement de Pearson

m4
β2 =
σX4

I Le coefficient d’aplatissement de Fisher ou coefficient de Yule

γ2 = β2 − 3

I γ2 ≈ 0: la densité de la loi normale, ou courbe en cloche, est


mésokurtique
I γ2 > 2: histogramme est plus pointu et possède des queues
plus longues (leptokurtique)
I γ2 < 2: histogramme est plus arrondi et possède des queues
plus courtes (platykurtique)
Transformation dela base de donnée

Pour i = 1, 2, · · · , n on a
I changement d’origine : yi = a + xi
I changement d’unité : yi = b × xi
I changement d’origine et d’ ’unité : yi = a + b × xi
Remarque.
I Les paramètres de position sont tous affectés par un
changement d’origine et d’unité.
I Les paramètres de dispersion sont tous affectés par un
changement d’unité mais pas par un changement d’origine
I Les paramètres de forme et d’aplatissement ne sont affectés ni
par un changement d’unité ni par un changement d’origine.
Moyennes de deux groupes

Soit n observations soient réparties dans deux groupes GA et GB.


Les nA premières observations sont dans le groupe GA et les nB
dernières observations sont dans le groupe GB

nA + nB = n
PnA
I Moyenne du premier groupe : x̄A = 1
nA i=1 xi
PnB
I Moyenne du deuxième groupe : x̄B = 1
nB i=1 xi

I Moyenne générale : x̄ = 1
nA x̄A + nB x̄B
 
n
Variance de deux groupes

PnA 2
I Variance du premier groupe : Var (XA ) = 1
nA i=1 xi − x̄A
PnB 2
I Variancedu deuxième groupe :Var (XB ) = 1
nB i=1 xi − x̄B
2
I Variance totale : Var (X ) = 1 Pn
n i=1 xi − x̄
Théorème (de Huygens).
La variance totale se décompose de la manière suivante :

2 2
nA Var (XA ) + nB Var (XB ) nA x̄A − x̄ + nB x̄B − x̄
Var (X ) = +
n n

Démonstration : Exercice.
La boîte à moustaches

La boîte à moustaches ou encore boxplot en anglais, est un


diagramme simple qui permet de représenter la distribution d’une
variable. Ce diagramme est composé de :
I Un rectangle qui s’étend du premier au troisième quartile. Le
rectangle est divisé par une ligne correspondant à la médiane.
I Le rectangle est complété par deux segments de droites.
-Pour les dessiner, on calcule d’abord les bornes

b − = Q0.25 − 1, 5 × IQ et b + = Q0.75 + 1, 5 × IQ

I On identifie ensuite la plus petite et la plus grande observation


comprise entre ces bornes. Ces observations sont appelées
“valeurs adjacentes”.
La boîte à moustaches (suite)
I On trace les segments de droites reliant ces observations au
rectangle
I Les valeurs qui ne sont pas comprises entre les valeurs
adjacentes, sont représentées par des points et sont appelées
“valeurs extrêmes”

8
170

6
165

Effectif

4
160

2
155

0 155 160 165 170

boîte à moustaches Histogramme


Exercice.
Considérons l’exemple 7.
1. De quel type est cette variable
2. Calculez tous les paramètres (de position, de dispersion et de
forme) de cette série statistique.
Solution.
1. Variable continue
2.
valeur
moyenne 160.800000
médiane 160.000000
variance 34.040816
écart-type 5.834451
skewness 0.284740
kurtosis 1.941471
Statistique descriptive bivariée
Série statistique bivariée
Considérons une population P = {1; 2; · · · ; n} de taille sur laquelle
on étudie deux variables X et Y . Ces variables peuvent être soit
qualitatives, quantitatives discrètes ou continues.
Le but de cette section est d’étudier les relations entre X et Y , ce
qui revient, mathématiquement, à étudier les propriétés du couple
(X ; Y ). On définit dans ce chapitre essentiellement deux types de
quantités, celles dites :
I marginales qui ne dépendent que d’un seul critère mais pas des
deux ;
I conditionnelles qui renseignent sur un critère en fonction des
valeurs ou modalités de l’autre.
Défintion.
La série statistique double est une suite de n couples des valeurs
prises par les deux variables sur chaque individu:
(x1 , y1 ); (x2 , y2 ); · · · ; (xn , yn )
Deux variables quantitatives
Représentation graphique de deux variables
Dans ce cas, chaque couple est composé de deux valeurs
numériques. Un couple de nombres (entiers ou réels) peut toujours
être représenté comme un point dans un plan
Exemple

xi yi xi yi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
Nuage de points

Nuage de points
100
90
poids

80
70
60

155 160 165 170 175 180 185 190

taille
Analyse des variables
Les variables x et y peuvent être analysées séparément. On peut
calculer tous les paramètres dont les moyennes et les variances :

n n
1X 1X 2
x̄ = xi ; Var (X ) = xi − x̄
n i=1 n i=1

n n
1X 1X 2
ȳ = yj ; Var (Y ) = yj − ȳ
n j=1 n j=1

Ces paramètres sont appelés paramètres marginaux : variances


marginales, moyennes marginales.
Covariance
La covariance est définie
n
1X
σXY =
 
xi − x̄ yi − ȳ
n i=1
Covariance

Remarques
I La covariance peut prendre des valeurs positives, négatives ou
nulles.
I xi = yi ; ∀i = 1; · · · ; n =⇒ la covariance est égale à la variance.
Théorème
La covariance peut s’écrire comme suit:

n
1X
σxy = xi yi − x̄ ȳ
n i=1

Démonstration. Exercice.
Corrélation

I Le coefficient de corrélation est la covariance divisée par les


deux écart-types marginaux :

σxy
rxy =
σx σy

I Le coefficient de détermination est le carré du coefficient de


corrélation :

2
σxy
2
rxy =
σx2 σy2
Remarques

I Le coefficient de corrélation mesure la dépendance linéaire


entre deux variables.
I −1 ≤ rxy ≤ 1 et 0 ≤ rxy
2 ≤ 1.

I Si le coefficient de corrélation est positif, les points sont alignés


le long d’une droite croissante.
I Si le coefficient de corrélation est négatif, les points sont
alignés le long d’une droite décroissante.
I Si le coefficient de corrélation est nul ou proche de zéro, il n’y
a pas de dépendance linéaire. On peut cependant avoir une
d´ependance non-linéaire avec un coefficient de corrélation nul.
Droite de régression

I La droite de régression est la droite qui ajuste au mieux un


nuage de points au sens des moindres carrés.

yi = β0 + β1 × xi + i

I i est appelé résidu (c’est l’erreur que l’on commet en utilisant


la droite de régression pour prédire yi à partir de xi ).
I On détermine β0 et β1 en minisant l’erreur au sens des
moindres carrés.

n n
2
M(β0 , β1 ) = 2i =
X X
yi − β0 − β1 × xi
i=1 i=1
Exercice sur la régression linéarire
Considéront la base de donnée de l’exemple précédent.
1. Construire le nuage de points de x en fonction de y .
2. Déterminer les coefficients des droites de régression linéaire de
y en x et de x en y .
## (Intercept) taille
## -126.614215 1.180244
## (Intercept) poids
## 122.3492916 0.6526883
Courbe de régression poids en fonction de la taille Courbe de régression taille en fonction du poids
100

185
90

175
poids

taille
80

165
70

155
60

155 160 165 170 175 180 185 190 60 70 80 90 100

taille poids
Régression linéarire ou droite d’ajustement (suite)
Théorème
Les coefficients β0 et β1 qui minimisent le critère des moindres
carrés sont donnés par

σxy
β1 = ; β0 = ȳ − β1 x̄
σx2
Démonstaration. Exercice
Remarque
La droite de régression de y en x n’est pas la même que la droite de
régression de x en y
Résidus et valeurs ajustées
Les valeurs ajustées sont obtenues au moyen de la droite de
régression :

yi∗ = β0 + β1 xi
Résidus et valeurs ajustées (suite)
I La moyenne des valeurs ajustées est égale à la moyenne des
valeurs observées ȳ .
I Les résidus sont les différences entre les valeurs observées et les
valeurs ajustées de la variable dépendante.
i = yi∗ − yi

I La moyenne des résidus est nulle

n
1X
i = 0
n i=1

I Sommes de carrés totale : On appelle somme des carrés


totale la quantité

n
2
SCTOT =
X
yi − ȳ
i=1
Résidus et valeurs ajustées (suite)
I La variance marginale :
n
SCTOT 1X 2
σy2 = = yi − ȳ
n n i=1

I somme des carrés de la régression : On appelle somme des


carrés de la régression la quantité

n
2
SCREG = yi∗ − ȳ
X

i=1

I La variance de régression :
n
SCREG 1X 2
σy2∗ = = yi∗ − ȳ
n n i=1
Résidus et valeurs ajustées (suite)
I somme des carrés des résidus : On appelle somme des
carrés des résidus (ou résiduelle) la quantité

n
SCRES =
X
2i
i=1

I Variance résiduelle :

n
SCRER 1X
σ2 = = 2
n n i=1 i

Théorème.
SCTOT = SCREG + SCRES

Démonstration. Excercice
Décomposition de la variance
Théorème.
(i) La variance de régression peut également s’écrire

σy2∗ = σy2 × rxy


2

(ii) La variance résiduelle peut également s’écrire

σ2 = σy2 × (1 − rxy


2
)

(iii) La variance marginale est la somme de la variance de régression


et de la variance résiduelle,

σy2 = σy2∗ + σ2

Démonstration. Excercice
Deux variables qualitatives

Données observées
Si les deux variables x et y sont qualitatives, alors les données
observées sont une suite de couples de variables

(x1 , y1 ); (x2 , y2 ); · · · ; (xn , yn )


chacune des deux variables prend comme valeurs des modalités
qualitatives.
Les valeurs distinctes de x et y sont notées respectivement

x1 , · · · , xi , · · · , xI
et

y1 , · · · , yj , · · · , yJ
Tableau de contingence

Le tableau de contingence des effectifs du couple de variables


(X ; Y ) est un tableau dans lequel les valeurs/classes/modalités de
X sont en lignes, celles de Y en colonnes et, pour tout
i ∈ {1, 2, · · · , I} et j ∈ {1, 2 · · · , J}, l’effectif nij se situe à
l’intersection de la ligne i et de la colonne j. On On rajoute une
colonne à droite qui contient les effectifs marginaux des xi (obtenus
en faisant la somme des effectifs sur les colonnes) et et une ligne en
bas qui contient les effectifs marginaux des yj (obtenus en faisant la
somme des effectifs sur les lignes)
Tableau de contingence (suite)

y1 ... yj ... xJ Total


x1 n11 ... n1j ... n1J n1.
. . . . .
. . . . .
. . . . .
xi ni1 ... nij ... niJ ni.
. . . . .
. . . . .
. . . . .
xI nI1 ... nIj ... nIJ nI.
Total n.1 ... n.j ... n.J n

Tableau de contingence des effectifs.


Tableau de contingence des effectifs

nij = card{u ∈ P|X (u) = xi et Y (u) = yj }


I J
n.j = nij , pour j = 1, · · · , J ni. = nij ; et pour i = 1, · · · I
X X

i=1 j=1

I J I X
J
n= ni. = n.j =
X X X
nij
i=1 j=1 i=1 j=1

I Les ni. et n.j sont appelés les effectifs marginaux


I ni. représente le nombre de fois que la modalité xi apparaît
I n.j représente le nombre de fois que la modalité yj apparaît
I nij représente le nombre de fois que les modalités xi et yj
apparaissent ensemble.
Tableau de contingence des effectifs (suite)

Exemple
On s’intéresse à une éventuelle relation entre le sexe de 200
personnes et la couleur des yeux des habitants de Gauten.

Rouge Bleu Vert Total


Femme 50 20 10 80
Homme 60 40 20 120
Total 110 60 30 200

Tableau de contingence des effectifs.


Tableau des fréquence
I
I X
J
nij
fij = fij = 1
X
n i=1 j=1

I
I
ni.
fi. = fi. = 1
X
n i=1

I
J
n.j
f.j = f.j = 1
X
n j=1

On peut aussi faire le tableau de contingence des fréquences avec


les fréquences/fréquences marginales plutôt que les effectifs/effectifs
marginaux.
Tableau des fréquences (suite)

y1 ... yj ... xJ Total


x1 f11 ... f1j ... f1J f1.
. . . . .
. . . . .
. . . . .
xi fi1 ... fij ... fiJ fi.
. . . . .
. . . . .
. . . . .
xI fI1 ... fIj ... fIJ fI.
Total f.1 ... f.j ... f.J 1

Tableau de contingence des fréquences.


Tableau des fréquences (suite)

Exemple.
Consideront l’exemple précédent et déterminont le tableau de
contingence des fréquences.

Rouge Bleu Vert Total


Femme 0.25 0.1 0.05 0.4
Homme 0.30 0.2 0.10 0.6
Total 0.55 0.3 0.15 1.0

Tableau de contingence des fréquences.


Fréquence conditionnelle
La fréquence conditionnelle de xi sachant yj (respectivement yj
sachant xi ),notée fi|j (respectivement fj|i ), est la fréquence
d’occurrence de xi dans la colonne j (respectivement yj dans la ligne
i) du tableau de contingence :

nij nij
fi|j = et fj|i =
n.j ni.

I Pour tout j ∈ {1, 2, · · · , J} on a =1


PI
i=1 fi|j

I Pour tout i ∈ {1, 2, · · · , I} on a =1


PJ
j=1 fj|i

I Pour tout i, j on a fij = fi|j × f.j et fij = fj|i × fi.


I Le tableau des profils-colonne représente les distributions
conditionnelles de X | Y
I Le tableau des profils-ligne représente les distributions
conditionnelles de Y | X
Tableau de profile

Rouge Bleu Vert Total


Femme 0.455 0.333 0.333 0.4
Homme 0.545 0.667 0.667 0.6
Total 1.000 1.000 1.000 1.0

Tableau des profils colonnes.

Rouge Bleu Vert Total


Femme 0.625 0.250 0.125 1
Homme 0.500 0.333 0.167 1
Total 0.550 0.300 0.150 1

Tableau des profils lignes.


Indépendance

I Les variables X et Y sont dites indépendantes lorsque :

∀(i, j) ∈ {1, 2, · · · , I} × {1, 2, · · · , J}, fij = fi. × f.j

Proposition. oient deux variables X ; Y . Les assertions suivantes


sont équivalentes :
1. X et Y sont indépendantes
ni. ×n.j
2. ∀(i, j) ∈ {1, 2, · · · , I} × {1, 2, · · · , J}, nij = n

3. ∀(i, j) ∈ {1, 2, · · · , I} × {1, 2, · · · , J}, fi|j = fi.


4. ∀(i, j) ∈ {1, 2, · · · , I} × {1, 2, · · · , J}, fj|i = f.j
Écart à l’indépendance.
Étant donné les variables X et Y , on s’intéresse à savoir si elles
sont indépendantes ou non ; et à quantifier l’écart à l’indépendance.
Pour cela, on peut calculer la quantité suivante.
I Le chi-carré observé est
I X
J 2
fij − fi. × f.j
χ =n
X
2

i=1 j=1
fi. × f.j

I X
J 
ni. × nj. −1 ni. × nj.
  
χ =
X
2
nij −
i=1 j=1
n n

Propriété. Le χ2 est toujours positif ou nul et

χ2 = 0 ⇐⇒ les variables X et Y sont indépendantes.


Coefficient de Cramer
Il se trouve que le χ2 observé croît avec la taille de la population.
Pour cette raison, il est utile de le renormaliser de manière adéquate.
I Le coefficient V de Cramer du couple de variables (X ; Y ) est :

s
χ2
V =
n min I − 1, J − 1


I Le coefficient V de Cramer vérifie :

0≤V ≤1

I V = 0 si et seulement si les variables sont indépendantes.


I V de Cramer permet de mesurer l’écart à l’indépendance et sa
taille ne dépend pas de la taille de la population.
Exemple

On s’intéresse au lien éventuel entre le nombre d’heures


d’ensoleillement et la température du mois de novembre dans
plusieurs villes de l’Afrique du sud. Les résultats son contenus dans
le tableau ci-dessous
1. Calculer les moyennes x̄ et ȳ .
2. Calculer les variances et l’écarte type de X et Y .
3. Calculer la covaraince et le coefficient de corrélation.
4. Calculer le coefficient de détermination.
5. Déterminer la droite de regression lineaire de Y en X par la
methode des moindres carrés.
Exemple (suite)
## Warning: package 'LaplacesDemon' was built under R versi

Temp. en Nov. (X) Ens. en heures par an (Y )


Cape Town 22.2 2726
Johannesburg 20.8 1996
Pretoria 19.7 1898
Durban 16.6 1492
Bloemfontein 17.9 1617
Kimberley 21.3 2010
Polokwane 19.3 2121
Orania 23.1 2668
Soweto 20.0 1630
Virgina 19.5 1633
Midrand 21.6 2010
Nigel 27.5 2437
Alberton 25.0 2685
Exemple (courbe de régression)

4
2400

3
Ensoleillement

Frequency

2
2000

1
1600

0
18 20 22 24 26 16 18 20 22 24 26 28

Température Histogramme de la Température


3.0

05
2e− −0
5
6e 4e−05

2400
05 6e−05
4e−

Ensoleillement
2.0
Frequency

05
8e− 2e−05
0.00012

2000
1.0

0.00014
1600
0.0

1e−04

1400 1600 1800 2000 2200 2400 2600 2800 18 20 22 24 26

Histogramme de la Ensoleillement Temperature

## (Intercept) Température
## -438.1606 118.8309

Vous aimerez peut-être aussi