Vous êtes sur la page 1sur 34

Chapitre 2 Analyse Univariée

2.1 Le concept de distribution

L’analyse univariée a pour but de décrire et mesurer la répartition des valeurs que peut
prendre une variable.

On appelle la répartition des valeurs d’un variable sa distribution , que l’on peut
approximativement voir comme son «histogramme en continu».

Voilà une distribution d’une variable réelle (courbe noire), superposée à son histogramme :

Vous pouvez voir avec cet exemple, que la courbe suit les variations de hauteur des colonnes
de l’histogramme, tout en lissant les aspérités.

C’est de cette courbe que l’on parle lorsqu’on évoque la distribution de la variable. (Il serait
plus rigoureux de parler de courbe de densité de probabilité.)

Plus précisément, la distribution représente des probabilités (ou des


densités de probabilité), et non des effectifs. En toute rigueur , représenter
une courbe de distribution de probabilité par dessus un histogramme est
impropre : il faudrait deux axes des ordonnées: un pour l’histogramme,
représentant un effectif, l’autre pour la distribution , représentant une
probabilité (variable à valeurs discrète) ou une densité de probabilité
(variable à valeurs réelles)
Formellement, pour une population donnée, la distribution d’une variable
V peut être définie comme une fonction qui donne la probabilité qu’un
individu x pris au hasard dans la population ait la valeur Vx pour la
variable V :

distribution(V ) ≡ P (V = Vx ), ∀Vx ∈ ΩV

avec ΩV l’ensemble des valeurs que peut prendre V : l’univers de V .


Lorsque la variable prend des valeurs réelles, on parle de densité de
probabilité, c’est pourquoi on retrouve ce terme “density” sur les axes
des ordonnées dans les graphiques de distribution.

La forme d’une distribution donne beaucoup d’informations sur les valeurs d’une variable dans
une population :

valeurs les plus représentées dans la population : les “pics”


présence de valeurs extrêmes : la courbe de la distribution est tirées à gauche ou à droite
du graphique
caractéristiques de sa forme : symétrie, aplatissement etc…

Dans notre exemple de distribution de longueur de nageoires en millimètres, on observe deux


pics assez doux : l’un aux alentours de 190mm, l’autre de 215mm. On peut l’interpréter ainsi :
«la valeurs la plus représentée dans les longueurs de nageoires de cette population de
pingouins est de 190mm, suivie de 215mm»

2.1.1 Interpréter la courbe de densité

L’histogramme représente l’effectif de la population en fonction de classes de valeur d’une


variable, son interprétation est directe et aisée puisque ce graphique donne une
représentation du nombre d’individus par intervalles de valeurs.

La représentation d’une densité est légèrement plus délicate à comprendre


mathématiquement.
En première approximation , vous pouvez l’interpréter comme un
histogramme dont les barres seraient infiniment fines, et dont l’axe des y représenterait une
probabilité au lieu d’un effectif.

La densité de probabilité comme son nom l’indique, représente des probabilités: celles
d’obtenir, pour un individu dans la population, une certaine valeur de la variable.
Le point délicat est qu’une variable continue (i.e. définie sur un intervalle de R ), peut prendre
une infinité de valeurs possibles, et que la probabilité d’obtenir exactement, c’est à dire avec
une précision infinie, une valeur est infinitésimale, en fait carrément nulle.

Il faut alors considérer la probabilité d’obtenir une valeur, non pas de façon exacte , mais dans
un intervalle de valeur. Par exemple, dans le graphique ci-dessous, de s’interroger sur la
probabilité , pour un individu tiré au hasard dans la population , d’avoir une valeur de Variable
1 dans l’intervalle [25; 30] .

Cela pourrait s’écrire P (25 ≤ V1 ≤ 30) et serait égal à l’intégrale de la fonction de densité
notée fV 1 entre les bornes 25 et 30 de l’intervalle de V1 :

30

P (25 ≤ V1 ≤ 30) = ∫ fV (x)dx


1

25

En pratique , le graphique d’une densité s’interprète en observant la quantité d’aire sous la


courbe

L’aire totale sous la courbe vaut 1 (cela revient à considérer la somme de toutes les
probabilités d’avoir une valeur particulière X dans l’intervalle de valeur de V1 ) et par
approximation , la valeur de la probabilité d’obtenir une certaine valeur se lit comme la
proportion d’aire sous la courbe comprise entre deux bornes proche de la valeur.

## [1] 0.3126056

Par exemple ici , la valeur de P (25 ≤ V1 ≤ 30) ≈ 0.312


2.1.2 Bonus: Estimation la probabilité à partir de la
densité de probabilité

Attention, je ne donne pas ici la méthode d’approximation de la densité, uniquement la façon


de calculer une valeur de probabilité à partir d’une densité, avec R.

Le principe est assez simple : on approxime l’aire sous la courbe de densité par une somme
de Riemann à pas constant.

On note:

f la fonction dont on cherche à approcher l’aire sous la courbe. On suppose que c’est
une fonction continue et définie partout.
[a; b] le segment sur lequel on veut intégrer f

on découpe [a; b] en n “tranches” de taille égale, on notes les bornes de ces tranches xi ,
avec n0 = a, < x1 < ⋯ < xi < ⋯ < xn−1 < xn = b . Chaque tranche a une largeur,
qu’on note δ, on l’appelle le pas d’intégration . Il est constant.
dans chaque tranche [xi−1 ; xi ] , on considère une valeur ti , i ∈ {1, … , n} , pour laquelle
on connaîtf (ti ), la valeur de f en ce point.

S(f ) La somme de Riemann de la fonction f , qui approxime l’aire sous la courbe de la


fonction f est définie par:

S(f ) = ∑ (xi − xi−1 )f (ti )

i=1

qu’on peut reformuler ainsi : l’intégrale est approchée par la somme des aires des “tranches”
rectangulaire, de largeur δ = xi − xi−1 et de hauteur f (ti ) .

Notre pas d’intégration est constant , on peut le sortir de la somme , et simplement calculer la
somme des valeurs de densité dans le segment [a; b] !
la fonction  density()  de R retourne un objet avec plusieurs attributs :

l’attribut  x  du résultat est la coordonnées des points où la densité est estimée. par
défaut , il y a 512 points.
l’attribut  y , les valeurs des densités calculées en chaque point de  x 

On peut donc facilement approcher la probabilité d’avoir un individu dont la variable est
contenue entre deux valeurs.

1. On calcule la densité d’une variable , ici  hwy  du dataset  mpg 

data(mpg)

dens <- density(mpg$hwy)

2. On calcule le pas d’intégration δ, en calculant l’écart entre deux points successifs de


l’attribut  x  de la

## [1] 0.08375649

3. On calcule la somme des valeurs de densité entre deux bornes  b1  et  b2 

## 0.2562939

4. On peut normaliser par une constante d’intégration. Comme on approxime une probabilité
par des valeurs discrètes, on fait obligatoirement une erreur , car il faudrait que δ tende
b
vers 0 pour que (limite de) la somme de Riemann soit égale à l’intégrale ∫
a
f (t)dt .

On peut évaluer cette erreur en calculant la somme de Riemann sur toute l’étendue de la
variable.
Cette valeur s’approche de 1, sa valeur théorique qui serait la probabilité de la
variable calculée sur tout son univers.
## [1] 1.000938

On voit qu’on est assez proche de 1 !


On peut normaliser le calcul de la probabilité par cette
constante pour tenir compte de cette erreur.

## [1] 0.2560537

On pourrait vérifier que cette erreur est d’autant plus importante que le pas d’intégration est
important.

2.2 Exemples de distributions de lois connues

Parfois certaines distributions ressemblent à des distributions bien connues : on appelle ces
distributions des lois.

Ce sont des distributions de probabilités que l’on peut formaliser par une équation et dont les
statisticiens ont pu dériver des caractéristiques par le calcul.

2.2.1 Loi Gaussienne

La plus connue est la distribution Gaussienne, on dit aussi distribution normale du nom de
la loi de probabilité qu’elle suit : la loi normale.

Cette loi a deux paramètres :

μ la moyenne, i.e. la valeur moyenne qu’auront les valeurs tirées de cette distribution
σ l’écart type, qui représente leur écartement par rapport à cette moyenne

Nous reviendrons plus loin sur ces deux caractéristiques

Voici la distribution d’une population dont la variable V1 suit une loi normale de moyenne 0 et
d’écart-type 1, qu’on note N (0, 1)

xx <- data.frame(value=rnorm(8000))

plot1 <- ggplot(xx)+

geom_density(aes(x = value), color="#aaaaaa", fill="#44DD99" )+

theme_light()+

labs(title = "Loi Normale", x="Valeur de la variable V1 ", y="densité")

plot1
Voici un histogramme de la même population

plot1 <- ggplot(xx)+

geom_histogram(aes(x = value),bins = 50, color="#aaaaaa", fill="#44DD99" )+

theme_light()+

labs(title = "Loi Normale", x="Valeur de la variable V1", y="Effectif")

plot1

2.2.2 Loi uniforme

Comme son nom l’indique, la loi uniforme vaut partout la même valeur entre deux bornes a et
b , autrement dit , la probabilité d’obtenir une certaine valeur v ∈ [a; b] est constante.
La forme de sa distribution est théoriquement une fonction en créneau, qui vaut 1 partout sur
[a; b] mais en pratique quand on échantillonne (i.e. génère) des valeurs suivant cette loi,
même un grand nombre de fois comme ici, la distribution, qui devrait être plate, est courbée
aux extrémités. Cela est dû à la façon dont R estime la densité numériquement, biaisée aux
extrémités de l’intervalle

2.2.3 Loi log-normale

La loi log-normale est comme son nom l’indique, le résultat d’un logarithme appliqué à une
variable suivant une loi normale.
Notez comme la distribution est «tirée vers la droite». On
parle de «queue de distribution».

Cette longue queue (“fat tail” in english) indique une grande inégalité dans la population:
quelques individus, peu nombreux mais aux valeurs de variable très élevées, et une vaste
majorité d’individus dont la valeur de la variable est faible qui constitue le pic de la distribution.

Cette loi modélise par exemple l’effet d’un «grand nombre de petits facteurs considérés
comme indépendants».

Wikipedia nous apprend qu’elle modélise des phénomènes réels tels que la répartition de
97% des salaires du monde, celle de la la longueur et le poids de spécimen d’animaux, la
durée des parties d’échecs, etc.
2.3 Histogramme d’une distribution réelle

Les distribution de données empiriques ont rarement des formes aussi régulière et identifiable
que celles des lois. Voici par exemple l’histogramme de la hauteur des arbres à Paris, selon
les données disponibles sur [https://opendata.paris.fr/]

Cet histogramme n’est pas très informatif en l’état : si on le lit naïvement, il semblerait que
tous les arbres aient une valeur nulle ou quasi-nulle pour leur hauteur en mètres et la
circonférences de leur tronc en centimètres.

Pourquoi ?

Parce que le logiciel qui trace l’histogramme (R) fait du mieux qu’il peut pour tracer les
colonnes de l’histogramme correspondant aux valeurs :

il ne doit pas en oublier,

la hauteur des colonnes doit correspondre à l’effectif (le nombre) d’individus (ici des
arbres) par valeur de la variable
l’échelle de l’axes x doit «faire tenir» l’étendue des valeurs (xmax − xmin ),sur une
quantité de pixels limitée.

Ce qui se produit ici est que certains individus ont des hauteurs ou des circonférences
renseignées à des valeurs totalement irréalistes, comme nous l’indique les bornes du dernier
décile (i.e. les 10% des valeurs les plus élevées ) :

## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

## 0 0 4 5 6 8 10 11 15 16 881818

10% des arbres ont une hauteur comprise entre 12 et 881818 mètres: il y a donc quelques
arbres, au moins un, dont la hauteur est clairement defectueuse, on peut supposer qu’il s’agit
d’une erreur de saisie ou d’ encodage des données (les plus hauts arbres font autour de
120m). On constate aussi qu’au moins 10% des données ont une hauteur nulle.

En affichant l’histogramme de cette variable, R a donc du afficher une colonne aux alentours
de la valeur 881818, dont la hauteur est vraisemblablement très faible (1 ou 2 individus), en
tout cas si faible qu’on ne la distingue pas : son épaisseur est dans le trait de l’axe des x

Nous allons donc filtrer les données, pour ne conserver que les arbres dont la hauteur est
comprise entre 1 et 60 mètres, ce qui me semble correct comme intervalle pour des hauteurs
d’arbres parisiens, mais qui pourrait être discuté. De même , on écarte les arbres dont le tronc
excède 2500 cm :

On voit ici comme la représentation graphique des variables nous renseigne à deux niveaux :
elle nous indique la présence de valeurs aberrantes lors de son affichage “brut,” et une fois
filtrée, elle nous montre comment la population varie dans les valeurs de ses variables.

2.4 Afficher histogrammes et distributions en R

2.4.1 Histogramme d’une variable quantitative

la fonction  hist  affiche un histogramme d’un vecteur numerique:

x <- rnorm(2500) #init

hist(x)
Supposons que nous ayons un fichier au format CSV , voici comment le transformer en
dataframe et en tirer un histogramme :

mydata <- read.csv("data/pop_communes.csv")

names(mydata) # pour connaître le nom des colonnes du tableau

## [1] "X" "Code.INSEE" "Commune"

## [4] "Population.totale" "Département" "Région"

## [7] "Densité.d.habitants..hab.km2."

hist(mydata$Population.totale,breaks = 30) # je choisis d'afficher 30 colonnes

Voici comment obtenir un histogramme avec le package  ggplot2 

plt1 <- ggplot(mydata, aes(x=Population.totale))+

geom_histogram(bins=30, fill="darkcyan", color="grey")+ # exemple de spécification de couleur

theme_light()

plt1
2.4.2 Histogramme et variable qualitative

un histogramme n’a pas de sens pour une variable qualitative.

On peut utiliser  barplot ,⚠ mais ce n’est plus une distribution !

x <- sample(month.name, 2500, replace=T) # month.name est la liste des noms de mois.

tx <- table(x) #table de comptage

barplot(tx , las=2)

Nous allons maintenant voir comment décrire la forme de la répartition de ces valeurs avec
des mesures statistiques. La première d’entre elles est la tendance

2.5 La Tendance
Les distributions de variables dans les données du monde réel sont rarement constantes ou
uniformes. Elles exhibent ce qu’on appelle une tendance, c’est-à-dire une valeur autour de
laquelle se retrouvent la majorité des individus.

Si la forme de la distribution est suffisamment régulière, cette tendance peut servir de résumé
statistique de la variable de la population.

Les indicateurs de tendance centrale de la distribution d’une variable sont la


moyenne et ses
variantes, la médiane et le mode.

2.5.1 Moyenne(s)

La moyenne d’une variable x , notée x̄ , s’écrit :

n
1
x̄ = ∑ xi
n
i=0

2.5.1.1 Moyenne pondérée

Lorsque des poids pi sont affectés aux individus, la moyenne pondérée s’écrit :

n
1
x̄ = ∑ p i xi
n
∑ pi
i=0 i=0

2.5.1.2 Avantages et inconvénients de la moyenne

Avantage : chaque valeur compte dans le calcul.

Inconvénients :

sensibilité aux valeurs extrêmes


pas de signification directe sur les variables quantitatives discrètes (e.g. «2.5
enfants/femme» )

Pour y remédier :

exclure les outliers, ou restreindre les valeurs considérées par filtrage


utiliser un autre estimateur, par exemple la médiane
étudier la distribution des valeurs et en cas de multi-modalités, opérer une classification

2.5.1.3 Autres Moyennes


La moyenne géométrique est définie ainsi

 n

x̄geom = 
n ∏ xi

i=0

Elle a l’avantage d’être moins sensible à la présence de valeurs extrêmes que la moyenne
algébrique.

La moyenne quadratique (par fois appelée RMS pour Root Mean Square in english) est
définie ainsi:

Elle s’écrit :

 n

1
2
x̄quad =  ∑ x
i
⎷ n
i=0

Moyenne glissante

Ce n’est pas une moyenne comme les autres, au sens où elle ne résume pas
toute une série de valeurs

Dans le cas de séries temporelles (i.e. valeurs successives de la même


variable), la moyenne glissante est calculée sur une «fenêtre» de n valeurs
consécutives.
La fenêtre est centrée sur l’instant auquel on calcule la valeur
de la moyenne.

Par exemple, pour une moyenne glissante sur une fenêtre de taille 10, la
valeur en chaque points xi à la position i dans la série temporelle (on
suppose que i > 5 ) vaut la moyenne des de xi et des 10 valeurs
environnantes, 5 en avant , 5 en arrière :

j=i+5
1
x̄ = ∑ xj
11
j=i−5

2.5.2 Mode

Le mode d’une variable est la valeur la plus fréquente ( d’effectif maximum) d’une variable.
Si la variable est quantitative et continue, il faut découper l’étendue de la variable (la
différence entre la valeur maximum et minimum) en intervalle égaux , puis réaliser une
classification des individus dans ces intervalles et un comptage des effectifs de chaque
classe.
Dans ce cas, le mode est la moyenne des valeurs min et max des bornes de la classe
de plus grand effectif.

C’est exactement ce que fait un histogramme graphiquement !

Par définition le mode est unique, mais on peut appeler modes les valeurs
des autres pics d’une distribution
On parle de distribution bi-modale ou tri-
modale lorsqu’une distribution présente deux ou trois pics.
Les valeurs
modales d’une distribution sont les valeurs correspondant à) ces pics.
Voici
l’histogramme d’une variable dont la distribution est trimodale:

2.5.2.1 Avantages et inconvénients du mode

Avantages :

Peu sensible aux valeurs extrêmes (moins sensible que la moyenne)


il s’interprète facilement : c’est la situation la plus fréquente dans la population

Inconvénients :

le mode ne dépends pas de toutes les observations : la modification d’une seule valeur
n’entraîne pas une modification du mode. Cet inconvénient explique sa robustesse aux
valeurs extrêmes
2.5.3 Médiane

La médiane est la valeur qui partage une série de valeurs en deux sous-ensembles d’égal
effectif

Comme en géométrie, la médiane est la valeur de la variable qui est la plus proche de toutes
les autres.

2.5.3.1 Étapes de calcul

Déterminer la médiane d’un ensemble de valeurs est très simple :

1. Ordonner les n valeurs de V selon un ordre croissant


n+1
2. Calculer le rang rg =
2

3. si n impair, la valeur médiane est V [rg] . Si n est pair, la valeur médiane est entre deux
valeurs et est égale à la moyenne de V[
n

2
] et V[
n

2
− 1]

Dans cet algo , on suppose qu’on compte les cellules d’un tableau à partir de 0, comme en python. En R, où on

compte les cellules à partir de 1 , il faudrait ajouter 1 à tous les indices.

2.5.3.2 Avantages et inconvénients de la médiane

Avantages :

Souvent plus pertinente que la moyenne


Peu sensible aux valeurs extrêmes: quelques valeurs très fortes ou très faibles ne modifie
pas sa valeur
elle s’interprète facilement : comme elle divise en deux la distribution, un individu sur
deux a une valeur inférieure (respectivement supérieure) à la médiane.

Inconvénient :

Comme le mode, la médiane ne dépend pas de toutes les observations : la modification d’une
seule valeur n’entraine pas une modification de la médiane.

Notons que la robustesse de la médiane est bien utile dans le cas de distribution
particulièrement asymétriques, où la moyenne est dégradée par les valeurs extrêmes, à droite
(valeurs très élevées) ou à gauche (valeurs très faibles).

2.5.3.3 Moyenne, médiane et forme de la distribution


L’écart entre la moyenne et la médiane est un bonne indicateur de l’asymétrie d’une
distribution , d’autant plus importante que l’écart entre moyenne et médiane est important.

Prenons un exemple avec les revenus mensuels en équivalent temps plein en France en 2016
: le revenu mensuel net moyen est de 2 238 €, le revenu mensuel net médian est de 1 789 € :
selon l’[https://www.insee.fr/fr/statistiques/4277680?sommaire=4318291]

Supposons qu’on cherche à évaluer si un salaire mensuel net équivalent temps plein de
2000€ est un bon salaire en France, sans définir trop rigoureusement ce qui signifie «bon».

2000€ est inférieur à la moyenne du pays, on peut le considérer comme trop bas pour
être «bon».
2000€ est supérieur au salaire médian, il est supérieur à (au moins) la moitié des salaires
du pays, et on peut logiquement le considérer comme un «bon» salaire.

Cette double interprétation est due au fait que certains salaires très élevés, mais d’effectifs
peu nombreux, tirent la distribution du salaire vers la droite, et avec eux, la moyenne.

2.5.4 Quelle mesure de tendance choisir ?

Tout dépend de la distribution !

(cette réponse est malheureusement quasiment universelle, d’où l’importance de toujours


représenter visuellement les variables pour décider en connaissance de cause )

De manière générale , quand les distributions ne sont pas trop «biscornues» (déformées,
asymétriques), la médiane est un bon choix par défaut.

Également, observer l’écart numérique entre médiane et moyenne peut être une bonne
heuristique pour évaluer rapidement l’asymétrie d’une distribution.

Pour les variables quantitatives :

Si la distribution n’a pas de longue queue (on dit aussi traîne) , la moyenne et la médiane
sont adaptées.

Si la distribution exhibe plusieurs modes , il faut réaliser une classification puis calculer
médiane et moyenne pour chaque classe.

Pour les variables qualitatives :

Le mode est privilégié pour les variables nominales c’est-à-dire des variables
qualitatives dont les modalités ne sont pas ordonnées, et si on désire considérer «le cas
le plus fréquent».

2.5.4.1 Exemple idéal: Distribution unimodale symétrique

xx <- data.frame(value=rnorm(9000,mean = 5, sd = 1))

plot1 <- ggplot(xx)+

geom_line(aes(x = value),stat = "density", color="#44DD99", lwd= 1.3)+

geom_vline(xintercept = mean(xx$value), color="red")+

geom_vline(xintercept = median(xx$value) + 0.02,color="blue")+

annotate("text", x=c(4.5,5.5), y=c(0.2,0.2), colour=c("red","blue"),label=c("mean", "median"))+

theme_light()

plot1

Dans ce cas tout se passe bien : la distribution ne présente qu’un seul pic, et est symétrique :
médiane et moyenne sont confondues, ce sont deux bons résumés de la tendance de cette
variable, et on peut choisir l’une ou l’autre.

2.5.4.2 Exemple d’un cas délicat : distribution bimodale

Parfois une variable peut être bimodale, c’est-à-dire lorsque la population est regroupée
autour de deux tendances, dans deux intervalles de valeurs majoritaires.
Voici un exemple:
Que choisir dans un tel cas : moyenne ou médiane ?

… Ni l’une ni l’autre , on voit qu’elles sont peu informatives. Il faudrait dans ce cas établir un
seuil et raisonner sur les deux sous-populations.

2.6 La Dispersion

La dispersion désigne la façon dont les valeurs des variables des individus d’une population
s’écartent de leur tendance.

Elle est décrite par la variance, l’ écart-type, et le coefficient de variation (varmean).

Voici un exemple de distributions suivant des lois normales de moyenne 0 et dont la


dispersion varie.

Dans cet exemple, on voit que les distributions dont l’écart-type est important ont beaucoup
d’individus éloignées de leur moyenne (qui vaut 0).
Cet autre exemple montre un nuage de points formées par deux variables, échantillonnées
selon une loi normale N (0, 1) , de moyenne 0 , et d’écart type 1 (nous allons voir dans un
instant ce que signifie l’écart-type)

mydataset <- data.frame(X=rnorm(900), Y=rnorm(900))

plot1 <- ggplot(mydataset)+

geom_point(aes(x=X, y=Y), fill="#44DD99", color="#666666", shape=21)+

coord_equal()+theme_light()

plot1

Dans ce dernier exemple, la dispersion quantifie à quel point les individus s’écartent de la
tendance centrale de X et de celle de Y , ici le point (0,0).

2.6.1 Variance et Écart-type

La variance et l’écart-type rendent compte de la dispersion de la variable autour de sa


moyenne. On peut les interpréter comme une «quantité moyenne d’écart» entre les valeurs
des individus et la valeur moyenne.

Mathématiquement, la variance est définie comme la somme des écarts carrés à la


moyenne rapporté à l’effectif

n
1
2
var(X) = ∑ (xi − x̄)
n
i=1

Avec :

X une variable
xi les valeurs de la variables pour les individus de la population
x̄ la moyenne de X

n l’effectif de la population

L’écart-type (standard deviation in english) est la racine carrée de la variance:


σX = √var(X)

Conséquences de ces définitions :

si var(X) = 0 ou σX = 0 , alors X est constante (et vaut sa moyenne évidemment)


Ces deux mesures sensibles aux valeurs extrêmes et toujours positives.
Un écart-type ou un variance faible indique que les valeurs sont réparties de façon
homogène autour de la moyenne.
Du fait de la racine carrée, l’écart-type permet d’exprimer la dispersion dans les mêmes
unités que celles des données, ce que ne permet pas la variance.

2.6.1.1 Variance et écart type avec R

Les fonctions pour calculer la variance et l’écart-type d’une variable sont  var  et  sd  :

xx <- iris$Sepal.Width

var(xx)

## [1] 0.1899794

sd(xx)

## [1] 0.4358663

2.6.1.2 Si la distribution est proche de la Gaussienne

⚠ Variance et écart type n’ont d’intérêt que pour qualifier des distributions unimodales, et (à
peu près) symétriques , c’est-à-dire d’une allure proche de la distributions Gaussienne.

Si c’est le cas , alors la valeur de l’écart-type nous rend bien des services , puisque qu’il nous
donne la largeur de la tranche autour de la moyenne qui prend un certaine proportion de la
population, en rouge et bleu dans l’image ci-dessous:
2
L’intervalle [−σ; σ] contient environ 3
de l’effectif

L’intervalle [−2σ; 2σ] contient environ 95% de l’effectif

Cette façon de «couper» la population en tranches d’une certaine «épaisseur» (i.e. part de la


population) est à la base de la mesure suivante : les quantiles

2.6.2 Quantiles

Nous avons vu que la médiane d’une variable sépare une population en deux classes d’égal
effectif selon la valeur de cette variable (quantitative).

Les quantiles séparent une population en n classes d’égal effectif.

En pratique, toutes les valeurs de n ∈ N ne sont pas utilisées. Les cas les plus courants sont
:

n = 4 : les quartiles, qui contiennent 25% de la population


n = 10 : les déciles, qui en contiennent 10%
plus rarement n = 100 : les centiles qui en contiennent 1%

2.6.2.1 Quartiles

Les quartiles d’une variable X sont trois valeurs, Q1 , Q2 , Q3 qui séparent la population en
quatre classes d’égal effectif selon leur valeur de la variable :

25% des valeurs de X sont strictement inférieures à Q1

50% des valeurs de X sont strictement inférieures à Q2 (médiane)


75% des valeurs de X sont strictement inférieures à Q3
2.6.2.2 Déciles

Les déciles sont les 9 quantiles Q1 , Q2 , … , Q9 qui séparent une population selon la valeur
d’une variable quantitative en 10 classes d’égal effectif.

2.6.2.3 Écarts inter-quartiles et inter-déciles

Les quantiles permettent de mesurer la dispersion d’une distribution :

l’Écart inter-quartile: Q3 − Q1 , nous donne l’étendue de 50% des valeurs de la population


les plus proches de la médiane,

l’Écart inter-déciile: Q9 − Q1 , nous donne l’étendue de 80% des valeurs de la population


les plus proches de la médiane

2.6.2.4 Avantages et inconvénient des quantiles

Avantages :

les quantiles sont peu sensibles aux distributions aplaties et aux valeurs extrêmes,
(puisque seuls les quantiles des extrémités de l’étendue de la variable sont concernés, et
ne perturbent pas les autres)

L’écart inter-quantile est plus robuste que l’écart-type aux valeurs extrêmes (pour cette
même raison: les valeurs extrêmes de la variables ne sont pas prises en compte dans
son calcul)

Inconvénients :

leur calcul peut s’avérer délicat pour les variables quantitatives discrètes
les écarts inter-quantiles négligent l’influence des valeurs extrêmes sur la distribution,
entraînant un risque de “passer à côté” d’individus ou évènements critiques.
Les écarts inter-quantiles sont partiaux : l’écart inter-quartile néglige 50% de la population
!

2.6.3 Les boîtes à moustaches (boxplots) avec R

Les boxplots , ou boîtes à moustaches sont la représentation courante de la dispersion d’une


variable à l’aide de quartiles.
Voici comment obtenir un boxplot avec R . On prend pour cet exemple le dataset  iris ,
toujours disponible dans une session R.

boxplot(iris$Sepal.Width ~ iris$Species)

L’interprétation des formes des boîtes est la suivante:

La marque centrale de la boîte est la médiane


Les bords de la boîte sont les quartiles Q1 et Q3

Les extrémités des moustaches vont jusqu’à la plus grande (resp. la plus petite ) valeur
inférieure (resp. supérieure) à 1.5 fois l’écart interquartile
Les valeurs qui dépassent les moustaches sont affichées sous formes de points

Voici un exemple de boxplots obtenus avec le package  ggplot2 

plot1 <- ggplot(iris)+

geom_boxplot(aes(y=Sepal.Width,x= Species) ) + coord_flip()

plot1
On peut voir un boxplot comme un résumé de distribution “vue du dessus,” comme dans
l’exemple ci-dessous où sont alignés (à quelques pixels près) un histogramme et un boxplot
de la même variable:

2.6.4 Le coefficient de variation

Le coefficient de variation (CV ) est une autre mesure de dispersion.

C’est le ratio entre l’écart-type σx et la moyenne x̄ d’une variable quantitative X .

σx
CV (X) =

Plus il est important , plus la dispersion est grande.


Plus il est proche de 0, plus les données
sont homogènes.
Il souffre des mêmes inconvénients que la moyenne et l’écart-type : il est sensible aux valeurs
extrêmes.

Comme l’écart type est une sorte de “quantité d’écart à la moyenne,” il est parfois difficile
d’interpréter directement sa valeur numérique, qui dépend des unités de la variables. Ici
pour le CV le fait de diviser par la moyenne normalise en quelque sorte cette mesure et
permet d’avoir une mesure un peu plus absolue de la dispersion de la variable, quelle
que soit son unité et son intervalle de valeurs.

Cela permet par exemple de comparer la dispersion de variables quantitatives entre elles
!

2.6.5 Comparer les dispersions de deux distributions.

Interpréter la dispersion d’une seule variable est un exercice un peu vain: tenter de décider si
la dispersion des valeurs d’une variable d’une population autour de sa moyenne est «notable»
n’a pas beaucoup de sens si nous n’avons pas une valeur de référence qui nous permette de
qualifier la dispersion calculée par comparaison.
Or, il n’existe pas de telle valeur de
référence. Nous ne pouvons pas donner de règle générale de la forme «si l’écart type
σtutu > 5 , vous avez un problème !»

En revanche il est beaucoup plus aisé et pertinent de comparer la dispersion d’une variable
avec celle d’une autre.

Prenons un exemple :

Deux communes, A et B, versent des aides aux associations locales.

moyenne écart-type

Commune A 390€ σA = 30

Commune B 152€ σB = 8

Pour quelle commune les aides sont les plus homogènes?

Le calcul du coefficient de variation nous donne la réponse :


σA
CVA = = 0.07692
x¯A

σB
CVB = = 0.052631
x¯B

La commune A dispense des aides moins homogènes que la commune B.


Ce n’est pas le cas dans cet exemple, mais on pourrait tout aussi bien comparer des
distribution de variables qui n’ont rien à voir, exprimées dans des unités différentes.

2.6.5.1 Comparaison visuelle de deux distributions

Si nous avions des données réelles, nous aurions pu (et même dû, puisque c’est la première
chose à faire) répondre également par comparaison visuelle des distributions de la variable.

Pour avoir des données à tracer, j’ai échantillonné 1000 individus (c’est beaucoup pour un
nombre d’association, mais ça permet d’avoir des distributions graphiquement plus lisses)
selon des lois normales aux caractéristiques (moyenne et écart type) des communes.

Voici ce que donne une visualisation des deux distributions:

A <- rnorm(n = 1000, mean = 390, sd = 30)

B <- rnorm(n = 1000, mean = 152, sd = 8)

par(mfrow=c(1, 2)) #2 graphes en colonnes

hist(A, probability = T)

lines(density(A), col="red")

hist(B, probability = T)

lines(density(B), col="red")

C’est paradoxal : les distributions ont la même allure, alors que leur coefficient de variations
sont différents. Pourquoi?

Parce que pour comparer visuellement la dispersion de deux variables, il faut une échelle
commune , pour que les écarts en x et en y soit comparables.

Cette remarque est valable que les deux distributions soient représentées sur des graphiques
juxtaposés ou non.
Recommencçons l’affichage en fixant l’échelle pour les deux distributions:

A <- rnorm(n = 1000, mean = 390, sd = 30)

B <- rnorm(n = 1000, mean = 152, sd = 8)

par(mfrow=c(1, 2))

hist(A, probability = T, xlim = c(50,600), ylim = c(0,0.05))

lines(density(A), col="red")

hist(B, probability = T,xlim = c(50,600), ylim = c(0,0.05))

lines(density(B), col="red")

On retrouve alors que la distribution de la commune B est beaucoup plus piquée que la
distribution de la commune A : les valeurs sont resserrées autour de la moyenne et s’en
écartent peu, en tout cas beaucoup moins que dans la distribution de la commune A.
Les
aides de la commune B sont donc plus homogènes.

2.7 La Forme

La forme d’une distribution est décrite par deux caractéristiques : sa symétrie (ou son
asymétrie) et son applatissement.

2.7.1 Asymétrie

L’asymétrie d’une distribution est positive si les valeurs les plus fréquentes (i.e. celles du pic)
sont à gauche et la queue de distribution (due à quelques valeurs très élevées
surreprésentées) est à droite .

L’asymétrie est négative si les valeurs les plus fréquentes (i.e. celles du pic) sont à droite et
la queue de distribution (due à des valeurs très faibles surreprésentées) est à gauche
2.7.1.1 les Coefficients d’asymétrie de Pearson

Il existe deux mesures simples pour estimer l’asymétrie (skewness in english) d’une
distribution d’une variable :

x̄ − mode(X)
C1 =
σx

et sa version “normalisée”

3(x̄ − mediane(X))
C2 =
σx

L’interprétation de ces coefficients est directe

si le coefficient est nul, la distribution est symétrique


si le coefficient est négatif, la distribution est déformée à gauche de la médiane (sur-
représentation de valeurs faibles, à gauche)
si le coefficient est positif, la distribution est déformée à droite de la médiane (sur-
représentation de valeurs fortes, à droite)

2.7.1.2 Le coefficient d’asymétrie de Fischer

Ce coefficient est défini comme le moment d’ordre 3 de la variable X centrée réduite:


3 n 3
X − μ ∑ (xi − μ)
′ i=0
skewness = E[( ) ] =
3
σ nσ
avec X une variable de moyenne μ et d’écart-type σ.

Au passage :

Centrer une variable, c’est lui soustraire sa moyenne.


Réduire une variable, c’est la diviser par son écart-type.
Vous connaissez déjà un «moment» , le moment d’ordre 2 : c’est la variance .

2.7.1.3 Calculer le coefficient d’asymétrie avec R

Nous utilisons la fonction  skewness()  du package  moments  et

library(moments)

skewness(iris$Sepal.Length)

## [1] 0.3117531

2.7.2 L’Aplatissement (kurtosis)

L’ aplatissement d’une distribution , aussi appelée kurtosis quantifie la déviation de la forme


de la distribution par rapport à une distribution normale.

une courbe de distribution piquée indique peu de variations dans les valeurs, une distribution
relativement homogène, avec beaucoup de valeurs égales ou proches de la moyenne.

La courbe aplatie suggère des variations importantes, une distribution relativement


hétérogène, avec beaucoup de valeurs éloignées de la moyenne.

2.7.2.1 Coefficient d’aplatissement (ou kurtosis)


le kurtosis d’une variable s’écrit :
n 4
∑ (xi − x̄)
i=1
K =
4

Si la distribution est normale , K = 3

Si K > 3 , la distribution est plus applatie

Si K < 3 , la distribution est moins applatie

On normalise parfois en considérant K



= K − 3 (qui mesure donc l’excès d’applatissement)

Au passage :

on reconnait le moment statistiques d’ordre 4 dans l’équation de la kurtosis


il s’agit de la version de Pearson
cette mesure ne doit pas être confondue avec la dispersion. En pratique elle traduit plutôt
l’existence d’outliers qui “étirent” la courbe de la distribution au delà d’un ou deux écarts-
types , à droite et à gauche de la moyenne.

2.7.2.2 Exemple de distribution à écart-type faible, mais à kurtosis


important

Il est tout à fait normal d’amalgamer dispersion et kurtosis en première approximation,


puisqu’une distribution symétrique à fort écart-type sera plus aplatie qu’une distribution à
symétrique à faible écart-type.

Il existe néanmoins des distributions à kurtosis élevé, sans pour autant que leur variance (ou
écart-type ) le soit. Par exemple ,la distribution de Laplace :
2.7.2.3 Calculer le kurtosis avec R

Nous utilisons la fonction  kurtosis()  du package  moments  et

library(moments)

kurtosis(iris$Sepal.Length)

## [1] 2.426432

2.7.3 Transformations des données

les distributions dont les formes sont particulièrement irrégulières sont délicates à
appréhender (et représenter). Parfois, il est possible d’améliorer les choses en utilisant des
transformations mathématiques.

x ↦ log(x) pour une distribution asymétrique à droite ou x ↦ √x si moins asymétrique


(le logarithme «aplatit» les pics dus aux choses exponentielles)

x ↦ x
2
pour une distribution asymétrique à gauche ou x ↦ x
3
si très asymétrique .
(Élever des choses au carré amplifie les petites valeurs))

Il faut toujours vérifier l’allure de la distribution transformée !

Une autre transformation courante est de centrer et réduire des variables.


Centrer une
variable signifie lui soustraire sa moyenne.
Réduire une variable signifie la diviser par son
écart-type.

Une variable centrée réduite est alors exprimée en «écarts-types à la moyenne»

Cela permet de repérer les valeurs extrêmes (< 2σ ou > 2σ ) , du moins si la distribution
n’est pas trop irrégulière.
C’est utile pour comparer des individus selon un grand nombre de variables
Cela permet aussi de comparer des variables définies sur des intervalles de valeurs très
différentes

2.7.4 Fat-tail distributions : un exemple

Les distributions très asymétriques et très étendues sont délicates à résumer.

Les indicateurs traditionnels sont plus efficaces lorsque la variabilité des valeurs est moindre,
et leur distribution plus symétrique.
e.g. Considérer la population moyenne des villes de France a-t’elle du sens ?

2.7.4.1 Distribution rang-taille des villes de france

Pour mieux voir la distribution et les écarts, on trace la taille des villes en fonction de leur
rang

Lorsqu’on rencontre des distributions aussi piquée, on peut chercher à appliquer une
transformation monotone, bijective et inversible qui “aplatisse” la distribution.

Cette transformation a pour objectif de

réduire les écarts entre les valeurs


resserrer la visualisation sur l’essentiel des valeurs

Cela aura aussi pour conséquence de mesurer façon plus robuste la tendance, dispersion et
forme de la distribution (puisqu’elle sera moins éparpillée)
Ici, on choisit le logarithme décimal, qu’on va appliquer sur les ordonnées du graphique grâce
à la fonction  scale_y_log10() 

Cette transformation fait apparaître une régularité “linéaire” qu’il sera facile d’ajuster par une
régression linéaire.

Cette représentation (dire “rang-taille”) et l’ajustement d’un modèle géométrique entre


rang et taille, est très utilisée en géographie, et beaucoup de propriétés du système de
villes (plus de détails à ce sujet : [https://www.hypergeo.eu/spip.php?article657]) dont on
trace ainsi le profil s’y retrouvent : “âge” du système, déviation de certaines villes par
rapport à la droite de la loi, longueur de la traîne formée par les petites villes,
hiérarchisation du système, macrocéphalie etc…

Vous aimerez peut-être aussi