Vous êtes sur la page 1sur 28

NOTES DE COURS DE STATISTIQUE

Dr. Hammadi Achour

Institut Sylvo-Pastoral de Tabarka


hammadi.achour@gmail.com

October 8, 2019

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 1 / 28


Table des matières
1 Généralités sur la statistique
Terminologie de base
Typologie des variables
2 Présentation des données
Tableau statistique, effectifs et fréquences
3 Statistique descriptive univariée
Indicateurs de position
Indicateurs de dispersion
Représentations graphiques
Indicateurs de forme
4 Transformation de données
Normalisation
5 Statistique bivariée
Étudier la liaison entre deux variables quantitatives

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 2 / 28


Définitions

La statistique est une méthode scientifique qui consiste à réunir


des données chiffrées sur un sujet précis, puis à analyser, à
commenter et à critiquer ces données.
Les ensembles étudiés sont appelés population. Les éléments de
la population sont appelés individus. La population est étudiée
selon un ou plusieurs caractères.
Le caractère (ou variable) désigne une grandeur ou un attribut,
observable sur un individu et susceptible de varier prenant ainsi
différents états appelés modalités.
On appelle modalité toute valeur: xi ∈ X(P ) telle que:
x(P ) = {x1 , x2 , x3 , ..., xi , ..., xk } avec k nombre de modalités
différentes de x.
Le nombre d’individus qui constituent la population étudié
s’appelle la taille. On désignera par N la taille de la population
et par n la taille de l’échantillon.
Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 3 / 28
Définitions

Une série statistique correspond aux différentes modalités d’un


caractère sur un échantillon d’individus appartenant à une
population donnée.
Les variables statistiques peuvent être regroupées en deux
grandes catégories: variables quantitatives et variables
qualitatives.
Variable qualitative nomminale: lorsque les modalités
représentent des qualités.
Variable qualitative ordonnée: lorsque les modalités ne sont pas
des quantités numériques mais peuvent être ordonnées.
Variable quantitative discrète: si l’ensemble des valeurs
possibles est fini ou infini mais dénombrable. Ainsi, l’ensemble des
modalités peut être donné sous la forme d’une liste de nombres,
M = {x1 ; x2 ; ...; xi ; ...}, finie ou infinie.
Variable quantitative continue: si l’ensemble des modalités est
un intervalle de nombres réels.

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 4 / 28


Vocabulaire statistique

Pour étudier une variable statistique continue, on définit des


classes ou intervalles de valeurs possibles. Les classes retenues
constituent les modalités de la variable. On appelle amplitude
de la classe [ai ; bi [ le réel noté Ai représentant la longueur de
l’intervalle et défini par: Ai = bi –ai ; ai et bi sont respectivement
les bornes inférieure et supérieure de la classe ni .
Le centre de classe [ai ; bi [ est le réel noté xi représentant le
milieu de l’intervalle et donné par : xi = (ai + bi )/2 ; c’est la
moyenne arithmétique des bornes de la classe.
Exemple.1
Hauteur (m) Fi (%) La première classe se note [0; 5[, la
moins de 5 12 deuxième [5; 8[ etc.
5-8 33
Le centre de la première classe est :
8 - 11 42
x1 = (a1 + b1 )/2 = (0 + 5)/2 = 2.5.
11 ou + 13
Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 5 / 28
Présentation des données

Les données statistiques sont issues de données brutes présentées


sous forme de tableaux statistiques dans lequels sont indiqués
les effectifs et/ou les fréquences.
On appelle effectif de la modalité xi , le nombre ni où ni est le
nombre d’individu ω tel que: X(ω) = xi .
On appelle fréquence de la modalité xi , le nombre fi tel que:
fi = ni /n.

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 6 / 28


Indicateurs de position
Les indicateurs de position (ou de tendance centrale) permettent de
savoir autour de quelles valeurs se situent les valeurs d’une variable
statistique.
Le Mode: Le mode (Mo) d’une série statistique est la valeur du
caractère la plus fréquente ou dominante dans l’échantillon.
La moyenne arithmétique: Soit un échantillon de n valeurs
observées x1, x2, . . . .,xi,. . . .,xn d’un caractère quantitatif X, on
définit sa moyenne observée x comme la moyenne arithmétique des
n valeurs:
i=n
1X
x̄ = xi
n
i=1
La moyenne pondérée: Si les données observées xi sont regroupées
en k classes d’effectif ni, il faut les pondérer par les effectifs
correspondants:
i=k
1X
x̄ = ni xi
n
i=1
Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 7 / 28
Indicateurs de position

La moyenne géométrique: de n valeurs positives xi est la racine


nième du produit de ces valeurs. Notée Ḡ, elle s’écrit:

Ḡ = n x1 × x2 × ..... × xn

= v
u n
uY
n
t xi
i=1

La médiance: étant donnée une variable ordinale ou quantitative


discrète sur une population Ω de taille N, on appelle médiane (Me)
la donnée dont le rang est situé immédiatement après N2 dans la
liste des données écrites par ordre croissant.
Si x̄ = M e = M o alors la variable étudiée suit une loi
normale de Laplace Gauss

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 8 / 28


Indicateurs de position

Les quartiles
Le premier quartile (Q1) d’une série la plus petite valeur Q1 des
termes de la série pour laquelle au moins un quart (25%) des
données sont inférieures ou égales à Q1.
Le deuxième quartile (Q2) est égal à la médiane.
Le troisième quartile (Q3) d’une série la plus petite valeur Q3 des
termes de la série pour laquelle au moins trois quarts (75%) des
données sont inférieures ou égales à Q3.
L’intervalle interquartile (IQ) est [Q1; Q3].
Expemple: Considérons la série ordonnée à 12 termes suivante:

11 12 13 15 16 16 17 17 18 19 20 22

- Un quart (25%) des données correspond à: 12 × 0.25 = 3. Q1 est


donc la valeur du 3ème terme de la série c-à-d 13.
- Trois quart (75%) des données correspondent à : 12 × 0.75 = 9. Q3
est donc la valeur du 3ème terme de la série c-à-d 18.
Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 9 / 28
Indicateurs de position

Les déciles
Le premier décile (D1) d’une série la plus petite valeur D1 des
termes de la série pour laquelle au moins un dixième (10%) des
données sont inférieures ou égales à D1.
Le neuvième décile (D9) d’une série la plus petite valeur D9 des
termes de la série pour laquelle au moins neuf dixièmes (90%) des
données sont inférieures ou égales à D9.
Expemple:Considérons la série ordonnée à 11 termes suivante:

150 165 170 180 185 200 210 230 250 265 270

- Un dixième (10%) des données correspond à: 11 × 0.1 = 1.1. D1 est


donc la valeur du 2 terme de la série sont inférieurs ou égales à D1. Le
premier décile est donc la valeur du 2ème terme de la série c-à-d 1650.
- Neuf dixièmes (90%) des données correspondent à: 11 × 0.9 = 9.9. Le
neuvième décile est donc la valeur du 10 ème terme c’est-à-dire 2650.
Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 10 / 28
Indicateurs de dispersion
Les indicateurs de dispersion donnent des informations sur la
répartition des valeurs autour de la valeur centrale de référence.
La variance notée s2x est un paramètre de dispersion relatif:
i=n
1X 2
s2x = xi − x̄2
n
i=1
Dans le cas de données regroupées en k classes d’effectif ni , la
formule de la variance est donnée par:
i=k
1X
s2x = ni x2i − x̄2
n
i=1
Si on veut calculer une variance d’une variable X à partir d’un
échantillon sélectionné au hasard de taille n, on utilise la variance
corrigée:
i=k
2 1 X
Sx = ni x2i − x̄2
n−1
i=1
Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 11 / 28
Indicateurs de dispersion

L’écart-type noté sx est un paramètre de dispersion relatif. Il


est égal à la racine carrée de la variance:
p
sx = s2x

Si on veut calculer l’écart-type d’une variable X à partir d’un


échantillon de taille n, on utilise la variance corrigée pour définir
l’écart type: p
Sx = Sx2
La variance est toujours un nombre positif. Sa dimension est le
carré de celle de la variable. Il est toutefois difficile d’utiliser la
variance comme mesure de dispersion car le recours au carré conduit
à un changement d’unités. Elle n’a donc pas de sens biologique
direct contrairement à l’écart-type qui s’exprime dans les mêmes
unités que la moyenne.

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 12 / 28


Indicateurs de dispersion

Le coefficient de variation noté CV est un indice de dispersion


relatif et est égal à:
sx
CV (%) = × 100

L’étendue (E) est la différence entre la plus grande et la plus
petite valeur observée:

E = xmax − xmin

La distance interquartile est la différence entre le troisième et le


premier quartile:
IQ = x3/4 − x1/4

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 13 / 28


Boı̂te à moustaches
La boı̂te à moustaches (boxplot, en anglais) est une représentation
graphique qui résume quelques caractéristiques de position du
caractère étudié (médiane, quartiles, minimum, maximum ou
déciles). Ce diagramme est utilisé principalement pour comparer
un même caractère dans deux populations de tailles différentes.

L’écart interquartile (haut et bas


de la boı̂te);
La médiane (trait dans la boı̂te);
Plus grande et plus petite valeurs
observées à moins de 1.5 écart
interquartile du 1er et du 3ème
quartile (moustaches);
Valeurs encore plus extrêmes
(cercles).

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 14 / 28


Boı̂te à moustaches
Expemple: Considérons la série ordonnée des gélinottes huppées.

Le premier quartile vaut 155


mm
La médiane vaut 158.5 mm
Le troisième quartile vaut 163
L’écart interquartile vaut: 8
mm
La moustache inférieure (1er
décile):
155–(1.5 × 8) = 143mm
La moustache supérieure (9
ème décile):
163 + (1.5 × 8) = 175mm
Seule la valeur 140 mm
dépasse la moustache
Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 15 / 28
Indicateurs de forme

Le Coefficient d’asymétrie de Fisher (skewness) est donné par la


formule suivante:
m3
aF = 3
sx
avec:
i=n
1X 3
m3 = ( xi ) − x̄3
n
i=1

s3x est le cube de l’écart-type.


Coefficient d’asymétrie de Yule est basé sur les positions des 3
quartiles (1er quartile, médiane et 3 ème quartile), et est normalisé
par la distance interquartile:
x3/4 + x1/4 − 2 × x1/2
aY =
x3/4 − x1/4

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 16 / 28


Indicateurs de forme
Coefficient d’asymétrie de Pearson est basé sur une comparaison
de la moyenne et du mode, et est standardisé par l’écart-type:
x̄ − mode
aP =
sx
Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls
si la distribution est symétrique, négatifs si la distribution est allongée
à gauche (asymétrie à gauche), et positifs si la distribution est allongée
à droite (asymétrie droite).

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 17 / 28


Indicateurs de forme
Le Coefficient d’aplatissement (kurtosis) est donné par la formule
suivante:
m4
β2 = 4 − 3
sx
i=n
1X 4
m4 = ( xi ) − x̄4
n
i=1

β2 = 0 → distribution normale
(mesocurtique).
β2 inférieure 0 → la
distribution aplatie
(platicurtique).
β2 supérieure 0 → distribution
pointue (leptocurtique).

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 18 / 28


Standardisation

La comparaison de plusieurs caractères quantitatifs ou bien celle de


caractères quantitatifs et qualitatifs, n’est généralement pas possible à
partir du tableau élémentaire car les caractères à comparer peuvent
avoir :
Des unités de mesure différentes;
Des ordres de grandeur différents (valeurs centrales);
Des dispersions différentes (paramètres de dispersion);
La standardisation est la transformation la plus efficace quand on veut
comparer deux variables quantitatives. Elle consiste à opérer une
double transformation de centrage et de réduction. Cette opération
consiste à enlever la moyenne à chaque variable puis la diviser par
l’écart-type.
xi − x̄
y=
sx

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 19 / 28


Série statistique -1

Exercice n-1
Exercice n-2
Exercice n-3

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 20 / 28


Étudier la liaison entre deux variables quantitatives

Soient x et y deux grandeurs statistiques quantitatives observées. On


souhaite :
Déterminer s’il existe une relation entre x et y.
Caractériser la forme de la liaison (la relation) entre x et y
(positive ou négative, linéaire ou non linéaire, monotone ou non
monotone).
Quantifier l’intensité de la liaison.
Tester si la liaison est statistiquement signicative.
Valider la liaison identifiée. Est-ce qu’elle n’est pas le fruit d’un
simple artefact ou le produit d’autres informations sous-jacentes
dans les données ?

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 21 / 28


Analyse graphique

Le graphique nuage de points est l’outil privilégié. On place en abscisse


la variable x, en ordonnée la variable y. Chaque observation est
positionnée dans le repère ainsi constitué. L’intérêt est multiple:
Etudier la forme globale des points.
Voir s’il existe une forme de liaison ou de régularité.
Détecter visuellement les points qui s’écartent des autres (les
observations atypiques).
Vérifier s’il n’y a pas de regroupement suspects, laissant entendre
qu’il y a une troisième variable qui infuence le positionnement des
individus.

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 22 / 28


Analyse graphique

1. LLP x et y évoluent dans le


même sens.
2. LLN. x et y évoluent en sens
inverse. La pente est inchangée
quelle que soit la valeur de x.
3. LMPNL. x et y évoluent dans
le même sens, mais la pente est
différente selon le niveau de x.
4. LNLNM. Il y a une relation
fonctionnelle (de type
sinusoı̈dale ici) entre x et y.
5. AL. La valeur de x ne donne
aucune indication sur la valeur
de y, et inversement.
Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 23 / 28
La covariance

L’objectif de la covariance est de mettre en évidence le sens de la


liaison entre deux variables. Elle est définie par:
i=n
1X
Cov(x, y) = xi yi − x̄ȳ
n
i=1

La covariance prend sa valeur dans l’intervalle ] + ∞, −∞[


Covariance positive: variables varient de la même manière
Covariance nulle: variables varient de manière indépendante.
Covariance négative: variables varient de manière opposée.
La covariance reflète la dispersion des points; celle-ci dépend de
l’échelle des mesures. Il faudra donc trouver une autre mesure
qui nous renseignera sur l’intensité de la relation: le coefficient de
corrélation répond à ces spécifications

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 24 / 28


Le coefficient de corrélation de Pearson (r)

Le coefficient de corrélation linéaire simple (Pearson), est une


normalisation de la covariance par le produit des écarts-type des
variables. Il constitue une mesure de l’intensité de liaison linéaire
entre deux variables.

Cov(x, y)
rxy =
sx × sy

Le coefficient de corrélation prend sa valeur dans l’intervalle réelle


−1 ≤ r ≤ +1
Corrélation proche de 1. Très forte corrélation: quand une variable
augmente, l’autre augmente également.
Corrélaltion proche de 0. Pas de corrélation. Le comportement des
variables est indépendant.
Corrélation proche de -1 : Corrélation négative: quand une variable
augmente, l’autre diminue (et vice-versa).

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 25 / 28


Le coefficient de corrélation de Spearman (ρ)
Le coefficient de corrélation linéaire r de Pearson, n’est pas approprié
surtout dans les deux circonstances suivantes: (1) Si la distribution
de l’échantillon ne suit pas une loi normale (2) Si le nombre des
observations est faible (n ≤ 50). Le coefficient de corrélation de
Spearman (ρ) permet de contourner ces deux limites.

On classe les n mesures de xi et de yi par ordre croissant. On


attribue le rang 1 à la petite valuer et le rang n à la plus grande.
S’il y a des ex-aequo, on calcule les rangs moyens.
Le coefficient de spearman est donné par la formule suivante:

6 i=n 0 0 2
P
i=1 (xi − yi )
ρx,y = 1 −
n(n2 − 1)

Ce coefficient varie entre -1 et +1. Son interprétation est la même


que celui de Pearson.

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 26 / 28


Exemple

Calculer les coefficients de corrélation de Pearson (r) et de Spearman


(ρ) des variables (x, y).
x i yi x0i yi0 x0i − yi0 (x0i − yi0 )2
31 50 1.5 1 0.5 0.25 n = 10
31 55 1.5 3 -1.5 2.25 1 Pi=n
10 i=1 xi yi = 2648.1
32 52 3 2 1 1
x̄ȳ = 34 × 76 = 2584
33 56 4.5 4 0.5 0.25
33 63 4.5 5 -0.5 0.25 cov(x, y) = 64.1
34 65 6 6 0 0 sx = 2.4 sy = 32
35 69 7 7 0 0 64.1
r(x, y) = 2.4×32 = 0.83
36 90 8 8 0 0 P 0 0 2
(xi − yi ) = 4
37 110 9 9 0 0
ρ(x, y) = 1 − [(6 ∗
38 150 10 10 0 0
P 4)/10(102 − 1)] = 0.98
- - - - 4

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 27 / 28


Comparaison de moyennes: le test t de Student

Le  t de Studenta  est un test qui permet de mesurer la signi-


ficativité statistique des différences entre deux moyennes issues de
deux groupes d’échantillon. Deux hypothèses sont ainsi envisage-
ables: une hypothèse nulle signifie qu’il n’y a pas de différence entre
les moyennes calculées : H0 : µ1 = µ2 et une hypothèse alternative
qui indique une différence significative: H0 : µ1 6= µ2 c’est-à-dire
µ1 < µ2 ou µ1 > µ2 .
Pour vérifier les hypothèses qui précèdent, on peut utiliser le critère
de test suivant:
X̄1 − X̄2
t =q
s2 ( n11 + n12 )
avec:
a
inventé par William Sealy Gosset

Dr. Hammadi Achour (ISPT) STATISTIQUE October 8, 2019 28 / 28

Vous aimerez peut-être aussi