Vous êtes sur la page 1sur 12

1

Cours Statistiques
L1SA
(2016-2017)
2

1. Introduction

Fisher R.A. écrivit : « l’objet de la méthode statistique est la réduction des données. Une masse de données
doit être remplacée par un petit nombre de quantités représentant correctement cette masse, et contenant
autant que possible la totalité de l’information pertinente contenue dans les données d’origine ».

Il s’agit donc de :
o méthodes de réduction des données, partie de la statistique descriptive (ou exploratoire) qui
consistent à essayer de résumer un échantillon de données via des graphiques ou des caractéristiques
numériques.
o l’étude de la variabilité à l’expliquer. Elle fait partie de la théorie de l’échantillonnage.
o Et aussi, l’étude des populations, partie de la statistique inférentielle, qui prend un échantillon et en
tire des conclusions pour toute la population.

Ainsi, on aura les définitions suivantes


 La statistique est la science qui procède à l'étude méthodique à partir de modélisations
mathématiques, des modes d'utilisation et de traitement de données, ie.1, de l'information, dans le but
de conduire et d'étayer une réflexion ou de prendre une décision en situation concrète soumise aux
aléas de l'incertain.
 La statistique descriptive étudie ces modes d'utilisation et de traitement de données, à un premier
niveau, dans le but de produire essentiellement des descriptions des informations.
 La statistique inférentielle les étudie à un second niveau dans le but d'étendre ces informations
décrites à un domaine de validité non exploré directement, avec un contrôle des risques encourus
dans ce raisonnement inductif.

2. Vocabulaire

Il est important de définir clairement quelques termes importants :


2.1. Population (population)
Il s’agit d’un ensemble de sujets (objets ou éléments) qui ont au-moins une propriété en commun. Par
exemple, la population d’étudiants de l’INATAA.
2.2. Echantillon (sample)
C’est un ensemble d'individus prélevés dans une population déterminée. Il représente un sous-ensemble de la
population. Cet échantillon doit être le plus représentatif possible de la population étudiée. Par exemple, les
étudiants de 1e année licence Sciences Alimentaires.
2.3. Unité statistique (statistic unit)
L’unité statistique est l’élément de la population sur lequel on travaille. Par exemple, si on s’intéresse aux
étudiants de l’INATAA, l’unité sera l’étudiant.
2.4. Variable/caractère (variable/caracter)
C’est une grandeur caractéristique à laquelle on s’intéresse. Si on s’intéresse à :
o une seule variable, on parle de statistique univariée ;
o deux variables, on parle de statistique bivariée ;
o plusieurs variables, on parle de statistique multivariée.

Il existe deux catégories de variables : qualitatives, quantitatives.

2.4.1. Variables qualitatives


Elles expriment une qualité ; ce sont des données catégorisées (aussi nominales). Les valeurs prisent par la
variable sont des modalités (x = m1, m2, m3, ..., mq), se traduisant par des noms. Par exemple, le groupe
sanguin est réparti en 4 modalités : A, B, O et AB.

1
ie. est l'abréviation de "id est" : c'est-à-dire.
Parmi les variables qualitatives, il y a les variables ordinales dans lesquelles il y a un ordre dans les3
modalités (m1 < m2 < ... < mp). Par exemple, les classes de pH d’une solution est une variable qualitative
ordinale : acide < légèrement acide < neutre < légèrement basique < basique. Cependant, ce type de
variables pourrait être traité mathématiquement car, en-dessous, il peut y avoir une variable quantitative
continue (valeurs du pH qui varie de 0 à 14).

2.4.2. Les variables quantitatives


Elles expriment une quantité : x = 0, 1, 2, 3, ..., n. Elles sont donc mesurables, numériques. On les classe en
variables quantitatives discrètes et continues.
La variable discrète peut être représentée par un nombre fini de valeurs. Par exemple, le nombre d’enfants
par famille. Ces valeurs peuvent être traitées mathématiquement.
La variable continue peut prendre toutes les valeurs possibles dans un intervalle donné [a,b]. Par exemple,
l’âge, le poids, la taille, l’hauteur, la concentration, etc.

Variable

Qualitative Qualitative

Nominale Ordinale Discrète Continue

 Couleur  Taille  Nombre  Age


 Type de culture vestimentaire d’étudiants par  Taille
 Profession  Préférences groupe  Poids
 Sexe  Type de pH  Nombre de pièces  Concentration
 Département … par habitation …
… …

Figure 01 : types de variables.

NB :
 Il existe des variables quantitatives continues qu’on catégorise pour en faire des variables qualitatives. Par
exemple, l’âge : 0-20, 20-40, 40-60, +60 ans (sachons que l’âge est une variable quantitative continue).
 Un chiffre peut être associé à une modalité, généralement pour en faciliter l’encodage, mais il faut faire attention
qu’on ne peut pas les traiter mathématiquement.
 Le nombre de classes ne doit être ni inférieur à 5, ni supérieur à 20 (en général entre 6 à 12). Ce choix est
fonction du nombre d'observations et de leur dispersion. Par la suite, Il faut choisir l'amplitude des classes
(généralement égales).
 Les variables binaires peuvent être de deux types : soit une variable qualitative qui ne prend que deux modalités,
par exemple le sexe (M/F), l’anomalie génétique (O/N), soit une variable quantitative discrète ne prenant que
deux valeurs, par exemple (0/1).

3. La statistique descriptive

L’objectif de la statistique descriptive est de résumer des données. Au départ, on a l’échantillon et une
variable X supposée quantitative. On désigne par n l’effectif de l’échantillon (sample size). L’effectif est le
nombre d’objets, de sujets, de personnes, ... dans l’échantillon. On représente l’échantillon des données dans
un tableau brut des données de la manière suivante : {x1, x2, x3, ..., xn}
Pour résumer l’échantillon, la statistique descriptive dispose de deux moyens : l’approche graphique et
l’approche numérique.

3.1. L’approche graphique

3.1.1. Cas d’une variable discrète


Soit l’échantillon de données suivant : {x1, x2, x3, ..., xn}. Si on le tri, on obtient un échantillon ordonné : {x(1)4,
x(2), x(3), ..., x(n)}. Les chiffres en indice entre parenthèses indiquent le rang de l’observation, ie., la position de
la valeur dans l’échantillon s’il est trié par ordre croissant. Il y a, ainsi, trois types de tableaux :
o le 1er tableau, tableau brut, qui ne contient que les données telles que récoltées ;

Tableau 1 : Nombre d’enfants par famille (caractère X)


pour un échantillon de 100 familles
00001111111222222233
33333333333333333333
33333333333333344444
44444444444555555555
55556666666667779999

2. le 2e tableau, tableau ordonné, qui contient les données triées par ordre croissant ;

Tableau 2 : Tableau recensé du nombre d’enfants par famille


pour un échantillon de 100 familles
Répétitions
Nbre
(nombre de Fréquences Fréq. Cumulées
enfants/famille
familles)
0 4 0,04 0,04
1 7 0,07 0,11
2 7 0,07 0,18
3 37 0,37 0,55
4 16 0,16 0,71
5 13 0,13 0,84
6 9 0,09 0,93
7 3 0,03 0,96
8 0 0,00 0,96
9 4 0,04 1,00
Total 100 100

3. le 3e tableau, tableau recensé, (x1,x2,x3,...,xn).

On peut dériver
o Le 1er graphique : le diagramme de bâtons (bar diagram) où on représente les fréquences (fi, en
ordonnées) en fonction du nombre d’enfants par famille (Xi, en abscisse). Sur le graphique 1, on
remarque qu’il s’agit d’une distribution unimodale.
40
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7 8 9
Figure 02 : Diagramme de bâtons (densité du nombre d’enfants par famille

o Le 2d graphique : le diagramme cumulatif (diagramme des fréquences cumulées), on remarque que la


courbe monte en escalier.
5

Figure 03 : Diagramme des fréquences cumulées

NB :
 les données manquantes (missing values) doivent quand même être encodées. On choisi pour cela un signe ou une
valeur particulière.
 les données censurées (censored values) sont des valeurs qu’on n’a pas pu obtenir ou observer mais dont on a une
borne (inférieure ou supérieure). Il faut trouver un moyen pour les encoder.
 La fréquence cumulée sert notamment à répondre à des questions comme “quelle est la proportion de famille
possédant moins de 3 enfants ?”. Elle existe toujours et on peut toujours la calculer.

3.1.2. Cas d’une variable continue


Il est plus facile de montrer l’approche graphique de la variable continue par un exemple. Dans le tableau
brut des données de l’âge (en années) des patients entrant à l’hôpital (variable X).

Tableau 03 : Age à l’admission à l’hôpital (variable X)


pour un échantillon de 100 patients
10 22 24 42 37 77 89 85 28 63 9 10 7 51 2 1 52 7 48 54
32 29 2 15 46 48 39 6 72 14 36 69 40 61 12 21 54 53 58 32
27 33 1 25 22 6 81 11 56 5 63 53 88 48 52 87 71 51 52 33
46 33 85 22 5 87 28 2 85 61 16 42 69 7 10 53 33 3 85 8
51 60 58 9 14 74 24 87 7 81 30 76 7 6 27 18 17 53 70 49

Trier ce tableau sera lourd et peu intéressant, surtout si on dispose de plus de données. C’est pourquoi, on
transforme la variable en classes (tableau de classes). Dans ce cas, on définit 10 classes (tableau 4) : de 0 à
10 ans, de 10 à 20 ans, ...

Tableau 4 : Tableau de classes de l’âge à l’admission à l’hôpital chez 100 patients.
Classes d’âges (en Centres des Fréq.
Répétitions Fréquences
années) classes cumulées
0-10 5 22 0,22 0,22
10-20 15 8 0,08 0,30
20-30 25 13 0,13 0,43
30-40 35 10 0,10 0,53
40-50 45 8 0,08 0,61
50-60 55 16 0,16 0,77
60-70 65 7 0,07 0,84
70-80 75 5 0,05 0,89
80-90 85 11 0,11 1,00
Total 100 1,00

Théoriquement, on définira k classes pour son échantillon, où l’heuristique nous dit que k = n (avec n = le
nombre de données dans son échantillon). Dans la deuxième colonne, on définira le centre de la classe (Ci).
Il s’agit de la valeur numérique du milieu de la classe. Dans la 3 e colonne, on définira la répétition qui
représente le nombre de valeurs continues se retrouvant dans chaque classe. Cette manière de procéder va
plus vite que le classement “classique”. Sinon, on représentera encore les fréquences et les fréquences
cumulées.
On peut dériver un premier graphique de ces tableaux : l’histogramme ou diagramme d’aires (fig. 04) où on
représente les fréquences (en ordonnées) en fonction des classes (en abscisse).
6

Figure 04 : Histogramme des densités des âges d’admission à l’hôpital

o les classes d’âges doivent être équidistantes;


o Pour regrouper deux classes, on doit additionner les fréquences et la base de l’aire doit être
agrandie ;
o Ne pas oublier d’indiquer le n de l’effectif ;

Egalement, un second graphique peut être obtenu à partir de ces tableaux : le diagramme cumulatif approché
(figure 04) ce qui permet d’avoir beaucoup plus d’informations. Ce graphique permet de répondre à la
question “quelle est la proportion des gens qui ont tel âge ou plus / moins ?”.

Figure 05 : Diagramme cumulatif approché


3.2. L’approche numérique

Soit l’échantillon d’effectif n suivant : {x1, x2, x3, ..., xn}


Deux familles de paramètres vont pouvoir réduire les données numériquement : les paramètres de position et
les paramètres de dispersion.

3.2.1. Les paramètres de position


Les paramètres de position sont le minimum, le maximum, le mode, la moyenne arithmétique, la médiane et
les quantiles. Ces paramètres permettent :
o de savoir autour de quelles valeurs tournent les données de l’échantillon,
o de trouver une valeur centrale de l’échantillon.

a. Le mode (mode)
Le mode est la valeur la plus fréquente dans l’échantillon. Par exemple, pour le nombre d’enfants par7
famille, le mode est 3. Par contre, pour l’âge d’admission à l’hôpital, la classe modale est 0-10 ans. Ce qui
correspond aux effectifs les plus élevés).

40
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7 8 9
Figure 06 : détermination du mode ou de la classe modale.

b. La moyenne arithmétique (mean, average)


Elle est définie par l’équation suivante :
n
x́=1/n ∑ x i
i=1

Pour une série discrète :

Sur série continue classée :


8
er
Dans le 1 exemple, le nombre de familles enquêtées n = 100 et le nombre total des enfants dans l’ensemble
des familles est de 372. Donc, x́=3,72. Ce résultat est bizarre pour une variable discrète. On dira ici que la
moyenne se situe entre 3 et 4 enfants par famille, et qu’elle est plus proche de 4 que de 3.
Dans le 2e exemple, le nombre d’individus est n = 100 et la somme des âges (par le centre des classes) =
3920. Donc, x = 39,1 ans.
Ce paramètre a les propriétés suivantes :
o simplicité d’emploi ;
o utilisé partout ;
o sensible aux erreurs de données.

NB :
 Il existe d’autres moyennes, mais moins utilisées :
o La moyenne géométrique : g= n ∏ f i x i

1 1 fi
o La moyenne harmonique : = ∑
h n xi
n
o La moyenne quadratique : q= √f i x 2i
o La relation entre les différentes moyennes est la suivante : h > g > x́ > q
n
 La somme des écarts à la moyenne est nulle, soit : ∑ ( xi −x́ ) =0
i=1

c. La médiane
Elle correspond à la valeur qui laisse 50 % des observations en-dessous et 50 % des observations au-dessus.
On l’appelle également parfois "deuxième quartile" "percentile 50" : c’est la valeur centrale par excellence.
Pour la calculer, il faut d’abord trier l’échantillon. Ensuite :
o si l’effectif n de l’échantillon est impair,
M =x n +1
( )
2
o si l’effectif n de l’échantillon est pair,
x n +x n+1
( ) ( )
2 2
M=
2
La médiane a, comme propriété, d’être peu sensible aux valeurs extrêmes.

Afin d’avoir un aperçu des données, on peut comparer la moyenne et la médiane. Trois cas sont possibles :
o Si x ≈ M, c’est le cas idéal, un indicateur de symétrie. Pour obtenir cette courbe, les données sont
normalisées, c’est-à-dire leur appliquer une transformation comme ln x ou √ x.
o Si x >>> M, c’est :
o soit un indicateur d’erreur(s) dans les données,
o soit signe d’une distribution dissymétrique à droite
o Si x <<< M, c’est :
o soit, de nouveau, un indicateur d’erreur(s) dans les données,
o soit signe d’une distribution dissymétrique à gauche

d. Le quantile
Le quantile "a" est la valeur qui laisse α % des observations en-dessous et 1−α % des observations au-dessus
d’elle.
Pour les quartiles, la population de valeurs est divisée en 4 parts. Ainsi, les deux “quartiles” les plus
importants sont :
o le premier quartile (Q1), qui laisse 25 % des observations en-dessous) ;
o le troisième quartile (Q3), qui laisse 25 % des observations au dessus).
Ces deux quartiles peuvent également être définis de manière graphique. Si on reporte sur un graphique la
fréquence des observations en fonction de ces observations, on obtient le graphique suivant :
9

Figure 07 : Représentation schématique des quartiles sur une fonction de densité de probabilité.
Les barres verticales rouges représentent ± 2 σ soit Q1 à gauche et Q3 à droite.
Q1 est la valeur en abscisse pour laquelle la droite d’équation x = Q1, découpe une aire représentant 25 % de
l’aire totale.

3.2.2. Les paramètres de dispersion


Ces paramètres permettent d’étudier la dispersion des observations. Leur objectif est de trouver un indicateur
de cette variabilité. Il faut noter qu’un indicateur de dispersion est toujours ≥ 0. S’il n’y a pas de variabilité
dans les observations, l’indice de dispersion est égal à 0.

a. L’étendue (range)
Elle correspond à l’écart entre la plus grande valeur et la plus petite valeur. Elle est définie par :
E=x n−x 1
Comme énoncé précédemment, E ≥ 0. Si E = 0, c’est que x(n) = x1.
Ce paramètre est simple mais très sensible aux valeurs extrêmes ou aberrantes!

b. L’intervalle inter-quartiles
Cet intervalle est défini par la relation suivante :
IQ=Q3 – Q1
Dans ce cas, la relation H ≥ 0 est toujours vérifiée puisque Q3 ≥ Q1.
On dit que ce paramètre est “robuste” car il est peu sensible aux valeurs extrêmes. Ceci est du au fait que les
quartiles jouent avec les rangs et non avec les valeurs des observations.

c. La variance (variance)
Elle est définie par la relation :
n
2 1 2
σ = ∑ ( x i−x́ )
n i=1

Pour une série discrète : σ 2

Pour une série en classes : σ 2

Cette variance a quelques propriétés intéressantes :


o σ 2 ≥ 0 ; s2 = 0 si xi = x.
o le numérateur est parfois appelé “somme des carrés” (sum of squares)
o le dénominateur est parfois appelé “degré de liberté” ddl (degree of freedom)
o les unités de σ 2 sont celles des unités de X au carré
o σ 2 est très sensible aux valeurs extrêmes
Et aussi quelques cas particuliers intéressants :
o si n = 1, on ne peut calculer la variance; il faut donc au moins 2 données pour pouvoir calculer une
variance
2 10
o si n = 2, σ 2= ∆ =
2
( x1−x 2 )
2 2
Afin de faciliter les calculs, il existe une “formule de travail” qui n’introduit pas d’erreurs d’arrondis et où il
suffit de calculer ∑ x i et ∑ x 2i . Cette formule est toujours ≥ 0 :

n n
2
∑ x 2i −(∑ x i)
σ 2= i=1 i=1
n

NB :
 Lorsque la série est un échantillon issu d’une population et que l’on s’intéresse aux caractéristiques de cette
population via l’échantillon, on utilise plutôt " S2" qui est un meilleur estimateur de la variance théorique de la
population.
 Si la variable est binaire (X = 0/1), les observations {x1, ..., xn} ne sont que des 0 et des 1. Dans ce cas, la variance
devient (≥ 0) :
σ 2 = p(1 − p)

d. L’écart-type (standard deviation)


Suite à la difficulté d’interpréter la variance, on a introduit l’écart-type dont la formule est :
σ 2= √ σ 2
En tenant compte de la formule de travail de la variance, on peut écrire une représentation complète et
pratique de l’écart-type.

Figure 08 : Distribution symétrique, normale, “gaussienne”

Pour un échantillon [x1, x2, x3, ..., xn] :


o si on pose y i =x i +a (avec a = constante)  y = x + a mais σ y =σ x : bien que la moyenne ait changé,
la dispersion n’a pas changé ;
o si on pose y i=λ x i (avec λ = constante ≥ 0),  y = λx et σ y =λσ x : la dispersion a été multipliée
également.
Pour l’exemple de l’âge à l’admission à l’hôpital, n = 100, ∑ x i = 3920  x́=39,2,
∑ (x ¿¿ i¿)2=224452 ¿ ¿, σ 2=715,03, σ =26,74ans.
Il y a donc en moyenne des patients âgés de (39,2 ± 26,74 ans).
e. Le coefficient de variation
Il quantifie ce que représente l’écart-type par rapport à la moyenne. Ce coefficient permet d'apprécier la
représentativité de la moyenne par rapport à l'ensemble des observations. Il donne une bonne idée du degré
d'homogénéité d'une série de valeurs ce qui fait qu’il doit être le plus faible possible. Sa formule est :
σ
CV %= ×100

Ce paramètre permet de vérifier la reproductibilité de techniques. Ici, dans le cas d’un dosage, on a une
erreur commise CV = 5%; si x = 80 g → s = 4 g.
3.2.3. Les paramètres de forme 11
Soit l’échantillon x1, x2, x3, ..., xn, x́ et σ seront obtenus très facilement. Cependant pour de fixer sa moyenne
et sa variance, les valeurs de cet échantillon seront transformées en valeurs centrées réduites, ie., en
soustrayant à chaque valeur la moyenne et en la divisant par l'écart-type :
xi −x́
z i=
σ
Cette transformation sera donc appliquée à chacun des éléments de l’échantillon (pour i = 1, 2, 3, ..., n). Le
nombre obtenu en zi est un nombre pur, sans unité. Grâce à cette transformation, nous aurons un nouvel
échantillon : z1, z2, z3, ..., zn. Ce qu’il y a d’intéressant, avec ce nouvel échantillon, est que ź=0 et σ 2=1

a. Coefficient de symétrie (skewness)


Ce coefficient de symétrie est défini par la formule suivante :
n
1
g= ∑ z3
n i=1 i

 Si g = 0, c’est un indicateur de symétrie;


 Si g >> 0, c’est un indicateur de dissymétrie à droite;
 Si g << 0, c’est un indicateur de dissymétrie à gauche.

b. Coefficient d’aplatissement (kurtosis)


Ce coefficient indique si le sommet de la courbe est “pointu” ou “plat” et est défini par la formule suivante :
n
1
g= ∑ z 4−3
n i=1 i
 Si g4 = 0, la courbe est “standard”;
 Si g4 >>0, la courbe est plus (trop) pointue;
 Si g4 <<0, la courbe est plus (trop) plate.

3.2.4. Paramètres d’association


Ces paramètres permettent d’établir des relations entre des variables. Il leur faut donc au-moins 2 variables :
X et Y (par exemple, le poids et la taille). On représentera alors le “nouvel” échantillon ainsi (échantillon
“bivarié”) :
x1 y1

[ ]

xn

yn
On peut prendre une approche graphique et indiquer autant d’axes qu’il y a de variables (graphique X et Y,
etc.). Le plus simple est encore l’approche numérique, avec le calcul de paramètres comme la covariance, le
coefficient de corrélation, les paramètres d’une droite de régression et le coefficient de détermination, ...

a. Covariance
La covariance est un nombre réel (positif, négatif ou nul) donné, pour les deux variables x et y, par la formule
suivante :
n
1
Cov ( x , y )= ∑ (x −x́)( y i− ý)
n i=1 i
En fonction du signe de (S), nous pouvons déterminer 3 options :
 Si Sxy > 0, la relation entre X et Y est croissante
 Si Sxy < 0, la relation entre X et Y est décroissante
 Si Sxy ≈ 0, il n’y a pas de relation ni d’association entre X et Y. Dans ce cas, une variable n’a pas
d’influence sur l’autre.

b. Coefficient de corrélation
Le coefficient de corrélation entre deux variables est un nombre réel (positif, négatif ou nul) pur (sans unité).
Il représente la corrélation divisée par le produit des écart-types :
Cov (x , y )
r=
σx× σy
Le signe de r peut nous renseigner déjà sur le sens de la relation entre les deux variables :
 Si r > 0, la relation est linéaire croissante 12
 Si r < 0, la relation est linéaire décroissante
 Si r ≈ 0, il n’y a pas de relation
On peut également montrer que −1 ≤ r ≤ +1 ainsi que, si r = +1, la relation est linéaire croissante parfaite
mais, si r = −1, la relation est linéaire décroissante parfaite. Il va de soi que la corrélation d’une variable avec
elle-même est parfaite : rxx = 1. Et, de nouveau, le coefficient de corrélation possède une formule de travail :
n

∑ ( x i−x́)( y i− ý)
i=1
r= 2 2
√(x − x́ ) × √( y − ý )
i i

NB :
 Attention aux valeurs aberrantes qui falsifient la corrélation, il faut toujours regarder les données avant de
calculer " r " !
 " r "est valable pour une relation linéaire entre les deux variables : d’autres types de relations peuvent exister, ...

b. Droite de régression
Lorsqu’on examine 2 variables (X et Y), 2 situations sont possibles :
 X et Y sont observés simultanément, X et Y sont des variables aléatoires (par exemple, le poids et la
taille).
 X est fixé par l’utilisateur et Y est observé, X est une variable mathématique et Y est une variable
aléatoire.
Dans le cas d’une droite des moindres carrés, la moyenne de Y sera de type (a+b.x).
Y=a+b×X
 a, l’ordonnée à l’origine

 b, la pente de régression
a = y − b· x

d. Coefficient de détermination
Ce coefficient (r²) donne la proportion (le pourcentage) de la variabilité d’une variable qui serait expliquée
par l’autre variable.
Par exemple, si on trouve un coefficient de corrélation r = 0.8 entre le poids et la taille d’un groupe, le
coefficient de détermination sera r2 = 0.64. Donc, 64 % de la variabilité de la taille est expliquée par le poids
alors que 35 % reste inexpliquée (par le poids).