Vous êtes sur la page 1sur 42

Introduction à la statistique descriptive

M’hamed Eddahbia et Idir Ouassoub


a
Université Cadi Ayyad, Département de Mathématiques
et d’Informatique, Faculté des Sciences et Techniques
B.P. 549, Guéliz, Marrakech, Maroc.
e–mail : eddahbi@fstg-marrakech.ac.ma
mhamed.eddahbi@gmail.com
b
Université Cadi Ayyad, École nationale des Sciences appliquées
Guéliz, Marrakech, Maroc.
e–mail : idir.ouassou@ensa.ac.ma
iouassou@yahoo.fr

Février 2008
2 M’hamed Eddahbi et Idir Ouassou
Table des matières

I Statistique 5
0.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1 Statistique Descriptive - Etude d’un caractère numérique 9


1.1 Éléments de base de la Statistique Descriptive . . . . . . . . . . . . . . . . . . . . . 9
1.1.1 Population - Individus, Pondération des individus . . . . . . . . . . . . . . . 9
1.1.2 Caractère statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.3 Classification des caractères . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.4 Caractère numérique défini sur une population statistique . . . . . . . . . . . 11
1.2 Distribution d’un caractère numérique . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Fonction de répartition de X . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Partition de R en classes d’intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Fréquence d’un intervalle et densité des observations . . . . . . . . . . . . . 13
1.3.2 Choix du découpage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.3 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.4 Courbe cumulative ou fonction de répartition . . . . . . . . . . . . . . . . . 15
1.4 Valeurs centrales d’un caractère numérique . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.3 Caractère discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.4 Caractère continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.5 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.6 Variance et Écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.7 Les quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.8 Le mode ou la classe modale . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.9 Le milieu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6 Les paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.2 L’écart interquartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.3 L’écart absolu moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.4 Le coefficient de variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.5 Le coefficient d’asymétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.6 Le coefficient d’aplatissement . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4 M’hamed Eddahbi et Idir Ouassou

2 Estimation et tests 29
2.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.1 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.1 Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.2 Test d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3 Ajustement à une loi théorique - Test du χ2 39


3.1 Test d’ajustement à une loi discrète connue . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Test d’ajustement à une loi normale de paramètres connus . . . . . . . . . . . . . . 40
3.3 Ajustement à une loi de Poisson de paramètre connu . . . . . . . . . . . . . . . . . 41
3.4 Comparaison d’une répartition observée et d’une répartition théorique . . . . . . . . 41
Première partie

Statistique
7

0.1 Introduction
La statistique est une branche scientifique ayant divers applications dans plusieurs domaines
(biologie, génétique, finance, chimie, géologie physique etc...). Cette discipline est constitué par
un ensemble de méthodes mathématiques basée sur les observations d’événements réels à partir
desquelles on analyse les phénomènes auxquels on s’intéresse.
On distinguera essentiellement deux type de statistique
1. La Statistique Descriptive,
2. La Statistique Predictive.
L’étude statistique d’un phénomène peut être réaliser en trois étapes :
1. recueil de données,
2. classement et réduction de ces données (statistique descriptive),
3. analyse de ces données visant à la déduction de prévisions (statistique predictive).
8
Chapitre 1

Statistique Descriptive - Etude d’un


caractère numérique

1.1 Éléments de base de la Statistique Descriptive


1.1.1 Population - Individus, Pondération des individus
Toute étude de statistique descriptive nécessite la donnée :
1. d’un ensemble Ω parfaitement défini, appelé population (animaux , personnes, voitures,
etc...) et dont les éléments sont appelés individus ou unités statistiques. On considère uni-
quement le cas où Ω est fini. Son cardinal N est la taille ou l’effectif de la population et on
posera Ω = {ω 1 , ω 2 , . . . , ω N }.
2. d’une pondération des individus : à chaque individu ω i on affecte une valeur positive pi , appelé
son “poids”. Cette valeur donne l’importance de cet individu au sein de la population. Le
poids d’une sous-population E est
X
P(E) = pi .
i/ω i ∈E

On pourra toujours se ramener au cas où les poids sont “normalisés”, dans le sens où la somme
de ceux-ci est égale à 1 (si la somme des poids est différente de 1, on divise chaque pi par
cette somme).
Lorsqu’une série comporte un grand nombre de valeurs, on cherche à la résumer, si possible, à
l’aide de quelques nombres significatifs appelés paramètres.

Définition 1.1.1 Si tous les individus jouent des rôles de même importance, on dit que la popula-
tion est équipondérée.

Dans ce cas le poids de chaque individu est pris égal à 1 (le poids d’une partie est alors son
effectif), ou à N1 si la population comporte N individus (le poids d’une partie est la proportion des
éléments de cette partie par rapport à l’effectif total) ou encore à 100
N
(le poids d’une partie est égal
au pourcentage des éléments de cette partie).
En résumé, une population pondérée est la donnée d’un couple (Ω,P).
On distinguera le cas où les individus sont permutables du cas où ils sont naturellement
ordonnés (s’il s’agit de relevés temporels).
10

1.1.2 Caractère statistique


Le but de la statistique descriptive est en général de décrire certaines caractéristiques ou pro-
priétés concernant les individus et ayant une certaine variabilité (tous les individus n’ont pas la
même valeur). Pour étudier une telle caractéristique, on a besoin d’un “instrument de mesure” de
celle-ci qui permet d’en relever les valeurs. Ces valeurs appartiennent à un certain ensemble M , fini
ou infini, dont les éléments sont des modalités.
A chaque individu, on associe alors une, et une seule, modalité ; ce qui définit un caractère
statistique ou une variable statistique comme une application X de Ω dans un ensemble M
dont les éléments sont les “modalités du caractère”.
Bien entendu, l’étude peut porter sur une ou plusieurs caractéristiques et on pourra faire l’étude
d’un seul caractère (statistique univariée) ou simultanément de deux ou plusieurs caractères (sta-
tistique bivariée ou multivariée). Dans ce dernier cas, l’observation se fait dans un espace produit
M1 × M2 × . . . × MN .
Au caractère X est donc associée la suite des valeurs (x1 , x2 , . . . , xN ) où xi = X(ω i ). De plus, si
l’individu ω i a le poids pi , on affecte ce poids à sa valeur xi .
Définition 1.1.2 La suite (xi , pi )i=1,...,N est appelée série statistique associée à X.

1.1.3 Classification des caractères


On classe souvent les différents caractères selon la “nature mathématique” de l’ensemble des
modalités M c’est-à-dire selon la structure connue de l’ensemble M . On retiendra le plus souvent
les trois cas suivants :
- Si l’ensemble M est fini et n’est muni d’aucune structure (en particulier pas de structure
d’ordre), le caractère X est dit caractère nominal. C’est le cas quand on demande à chaque
individu de répondre à une question en choisissant une et seule modalité d’une liste de possi-
bilités.
- Si l’ensemble M est fini et est muni d’une structure d’ordre naturelle, le caractère X est dit
caractère ordinal. C’est le cas en particulier quand, à chaque individu, est associée une
classe d’une partition de R (classe d’âge, de salaire ...) en classes ordonnées. Un tel caractère
ordinal est dit alors semi-quantitatif.
- Si l’ensemble M est un sous-ensemble de R muni de ses structures d’ordre et d’espace vectoriel,
le caractère X est dit caractère numérique ou quantitatif.
On distingue deux types de caractère :
RESUME
1. Caractère quantitatif : c’est un caractère auquel on peut associer un nombre c’est-à-dire,
pour simplifier, que l’on peut ”mesurer”. On distingue alors deux types de caractère quanti-
tatif :
(a) Caractère quantitatif discret : c’est un caractère quantitatif qui ne prend qu’un
nombre fini de valeurs. Par exemple le nombre d’enfants d’un couple.
(b) Caractère quantitatif continu : c’est un caractère quantitatif qui, théoriquement, peut
prendre toutes les valeurs d’un intervalle de l’ensemble des nombres réels. Ses valeurs
sont alors regroupées en classes. Par exemple la taille d’un individu, le nombre d’heures
passées devant la télévision.
11

2. Caractère qualitatif : Couleur, sexe, profession, nationalité, scort etc...

1.1.4 Caractère numérique défini sur une population statistique


Considérons un caractère numérique X défini sur une population (Ω, P) ; à chaque individu, on
associe un nombre considéré comme une vraie valeur numérique pouvant être soumise aux opérations
arithmétiques et non utilisé comme un code.
Cas de l’équipondération
- Si les individus sont équipondérés, la série statistique associée à X est définie par la suite
(x1 , x2 , . . . , xN ) de N nombres réels que l’on appellera série statistique simple.
- Si les individus sont permutables (c’est-à-dire s’il n’y a pas d’inconvénient à les ordonner selon
un ordre différent), il est possible d’associer à cette série statistique (considérée comme série
statistique brute) la série statistique ordonnée qui consiste à écrire les N nombres xi par
valeurs croissantes (ou décroissantes).
En général une série statistique à caractère discret se présente sous la forme :

Valeurs x1 x2 ............ xk
Effectifs n1 n2 ............ nk
Fréquences f1 = nN1 f2 = nN2 . . . . . . . . . . . . fk = nNk

Souvent on notera N l’effectif total de cette série donc


k
X
N= ni = n1 + n2 + . . . + nk .
i=1

On réécrire souvent ce tableau par le couple (xi , ni ).


Chaque série statistique simple (brute ou ordonnée) peut faire l’objet d’une première représentation
graphique souvent utile mais d’élaboration difficile si la taille de la population dépasse quelques di-
zaines d’individus : on place chaque individu sur un axe horizontal gradué, et on trace pour chaque
individu ω i une barre verticale de longueur égale à la valeur numérique xi .

première figure : diagramme en bâtons.

Définition 1.1.3 Le graphique obtenu est un diagramme en bâtons.

1.2 Distribution d’un caractère numérique


Le caractère X, application d’un ensemble pondéré Ω dans un ensemble M , définit sur cet espace
M une pondération image PX . Appelons Y l’ensemble des modalités observées au moins une fois,
c’est-à-dire :
Y = X(Ω) = {y1 , y2 , · · · , yn }
La pondération image est définie par les poids de chacune de ces modalités yj , à savoir :

PX ({yj )} = P[X −1 (yj )] = qj


12

Définition 1.2.1 L’ensemble des couples {(yj , qj )j=1,...,n } forme la distribution du caractère X.

Selon la pondération choisie sur Ω, le poids qj de la modalité yj est son effectif, sa fréquence ou
son pourcentage.

Définition 1.2.2 Notons que l’opération pratique qui consiste à élaborer cette distribution, en parti-
culier, dans le cas de l’équipondération, à compter le nombre d’individus ayant fait la même réponse
yj est appelé un tri à plat.

Une seconde représentation graphique est alors possible : elle consiste à faire figurer sur un axe
horizontal gradué les modalités observées et à tracer, pour chaque modalité, un béton de longueur
égale à son poids (par exemple sa fréquence).

1.2.1 Fonction de répartition de X


Définition 1.2.3 La fonction de répartition de X ou courbe cumulative à la distribution (yi , qi )i=1,...,n
de la variable X est la fonction F qui à tout x de R, associe le poids des observations inférieures
ou égales à x : X
F [X] = qi = PX [−∞, x] = P[X ≤ x]
i/yi ≤x

Proposition 1.2.1 La fonction de répartition est une fonction en escalier continue à droite et
admettant ses sauts aux points yj . Si les poids sont normalisés, c’est une fonction croissante de 0
à 1.

La distribution d’un caractère X est souvent présentée en tableau, comme pour l’exemple sui-
vant :
13

Exemple 1.2.1 Lors d’une enquête auprès des étudiants, on a posé à 50 de ceux-ci la question
suivante :
Combien de films avez-vous vu en salle de cinéma durant de mois de Septembre ?
Après avoir fait un tri à plat de cette question, on observe 7 modalités différentes dont les effectifs
et les fréquences sont donnés dans le tableau suivant :
Nombre de films 0 1 2 3 4 6 9
Effectifs 6 10 14 7 10 2 1
Fréquences 0.12 0.20 0.28 0.14 0.20 0.04 0.02
Cette présentation en tableau et cette représentation ne sont plus appropriées dés que le nombre de
modalités observées est élevé. Dans ce cas on procède à des regroupements de modalités.

1.3 Partition de R en classes d’intervalles


On peut toujours considérer une partition de R (ou d’une partie de R) en K classes ordonnées
{C1 , C2 , . . . , CK } (généralement des intervalles de type [a, b[) et l’application C qui à chaque valeur
yj associe sa classe.
De ce fait l’application C ◦ X, de Ω dans l’ensemble des classes Ck définit un caractère ordinal
parfois appelé caractère semi-numérique.
Définition 1.3.1 La distribution de ce caractère est donnée par l’ensemble {(Ck , nk )k=1,...,K } où nk
est le poids de la classe Ck . Elle est généralement présentée selon un “tableau de distribution en
classes”.
Exemple 1.3.1 Supposons que l’enquête précédente comporte comme autre question : Quelle somme
avez-vous dépensée pendant le mois de Septembre pour l’ensemble de vos activités culturelles :
cinémas, concerts, livres autres que scolaires, CD ... .
La série statistique brute des réponses comporte probablement 50 modalités différentes, ayant cha-
cune un effectif de 1. Il est préférable alors de regrouper ces réponses en commençant par déterminer
des “classes de dépense” : moins de 200 DH, de 200 à 500 DH, etc...
La distribution se présente généralement sous la forme suivante :
Dépenses mensuelles (en DH) Nombre d’étudiants
[0 − 200[ 18
[200 − 500[ 21
[500 − 900[ 8
[900 − 1000[ 3

Étudions plus en détails de telles distributions en classes.

1.3.1 Fréquence d’un intervalle et densité des observations


Considérons un intervalle (a, b) dans l’ensemble des modalités du caractère étudié, par exemple
la plage (200 − 500) si on étudie les dépenses culturelles. Notons qu’une telle plage porte parfois le
nom de classe (classe d’âge entre 25 et 35 ans) ou de tranche (tranche des salaires compris entre
4000 et 6000 DH).
Un tel intervalle (a, b) étant fixé.
14

Définition 1.3.2 On appelle effectif de cet intervalle pour le caractère X, le nombre des valeurs
ni qui se trouvent dans cet intervalle.
On appelle fréquence, la proportion de ces observations par rapport au nombre total d’individus.

Exemple 1.3.2 Dans l’exemple ci-dessus, l’effectif de la classe [0 − 200[ est 18 et sa fréquence est
de 18
50
= 0, 36.

L’effectif et la fréquence d’un intervalle dépendent de la longueur -l’amplitude- de cet intervalle :


si on augmente l’amplitude d’un intervalle, son effectif augmente. Pour une meilleure connaissance
de la localisation des observations, il est plus judicieux de s’intéresser au rapport entre l’effectif ou
la fréquence d’un intervalle et sa longueur.

Définition 1.3.3 On appelle densité d’effectif du caractère numérique X sur l’intervalle (a, b)
(avec bien entendu a < b) le rapport entre l’effectif de cet intervalle et son amplitude, à savoir
(b − a).

Exemple 1.3.3
18
- Sur l’intervalle [0 − 200[, la densité est de 200
= 0, 09.
- Notons que cette notion de densité est celle que l’on rencontre par exemple en géographie
humaine quand on parle de densité de population dans une région donnée : on calcule le rapport
entre le nombre d’habitants et la superficie de la région pour avoir le nombre d’habitants au
km2 .

Définition 1.3.4 On peut aussi définir la densité de fréquence ou fréquence unitaire en


divisant la fréquence d’un intervalle par l’amplitude de cet intervalle.

Remarque 1.3.1 La densité de fréquence sur l’intervalle (0 − 200) est 0,36 200
= 0, 0018.
Notons que la densité de fréquence est déduite simplement de la densité d’effectif en divisant celle-ci
par le nombre total des individus (par exemple 50 dans l’exemple sur la population d’étudiants).

1.3.2 Choix du découpage


Pour étudier la répartition des observations, il est commode de “découper” l’ensemble des moda-
lités en classes disjointes ; on réalise une partition de l’ensemble R des nombres réels en N intervalles
à l’aide de points de coupure -les bornes- (b0 , b1 , . . . , bK ).
Le choix du nombre K de classes et celui des bornes bi sont faits par l’utilisateur. En général,
on choisit pour plus petite borne b0 une valeur inférieure à la plus petite valeur observée et pour
plus grande borne bK une valeur supérieure à la plus grande des valeurs observées. Pour une plage
[b0 , bK ] fixée, si des observations sont extérieures à cet intervalle, cela signifie que l’on abandonne
les individus correspondants (valeurs aberrantes). Cette élimination de certains individus est dite
“extraction des valeurs extrêmes”.
Les bornes bi étant fixées, on réalise en pratique la partition en prenant les intervalles du type :

[b0 , b1 [, [b1 , b2 [, [b2 , b3 [, · · · , [bK−1 , bK ].

Pour chacun de ces intervalles, on détermine son effectif et on calcule sa densité d’effectif ; on
peut aussi calculer sa fréquence et sa densité de fréquence.
15

1.3.3 Histogramme
Définition 1.3.5 Un histogramme est la représentation graphique adaptée à l’étude d’un ca-
ractère numérique lorsque l’on a choisi une partition dans l’ensemble des modalités de ce caractère
et que l’on a calculé, pour chaque intervalle, sa densité : c’est le graphique qui permet de visualiser,
pour chaque intervalle, sa densité.

La construction pratique d’un histogramme nécessite donc les étapes suivantes :


1. Les bornes étant déterminées, on trace un axe horizontal sur lequel on fait figurer ces bornes.
Insistons sur le fait que cet axe est gradué suivant les valeurs du caractère étudié (en années
pour les âges, en DH pour un salaire, en centimètres pour une taille, en minutes pour un
temps...).
2. On calcule pour chaque classe sa densité en divisant l’effectif ou la fréquence de cet intervalle
par sa longueur.
3. On trace un axe vertical gradué de telle sorte que puissent y figurer toutes les valeurs des
densités ainsi calculées.
Notons que ces deux échelles correspondant aux densités d’effectif et aux densités de fréquence
ne différent que par un facteur N égal au nombre total des individus.
4. Sur chaque intervalle de la partition, on construit un rectangle dont la hauteur est égale à
la densité de cet intervalle. En d’autres termes la surface de chaque rectangle représente soit
l’effectif de la classe (si l’axe vertical est gradué selon la densité d’effectif), soit la fréquence
de la classe (si on a utilisé la densité de fréquence).
Remarquons que si tous les intervalles sont de même amplitude, égale à L, il suffit de représenter
en hauteur l’effectif de la classe car il y a alors proportionnalité entre les densités et les effectifs
(densité=effectif/L).

1.3.4 Courbe cumulative ou fonction de répartition


On peut aussi définir et tracer la fonction de répartition, fonction numérique F définie sur
R et telle qu’é tout x, on associe le nombre des observations inférieures ou égales à x. Comme on
ignore les valeurs individuelles, on suppose que les valeurs sont uniformément réparties dans chaque
classe.
La courbe représentative ou courbe cumulative est dans ce cas une courbe continue qui se
présente alors comme une succession de segments de droite. La valeur en une borne bk est égale
au cumul des valeurs des intervalles jusqu’é bk . Cette courbe passe donc par les points (bk , F (k)),
c’est-à-dire les points (“limite supérieure d’une classe, effectif cumulé”).
Dans l’exemple sur les dépenses culturelles, la courbe cumulative passe par les points ((0,0),
(200,18), (500,39), (900,47), (1000,50)). On complète par des segments de droite entre ces points.

1.4 Valeurs centrales d’un caractère numérique


Ils permettent de connaı̂tre l’ordre de grandeur des données, quelle est la tendance du caractère,
ceci par rapport à une unité choisie. Cela permet ainsi de positionner les données lorsque l’échelle
est déterminée.
16

Face à une série statistique numérique, il est parfois utile de la synthétiser ou de la résumer à
l’aide d’une ou de deux valeurs que l’on appellera des indicateurs. Ceux-ci sont essentiellement de
deux types :
1. soit des indicateurs de valeurs centrales qui précisent le milieu de la série,

2. soit des indicateurs de dispersion qui mesurent le degré d’éparpillement ou d’étalement des
valeurs.
Le choix de ces indicateurs dépend bien entendu de l’usage que l’on veut en faire. Ils sont
quelquefois suffisants pour comparer deux séries ou pour suivre l’évolution d’un caractère au cours
du temps. Notons aussi que, comme tout indicateur statistique, leur utilisation nécessite du bon
sens et de la prudence car ils ne donnent qu’une information partielle sur les données recueillies.

1.5 Paramètres de position


Ils permettent de connaı̂tre l’ordre de grandeur des données, quelle est la tendance du caractère,
ceci par rapport à une unité choisie. Cela permet ainsi de positionner les données lorsque l’échelle
est déterminée.

1.5.1 Moyenne
Moyenne d’une série statistique
Si par exemple on mesure la taille (en mètres) de N individus on aura comme données, N
nombres réels x1 , x2 , . . . , xN . La valeur significative sera la valeur moyenne :
x 1 + x2 + · · · + xN
m= .
N
Mais cette taille moyenne n’est pas forcément à elle seule représentative de la distribution du
caractère étudié : si on a pris une population mélangée d’adultes et d’enfants, on peut obtenir la
même moyenne sans que pour autant le caractère taille soit distribué de la même manière dans les
deux populations.
Un renseignement supplémentaire sera fourni par des mesures de la dispersion du caractère. On
peut par exemple mesurer les écarts entre les tailles des individus et la moyenne :

|x1 − m| , |x2 − m| , · · ·, |xN − m| ,

puis faire la moyenne de ces écarts. On obtient ainsi l’écart moyen (é la moyenne)
N
1 X
e= |xi − m|
N i=1

(on peut aussi mesurer l’écart moyen à une constante c i.e. N1 N


P
i=1 |xi − c|)
Si ce nombre e est “petit”, les tailles sont “assez proches” de la moyenne : la population est “assez”
homogène. En particulier si e = 0, |xi − m| = 0 et donc xi = m (pour i = 1, . . . , N ).
17

Pour des raisons mathématiques, on préfère à l’écart moyen une autre mesure de la dispersion,
l’écart quadratique moyen, ou écart–type :

N
! 21
1 X
σ= (xi − m)2
N i=1

2 12
(de même qu’on préfère la distance euclidienne ( N
P PN
i=1 (xi − yi ) ) à la distance i=1 |xi − yi |.
On peut encore améliorer la connaissance de la répartition du caractère en calculant des écarts
d’ordre supérieur :
N
! k1
1 X
(xi − m)k (k ≥ 1).
N i=1

Définition 1.5.1 étant donné un caractère numérique X ou la série statistique pondérée X =


(xi , pi )i=1,...,N définie par ce caractère, on appelle moyenne arithmétique -ou tout simplement
moyenne s’il n’y a pas d’ambiguı̈té sur le choix de l’indicateur- le nombre noté x̄ ou m[X] défini
par :
p 1 x1 + p 2 x2 + · · · + p N xN
x̄ =
p1 + p2 + · · · + pN
Plus généralement quand le caractère X est défini par sa distribution (yi , ni )i=1,2,...,n , cette moyenne
peut se calculer directement à l’aide de ces éléments :
n1 y1 + n2 y2 + · · · + nn yn
x̄ =
n1 + n2 + · · · + nn

On vérifiera, le cas échéant sur des exemples, les propriétés suivantes :


1. si toutes les valeurs d’un série statistique sont augmentées d’une quantité constante (positive
ou négative) a, la moyenne est augmentée de a.
2. si toutes les valeurs d’une série statistique sont multipliées par une constante non nulle b, la
moyenne est multipliée par b.
3. si une population est partagée en sous-populations, et si on connaı̂t la valeur moyenne d’un
caractère pour chaque sous-population, la moyenne du caractère pour l’ensemble des indi-
vidus est la moyenne pondérée des différentes moyennes, les poids étant les effectifs (ou les
pourcentages correspondant) des différentes sous-populations.

Exemple 1.5.1 Une section d’étudiants est partagée selon deux sous-sections : le groupe A formé
de 40 étudiants ; le groupe B formé de 220 étudiants. A chaque étudiant on associe sa note obtenue
lors d’un contrôle. La moyenne des notes des étudiants A est 14.5 ; la moyenne des notes des B est
de 11.2. La moyenne des notes des 260 étudiants est : x̄ = 14,5×40+11,2×220
260
= 11, 71

Calcul de la moyenne dans le cas d’une distribution en classes


La présentation des données sous forme de distribution en classes fournit un cas particulier de
série pondérée. En effet si on considère une classe (bk−1 , bk ) quelconque, son effectif nk correspond à
nk valeurs que l’on suppose implicitement réparties uniformément sur l’intervalle. On admet alors
18

pour le calcul de la moyenne que toutes ces observations sont égales à la valeur centrale de la classe,
en général son milieu ck = bk−12+bk .
Dés lors on calcule la moyenne de la série pondérée (ck , nk )k=1,...,K .
On vérifiera par exemple que la dépense moyenne des 50 étudiants est de 352 DH.
Résumé sur les paramètres de position : les quartiles
Comme pour la médiane qui permet de partager l’effectif en deux effectifs égaux, intuitivement,
les quartiles sont des nombres qui partagent la série statistique en quatre parties qui ont toutes
”sensiblement” le même nombre de termes, c’est-à-dire 25% de l’effectif total.

1.5.2 Définitions
Définition 1.5.2
Le premier quartile Q1 est la plus petite valeur du caractère telle qu’au moins 25% des termes de la
série aient une valeur du caractère qui lui soit inférieure ou égale.
Le troisième quartile Q1 est la plus petite valeur du caractère telle qu’au moins 75% des termes de
la série aient une valeur du caractère qui lui soit inférieure ou égale.

Remarque :
Les définitions en statistique ne sont pas figées. . .certaines calculatrices et logiciels utilisent une
définition différente ce qui explique que les résultats obtenus à l’aide de la ”machine” soit différents
de ceux donnés par la définition 1.5.2

1.5.3 Caractère discret


Dans ce cas, la définition 1.5.2 se traduit comme suit :
On commence par classer les valeurs xi par ordre croissant, chacune d’elles répétées autant de fois,
dans cette liste, que son effectif ni , alors :
– Si N4 est un entier, le premier quartile Q1 est le terme qui dans cette liste occupe le rang N4
et le troisième quartile est le terme de rang 3N 4
.
– Si N4 n’est pas un entier, le premier quartile Q1 est le terme de rang immédiatement supérieur
à N4 et le troisième quartile est le terme de rang immédiatement supérieur à 3N
4
.

1.5.4 Caractère continu


Dans ce cas on ne connaı̂t pas chaque valeur du caractère il est donc impossible de mettre en place la
définition. On se contente alors de valeurs approchées (sans connaı̂tre la précision . . .) des quartiles.
Pour cela différentes procédures sont possibles :
– On peut comme pour la médiane, tracer le polygone des fréquences cumulées croissantes et
on ”adopte” les valeurs suivantes :
– Q1 est la valeur correspondant à la fréquence cumulée croissante égale 0, 25.
– Q3 est la valeur correspondant à la fréquence cumulée croissante égale 0, 75.
Quelques fois la lecture peut se faire sur la tableau des effectifs ou des fréquences cumulées
croissantes. . .
– On peut aussi se contenter des classes contenant Q1 et Q3
– On peut, avec l’hypothèse que la répartition dans chaque classe est régulière, remplacer chaque
classe par son centre pour se ramener à un cas discret.
19

Pour une série statistique simple à caractère discret, la moyenne se calcule par la formule :
PK
ni xi
m = i=1
n
Pour une série statistique simple à caractère réel (ou continu), la moyenne est donnée par la formule :
PK
ni ( ai +a2 i+1 )
m = i=1
n
où K est le nombre de valeurs (respectivement classes Ci = [ai , ai+1 [) distinctes du caractère, ni
l’effectif associé à ces valeurs (respectivement classes) et n l’effectif total. Lorsque la moyenne est
nulle , la série est dite centré.

1.5.5 Médiane
La médiane est un indicateur de valeur centrale souvent plus utile que la moyenne, et qui répond
au souci de trouver une valeur du caractère telle qu’il y a “autant d’observations plus petites que
cette valeur que plus grandes que cette valeur”.

Définition 1.5.3 En théorie, la médiane est la valeur xi pour laquelle la fonction de répartition
vaut 0, 5, (50%).
Il y a autant d’individus pour les quels la valeur de caractère est inférieure à la médiane que d’in-
dividus pour lesquels la valeur du caractère est supérieure à la médiane. Mais lorsqu’on calcule les
fréquences cumulées croissantes, on tombe rarement exactement sur la valeur 0, 5.

Ceci ne constitue pas une définition car il est possible qu’une telle valeur n’existe pas. Aussi, au
lieu d’en donner une définition générale quelque peu rébarbative, nous définirons la médiane dans
les 4 cas suivants :

Cas d’une série statistique simple avec un nombre impair de valeurs.


On suppose que la série a été ordonnée par valeurs croissantes et comporte n = 2k + 1 termes.
La médiane est la valeur correspondant à l’indice k + 1.
Pour 9 termes, la médiane est la 5ème valeur.

Cas d’une série statistique simple avec un nombre pair de valeurs.


On suppose encore que la série ordonnée par valeurs croissantes et qu’elle comporte n = 2k
termes. La médiane est le milieu de l’intervalle formé par les valeurs d’indice k et k + 1. Pour 8
termes, la médiane est le milieu de l’intervalle formé par les 4ème et 5ème valeurs.

Cas d’une série statistique pondérée


On suppose que la série est pondérée (la somme des poids étant ramenée à 1) ou qu’elle est
présentée, après un tri à plat, sous forme d’une distribution en fréquences. La médiane M est la
valeur du caractère telle que la somme des poids (ou des effectifs) de toutes les modalités inférieures
à M est inférieure ou égale à 12 et de même pour la somme des poids des modalités supérieures à
M.
20

Exemple 1.5.2 Si on considère de nouveau la distribution du nombre de films vus par 50 étudiants
en septembre :
Nombre de films 0 1 2 3 4 6 9
Effectifs 6 10 14 7 10 2 1
a médiane du nombre de films est M = 2 à vérifier.

Cas d’une distribution en classes


On appelle b0 , b1 , . . . , bK les bornes qui servent à délimiter les différents intervalles, nk l’effectif
de l’intervalle (bk−1 , bk ) et N l’effectif total : N = n1 + n2 + . . . + nK .
A chaque borne bk on associe son effectif ou son poids cumulé sk à savoir le nombre d’observations
inférieures ou égales à bk : sk = n1 + n2 + . . . + nk et on trace la courbe cumulative.
Pour tracer la courbe cumulative, appelée aussi fonction de répartition, on procède dans un
système d’axes orthogonaux de la façon suivante :
1. l’axe horizontal est gradué selon les valeurs du caractère. On y fait figurer en particulier les
différentes bornes bk .
2. l’axe vertical est gradué de 0 à N .
3. pour chaque borne, on marque les points de coordonnées (bk , sk ) c’est-à-dire on associe à
chaque borne le nombre des observations inférieures ou égales à cette borne.
4. on relie ces points par des segments de droite (suivant l’hypothèse que les valeurs réellement
observées mais inconnues dans cette répartition sont uniformément réparties dans l’intervalle
qui les contient).
La médiane est la valeur du caractère qui correspond sur cette courbe cumulative à une ordonnée
égale à N2 .
Cette valeur peut être lue sur le graphique si celui-ci est précis, mais peut aussi être déterminée
exactement par une “interpolation linéaire” dans l’intervalle médian, c’est-é-dire l’intervalle qui
contient la médiane.

Exercice 1.5.1 On déterminera par la méthode de l’interpolation linéaire la médiane pour la dis-
tribution en classes déjà rencontrée.

Calcul pratique de médiane.


Cas d’une série à caractère discret. En comptant toutes les données (ni fois la valeurs xi ),
on obtient n valeurs (n effectif total) : X1 , X2 , . . ., Xn . Après avoir trié ces valeurs dans l’ordre
croissant, on obtient les données ordonnées X(1) , X(2) , X(3) , . . ., X(n) , il faut alors distinguer deux
cas :
1. (a) n est impaire : la médiane est alors la valeur

med = X( n+1 )
2

(b) n est pair : la médiane est alors la valeur


X( n ) + X( n +1)
2 2
med =
2
21

Exemple 1.5.3 14 - 7 - 11 - 10 - 4 - 6 - 8. Le tri donne 4 - 6 - 7 - 8 - 10 - 11 - 14 comme


n est impaire, la médiane est la quatrième valeur, soit med = 8.
Exemple 1.5.4 14 - 7 - 11 - 10 - 4 - 6 - 8 - 16. Le tri donne : 4 - 6 - 7 - 8 - 10 - 11 - 14 -
16. Comme n est pair, la médiane est med = (8 + 10)/2 = 9.
On peut retrouver ce résultat graphiquement sur le diagramme cumulatif.

Cas d’une série à caractère réel. Si la série est à caractère réel, il est impossible de connaı̂tre
exactement la médiane mais on peut la déterminer approximativement par une interpolation linéaire.
1. (a) Graphiquement :
Nous pouvons construire le diagramme cumulatif ou fonction de répartition. Nous savons
par définition, que la médiane a pour fréquence cumulée croissante 0, 5. il suffit donc de
tracer la droite d’ordonnée 0, 5. Cette droite coupe la fonction de répartition en un point
dont l’abscisse est la médiane.
(b) Par calcul :
Soit la première classe dont la fréquence cumulée soit supérieure ou égale à 0, 5. Notons
la Ci = [ai−1 , ai [ et appelons Fi se fréquence cumulées. Si Fi = 0, 5, la médiane est
évidemment ai+1 . Cela arrive rarement. Dans le cas contraire, Fi > 0, 5. Considérons
alors les points A := (ai , Fi−1 ) et B := (ai+1 , Fi ). (Fi−1 est la fréquence cumulée de la
classe précédente Ci si celle-ci existe, 0 sinon). La droite D déterminée par ces deux
points passe par un point d’ordonnée 0, 5 dont l’abscisse est la médiane. L’équation de
cette droite est
(ai+1 − ai )
D : x − ai = (y − Fi−1 )
(Fi − Fi−1 )
la médiane correspond à x lorsque y vaut 0, 5 donc elle vaut
0, 5 − Fai
med = ai + (ai+1 )
Fi − Fi−1
Autre méthode : utiliser le théorème de Thalès pour obtenir
med − ai 0, 5 − Fi−1
=
ai+1 − ai Fi − Fi−1
Dans l’exemple ci-dessus, nous avons : Ci =]40, 50] , Fi = 0, 487, Fi−1 = 0, 38. Donc la
médiane vaut :
0, 5 − 0, 38
med = 40 + (50 − 40) = 47, 797
0, 587 − 0, 38

1.5.6 Variance et Écart-type


Avant de donner une définition générale des indicateurs de dispersion les plus utilisés à savoir
la variance et l’écart-type, calculons-les sur l’exemple suivant :
Exemple 1.5.5 Une même épreuve a été posée à 10 élèves et a fait l’objet d’une double correction
par deux correcteurs A et B. Les notes mises sont les suivantes :
Eléve né 1 2 3 4 5 6 7 8 9 10
Correcteur A 12 4 7 14 18 10 9 14 2 10
Correcteur B 11 7 9 12 15 10 9 13 5 9
22

On note X et Y les séries statistiques des notes respectivement des correcteurs A et B.


Les moyennes x̄ et ȳ des deux séries de notes sont les mêmes et égales à 10 (é vérifier) mais
le comportement des correcteurs est malgré tout différent : le premier utilise une plage de notes
plus étendue que le second. On dit que le correcteur A a une variance de notes plus grande que
le correcteur B. On va élaborer un indicateur qui permet de quantifier cette dispersion des valeurs
d’une série statistique.
Pour cela on s’intéresse aux écarts -en valeurs algébriques- de chaque note à la moyenne des notes
de la série. Ces écarts sont :
Eléve né 1 2 3 4 5 6 7 8 9 10
Correcteur A 2 −6 −3 4 8 0 −1 4 −8 0
Correcteur B 1 −3 −1 2 5 0 −1 3 −5 −1

On désire déterminer un écart “moyen” pour chaque correcteur. Mais pour ce faire on ne peut
utiliser la moyenne arithmétique des 10 écarts car la somme de ces écarts est nulle : c’est une
propriété de la moyenne ! Aussi on va utiliser ces écarts soit en valeurs absolues, soit en les élevant
au carré. L’indicateur le plus courant est basé sur le carré de ces écarts. Plus précisément on
appellera variance des valeurs de la série X (resp. Y ) la moyenne des carrés des écarts que l’on
notera V ar[X] (resp. V ar[Y ]) :
22 +(−6)2 +...+02
- pour le correcteur A : V ar[X] = 10
= 210
10
= 21
2 2
1 +(−3) +...+(−1) 2
- pour le correcteur B : V ar[Y ] = 10
= 76
10
= 7, 6
Au sens de cet indicateur, le correcteur A a donc bien une variance de notes plus grande que le
correcteur B.
Un autre indicateur peut être déduit de celui-ci, en prenant la racine carrée. Ce nouvel indicateur
est appelé écart-type de la série statistique et est noté traditionnellement par la lettre grecque σ.
Les valeurs de cet indicateur sont :

- pour le correcteur A : σ X = 21 = 4, 58

- pour le correcteur B : σ Y = 7, 6 = 2, 76
L’avantage de l’écart-type par rapport à la variance est que son ordre de grandeur est le même
que celui des valeurs elles-mêmes.

Exercice 1.5.2 A titre d’exercice, on calculera l’écart “moyen” en prenant la moyenne des valeurs
absolues des différents écarts et on comparera les deux écarts “moyens” ainsi obtenus. Pour ne pas
confondre cet indicateur avec l’écart-type, ce nouvel écart est appelé écart absolu moyen.

Variance d’une série statistique pondérée


Soit X = (xi , pi )i=1,2,...,N une série statistique pondérée. On admettra que les poids pi sont
normalisés dans le sens où N
P PN
i=1 pi = 1 (sinon on remplace chaque pi par pi / i=1 pi ).

Définition 1.5.4 La variance de la série X est la moyenne pondérée des carrés des écarts à la
moyenne x̄ :
XN
V ar[X] = pi (xi − x̄)2 .
i=1
23

Il est parfois plus facile pour calculer cette variance -surtout si la moyenne n’est pas une valeur
entière- de transformer cette formule en utilisant le fait que (xi − x̄)2 = x2i − 2x̄xi + x̄2 . La formule,
après calcul, devient alors :
XN
V ar[X] = pi x2i − x̄2
i=1

Dans le cas de l’équipondération


1
Si tous les poids sont égaux, et donc égaux à N
puisque l’on considère les poids normalisés, la
variance s’écrit plus simplement :
N
1 X
V ar[X] = (xi − x̄)2
N i=1

Le calcul de la variance peut être facilité en utilisant les deux propriétés suivantes :
a) La variance n’est pas modifiée si on ajoute -ou retranche- la même valeur à tous les termes de
la série. En effet, dans ce cas, la moyenne est augmentée de la même valeur et donc les termes
xi − x̄ ne sont pas changés.
Exemple 1.5.6 Par exemple la variance de la série
(1005.5 1007.5 1012.5 1014.5 1016.5)
est la même que celle de la série
(5 7 12 14 16)
série obtenue en retranchant 1000.5 à toutes les valeurs.
b) Si tous les termes de la série sont multipliés par un nombre non nul a (cas d’un changement
d’échelle par exemple), il en est de même de la moyenne, et donc la variance est multipliée par a2 .
1. Exemple 1.5.7 Par exemple la variance de la série
(0.15 0.17 0.26 0.32 0.45)
est 10000 fois plus petite que la variance de la série
( 15 17 26 32 45)
série obtenue en multipliant tous les termes par 100.

Exemple 1.5.8 On vérifiera, à titre d’exemple, que la variance du nombre de films vus par 50
étudiants au cours du mois de Septembre est 3.08.
Notons que pour une distribution en classes c’est généralement la seconde formule qui est utilisée
pour calculer la variance. On considère en effet les centres de classe ck et on leur affecte comme
pondération les effectifs nk .

Exemple 1.5.9 On vérifiera, à titre d’exemple, que la variance des sommes dépensées par les 50
étudiants pour leurs activités culturelles est 63696.

Résumé
Pour une série statistique simple à caractère discret, la variance est l’indice de dispersion égal
à la somme des carrés des écarts entre les valeurs du caractère et la moyenne. Autrement dit, la
variance se calcule au moyen de la formule
PK 2
i=1 ni (xi − m)
V =
n
24

où m est la moyenne.


Pour une série à caractère continu ( ou réel), la variance se calcule en faisant intervenir le centre
des classes , ce qui donne la formule suivante :
PK ai +ai+1
i=1 ni ( 2
− m)2
V =
n
où m est la moyenne. En développant le carré dans la première formule, nous obtenons
PK 2
PK PK
i=1 ni xi i=1 ni xi 2 i=1 ni
V = − 2m +m
n n n
PK 2
i=1 ni xi
= − 2m2 + m2
n
PK 2
i=1 ni xi
= − m2
n
Cette dernière formule est plus pratique à utiliser. De même, nous obtenons dans le cas d’une série
réelle PK
ni ( ai +a2 i+1 )2
V = i=1 − m2 .
n

écart-type d’une série statistique


Définition 1.5.5 On appelle écart-type de la série statistique la racine carrée de la variance et on
écrit : p
σ X = V ar[X].
Notons que cette valeur est toujours positive. Elle n’est nulle que pour une série dont tous les
termes sont égaux.
Ses propriétés sont déduites de celles de la variance ; en particulier
σ aX = |a|σ X
Remarque 1.5.1 Certaines calculatrices possèdent des fonctions statistiques qui permettent de
calculer la variance et l’écart-type d’une série statistique. La plupart de ces machines proposent
alors 2 indicateurs notés σ n et σ n−1 . L’écart-type envisagé en statistique descriptive est celui noté
σ n . C’est le seul considéré ici comme correct.

Données centrées-réduites
Il est parfois intéressant de transformer les données brutes en éliminant le rôle joué par la
moyenne et l’échelle utilisée pour le relevé des observations. Ce sera le cas quand on étudiera
simultanément des caractères statistiques dont l’unité de mesure est différente : prix en DH, temps
en secondes ou minutes, taille en centimètres...Cette transformation se fait en standardisant les
données de la façon suivante :
- on calcule pour la série sa moyenne x̄ et son écart-type σ X .
- à chaque valeur xi on associe la donnée centrée-réduite ou standardisée zi telle que :
xi − x̄
zi =
σX
On vérifiera sur les exemples traités que les données standardisées sont en général toutes comprises
entre -3 et +3.
25

1.5.7 Les quantiles


Définition 1.5.6 Les quantiles sont les (k − 1) valeurs qui partagent la suite ordonnée des obser-
vations en k classes de même effectif. On peut déterminer graphiquement à l’aide de la fonction de
répartition ou diagramme cumulé.
k = 2 on trouve la médiane
k = 4 : les trois quantiles correspondent respectivement à des fréquences cumulées de 0, 25, 0, 5
(médiane), et 0, 75.

La détermination des quartiles est analogue à la médiane (de même que tous les quantiles).
- Dans le cas d’une série statistique discrète, il faut ordonner les données et distinguer quatre
cas comme indiqué dans le tableau suivant :
Quartiles n = 4p n = 4p + 1 n = 4p + 2 n = 4p + 3
x(p) +x(p+1) x(p) +x(p+1)
Q1 2 2
x(p+1) x(p+1)
x(2p) +x(2p+1) x(2p+1) +x(2p+2)
Q2 = M ed 2
x(2p+1) 2
x(2p+2)
x(3p) +x(3p+1) x(3p+1) +x(3p+2)
Q3 2 2
x(3p+2) x(3p+3)

- Dans le cas d’une série à caractère réel, on reprend la méthode utilisée pour la médiane en
prenant 0, 25 (resp. 0, 75) comme fréquence pour le premier ( resp. troisième) quartiles.

Exemple 1.5.10 (Exemple de calcul du premier quartile) pour la série ci-dessus : l’équation
de la droite est
(40 − 20)
D : x − 20 = (y − 0, 098)
(0, 38 − 0, 098)
Le premier quartile correspond à x lorsque y vaut 0, 25 donc il vaut
(0, 25 − 0, 098)
Q1 = 20 + (40 − 20)
0, 38 − 0, 098)
k = 10 : les 9 déciles (0, 1, 0, 2, 0, 3, 0, 4, 0, 5, 0, 6, 0, 7, 0, 8, 0, 9)

Exemple 1.5.11 (Exemple de calcul du second decile)


(0, 2 − 0, 098)
d2 = 20 + (40 − 20) = 27, 23
(0, 38 − 0, 98)
k = 100/ les 99 cetiles.

1.5.8 Le mode ou la classe modale


Définition 1.5.7 Dans le cas d’une série statistique à caractère discret, le mode est valeur du
caractère (ou variable) ayant l’effectif le plus important. (Remarque : il peut y en avoir plusieurs si
deux valeurs ont le même effectif qui est aussi le plus important.)
Dans le cas d’une série statistique à caractère continu (ou réel), la classe modale est la classe ayant
la densité la plus importante.

Exemple 1.5.12 Pour la série discrete, le mode est 2 (enfant par ménage).
Pour la série continue, la classe modale est ]18, 19] ans.
26

1.5.9 Le milieu
Définition 1.5.8 Le milieu est le centre de l’intervalle compris entre les valeurs extrêmes de la
série.

Il se calcule par la formule


min(xi ) + max(xi )
Mi = .
2

1.6 Les paramètres de dispersion


Ces paramètres permettent de décrire la dispersion des données autour de la moyenne.

1.6.1 L’étendue
L’étendue de la série est la différence entre les valeurs extrêmes de la série, c’est à dire :

e = max(xi ) − min(xi )

1.6.2 L’écart interquartile


L’écart interquartile est la différence entre le premier et le troisième quartile :

i = Q3 − Q1

1.6.3 L’écart absolu moyen


L’écart absolu moyen se calcul de la façon suivante :
- Pour une série à caractère discret :
PK
ni |xi − m|
E = i=1
n
ou m est la moyenne
- Pour une série à caractère continu (ou réel)
PK
ni ai +a2 i+1 − m

i=1
E=
n

1.6.4 Le coefficient de variation


Définition 1.6.1 L’écart-type d’une série statistique simple est la racine carrée de sa variance.
L’écart-type s vaut donc √
s= V
où V est la variance de la série statistique.
27

Définition 1.6.2 Le coefficient de variation, qu’on note v, est le rapport entre l’écart-type et la
moyenne de la série statistique. Nous avons donc
s
v= .
m

Exemple 1.6.1 Pour la série discrète, nous trouvons s = 1, 96 enfants par ménage et v = 0, 634
Pour la série réelle, nous trouvons s = 1, 035 ans et v = 0, 054.
La signification de v n’intervient que dans le cas où les données sont toutes positives (ou toutes
négatives en prenant la valeur absolue).
En effet, lorsque les données sont à la fois positives et négatives, la division par la moyenne perd son
pouvoir de ramener les donnés de différentes séries statistiques entre elles. (Si v est plus élevé dans
la première que dans la seconde, la première a des données plus dispersées autour da la moyenne).

1.6.5 Le coefficient d’asymétrie


Il s’agit d’un coefficient qui permet de mesurer l’asymétrie des données Exemples de séries
asymétriques et symétriques : Ce coefficient se calcul sur le modèle da la variance et du coefficient
de variation. Au lieu d’élever au carré la différence entre la valeur du caractère et la moyenne, on va
l’élever au cube afin de laisser le signe négatif apparaı̂tre. Il faut donc calculer d’abord une quantité
s3 :
PK PK ai +ai+1
i=1 ni (xi − m)
3
i=1 ni ( 2
− m)3
s3 = ou s3 =
n n
selon que la série est discrète ou réelle. m est la moyenne de la série.

Définition 1.6.3 Le coefficient d’asymétrie est alors donné par la formule


s3
γ3 =
s3
où s est l’écart-type de la série. On conclut alors de la façon suivante.
1. Si γ 3 < −0, 5, la série est dissymétrique vers la droite
2. Si γ 3 ∈ [−0, 5, 0, 5], la série est symétrique
3. Si γ 3 > 0, 5, la série est dissymétrique vers la gauche

1.6.6 Le coefficient d’aplatissement


Il s’agit d’un coefficient qui permet de mesurer l’aplatissement des données. Exemples de séries
aplaties et non aplaties. (DONNER UN EXEMPLE)
Au lieu d’élever au carré la différence entre la valeur du caractère et la moyenne, on va l’élever à
la puissance 4 afin de laisser apparaı̂tre les grands écarts. Il faut donc calculer d’abord une quantité
s4 :
PK PK ai +ai+1
i=1 n i (x i − m)4
i=1 ni (( 2
) − m)4
s4 = ou s4 =
n n
selon que la série est discrète ou réelle. m est la moyenne de la série.
28

Définition 1.6.4 Le coefficient d’aplatissement est alors donné par la formule :


s4
γ4 =
s4
où s est l’écart-type de la série ; On conclut alors de la façon suivante
1. Si γ < 2, 5, la série est pointue ou aigue ou leptokurtique (non aplatie) (figure 1)

il manque de f igure

2. Si γ ∈ [2, 5, 3, 5], la série est en cloche ou mesokurtique (ni trop aplatie, ni trop pointue).

il manque f igure

3. Si γ 4 > 3, 5, la série est aplatie ou platykurtique (fig2)

il manque f igure

Exemple 1.6.2 Pour la série discrète, nous avons

s3 = 6, 79, γ 3 = 0, 902, s4 = 56, 298, γ 4 = 3, 81

Conclusion : il s’agit d’une série aplatie , dissymétrique vers la gauche. Pour la série réelle, nous
avons
s3 = 0, 74, γ 3 = 0, 67, s4 = 3, 897, γ 4 = 3, 396
Conclusion il s’agit d’une série en cloche, dissymétrique vers la gauche.
Chapitre 2

Estimation et tests

2.1 Estimation
2.1.1 Estimation d’une proportion
Intervalle de confiance au risque α pour une proportion.
Quelle affirmation peut-on faire sur une proportion d’individus dans une population
après l’observation d’un échantillon ?
On suppose que l’on ignore la proportion p des gauchers dans la population toute entière et que
l’on veuille estimer cette valeur.
Pour ce faire, on prélève un échantillon de N = 140 individus supposés représentatifs de cette
population.
On note toujours n la variable aléatoire égale au nombre de gauchers dans cet échantillon et on
pose F = Nn .
Dans cet échantillon, on observe 12 gauchers, c’est-à-dire une proportion de gauchers de f = 0, 086.

Estimation ponctuelle
Définition 2.1.1 Un estimateur sans biais du paramètre p est une variable aléatoire Z telle
que E(Z) = p.

Dans le cas présent, on peut donc prendre Z = F .


Une estimation ponctuelle sans biais de la proportion p de gauchers dans la population est
12
la valeur prise par l’estimateur Z. On estimera ici le paramètre p par la valeur f = 140 = 0, 086.

Estimation par intervalle bilatéral


Plutôt que d’estimer p par une valeur unique, il est préférable de donner tout un intervalle de
valeurs [p1 , p2 ] qui devrait contenir la vraie valeur, inconnue, p.

Définition 2.1.2 Cet intervalle est appelé intervalle de confiance.

Mais dire que p appartient à un intervalle [p1 , p2 ] fait encore encourir un risque, celui de se
tromper en ce sens que p n’appartient pas en réalité à cet intervalle. On ne peut en général pas
annuler ce risque sauf si on prend l’intervalle maximum [0, 1].
Le problème que l’on se pose est de trouver le meilleur intervalle d’estimation (par exemple le plus
30

court possible) qui est associé à un risque fixé α que l’on ne veut pas dépasser.
La méthode consiste à définir pour toute valeur p̂ de l’estimateur de p un intervalle [p1 , p2 ] sus-
ceptible de contenir p̂ avec une probabilité 1 − α fixée a priori.
Une fois la valeur particulière de f de p̂ observée à partir de l’échantillon on peut déterminer les
bornes de l’intervalle de confiance recherché .
On peut montrer que pour une valeur f observée l’intervalle de confiance au niveau 1 − α est dans
le cadre de l’approximation normale (nf (1 − f ) ≥ 8) :
" r r #
f (1 − f ) f (1 − f )
[f1 , f2 ] = f − v α2 , f + v α2
n n

où vβ est le fractile supérieur d’ordre β de la loi normale centrée réduite.


Attention. Il faut vérifier cependant que l’on est toujours dans le cadre de l’approximation
normale c’est-à-dire que (nf1 (1 − f1 ) ≥ 8) et que (nf2 (1 − f2 ) ≥ 8).

Application 2.1.1 Donner l’intervalle associé à f au niveau de confiance 0, 95 pour p la valeur


observée étant f = 0, 086 .
Cet intervalle est appelé intervalle de confiance bilatéral au risque de 5%.
Réponse : On a : v0,025 = 1, 96 et donc l’intervalle de confiance est [0, 039, 0, 132].

Application 2.1.2 De la même façon, donner pour p un intervalle de confiance au risque de 1%.

Réponse : On a : v0,005 = 2, 5758 et donc l’intervalle de confiance au niveau 99 % est [0, 025, 0, 147].
Dans le cas où l’approximation normale n’est pas satisfaite on utilise les abaques de confiance
bilatéral et une taille d’échantillon n l’abaque de la loi binomiale

Application 2.1.3 On observe un échantillon de n = 50 étudiants dans la même population, on


observe N = 6 gauchers, donner un intervalle de confiance au niveau 0, 95% pour la proportion de
gauchers dans la population.

Réponse :
On sélectionne sur l’abaque de la loi binomiale pour le niveau de confiance 0, 95% pour l’intervalle
bilatéral les 2 courbes n = 50, on indique en abscisse f = 0, 12 on trace la verticale passant par f ,
on obtient en relevant les 2 points d’intersection l’intervalle [0, 04, 0, 23].

Estimation par intervalle unilatéral.


Il est parfois préférable de donner un intervalle de valeurs de la forme [0, p2 ] ou [p1 , 1] qui
devrait contenir la vraie valeur, inconnue, p.

Définition 2.1.3 Cet intervalle est appelé intervalle de confiance unilatéral à gauche ou à droite.

On peut montrer que pour une valeur f observée l’intervalle de confiance à gauche au niveau
1 − α est dans le cadre de l’approximation normale (nf (1 − f ) ≥ 8) :
" r #
f (1 − f )
[0, f2 ] = 0, f + vα
n
31

où vβ est le fractile supérieur d’ordre β de la loi normale centrée réduite, dans le cas d’un intervalle
de confiance unilatéral à droite au niveau 1 − α, l’intervalle de confiance est alors :
" r #
f (1 − f )
[f1 , 1] = f − vα ,1 .
n

Application 2.1.4 Donner un intervalle de confiance unilatéral à gauche au niveau de confiance


0, 95 pour le même exemple.
Réponse :
On a : v0,05 = 1, 6449 et donc l’intervalle de confiance à gauche au niveau 95% est [0, 0, 125].
Dans le cas où l’approximation normale n’est pas satisfaite on utilise les abaques de la loi bino-
miale.
On sélectionne pour un niveau de confiance 1 − α donné pour un intervalle de confiance unilatéral et
une taille d’échantillon n l’abaque de la loi binomiale correspondante, on porte en abscisse la valeur
f observée on trace la verticale passant par f et on obtient l’intervalle de confiance en relevant en
ordonnée le point d’intersection avec la courbe.

Application 2.1.5 On observe un échantillon de n = 50 étudiants dans la même population, on


observe N = 6 gauchers, donner un intervalle de confiance unilatéral à gauche au niveau 0, 95%
pour la proportion de gauchers dans la population.
Réponse :
On sélectionne sur l’abaque de la loi binomiale pour le niveau de confiance 0, 95% pour l’intervalle
unilatéral la courbe n = 50, on indique en abscisse f = 0, 12 on trace la verticale passant par f , on
obtient en relevant le point d’intersection l’intervalle [0, 0, 27].

2.1.2 Estimation d’une moyenne


Définition 2.1.4 Un estimateur Ĉ d’une caractéristique c est dit sans biais, si l’on a E(Ĉ) = c.

Dans un centre agricole, on a constaté que la masse d’un oeuf choisi au hasard peut être
considérée comme la réalisation d’une variable aléatoire X de Laplace-Gauss de moyenne µ et
d’écart-type σ, ces paramètres a priori inconnus dépendant de l’alimentation. On suppose que la
masse d’un oeuf est indépendante de celle des autres. On prend au hasard 36 oeufs et on les pèse ;
les 36 valeurs relevées sont données dans le tableau suivant :
50.41 52.62 53.79 54.99 55.82 57.67
51.34 53.13 53.89 55.04 55.91 57.99
51.51 53.28 54.63 55.12 55.95 58.10
52.07 53.30 54.76 55.24 57.05 59.30
52.22 53.32 54.78 55.28 57.18 60.58
52.38 53.39 54.93 55.56 57.31 63.15

Cette série statistique ainsi obtenue, à savoir (x1 , x2 , . . . , xn ) est donc considérée comme la réalisation
d’un échantillon (X1 , X2 , . . . , Xn ) de la variable aléatoire X de loi N (µ, σ) , dite échantillon gaussien-
.

Application 2.1.6 1. Calculer la moyenne x et la variance v 2 empirique notée aussi σ 2n .


Réponse : x = 55, 083 et v 2 = 6, 995
32

2. On suppose que ces valeurs sont des résultats de variables aléatoires notées x et v 2 .
Donner une estimation “sans biais” des paramètres µ et σ 2 de la loi de probabilité des
observations.
Pour la moyenne d’une loi
1
x = (x1 + x2 + · · · + xn )
n
est un estimateur sans biais de la moyenne tandis que l’estimateur empirique de la variance
1
σ 2n = ((x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2 )
n
n’en est pas un.
Pour obtenir un estimateur sans biais de la variance on définit un estimateur appelé variance
corrigée d’échantillon noté s2 ou
1
σ 2n−1 = ((x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2 ).
n−1
La raison de ce choix est liée au fait qu’é la fois la moyenne et la variance sont inconnues.
3. On peut en déduire une estimation s du paramètre σ.
n
Réponse : x = 55, 083 et s2 = n−1 v 2 = 7, 1951 et s = 2, 6824.
4. Si on connaı̂t exactement les paramètres µ et σ, la loi de probabilité de X est une loi normale
de moyenne µ et d’écart-type √σn .
Si on ne connaı̂t que l’échantillon et si on suppose que la dimension n de l’échantillon est
supérieure ou égale à 30, la loi approchée de X est une loi normale de moyenne x et d’écart-
type √sn .
Réponse :
Si l’on suppose que la dimension n de l’échantillon est supérieure ou égale à 30 on peut
considérer dans le cas où on ne connaı̂t que l’échantillon, qu’approximativement X ∈ N (55, 083, 0, 4471

Estimation par intervalle d’une moyenne


La méthode consiste à définir pour toute valeur de l’estimateur X un intervalle [x1 , x2 ] sus-
ceptible de contenir X avec une probabilité 1 − α fixée a priori.
Une fois la valeur particulière x de X̂ observée à partir de l’échantillon on peut déterminer les
bornes de l’intervalle de confiance recherché ; on distinguera les 2 situations estimation à variance
connue et estimation à variance inconnue.
Variance σ 2 connue
Si (X1 , X2 , . . . , Xn ) est un échantillon gaussien N (µ, σ) de même moyenne µ inconnue et de va-
riance σ 2 connue, on peut donner alors un intervalle de confiance au niveau 1 − α pour la moyenne
d’un oeuf grâce à la formule :
 
σ σ
x − v α2 √ , x + v α2 √ .
n n

Application 2.1.7 En supposant que l’écart-type est connu et vaut 3, 2g donner un intervalle de
confiance au niveau 95 % puis 98 % pour la moyenne de la masse d’un oeuf.
33

Réponse :
v0,025 = 1, 96 et [54, 038, 56, 128] pour le niveau de confiance 95% et v0,01 = 2, 3263 et [53, 842, 56, 323]
pour le niveau de confiance 98%.

Variance σ 2 inconnue
Si (X1 , X2 , . . . , Xn ) est un échantillon gaussien N (µ, σ) de moyenne µ inconnue et de variance σ 2
inconnue, on peut donner alors un intervalle de confiance au niveau 1−α pour la moyenne d’un oeuf
grâce à la formule suivante valable à condition que la taille de l’échantillon soit au moins égale à 30 :
 
s s
x − v α2 √ , x + v α2 √
n n
où s2 est la variance corrigée d’échantillon.

Application 2.1.8 En supposant que l’écart-type est inconnu et estimé donner un intervalle de
confiance au niveau 95% puis 98% pour la moyenne de la masse d’un oeuf.
Réponse :
v0,025 = 1, 96 et [54, 207, 55, 959] pour le niveau de confiance 95% et v0,01 = 2, 3263 et [54, 043, 56, 123]
pour le niveau de confiance 98%.

2.2 Tests
2.2.1 Test d’une proportion
Test d’une proportion -cas d’un test bilatéral-
Des études antérieures ont montré que le pourcentage des gauchers dans l’ensemble de la po-
pulation marocaine est de 10%. En d’autres termes, on suppose que si on choisit un individu au
hasard dans la population marocaine, la probabilité que cette personne soit gauchère est p0 = 0, 10.
On se demande si cette hypothèse est vérifiée pour les étudiants de Sciences.
On suppose que la proportion de gauchers parmi les étudiants de sciences est p (valeur inconnue de
nous ) et on veut tester si p est égal à p0 . ou différent de p0 .
On observe alors un groupe de n étudiants de DEUG-Sciences et on fait l’hypothèse que, pour ce
caractère de latéralité, cet échantillon est représentatif de la population marocaine (tout étudiant
de DEUG–Sciences est, indépendamment des autres étudiants, soit gaucher, avec la probabilité p
soit droitier, avec la probabilité 1 − p).
On prend un échantillon constitué de l’ensemble des étudiants présents actuellement dans la
salle où se tient ce cours (la taille N est donc à expliciter).
On note η (resp. F ) la v.a. égale au nombre (resp. à la proportion) de gauchers que l’on va trouver
dans cet échantillon : F = Nη .
Si la réalisation f de la variable F est voisine de p0 on aura tendance à accepter cette hypothèse,
si f est éloignée de p0 on sera amené à la refuser, on cherche donc un intervalle de la forme [f1 , f2 ]
contenant p0 tel que si f appartient à cet intervalle on accepte l’hypothèse sinon on la refuse.
1. Si p0 est la proportion de gauchers parmi les étudiants en sciences.
Quelle est la loi exacte de η puis la loi approchée de η et de F ainsi que l’espérance mathématique
de ces variables aléatoires.
34

Réponse :
N ∈ B(n, p0 ) pour les effectifs, F ∈ B(n, p0 ) pour les fréquences et dans le cadre de l’approxi-
mation normale (np0 (1 − p0 ) ≥ 8)
 p 
N ∈ N np0 , np0 (1 − p0 )

et r !
p0 (1 − p0 )
F ∈N p0 , .
n
2. p0 étant toujours la proportion de gauchers parmi les étudiants en sciences, soit α un nombre
positif compris entre 0 et 1.

(a) Déterminer alors 2 régions [0, f1 [ et ]f2 , 1] telles que


α
P(F < f1 ) <
2
où f1 est le plus grand possible et
α
P(F > f2 ) <
2
où f2 est le plus petit possible.
(b) Expliciter le calcul avec α = 0, 05.
Réponse :
Dans le cadre de l’approximation normale :
" r r #
p0 (1 − p0 ) p0 (1 − p0 )
[f1 , f2 ] = p0 − v α2 , p0 + v α2
n n

où vβ est le fractile supérieur d’ordre β de la loi normale centrée réduite.


On considère les 2 hypothèses :
Hypothése à tester H0 : p = p0 ,
Hypothése alternative H1 : p 6= p0

On se place du point de vue des partisans de l’hypothèse H0 . Pour les faire changer d’avis, il faut
pouvoir les convaincre, c’est-à-dire que les faits observés contredisent nettement la validité de H0 .
Les partisans de H0 décident qu’ils ne sont pas prêts à accepter H1 que si la probabilité de se
tromper dans ce cas ne dépasse pas α que l’on peut choisir égal à 0, 05.
Si H0 est vraie, F a une probabilité supérieure à 1 − α d’être dans l’intervalle [f1 , f2 ].
Pour cette raison on met en oeuvre le test de la manière suivante :
Si la réalisation f n’est pas dans l’intervalle [f1 , f2 ], on dit alors que f est dans la région critique
notée C, on optera pour H1 avec une probabilité α de se tromper. Si la réalisation f est dans
l’intervalle [f1 , f2 ], on optera pour H0 faute de preuves suffisantes.

Exemple 2.2.1 Pour α = 0, 05, n = 250, p0 = 0, 10 et N = 30. Déterminer f1 et f2 , N/n


appartient–il à l’intervalle [f1 , f2 ].
35

Réponse :
Dans le cadre de l’approximation normale :
" r r #
p0 (1 − p0 ) p0 (1 − p0 )
[f1 , f2 ] = p0 − v α2 , p0 + v α2 ,
n n

ce qui donne :
[f1 , f2 ] = [0, 063, 0, 137],
on remarque que f = 0, 12, f appartient à l’intervalle [f1 , f2 ].
On décide de conserver l’hypothèse H0 , mais rien ne dit que l’on ne se soit pas trompé. Si les
partisans de H1 ont raison, étant donné la règle de décision adoptée, on commettrait une erreur
chaque fois que la réalisation f est en dehors de [f1 , f2 ], c’est-à-dire que la probabilité de se tromper
est alors
PH1 (F ∈ [f1 , f2 ]),
c’est l’erreur de deuxième espèce .
Les 2 hypothèses ne jouent pas des rôles symétriques, f1 et f2 sont déterminés uniquement par
H0 et α.
L’erreur de première espèce est

α = PH0 (F ∈ C) = P(F ∈ C tel que H0 est vraie)

L’erreur de deuxième espèce est

β = PH1 (F 6∈ C) = (F 6∈ C tel que H1 est vraie)

Décision
Réalité H0 H1
H0 Conforme Erreur de 1ére espéce
H1 Erreur de 2ème espéce Conforme
Ces erreurs sont antagonistes, Car on diminue l’erreur de première espèce en diminuant le région
critique C, mais alors l’erreur de deuxième espèce augmente.

Test d’une proportion -cas d’un test unilatéral-


On considère les 2 hypothèses :

Hypothése à tester H0 : p = p0 ,
Hypothése alternative H1 : p > p0

On construit fc le plus petit possible tel que

P(F > fc ) < α.

Il s’agit ici d’un test unilatéral. La région de rejet C est toute entière située à l’extrémité droite de
l’intervalle [0, 1]
36

1. Soit α un nombre positif compris entre 0 et 1. Déterminer alors la région telle que P(F >
fc ) < α.
Réponse :
Dans le cadre de l’approximation normale :
r
p0 (1 − p0 )
fc = p0 + vα .
n
2. Expliciter le calcul avec α = 0, 05 et l’exemple précédent.
Réponse :
Dans le cadre de l’approximation normale :

v0,05 = 1, 6449

et
fc = 0, 131.

Test d’une proportion -cas de H0 simple et H1 simple-


Parmi deux hypothèses en présence concernant la valeur inconnue p, laquelle doit-on retenir
comme bonne ?
Le QUID donne cette double information : le pourcentage de gauchers est de 10%, mais tombe
à 4% parmi les scientifiques. Mettant en doute cette information, on désire la tester au vu d’un
échantillon de n = 540 étudiants considérés comme scientifiques -les étudiants de DEUG !
On a donc en présence deux hypothèses concernant la proportion p de gauchers parmi les scien-
tifiques :

l’hypothése H0 H0 : p = 0, 10 (hypothése dite nulle -ou privilégiée-)


Hypothése alternative H1 : p = 0, 04 (hypothése alternative).

et parmi ces deux hypothèses, une seule est juste mais on ignore laquelle.
Le test consiste à définir sur quelle statistique on se base pour prendre cette décision de choix
entre H0 et H1 , et quelles sont les valeurs de cette statistique qui conduiront à rejeter H0 au bénéfice
de H1 .
On note encore F la variable aléatoire égale à la proportion de gauchers dans un échantillon de
taille n.
1. Quelle est la loi approchée de F sous chacune des hypothèses H0 et H1 ?
Réponse : p p
F ∈ N (0, 10, 0, 10(1 − 0, 10)/540) sous l’hypothèse H0 , F ∈ N (0, 10, 0, 04(1 − 0, 04)/540)
sous l’hypothèse H1 . On choisit le risque de première espèce α à 0,05, probabilité de décider
H1 si H0 est l’hypothèse vraie.
2. Dans quel intervalle [0, fc ] doit se situer le pourcentage observé f de gauchers sur les 540
étudiants pour rejeter H0 .
Quelle est donc la décision concernant p ?
Réponse :
On cherche fc le plus grand possible tel que PH0 (F < fc ) = 0, 05, le fractile inférieur 0, 05 de
la loi normale est égal à −1, 6459, on a donc fc = 0, 07876.
37

3. Quel est alors le risque de seconde espèce, c.é.d. la probabilité de décider H0 alors que H1 est
vraie ?
Réponse :
On calcule PH1 (F > fc ) = 1 − G(4, 59) ' 0.

2.2.2 Test d’une moyenne


Si (X1 , X2 , . . . , Xn ) est un échantillon gaussien N (µ, σ) de moyenne µ inconnue et de variance
2
σ connue ou inconnue suivant le cas, on peut alors effectuer des tests d’hypothèses comme pour
les proportions.
Dans le centre agricole, on avait constaté que la masse d’un oeuf suivait une loi normale de moyenne
53g et d’écart-type 3.2g.
Les mesures des masses des 36 oeufs ont été effectuées à la suite d’un changement d’alimentation.
On se demande si on peut admettre, au vu de l’observation de cet échantillon, que la moyenne est
toujours 53g (l’écart-type restant de 3.2g).
1. Tester au seuil 5% puis 2% l’hypothèse

H0 : µ = µ0 = 53g

contre
H1 : µ = µ0 = 56g
Il s’agit ici d’un test d’hypothèses simple au risque α. On détermine d’abord une valeur mc
la plus petite possible telle que
P(X > mc ) < α,
on accepte H0 si x ≤ mc et on refuse H0 dans le cas contraire.
On a
σ
mc = µ0 + vα √
n
puisque la variance est connue.
Réponse :
On a v0,05 = 1, 6459 et mc = 53, 878 pour le seuil 5% et v0,02 = 2, 0537 et mc = 54, 095 pour
le seuil 2%
On a x = 55, 0830 on refuse donc l’hypothèse aux 2 seuils.
2. Dans les mêmes conditions, tester au seuil 5% puis 2% l’hypothèse

H0 : µ = µ0 = 53g

contre
H1 : µ = µ0 6= 53g
Il s’agit ici d’un test bilatéral au risque α. On détermine un intervalle [m1 , m2 ] où m1 est la
valeur la plus grande possible telle que
α
P(X < m1 ) <
2
38

et m2 est la valeur la plus petite possible telle que


α
P(X > m2 ) < ,
2
on accepte H0 si x ∈ [m1 , m2 ] et on refuse H0 dans le cas contraire.
On a
σ σ
[m1 , m2 ] = [µ0 − v α2 √ , µ0 + v α2 √ ].
n n
Réponse :
On a v0,025 = 1, 96 et [m1 , m2 ] = [51, 955, 54, 045] pour le seuil 5% et v0,01 = 2, 3263 et
[m1 , m2 ] = [51, 762, 54, 237] pour le seuil 2%
On a x = 55, 0830 on refuse donc l’hypothèse au 2 seuils.
3. On suppose maintenant que le changement d’alimentation a aussi modifié l’écart-type. Tester
au seuil 5% puis 2% l’hypothèse
H0 : µ = µ0 = 53g
contre
H1 : µ 6= 53g
Il s’agit ici d’un test bilatéral au risque α. On détermine un intervalle [m1 , m2 ] où m1 est la
valeur la plus grande possible telle que
α
P(X < m1 ) <
2
et m2 est la valeur la plus petite possible telle que
α
P(X > m2 ) < ,
2
on accepte H0 si x ∈ [m1 , m2 ] et on refuse H0 dans le cas contraire.
On a
s s
[m1 , m2 ] = [µ0 − v α2 √ , µ0 + v α2 √ ]
n n
puisque la variance σ 2 inconnue est estimée par s2 . cette formule est valable à condition que
la taille de l’échantillon soit supérieure ou égale à 30 .
Réponse :
On a v0,025 = 1, 96 et [m1 , m2 ] = [52, 12, 53, 876] pour le seuil 5% et v0,01 = 2, 3263 et [m1 , m2 ] =
[51, 96, 54, 04] pour le seuil 2%
On a x = 55, 0830 on refuse donc l’hypothèse aux 2 seuils.
Remarque :
L’hypothèse que les variables aléatoires (X1 , X2 , . . . , Xn ) suivent des lois normales n’est plus
indispensable dés que n est supérieure ou égale à 30. Il suffit alors que les variables aléatoires
(X1 , X2 , . . . , Xn ) soient indépendantes, de même moyenne et de même variance.
Chapitre 3

Ajustement à une loi théorique - Test du


χ2

3.1 Test d’ajustement à une loi discrète connue


On dispose d’une population de plantes qui peuvent se différencier selon deux caractères héréditaires
A et B (par exemple la couleur des fleurs et l’aspect de la tige).
- Le caractère A admet deux modalités notées A (forme dominante) et a (forme récessive),
- Le caractère B admet deux modalités notées B (forme dominante) et b (forme récessive).
Bien entendu, pour chaque caractère, le génotype est défini par un couple de gènes ; par exemple
pour le caractère A la plante est de l’un des trois types (AA, Aa, aa). Elle est du phénotype A dans
les deux premiers cas et a dans le troisième cas.
On croise dans un premier temps des plantes (AA BB) avec des plantes (aa bb), ce qui donne
une première génération de plantes hybrides (Aa Bb). On croise entre-elles ces plantes de première
génération et on observe les plantes de seconde génération.
Cette deuxième génération fait apparaı̂tre 4 types de plantes, dont les phénotypes sont notés
AB, Ab, aB, ab.
Si les caractères se transmettent selon les lois de Mendel, les proportions théoriques des 4 phénotypes
sont 9/16, 3/16, 3/16, 1/16.
On observe un échantillon de 160 plantes et on obtient la répartition, selon les phénotypes, suivante :

Phénotypes AB Ab aB ab
Eff.observés 100 18 24 18

Au seuil 5% et vu de cet échantillon, peut-on admettre que les lois de Mendel sont vérifiées pour
ces caractères ?
L’adéquation entre l’hypothèse H0 “la loi de Mendel est vérifiée” et l’observation est mesurée par
la distance entre la distribution théorique et la distribution observée, c’est-à-dire par une fonction
des écarts entre les modalité observées Ni et les modalités théoriques nπ i des différentes situations.
9
Par exemple NAB = 100 est l’effectif observé pour le phenotype AB, tandis que π AB = 16 est la
probabilité d’avoir un individu de ce type, n = 160 est l’effectif total de l’échantillon, on a donc
nπ AB = 90.
La fonction retenue parmi toutes celles qui sont possibles, est la somme, pondérée par l’inverse des
40

effectifs théoriques, des carrés des écarts :


k
X (Ni − nπ i )2
∆=
i=1
nπ i

puisque la moyenne à observer d’individus de type i (AB) est nπ i (nπ AB = 90 )


On démontre en probabilité que, dans le cas où H0 est vraie, la fonction ∆ suit une loi du χ2 à ν
degrés de liberté, où ν est le nombre de modalités de la répartition diminué d’une unité, dans notre
exemple ν = 3, c’est le nombre de phénotypes diminué d’une unité.
Dans la formule précédente, la variable du χ2 mesure la distance entre les effectifs observés Ni et
les effectifs théoriques (nπ i ). une grande valeur de cette variable est symptomatique de la non-
concordance entre la distribution observée et le modèle théorique. En conséquence, il existe une
valeur c au delà duquel l’hypothèse H0 ne peut pas être retenue.
Lorsque α est fixé, ( α est le risque de rejeter l’hypothèse H0 alors qu’elle est vraie ), la valeur
critique c peut être lue dans la table des fractiles de la loi du χ2 à ν degrés de liberté.
Si ∆ > c cela signifie que l’on rejette l’hypothèse H0 , si non on l’accepte. Si l’on rejette H0 (∆ >
c ) cela signifie que les valeurs observés s’écartent significativement des effectifs théoriques que
permettait de prévoir la loi de Mendel.
Réponse : α = 5% , ∆ = 13, 51 , ν = 3 et c = 7, 81
L’hypothèse est rejetée, les effectifs observés différent significativement de ceux que la loi de Mendel
permettait de prévoir.

3.2 Test d’ajustement à une loi normale de paramètres


connus
On veut tester l’hypothèse, admise dans la fiche du chapitre 10, que la masse des oeufs est
distribuée selon une loi de Laplace-Gauss. Plus précisément on veut tester l’hypothèse que, le centre
agricole ayant choisi une certaine alimentation, la masse d’un oeuf suit une loi de Laplace-Gauss de
moyenne m = 53g et d’écart-type σ = 3, 2g.
Pour ce faire on considère un échantillon de 250 oeufs prélevés au hasard et pesés avec précision.
Les mesures sont données dans le tableau suivant :
Masse des oeufs (en g) Nb.d’oeufs
[44 − 48[ 19
[48 − 51[ 42
[51 − 53[ 58
[53 − 56[ 83
[56 − 61[ 48

- Calculer la probabilité qu’une variable aléatoire X suivant la loi normale N (53, 3, 2) se réalise
dans l’intervalle [44 − 48[.
- En déduire le nombre moyen de réalisations parmi 250 qui se réalisent dans cet intervalle
(effectif théorique).
- Faire les mêmes calculs pour les 4 autres classes.
- Calculer l’indicateur du χ2 entre la répartition observée et la répartition théorique.
41

- Si on fixe le risque d’erreur α (risque de rejeter l’hypothèse de normalité alors qu’elle est vraie)
à 0.05, quelle conclusion doit-on prendre ?
Ce qui change ici c’est le calcul des effectifs théoriques qui sont obtenus en utilisant la loi normale.
Réponse : α = 5% , ∆ = 4, 37 , ν = 4 et c = 9, 49
On peut préciser que les effectifs théoriques obtenus avec la loi normale de moyenne 53g et d’écart-
type 3, 2g sont :
14.16 , 51.73 , 58.50 , 81.44 , 42.01 .
L’hypothèse est acceptée.

3.3 Ajustement à une loi de Poisson de paramètre connu


On observe le nombre de fleurs par plant d’une certaine espèce. Peut-on dire que le nombre de
fleurs sur un plant suit la loi de Poisson de paramètre λ = 6, 5 si on a relevé les nombres suivants
sur un échantillon de 200 plants :

Nombre de fleurs Nombre de plants


de 0 à 4 48
5 25
6 33
7 ou 8 50
plus de 8 44

Ce qui change ici c’est le calcul des effectifs théoriques qui sont obtenus en utilisant la loi normale.
Réponse :
α = 5% , ∆ = 1, 18 , ν = 4 et c = 9, 49
On peut préciser que les effectifs théoriques obtenus avec la loi de poisson de paramètre λ = 6, 5
sont :
44.73 , 29.07 , 31.50 , 53.01 , 41.61 . L’hypothèse est acceptée.

3.4 Comparaison d’une répartition observée et d’une répartition


théorique
On admet que la répartition à Ouarzazate des individus selon leur groupe sanguin est la suivante :

Groupe sanguin A B AB O
en % 45.3 7.4 3.3 44

On a examiné un groupe de 360 individus et on a observé des pourcentages par groupe sanguin de :

Groupe sanguin A B AB O
% observés 43.2 8.2 6 42.6

- Traduire les pourcentages ci-dessus en effectifs.


- Peut-on admettre que le groupe observé est représentatif des individus vivant à Ouarzazate ?
42

Réponse : Il est indispensable de calculer avec des effectifs, on obtient :


α = 5% , ∆ = 8, 77 , ν = 3 et c = 7, 81
Les résultats obtenus conduisent à rejeter l’hypothèse.
Annexe : Calculs utiles pour tracer l’histogramme de l’exercice b

Masse des oeufs Nb. d’oeufs Largeur des classes Densité des observations
(en g) (Effectifs) (amplitude) (en effectifs) (en probabilité)
(xi ) (ni ) (Li ) (Hi = Lnii ) Hi
(hi = 250 )
(hauteurs des rectangles)
[44 - 48 [ 19 4 4,75 0,019
[48 - 51 [ 42 3 14 0,056
[51 - 53 [ 58 2 29 0,116
[53 - 56 [ 83 3 27,67 0,111
[56 - 61 [ 48 5 9,6 0,038