Académique Documents
Professionnel Documents
Culture Documents
ÉLÉMENTS DE
STATISTIQUES
POUR LES NON-INITIÉS
La statistique n’est pas une accumulation de chiffres. C’est un mode de pensée.
D. SCHWARTZ
JOÉ CLAUVIS DIFFO
ÉLÉMENTS DE STATISTIQUES
POUR LES NON-INITIÉS
Sommaire
SOMMAIRE
i
Sommaire
ANNEXES.......................................................................................................................................... 121
ii
Avant-propos
AVANT-PROPOS
L’on ne dressera pas ici l’histoire de la statistique, mais il peut être tout de même
signaler que longtemps réservée aux initiés, la statistique s’ouvre davantage aux
personnes n’ayant aucune base scientifique particulière dans cette discipline.
Cela dit, présenté en neuf chapitres, ce document de cours se veut, un guide pour
les futurs amateurs de la science statistique, et un repère pour usagers (non
statisticiens) désirant améliorer des connaissances statistiques parfois
« tronquées »(2). Certaines illustrations mentionnées dans ce support s’inspirent du
(1) On peut noter les noms des pionniers tels que Blaise Pascal, Jacques Bernoulli, Laplace, Gauss, Pearson,
etc.
(2) L’on pourrait illustrer ce propos par la confusion, très répandue entre histogramme et diagramme en
tuyaux d’orgues.
iii
Avant-propos
domaine sportif, car l'idée de rédiger ce manuel a été suscitée par des étudiants de
l’Institut National de la Jeunesse et des Sports (INJS) d’une part, et des enseignants
de cette institution d’autre part.
Ce support s’adresse à ceux qui, pour leurs recherches, leurs études, leurs
enseignements, leurs travaux, doivent procéder à des traitements de données
statistiques dans les domaines socio-économiques, démographiques, sportifs,
médicales… Aussi le texte présent a donc un objectif limité mais à mon avis
essentiel ; il s’agit de présenter des techniques d’analyse descriptive que je dis
« éléments » parce qu’elles sont sous-jacentes aux procédures plus complexes ou plus
raffinées (telles que l’analyse de la variance, l’analyse factorielle, etc.) auxquelles font
généralement allusion les statisticiens lorsqu’ils parlent d’ « analyse statistique ». J’ai
voulu rappeler ici cette vérité, un peu délaissée semble-t-il, que l’analyse statistique
commence avec les procédures de dénombrement et de calculs de moyennes et autres
caractéristiques de distributions, auxquelles se livrent en tout état de cause les
usagers lors de l’inspection « à vue » de leurs données ; et que ces procédures non
seulement sont aussi légitimes que les procédures « raffinées » (notamment
inférentielles) mais que, utilisées avec lucidité, elles peuvent ouvrir la voie à un
emploi plus judicieux de ces dernières.
Rédiger ce support a été un travail extraordinairement enrichissant et sans
l’expertise des groupes et de conseils, celui-ci n’aurait pas été possible.
Voilà pourquoi je veux remercier mes professeurs de l’ISSEA pour la qualité des
enseignements dispensés durant ma formation, et particulièrement à Michel Noé
Gui-Diby, Jeannot Mbangza et Djimrabaye Mandebaye qui m’ont encadré
respectivement dans le cadre des Cours de statistique descriptive (pour le premier) et
de statistiques mathématiques ; lesquels m’ont largement inspirés.
Je suis très reconnaissant à l’endroit de Victor Saïdou, Conférencier de la
Fédération Internationale des Associations d’Athlétisme (FIAA) et enseignant
permanent à l’Institut National de la Jeunesse et des Sports pour les commentaires
sur le manuscrit et l’apport des illustrations pratiques. Merci à Désiré Tioua pour sa
participation aux travaux de relecture.
Pour terminer, il faut souhaiter, à ce manuel, le large succès qu’il mérite pour
qu’il puisse connaître des éditions ultérieures, à chaque fois mises à jour, complétées,
et améliorées. Dans cette perspective, je serais très heureux de recueillir toutes les
critiques et suggestions que les lecteurs voudront bien me faire.
Statisticien Principal
E-mail : diffoclauvis@gmail.com
iv
Chapitre I : Introduction à la
Statistique
Sommaire
Introduction
Très tôt les hommes d’Etat ont ressenti la nécessité de connaître les
caractéristiques des pays qu’ils gouvernaient : nombre d’habitants, richesse, etc. Ce
besoin a donné naissance à une arithmétique d’Etat qui a pris le nom de statistique. Le
champ d’application de la statistique a maintenant largement dépassé ce stade, mais
son objet est resté fondamentalement le même : décrire par rapport à une feuille de
critères pertinents, un ensemble d’objets parfaitement déterminé. La méthode
consiste à construire des groupes d’objets ou d’individus homogènes vis-à-vis de
valeurs observées, des critères, puis à dénombrer chacun de ces groupes. L’art de la
statistique réside dans la présentation de l’information ainsi rassemblée.
Enfin, cette science n’a pas pour objet la connaissance des éléments des
ensembles dans ce qui fait leur individualité, mais au contraire dans ce qu’ils ont en
commun : il s’agit d’obtenir des résultats globaux.
Remarque : Il ne faut pas confondre la statistique qui est la science qui vient
d’être définie et une statistique qui est un ensemble de données chiffrées sur un sujet
précis.
L’analyse statistique permet aussi de mettre en lumière les liaisons qui existent
entre divers phénomènes : c’est l’objet des études de corrélation. Ces techniques
permettent de mesurer, par exemple, le degré de liaison observé entre l’évolution du
poids des athlètes et un régime alimentaire donné. Si l’on possède des indications sur
l’évolution future du poids d’un athlète dans une discipline sportive donnée – par
exemple, dans le cadre d’un plan ou programme de développement dudit sport – on
pourra en déduire une extrapolation raisonnée des performances.
Cependant, il ne faut pas être trop ambitieux. Il ne doit pas y avoir de lacune
dans l’information, mais il ne doit pas non plus y avoir trop d’information. L’on est
souvent submergé par des kilogrammes de tableaux sortis d’un ordinateur,
intéressants en principe, mais trop abondants pour qu’il soit question d’en tirer une
synthèse ou même de les lire.
Les données sont recueillies soit par observation directe, soit indirectement.
S’il s’agit d’observation directe, l’enquête est menée par les statisticiens, à des fins
uniquement statistiques. D’une manière ou d’une autre, cette enquête aboutit à des
questionnaires que le statisticien est ensuite emmené à dépouiller. Ces questionnaires
portent soit sur chaque unité statistique, soit déjà sur un groupe d’unités statistiques :
dans ce dernier cas, les résultats sont déjà sous forme de tableau.
La réalisation des questionnaires est délicate. Autant que possible, ils ne doivent
pas être trop longs, pour avoir plus de chances d’être remplis correctement ;
cependant ils doivent contenir toute l’information désirée. Par ailleurs, ils ne doivent
présenter aucune ambiguïté (aucune question qui pourrait être mal comprise). Il est
Les statistiques recueillies par observation indirecte sont des sous produits
d’autres travaux : statistiques d’une entreprise tirée de sa comptabilité, statistiques
des naissances et décès tirées de l’état civil, statistiques médicales tirées de l’étude
des dossiers des malades, statistiques des réussites tirées des livrets de notes des
élèves… Ce moyen est beaucoup plus économique que le précédent, et a souvent
l’avantage de recouvrir avec certitude toute la population à étudier. Cependant,
dans bien des organisations (entreprises, organismes publics ou non,
établissements...), il est nécessaire de faire prendre conscience à tous de l’utilité des
statistiques, de façon à ce qu’il n’y ait aucune réticence pour la transmission des
informations.
Références
Sommaire
Introduction
Les observations recueillies sur les indications et suivant les directives du
statisticien, constituent la source des informations statistiques. Pour être claires, ces
instructions doivent définir avec précision l’ensemble étudié et les critères qui en
permettent la description chiffrée par le classement de ses éléments en un certain
nombre de sous-ensembles.
2.1 Population
Une population est l’ensemble des unités statistiques ou individus étudiés par le
praticien de la statistique. Chaque observation faite par celui-ci porte sur une unité
statistique.
La population étudiée doit être définie avec précision de façon à ce que les
enquêteurs ou les différents intermédiaires qui concourent à l’observation des faits,
interprètent les instructions de la même façon.
2.2 Caractères
Pour décrire quantitativement une population, on s’efforce de classer les
individus qui la composent en un certain nombre de sous-ensembles. Cette opération
L’ensemble abstraite des années 1980 à 1990 pourra être caractérisé, du point de
vue d’une étude sportive générale, par les principaux flux et agrégats du milieu
sportif : nombre de compétition, nombre de participants, montant global du
sponsoring, chiffre d’affaires réalisé, etc. Du point de vue d’une organisation sportive
telle que le Comité National Olympique et Sportif Camerounais, le caractères retenus
pourraient être : le type d’organisation sportives nationale affilié, le nombre
d’athlètes licenciés par les différentes fédérations sportives nationales, le montant des
primes aux athlètes, etc.
2.3 Modalités
Le choix d’un caractère détermine le critère qui servira à classer les individus de
la population étudiée en deux ou plusieurs sous-ensembles. Le nombre de sous-
ensemble correspond aux différentes situations possibles ou modalités de ce
caractère.
Afin que le classement d’une unité statistique soit toujours possible sans
ambiguïté, les différentes modalités d’un caractère doivent être à la fois
incompatibles et exhaustives : un individu appartient à un, et un seulement, des
sous-ensembles définis par ces modalités. L’incompatibilité signifie qu’un individu
ne peut pas appartenir à la fois à deux ou plusieurs modalités, l’exhaustivité
implique que tous les cas ont été prévus.
Ainsi le caractère sexe a deux modalités qui déterminent dans une population le
sous-ensemble des individus masculin et le sous-ensemble des individus féminin.
Le nombre de modalités selon lequel on considère un caractère, peut être fixé plus
ou moins conventionnellement suivant la matière de l’information dont on dispose
ou l’objet de l’étude que l’on effectue. Ainsi, l’état matrimonial comporte
naturellement quatre modalités : célibataire – marié – veuf – divorcé. De nos jours, l’on
tend à y ajouter une cinquième modalité : union libre.
Mais, pour telle étude, on pourra se contenter de classer la population suivant les
deux modalités : marié – non marié. L’âge, par exemple, pourra être enregistré
suivant des modalités correspondant à des classes d’âge annuelles, quinquennales ou
décennales, selon la finesse de l’analyse désirée.
Il est courant qu’un tableau sortant d’un ordinateur ait des dizaines ou des
centaines de lignes et de colonnes, représentant un nombre imposant de feuillets. Ces
tableaux sont utiles pour l’analyse statistique détaillée, cependant il convient de
veiller à ne publier que des tableaux faciles à lire : leur clarté est en général plus
grande si les résultats sont suffisamment groupés ; une dizaine de lignes et de
colonnes constituent alors un nombre à ne pas dépasser, autant que possible : des
tableaux à 5 ou 6 lignes et 2 ou 3 colonnes sont d’ailleurs souvent plus parlants.
Exemple 1 : Lors d’une étude sur la résistance physique des athlètes de 17 à 20 ans
entraînés, on a mesuré la distance maximale parcourue par chaque athlète sélectionné en 15
minutes, et l’on a noté les distances limites dans chaque cas.
2711 2862 2851 2912 2922 2791 2825 2935 2895 2758
2915 2873 2926 2664 2800 2931 2722 2774 2903 2952
2853 2700 2885 2857 2844 2907 2917 2786 2820 2930
2789 2790 2753 2910 2847 2684 2936 2706 2758 2887
2941 2906 2784 2882 2859 2903 2925 2704 2092 2888
3090 3125 3268 3169 3169 3492 3206 3312 3382 3182
3263 3105 3259 3166 3116 3254 3308 3242 3287 3286
3192 3193 3260 3188 3188 3262 3508 3231 3190 3152
3214 3194 3201 3172 3172 3225 3389 3189 6298 3325
3289 3191 3213 3124 3124 3021 3290 3297 3086 3387
On choisit les classes, pas trop nombreuses pour que le tableau soit clair, mais
suffisamment pour qu’il n’y ait pas de perte d’information. Il importe que les classes
recouvrent tous les résultats et aient une intersection vide, d’où les formulations du
type « De… à moins de… » ; la différence entre les deux extrémités est appelée
amplitude de la classe.
Exemple 2 :
Les amplitudes de toutes les classes d’âge sont égales à 5 ans, sauf celles de
la dernière classe qui est indéterminée. 0, 5, 10, 15 ans, etc. sont les
extrémités ou bornes de classe.
0 à moins de 5 salariés ;
5 à moins de 10 salariés ;
10 à moins de 20 salariés ; etc.
Tableau 2. Répartition de l’effectif des stagiaires selon leur sexe et l’état matrimonial
Sexe
Hommes Femmes
Etat matrimonial
Remarque : Il faut cependant toujours avoir à l’esprit que tous les individus
appartenant à un même sous-ensemble sont équivalents ou semblables du point de
vue du phénomène étudié. C’est à cette réalité qu’est liée l’efficacité de la méthode
statistique.
Cette distinction est importante car les méthodes d’analyse d’une population
statistique diffèrent suivant la nature du caractère étudié : les modes de classement,
de représentation graphique ne sont pas les mêmes, seuls les caractères quantitatifs
se prêtent au calcul des caractéristiques de tendance centrale ou de dispersion, etc.
Quant aux modalités du caractère, elles pourront être très peu nombreuses :
contre dans un grand nombre de cas, ces nomenclatures n’auront rien d’obligatoire,
elles pourront varier d’un pays à l’autre, d’une enquête statistique à l’autre, elles
devront varier suivant les conditions socioéconomiques.
Pour les nomenclatures des professions, elles devront varier suivant le niveau de
développement du pays intéressé et le degré de complexité de la société. Il est
souvent pratique, surtout lorsque l’on recourt aux moyens modernes de traitement
automatique de l’information,, d’attribuer un nombre, le numéro de code, à chaque
rubrique.
13 Athlétisme
137 Lancé
1371 Lancé de poids
1372 Lancé de javelot
1373 Lancé de disque
1374 Lancé de marteau
6 Travailleurs à domicile
7 Salariés des services publics
8 Salariés de l’Etat et des collectivités locales
9 Chômeurs
On dit qu’un caractère est quantitatif lorsqu’il est mesurable (ou repérable).
A chaque unité statistique correspond alors un nombre qui est la mesure (la
valeur) du caractère (voir tableau 1). A ce nombre, on donne le nom de variable
statistique. Les modalités du caractère sont les valeurs possibles de la variable
statistique ou des regroupements de ces valeurs.
Une variable statistique est discrète lorsqu’elle ne peut prendre que certaines
valeurs isolées dans son intervalle de variation. Il s’agit, en général, de nombres
entiers.
Exemple 9 :
Soit les valeurs possibles de la variable statistique lorsque celle-ci sont peu
nombreuses, en regroupant éventuellement les valeurs peu fréquentes.
Pour le cas des enfants à charge d’une famille, les modalités retenues
Distances en mètres
Dépouillement Effectif
Moins de 2700. . . . . . .
3400 et plus. . . . . . . . .
Total . . . . . . . . . 100
Une variable statistique est continue lorsqu’elle peut prendre toutes les valeurs à
l’intérieur de son intervalle de variation. Ce nombre de valeurs possible est toujours
infini. Il est donc nécessaire, avant de classer les observations, de définir les
modalités du caractère en regroupant en classes les valeurs possibles de la variable
statistique.
Exemple 10 :
Exemple 10 : (suite)
Références
Sommaire
Introduction
Après classement suivant le (ou les) caractère(s) retenu(s), les observations
forment une distribution ou série statistique. Le terme de série est assez souvent
réservé aux distributions des observations dans le temps : il est alors synonyme de
série chronologique, série temporelle ou chronique.
Les distributions statistiques les plus simples sont naturellement les séries à un
seul caractère : elles sont présentées sous forme de tableaux statistiques à une
dimension (ou à simple entrée). Néanmoins, la lecture de ces tableaux, la synthèse
des informations qu’ils contiennent, est parfois assez difficile. Une distribution
statistique peut souvent être exprimée de façon beaucoup plus claire sous forme de
diagramme pour en réaliser une synthèse visuelle.
Fréquence
ni
La fréquence de la modalité Mi est définie par le rapport : fi
n
k
L’expression symbolique n
i 1
i s’énonce : « Somme, de i égale 1 à k, de ni ».
n1 n2 n n n ... nk
f1 f 2 ... f k ... k 1 2
n n n n
k
Symboliquement : f
i 1
i 1
Total n
L’origine du renseignement :
Exemple 3:
2006-2007 2007-2008
Catégories socioprofessionnelle Fréquence Fréquence
Effectif Effectif
(%) (%)
Très souvent les différentes modalités sont ordonnées sur un graphique dans le
sens des effectifs croissants ou décroissants.
Dans la représentation par secteurs (diagramme sectoriel), ces dernières ont une
aire, et par conséquent un angle au centre proportionnel aux effectifs des modalités
correspondants. Ce système de figuration permet de rendre sensible à la fois les
différences en valeur absolue et en valeur relative. L’angle au centre i de chaque
ni
modalité est égal au produit de la fréquence f i par 360° : i 360
n
2006-2007 2007-2008
Catégories socioprofessionnelle Fréquence Fréquence
Effectif Effectif
(%) (%)
50
45
40
35
30
25
20
15
10
5
0
Salariés Patrons Professions Employés Autre catégories
agricoles libérales et
cadres
2006-2007 2007-2008
r12 115 r
1,13 1 1, 06
r2 102
2
r2
Le rapprochement des aires des différents secteurs permet les comparaisons des
effectifs en valeur absolue : ainsi, il apparaît que les populations des arbitres et
commissaires sportifs ayant exercé pour le compte du championnat MTN élite One à
la Fédération camerounaise de football sont du même ordre de grandeur, la
considération des angles au centre des secteurs rend possible, au contraire, les
comparaisons en valeur relative : la part des patrons est beaucoup plus élevée au
cours de la saison sportive 2007-2008 qu’au cours de la saison 2006-2007, celle des
salariés agricoles étant quasiment identique.
a) Diagrammes figuratifs
D’une façon générale, si l’on désire rendre moins austère la représentation d’un
caractère qualitatif, il est préférable d’utiliser des diagrammes en tuyaux d’orgue ou
en secteurs et d’illustrer ceux-ci par des silhouettes suggestives.
b) Cartogrammes
Pour représenter des effectifs ou des quantités, il semble donc, en règle générale,
préférable de recourir à des surfaces représentatives, par exemple des cercles,
centrées sur l’unité géographique correspondante et proportionnelle aux effectifs.
Les différentes modalités sont constituées par les valeurs possibles de la variable
discrète. En face de chacune de ces valeurs, on fait figurer l’effectif correspondant.
C’est le cas, par exemple, de la distribution des ménages selon le nombre d’enfants.
Exemple 5 : Au cours d’une étude sur les revenus des ménages camerounais, on a
relevé, dans l’optique d’évaluer la taille du ménage, le nombre d’enfants à charge. La
population étudiée est l’ensemble des ménages visités. La variable statistique est le
nombre d’enfants par ménage.
a) Fréquence
Le tableau est souvent complété, pour permettre les comparaisons entre les
populations d’effectifs différents - par exemple, avec une étude qui aurait inclus 5
081 ménages, pour l’indication de la fréquence f i correspondant à chaque valeur xi
de la variable discrète :
ni
fi (100)
n
F1 f1
F2 f1 f 2
…
k
Fk f1 f 2 ... f h ... f k ou symboliquement : Fi fi
i 1
Les valeurs de Fi sont, par conséquent, obtenues dans le tableau statistique par
additions successives des fréquences f i .
x1 n1 f1 F1 f1
x2 n2 f2 F1 f1 f 2
. . . .
. . . .
. . . .
i
xi ni fi
Fi f h
h 1
. . . .
. . . .
. . . .
k
xk nk fk
Fk f h
h 1
k k
Total n
h 1
h n f
h 1
h 1 /
k
Par définition, la somme des fréquences est égale à l’unité : f
h 1
h 1 ; et la
fréquence cumulée est nulle pour les valeurs de xi inférieures à la plus petite valeur
observée, et égale à 1 pour celles supérieures ou égales à la plus grande valeur
observée.
a) Diagramme en bâtons
Exemple 5 : (suite)
800
700
Effectifs
600
500
400
300
200
100
0
0 1 2 3 4 5 et plus
Nombre d'enfants
b) Courbe cumulative
Exemple 5 : (suite)
90
75
60
45
30
15
0 xi
0 1 2 3 4 5
Par suite, F ( x) est nulle pour les valeurs de x inférieures à la plus petite valeur et
égale à 1 pour les valeurs de x supérieures à la plus grande valeur observée. Ces
propriétés que l’on remarque graphiquement, s’expriment conventionnellement de la
façon suivante :
F () 0 et F () 1
Fréquences
Classe de salaire Effectifs Fréquence f i
cumulées
(en 103 F CFA) ( ni ) (en %) ( Fi )
a) Fréquence
k
Fk f1 f 2 ... f h ... f k ou symboliquement : Fi fi
i 1
Dès lors, la forme générale d’un tableau statistique relatif à une variable continue,
complète par l’indication des fréquences (relatives) et des fréquences cumulées, est
celle du tableau statistique reproduit ci-après.
Comme pour les variables discrètes, deux types de représentation graphique sont
possibles pour les séries statistiques continues :
1 e0 x e1 n1 f1 F1 f1
2 e1 x e2 n2 f2 F1 f1 f 2
. . . . .
. . . . .
. . . . .
i
i ei 1 x ei ni fi Fi f h
h 1
. . . . .
. . . . .
. . . . .
k
k ek 1 x ek nk fk Fk f h 1
h 1
k k
Total / n
h 1
h n f
h 1
h 1 /
a) Histogramme
26 10
15 à moins de 35 20 26 13
20
33 10
35 à moins de 45 10 33 33
10
64 10
45 à moins de 55 10 64 64
10
7 10
55 à moins de 65 10 7 7
10
10 10
65 à moins de 85 20 10 5
20
Total / 140 /
Figure 5. Histogramme de la distribution des salaires des ouvriers selon le salaire mensuel
ni
60 ai
50
20
40
Polygone des
fréquences
30
20
20
10
x
0 15 35 45 55 65 85
Plus encore que le tableau de répartition, l’histogramme obtenu peut faire penser
que les résultats données ne sont pas homogènes : il est probable en effet qu’il existe
deux groupes d’ouvriers différents, ou que certains ouvriers ont été choisis selon des
critères différents des autres : la répartition des salaires fait apparaître une première
population d’ouvriers dont les salaires vont de 15 000 à 55 000 F et une autre, mieux
payée, mais moins nombreuse dont les salaires varient entre 55 000 à 85 000 F.
En pratique, on procédera comme suit dans le cas d’une série dont les amplitudes
sont inégales :
ei ei 1
Expression des amplitudes dans cette nouvelle unité : ai
fi
La hauteur hi des rectangles représentatifs de chaque classe est égale à :
ai
de sorte que la surface des rectangles représentatifs Si est égale à la
fi
fréquence de la classe correspondante f i ; on a : Si ai hi ai fi
ai
b) Courbe cumulative
Les observations étant groupées par classe, on ne connaît de cette fonction que les
valeurs qui correspondent aux extrémités supérieures ( ei ) des classes et pour
lesquelles elle est égale à la fréquence cumulée Fi : F (ei ) Fi .
C’est une courbe non décroissante. Elle est égale à zéro pour les valeurs de x
inférieures à la plus petite valeur possible et égale à 1 pour les valeurs supérieures à
la plus grande ; ce que l’on note symboliquement par : F () 0 et F () 1
Figure 6. Courbe cumulative de la répartition des salaires des ouvriers selon le salaire
mensuel net
F(x)
100
75
50
25
0
15 35 45 55 65 85 x
F(x)
0
x
F(x)
0
x
Références
Sommaire
Introduction
Pour l’étude de certains phénomènes complexes, il s’avère insuffisant de prendre
en compte un seul caractère : il en faut considérer simultanément deux ou même
davantage. Naturellement, l’analyse des tableaux statistiques correspondant et leur
représentation graphique deviennent plus difficiles. La représentation graphique
globale d’une distribution à deux caractères quantitatifs n’est strictement possible,
par exemple, que dans l’espace à trois dimensions. On est donc conduit, en
définissant les distributions marginales et conditionnelles, à ramener la
représentation d’une distribution à plusieurs dimensions à celle d’une distribution à
un seul caractère ou à adopter certaines conventions.
On n’étudiera que les séries statistiques à deux caractères. Elles sont présentées
sous forme de tableaux statistiques à deux dimensions (ou à double entrée). On
généraliserait aisément les méthodes indiquées au présent chapitre à la présentation
des séries comportant plus de deux caractères.
ni. est le total des effectifs de la ligne i, la sommation étant effectuée sous l’indice
l
j : ni. ni1 ni 2 ... nij ... nil nij
j 1
n. j est le total des effectifs de la colonne j, la sommation étant cette fois effectuée
k
suivant l’indice i : n. j n1 j n2 j ... nij ... nkj nij
i 1
Caractère Y
Y1 Y2 … Yj … Yl Totaux
Caractère X
X1 n11 n12 … n1 j … n1l n1.
Xk nk 1 nk 2 … nkj … nkl nk .
n.. est le total. On l’obtient en effectuant la sommation, soit ligne par ligne, soit
l k l k
colonne par colonne : n.. nij n. j ni.
j 1 i 1 j 1 i 1
Exemple 1.
Age (ans)
25 à 30 à 35 à 40 à 45 à 50 à
Moins 55 et
moins moins moins moins moins moins Totaux
Rémunération de 15 plus
de 30 de 35 de 40 de 45 de 50 de 55
(FCFA)
Moins de 80 000 207 121 38 17 10 2 7 3 405
80 000 à moins de 90000 302 481 513 103 86 6 10 2 1503
90 000 à moins de 100 000 18 526 682 567 613 431 105 60 3002
100 000 à moins de 120 000 111 342 298 416 480 226 37 1910
120 000 à moins de 150 000 1 3 182 227 263 98 18 792
150 000 à moins de 200 000 18 22 13 12 5 70
200 000 et plus 1 14 6 7 5 33
Totaux 527 1240 1578 1186 1388 1201 465 130 7715
En adoptant les mêmes conventions d’écriture que pour les effectifs nij , on
indique par un point les totalisations effectuées suivant l’indice i ou l’indice j :
l l nij ni. k k n n
fi. fij ; f. j fij ij . j f i. est le total des fréquences de la ligne i, et
j 1 j 1 n n i 1 i 1 n n
f. j est le total des fréquences de la colonne j.
l k l k
Comme pour les distributions à un caractère : fj 1 i 1
ij f. j f i . 1
j 1 i 1
Exemple 1: (suite)
Tableau 2. Distribution des fréquences des ouvriers selon l'âge et la rémunération mensuelle
Age (ans)
25 à 30 à 35 à 40 à 45 à 50 à
Moins 55 et
moins moins moins moins moins moins Totaux
Rémunération de 15 plus
de 30 de 35 de 40 de 45 de 50 de 55
(FCFA)
Moins de 80 000 2,7 1,6 0,5 0,2 0,1 0,0 0,1 0,0 5,2
80 000 à moins de 90000 3,9 6,2 6,6 1,3 1,1 0,1 0,1 0,0 19,5
90 000 à moins de 100 000 0,2 6,8 8,8 7,3 7,9 5,6 1,4 0,8 38,9
100 000 à moins de 120 000 1,4 4,4 3,9 5,4 6,2 2,9 0,5 24,8
120 000 à moins de 150 000 0,0 0,0 2,4 2,9 3,4 1,3 0,2 10,3
150 000 à moins de 200 000 0,2 0,3 0,2 0,2 0,1 0,9
200 000 et plus 0,0 0,2 0,1 0,1 0,1 0,4
Totaux 6,8 16,1 20,5 15,4 18,0 15,6 6,0 1,7 100,0
Ainsi, dans l’exemple précédent (tableau 2), 5,2% des ouvriers ont une
rémunération mensuelle inférieure à 80 000 F CFA, 19,5% une rémunération
comprise entre 80 000 et 90 000 F CFA, etc. C’est la distribution marginale selon la
rémunération : l’âge n’intervient pas.
La distribution marginale du caractère Y est, quant à elle, définie par les sommes
en colonne. La fréquence marginale de la modalité du Y j caractère Y est égale à :
n.j
f. j . Dans l’exemple précédent, 6,8% des ouvriers ont moins de 25 ans, 16,1% ont
n
un âge compris entre 25 et 30 ans, etc.
Exemple 1: (suite)
Tableau 3. Distribution conditionnelle de l'âge des ouvriers liée par la rémunération mensuelle
Age (ans)
25 à 30 à 35 à 40 à 45 à 50 à
Moins 55 et
moins moins moins moins moins moins Totaux
Rémunération de 15 plus
de 30 de 35 de 40 de 45 de 50 de 55
(FCFA)
Moins de 80 000 51,1 29,9 9,4 4,2 2,5 0,5 1,7 0,7 100,0
80 000 à moins de 90000 20,1 32,0 34,1 6,9 5,7 0,4 0,7 0,1 100,0
90 000 à moins de 100 000 0,6 17,5 22,7 18,9 20,4 14,4 3,5 2,0 100,0
100 000 à moins de 120 000 5,8 17,9 15,6 21,8 25,1 11,8 1,9 100,0
120 000 à moins de 150 000 0,1 0,4 23,0 28,7 33,2 12,4 2,3 100,0
150 000 à moins de 200 000 25,7 31,4 18,6 17,1 7,1 100,0
200 000 et plus 3,0 42,4 18,2 21,2 15,2 100,0
Totaux 6,8 16,1 20,5 15,4 18,0 15,6 6,0 1,7 100,0
nij
fi / j fi j f ( X i Y j )
n. j
Exemple 1: (suite)
Tableau 4. Distribution conditionnelle de la rémunération mensuelle des ouvriers liée par l'âge
Age (ans)
25 à 30 à 35 à 40 à 45 à 50 à
Moins 55 et
moins moins moins moins moins moins Totaux
Rémunération de 15 plus
de 30 de 35 de 40 de 45 de 50 de 55
(FCFA)
Moins de 80 000 39,3 9,8 2,4 1,4 0,7 0,2 1,5 2,3 5,2
80 000 à moins de 90000 57,3 38,8 32,5 8,7 6,2 0,5 2,2 1,5 19,5
90 000 à moins de 100 000 3,4 42,4 43,2 47,8 44,2 35,9 22,6 46,2 38,9
100 000 à moins de 120 000 9,0 21,7 25,1 30,0 40,0 48,6 28,5 24,8
120 000 à moins de 150 000 0,1 0,2 15,3 16,4 21,9 21,1 13,8 10,3
150 000 à moins de 200 000 1,5 1,6 1,1 2,6 3,8 0,9
200 000 et plus 0,1 1,0 0,5 1,5 3,8 0,4
Totaux 100,0 100,0 100,0 100,0 100,0 100,0 100,0 100,0 100,0
Remarque : Cette relation, connue dans le calcul des probabilités sous le nom de
formule des probabilités composées, jouera un rôle important dans l’étude de la
corrélation entre deux variables.
Il n’est pas possible, dans ce cas, de représenter les deux caractères de façon
absolument symétrique.
Statut Travailleurs
Patrons Salariés Ensemble
familiaux
Catégories
Effectif % Effectif % Effectif % Effectif %
socioprofessionnelles
Agriculteurs exploitants 28 583 38,5 - 0,0 35 481 88,7 64 064 31,3
Employés - 0,0 24 860 27,5 - 0,0 24 860 12,2
Personne de service 45 620 61,5 65 481 72,5 4500 11,3 115 601 56,5
Total 74 203 100,0 90 341 100,0 39 981 100,0 204 525 100,0
100 000
Effectif 90 000
80 000
70 000
60 000
50 000
40 000
30 000
20 000
10 000
0
Patrons Salariés Travailleurs familiaux
Catégorie professionnelle
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Patrons Salariés Travailleurs familiaux
Catégorie profesionnelle
Exemple 3 :
Age
(ans) Moins de 25 [25 ; 35[ [35 ; 50[ 50 et plus Total
Rémunération
(FCFA)
Moins de 80 000 153 121 38 17 329
[80 000 ; 100 000[ 486 481 289 85 1 341
[100 000 ; 150 000[ 201 526 430 254 1 411
150 000 et plus 100 111 342 198 751
Total 940 1 239 1 099 554 3 832
600
Effectif
500
400
300
200
100
0
Moins de 25 [25 ; 35[ [35 ; 50[ 50 et plus
Age (ans)
Moins de 80 000 [80 000 ; 100 000[ [100 000 ; 150 000[ 150 000 et plus
Si les deux variables étudiées sont quantitatifs et si la population étudiée est peu
nombreuse, on peut représenter pour chaque individu le couple de valeurs x et y qui
lui est attaché. Dans ce cas, la représentation graphique consiste à porter sur un
diagramme cartésien les points de coordonnées x et y correspondant aux divers
individus.
Exemple 3 : Lors d’une étude sur la résistance physique de 30 enfants âgés entre
10 et 15 ans entraînés, on a mesuré la distance maximale parcourue par chaque
enfant sélectionné en 9 minutes, et l’on a noté les distances limites dans chaque cas.
900
800
Y
700
600
500
400
300
200
100
0
9 10 11 12 13 14 15 16
X
b) Les points représentatifs sont, au contraire, bien nuagés le long d’une courbe
(droite, arc de cercle, arc d’ellipse, morceau d’hyperbole…). Une loi
rigoureuse préside alors aux relations entre les deux variables. Ainsi, dans
certaines limites, la longueur Y d’un ressort est proportionnelle à la force X qui
s’exerce sur lui : la courbe représentative de Y en fonction de X est une droite.
A chaque valeur de x, correspond une valeur de y : on dit qu’il y a liaison
fonctionnelle entre Y et X. Dans l’exemple 3, s’il les distances maximales
parcourues étaient fonction de l’âge de l’enfant, elles se distribueraient
rigoureusement selon la première bissectrice.
Références
Sommaire
Introduction
Il ne suffit pas d’un grand regard sur le tableau 1 du chapitre 2 ou le tableau 4 du
chapitre 3 ou sur les graphiques 3 et 5 du chapitre 3 pour connaître et analyser la
répartition des distances maximales parcourues par les athlètes âgés de 17 à 20 ans
ou celle des ménages camerounais selon le nombre d’enfants. Un tableau statistique
ou un graphique sont parfois long à consulter, sans permettre d’avoir une idée
suffisamment concise de la distribution statistique observée. On cherche alors à
résumer celle-ci par une caractéristique de tendance centrale, c’est-à-dire par un seul
nombre destiné à caractériser l’ensemble d’une façon objective et impersonnelle.
Les calculs indiqués dans ce chapitre devraient être réalisés sur des données
énumérées. L’on reprendra pour illustration certains tableaux figurant aux chapitres
précédents. Lorsqu’il s’agit d’une variable continue dont les réalisations sont
groupées en classes (confère tableau 3 du chap. 2), l’on se ramène au cas discret au
prix d’une approximation.
Sur les données du tableau 1 du chapitre 2, l’on effectue la somme des distances :
on divise ensuite cette somme par 100 ; d’où la moyenne : x = 3 058,11 qu’il convient
d’arrondir à 3 058 m.
x1 x2 ... xn
La formule générale est pour n observations x1 , x2 ,..., xn : x
n
n1 x1 n2 x2 ... nt xt f x f x ... f t xt
x 1 1 2 2
n1 n2 ... nt f1 f 2 ... ft
n x f x
i i i i
x i 1
t
i 1
t
n
i 1
i f
i 1
i
i 1
, , , (et même, s’il n’y a aucune ambiguïté,
i 1 1
) sont des manières de plus en
plus abrégées, d’indiquer que l’on effectue une somme de t termes, identiques à
celui qu’introduit le symbole, mais différant par l’indice : i prenant successivement
toutes les valeurs entières de 1 à t .
0 240 0 0
1 570 570 570
2 410 820 1 640
3 730 2190 6 570
4 480 1920 7 680
5 et plus 610 3965 25 772,5
Total 3 040 9 465,0 42 232,5
Seuls les colonnes (1) (2) et (3) du tableau sont nécessaires ici. La colonne (4) sera
utilisée plus loin). Pour la classe « 5 et plus », la valeur de la variable choisie a été 6,5.
On a la moyenne :
t
n x i i
9465
x i 1
t
3,11
3040
n 1
i
Si la variable est continue et si les données sont groupées comme dans le tableau 6
du chapitre 3, on ne peut que rechercher arbitrairement une moyenne à l’intérieur de
chaque classe ; à défaut d’autre renseignement, on choisit le « centre de classe » ( xi
pour la classe i ) qui est la moyenne arithmétique des extrémités de la classe. Le
calcul est effectué comme si tous les individus d’une classe avaient pour le caractère
le centre de classe, avec toute la part d’approximation que cela comporte.
Centre
Classe Effectif Effectif
Effectifs de x x0
de ni xi nx 2
i i x i
'
i
'
ni x
i nx '2
i i cumulé cumulé
ni classe a
salaire xi
« moins « plus
en 103 F de » de »
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
15 0 140
26 25 0650 16 250 -3 -78 234
35 026 114
33 40 1 320 52 800 0 0 0
45 059 81
64 50 3 200 160 000 2 128 256
55 123 17
07 60 0420 25 200 4 28 112
65 130 10
10 75 0750 56 250 7 70 490
85 140 0
Total 140 250 6 340 310 500 148 1 092
n x i i
6340
On a alors x i 1
t
45, 286 , soit 45 286 F CFA.
140
ni1
Les colonnes (5), (6), (7), (8), (9) et (10) sont utilisées plus loin.
Signalons ici que quelques fois, le calcul de la moyenne telle que présenté à
l’exemple 1 peut conduire à une perte de précision de la moyenne due au
regroupement des données en classes et au choix du centre de classe comme
moyenne de la classe : comme tous les « résumés » que permet la science statistique,
ce regroupement représente une perte d’information. Cependant, l’esprit humain
n’est pas capable de considérer toutes les données à la fois ; c’est la forme résumée –
moins précise – qui lui est seule accessible.
Le calcul qui vient d’être présenté s’effectue aisément à l’aide d’une machine à
calculer, surtout si celle-ci peut garder en mémoire les sommes de produits.
Certaines, machines programmables fournissent d’ailleurs directement la moyenne et
d’autres caractéristiques, même dans le cas des données groupées. Si l’on ne dispose
pas de machine, on peut simplifier le calcul en faisant un changement de variable ; la
variable auxiliaire :
xi x0
xi'
a
x ax ' x0
Sur le tableau 2, x0 a été choisi à 40 (centre d’une classe situé à peu près au milieu
de la répartition et suffisamment nombreuse) et a égale à 5, (pour que les xi' soient
entiers). Les xi' obtenus (colonnes 6) sont plus simples que les xi .
Remarque : Si les classes avaient été d’amplitudes égales, il aurait été facile
d’avoir une variable auxiliaire plus simple encore. Le fait d’avoir des classes
d’amplitudes inégales constitue un danger pour le calcul, car le contrôle est moins
aisé ; si les classes sont d’amplitudes égales, la variable auxiliaire prend des valeurs
entières successives.
148
x' 1, 06
140
Démonstration :
n (x
i i x ) ni xi ni x
n
ni ( xi x ) ni xi ni x
n
ni ( xi x ) nx nx
ni ( xi x ) 0
Propriété 2 : La somme des carrés des écarts des observations à la moyenne est
inférieure à la somme des carrés des observations des écarts par rapport à toute autre
valeur.
Démonstration :
La somme des carrés des écarts par rapport à une valeur quelconque X dépend
de la valeur X : c’est le trinôme de second degré en X : S ( X ) ni ( xi X )2 (1)
Ce trinôme de second degré est minimum lorsque sa dérivée par rapport à X est
nulle c’est-à-dire. S '( X ) 2 ni ( xi X ) 0
2 ni ( xi X ) 0
ni ( xi X ) 0
ni xi ni X
nx nX
xX
Démonstration :
Soient n1i et n2i les nombres d’individus respectifs des sous populations P1 et P2 .
Dans la population P correspondant à xi est ni n1i n2i .
Par définition de la moyenne, les moyennes des sous populations ont pour
expression :
1 k 1 k 1 k
x1 n1i xi , x2 n2i xi et la moyenne totale x ni xi
n1 i 1 n1 i 1 n i 1
k k k
1 1
x
n1 n2
(n
i 1
1i n2i ) xi ( n1i xi n2i xi )
n1 n2 i 1 i 1
1
x (n1 x1 n2 x2 )
n1 n2
n1 x1 n2 x2 nx nx n n
x 1 1 2 2 1 x1 2 x2
n1 n2 n1 n2 n1 n2 n n
d’où x f1 x1 f 2 x2 avec f1 f 2 1
1 l
nh xh i 1 f h xh avec n i 1 nh i 1 h i 1 f h 1
i l i l i l n i l n
Ph : x
n i 1 n n
1 n
log G log( xi )
n i 1
1 4 89, 22193
log G n i log xi 22 4,05554
n 1
D’où G 104,05554 11364 F
Soit une variable statistique pouvant prendre k valeurs x1 ,..., xi ,..., xk auxquelles
correspondent respectivement des effectifs n1 ,..., ni ,..., nk .
S
La 1ère année, le spéculateur a acheté q1
5400
S
La 2ème année, le spéculateur a acheté q2
5500
S
La 3ème année, le spéculateur a acheté q3
5800
S
La 4ème année, le spéculateur a acheté q4
6400
D’où Dm pm q
4S pm (q1 q2 q3 q4 )
S S S S
4S pm ( )
5400 5500 5800 6400
1 1 1 1
4S pm S ( )
5400 5500 5800 6400
4
pm 5749,876
1 1 1 1
5400 5500 5800 6400
080 3
120 5
140 2
Total 10
D
D vt v
t
3D 5D 2D
or t1 , t2 et t3
80 120 140
10 D 10
v 107 d’où la vitesse moyenne v est égale à 107
3D 5 D 2 D 3 5 2
80 120 140 80 120 140
km/h.
Soit une variable statistique pouvant prendre k valeurs x1 ,..., xi ,..., xk auxquelles
correspondent respectivement des effectifs n1 ,..., ni ,..., nk .
n n 1
H
n1 n2 n ni fi
k k
... k i 1 i 1
x1 x2 xk xi xi
k
ni
Avec fi
n
et f
i 1
i 1
5.1.2 Mode
Le mode ou valeur modale est la valeur que la variable statistique prend le plus
fréquemment.
Dans le cas d’une variable discrète, le mode peut être trouvé immédiatement, au
vu du tableau des fréquences ou des effectifs.
Il peut arriver que la classe modale ne soit pas celle où l’effectif apparaît, sur le
tableau, le plus élevé. En effet, cette dernière classe peut avoir une amplitude plus
grande qu’une autre dont l’effectif par unité d’amplitude, est plus élevé. Sur l’exemple
du tableau 2, si la classe 45 à moins de 65 figurait, son effectif serait 71, supérieur à
celui retenu pour la classe modale. Mais ramené à l’unité d’amplitude, l’effectif n’est
7110
plus que : 35,5
20
1
M 0* ei 1
1 2
1
2
x Variable
continue
0 1 M 0*
5.1.3 Médiane
La médiane d’une série statistique est une valeur de la variable telle qu’il y ait
autant d’observations ayant une valeur supérieure à la médiane que d’observations
ayant une valeur inférieure à la médiane.
Ainsi, si nous considérons les cinq premières valeurs des distances maximales
parcourues par les athlètes de 17 à 20 ans en 15 minutes (tableau 1 du chapitre 2) :
2711, 2915, 2853, 2789, 2941
Ces valeurs peuvent être rangées selon les grandeurs croissantes :
2711, 2789, 2853, 2915, 2941
La valeur 2853 est telle que deux observations ont une valeur inférieure, et deux
autres une valeur supérieure : c’est la médiane.
Lorsque les observations sont toutes données, il suffit donc de les classer par
ordre de grandeurs croissantes (ou décroissantes), et de prendre celle qui se trouve
au milieu. Si le nombre des observations est pair, la médiane peut être théoriquement
l’une quelconque des valeurs comprise entre les deux valeurs centrales observées ; le
plus souvent, on choisit leur demi-somme.
Si par contre les observations sont groupées en classes, il est nécessaire de recourir
aux effectifs – ou aux fréquences – cumulé(e)s.
Les résultats sont les colonnes 9 et 10 du tableau 2 (chapitre 5). Les effectifs
cumulés doivent être disposés en face des extrémités de classe (et non des centres de
classe). On lit, par exemple, que 81 ouvriers ont un salaire mensuel de plus de 45 000
F. il est possible d’effectuer une représentation graphique des effectifs cumulés. Dans
la pratique, on se contente des effectifs cumulés dans un seul sens.
120 « moins de »
« Plus de »
90
70
30
Salaire mensuel (en F)
0
15 30 45 60 75 90
M = 46 718
Fréquence cumulée
« moins de »
100
75
50
25
0
0 1 2 3 4 7 Nombre d’enfants
Médiane par ménage
123 D
m’
70 C
m
59
A
45 Me 55 x
Avec les notations de la figure 3, Amm ' et ACB sont semblables et :
Am m ' m
AC BC
45 59
M 70
55 123
M 45 70 59
D’où :
55 45 123 59
70 59
Soit : M 45 (55 45) 46, 718
123 59
C’est-à-dire : 46 718 F
Cette valeur peut être lue sur le graphique des effectifs cumulés correspondant à
l’effectif 70 : on lit 46 718 F. Signalons que les courbes cumulées dans les deux sens
ont pour point d’intersection la médiane : celle-ci est en effet telle que 50% de
l’effectif ait une taille inférieure à elle (« moins de ») et 50% ait une taille qui lui soit
supérieure (voir figure 1).
Il est donc important de résumer une série statistique non seulement par les
caractéristiques de tendance centrale, mais par des caractéristiques de dispersion.
Nous en définirons de deux sortes : celles liées à la moyenne : écart absolu moyen et
écart-type ; celles liées à la médiane : écart interquartile, écart interdécile, etc.
L’idée qui est à retenir pour l’élaboration des caractéristiques liées à la moyenne
est celle d’écart à la moyenne. Pour chaque valeur de la variable x , on calcule l’écart
de cette valeur à celle de la moyenne x ; on cherche ensuite à résumer ces écarts en
calculant une moyenne.
-5 -3 0 3 5
-50 -25 0 25 50
Il est impossible de résumer ces écarts par leur moyenne arithmétique, puisque
par définition même de x :
n ( x x ) n x n x nx nx 0
i i i i i
Cependant, la simple vue des deux lignes d’écarts calculés plus haut montre que
ceux-ci caractérisent convenablement la dispersion. On a alors recours à la moyenne de
valeurs absolues des écarts, c’est l’écart absolu moyen.
e
x xi
e
ni xi x
n
16
Pour la première série observée, on a : e1 3, 2 ; et pour la deuxième :
5
150
e2 30
5
5.2.2 Ecart-type
5.2.2.1 Définition
V
n (x x )
i i
2
n i
V
n (x x )
i i
2
n i
25 9 0 9 25
v1 13, 60 3, 69
5
6250
et pour la deuxième : v2 1250 35,36
5
Les rapports entre les écarts-types des deux séries sont voisins des rapports entre les
écarts absolus moyens. Ces deux séries donnent pratiquement les mêmes
informations. Pour les raisons exposés au § 5.2.1, l’on préfère en général l’écart-type.
Développons :
S ni ( xi x )2 ni xi2 2ni xi x x 2
ni xi2 2 x ni xi x 2
or, n x
i i nx
1
S ni xi2 ( ni xi )2
n
1 1 n x2
V
n
ni xi2 n ( ni xi )2 n
i i
( x )2
La variance est égale à la moyenne des carrés moins le carré de la moyenne. Ce résultat
simplifie considérablement les calculs nécessaires pour obtenir la variance et l’écart-
type ; c’est sous cette forme que le théorème de Kœnig est utilisé dès qu’on dispose
d’une machine à calculer. Signalons cependant sa forme la plus générale, x0 étant
quelconque :
S ni ( xi x0 )2 n( x x0 )2
d’où : V
ni ( xi x0 )2
( x x0 )2
ni
Cette formule permet d’utiliser une variable auxiliaire (cf. 5.1.1.1.c) de la forme :
xi x0
xi'
a
V ( x) a 2V ( x ')
Par définition de la moyenne, les moyennes des sous populations ont pour
expression :
1 k 1 k 1 k
x1 n1i xi , x2 n2i xi et la moyenne totale x ni xi
n1 i 1 n1 i 1 n i 1
Pour chaque xi ni ni ni 1 2
1
De même, 22
n2
n
i
i2 ( xi x )2 ( x2 x ) 2 aaaaa(2)
1
2 ni ( xi x )2
n i
1
2 (ni1 ni2 )( xi x )2
n1 n2 i
1 1
2
n1 n2
n
i
i1 ( xi x ) 2
n1 n2
n
i
i2 ( xi x ) 2
n1 n2
2 12 ( x1 x )2 22 ( x2 x ) 2
n1 n2 n1 n2
n1 n2 n1 n2
2 12 22 ( x1 x )2 ( x2 x )2
n1 n2 n1 n2 n1 n2 n1 n2
l
n1 n2
si f1
n1 n2
, 00000 f 2
n1 n2
avec f
j 1
j 1
2 j 1 f j 2j j 1 f j ( x j x )2
l l
on a :
42232,5 310500
(3,11) 2 (45, 29) 2
3040 2, 05 140 12,93
0, 66 (tableau 1) 0, 29 (tableau 2)
3,11 3,11 45, 29 45, 29
la série des salaires apparaît peu dispersée, parce que toutes les observations sont
« relativement » voisines de la moyenne. Par contre, la série du nombre d’enfants par
ménage a un fort coefficient de variation ; cela tient à ce qu’il s’agit d’une série
dissymétrique : beaucoup de ménages ont 0, 1 ou 2 enfants (moins de la moyenne) ;
au-dessus de 3 enfants, il y a en quelque sorte un émiettement des ménages entre
4…6 enfants.
n
10
, 2n 10 , …, 5n 10 ,…. 9n 10 pour les déciles ; le 5ème décile est la médiane,
n
100
, 2n 100 , …, 50n 100 ,…. 99n 100 pour les centiles ; le 50ème centile est la médiane.
Pour une variable statistique continue, les calculs s’effectuent comme ceux
concernant la médiane.
35 26
Q1 35
45 59
Q1 35 35 26 35 26
D’où : Ce qui donne : Q1 35 (45 35) 37, 727 Soit 37 727 F.
45 35 59 26 59 26
Q3 45 105 59
De même, on peut trouver pour le 3ème quartile :
55 45 123 59
105 59
D’où : Q1 45 (55 45) 52,188 Soit 52 188 F.
123 59
On calculerait de la même manière les déciles.
Reprenons l’exemple du nombre d’enfants par ménage, dont les effectifs cumulés
figurent au tableau 5. on lit directement :
D1 2600 10 0 D9 3200 90 73
On a : D1 2718 m et D9 3294 m
2800 2600 17 0 3300 3200 91 73
En éliminant les 10% les plus longues et les 10% les moins longues, les distances
maximales parcourues par les athlètes sont réparties à l’intérieur d’une « plage » de
576 m. Ainsi, l’intervalle D9 D1 qui contient 80% des observations est parfois
employé au même titre que l’intervalle (ou écart) interquartile comme mesure de la
dispersion.
Q1 2800 25 17 Q3 3200 75 73
Ainisi : Q1 2848 m et Q3 3211 m
3000 2800 50 17 3300 3200 91 73
On peut faire les mêmes calculs pour une variable discrète. Les résultats sont
sensiblement moins intéressants. En effet, il est fréquent que les quartiles ou les
déciles soient égaux à la médiane.
Q3 Q1
L’écart « semi-interquartile » :
2
Q3 Q1
L’écart « interquartile relatif » :
M
3) Pour éviter les erreurs dans l’élaboration des tableaux d’effectifs cumulés, il
est recommandé de se référer à la signification de ces effectifs.
4) Il est souvent utile de contrôler des calculs algébriques par une méthode
graphique, ou réciproquement (calcul de la médiane et des autres
caractéristiques de position).
Références
Sommaire
Introduction
Dans le chapitre précédent, les séries statistiques étudiées étaient des séries
simples ; on étudiait une population selon un seul caractère. Cependant, il est
souvent utile de considérer à la fois plusieurs caractères de la même population : la
taille, l’âge et le poids d’un groupe d’enfants, le salaire et la qualification d’un groupe
de salariés ; le format et le nombre de page de publications ; la température et la
pression d’un milieu à différentes heures…
1 k
x ni. xi
n.. i 1
1 k
V (X ) ni. ( xi x )2 .
n.. i 1
D’une façon analogue, la dernière ligne du tableau 1, qui contient les effectifs n. j ,
constitue la distribution marginale de Y . Par conséquent, si X (ou Y ) est une variable
continue, xi (ou y j ) est choisi, par convention, égal au centre de la classe
correspondante, comme pour le calcul de la moyenne et de l’écart-type des séries
statistiques à une seule variable :
1 l
y n. j y j
n.. j 1
1 l
V (Y ) n. j ( y j y )2 .
n.. j 1
Sous population
P1 P2 … Pj … Pl
Caractère Y
Y1 Y2 … Yj … Yl Totaux
Caractère X
Exemple 1 : Soit la distribution suivante des usines d’un groupe financier selon
l’âge et la rémunération mensuelle (tableau 2).
1
Moyenne marginale de R : r ni.ri 1008, 6 F.
n i
1
Variance marginale de R : V ( R) ni. (ri r )2 36350 F.
n i
R 109,7 F
La distribution marginale selon l’âge A de ces mêmes ouvriers est donnée par la
ligne (2) de ce tableau. Les caractéristiques de cette distribution ont pour valeurs :
1
Moyenne marginale de A : a n. j a j 37, 4 ans
n j
1
Variance marginale de A : V ( A) n. j (a j a )2 84, 22 F.
n j
A 9, 2 ans
(1) L’on recommande au futur praticien d’effectuer lui-même ces calculs en remplissant les colonnes et
lignes supplémentaires du tableau 2.
Tableau 2. Nombre d’ouvriers répartis suivant l’âge et la rémunération mensuelle. Janvier 2000.
n r ij i
rj i
n. j
a j nij ri
i
(1) Cette colonne indique la distribution marginale des ouvriers suivant la rémunération mensuelle.
(2) Cette ligne indique la distribution marginale des ouvriers suivant l’âge.
k k
1 1
xj
n. j
n x
i 1
ij i et Vj ( X )
n. j
n (x x ) .
i 1
ij i j
2
1 l 1 l
yi nij y j
ni. j 1
et Vi (Y ) nij ( y j yi )2 .
ni. j 1
Caractéristiques marginales
r = 1 008,5 V ( R) = 36 347 R = 190,7
(tous âges)
On remarque, par exemple, que les écarts-type sont plus faibles pour les jeunes
ouvriers que pour ceux qui sont plus âgés : la population jeune est, comme il est
naturel, plus homogène du point de vue de la rémunération.
Les distributions conditionnelles des ouvriers selon l’âge lié par la rémunération
sont constituées, au contraire, par les lignes du tableau 2. Les caractéristiques
conditionnelles correspondantes font l’objet du tableau 4.
6.1.3 Covariance
1
cov( X , Y ) nij ( xi x )( y j y ).
n i j
La covariance est nulle si les deux variables sont indépendantes. Cette grandeur
interviendra dans l’étude de la liaison entre deux variables et, notamment, dans celle
de la corrélation linéaire.
Calcul pratique
Formule développée
1
cov( X , Y ) nij ( xi x )( y j y )
n i j
1 1 1 1
cov( X , Y )
n i j
nij xi y j y . nij xi x . nij y j xy . nij
n i j n i j n i j
or par définition :
n
i j
ij n
n x n x
i j
ij i
i
i. i nx
n
i j
ij y j n. j y j ny
i
d’où
1
cov( X , Y ) nij xi y j xy
n i j
Changement de variable
xi x0 y j y0
xi' , et y 'j
1
cov( X , Y ) nij ( xi x )( y j y )
n i j
1
Ainsi : cov( X , Y ) nij ( xi' x ' )( y 'j y ' )
n i j
cov( X , Y ) cov( X ' , Y ' )
Soit des l sous-populations P1 , P2 ,..., Pl d’effectifs n.1 , n.2 ,..., n.l , correspondant aux
distributions conditionnelles de X liées par Y ;
Soit des k sous-populations P1' , P2' ,..., Pk' d’effectifs n1. , n2. ,..., nk . , correspondant
aux distributions conditionnelles de Y liées par X .
1 l
x n. j x j
n.. j 1
1 k
y ni. yi
n.. i 1
1 l 1 l
V (X )
n.. j 1
n. jV j ( X ) n. j ( x j x ) 2 .
n.. j 1
1 k 1 k
V (Y )
n.. i 1
ni.Vi (Y ) ni. ( yi y ) 2 .
n.. i 1
Ainsi une partie de la variance totale de X (ou de Y ) peut-elle être expliquée par
la variance des moyennes conditionnelles (2e facteur). La variance moyenne résultant
des hétérogénéités propres à chacune des distributions conditionnelles (1er facteur)
apparaît alors comme une variance résiduelle.
Comme l’on vient de voir, ce dernier résultat est l’un des éléments de la
distribution marginale des x j : cette distribution – comme la distribution marginale
des yi - peut être traitée comme une série simple. On définit en particulier la
moyenne y , la variance V ( y) et l’écart-type y .
De même, l’une quelconque des lignes ou des colonnes du tableau peut être
interprétée comme une distribution conditionnelle.
Tableau 5. Répartition des distances parcourues par 200 véhicules après un coup de frein, selon la vitesse du véhicule.
x vitesse (km/h) [70 – 80[ [80 – 90[ [90 – 100[ [100 – 110[ [110 – 120[ ni. yi ni. yi ni. yi2 n x
j
ij j xy yi nij x j
j
On constate, sur la figure 4 (chapitre IV), que les points représentatifs de la série
des distances ne sont pas rigoureusement alignés, mais qu’ils forment un « nuage de
points » relativement allongé. Il n’est pas alors dépourvu de sens de chercher si l’on
peut déterminer une droite qui résume, approximativement, l’ensemble des points. La
recherche d’une telle droite est un ajustement linéaire.
Les autres ajustements peuvent être réalisés de façon plus objective, par exemple
en utilisant les points extrêmes (dans le cas de l’exemple 4, les points représentant les
familles 10 et 2) ou les moyennes de certains groupes de résultats. Lorsqu’il s’agit de
séries chronologiques (1), il est usuel de réaliser un ajustement linéaire par de telles
méthodes : on détermine la droite passant par les points représentatifs de la première
et de la dernière date, ou par les points dont les coordonnées sont des moyenne (par
exemple annuelles) calculées aux deux extrémités.
(1) Séries doubles dans lesquels le temps (chrono, en grec) est l’une des variables.
La méthode des moindres carrés présente un caractère plus rigoureux que les
précédentes. Elle consiste à rechercher une droite telle que la somme de ses
« distances » aux différents points représentant les données soit minimale. Le mot
distance est pris au sens large (expression satisfaisant à l’inégalité des distances). La
« distance » choisie est le carré de la différence des ordonnées entre chaque point et le
point de la droite ayant même abscisse (1).
La méthode des moindres carrés peut être utilisée pour n’importe quelle série
double. Quelle que soit cette série, saufs cas exceptionnels (points représentatifs
disposés en carrés de même centre), il existe une droite d’estimation par la méthode
des moindres carrés. Pour s’assurer d’une façon objective (et non purement visuelle)
que l’ajustement est valide, on calcule le coefficient de corrélation linéaire dont l’usage
cov( x, y )
sera justifié plus loin : r
x y
i xi yj x i2 y i2 xi y j
(1) On appelle parfois la droite ainsi obtenue : droite de régression de y en x. Cette dénomination sera évitée
ici, car la courbe de régression est l’ensemble des points qui, pour une abscisse donnée x, ont pour ordonnée la
moyenne conditionnelle y x cf. 6.4.
59, 60
x 4,97 5 unités de consommation,
12
127
y 10,58 10, 6 103 calories,
12
319, 46
V ( x) (4,97)2 1,95 x 1,95 1, 40 unités de consommation
12
1495,50
V ( y) (10,58)2 12,62 y 12,62 3,55 103 calories
12
on calcule de même :
682,06
cov( x, y) 4,97 10,58 4, 26
12
cov( x, y) 4, 26
r 0,86
x y 1, 40 3,55
sans indiquer une très bonne précision (il faudrait qu’il soit supérieur à 0,95), ce
coefficient autorise l’ajustement linéaire.
Propriétés
En effet, si x 0 et y 0 :
a r y / x 0 pour r 0
a ' r x / y 0 pour r 0
Ainsi, sur la figure suivante, il n’y a pas indépendance entre X et Y , mais bien
liaison fonctionnelle. Cependant, les droites d’ajustement sont parallèles aux axes de
coordonnées et r 0 . Cet exemple montre bien que le coefficient de corrélation
linéaire ne doit être utilisé pour caractériser l’intensité de la corrélation que dans le
cas où celle-ci est approximativement linéaire.
Droite d’ajustement
Y de X en Y
Droite d’ajustement de Y en X
X
P2. Le coefficient de corrélation linéaire est compris entre + 1 et – 1.
P3. Si les variables X et Y sont liées par une relation fonctionnelle linéaire, le
coefficient de corrélation est égal à –1 ou + 1.
yi axi b
On a :
r 1 si a 0 (liaison directe)
r 1 si a 0 (liaison indirecte).
yi yˆi yi axi b
b y ax
et a
( x x )( y y ) x y
i i i i n.x . y
(x x )i
2
x 2
i nx 2
cov( x, y) cov( x, y) y
a r
V ( x) x 2
x
yˆ y a( x x )
cov( x, y ) cov( x, y )
a
V ( x) x2
4, 26
a 2,18
1,95
Effectuer le tracé de cette droite sur une figure où serait préalablement représenté
le nuage de points.
Le lecteur aura peut-être remarqué que le calcul précédent fait jouer un rôle
dissymétrique aux variables x et y . Or, rien, au niveau de la statistique, ne permet
de dire si l’une des variables dépend de l’autre (1). Il est alors aussi logique de
recommencer les calculs précédents, mais en inversant les rôles des deux variables.
xˆ x a '( y y )
cov( x, y) cov( x, y)
avec a' r x
V ( y) y 2
y
xˆ 5 0,34( y 10,6)
yˆ 2 10,6 3( x 5)
r2 a a '
Si les deux droites étaient identiques, r serait en valeur absolue égal à 1. ( a et a '
inverses l’une de l’autre).
(1) Au niveau d’un raisonnement sur les données, certains estiment peut-être que le nombre de calories
consommées dépend du nombre d’unités de consommation et non le contraire. Mais ceci n’est pas indiqué par
les calculs statistiques.
Par contre, si | r | n’est pas très différent de zéro, c’est que les deux pentes a et
a ' sont loin d’être inverses l’une de l’autre, et par conséquent que les droites
d’ajustement sont sensiblement différents : les points représentatifs sont loin
d’être réellement alignés.
Le principe du calcul est le même, mais la présentation est moins aisée. C’est la
raison pour laquelle il est rare que ce calcul soit programmé sur une calculatrice
électrique de poche.
Pour la répartition des distances parcourues par des véhicules après un coup de
frein selon la vitesse, la présentation des calculs peut être celle du tableau 5. les
colonnes ni. yi , ni. yi2 et les lignes n. j x j et n. j x 2 permettent de calculer les caractéristiques
j
18.180 11.915
x 90,90 km/h y 59,58 m
200 200
y n x x n
i
i
j
ij j
j
j
i
ij yi nij xi yi
i j
1.109.875
cov( x, y) (90,90) (59,58) 133, 55
200
133,55
r 0,59
18,112,5
cov( x, y) 133,55
a 0,86
V ( x) 156,19
d’où l’équation :
cov( x, y) 133,55
a' 0, 41
V ( y) 327, 44
ces deux droites sont différentes ; par contre, elles ne sont pas très éloignées
chacune de la courbe de régression correspondante. Ce résultat explique – sans
l’excuser – la fréquente confusion entre « courbe de régression » et « droite
d’ajustement par la méthode des moindres carrés ».
y y y
Droite d’ajustement
de Y en X
Droite d’ajustement
Droite d’ajustement de Y en X
de X en Y
x x
x x x x
r0
r0 r 0
y
y y r (x x )
x
y
y* y r ( x0 x )
x
1 l
V ( y) n. j ( y j y )2
n j 1
Dans le second cas, cet indicateur est constitué par la moyenne des carrés des
écarts des valeurs observés à la droite d’ajustement :
y
2
1 k l
VR nij ( y j y ) r ( xi x )
n i 1 j 1 x
Cette quantité est minimum par définition même de la droite des moindres
carrés. Calculons la valeur de ce minimum :
1 k l y 1 k l
2
1 k l
VR nij ( y j y )2 2r nij ( y j y )( xi x ) r 2 2y nij ( xi x )2
n i 1 j 1 x n i 1 j 1 x n i 1 j 1
or :
1 k l 1 k
n i 1 j 1
nij ( xi x ) 2 ni. ( xi x ) 2 x2
n i 1
1 k l 1 l
n i 1 j 1
nij ( y j y ) 2 n. j ( y j y ) 2 y2
n j 1
1 k l
nij ( y j y )( xi x ) cov( x, y) r x y
n i 1 j 1
d’où :
y 2 2
VR 2r
2
r x y r 2 x
2 y
x
y
x
V ( y) VR V ( y) (1 r 2 )V ( y)
r2
V ( y) V ( y)
Il peut arriver que les points représentant une série double ne soient pas alignés,
mais soient voisins d’une courbe connue. On se sert alors en général de la méthode
des moindres carrés, mais en transformant au préalable l’une des variables. Ainsi, un
ajustement linéaire entre y et x n donne un ajustement de la forme y axn b ; un
ajustement entre y et log x donne : y a log x b ; un ajustement entre log y et x
donne : y beax ... Certaines machines à calculer ajustent souvent directement, au
moins sur des données individuelles, les relations suivantes :
y aebx (exponentielle) y a0 a1 x a2 x 2
(parabole)
y ax (puissance)
b
y cb (géométrique)
x
Schéma exponentiel
y y0 a x . (1)
dy
y
k.
dx
En posant :
On obtient :
Y x .
La relation (1) est donc représentée par une droite sur un graphique semi-
logarithmique. Cette droite pourra être ajustée aux points observés ( xi , yi ) par la
méthode des moindres carrés.
Références
Validité de l’ajustement
d’une loi théorique à une
distribution observée (1)
Sommaire
(1) Plus que les précédents, ce chapitre exige des pré-requis dans les domaines mathématiques tels que : le
calcul des probabilités et l’analyse mathématique.
Chap.7 Les tests paramétriques
Introduction
Supposons qu’une variable statistique X suive très exactement une loi de
probabilité P . Si on tire un échantillon dans la population correspondant à cette loi, la
distribution observée s’écartera néanmoins toujours plus ou moins de la distribution
théorique : les observations sont en effet entachées de fluctuations aléatoires.
Très grossièrement : si les écarts sont très faibles, on admettra qu’ils sont
imputables aux fluctuations aléatoires ; s’ils sont très élevés, on en conclura qu’ils ne
peuvent être expliqués par les seules fluctuations et que, par conséquent, le
phénomène ne suit pas la loi retenue.
Connaissant cette loi, si on constate que dans l’hypothèse retenue, il y a une forte
probabilité d’obtenir, par le seul fait des fluctuations aléatoires, une distance
supérieure à celle qui a été observée, on acceptera l’hypothèse et l’on admettra que le
phénomène suit bien la loi théorique supposée ; si, au contraire, cette probabilité est
faible (moins de 5%, par exemple). Il y a de grandes chances que les écarts constatés
ne soient pas imputables aux seules fluctuations aléatoires, mais plutôt à
l’inadéquation de la loi théorique retenue pour représenter le phénomène : on
rejettera alors l’hypothèse.
C1 , C2 ,..., Ck
qui représentent soit les différentes valeurs possibles ou groupes de valeurs de la
variable si celle-ci est discrète, soit les classes de valeurs associées à la variable si
celle-ci est continue.
A chacune de ces modalités ou classes correspond une probabilité déterminée par
la loi P : p1 , p2 ,..., pk .
L’effectif susceptible d’être observé sur l’échantillon pour chacune de ces classes :
O1 , O2 ,..., Ok
Dans ces conditions, pourvu que la classe Ci soit suffisamment grande pour avoir un
effectif théorique d’au moins 4 ou 5 individus (sinon les conditions de convergence de la
loi binomiale vers la loi normale ne seraient pas remplies), l’écart Ei entre effectif
empirique et effectif théorique :
Oi Npi
Ei
Npi
Elevons tous ces écarts au carré et faisons-en la somme pour toutes les classes :
k k
( Ni Npi )2
d ei2 .
i 1 i 1 Npi
k k
(Oi Npi )2
D Ei2
i 1 i 1 Npi
donc d représente la valeur observée sur l’échantillon, est la somme des carrés de k
variables normales centrées réduites liées par la relation linéaire :
O1 O2 ... Oi ... Ok N .
C1 , C2 ,..., Ck ,
les probabilités :
p1 , p2 ,..., pk .
prise par la variable aléatoire D, qui mesure la distance existant entre la distribution
observée et la distribution théorique.
(1) Pour en savoir davantage, faire des recherches sur les différentes lois statistiques suivantes : loi
binomiale, loi de poisson, loi normale, loi du khi-deux.
n P
0 0,14
1 0,27
2 0,27
3 0,18
4 0,09
5 0,04
6 et plus 0,01
(1) Ceci ne signifie pas que l’hypothèse soit nécessairement vraie, mais simplement que les informations
dont on dispose ne permettent pas de la rejeter. On notera que plusieurs lois théoriques différentes peuvent être
jugées acceptables, de ce point de vue, pour représenter un même ensemble d’observations.
Nombre de
plaintes par Fréquence ( (Oi npi ) 2
npi Oi npi (Oi npi )2
compétition Oi ) npi
(n)
0 15 14 1 1 0,0714
1 35 27 8 64 2,3704
2 30 27 3 9 0,3333
3 15 18 -3 9 0,5000
4 3 9
5 2 5 4 14 -9 81 5,7857
6 et plus 0 1
Total 9,0608
2 9, 488
La valeur calculée du 2 est inférieure à cette valeur critique : le test ne fournit pas
d’argument contre le modèle adopté : le nombre de plaintes reçus suit la loi de probabilité
adoptée.
Par exemple, la couleur des yeux et la couleur des cheveux sont-ils des caractères
indépendants ? De même pour le débit moyen d’un fleuve et les chutes de pluie aux
environs de la source.
Y
1 . . . . . . j . . . . l
X
1
. .
. .
. .
. .
. .
i . . . . . . nij
.
.
.
.
k
pij pi p j
l k
Soient n nij .n. j nij .ni. nij
j 1 i 1 i j
ni nj
On peut estimer pi et p j par pi et p j .
n n
H0 : X et Y sont indépendants
(nij npij )2
D
i j npij
qui mesure l’écart entre le tableau observé et le tableau théorique sous (H0), suit
une loi du 2 (d ) .
2
ni. .n. j
n
l ij
k n
On peut encore écrire : D 2 emp
loi
2 (d )
i 1 j 1 n .n
i. . j
D’où d kl (k 1) (l 1) 1
d (k 1)(l 1)
Sexe
Hommes Femmes Total
Préférences
Athlétisme 120 55 175
Lutte 30 25 55
Football 250 40 290
Volley ball 100 80 180
Total 500 200 700
S’il y avait indépendance entre le sexe et le sport préféré, on aurait attendu, par
exemple :
500 175
pour les hommes préférant l’athlétisme 125
700
200 175
pour les femmes préférant l’athlétisme 50
700
ni. .n. j
Le tableau de calcul des
n
Sexe
Hommes Femmes
Préférences
Athlétisme 125 50
Lutte 39 16
Football 207 83
Volley ball 129 51
2
ni. .n. j
n
l ij
k n
Le tableau de calcul du 2 emp
i 1 j 1 ni. .n. j
n
La valeur trouvée étant supérieure à cette valeur critique, l’hypothèse d’indépendance doit
être rejetée : la préférence d’un type de sport dépend du sexe de l’athlète.
Conseils pratiques :
W empirique
2
12 (k 1)(l 1) pour un test d’indépendance
W empirique
2
12 (k r 1) pour un test d’ajustement (ou d’adéquation)
Dn Max F0 ( x) Fn ( x)
x
La table donne des valeurs critiques pour des échantillons jusqu’à 35. A partir de
a
35, on peut utiliser pour approximation , n désignant la taille de l’échantillon et
n
a étant donné par le tableau suivant :
Nombre de plaintes
Cumul Fréquence Cumul
par compétition Probabilité Ecart
( F0 ( x) ) observée ( Fn ( x) )
(n)
a 1,36
Pour un échantillon de taille 100, on prend pour valeur critique , soit
n 100
0,136 au seuil 5% .
La valeur observée 0,12 étant inférieure à la valeur critique, le test de Kolmogorov –
Smirov ne fournit pas d’argument contre le modèle adopté.
Exemple 3 : Une société veut tester un nouveau présentoir pour ses produits.
Elle sélectionne 10 magasins, place le nouveau présentoir dans six d’entre eux, et
conserve l’ancien dans quatre (groupe témoin). Les variations des ventes mensuelles
sont les suivantes :
Nouveau
+15 +5 +20 +13 -1 +9
présentoir (en %)
E2 -2 +2 +10 +12
L’observation (-1) de E1 est précédée par 1 observation de E2.
(+5) 2 observations de E2.
(+9) 2
(+13) 4
(+15) 4
(+20) 00004 observations de E2.
L’indicateur choisi vaut donc U = 17
On retient la plus petite valeur, soit ici 7. la consultation d’une table montre que
cette valeur est inférieure à la valeur critique. Le test n’indique aucun argument en
faveur du nouveau présentoir.
Pour des échantillons importants, ce calcul peut être fastidieux. On peut utiliser
une formule abrégée :
n1 (n1 1)
U n1 n2 R1
2
n (n 1)
U ' n1 n2 2 2 R2
2
R1 2 4 5 8 9 10 38 R2 1 3 6 7 17
On retrouve le même résultat. L’un des calculs étant fait, on peut éviter le second
en notant que : U U ' n1.n2
Pour des petits échantillons, U est distribué suivant une loi de Laplace – Gauss de
n1 .n2 n .n (n n 1)
moyenne et de variance 2 1 2 1 2 .
2 12
Les tests les plus connus en ce sens sont les tests de corrélation des rangs.
Supposons N produits, rangés selon deux critères distincts ; pour nos desserts
instantanés, ce peut être un ordre préférentiel de goût, et un ordre préférentiel
d’aspect.
Soit X1 , X 2 , X n les rangs des desserts pour le goût et Y1 , Y2 , Yn les rangs pour
l’aspect. Une parfaite corrélation entre ces deux critères se traduirait par une identité
des rangs, soit pour tout i :
X i Yi ou di X i Yi 0
( x x )( y
i i y)
i
n
( x x )( y
i i y)
rs i
(x x )
i
2
(y i y )2 (x x )
i
2
(y i y )2
i
i i i
n n
Nous pouvons simplifier le calcul en remarquant que les nombres X i sont, dans
un certain ordre, les entiers de 1 à N et donc que :
n(n 1) x (n 1)
x d’où x
i
i i
i
; et par une formule connue,
2 n 2
n(n 1)(2n 1) n3 n
x i
2
i
2
et (x x ) x
i i
2
i
2
i
nx
12
di ( X i x ) (Yi y )
et d i2 ( X i x )2 2( X i x )(Yi y ) (Yi y )2
n3 n n3 n n3 n
d’où d i2
i 12
2rs
12
12
et finalement
6 d i2
rs 1 i
n3 n
n 2 loi
t rs T (n 2) au t de Student.
1 rs2
Le calcul de rs est souvent plus simple que le calcul d’un coefficient linéaire,
lorsque les deux calculs sont possibles. Hotelling a comparé des tests lorsqu’ils sont
concurrents, pour rejeter l’hypothèse nulle H0 (absence de corrélation dans la
population) : il a trouvé un rapport de 91%, ce qui exprime qu’on obtient la même
prévision avec 10 observations en utilisant rs qu’avec 9 observations en utilisant r.
Rang 2 1 3 5 4 8 6 7 9 10 11 12 13 14 15
X (Coût) 97 124 92 84 90 69 74 70 66 61 58 53 48 42 0
Y (C.A.) 915 884 854 795 756 704 695 672 610 580 510 504 440 394 310
Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Différence
des rangs 1 1 0 1 1 2 1 1 0 0 0 0 0 0 0
(di X i Yi )
Alors di
2
i
12 12 12 12 22 12 12 10 et n3 n n(n2 1) n(n 1)(n 1) 15 16 14 et
60
rs 1 0,98
16 15 14
13
On obtient donc : ts 0,98 17, 756
1 (0,98)2
Références
Sommaire
Introduction
Le langage de cette partie de la statistique comporte plusieurs termes issus du
langage agricole, pour des raisons historiques. Pour nous, un traitement peut être un
nouvel emballage d’un produit, une nouvelle méthode de stimulation de vendeurs,
etc.). On compare alors un groupe « traité » à un groupe témoin.
Pour tester les trois couvertures, l’on peut prendre un échantillon aléatoire de 15
consommateurs (dans la réalité, on utilise des échantillons plus importants), et
soumettre chaque couverture à 5 d’entre eux pris au hasard. Supposons qu’on leur
demande de noter sur 20 la couverture et qu’on obtienne les résultats suivants :
C1 C2 C3
X 1 = 14 Y1 = 16 Z1 = 14
X2 = 6 Y2 = 14 Z 2 = 16
X 3 = 12 Y3 = 8 Z 3 = 14
X 4 = 10 Y4 = 8 Z 4 = 14
X5 = 8 Y5 = 14 Z 5 = 12
Moyenne x = 10 y = 12 z = 14
Si l’hypothèse nulle est vraie, chaque groupe de notes est un échantillon extrait
d’une même population et nous pouvons estimer la variance ( 2 ) de cette population
à l’aide de chacun des trois échantillons. On obtient trois estimations :
(x i x )2
1
s
2 i
soit s12 42 (4)2 22 02 (2)2 10
n1 1
1
4
(y i y )2
1
s22 i
soit s12 42 22 (4)2 22 (4)2 14
n2 1 4
(z i z )2
1
s
2 i
soit s32 02 22 02 02 (2)2 2
n3 1
3
4
10 14 2 26
Soit ici, puisque les trois groupes ont même effectif s 2 8, 67
3 3
10 12 14 36
12
3 3
Ve 20
Si l’hypothèse nulle est exacte, le rapport F (ici F 2,31 ) de ces deux
Vi 8, 67
estimations de 2 ne doivent pas être très différent de F (distribution de Fischer –
Snedecor), sous hypothèses que nous expliciterons plus loin. Nous expliciterons
également plus loin la détermination des paramètres (degrés de liberté) de cette
distribution. Pour être complet, indiquons seulement que la valeur critique au seuil
5% est 3,89 : la valeur trouvée étant 2,31 ; le test n’indique aucune différence
significative entre les trois couvertures.
o x la moyenne générale ;
On calcule :
p
( xij x j )2
s 2
i 1
p 1
j
1
( xij x j )2
k p
Vi
k ( p 1) j 1 i 1
1 k
Vi j 1 s j2
k
1 p
La variance de l’échantillon des moyennes ( X1 , X 2 ,..., X j ,..., X n ) ( xij x j )2
k i 1
k
qu’on corrige par le facteur , et qui est un estimateur de 2 , d’où l’estimation
(k 1)
de 2 , variance entre groupes :
1
( x j x )2
k
Ve
k 1 j 1
k
Ve k ( p 1) ( x j x )2
Le quotient F k
j 1
k 1 ( xij x j )2
p
Vi
j 1 i 1
Calculs simplifiés
p
o Calculer les sommes T j pour chaque échantillon : T j xij x. j
i 1
k k
o Calculer la somme générale : G T j x. j
j 1 j 1
k p
o Calculer la somme Q des carrés de tous les nombres : Q xij2
j 1 i 1
k k
o Calculer la somme des carrés des totaux des colonnes S T 2 x 2 j .j
j 1 j 1
G2
S
ddl2 k
o Alors, F .
ddl1 pQ S
C1 C2 C3
14 16 14
6 14 16
12 8 14
10 8 14
8 14 12
Tj 50 60 70
G 50 60 70 180
Q 132 62 122 102 82 162 142 82 82 142 142 162 142 142 122 2304
1 1802
(11000 )
(3 1) 3 12 200
F 2,31
(5 2304 11000) 2 520
3(5 1)
Somme des
Origine de la Nombre de
(A) carrés des Variance F
fluctuation d.d.l.
écarts
Totale TG2 n 1
nij2 n
c : nombre de colonne
TG : total général
La première condition n’est pas très importante si les échantillons sont de tailles
suffisantes. Si ces tailles sont différentes, le principe du test reste le même,
simplement Vi est calculée comme une moyenne pondérée des variances internes à
chaque échantillon.
Les deux autres conditions sont essentielles à la validité de la procédure telle que
nous l’avons présentée.
La première étape consiste à remplacer chaque valeur par son rang : +15 est la
plus grande, et reçoit donc le rang n°1, le n°2 est +14. le nouveau tableau est donc :
Le test de Kruskal – Wallis permet de juger si les sommes (compte tenu des
effectifs des groupes) sont différentes pour que l’hypothèse que les divers groupes
proviennent d’une même population (c’est-à-dire que les trois modes de
représentation seront sans influence sur les ventes) soit acceptable.
En cas d’ex æquo, on attribue le rang moyen à chacune des mesures classées ex
æquo.
Références
Sommaire
Introduction
Pour mesurer l’évolution d’une grandeur entre deux périodes, il est souvent
possible d’utiliser des indices ou des taux de croissance.
9.1 Indices
Un indice mesure l’évolution d’une grandeur par rapport à une valeur prise
comme référence et égale par convention à 100.
Indice en t 0 =100
Valeur en t 1
Indice en t 1 = 100
Valeur en t 0
Attention :
- Si deux indices varient dans une même période, pour les comparer, il faut
faire le rapport des deux :
At 0 =100 ; At 1 150
Bt 0 =100 ; Bt 1 120
150
1, 25
120
Le coefficient multiplicateur est le nombre par lequel une grandeur est multipliée
quand elle progresse d’un pourcentage donné :
Valeur en t 1 Valeur en t 0
100
Valeur en t 0
Attention :
- Une grandeur ne peut régresser de plus de 100%. Après une baisse de 100% il
ne reste plus rien…
x 10 1, 20
1
soit x 10 1, 20 1, 2 10 1, 0184
8% - 5%
- Soit de 100 = 60% ; il s’agit de pourcentages,
5%
Références