Vous êtes sur la page 1sur 137

PLAN DU COURS

INTRODUCTION

PREMIERE PARTIE : LA PROBABILITE

CHAPITRE 1 : ANALYSE COMBINATOIRE


CHAPITRE 2 : THEORIE DE PROBABILITE

CHAPITRE 3 : EVALUATION DE L’INTERET DIAGNOSTIQUE DES INFORMATIONS


MEDICALES

DEUXIEME PARTIE : STATISTIQUE DESCRIPTIVE

CHAPITRE 4 : STATISTIQUE DESCRIPTIVE UNIVARIEE

CHAPITRE 5 : STATISTIQUE DESCRIPTIVE BIVARIEE

TROISIEME PARTIE : INFERENCE STATISTIQUE

CHAPITRE 6 : THEORIE DE L’ECHANTILLONNAGE


CHAPITRE 7 : INTRODUCTION A LINFERENCE STATISTIQUE

CHAPITRE 8 : ETUDE SUR LA MOYENNE ARITHMETIQUE

CHAPITRE 9 : ETUDE SUR LES EFFECTIFS ET LES PROPORTIONS


2
INTRODUCTION

Il semble que l’univers des nombres envahit de plus en plus notre vie de tous les jours. Cette
tendance à se référer de plus en plus fréquemment à des données numériques pour juger des situations
et envisager des actions s’impose peu à peu dans tous les domaines de l’activité humaine, et elle
semble particulièrement marquée dans le domaine de la gestion et de l’économie.

Dans toute organisation, la fonction la plus importante et la plus caractéristique de


l’administrateur réside dans la prise de décision ; or la possibilité de prendre des décisions judicieuses
repose en grande partie sur la qualité de l’information à laquelle il a accès. Cependant, il devient de
plus en plus difficile pour l’administrateur d’aujourd’hui d’être constamment bien informé. En effet,
à cause de la complexité toujours croissante du monde dans lequel évoluent les entreprises, la quantité
d’information nécessaire pour prendre des décisions éclairées augmente constamment.

En conséquence, au lieu de se fier uniquement à son intuition et à ses observations personnelles,


l’administrateur doit pouvoir s’appuyer constamment sur un système d’information bien structuré lui
permettant d’intégrer le plus grand nombre possible de données. En outre, à mesure que la demande
pour l’information s’accroît, la nature de l’information requise tend à se modifier. On met de plus en
plus l’accent sur l’information exprimée de façon numérique plutôt que sur l’information exprimée
de façon qualitative. Pour décrire, analyser et interpréter ces masses de données numériques, on a
développé un ensemble de techniques spécialisées dont l’application dans les divers domaines
d’activité a été rendue possible grâce au développement des ordinateurs modernes ; l’ensemble de
ces méthodes constitue une science que l’on appelle « la statistique ».

La statistique constitue, en sciences biomédicales, l’outil permettant de répondre à de nombreuses


questions qui se posent en permanence au médecin :
1. Quelle est la valeur normale d’une grandeur biologique, taille, poids, glycémie ?
2. Quelle est la fiabilité d’un examen complémentaire ?
3. Quel est le risque de complication d’un état pathologique, et quel est le risque d’un traitement ?
4. Le traitement A est-il plus efficace que le traitement B ?

1. La variabilité et l’incertain

Toutes ces questions, proprement médicales, reflètent une propriété fondamentale des systèmes
biologiques qui est leur variabilité. Cette variabilité est la somme d’une variabilité expérimentale
(liée au protocole de mesure) et d’une variabilité proprement biologique. On peut ainsi décomposer
la variabilité d’une grandeur mesurée en deux grandes composantes :

variabilité totale = variabilité biologique + variabilité métrologique

• La variabilité biologique peut être elle-même décomposée en deux termes : d’une part la variabilité
intra-individuelle, qui fait que la même grandeur mesurée chez un sujet donné peut
être soumise à des variations aléatoires ; et d’autre part la variabilité interindividuelle qui fait
que cette même grandeur varie d’un individu à l’autre.

variabilité biologique = variabilité intra-individuelle + variabilité interindividuelle

La variabilité intra-individuelle peut être observée lors de la mesure de la performance d’un


athlète qui n’est pas capable des mêmes performances à chaque essai, mais qui se différencie
des autres athlètes (variabilité interindividuelle). En général, la variabilité intra est moindre
que la variabilité inter.

• La variabilité métrologique peut être elle aussi décomposée en deux termes : d’une part les

Pr Joseph TSHIMPANGA B.
3
conditions expérimentales dont les variations entraînent un facteur d’aléas ; et d’autre part les
erreurs induites par l’appareil de mesure utilisé.

variabilité métrologique = variabilité expérimentale + variabilité appareil de mesure

La mesure de la pression artérielle peut grandement varier sur un individu donné suivant les
conditions de cette mesure ; il est ainsi recommandé de la mesurer après un repos d’au moins
15 minutes, allongé, en mettant le patient dans des conditions de calme maximal. Cette
recommandation vise à minimiser la variabilité due aux conditions expérimentales. La précision de
l’appareil de mesure est une donnée intrinsèque de l’appareil, et est fournie par le constructeur.

2 La décision dans l’incertain

Pour prendre une décision diagnostique ou thérapeutique le médecin doit avoir des éléments lui
permettant de prendre en compte cette variabilité naturelle, pour distinguer ce qui est normal de ce
qui est pathologique (décision à propos d’un patient) et pour évaluer la qualité d’un nouvel examen,
ou d’une nouvelle thérapeutique (décision thérapeutique). La compréhension des méthodes
statistiques, de leur puissance et de leurs limites, est essentielle pour un médecin de nos jours.

Tout résultat de recherche médicale résulte d’une expérimentation (clinique ou biologique) qui
s’appuie sur une méthodologie statistique rigoureuse, et dont les résultats sont analysés en termes
statistiques. De même la démarche statistique permet d’évaluer les risques (ou les bénéfices) d’une
prescription, de déterminer dans une situation donnée l’examen qui apportera la meilleure information
diagnostique. Nous voyons donc l’importance de la maîtrise de l’outil et de la démarche statistique :

* Pour permettre les progrès de la connaissance médicale : c’est le domaine de la recherche clinique
qui ne peut s’accomplir convenablement (définition de la question, mise en place du
protocole expérimental, analyse des résultats) qu’en suivant une méthodologie statistique rigoureuse.

* Pour mieux connaître l’état de santé d’une population, la fréquence et la gravité d’une épidémie
(penser au SIDA), etc. Cette connaissance se fera à partir d’échantillons convenablement
choisis et de calculs basés sur les outils de la statistique. Il sera alors possible de rechercher
les stratégies de prévention les mieux adaptées, d’en évaluer leur impact. Il s’agit là des applications
relevant de l’épidémiologie et de la santé publique.

* Pour améliorer la pratique médicale dans ses aspects décisionnels, à savoir choisir le meilleur
examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus sûrement au diagnostic.
Pour optimiser la thérapeutique, choisir le traitement le mieux adapté à un patient donné (choix du
médicament, posologie, etc.).

L’objectif de ce cours est de fournir à l’étudiant(e) en biomédicale, pharmacie et biologie les bases
indispensables permettant de comprendre les méthodes utilisées, d’interpréter correctement les
résultats de nouvelles recherches, et d’adopter un mode de raisonnement qui soit à même d’aider à la
décision dans l’exercice de la médecine.

Plus précisément, nous étudierons successivement :


1. Les bases de calcul de probabilités, qui sont indispensables à la compréhension et à l’utilisation
des méthodes statistiques.
2. La statistique descriptive qui permet de représenter et de quantifier la variabilité d’une ou plusieurs
grandeurs observées.
3. La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothèse
A plutôt qu’une hypothèse B à partir de données expérimentales (comme dans le cas de la
comparaison de deux traitements, où l’hypothèse A est que les deux traitements sont équivalents et
l’hypothèse B est qu’ils sont différents).
Pr Joseph Tshimpanga B.
4

Comme on peut le constater, ce cours est subdivisé en trois parties. La première partie se rapporte
aux bases de calcul des probabilités. La deuxième partie s’étend sur la statistique descriptive. La
troisième et dernière partie s’étend sur quelques notions de la statistique inductive ou inférentielle.
Avant de passer à l’essentiel, il est intéressant de comprendre la notion de la statistique.

3. Définition, nature et objet de la statistique

Pour bien comprendre le sens du mot « statistique », il faut d’abord réaliser que ce mot est
utilisé pour exprimer plusieurs réalités différentes. Le mot « statistique » a essentiellement deux sens
courants, bien résumés par la définition qu’en donne l’Encyclopediae Universalis : « Le mot
statistique désigne à la fois un ensemble de données d’observation et l’activité qui consiste dans leur
recueil, leur traitement et leur interprétation. ».

Ainsi, au pluriel, on désigne souvent par « statistiques » un ensemble de données d’observation,


généralement numériques ou collections de chiffres, concernant une catégorie de faits ; on parlera par
exemple, de statistiques relatives à des titres boursiers, de statistiques relatives à la situation de
l’emploi au pays, de statistiques relatives au rendement des joueurs de telle équipe de football.
L’ensemble des scores obtenus par un groupe d’élèves à une épreuve, la répartition des âges dans un
groupe social donné, l’évolution des productions industrielles ou de la balance commerciale ...,
constituent aussi des statistiques scolaires, démographiques, économiques ... Cette acception
correspond bien à la signification première de state-istique, ensemble d’informations concernant la
population et l’économie, indispensable à l’Etat1. Ces statistiques sont présentées souvent sous forme
de tableaux, parfois sous forme de graphique, et qui regroupent toutes les observations effectuées sur
des faits nombreux, relatifs à un même phénomène. Pris au singulier, le mot « statistique » désigne
une science, et ce sont les méthodes propres ou procédés à cette science que font l’objet de ce cours.
Il s’agit d’une discipline développée comme une méthode scientifique d’analyse s’appliquant très
largement à l’économie et à toutes les sciences sociales et de la nature. Bref, c’est une science qui
aurait pour but l’étude mathématique des statistiques.

La statistique est une branche des mathématiques qui a pour objet la collecte, le
traitement et l'analyse de données numériques relatives à un ensemble d'individus ou
d'éléments2. C’est l’ensemble des méthodes scientifiques visant à colliger (réunir ou
rassembler), à résumer, à organiser et à analyser des données numériques, de même qu’à tirer
des conclusions valables et à prendre des décisions raisonnables sur la base de cette analyse. A
l’intérieur de cette science, on utilise le terme statistique au singulier pour désigner une quantité
particulière (telle une moyenne arithmétique ou une proportion) que l’on peut calculer à partir d’un
échantillon tandis que le paramètre se rapporte à la population.

La statistique comme science renferme un ensemble très diversifié de méthodes. Elle constitue
un outil précieux pour l'expérimentation de projets, la gestion des entreprises ou encore l'aide à la
décision. Pour mieux comprendre ce qui différencie ces méthodes de même que ce qui les relie, il
peut être commode de diviser une étude statistique en 4 parties : la collecte de données, la statistique
descriptive, l’inférence statistique et la décision statistique.

a) La statistique descriptive

Une fois que l’on a en main une masse de données au sujet d’un problème ou d’un phénomène,
on peut procéder à ce que l’on appelle l’analyse statistique. La première étape de cette analyse que
l’on qualifie de statistique descriptive consiste en un traitement des données qui a pour but de

1
WONNACOTT H.T. & WONNACOTT J.R , Statistique, Economica, Paris, 1991, p. 3
2
ENCYCLOPEDIE ENCARTA 1998.
Pr Joseph TSHIMPANGA B.
5
présenter, de résumer et/ou de décrire les caractéristiques essentielles d’un ensemble de
données numériques pour en faire ressortir toute l’information sous-jacente par exemple sous
la forme de tableaux ou de graphiques. Souvent, pour résoudre un problème faisant appel à la
statistique, on doit faire face à un ensemble assez considérable de données ; pour que ces données
puissent apporter quelque éclairage sur le problème, elles doivent être ordonnées, classifiées et
présentées sous une forme convenable. Ces méthodes descriptives constituent le gros de ce cours.

b) L’inférence statistique

Il y a plusieurs décades, les méthodes statistiques de type descriptif constituaient l’apport


essentiel de la statistique. Cependant, au cours des dernières décennies, la statistique s’est développée
dans une direction passablement différente en donnant de plus en plus d’importance à l’inférence et
à la décision statistique. L’inférence statistique regroupe l’ensemble des méthodes qui permettent de
tirer des conclusions sur une population à partir d’une information partielle provenant d’un
échantillon. Elle permet d’étendre ou de généraliser sur toute la population dans certaines
conditions les conclusions obtenues sur une fraction de cette population, appelée échantillon.

4. Quelques concepts fondamentaux de l’analyse statistique

L’un des objectifs de la statistique consiste à analyser un ensemble de données provenant


d’une population (P). Elles résultent généralement de la mesure de variables ou caractéristiques
effectuée auprès d’individus appartenant à P. Considérons par exemple le dossier des étudiants d’une
université contenant des données obtenues auprès de chaque individu (étudiant) pour un ensemble de
caractéristiques : sexe, âge, taille, poids, ... Pour un administrateur, un gestionnaire, un économiste,
nous avons par exemple une masse d’information numérique sur le prix, les salaires, les revenus, la
productivité, la consommation, etc. Comment peut-on analyser statistiquement tout ou une partie des
informations recueillies ?

La première étape d’une telle analyse consiste à regarder les données, s’informer de leur
provenance, décrire ou rechercher la façon dont elles ont été obtenues, les présenter sous une forme
commode pour en déduire certaines impressions générales. L’intérêt et la nécessité d’effectuer cette
démarche le plus soigneusement possible justifient le fait que nous consacrons ce chapitre à ce
problème. Nous nous placerons dans le cas où le lecteur effectue lui-même la collecte des données
afin qu’il perçoive mieux la façon dont doit se dérouler cette étape. Nous examinerons aussi le cas où
l’information recueillie est indirecte, c’est-à-dire fournie par autrui.

L’analyse statistique d’un phénomène requiert de définir au départ :


- les individus sur lesquels va porter l’étude ;
- les variables qui doivent les caractériser ;
- la nature de chacune de ces variables ;
- les échelles sur lesquelles sont mesurées ces variables.

a. Choix des individus

La première tâche consiste à définir les individus qui vont nous fournir des informations. Ce
terme d’individus peut recouvrir des concepts très généraux et est parfois remplacé par d’autres
dénominations, telle que unité statistique, objet, sujets, éléments, ... C’est tout élément de la
population. Cette définition doit cependant être suffisamment précise pour être certain, d’une part,
que tous les individus auxquels on s’intéresse y répondent et, d’autre part, qu’il n’y ait aucune
ambiguïté lorsqu’il s’agira de retenir ou non un individu pour l’étude. Nous noterons par E l’ensemble
de tous les individus choisis. Si E constitue une énumération exhaustive de tous les éléments
susceptibles d’être analysés, il est appelé ensemble statistique ou population statistique ou univers,
et est noté P. C’est l’ensemble de référence, c’est-à-dire ensemble des unités observées. On fait usage
Pr Joseph Tshimpanga B.
6
à ce que l’on appelle en statistique à un recensement. Dans le cas contraire, il constitue un échantillon
de P et peut donner lieu à un problème supplémentaire qui, sera examiné plus tard : celui d’inférence
statistique à P de l’analyse effectuée pour E. Dans ce dernier cas, on procède par un sondage.

Ainsi chaque élément de l’ensemble statistique (population ou échantillon) est un individu ou


une unité statistique. Le cardinal de E (qu’on note par # E) représente alors le nombre de données
(ou d’observations). Il est appelé effectif (total) de E et est généralement désigné par la lettre n.

b. Choix des variables

Après avoir choisi les individus, il faut définir les attributs qui permettent de les caractériser,
dans le contexte du problème étudié. Généralement, ces attributs ont des modalités qui varient d’un
individu à l’autre, ou d’un groupe d’individus à un autre groupe. C’est pourquoi on leur donne le nom
de variable. Ces variables peuvent encore être dénommées caractères statistiques ou
caractéristiques.

Exemples
- Si l’on dresse une statistique du personnel d’une entreprise d’après l’ancienneté de ses membres,
l’ensemble du personnel constitue la population, chaque membre de ce personnel est une unité
statistique, et le caractère statistique est l’ancienneté de chacun de ces membres.
- Si l’on dresse une statistique du parc automobile d’une province (ensemble des voitures
immatriculées dans cette province) à une date donnée d’après la marque des voitures, la
population est ce parc automobile, l’unité statistique, chacune des voitures, et le caractère
statistique la marque de chaque voiture.

Leur choix est bien sûr important. Idéalement, il faut retenir les variables les plus pertinentes par
rapport au problème posé et sélectionner celles qui vont fournir le plus d’information possible. Afin
de faciliter leur utilisation, chacune d’entre elles est généralement désignée par une lettre de la fin de
l’alphabet : x, y, ... Si on décide d’analyser p variables simultanément, où p est un entier positif, on
dit que E est de dimension égale à p.

Exemple. - Prenons à titre d’exemple, un extrait de dossier médical des étudiants d’une université en
portant notre attention sur trois variables permettant de les caractériser : le sexe, le poids, la taille.
Nous avons, dans ce cas, p = 3 et nous poserons :
x = sexe ; y = poids ; z = taille.

Indiquons qu’il est capital de bien définir, préalablement à l’établissement de toute statistique, l’unité
statistique et le caractère statistique étudiés, de façon à éviter des difficultés lors de l’exploitation
ultérieure des statistiques, et plus encore lors de la comparaison de statistiques d’origines, ou de
statistiques dressées à des époques différentes.

c. Nature des variables

La nature de chaque variable doit être précisée. Soit x l’une d’entre elles. Observer sa valeur
sur un individu de E consiste à lui affecter un élément d’un ensemble V de valeurs possibles. Le
schéma ci-dessous illustre cette affectation : on associe à chaque individu e de E une valeur v
appartenant à V.

Pr Joseph TSHIMPANGA B.
7
V
P

VE
E

. v

Figure 0.1 : Nature des variables

Ainsi, dans l’exemple ci-dessus, l’ensemble des valeurs possibles de la variable x est V = {sexe
féminin, sexe masculin} ; y est un intervalle de la droite réelle R, par exemple V = [40 ; 120], si le
poids est mesuré en kilogramme ; z est un autre intervalle de R, par exemple V = [140 ; 210], si la
taille est mesurée en centimètres.

D’une façon générale, on distingue deux catégories de variables :

1) Les variables discrètes pour lesquelles V est composé de « valeurs isolées ». Les cas les plus
fréquents sont :
V = N = { 0, 1, 2, 3, ... } ;
V = N0 = { 1, 2, 3, ...} ;
V = { A, B, ..., K}, contenant un nombre fini de valeurs représentées ici par des lettres.

Il faut distinguer deux types de variables discrètes qui jouent un rôle important :
- celles qui traduisent un dénombrement (nombre d’enfants dans une famille, nombre
d’employés dans une entreprise, ...) ;
- celles qui traduisent une situation de dichotomie (sexe, présence-absence, ...). Elles sont
alors généralement appelées variables dichotomiques, booléennes ou encore binaires.

2) Les variables continues pour lesquelles nous retiendrons surtout :

V = R (ensemble des nombres réels) ;


V = [a, b] où [a, b] est un segment de la droite réelle.

Dans cette catégorie, il faut noter l’importance des variables qui traduisent une réalité physique
ou économique (durée de vie, poids, taille, salaire, prix, ...).

Il faut souligner que la distinction entre variables discrètes et continues est surtout intéressante
d’un point de vue théorique, comme nous aurons l’occasion de le constater dans la suite. Par ailleurs,
toutes les valeurs possibles d’une variable ne sont pas nécessairement observées. Nous noterons par
VE l’ensemble des valeurs effectivement attribuées aux individus de E. VE est bien sûr un sous-
ensemble de V (cf. graphique ci-dessus).

Pr Joseph Tshimpanga B.
8

d. Echelle de mesure

Une échelle de mesure permet de définir la façon dont une variable peut être mesurée, c’est-à-
dire la règle permettant d’affecter une valeur à chaque individu de E. On a l’habitude de distinguer
quatre types d’échelles possibles.

1) L’échelle nominale permet de partager E en classe de telle sorte que


- tous les individus d’une classe se voient attribuer la même valeur ;
- deux individus appartenant à des classes distinctes ont des valeurs différentes.

Par extension, une variable mesurée sur une telle échelle est dite variable nominale. De
nombreux exemples de ce type de variables peuvent être cités : la nationalité, le sexe, la catégorie
socioprofessionnelle, l’appartenance à un parti politique, ... Remarquons que l’affectation d’une
valeur à une variable nominale peut revêtir deux aspects que nous illustrerons à partir de la variable
dichotomique « sexe ». Les modalités de cette dernière peuvent être exprimées par deux qualificatifs :

masculin - féminin
ou encore codées au moyen de deux nombres, par exemple :
1 - 2.
Remarquons que cette dernière est très répandue en raison de la facilité de manipulation des
codes utilisés. Ces derniers ne sont cependant que des identificateurs dont le caractère numérique est
purement conventionnel. Ils n’impliquent pas que la modalité 2 est plus « grande » ou « meilleure »
que la modalité 1 !

Le nombre de catégories distinctes peut être fonction de la qualité de l’information recueillie,


mais aussi des objectifs définis a priori. C’est ainsi que dans beaucoup d’enquêtes, l’état matrimonial
comporte quatre modalités proposées explicitement :

célibataire – marié – veuf – divorcé.

On pourrait cependant se contenter dans certaines études d’une dichotomie :


marié – non marié.
Par ailleurs, des personnes interrogées pourraient ne pas se reconnaître dans cette liste
(concubinage, communauté). Dans d’autres cas encore, elles peuvent être amenées à ne pas pouvoir
répondre (la modalité qui les concerne n’est pas prévue, par exemple) ou ne pas le vouloir (quand la
question posée concerne un domaine qui leur semble délicat). Il faut alors éventuellement prévoir des
modalités spécifiques pour ces cas (« autre réponse », « refus de répondre », ...).

2) L’échelle ordinale permet aussi d’affecter les individus à des catégories, mais une relation
supplémentaire est introduite qui permet de comparer ces dernières, à savoir une relation d’ordre (ou
de préordre). Elle permet d’ordonner les différentes valeurs de la variable et de tirer des conclusions
du type « a est meilleur que b », ou encore « a est au moins aussi bon que b », a et b étant deux


De manière générale nous supposerons que l’échelle attribue à chaque individu e de E une valeur ou appréciation xe de
telle sorte que si l’on note par « xa < xb » le fait que l’appréciation de a est « moins favorable » que celle de b (a et b
étant des individus de E), la comparaison des éléments de E deux à deux soit une relation binaire qui jouisse des
propriétés suivantes :
a) tous les individus de E sont comparables deux à deux ;
b) si, quels que soient les individus a, b, c appartenant à E, on xa < xb et xb < xc, alors xa < xc. Si des égalités dans les
appréciations sont autorisées, la relation ainsi définie sur E est appelée un préordre total. Dans le cas contraire, elle
est qualifiée d’ordre total. On peut aussi envisager des relations partielles en ne comparant qu’une partie des individus
de E. Nous ne considérons pas ce cas ici.
Pr Joseph TSHIMPANGA B.
9
individus de E. Par extension, une variable mesurée sur une telle échelle sera dite variable ordinale.
Un exemple qu’on rencontre fréquemment est une échelle définie par les modalités suivantes :
très mauvais – mauvais – moyen – bon – très bon.
Il est aussi possible de coder ces modalités pour simplifier leur manipulation :
1 , 2 , 3 , 4 , 5.
Néanmoins, il ne faut pas oublier que, comme dans le cas précédent, la différence entre deux
valeurs d’une variable ordinale n’a pas de sens.

3) L’échelle d’intervalle permet de tenir compte de la différence entre deux valeurs d’une variable.
Ceci implique que les valeurs observables doivent être numériques. L’exemple classique qu’on
présente généralement dans ce cas est l’échelle des températures comme, par exemple, l’échelle
Celsius. Si la température d’un individu est de 36°C et celle de son voisin 38°C, leur différence de
température vaut 2°C. Mais le rapport entre ces deux valeurs n’a pas de sens. Cette constatation
résulte du caractère « arbitraire » du choix de l’origine d’une telle échelle. Le zéro ne représente pas
une absence du phénomène étudié mais correspond à un choix lié à une réalité physique : le passage
de l’état solide à l’état liquide pour l’eau. D’autres échelles de température ont d’ailleurs été
imaginées, comme l’échelle Farenheit. Il faut cependant reconnaître que, en dehors de l’exemple cité
et de quelques autres, l’usage de ce genre d’échelle est quand même limité.

4) L’échelle de rapport est sans conteste l’échelle la plus riche en propriétés. Elle possède un zéro
« naturel » qui indique l’absence du phénomène étudié. Différences et rapports entre valeurs y ont
un sens précis. De nombreuses variables utilisent une telle échelle pour y exprimer leurs valeurs :
durée de vie, poids, taille, vitesse, prix, nombre d’enfants, ... Cette échelle est aussi souvent appelée
échelle métrique.

Une difficulté pratique peut se présenter lorsqu’il s’agit de mesurer les valeurs d’une variable
continue définie sur R. A priori, cette dernière peut prendre une infinité de valeurs possibles. En
réalité, cette possibilité est limitée par la précision de l’instrument de mesure utilisé. Si, par exemple,
des tailles sont mesurées sur des individus et que l’appareil permettant d’effectuer les mesures ne
fournit que des valeurs entières, ce dernier procède par valeurs arrondies. Ainsi, toute taille comprise
entre 168,5 et 169,5 centimètres est arrondie à 169 centimètres.

Le caractère numérique des valeurs définies sur les deux dernières échelles est à l’origine
d’une classification plus générale des variables basée sur le type d’échelle utilisé ; elle est présentée
dans le tableau ci-dessous.

Tableau 0.1. – Rapport entre variable et échelle


Variable Echelle
qualitative nominale ou ordinale
quantitative d’intervalle ou de rapport

Certains auteurs réservent les noms de « variables et valeurs » aux caractéristiques


quantitatives et désignent par « caractères et modalités » les correspondants qualitatifs. Nous ne
ferons pas cette distinction ici, préférant préciser chaque fois la nature de l’échelle utilisée.

e. Les données statistiques

Une fois définies les notions de population et de variable statistique, on est en mesure
d’énoncer le principe de la collecte des données ou des observations : c’est le relevé méthodique de
la valeur d’un caractère commun aux membre d’une population. Face à un groupe d’éléments ou
d’objets, on est amené à se demander pour chacun d’eux s’il est membre de la population envisagée,

Pr Joseph Tshimpanga B.
10
puis quelle est la valeur ou la modalité de la variable considérée, et enfin à enregistrer cette valeur ou
cette modalité.

On appelle données statistiques des valeurs numériques qui peuvent être soit directement les
valeurs que l’on a observées pour une variable quantitative, soit des nombres que l’on a associés aux
modalités ou valeurs observées pour une variable statistique (qualitative ou quantitative). Ainsi, les
données statistiques seront nécessairement des valeurs numériques. Si la variable observée dans la
population est quantitative, les données statistiques qui en découlent peuvent être simplement des
valeurs prises par cette variable. Par contre, lorsqu’on a affaire à une variable qualitative, les
modalités que prend la variable ne sont pas mesurables numériquement ; dans ce cas, on peut associer
à chacune des modalités prises par la variable au cours d’un processus d’observation soit un nombre
choisi arbitrairement soit le nombre de fois que cette variable a pris telle modalité au cours du
processus. Dans ce dernier cas, ce sont alors ces effectifs qui peuvent être considérés comme données
statistiques.
Exemples
- Si l’on s’intéresse à l’âge de 20 personnes employées dans une firme à leur dernier anniversaire :
il s’agit d’une variable quantitative et l’observation de cette variable pourra par exemple, fournir
les données statistiques suivantes : 18, 17, 21, 15, 22, 20, 23, 34, 28, 45, 17, 23, 18, 19, 32, 19,
23, 37, 31, 20.
- On peut aussi s’intéresser à d’autres variables, tel l’état matrimonial ; il s’agit d’une variable
qualitative qui peut présenter quatre modalités : célibataire, marié, veuf et divorcé. Dans ce
dernier cas, au lieu d’enregistrer pour chacune des 20 personnes la modalité prise par la variable
« état matrimonial », on peut faire correspondre à chacune de ces modalités une valeur
numérique : par exemple, la valeur 1 pour « célibataire », 2 pour « marié », 3 pour « veuf » et 4
pour « divorcé ». De cette façon, la variable « état matrimonial » prend maintenant les valeurs
numériques 1, 2, 3 et 4. On peut aussi associer à chacune des modalités de cette variable le nombre
de fois que la variable a présenté telle modalité lorsqu’on a observé ces 20 personnes : on pourrait,
par exemple, obtenir 8 célibataires, 7 personnes mariées, 2 personnes veuves et 3 personnes
divorcées.

Parfois, l’ensemble des données statistiques que l’on a obtenues en observant une population est
appelée série statistique. Si l’on considère des données statistiques en fonction de la façon dont elles
caractérisent les unités d’une population dans le temps, on peut distinguer entre données statistiques
de structure et données statistiques de mouvement. Les données de structure caractérisent les unités
d’une population à un moment donné dans le temps. Ainsi, dans l’exemple ci-haut, les données
concernant l’âge des individus caractérisent nécessairement ces individus à un moment précis dans
le temps. Par contre, les données de mouvement indiquent de quelle façon une variable statistique
évolue en fonction du temps. Ainsi par exemple, un détaillant d’automobiles neuves, chaque mois,
pourrait obtenir la série suivante : 25, 34, 42, 75, 89, 86, 76, 98, 84, 102, 54, 32. Une telle série de
données statistiques de mouvement est souvent appelée série chronologique ; ce dernier type de
données sera étudié dans le dernier chapitre.

f. Tableau individus x caractères

Nous avons sélectionné un certain nombre de variables dont on désire observer les valeurs sur des
individus, en utilisant des échelles de mesure choisies a priori. Si l’opération concerne p variables et
porte sur n individus, son résultat peut s’exprimer sous la forme d’un tableau individus x caractères
à n lignes et p colonnes dans lequel les individus et les variables (caractères) sont représentés par des
identificateurs (nom, numéro de matricule, lettre de l’alphabet, ...). Ainsi, par exemple, la
détermination des tailles (exprimées en mètres) et des poids (exprimés en kilos) relevés


Un tel tableau sera dit I.C. dans la suite, par souci de simplification.
Pr Joseph TSHIMPANGA B.
11
simultanément auprès de cinq employés d’une entreprise peut donner lieu au tableau I.C. repris dans
le tableau 0.2.

Tableau 0.2. – Tableau individu x caractère


Individus Caractères
N° Nom (X) taille (m) (Y) poids (kg)
1. DUNIA 1.80 82
2. ULIMWENGU 1.67 75
3. KASAI 1.90 83
4. MASIMANGO 1.75 67
5. TOTO 1.77 77

Il est cependant plus commode de représenter chaque individu par un numéro d’ordre i (compris entre
1 et n et représentant le numéro de la ligne du tableau) et chaque variable par une lettre de la fin de
l’alphabet, comme nous l’avons indiqué ci-dessus. Nous désignons dès lors par :
Xi la valeur prise par la variable X pour l’individu i,
Yi la valeur prise par la variable Y pour l’individu i,

Ainsi, par exemple, la lecture du tableau 0.2 indique que :

Xi X1 = 1.80 X2 = 1.67 X3 = 1.90 X4 = 1.75 X5 = 1.77


Yi Y1 = 82 Y2 = 75 Y3 = 83 Y4 = 67 Y5 = 77

Lorsque le nombre de variables est élevé, les lettres de la fin de l’alphabet ne suffisent plus
pour les représenter. On les identifie alors également par un numéro d’ordre j compris entre 1 et p.
Le tableau I.C. peut alors être considéré comme une matrice de données de dimension n x p.

Tableau 0.3. – Tableau I.C. ou matrice des données n x p

X11 X12 ... X1j ... X1p


X21 X22 ... X2j ... X2p
. . . . . .
. . . . . .
. . . . . .
X = Xi1 Xi2 ... Xij ... Xip
. . . . . .
. . . . . .
. . . . . .
Xn1 Xn2 ... Xnj ... Xnp

où Xij représente la valeur prise par la j-ème variable auprès du i-èmè individu.
Si les variables sont quantitatives, X est une matrice de nombres réels ; si certaines d’entre elles sont
qualitatives, X possède des colonnes faisant apparaître des modalités non numériques. Cette situation
peut nous inciter, dans certains cas, à effectuer une transformation des données.

L’ensemble des lignes d’un tableau I.C. à p colonnes définit une série statistique p-variée. Si p = 1,
la série est dite univariée. Si p = 2, 3, ... elle est dite bivariée, trivariée, ... Un tableau I.C. ne constitue
cependant pas la seule façon de présenter une telle série. Nous allons le constater ci-dessous.

Remarquons enfin qu’il est toujours possible de présenter un tableau I.C. « en lignes » plutôt qu’ »en
colonnes », ce qui revient à considérer la matrice transposée de X que nous noterons X’. D’une façon
générale, nous ne prendrons en compte cette possibilité que pour des raisons liées à la facilité de
lecture ou de présentation de la série étudiée.
Pr Joseph Tshimpanga B.
12

Première partie : La probabilité


La théorie (ou le calcul) des probabilités est une branche des mathématiques qui permet de modéliser
les phénomènes où le hasard intervient (initialement développée à propos des jeux de hasard, puis
progressivement étendue à l’ensemble des sciences expérimentales, dont la physique et la biologie).

Cette théorie permet de construire des modèles de ces phénomènes et permet le calcul : c’est à partir
d’un modèle probabiliste d’un jeu de hasard comme le jeu de dés que l’on peut prédire les fréquences
d’apparition d’événements comme le nombre de fois que l’on obtient une valeur paire en jetant un dé
un grand nombre de fois. Les éléments de calcul des probabilités indispensables à la compréhension
des statistiques seront traités dans la première partie du cours.

Sous-jacente à la notion de statistiques se trouve la notion de population dont on souhaite connaître


les propriétés (plus précisément les régularités), permettant en particulier de savoir si deux
populations sont identiques ou non. Ce cas est celui du cadre des essais thérapeutiques, où l’on
considère 2 populations (patients traités avec le médicament A ou avec le médicament B) dont on
souhaite savoir si elles diffèrent ou non (c’est le cas le plus simple des essais cliniques). Pour ce faire
il est nécessaire de modéliser les populations, en utilisant des modèles probabilistes. Un modèle de
ce type est par exemple de considérer que la taille des individus suit une distribution gaussienne.

A partir de ce modèle on peut calculer les propriétés d’échantillons ; c’est ce qu’on appelle une
déduction qui va du modèle vers l’expérience. A l’inverse, considérant un échantillon d’une
population on peut essayer de reconstruire le modèle de la population. Cette démarche est calquée sur
la démarche scientifique habituelle. Le scientifique est capable, en utilisant les mathématiques, de
prédire le comportement d’un modèle donné (c’est par exemple une
« loi » de la physique) : c’est la démarche déductive.

A l’inverse, observant des faits expérimentaux il va tenter de dégager des propriétés générales du
phénomène observé qu’il va en général représenter sous forme d’un modèle (toutes les lois de la
physique et de la chimie sont des modèles mathématiques les plus généraux possibles des faits
expérimentaux) : c’est la construction inductive de la théorie. Cette démarche générale va plus loin
car le modèle permet de prédire des expériences non réalisées. Si les prédictions ainsi réalisées sont
contradictoires avec les résultats expérimentaux alors on pourra avec certitude réfuter le modèle (on
dit aussi qu’on l’a falsifié) ; dans le cas contraire on garde le modèle mais on n’est pas certain qu’il
soit « vrai ». Autrement dit, à l’issue d’un tel test on ne peut avoir de certitude que si on a trouvé des
éléments permettant de réfuter le modèle. Nous verrons dans la suite que cette approche se transpose
exactement dans la démarche statistique, en particulier dans le domaine des tests.

Pr Joseph TSHIMPANGA B.
CHAPITRE 1 : ANALYSE COMBINATOIRE
1.1. GENERALITES

L’analyse combinatoire est une branche des mathématiques qui étudie comment compter des
objets. Elle consiste à dénombrer de plusieurs manières de regroupement d’un ensemble d’objets dans
sa totalité ou tout simplement les parties de cet ensemble, en termes d’arrangements, de permutations
ou de combinaisons. Les problèmes de combinatoire se résolvent (presque) tous en utilisant et en
enchaînant un certain nombre de raisonnements-types qui sont tous des utilisations plus ou moins
subtiles de la notion de multiplication.

Soient les lettres A, B, C, représentant des objets d’un ensemble donné. On peut étudier les
différentes manières de grouper ces objets :
 selon que les groupes sont formés de lettres toutes distinctes ou non ;
 selon que les groupes sont formés de certaines lettres en tenant compte de leur ordre ou non ;
 selon que les lettres peuvent être répétées ou non.

L’analyse combinatoire fait souvent appel à la notion de « factorielle ». La factorielle de n (ou


n factorielle), symbolisée n!, est un nombre qui correspond aux produits de n par tous les nombres
entiers qui le précèdent.
n! = n (n - 1) (n - 2) ... (n - n + 1)

Ajoutons que par convention : 0! = 1

Exemples 101 : 1! = 1 2! = 2 3! = 6 4! = 24 5! = 120 6! = 720

Dès que n dépasse la dizaine, n! se compte en millions, il est bon de connaître la formule
d’approximation suivante (formule de Stirling) :
n
 n
n! =   2  n
 e
1.2. ARRANGEMENTS

Ici, les p boules sont lancées vers les n cases mais il est cette fois prévu qu’une case ne peut
recevoir plus d’une boule. Il faut que p  n. On appelle arrangement de p objets pris parmi n (p <
n), tous les groupes de p objets choisis parmi les n objets donnés et placés dans un ordre déterminé.
p
Ce nombre de groupes ou d’arrangements est noté A n , qui signifie le nombre de manières de ranger
p objets pris parmi n en une suite ordonnée et sans utiliser deux fois le même objet. Les p et n ne
peuvent donc pas être quelconques. Toute suite ordonnée de p éléments pris parmi n éléments distincts
est appelée ARRANGEMENT SANS REPETION. C’est le nombre d’applications injectives d’un
ensemble à p éléments vers un ensemble à n éléments. La formule générale utilisée pour déterminer
ce nombre est :
n!
A pn =
(n - p)!
Exemple. Combien de groupes de deux lettres peut-on former à partir de 4 lettres suivantes A, B, C
et D; si la répétition n’est pas autorisée ? Le nombre de groupes de 2 lettres distinctes est 12. Ces
groupes sont les suivants : AB AC AD BC DC BA CA DA CB DB CD BD

Remarque : Lorsqu’on est autorisé d’utiliser plusieurs fois le même élément dans un groupe, on parle
des ARRANGEMENTS AVEC REPETITION. C’est le nombre d’applications d’un ensemble à p
14
éléments vers un ensemble à n éléments. Ce qui arrive dans le tirage avec remise. Le nombre de ce
type d’arrangement s’obtient par la formule suivante :
A np = n p
Exemple. – Considérons l’exemple précédent en envisageant la situation où la répétition est autorisée.
Le nombre de groupes est de 42 = 16. Ces groupes sont les suivants : AB AC AD BC BD DC
BA CA DA CB DB CD AA BB CC DD.
Deux arrangements sont distincts si l’un contient au moins un objet que ne contient pas l’autre composition
(nature) ou si contenant les mêmes objets, ceux-ci sont dans des ordres différents (ordre).

1.3. PERMUTATIONS

On appelle permutations de n objets, tous les groupes de ces n objets, placés dans un ordre déterminé.
C’est une suite ordonnée de ces n objets. Ce sont des arrangements dans lesquelles l’ensemble de
départ et l’ensemble d’arrivée ont même cardinal (même nombre d’éléments). Ces permutations sont
données par le nombre des arrangements de n objets pris p à p où p = n :
Anp
Ce nombre est égal à la factorielle n. Symbolisé Pn, Ann , le nombre de permutations se calcule donc :

Pn = Ann = n!

Exemple. – Trois membres d’une association charitable ont accepté d’être les directeurs du comité
exécutif et doivent se partager les responsabilités de président, secrétaire et trésorier. Le nombre de
choix possibles (permutations) est donc : n! = 3! = (3)(2)(1) = 6.

Ceci peut être schématisé par un diagramme séquentiel en « arbre », de façon analogue à ce
qui a été fait à la figure 1.1. Appelons A, B, C les 3 personnes en question. Le schéma est alors le
suivant :

C ho ix du C hoix du C ho ix du
présiden t secréta ire trésorier

C
A B
C B
C
A
B

C A
B
A
C

B A

Figure 1.1. – Diagramme séquentiel en arbre


Remarques

- Si la répétition est autorisée, la formule indiquée est celle vue dans le cadre de l’arrangement
avec répétition :
nn
- Si l’on s’intéresse à la permutation des ELEMENTS REPETES (avec répétition) :

Pr Joseph TSHIMPANGA B.
15

n!
Pn =
n1 ! n2 ! ... nk !
Exemple. Considérons le « mot » AABCCC. Combien de mots nouveaux peut-on obtenir en
permutant les lettres ? Dans ce mot, nous avons 2A et 3C. Dans la permutation, il faut tenir
compte de ces répétitions. Ainsi donc, le nombre de mots nouveaux est égal à 6! (2!)(3!)  60 et
non 6! = 720.

- Lorsqu’on s’intéresse aux permutations des objets placés autour d’une table ronde, on parle
de permutation circulaire. Le nombre de permutations est obtenu selon l’expression ci-dessous
en calculant les permutations de n – 1:
Pn = (n - 1)!

1.4. COMBINAISONS

On appelle combinaison de n objets pris p à p (p < n), tout groupe qu’on peut former en
choisissant p objets donnés, sans ordre ni répétition. Le nombre de combinaisons de p objets
parmi n est symbolisé par Cnp ; dans certains ouvrages on retrouvera la notation ( np ) pour Cnp .
Ce nombre se calcule suivant la formule
n! Ap
C np   n
(n - p)! p! Pp

Exemple. – Reprenons les données de l’exemple §1.4. Posons la question de la façon suivante
: de combien de manières peut-on former un comité de 3 personnes (sans aucune hiérarchie
précisée) choisies parmi les 10 membres de l’association ? La réponse est alors :

3 10! 10 x 9 x 8 x 7! 10 x 9 x 8 720
C 10    = = 120
3!(10  3)! 3! 7! 3x2 6

Remarques. – Une combinaison avec répétitions de p éléments choisis par n, est une liste non
ordonnée, avec répétitions éventuelles des éléments. Le nombre de combinaisons avec
répétitions (ici p peut être supérieur à n) est :
(n  p  1)!
Cnp  Cnp p 1 
p!(n  1)!

Pr Joseph Tshimpanga B.
CHAPITRE 2 : THEORIE DE PROBABILITE

Il existe plusieurs situations où, malgré l’incertitude qui les entoure, des décisions doivent être prises.
Ainsi, le commerçant doit décider quelle quantité de marchandise il gardera en stock; de même, un
joueur de poker, de tiercé, décider du montant à parier, ... Dans chacune de ces situations, l’individu
concerné doit baser sa décision sur ce qu’il croit devoir se produire. Le commerçant analysera ses
ventes antérieures pour déterminer ce que pourront être ses ventes futures et établira par la suite une
politique d’achat appropriée. Le joueur de poker alliera ses connaissances du jeu à la perception qu’il
a des autres joueurs afin de déterminer le montant de sa mise.

Chaque fois, ceux qui ont à prendre des décisions doivent le faire en s’appuyant sur ce qu’ils croient
être le plus susceptible de se réaliser dans le futur. En d’autres mots, la décision est basée sur la
probabilité qu’a un événement de se réaliser. Par conséquent, dans ce chapitre, nous examinerons les
méthodes de calcul des probabilités.

2.1. HISTORIQUE

On attribue en général à Blaise Pascal et à Pierre de Fermat l’invention au XVIIe siècle d’une
première approche de la théorie des probabilités appliquée aux jeux de hasard, même si Jérôme
Cardan s’était déjà penché sur la question dès le XVIe siècle. Cinquante ans plus tard, dans son
ouvrage posthume Ars conjectandi (1713), Jacques Bernoulli systématise le calcul des
probabilités, en énonçant des théorèmes prometteurs tels que l’additivité des probabilités. Au
même moment, en Angleterre, Abraham de Moivre introduit la notion de loi normale dans son
œuvre Doctrine of Chances.

Le XIXe siècle est marqué par la publication en 1814 de la Théorie analytique des probabilités de
Laplace, dans laquelle la théorie des probabilités est appliquée à la mécanique et aux statistiques.
Cet ouvrage aura une influence considérable sur tous les mathématiciens de ce siècle. Avec les
travaux de Darwin et du statisticien Quételet, avec les travaux de Maxwell sur la théorie cinétique
des gaz, ceux de Boltzmann sur la mécanique statistique, la vision probabiliste du monde
s’affirme encore davantage, englobant tous les domaines de la science (voir Statistique,
mécanique). À la fin du XIXe siècle, le Russe Tchebychev rend beaucoup plus rigoureuse la
théorie, généralise la loi des grands nombres, que Markov reprend sous l’angle des processus dits
stochastiques. Au XXe siècle, Émile Borel définit la probabilité à partir de la notion de mesure, et
Kolmogorov développe une présentation axiomatique de la théorie. Aujourd’hui, les probabilités
possèdent un vaste champ d’application, allant de la conception des ordinateurs à l’étude des
queues ou Files d’attente.

2.2. DEFINITIONS FONDAMENTALES DE PROBABILITE

La théorie de la probabilité s’attache à mesurer ou à déterminer quantitativement la probabilité qu’a


un événement ou une expérience d’aboutir à un résultat donné. Cette théorie utilise souvent les
résultats de l’analyse combinatoire et notamment les dénombrements appelés permutations,
arrangements et combinaisons (cf. analyse combinatoire). Elle constitue la base de tous les travaux
en statistiques.

Historiquement, les probabilités ont fait successivement l’objet de trois approches conceptuelles
différentes : l’approche classique, l’approche fréquentiste, l’approche subjectiviste.

Dans l’approche classique de la probabilité, on s’attache à déterminer parmi tous les résultats
possibles, le nombre a de ces résultats qui soient favorables à la réalisation de l’événement A souhaité.
17
Et, si on désigne par b le nombre de résultats possibles qui ne soient pas favorables, on dira que la
probabilité de réalisation de l’événement A est le nombre :
p(A) = a ou p(A) = n
a+b N
où n : le nombre de cas favorables à l’événement A et N : le nombre de cas possibles

Mais ceci ne peut être valable qu’à la condition que tous les résultats considérés comme possibles
(tant ceux dénombrés par a que ceux dénombrés par b) soient rigoureusement équiprobables. On voit
qu’une telle approche, lorsqu’elle est applicable, ne nécessite pas forcément la réalisation effective
d’une expérience et c’est pourquoi on la désigne parfois sous le nom d’approche a priori.

Exemple. Dans un paquet de cartes convenablement battues qui contient 4 as et 48 autres cartes, la
probabilité d’obtenir au hasard une carte qui soit un as, en un simple tirage, est :

p(A) = 4 (4 + 48)  4 52 = 1 13

Dans l’approche fréquentiste de la probabilité, on se base sur les données fournies par un certain
nombre d’observations ou d’expériences antérieures. Il n’est alors pas nécessaire de postuler une
quelconque égalité de base entre des résultats à venir. Comme cette approche est fondée sur des
données acquises par l’observation ou l’expérience, on la désigne parfois sous le nom d’approche
empirique.

Exemple. La probabilité d’un accident du travail, au cours d’une année, dans un secteur donné
d’industrie où un échantillon de 10 firmes a été tiré au hasard et a indiqué que, sur un total de 8000
employés, il s’est produit 400 accidents du travail durant la dernière année, est égale à :

p(A) = 400/8000 = 1/20 = 0.05 ou 5%.

Puisque cette valeur est fondée sur les résultats d’un échantillon, on dira que c’est une estimation de
la vraie valeur, qui demeure inconnue. Il faut supposer, en outre, que les règles de sécurité n’ont pas
varié durant l’année qui suit la prise d’échantillon).

Aussi bien l’approche classique que l’approche fréquentiste de la probabilité conduisent à des valeurs
que l’on peut qualifier d’objectives, en ce sens qu’elles correspondent à un taux de réalisation de
l’événement qui serait toujours vérifiable à long terme, c’est-à-dire sur un très grand nombre
d’épreuves. D’un point de vue opposé, l’approche subjectiviste de la probabilité est spécialement
appropriée pour les événements auxquels il n’est donné qu’un seule fois de se réaliser ou de ne pas
se réaliser. Dans de tels cas, on désignera sous le nom de probabilité subjective le degré de conviction
attribué par un individu à l’égard de la réalisation de l’événement, compte tenu des évidences qu’il a
pu constater.

Exemple. Probabilité pour que l’ouverture d’une boutique, appartenant à une chaîne de repas rapides,
s’avère une réussite financière. (L’investisseur, au cours de son enquête, a obtenu d’une part des
renseignements sur les autres boutiques appartenant à la même chaîne et, d’autre part, a étudié le
district résidentiel au cœur duquel est située l’aire commerciale où se trouve la boutique en question.
Il a enfin déterminé le volume de ventes nécessaire à une réussite, en fonction du capital à investir et
des coûts de fonctionnement à envisager. Il en a conclu que les chances d’une réussite étaient de 80%
contre 20% de risque d’insuccès.)

Ici, on a affaire à une approche subjectiviste et la probabilité = 80%.


Il est certain que le jugement porté par l’investisseur en cause doit tenir compte de tous les
renseignements qu’il est possible de rassembler pendant le temps dont il dispose.

Pr Joseph Tshimpanga B.
18

2.3. REPRESENTATIONS UTILISEES EN PROBABILITE

On se sert généralement du symbole p(A) pour désigner la probabilité d’un événement A, ce qui
signifie la probabilité pour que l’événement A se réalise lors d’une simple observation ou d’une
simple expérience. La plus petite valeur imaginable de p(A) est la valeur 0 (cas de l’événement
impossible) tandis que la plus grande valeur est la valeur 1 (cas de l’événement absolument certain).
On peut donc écrire :
0  p(A)  1

Un événement A est défini de telle manière qu’il doit soit se réaliser, soit ne pas se réaliser. Il s’ensuit
que, pour une observation ou une expérience donnée, la probabilité de la réalisation p(A) ajoutée à la
probabilité de la non-réalisation p( A ) correspond à une certitude :
p(A) + p( A ) = 1

Schématiquement cela peut se représenter par ce qu’on appelle un diagramme de VENN. L’aire totale
du rectangle ci-dessous représente l’ensemble de toutes les possibilités, ce qu’on appelle l’ensemble
fondamental. N’importe quelle portion de cette aire totale pourra donc être utilisée pour représenter
un événement ou une classe d’événements.

Exemple. La figure 201 représente les probabilités des deux événements A et A (autrement dit non
A). La propriété p(A) + p( A ) = 1 se manifeste par le fait que la somme des deux aires reconstitue le
rectangle total.

A
A

Figure 2.1. – Diagramme de Venn

2.4. CALCUL DES PROBABILITES

Il existe deux règles de base pour le calcul des probabilités : la règle de l’addition et la règle
de la multiplication. La première de ces règles concerne la probabilité que l’un ou l’autre de deux
événements se produise (théorèmes de probabilités totales), tandis que la seconde régit le calcul de
la probabilité que l’un et l’autre se produisent (théorèmes de probabilités composées). Ces règles
sont basées sur l’utilisation des conjonctions de coordination « ou » et « et ».
OU est employé dans le sens de la réunion d’événements ou de sous-ensembles, dans le sens
de somme logique : si A et B sont deux événements « A ou B » est réalisé si et seulement si soit A,
soit B, soit A et B sont réalisés ; ce qui permet d’utiliser la notation A  B.
ET est employé dans le sens de l’intersection d’événements, dans le sens de produit logique :
« A et B » est réalisé si et seulement si A et B sont réalisés simultanément; ce qui permet l’utilisation
la notation A  B .

Pr Joseph TSHIMPANGA B.
19
2.4.1. Théorèmes des probabilités totales (règle de l’addition)

Il s’agit ici du cas où l’on cherche à calculer la probabilité de réalisation d’un événement ou
d’un autre (ou de l’un et de l’autre) au cours d’une seule observation. La règle d’addition des
probabilités se présente sous deux variantes selon qu’on examine des événements mutuellement
exclusifs et non mutuellement exclusifs.

Des événements sont dits mutuellement exclusifs (ou incompatibles) s’il est impossible qu’ils
surviennent simultanément. Par exemple supposons que l’on appelle événement A le tirage d’un as
dans un jeu de cartes et événement B le tirage d’un roi. On peut dire, si l’on ne s’accorde qu’un seul
tirage, que les événements A et B sont mutuellement exclusifs, du fait que la carte tirée ne peut à la
fois être un as et un roi.

Des événements, au contraire, sont non exclusifs (ou compatibles) si l’on peut concevoir
qu’ils surviennent simultanément; ce qui ne veut pas dire que cela arrive nécessairement. Par
exemple, si on doit tirer une carte d’un jeu, on peut s’intéresser à l’événement : « tirage d’un as » ou
à l’événement : « tirage d’un trèfle ». Ce sont deux possibilités qui ne s’excluent pas, mais ceci ne
veut pas dire que tout « as » tiré sera un « trèfle », ou tout « trèfle » tiré, un « as ».

Exemple. Dans une étude de comportement du consommateur, un statisticien a questionné les clients
entrant dans un magasin d’appareils stéréophoniques. Il a ainsi pu établir deux types de classement
selon le sexe (homme ou femme) et selon l’âge (en dessous et au-dessus de 30 ans). A l’intérieur de
chacun des deux classements, on voit qu’on a affaire à des événements mutuellement exclusifs : c’est
aussi évident pour le cas des qualificatifs masculin et féminin que pour l’âge, soit inférieur, soit
supérieur à 30 ans. Par contre, les catégories établies dans le premier classement ne sont aucunement
exclusives de celles établies dans le second. Un homme ou une femme peuvent aussi bien se situer
en dessous qu’au-dessus de 30 ans.

A B A AB B

(a) (b)

Figure 2.2. – Illustration de deux événements indépendants (a) et de deux événements


dépendants (b)

a. Premier théorème : cas des événements mutuellement exclusifs

Si les événements A et B sont mutuellement exclusifs (fig. 2.2a), la probabilité pour que l’un ou
l’autre se réalisent est égale à la somme de la probabilité pour que A se produise et de la probabilité
pour que B se produise.

p(A ou B) = p(A  B) = p(A) + p(B)

On peut généraliser la formule ci-haut à trois événements mutuellement exclusifs :

p(A ou B ou C) = p(A) + p(B) + p(C)

Pr Joseph Tshimpanga B.
20

Exemple. Si l’on effectue un simple tirage d’une carte dans un jeu de 52 cartes, les événements « tirer
un as » et « tirer un valet » sont mutuellement exclusifs. Voyons maintenant la probabilité de tirer un
as ou valet :
p(A ou V) = p(A) + p(V) = 4 + 4 = 8 = 2
52 52 52 13

b. Deuxième théorème : cas des événements non mutuellement exclusifs

Lorsque A et B sont deux événements non mutuellement exclusifs (fig. 2.2b), la probabilité de
l’apparition de l’un ou de l’autre, est égale à la somme de leurs probabilités respectives diminuée de
la probabilité de leur intersection.

p(A ou B) = p(A  B) = p(A) + p(B) - p(A B)

On peut généraliser la formule ci-haut à trois événements mutuellement exclusifs :

p(A ou B ou C) = p(A) + p(B) + p(C) - p(AB) - p(AC) - p(BC) + p(ABC)

Exemple 207. Les deux événements « tirer un as » et « tirer un trèfle » dans un jeu de cartes ne sont
pas exclusifs. La probabilité de tirer soit un as, soit un trèfle en un seul tirage peut se formuler :
p(A ou T) = p(A) + p(T) - p(AT) = 4 + 13 - 1 = 16 = 4
52 52 52 52 13
La figure 202 (a) et (b) montre comment l’utilisation des diagrammes de VENN permet de
rendre intuitifs les énoncés des formules. Dans le cas de la figure 2.2 (a), on voit que, pour deux
événements mutuellement exclusifs, p(A ou B) correspond à l’addition des deux quantités :
aire A
et aire B
aire totale aire totale

Par contre, dans la figure 2.2(b), c’est-à-dire le cas des événements non exclusifs, on voit qu’il
faut effectuer le calcul :
aire A
+ aire B - aire commune à A et B
aire totale aire totale aire totale

parce que l’addition sans précaution des deux premières quantités seulement conduirait à compter en
double l’aire commune à A et B, donc à fausser le résultat.

2.4.2. Théorèmes de probabilités composées (règle de multiplication)

La règle de multiplication de probabilités s’emploie lorsqu’il s’agit de réalisations


concomitantes d’événements compatibles, c’est-à-dire lors du calcul d’une probabilité de type p(A
 B ). On peut dire qu’on a affaire à deux formes ou deux variantes d’une même règle selon qu’il
s’agit d’événements dépendants ou indépendants.

Deux événements sont déclarés indépendants si le fait de la «réalisation » ou de la «non-


réalisation » de l’un ne modifie en rien la probabilité de réalisation de l’autre. Au contraire, on dira
que deux événements sont dépendants si la réalisation de l’un (ou sa non-réalisation) a une
répercussion sur la valeur de la probabilité de l’autre.

Exemple 208. Si on tire deux fois de suite à pile ou face une pièce de monnaie, le résultat qu’on pourra
obtenir la seconde fois est un événement indépendant de celui obtenu la première fois. Par contre, si
on tire deux fois de suite une carte d’un jeu de cartes « sans remplacement » (c’est-à-dire sans remettre
la première carte tirée dans le jeu avant de tirer la seconde) on aura affaire à deux événements
Pr Joseph TSHIMPANGA B.
21
dépendants. En effet, le calcul des probabilités du second tirage doit tenir compte du fait que le
premier tirage a déjà eu lieu. Illustrons ceci de façon plus précise. Si un as a été obtenu au premier
tirage, la probabilité d’obtenir un valet, par exemple, au second tirage se calcule par le rapport entre
le nombre de valets dans le paquet, à ce moment, et le nombre total de cartes qui restent, donc 4/51
(ce qui montre la dépendance de cet événement par rapport au précédent). Naturellement, si l’on
cherchait la probabilité de tirer un autre as au second tour, il faudrait l’évaluer à 3/51.

Lorsqu’on s’intéresse à la probabilité d’événements dépendants, on doit faire appel à la notion de


probabilité conditionnelle. Le symbole p(B|A) sert à désigner la probabilité de la réalisation de
l’événement B à la condition que l’événement A soit, lui aussi, réalisé (Il faut faire attention à ne pas
lire B/A comme si cela représentait une expression fractionnaire). On pourra lire p(B|A) comme la
probabilité de B conditionnée à la réalisation de A ou la probabilité de B sachant que A s’est déjà
réalisé. Il n’est pas utile de parler de probabilité conditionnelle quand on a affaire à des événements
indépendants puisque alors p(B|A) serait strictement égal à p(B). C’est pourquoi lorsqu’on désire
faire un test sur la dépendance ou l’indépendance de deux événements, il arrive qu’on utilise les
questions suivantes :
p(B) = ou  p(B|A)
p(A) = ou  p(A|B)

NB. Il se produit quelques confusions dans les esprits au sujet de la distinction entre la notion
d’exclusion mutuelle des événements et la notion d’indépendance. On devrait retenir que la notion
d’exclusion mutuelle implique l’idée d’intersection vide ( A  B =  ), c’est-à-dire l’impossibilité de
coexistence, alors que dans une telle hypothèse, la probabilité conditionnelle serait obligatoirement
nulle. Mais alors le test d’indépendance serait absolument négatif puisque p(B|A) = 0 tandis que p(B)
 0 et p(A)  0.

a. Premier théorème de probabilités composées : événements indépendants

Si deux événements sont indépendants, la probabilité de leur arrivée simultanée est égale au
produit de leurs probabilités respectives. La formule est la suivante :

p(A et B) = p(A  B) = p(AB) = p(A) p(B)

On peut généraliser cette formule sur trois événements indépendants :

p(A et B et C) = p(A B C) = p(ABC) = p(A) p(B) p(C)

Exemple. On tire deux fois à pile ou face avec une pièce de monnaie. Quelle est la probabilité
d’obtenir deux « face ». Par application de la formule, on obtient : p(F) = (1/2)(1/2) = ¼

Les diagrammes en « arbre » sont particulièrement utiles dans l’étude de ce type de problèmes, parce
qu’ils permettent de représenter les événements possibles selon la séquence de leur réalisation. La
figure 2.3 est un exemple d’arbre associé avec un double tirage à pile ou face.

Pr Joseph Tshimpanga B.
22

2 e t ir a g e E v é n e m e n t to t a l P r o b a b il it é
1 e r ti r a g e

P et P 0 ,2 5
P
1 /2

P
1 /2
1 /2 0 ,2 5
P et F
F
F et P 0 ,2 5
P
1 /2

1 /2

F
1 /2

F 0 ,2 5
F et F

1 ,0 0

Figure 2.3. – Diagramme séquentiel en arbre associé à un double tirage d’une pièce de monnaie

b. Deuxième théorème de probabilités composées : événements dépendants

Si deux événements sont dépendants, la probabilité de leur arrivée simultanée est égale au
produit de la probabilité de l’arrivée de l’un par la probabilité de l’arrivée de l’autre sachant que le
premier s’est déjà réalisé (probabilité conditionnelle). La formule est la suivante :

p(A et B) = p(A B) = p(AB) = p(A) p(B|A) (211)


On peut généraliser cette formule sur trois événements dépendants :

p(A et B et C) = p(A B C) = p(ABC) = p(A) p(B|A) p(C|AB) (212)

On peut se servir d’un diagramme en arbre. On considère une séquence finie d’expériences dont
chacune d’entre elles a un nombre fini de résultats possibles. Les probabilités associées aux résultats
possibles d’une expérience dépendent du résultat de l’expérience précédente ; il s’agit de probabilités
conditionnelles. Pour représenter cette séquence, on utilise une représentation « en arbre », le
théorème précédent permettant de calculer la probabilité de chaque feuille de l’arbre.

Exemple 1. Supposons qu’on ait besoin de deux pièces de rechange d’un certain type et qu’on doive
recourir à un lot de 10 pièces dont on sait que 8 sont en bonne condition et 2 en état défectueux. On
tire donc deux au hasard (tirage supposé sans remise). Le schéma des deux tirages peut être représenté
selon la figure 2.4. On emploiera les deux abréviations B (bonne pièce) et D (pièce défectueuse). On
voit que la probabilité pour en avoir deux bonnes, B1 et B2, une à chaque tirage se calcule ainsi :
8 7 56 28
p(B1 et B2) = p(B1) p(B2|B1) = ( )( ) = =
10 9 90 45

Pr Joseph TSHIMPANGA B.
23

1 e r tira g e 2 e t ir a g e E v é n e m e n t to ta l P ro b a b ilité

B2 B 1 et B 2 5 6 /9 0
7 /9
B1

8 /1 0 2 /9

B 1 et D 2 1 6 /9 0
D2

2 /1 0 B2 D 1 et B 2 1 6 /9 0
8 /9

D1 1 /9

D2 D 1 et D 2 2 /9 0

9 0 /9 0

Figure 2.4. – Diagramme séquentiel en arbre associé au tirage double des pièces

Exemple 2. On sait que les taux de réussite en première session en L1 ou B1 dans trois facultés de
l’université de Kisangani (FacA, FacB et FacC) sont respectivement (données arbitraires) de 0,20 ;
0,15 ; et 0,10 (0,20 = Pr(Réussite/FacA)) ; on sait que 1/4 des étudiants l’Unikis étaient la FacB, 1/4
à la FacC et 1/2 à la FacA. Quelle était la probabilité qu’un étudiant de la FacB soit reçu à l’issue de
la première session des examens ?

0,15
FacB R 1
Pr( ∩ ) = 0,15 ×
4
1/4 E
0,85
1
FacA R Pr( ∩ ) = 0,20 ×
2
0,20
1/2
0,80 E
1/4 1
0,10
R Pr( ∩ ) = 0,10 ×
4
FacC
0,90 E

Figure 2.5
R signifie réussite et E échec.

Pr(R) = Pr( ∩ ) + Pr( ∩ ) + Pr( ∩ )


Pr( R) = 0,15×1/4 + 0,20×1/2 + 0,10×1/4 = 0,1625

La probabilité qu’un chemin particulier de l’arbre se réalise est, d’après le théorème de la


multiplication, le produit des probabilités de chaque branche du chemin. Les chemins s’excluant
mutuellement, la probabilité d’être reçu est égale à la somme des probabilités d’être reçu pour tout
chemin aboutissant à un état R (reçu).

Pr Joseph Tshimpanga B.
24

2.5. TABLEAUX DE PROBABILITE CONJOINTE

Un tableau de probabilité conjointe est un tableau à double entrée comportant m x n cases, dont m
lignes et n colonnes. Les m rubriques des lignes désignent les diverses possibilités pouvant se
présenter pour un caractère étudié. Les n rubriques des colonnes désignent les diverses possibilités
concernant un second caractère. La valeur inscrite dans chaque cas sera donc la probabilité d’un
événement possédant à la fois telle modalité du premier caractère et telle autre du second caractère,
ce qu’on appelle une probabilité conjointe de deux variables. L’ensemble des valeurs ainsi retenues
peut, soit être obtenues comme des résultats de calculs observés a priori, en raison de la nature des
choses, soit, le plus souvent, se présenter comme des effectifs ou des fréquences résultant d’études
statistiques. Dans ce dernier cas, on parle de tableau de contingence.

Exemple. Considérons une étude basée sur la clientèle d’un magasin de chaînes stéréophoniques. On
a retenu à ce sujet 200 personnes classées selon l’âge et le sexe. La répartition de ces personnes selon
les deux classifications est reprise dans le tableau de contingence ci-dessous. Il est possible de
construire le tableau de probabilité conjointe à partir des résultats du tableau de contingence. Pour ce
faire, il suffit de transformer les effectifs des cases du premier tableau en termes de probabilité grâce
à une simple division par l’effectif total, soit 200.

Les totaux marginaux de ligne ou de colonne des tableaux de probabilité conjointe portent le nom de
probabilités marginales. Tandis que les valeurs des probabilités inscrites dans les cases centrales sont
des probabilités de réalisation conjointe, les probabilités marginales sont les valeurs des probabilités
inconditionnelles des événements désignés en rubrique.

Tableau 2.1a. – Tableau de contingence relatif Tableau 2.1b. – Tableau de probabilité conjointe
aux clients d’un magasin de chaînes relatif aux clients d’un magasin de chaînes
stéréophoniques stéréophoniques

Sexe Sexe
Age M F Total Age M F Total
< 30 ans 60 50 110 < 30 ans (A) 0,30 0,25 0,55
 30 ans 80 10 90  30 ans (B) 0.40 0,05 0,45
Total 140 60 200 Total 0,70 0,30 1,00

Exemple. Dans la première ligne et la première colonne du tableau (b), la valeur 0,30 signifie que la
probabilité qu’une personne, choisie au hasard parmi le groupe défini de 200 personnes, soit du sexe
masculin et d’âge inférieur à 30 ans est 3/10. Par contre, la valeur 0,70 au bas de la dernière colonne
signifie que la probabilité est de 7/10 pour que la personne choisie soit du sexe masculin, sans
condition d’âge.

Exemple. Supposons que nous voulions connaître la probabilité qu’une personne, choisie au hasard
parmi les 200 en question, soit d’âge inférieur à 30 ans (catégorie A) sachant qu’il s’agit d’une
personne de sexe masculin (M). On utilise alors la formule :
p(A  M) 0,30 3
p(A|M) = = = = 0,43
p(M) 0,70 7

2.6. CALCUL DE LA PROBABILITE A L’AIDE DE L’ANALYSE COMBINATOIRE

Un grand nombre de problèmes de probabilités se résolvent selon l’approche classique.


Comme nous l’avons vu, dans cette approche, on définit l’ensemble des événements équiprobables
possibles et l’on établit le rapport entre le nombre d’événements favorables et le nombre total des
événements possibles. Quand les données du problème sont simples, il est facile de compter les

Pr Joseph TSHIMPANGA B.
25
événements possibles. Mais dès que les données se compliquent, il est bon d’avoir recours à des
dénombrements systématiques, donc d’utiliser les formules de l’analyse combinatoire.

Exemple. Supposons que les 10 membres qui forment une association soient 6 femmes et 4 hommes.
Quelle est la probabilité pour qu’un comité de 3 personnes choisies au hasard comporte 2 femmes et
1 homme ? L’approche convenable consiste à déterminer le nombre de manières de choisir
exactement 2 femmes (sélectionnées parmi 6) et 1 homme (sélectionné parmi 4) et de le comparer
au nombre total des combinaisons possibles.
Nombre de comités possibles avec 2 femmes et 1 homme : C 62 x C14 = 6! x 4! = 15 x 4 = 60
2! 4! 1! 3!
3 10! 720
Nombre total de comités possibles de 3 personnes : C 10 = = = 120
3! 7! 6
C62 x C14 60
La probabilité cherchée est donc : p(2 F et 1 H) = 3
= = 0,50
C10 120
N.B. Dans cet exemple, on voit l’application du principe de multiplication pour les dénombrements
d’événements qui se succèdent. En général, si un événement peut arriver de n1 manières et qu’un
second événement peut arriver de n2 manières, on peut poser : nombre total de manières dont les 2
événements peuvent se produire conjointement = n1 x n2.

2.7. THEOREME DE BAYES

Les probabilités conditionnelles trouvent de nombreuses applications dans les théorèmes


élaborés par un moine anglais, T. BAYES (1763), qui a travaillé sur des théories de probabilités et de
décisions. Ce théorème représente un effort pour passer d’un probable à un probable plus sûr. Au lieu
de se placer dans l’ensemble fondamental, on essaye de se placer dans un ensemble plus restreint.
C’est l’application ou le développement de la probabilité conditionnelle.

Ce théorème n’est qu’un corollaire de la règle de la multiplication lorsque les événements sont
dépendants. Dans sa forme la plus simple, la formule de BAYES donne la probabilité d’un événement
A compte tenu qu’un autre événement, B, s’est réalisé
p(A  B) p(A) p(B | A)
p(A|B) = =
p(B) p(B)
Quelle est la valeur de la probabilité de l’événement B ou p(B) ? Pour répondre à cette question, nous
passerons par une petite démonstration. Soit l’ensemble fondamental () ou (S) constitué des
étudiants filles (A) et garçons ( A ) inscrits en 2e graduat gestion. D’autre part, on considère les
ajournés (B) à l’issue de la première session des examens.

Pr Joseph Tshimpanga B.
26

A + A =  (1) B =   B (2)
A
Nous pouvons remplacer  par sa valeur pour avoir Ã

B = A  A  B (3);
étant donné la transitivité de la somme par rapport à B
l’intersection (3) peut s’écrire :
B = A  B  A  B (4)
Comme nous sommes en présence de probabilités

conditionnelles, la probabilité de B est égale :
p(B) = p(A  B ) p( A  B ) (5)
A1 A2
= p(A) p(B|A) + p( A ) p(B| A ) (6) ... Ai ...

Partant de (6), la formule (213) peut s’écrire comme suit :


p(A  B) p(A) p(B | A)
p(A|B) = =
p(B) p(B)
Ak
p(A) p(B | A)
= (7)
p(A) p(B | A) + p( A ) p(B | A )
Figure 2.6. – Détermination de la probabilité p(B)
On peut généraliser la formule (214) :
p(Ai ) p(B | Ai )
p(Ai | B) = (8)
k
 p(Ai ) p(B | Ai )
i=1

La formule (7) est la formule de Bayes qui peut s ’énoncer e la manière suivante :
Soient 2 événements a et B ayant une certaine relation de cause à effet. Leurs probabilités
s’appelleraient :
p(A) : probabilité a priori, de cause ou existentielle;
p(B|A) : probabilité conditionnelle ou probabilité productrice;
p(A|B) : probabilité d’action ou a posteriori;
p(A) p(B|A) : probabilité conjointe, mixte ou combinée.

Quand un événement peut se produire à la suite de l’un ou de l’autre dans plusieurs cas
exhaustifs et exclusifs, la probabilité que la cause A ou l’événement A soit en jeu sachant que B s’est
produit, est égale au produit de la probabilité a priori p(A) par la probabilité productrice p(B|A)
(probabilité conjointe) divisée par la somme de toutes les probabilités conjointes relatives à toutes
les causes.

Exemple 1. Considérons 2 urnes désignées U1 et U2. L’urne 1 contient 8 boules rouges et 2 boules
vertes alors que l’urne 2 a 4 boules rouges et 6 vertes. On choisit une urne au hasard, et dans l’urne,
une boule. Ces choix successifs et les probabilités qui les accompagnent peuvent être illustrés :

p(U1 ) p(V | U1 ) 0,50 (0,20) 0,10 1


p(U1 | V) = = =  = 0,25
p(U1 ) p(V | U1 ) + p(U2 ) p(V | U 2 ) 0,50 (0,20) + 0,50 (0,60) 0,40 4

Pr Joseph TSHIMPANGA B.
27

U1 p (U 1 |R ) = 2 /3
R .5 0 (.8 0) = .4 0
.80 2 /3

U1
R
.2 0
.50 1 /3
V .5 0 (.2 0) = .1 0 .6 0

R .5 0 (.4 0) = .2 0 U2 p (U 2 |R ) = 1 /3
.5 0 .4 0
U1
U2 p (U 1 |V ) = 1 /4
.4 0 .2 5
.60 V

V .5 0 (.6 0) = .3 0 .7 5

A rb re in v ersé U2
p (U 2 |V ) = 3 /4
A rb re

Figure 2.7. – Diagrammes séquentiels en arbre et en arbre inversé

Exemple 2. Reprenons l’exemple des résultats aux examens de première session des étudiants de L1
ou B1 à l’Unikis. Comme précédemment, soit R l’événement « un étudiant est reçu ». On a, en
notant C1, C2, C3 les 3 facultés B, A et C respectivement : Pr(R) = Pr(R/C1)Pr(C1) +
Pr(R/C2)Pr(C2) + Pr(R/C3)Pr(C3)
[noter que c’est la même chose que la somme des probabilités des chemins de l’arbre, qui conduisent
à un succès]
Le théorème de Bayes permet de répondre à la question duale. Au lieu de chercher la probabilité
d’obtenir un étudiant reçu sachant qu’il venait d’une faculté donnée, on cherche la probabilité qu’un
étudiant ait été inscrit dans une faculté donnée sachant qu’il a été reçu (probabilité des causes).
Calculons la probabilité qu’un étudiant reçu soit issu de la faculté A.
( | )Pr( )
( | )=
( | ) Pr( ) + ( | ) Pr( ) + ( | )Pr( )

Avec Pr(C1) = 0,25 ; Pr(C2) = 0,50 ; Pr(C3) = 0,25 ;


et Pr(R/C1) = 0,15 ; Pr(R/C2) = 0,20 ; Pr(R/C3) = 0,10.
D’où
0,20 × 0,50
( | )= = 0,61
0,15 × 0,25 + 0,20 × 0,50 + 0,10 × 0,25

Ce qui signifie que, dans ce cas, la probabilité qu’un étudiant appartienne à C2, s’il est reçu, est plus
grande que si l’on ne sait rien (probabilité a priori Pr(C2) = 0,50). Cette façon de calculer les
probabilités des causes connaissant les effets est essentielle en médecine. En effet, le problème du
diagnostic peut être posé en ces termes.

Exemple 3. Considérons, pour illustrer notre propos, le problème du diagnostic d’une douleur aiguë
de l’abdomen. Il s’agit d’un patient arrivant aux urgences pour un « mal au ventre ». Si l’on ne sait
rien d’autre sur le patient (on n’a pas fait d’examen clinique ou complémentaire), on ne connaît que
les probabilités d’avoir tel ou tel diagnostic si on observe une douleur.

Soient D1, D2 et D3 les 3 diagnostics principaux (il y en a en fait au moins une douzaine) et exclusifs
; par exemple D1 = appendicite, D2 = perforation d’ulcère, D3 = autres diagnostics.
Soit un signe s1 pour lequel on connaît Pr(s1/D1), Pr(s1/D2), et Pr(s1/D3). Par exemple, s1 serait «
présence d’une fièvre ≥38,5°C » ; Pr(s1/D1) = 0,90 ; Pr(s1/D2) = 0,30 ; et Pr(s1/D3) = 0,10.

Pr Joseph Tshimpanga B.
28

Ces probabilités peuvent être estimées sur une population de patients en dénombrant le nombre de
sujets ayant le diagnostic D1 et présentant le signe s1. De même, on peut connaître
Pr(D1), Pr(D2) et Pr(D3).

Le problème diagnostique se pose comme celui de choisir par exemple le diagnostic le plus
probable connaissant le signe s1 ; pour ce faire, on calcule Pr(D1/s1), Pr(D2/s1), Pr(D3/s1) et on retient
le diagnostic qui a la plus grande probabilité : c’est l’application de l’approche
bayesienne au problème de l’aide au diagnostic.

Pr Joseph TSHIMPANGA B.
CHAPITRE 3 : EVALUATION DE L’INTERET DIAGNOSTIQUE DES INFORMATIONS
MEDICALES

3.1 Introduction
La tâche essentielle des médecins et même des pharmaciens est de traiter les patients. Pour prescrire
un traitement, il faut savoir, plus ou moins précisément selon les cas, ce dont souffre le malade. Pour
résumer en un seul terme un processus physiopathologique complexe, les médecins à l’instar des
pharmaciens ont créé des concepts : les diagnostics.
La recherche « du » diagnostic est donc la première étape de la consultation clinique. Pour parvenir
au diagnostic, le médecin accumule des informations, dont certaines lui sont spontanément livrées
par le patient (le motif de la consultation, les symptômes), d’autres doivent être recherchées mais sont
disponibles immédiatement (les signes physiques), d’autres enfin sont d’obtention plus ou moins
difficile et coûteuse (les résultats d’examens complémentaires). De nouvelles procédures
diagnostiques apparaissent fréquemment : on a vu, par exemple, l’apparition des échographies, de la
tomodensitométrie (scanner), de l’IRM, pour ne citer que le domaine de l’imagerie. Il n’est bien sûr
pas question d’effectuer tous les examens complémentaires sur tous les malades : il faut donc préciser
les indications de ces examens, ce qui repose sur l’évaluation de leur intérêt diagnostique. Avant
d’aborder la méthodologie de l’évaluation, nous reviendrons sur certains concepts utilisés dans ce
paragraphe.

3.1.1 Le diagnostic

On peut définir un diagnostic comme un concept résumant l’état d’un individu. Le terme de
«diagnostic » est donc beaucoup moins précis qu’on pourrait le penser à première vue : on peut en
général fournir plusieurs diagnostics pour un même état physiopathologique, les termes diagnostiques
utilisés dépendant de l’aspect privilégié. Parmi ces aspects, on peut citer :
— la symptomatologie
— la physiopathologie et l’étiologie
— la conduite thérapeutique

En pratique, la précision du diagnostic dépendra souvent des possibilités thérapeutiques : par


exemple, on ne recherchera pas, en général, le virus responsable d’un syndrome grippal, surtout si on
s’attend à ce que la maladie guérisse spontanément.
D’un point de vue statistique, le diagnostic sera souvent considéré comme une variable aléatoire
binaire : le patient souffre ou ne souffre pas de l’affection considérée, ou, exprimé autrement, le
diagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable seront notées M et
(maladie présente ou absente), ou D et (diagnostic vrai ou faux).

3.1.2 Les informations médicales

On divise l’ensemble des informations médicales en signes cliniques et signes complémentaires. Les
signes cliniques sont divisés en signes fonctionnels ou symptômes, décrits par le malade
(spontanément ou par l’interrogatoire) et signes physiques, recherchés par le médecin. Les signes
complémentaires peuvent être biologiques ou radiologiques. Leur intérêt peut être :
— diagnostique (caractère malin ou bénin d’une tumeur)
— thérapeutique (localisation précise d’une tumeur)
— pronostique (extension ganglionnaire)

D’un point de vue statistique, ces signes peuvent être représentés par des variables binaires (présence
ou absence d’un nodule sur une image) ou continues (cholestérolémie). Nous considérons ici le seul
30
cas d’un signe binaire, présent (noté S) ou absent (noté ̅). Dans la suite, on considère que la présence
du signe est évocateur de la maladie M.
Si l’information est de type continu, on se ramène au cas binaire par l’introduction d’un seuil : d’un
côté du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de l’autre côté du seuil,
les valeurs sont dites pathologiques, et le signe binaire est présent.

3.1.3 Situation expérimentale et estimation

Quand on cherche à évaluer l’intérêt diagnostique d’un signe pour une affection, on recherche le signe
chez des individus présentant ou non l’affection considérée. Deux situations expérimentales sont à
envisager :
— un échantillon représentatif d’une population est constitué. On pourra estimer, à partir de cet
échantillon, toutes les probabilités d’événements par les fréquences observées correspondantes (cette
manière de faire sera vue plus tard) ;
— deux échantillons sont constitués, l’un représentatif des individus pour lesquels le diagnostic est
vrai, l’autre représentatif des individus pour lesquels il est faux. Cette manière de procéder est souvent
la seule possible en pratique, surtout quand la maladie considérée est rare. Il faut remarquer,
cependant, qu’on ne peut plus estimer n’importe quelle probabilité par la fréquence observée
correspondante ; ce point sera développé plus loin dans ce chapitre.

Remarque : nous utilisons actuellement le mot estimation dans le sens d’approximation de la vraie
valeur. Nous donnerons des définitions plus rigoureuses dans un chapitre plus loin.

3.2. Les paramètres de l’évaluation

3.2.1 Sensibilité et spécificité

La sensibilité d’un signe pour une maladie est la probabilité que le signe soit présent si le sujet est
atteint de la maladie considérée. Il s’agit donc de la probabilité conditionnelle qu’on peut noter :

Sensibilité = Se =Pr(S / M)
Un test diagnostic est donc d’autant plus sensible que les sujets atteints de la maladie présentent
plus souvent le signe S.

La spécificité d’un signe pour une maladie est la probabilité que le signe soit absent si le sujet n’est
pas atteint de la maladie. De manière similaire, on a :
é é= = ( ̅| )

Un test diagnostic est donc d’autant plus spécifique que les sujets indemnes de la maladie
présentent moins souvent le signe S.

Pour un examen « parfait », c’est-à-dire n’effectuant aucune erreur, les valeurs de la sensibilité et de
la spécificité sont égales à 1. Si la présence du signe est définie par un « seuil de positivité », on
observe que ces deux paramètres varient en sens inverse lorsqu’on fait varier ce seuil. Ceci explique
qu’un seul de ces deux paramètres ne suffise pas à évaluer un examen. Supposons par exemple qu’on
s’intéresse au signe température vis à vis de la grippe. On considère que le signe est présent si la
température dépasse un certain seuil, par exemple 39°C. Si on augmente le seuil pour le porter à 40°C,
la probabilité de dépasser le seuil (chez les sujets grippés) va diminuer, donc la sensibilité diminue.
En revanche, la probabilité d’être en dessous du seuil (chez les sujets non grippés) va augmenter,
donc la spécificité augmente.

Pr Joseph TSHIMPANGA B.
31
Un test diagnostique de bonne sensibilité conduit à un résultat positif chez presque tous les malades.
Il est donc utilisable pour un dépistage. Si le test possède une bonne spécificité, il conduit à un résultat
négatif chez presque tous les non-malades. Il pourrait donc être utilisé en tant qu’examen de
confirmation du diagnostic.
Ces considérations sont bien sûr schématiques, d’autres éléments intervenant dans l’évaluation,
comme la fréquence de la maladie (prévalence), les risques liés à la maladie, à l’examen, l’existence
et les performances d’autres examens concurrents...

3.2.2 Valeurs prédictives

En pratique, quand un médecin reçoit le résultat d’un examen complémentaire, positif ou négatif, il
ne sait pas si le patient souffre de l’affection qu’il cherche à diagnostiquer ou non, et les probabilités
qui l’intéressent s’expriment de la manière suivante : quelle est la probabilité de présence de la
maladie M chez ce patient, sachant que l’examen a donné un résultat positif (ou négatif) ? Ces
probabilités sont appelées valeurs prédictives. Plus précisément, on a :

• la valeur prédictive positive d’un signe pour une maladie est la probabilité que le sujet soit
atteint de la maladie si le signe est présent ;
• la valeur prédictive négative d’un signe pour une maladie est la probabilité que le sujet soit
indemne de la maladie si le signe est absent.

On peut noter ces paramètres :


VPP = Pr(M ⁄S)

VPN = Pr( ⁄ ̅)

Comme la sensibilité et la spécificité, les valeurs prédictives positive et négative varient en sens
inverse, et doivent donc être considérées simultanément.

Les valeurs prédictives peuvent s’exprimer en fonction du couple sensibilité - spécificité, et de la


fréquence de la maladie dans la population (cette probabilité Pr(M) s’appelle la prévalence de la
maladie). Il suffit d’utiliser le théorème de Bayes :

( | )Pr( )
= ( | )=
( | )Pr( ) + ( | )Pr( )

× Pr( )
=
× Pr( ) + (1 − ) × (1 − Pr( ))

( ̅| )Pr( )
= ( | ̅) =
( ̅| )Pr( ) + ( ̅| )Pr( )

× Pr( )
=
(1 − ) × Pr( ) + × (1 − Pr( ))

3.2.3 Comparaison des deux couples de paramètres

En situation clinique, on a vu que les valeurs prédictives correspondent aux préoccupations des
médecins, et elles pourraient sembler les « meilleurs » paramètres d’évaluation. Pourtant, en réalité,

Pr Joseph Tshimpanga B.
32
c’est la sensibilité et la spécificité qui sont le plus souvent utilisées pour évaluer les examens
complémentaires. La raison en est la suivante :

la sensibilité d’un examen pour une affection repose sur la définition de la population des «malades»,
et est donc caractéristique de la maladie et du signe. En particulier, elle n’est pas susceptible de varier
d’un centre à l’autre (d’un service hospitalier spécialisé à une consultation de médecin généraliste,
par exemple). Le même raisonnement peut s’appliquer à la spécificité, si on considère qu’elle repose
aussi sur la définition de la maladie.

Les valeurs prédictives, au contraire, sont fonctions des proportions respectives de malades et de non-
malades dans la population (de la prévalence de la maladie). Or ces proportions sont dépendantes des
centres considérés ; les valeurs prédictives des examens varient donc d’un centre à l’autre pour une
même maladie, ce qui explique qu’elles sont moins utilisées comme paramètre d’évaluation, même
si elles sont intéressantes à connaître pour un centre donné.

3.3 Estimation des paramètres de l’évaluation

3.3.1 Un échantillon représentatif

3.3.1.1 Les données

Quand on a un échantillon représentatif d’une population, on peut résumer les données de


l’expérience par un tableau de contingence 2×2, sur lequel sont indiqués les effectifs suivants :
— VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est présent {S} ;
— FP (Faux Positifs) : la maladie est absente { } et le signe est présent {S} ;
— FN (Faux Négatifs) : la maladie est présente {M) et le signe est absent { ̅} ;
— VN (Vrais Négatifs) : la maladie est absente { } et le signe est absent { ̅}.

Tableau 3.1 : Présentation des données


M
S VP FP
FN VN

3.3.1.2 Estimation de la sensibilité et de la spécificité

Par définition, sensibilité = Se = Pr(S / M)


On estime cette probabilité conditionnelle par le rapport des effectifs correspondants sur le tableau
de contingence observé :
=
+

Note : On notera de manière identique, suivant un usage établi, les paramètres vrais, qui sont des
probabilités conditionnelles, et leurs estimations, qui sont des rapports d’effectifs observés.
é é= = ( ̅| ) =
+
Par exemple, calculons les estimateurs de ces paramètres dans le cas où on cherche à diagnostiquer
un diabète à partir d’un signe de la forme « la glycémie mesurée à jeun est supérieure à ... »). Pour
deux seuils donnés S1 et S2, on obtient les tableaux de contingence ci-dessous :

a. Seuil S1
Tableau 5.2: Exemple 1

Pr Joseph TSHIMPANGA B.
33
M
S 90 200
10 300

b. Seuil S2
Tableau 5.3 : Exemple 2

M
S 50 25
50 475

On peut estimer les sensibilités et spécificités correspondant aux deux seuils par :
Se1 ≈ 90 / 100 = 0,90 ; Sp1 ≈ 300 / 500 = 0,60
Se2 ≈ 50 / 100 = 0,50 ; Sp2 ≈ 475 / 500 = 0,95.

On retrouve ici le fait que sensibilité et spécificité varient en sens inverse. On constate d’autre part
que le seuil S1 correspond à une bonne sensibilité (l’examen est positif chez 90 % des malades), mais
à une spécificité médiocre (l’examen est positif chez 40 % des « non malades ») ; il peut donc être
utilisé pour un examen de dépistage, le diagnostic devant être confirmé ultérieurement par un examen
plus spécifique.

Le seuil S2, en revanche, induit un test d’une sensibilité qui pourrait être jugée trop faible pour un
examen de dépistage. En revanche, sa spécificité peut être acceptable pour un examen de
confirmation.

3.3.1.3 Estimation des valeurs prédictives

Les estimations s’obtiennent à partir du même tableau des données :

= ( | )≈
+

= ( | ̅) ≈
+

Par exemple, pour les tableaux de contingence vus ci-dessus, on a :


VPP1 ≈ 90 / 290 = 0,31 ; VPN1 ≈ 300 / 310 = 0,97
VPP2 ≈ 50 / 75 = 0, 67 ; VPN2 ≈ 475 / 525 = 0,90

Ces résultats peuvent s’interpréter ainsi : en affirmant le diagnostic sur la base de la positivité de
l’examen, on se trompe dans 69 % des cas avec le seuil S1 et 33 % des cas avec le seuil S2 ; et en
éliminant le diagnostic en constatant la négativité de l’examen, on se trompe dans 3 % des cas avec
le seuil S1 et 10 % des cas avec le seuil S2.

3.3.2 Deux échantillons représentatifs

L’inconvénient du schéma expérimental ci-dessus (un seul échantillon) est que, si la maladie est peu
fréquente ou rare, il faut constituer un échantillon de très grande taille pour obtenir un nombre
suffisant de malades. Les non-malades, au contraire, seront « trop » nombreux. C’est pourquoi on

Pr Joseph Tshimpanga B.
34
constituera souvent, en pratique, deux échantillons, un échantillon de malades et un échantillon de
non-malades.

On peut encore résumer les résultats par un tableau comme celui du tableau 1, mais ce tableau doit
être interprété différemment, les proportions respectives des malades et non-malades ne
correspondant plus à la réalité : le rapport entre le nombre de malades et le nombre de non-malades
du tableau dépend des tailles respectives choisies pour les deux échantillons, et n’a aucun lien avec
la fréquence de la maladie dans la population (la prévalence).

On peut toujours estimer la sensibilité et la spécificité comme ci-dessus. En effet, la sensibilité par
exemple est estimée uniquement à partir de VP et FN, donc de la répartition des malades entre ceux
qui présentent le signe et les autres. Or l’échantillon des malades respecte cette répartition. En
revanche, l’estimation précédente des valeurs prédictives utilisait la répartition entre malades et non
malades, que le tableau actuel ne représente pas correctement.

L’estimation des valeurs prédictives reste cependant possible à condition de connaître la prévalence
de la maladie Pr(M). On utilisera les formules introduites ci-dessus :
On remplacera dans ces formules la sensibilité et la spécificité par leurs estimations.

× Pr( )
=
× Pr( ) + (1 − ) × (1 − Pr( ))

× Pr( )
=
(1 − ) × Pr( ) + × (1 − Pr( ))

Pr Joseph TSHIMPANGA B.
DEUXIEME PARTIE : STATISTIQUE DESCRIPTIVE
Dans cette partie, nous présentons en deux chapitres la statistique descriptive. Le chapitre quatre s’étend
sur la statistique descriptive concernant l’étude d’une seule variable. Il est examiné outre le traçage d’un
graphique et la construction d’un tableau scientifique, les mesures de la tendance centrale, les mesures
de la dispersion et les mesures de la forme d’une distribution statistique.

Le chapitre cinq présente les statistiques descriptives calculées lorsqu’on étudie simultanément deux
variables.
36

CHAPITRE 4 : STATISTIQUE DESCRIPTIVE UNIVARIEE

4.1. INTRODUCTION

La démarche initiale lorsque l’on se propose d’effectuer une étude statistique d’un phénomène
consiste à collecter une masse de données concernant ce phénomène. Il importe ensuite de procéder à la
mise en ordre des données ainsi recueillies et de les résumer, afin d’en dégager quelques conclusions
synthétiques. Dans ce chapitre on va s’intéresser aux statistiques appliquées à une série univariée ou à
une dimension. On va retenir le cas d’un tableau I.C. contenant les valeurs x1, x2, …, xi, … xn prises par
une variable X sur les n individus de E (numérotés de 1 à n). Il est question de la présentation de la série,
des mesures de la tendance centrale, des mesures de dispersion et des mesures de la forme.

4.2. Présentation des données sous forme de tableaux et de graphiques

4.2.1. Généralités

a. Règles relatives à la présentation matérielle des tableaux statistiques

1. Titres et sous-titres du tableau


Ils indiquent le contenu du tableau et se placent toujours au-dessus de celui-ci. Clarté et précision sont
évidemment leurs principales qualités. Les titres du tableau doivent nécessairement être suivis d’un
numéro d’ordre.

2. Titres des lignes et des colonnes


Ces titres, dont le rôle est de préciser le contenu du tableau statistique, doivent être aussi courts que
possible ; on dispose généralement de peu de place pour les écrire. On aura souvent avantage à
numéroter les lignes et les colonnes, ce qui permettra d’indiquer commodément comment les nombres
portés sur les lignes ou dans les colonnes sont obtenus à partir des lignes ou des colonnes précédentes.

3. Unités
Les unités doivent être choisies de façon à tirer le plus de renseignements possibles des mesures
obtenues, mais aussi de façon à ce que les nombres écrits ne comportent pas trop de chiffres. Ainsi une
statistique portant sur le revenu annuel des contribuables français pourra comporter des mesures
données en dizaines de francs. Un contribuable ayant un revenu annuel de 108714 F sera retenu pour
10871 F. bien entendu l’unité devra être précisée en tête de la ligne ou de la colonne correspondante.

4. Notes complémentaires
Les nombres figurant dans un tableau statistique peuvent nécessiter des précisions supplémentaires. Il
sera généralement indiqué de faire figurer ces précisions au bas du tableau.

5. Sources
La source d’un tableau statistique doit toujours être précisée, généralement au bas du tableau, lorsque
cette source est étrangère au service qui publie la statistique en question. Cette indication permet au
lecteur qui désirerait un complément d’information de se reporter à l’origine des informations données.

Pr Joseph TSHIMPANGA B.
37
6. Présentation
La présentation matérielle du tableau statistique dépend pour beaucoup de ses dimensions (nombre de
lignes ou de colonnes). On veillera à la clarté, qualité essentielle. On rendra la lecture facile à l’aide
d’une typographie soignée. Souvent il est conseillé de placer en lignes la variable dont les modalités
sont les plus nombreuses et en colonne celles dont les modalités sont les moins nombreuses. Il faut en
outre éviter de tracer plusieurs lignes comme bordure et à l’intérieur comme pour dessiner une boîte à
sardines : deux lignes horizontales, une au-dessus du tableau et une autre à la fin, suffisent largement
pour le délimiter ; les lignes verticales sont à limiter en nombre.

b) Règles de construction d’un graphique

Une représentation graphique a pour objectif de montrer des données de façon claire et
adéquate. Un graphique est un appui visuel des chiffres. Plusieurs règles et précautions doivent être
présentes à l'esprit de ceux qui construisent, analysent et utilisent de tels outils. Rappelons-en quelques
unes :

1) le graphique doit contenir le maximum d'informations utiles (légendes, sources, valeurs numériques,
...) ;

2) les informations ne doivent pas être cachées par des lignes, dessins ou mentions inutiles - ou encore
déformées en raison d'un choix des unités peu judicieux; ceci implique en particulier, qu'il ne faut pas
nécessairement qu'une échelle commence à zéro ! Par ailleurs, on s'efforce en général de construire des
graphiques inscriptibles dans un carré ou dans un rectangle peu allongé par rapport à l'un des axes;

3) il n'est pas nécessaire de vouloir représenter des situations simples par des graphiques sophistiqués
(valeur d'une monnaie représentée par un billet de banque, population d'un pays symbolisée par une
figure humaine, ...) ;

4) il ne faut pas interrompre une échelle sans le signaler explicitement et être certain que cela n'a pas
d'influence sur l’interprétation du graphique;

5) la façon de présenter graphiquement un phénomène statistique doit mettre en évidence ses


caractéristiques essentielles.

6) on mettra le titre du graphique toujours en dessous de celui-ci. Il sera précédé par le mot figure
suivie d’un numéro d’ordre. Le titre doit indiquer le contenu du graphique.

4.2.2. Série brute

La suite de valeurs { x1, x2, …, xi, … xn } est appelée série brute. Nous la noterons par {Xi ; i =
1, 2, …, n} ou tout simplement {Xi} par abus d’écriture.

Comme nous le verrons dans la suite, il est courant de visualiser une information statistique par
l’intermédiaire d’une représentation graphique. Est-il possible de réaliser une telle opération lorsqu’on
dispose d’un tableau I.C défini pour une variable ?

Exemple. – Considérons le tableau I.C. relatif au nombre d’enfants du personnel d’une entreprise ci-
dessous

Pr Joseph Tshimpanga B.
38

Tableau 4.1. – Tableau I.C. relatif au nombre d’enfants du personnel

N° de travailleurs 1 2 3 4 5 6 7 8 9 10
Nombre d’enfants Xi 1 0 1 2 1 1 3 0 1 0

On peut lui associer le graphique suivant dans lequel les observations sont représentées par des
points dans un système d’axes gradués, orthogonaux et se coupant en leur origine ; chaque point a pour
abscisse le numéro i du travailleur et pour ordonnée la valeur Xi du nombre d’enfants
Nbre d'enfants

3,5
3 3
2,5
2 2
1,5
1 1 1 1 1 1
0,5
0 0 0 0
1 2 3 4 5 6 7 8 9 10

N° travailleur

Figure 4.1 : graphe linéaire représentant la distribution de nombre d’enfants par travailleur

Faisons remarquer que l’ordre dans lequel les « individus » se succèdent est quelconque, c’est-à-dire
toute permutation des individus de E ne modifie en aucune manière l’information reçue : seules les
valeurs des observations sont intéressantes. Ainsi, la visualisation de la série brute au moyen d’un
graphique semblable à celui-ci devient alors arbitraire. Cependant, on peut se retrouver dans une situation
où l’ordre représente une succession naturelle comme les jours, les semaines, les mois ou les années. Ici,
on s’intéresse à l’évolution de la variable X dans le temps. Dans ce cas, la série statistique observée est
alors appelée série chronologique. Le graphique de la figure 2.1 y est indiqué. Dans le cas d’une série
brute, il vaut mieux s’en passer et effectuer plutôt des représentations associées à la série ordonnée et à
la distribution observée qui en découle éventuellement.

4.2.3. Série ordonnée

La série ordonnée, que nous notons { x(1), x(2), …, x(i), … x(n) }, est obtenue en permutant les
valeurs observées de façon telle que :
x(i)  x(j) si i  j.

Une telle série ne se conçoit que si la variable X est quantitative ou ordinale. Dans ce dernier cas,
le symbole  représente la relation d’ordre.

Reprenons à titre d’illustration la série brute de l’exemple 2.1. :

{Xi} = {1, 0, 1, 2, 1, 1, 3, 0, 1, 0}.

Pr Joseph TSHIMPANGA B.
39
La série ordonnée qui en résulte est :

{X(i)} = { 0, 0, 0, 1, 1, 1, 1, 2, 3}.

On a indiqué l’indice de la valeur ordonnée entre parenthèses pour le distinguer de celui qui
définit la donnée brute. Cet indice (i) est appelé le rang de l’observation correspondante. Dans cet
exemple, on peut établir un tableau de correspondance entre les deux séries : d’une part la série brute
observée et d’autre part la série ordonnée.

Tableau 4.2. – Classification des valeurs observées (Xi)

Xi X 1 =1 X2=0 X 3 =1 X4=2 X5=1 X 6 =1 X 7 =3 X 8 =0 X 9 =1 X 10 =0


X(i) X (1)=0 0 0 1 1 1 1 1 3 2

4.2.4. Distribution observée

a. Généralités

Une distribution observée à une dimension (que nous noterons aussi plus brièvement, par D.O.1)
est définie par :
a) les valeurs distinctes qui apparaissent dans la série brute (ou la série ordonnée) et qu’on note X1, X2,
XJ (J est le nombre de valeurs distinctes, c’est-à-dire le cardinal de VE).
b) le nombre de fois que chaque valeur Xj apparaît, noté nj et appelé effectif associé à Xj (j = 1, 2, …,
J).

Les J valeurs distinctes Xj sont identifiées grâce à l’indice j. Nous noterons par J l’ensemble des
identificateurs :
J = {1, 2, …, j, …, J}.

La D.O.1. qui résulte de la série brute (ou de la série ordonnée) est alors définie par l’ensemble
des couples {(Xj, nj), j J}, que nous noterons encore parfois, par abus d’écriture, {(Xj, nj)}.

Dans l’exemple considéré au §2.2.2., la D.O.1. est définie par :


{(0, 3), (1, 5), (2, 1), (3, 1)}.

Elle est obtenue par un décompte simple et peut être représentée par le tableau des effectifs suivant qui
comprend deux colonnes réservées respectivement :
- la première, à l’inscription des modalités prises par le caractère, ou des valeurs prises par la variable,
désignées par Xj ;
- la seconde, à l’inscription des effectifs correspondants, désignés par nj.

Décompte Tableau 4.3.. – Tableau des effectifs

0  Nbre d’enfants Xj Effectifs nj


1  X1 = 0 n1 = 3
2  X2 = 1 n2 = 5
3  X3 = 2 n3 = 1
X4 = 3 n4 = 1
n = 10

Pr Joseph Tshimpanga B.
40

Lorsque la variable est ordinale ou quantitative, on prend l’habitude de présenter les observations
de « la plus petite » jusqu’à « la plus grande » d’entre elles. Ce tableau résume l’information statistique
en précisant qu’on a trois travailleurs sans enfant, cinq travailleurs avec 1 enfant, deux travailleurs avec
respectivement chacun 2 et 3 enfants. On constate que la somme des effectifs correspond au nombre total
d’observations :
4
n  n1  n2  n3  n4   n j   n j.
j 1 j
On peut visualiser la synthèse obtenue ci-dessus en associant au tableau des effectifs un
diagramme en bâtons qui en constitue la représentation graphique. Cette opération concerne la
représentation graphique d’une variable discrète. Elle consiste à construire dans un système d’axes
orthogonaux une suite de segments de droite parallèles à l’axe des ordonnées, élevés à partir des points
de l’axe des abscisses définis par les valeurs Xj et de hauteur égale à l’effectif correspondant nj (j J).
Ainsi dans notre exemple, nous avons le diagramme en bâtons suivant. On peut, pour faciliter la lecture,
indiquer la valeur des effectifs au-dessus de chaque « bâton ». Par ailleurs, le choix des unités joue un
rôle important dans l’impression qui se dégage d’un tel graphique. Il est recommandé d’éviter de
construire des représentations trop effilées ou trop aplaties.

E ff e c tifs

1 1

0 1 2 3
N o m b re
d ’e n fa n ts

Figure 4.2 : graphique en bâtonnets représentant la distribution de nombre d’enfants

Ce graphique concerne des données discrètes comme nous le disions ci-haut. Lorsque la variable
est qualitative (nominale), la distance entre deux valeurs ne signifie rien. Cependant, les représentations
graphiques des caractères qualitatifs sont très nombreuses et sont fonctions des différentes modalités du
caractère. On recourt davantage dans ce cas à des diagrammes en barres ou à des représentations en
secteurs. Faisons remarquer que dans le cas d’une variable nominale, l’ordre dans lequel sont présentées
les valeurs est arbitraire.

 Diagramme en barres ou diagramme à bandes

Les diagrammes en barres consistent en des rectangles dont les longueurs sont égales ou
proportionnelles aux grandeurs représentées. Pour leur traçage, on place sur une droite horizontale les
modalités du caractère. On porte sur un axe vertical les effectifs ou les fréquences et on trace un rectangle
de base fixée a priori (dont la longueur n’a pas de signification) et de hauteur égale à l’effectif
correspondant ou une bande verticale proportionnelle à l’effectif associé à chaque modalité. On rencontre

Pr Joseph TSHIMPANGA B.
41
parfois des diagrammes en barres horizontales : les valeurs de X sont en ordonnée, les effectifs en
abscisse.

 Diagramme circulaire ou diagramme à secteurs

L’effectif total est représenté par un disque (ou un demi-disque). Chaque modalité est représentée
par un secteur circulaire dont la surface est proportionnelle à l’effectif correspondant. On découpe ainsi
un cercle (de surface fixée a priori comme valant l’effectif total) en secteurs dont les surfaces sont égales
aux effectifs n1, n2, …, nJ. Cette construction est cependant facilitée si on introduit au préalable le concept
de fréquence présenté ci-dessous.

Exemple. – Illustrons les deux graphiques au moyen d’un même exemple. Considérons par exemple la
distribution observée des résultats obtenus par les 90 étudiants d’une promotion (P : la plus grande
distinction ; G : grande distinction ; D : distinction ; S : satisfaction ; A : ajournement). Les données sont
présentées dans le tableau 4.4.

Tableau 4.4. – Distribution des résultats

Xj A S D G P
nj 4 22 45 16 3

50 45
40
Effectif

30 22
20 16
10 4 3
0
A S D G P
Grade

P 3
Grade

16
D 45
22
A 4

0 10 20 30 40 50
Effectif

Figure 4.3. – Graphiques en barres (verticales et horizontales) et en secteurs

Pr Joseph Tshimpanga B.
42

 Diagramme figuratif

Ce diagramme est construit à l’aide de figures (bateaux, automobiles, sacs de blé, …) de


grandeurs variables proportionnelles aux grandeurs représentées, ou bien à l’aide de figures de même
taille (une sorte d’étalon de mesure) que l’on reproduit un certain nombre de fois en fonction des effectifs
associés à chaque modalités ou selon les proportions avec les grandeurs représentées. Ces diagrammes
sont utilisés pour leur aspect esthétique, mais ils manquent en général de précision.

Exemple 4.4. La figure ci-après compare à l’aide de diagramme figuratifs les productions de blé de deux
pays : la production du pays A est 650000 quintaux et celle du pays B, 250000 quintaux.

750000
750000

625000

500000
500000

375000
250000

250000

125000
0
A B
0
A B

Figure 4.4. – Graphique figuratif

b. Autres présentations d’une D.O.1 sous forme de tableaux et de graphiques

Nous avons vu qu’une D.O.1 pouvait être définie en associant à chaque valeur Xj un effectif nj (j
 J). L’information contenue dans une D.O.1 peut donner lieu à cinq autres présentations en affectant à
chaque valeur Xj un des concepts suivants.

1. Distribution de fréquences. – La fréquence fj représente la proportion d’individus de E qui possèdent


la modalité Xj. Elle est définie par :
nj
fj  , j J
n
Cette quantité exprime l’importance relative du nombre d’apparitions de Xj. Il en résulte évidemment
que :
J
f1  f 2  ...  f J   f j   f j 1
j 1 j
Ainsi, dans les deux exemples et présentés plus haut, nous pouvons définir les D.O.1
correspondantes par les tableaux 4.5a et 4.5b

Pr Joseph TSHIMPANGA B.
43
Tableau 4.5a. – Distribution observée Tableau 4.5b. – Distribution observée des
du nombre d’enfants du personnel résultats des étudiants

Xj fj Xj fj
0 0.3 A 0.044
1 0.5 S 0.244
2 0.1 D 0.500
3 0.1 G 0.178
(n = 10) 1 P 0.033
(n = 90) 1

L’interprétation de ces fréquences ne peut cependant se concevoir que par rapport au nombre total
d’observations n. Par ailleurs, les graphiques introduits dans le paragraphe 2.2.2a restent valables. Ils
représentent en effet la D.O.1 {(Xj, fj), j  J} si on multiplie par n la longueur de l’unité choisie en
ordonnée.

2. Distribution des effectifs cumulés. – L’effectif cumulé Nj représente le nombre d’observations


inférieures ou égales à Xj. Elle est définie par :
j
N j  n1  n2  ...  n j   nk
k 1
Cette quantité permet de considérer une information relative à un ensemble de valeurs : celles qui sont
au maximum égales à Xj. Il est évident que ce concept n’a pas de sens pour une variable nominale. Dans
le cas ordinal, la relation d’ordre définit l’expression « inférieur ou égal ». On constate aisément que :
N1 = n1 ; Nj = Nj –1 + nj (j = 2, 3, …, J-1) ; NJ = n.

Les deux exemples et nous permettent de construire les tableaux 4.6a et 4.6b.

Tableau 4.6a. – Distribution cumulée Tableau 4.6b. – Distribution cumulée des


du nombre d’enfants du personnel résultats des étudiants

Xj fj Xj fj
0 3 A 4
1 8 S 26
2 9 D 71
3 10 G 87
P 90

La détermination des effectifs cumulés permet de construire une courbe cumulative définie par
l’équation y = N (x) où :

Pr Joseph Tshimpanga B.
44

0 x < X1

N1 X1  x < X2

. .

. .

. .

Nj Xj  x < Xj + 1
N (x ) =
. ..

. .

.
.

NJ XJ  x

N(x) indique le nombre d’observations inférieures


N(x) indique le nombre d’observations inférieures ou égales à x (x  ). La représentation graphique de
cette courbe présentée ci-dessous. On remarque que cette courbe en escalier fait apparaître à la fois
l’effectif nj et l’effectif cumulé Nj associés à Xj. Dans le cas d’une variable ordinale, on envisage plutôt
des diagrammes en barres cumulés. Les deux exemples considérés ci-dessus donnent lieu aux graphiques
de la figure 4.5.

N
j
10
9
8

0 1 2 3
X j

Figure 4.5a. – Diagrammes en barres cumulées


Effectif cumulé Nj

87 90
100 71
90
80
70
60
50 26
40
30 4
20
10
0
A S D G P

Grade Xj

Figure 4.5b : Représentation graphique en barres cumulées

Pr Joseph TSHIMPANGA B.
45

3. Distribution des fréquences cumulées. – La fréquence cumulée Fj représente la proportion d’individus


de E dont la valeur est inférieure ou égale à Xj. Elle est donc définie par :
Nj
Fj  , j J .
n
Il en résulte que ses propriétés sont analogues à celles de Nj :
j
F1  f1; F j   f k  F j 1  f j ( j  2,3,..., J  1); FJ  1
k 1
Enfin, les graphiques introduits ci-dessus restent valables, à un changement d’unité près en ordonnée.

4. Distribution des effectifs cumulés ou des fréquences cumulées inversés. – Deux autres concepts
peuvent parfois être associés aux valeurs Xj de la variable : les effectifs cumulés inversés N *j et les
fréquences cumulées inversées F *j définis respectivement par :
J N *j
N *j  n j  n j 1  ...  n J   *
nk ; F j 
n
k j

N *j( F *j ) représente donc le nombre (la proportion) d’observations supérieures ou égales à Xj. Ces deux
concepts donnent lieu à une représentation graphique de même type. Le lecteur trouvera ci-contre celle
qui est définie par les N *j ; la courbe qu’elle décrit est appelée courbe cumulative inversée. Nous noterons
par N*(x) la fonction qui la définit. Dans les deux exemples, nous avons :

Nj
Tableau 4.5a. –
Distribution cumulée 10
Inversée du nombre d’enfants
7

Xj N *j
0 10
2
1 7 1
2 2
3 1
Xj
0 1 2 3

Figure 4.6a : Représentation graphique en bâtonnets cumulés inversés

Pr Joseph Tshimpanga B.
46
Tableau 4.5b. –

Effectif cumulé Nj
Distribution cumulée 100 90 86
90
inversée des résultats 80
70
64
60
50
Xj N *j 40
30 19
20 3
A 90 10
0
S 86 A S D G P
D 64
G 19 Grade Xj
P 3

Figure 4.6b.: Représentation graphique en barres cumulées inversées

Il est intéressant de signaler une propriété qui découle des définitions N(x) et N*(x) :

N(x) + N*(x)  n.

L’égalité a lieu si x n’est pas une valeur observée. Au contraire, si x = Xj (j  J), nous avons :

N(Xj) + N*( Xj) = n. + nj

Il faut souligner que l’usage des effectifs cumulés inversés est relativement limité. Nous
enverrons cependant une utilisation intéressante dans l’étude de la médiane (§ 2.3). Notons enfin que la
courbe cumulative inversée n’a pas de sens dans le cas d’une variable nominale.

4.2.4. Distribution groupée

1) Construction du tableau

Lorsque la variable considérée est continue, nous avons vu que l’instrument de mesure utilisé
nous fournit des valeurs arrondies. Ainsi un poids peut être exprimé en milligrammes, grammes, kilos,
tonnes selon l’objectif et les moyens de l’étude. Si la précision de la mesure est bonne et que l’effectif
de E est suffisamment grand, il peut arriver que le nombre de valeurs distinctes observées soit
relativement élevé. La distribution observée qui en découle peut alors présenter les caractéristiques
suivantes :
- un grand nombre de lignes dans le tableau des effectifs ;
- de nombreux effectifs de faible amplitude.

Cette situation ne permet pas de dégager les caractéristiques essentielles de la distribution et le souci de
synthèse n’est pas entièrement rencontré. Cette constatation est aussi observée lorsqu’on dispose de
plusieurs données d’une variable discrète.

Exemple. – Considérons la série statistique définie par 175 mesures de tailles d’étudiants d’une université
(ces mesures ont été arrondies au centimètre le plus proche). Afin de ne pas construire un tableau de 175
lignes et 2 colonnes qui prendrait beaucoup de place, nous omettrons d’indiquer l’identifcateur de
l’individu i, ce qui permet de placer les valeurs xi sur 7 colonnes successives de 25 observations. C’est
ainsi, par exemple, que le 152e individu mesuré possède une taille égale à 154 cm.

Pr Joseph TSHIMPANGA B.
47

Tableau 4.6a. – Tableau I.C. à une dimension des tailles de 175 étudiants d’une université

176 162 198 180 189 174 163 169 155 175 179 168 170 177 184 161 172 177
177 186 167 170 175 162 192 179 173 169 171 184 169 172 170 154 150 157
178 170 176 185 196 186 177 171 183 198 184 175 176 181 197 180 180 166
179 187 195 177 154 169 164 150 166 171 175 161 194 158 176 160 165 182
180 167 166 151 183 184 190 191 178 184 189 182 156 190 190 187 188 179
181 185 160 181 175 176 165 181 172 164 165 176 180 176 175 164 155
182 181 184 180 183 175 177 165 179 185 182 183 193 170 181 184 186
183 169 155 171 165 178 179 163 169 181 174 151 176 191 172 168 163
184 190 178 183 180 161 174 177 185 174 185 189 152 177 175 192 182
185 171 171 174 177 187 177 170 178 180 177 178 178 173 183 175 153

La série ordonnée qui en résulte est présentée ci-après.

Tableau 4.6b. – Série ordonnée des données (taille de 175 étudiants)

150 161 167 170 174 176 178 181 184 188 197
150 161 167 171 174 176 178 181 184 189 198
151 162 168 171 175 176 178 181 184 189 198
151 162 168 171 175 176 179 181 184 189 198
152 163 168 171 175 177 179 182 184 190
153 163 169 171 175 177 179 182 185 190
154 163 169 171 175 177 179 182 185 190
154 164 169 172 175 177 179 182 185 190
155 164 169 172 175 177 180 182 185 191
155 165 169 172 175 177 180 183 185 191
155 165 169 172 175 177 180 183 186 192
156 165 170 173 175 177 180 183 186 192
157 165 170 173 176 177 180 183 186 193
158 165 170 173 176 177 180 183 187 194
160 166 170 174 176 178 180 183 187 195
160 166 170 174 176 178 181 184 187 196
161 166 170 174 176 178 181 184 188 196
Ce dernier tableau nous permet de construire aisément la distribution observée qui en résulte et que nous
avons représentée au moyen du diagramme en bâtons associé.

Pr Joseph Tshimpanga B.
48
Tableau 4.6c. – Distribution des données observées

Xj nj fj Fj Xj nj fj Fj Xj nj fj Fj
150 2 1 1 167 2 1 21 183 6 3 77
151 2 1 2 168 3 2 23 184 7 4 81
152 1 1 3 169 6 3 26 185 5 3 84
153 1 1 3 170 7 4 30 186 3 2 86
154 2 1 5 171 6 3 34 187 3 2 87
155 3 2 6 172 4 2 36 188 2 1 89
156 1 1 7 173 3 2 38 189 3 2 90
157 1 1 7 174 5 3 41 190 4 2 93
158 1 1 8 175 10 6 46 191 2 1 94
160 2 1 9 176 9 5 51 192 2 1 95
161 3 2 11 177 10 6 57 193 1 1 95
162 2 1 12 178 6 3 61 194 1 1 96
163 3 2 14 179 5 3 63 195 1 1 97
164 3 2 15 180 7 4 67 196 2 1 98
165 5 3 18 181 6 3 71 197 1 1 98

12
Nombre d'étudiants

10

2
0
150 156 163 169 175 181 187 193
153 160 166 172 178 184 190 196

Taille en cm
166 3 2 20 182 5 3 74 198 3 2 100

Figure 4.7. – Représentation graphique des données observées

Avec ces données, il est conseillé de les regrouper en classes de façon à ne considérer qu’un nombre
restreint de classes distinctes. Ce qui permet d’obtenir une nouvelle distribution appelée distribution
groupée qu’on va noter brièvement par D.G.1. Cette distribution consiste dans un tableau des effectifs
qui reprend l’ensemble des couples formés d’une part des classes et d’autre part des effectifs de classe
associés qui représentent les nombres d’observations appartenant à ces classes.

Cette distribution groupée peut être de plusieurs manières. Dans un premier temps, elle peut être obtenue
par l’intermédiaire d’un « diagramme en tiges et feuilles » (steam-leaf), imaginé par J.W.TUKEY. Ce
procédé généralise le décompte habituel tel que nous l’avons utilisé dans le cas discret (exemple 2.1) et
repose sur la constatation suivante. Les nombres contenus dans le tableau I.C. possèdent tous trois
chiffres ; les deux premiers d’entre eux sont identiques pour les valeurs d’une même classe ({150, 151,
152, …, 158}, par exemple). On ne peut donc différencier ces observations par rapport à cette propriété
commune (la tige) que par l’intermédiaire du troisième chiffre (la feuille). Cette situation peut être
représentée par le « diagramme » repris dans le tableau 4.7a.

Pr Joseph TSHIMPANGA B.
49

Tableau 4.7a. – Diagramme en tiges et feuilles

Tiges Feuilles
15 51405162840537
16 82797065291345953699458191048536
17 6305601681071455476587794791703829851491547568066872607
18 3062555579
19 82675140510393306471354501492542390141307408622
86085620184301702

C’est ainsi, par exemple, que la première observation 176 est en troisième ligne (tige 17) et est
représentée par la première feuille « feuille » : 6. Le nombre de « feuille par tige » représente l’effectif
de classe défini plus haut et le tableau 4.7b illustre le diagramme.

Tableau 4.7b. – Distribution de données groupées en classe

Classes Effectif
ère
1 ligne (classe 150 – 159) 14
2ème ligne (classe 160 – 169) 32
3ème ligne (classe 170 – 179) 65
4ème ligne (classe 180 – 189) 47
5ème ligne (classe 190 – 199) 17

Règles générales à suivre pour grouper les données en classes

Le groupement en classes est une opération qui présente a priori une certaine part de subjectivité. En
général, il n’y a pas de règles absolues à suivre. La démarche proposée permet néanmoins à diminuer
cette subjectivité. Cependant, le choix du nombre de classes dépend de la précision désirée et de l’effectif
total de l’ensemble statistique étudié. Un regroupement comportant un nombre élevé de classes fera
apparaître des irrégularités provenant des faibles nombres d’unités par classe, alors qu’un nombre trop
restreint de classes conduit à une perte d’information. Ce choix est guidé par le souci d’obtenir une bonne
représentation de l’ensemble des données collectées. Habituellement, il semble recommandable de
travailler avec un nombre de classes compris entre 7 et 15, mais ce nombre dépend surtout du nombre
de données traitées. Voici quelques règles empiriques qui peuvent bien aider le praticien :
- la règle de STURGE conseille que le nombre de classes soit proche de la valeur k fournie par
l’équation :
k = 1 + 10/3 log10 n = 1 + 3,3 log10 n
- la règle de YULE propose la formule suivante : k  2,5 4 n
- Certains auteurs présentent l’expression suivante : k  n

Par souci de simplicité, il est fréquent de recourir à des classes d’égale amplitude et d’arrondir les
valeurs extrêmes des classes. La façon de construire une distribution groupée suit les étapes suivantes :

Pr Joseph Tshimpanga B.
50
1. déterminer l’étendue de variation de la série statistique que l’on définit comme la différence entre la
plus grande valeur et la plus petite valeur observées dans la série. e.v.  X M  X m ;
2. fixer le nombre de classes par l’une ou l’autre des règles proposées ci-dessus (qu’il faudra arrondir à
l’unité en majorant ou en minorant) ou d’une façon plus ou moins arbitraire (entre 7 et 15) soit k ;

3. déterminer l’amplitude ou l’intervalle de classes. Si l’on veut avoir la même amplitude, on divise
l’étendue de variation par k et l’on obtient la largeur d’une classe ;

4. déterminer les différentes classes : la première classe doit contenir la plus petite valeur observée et la
dernière la plus grande valeur. Il est fréquent que l’on doive ajouter une classe supplémentaire pour
arriver à couvrir la plus grande valeur, en particulier si on arrondit vers le bas la largeur des classes.
Il est souvent souhaité que les valeurs observées coïncident avec les points milieux de classe pour
éviter les erreurs de regroupement. Pour ce faire, on choisit comme borne inférieure de la première
classe, une valeur multiple de l’intervalle de classe immédiatement inférieure à la plus petite valeur
observée. On n’a qu’à ajouter à cette valeur l’amplitude de classe, pour trouver la borne inférieure de
la classe suivante ; ainsi de suite jusqu’à contenir la dernière valeur. Pour déterminer la borne
supérieure de la première classe, on a ajoute à la borne inférieure la largeur de classe à laquelle il faut
retrancher une unité (si les données ont été arrondies à l’unité). Ceci se fait pour toutes les bornes
inférieures ;

5. déterminer le nombre d’individus qui tombe dans chaque classe qui donne l’effectif de la classe.
Cette opération se fait par pointage comme nous l’avons envisagé dans le cas de données observées.

En supposant que nous choisissons J classes pour construire notre D.G.1(), nous pouvons introduire les
notations correspondant aux différents éléments définis ci-dessus :
a) Une classe est identifiée par un nombre entier j compris entre 1 et J (dans le cas où on recourt à une
échelle ordinale, d’intervalle ou de rapport, on effectue cette numérotation selon l’ordre croissant des
valeurs). L’ensemble des classes est dès lors définis par :
J = {1, 2, …, J}.

b) Pour chaque classe j  J, on appelle : Xj : son centre ou centre de classe ; hj : sa longueur ou intervalle
de classe ou i dans le cas où la même longueur ; l j : sa limite inférieure ; l j : sa limite supérieure ;
nj : son effectif si la variable considérée est quantitative. Remarquons que nous avons :
l j  l j
h j  i  l j  l j ; Xj 
2
Si la variable est qualitative, une classe ne possède ni centre, ni longueur, ni limites. Il est peut-
être utile de noter que le groupement en classe est surtout important dans le cas quantitatif. En effet, dans
la plupart des cas, les valeurs distinctes d’une variable qualitative sont peu nombreuses.

On peut remarquer que certaines des notations introduites ci-dessus ont déjà été utilisées pour
définir d’autres concepts lors de la construction d’une distribution observée. Nous procédons ainsi dans
le but de simplifier et d’unifier certains développements ultérieurs. Notons cependant que cela n’introduit
aucune ambiguïté dès qu’on spécifie clairement s’il s’agit de construire et d’analyser une D.O.1 ou une
D.G.1.


Rappelons que cette notation signifie distribution groupée (univariée).

Pr Joseph TSHIMPANGA B.
51
On a vu qu’une D.G.1 peut être définie en associant à chaque classe j un effectif nj
représentant le nombre d’observations qu’elle contient (j  J). En suivant une démarche analogue à celle
présentée dans le paragraphe 2.2.3, on peut introduire les concepts suivants :
fj = nj/n : fréquence de classe
Nj = n1 + n2 + … + nj : effectif cumulé de classe
Fj = f1 + f2 + … + fj : fréquence cumulée de classe
N *j  n j  n j 1  ...  n J : effectif cumulé inversé de classe

F *j  f j  f j 1  ...  f J : fréquence cumulée inversée de classe.

Leur interprétation est aisée. Remarquons, en particulier, que Nj représente le nombre


d’observations :
- appartenant aux j premières classes
- inférieures ou égales à lj .
De façon analogue, N *j est le nombre d’observations :
- appartenant aux (n – j + 1) dernières classes
- supérieures ou égales à l j .
En reprenant l’exemple considéré dans ce paragraphe, la D.G.1. que nous avons construite peut
être représentée par le tableau 4.8

Tableau 4.8. – Tableau des données groupées en classes

Limites de Effecti
Classe Xj fj Nj Fj N *j F *j
classe f (nj)
150 – 159 149,5 – 159,5 154,5 14 0,080 14 0,080 175 1,000
160 – 169 159,5 – 169,5 164,5 32 0,183 46 0,263 161 0,920
170 – 179 169,5 – 179,5 174,5 65 0,371 111 0,634 129 0,737
180 – 189 179,5 – 189,5 184,5 47 0,269 158 0,903 64 0,366
190 – 199 189,5 – 199,5 194,5 17 0,097 175 1,000 17 0,097
n =175 1

2) Représentations graphiques

Il est possible de construire plusieurs représentations graphiques d’une D.G.1.

a) Histogramme

L’histogramme est le mode usuel de présentation graphique d’une distribution groupée d’effectifs
(ou de fréquences) dans le cas d’une variable continue ou d’une variable discrète avec un grand nombre
de valeurs différentes. C’est un ensemble de rectangle contigus, chaque rectangle, associé à chaque
classe, ayant une surface proportionnelle à l’effectif de cette classe. Pour son traçage, on porte en abscisse
les bornes des différentes classes. Sur chacun des segments de droite ainsi délimités en abscisse, on élève
un rectangle dont la hauteur est égale (ou proportionnelle) à l’effectif (ou fréquence) de chaque classe.
Cette procédure est applicable lorsque les classes ont des amplitudes égales.

Pr Joseph Tshimpanga B.
52
Dans le cas de classes d’amplitudes inégales, la hauteur proportionnelle à l’effectif ne permet plus
de construire un histogramme. Il faut alors construire des rectangles dont la hauteur est proportionnelle
à la densité, ce qui permet d’assurer une surface proportionnelle à l’effectif.

En pratique, la hauteur des rectangles est définie selon la formule ci-après aussi bien pour les
effectifs que pour les fréquences :
effectif de la je classe nj
hauteur du je rectangle  
amplitude de la je de la classe hj

65

47
Effectif nj

32

17
14

150 160 170 180 190 200 Taille Xj

Figure 4.7 : Représentation graphique par histogramme des effectifs de taille des étudiants

(a) Polygone des fréquences

Si les classes sont d’amplitudes égales, on trace le polygone des fréquences en joignant les
milieux des segments supérieurs de chaque rectangle (en ajoutant éventuellement deux classes de même
intervalle et d’effectif nul, de chaque côté de l’histogramme). Ce polygone des fréquences a une surface
égales à la surface de l’histogramme. Faisons remarquer que si les classes sont d’amplitudes inégales, on
peut également tracer un polygone des fréquences, mais en prenant soin que la surface de celui-ci soit
toujours égale à la surface de l’histogramme (figure 4.7).

(b) Courbes cumulatives

Appelées aussi polygones cumulatifs, les courbes cumulatives sont tracées à partir des points
déterminés dont les ordonnées sont égales aux effectifs cumulés croissants des classes (Nj) et dont les
abscisses sont les limites supérieures de classes correspondantes, sauf pour le premier point constitué
par un effectif égal à zéro (0) comme ordonnée et la limite inférieure de la première classe comme
abscisse . En joignant ces points par des segments de droite, on obtient le polygone cumulatif croissant
de la distribution donnée. Ce polygone peut être construit sur des effectifs cumulés mais aussi sur les
fréquences cumulées croissantes et porte le nom de courbe cumulative croissante ou polygone des
effectifs cumulatifs croissants ou des fréquences cumulées croissantes.

Pr Joseph TSHIMPANGA B.
53

nj 63
X
60
Effectif

X 47
40
32 X

20
X 17
14 X
0
X X 0

1 4 4 ,5 1 6 4 ,5 1 8 4 ,5 2 0 4 ,5 X
1 5 4 ,5 1 7 4 ,5 1 9 4 ,5
T a ille

Figure 4.8 : Polygone des effectifs de la taille des étudiants

On peut également tracer une courbe associée aux effectifs cumulés décroissants (inversés) ou
aux fréquences cumulées inversées. Ici, les points ont pour abscisses des limites inférieures des classes,
sauf pour le dernier point où l’on a une abscisse égale à la limite supérieure de la dernière classe et
l’ordonnée égale à zéro, et les ordonnées sont des effectifs cumulés décroissants correspondants. En
joignant ces points par des segments de droite nous obtenons le polygone cumulatif décroissant (ou
polygone des effectifs cumulés inversés, ou courbe cumulative décroissante) de la distribution donnée.
On peut faire la même chose pour le polygone des fréquences cumulatives décroissantes.

200 100

80
150
Fréquence cumulée
Effectif cumulé

60
100
40
50
20

0 0
150 160 169 178 187 196 150 161 171 181 191
TAILLE TAILLE
Figure 4.9 : Polygones des effectifs et des fréquences cumules

Comme nous l’avons déjà souligné, les représentations au moyen de tableaux et de graphiques sont
essentielles dans la mesure où elles constituent une mise en ordre nécessaire et une possibilité de se faire
une idée globale sur le problème étudié. Elles ne suffisent cependant pas si l’on désire approfondir
l’analyse. C’est pourquoi il est opportun de leur associer un certain nombre de valeurs caractéristiques,
appelées paramètres, qui ont pour but de résumer dans une certaine mesure les informations recueillies.
Dans les paragraphes suivants, nous verrons trois catégories de paramètres habituellement considérées
dans le cas des séries statistiques univariées.

Pr Joseph Tshimpanga B.
54
4.3.0. PARAMETRES DE POSITION

Les paramètres de position (ou valeurs centrales) sont destinés à définir des valeurs centrales ou
caractéristiques de la série étudiée. Ils indiquent globalement où se situent principalement les valeurs
prises par la variable statistique. Ce sont des valeurs numériques qui « résument » une série statistique
en caractérisant l’ordre de grandeur des observations. Ils s’expriment dans la même unité que les
observations. Les mesures de tendance centrale les plus utilisées sont les moyennes, la médiane et le
mode. Nous compléterons ces paramètres par les quantiles.

4.3.1. La moyenne arithmétique

La moyenne arithmétique d’une série statistique {Xi ; i = 1, 2, …, n} est, sans conteste, le paramètre le
plus connu parmi ceux qui sont destinés à définir une valeur centrale. Elle se définit comme étant égale
à la somme des observations divisées par l’effectif n de la série, et est notée X et qu’on lit « X barre »
pour un échantillon et par µ (mu) pour une population. Le premier indice est une statistique et le second,
un paramètre. Ainsi :
1 n N
X   Xi et   1  Xi
n N
i 1 i 1
Exemple. – Reprenons l’exemple présenté dans le § 4.2., relatif au nombre d’enfants par travailleur :
Série brute : {1, 0, 1, 2, 1, 1, 3, 0, 1, 0}  X  1  0  1  2  1  1  3  0  1  0  1
10
0  0  0 11111 2  3
Série ordonnée : {0, 0, 0, 1, 1, 1, 1, 1, 2, 3}  X  1
10
Dans le cas d’une D.O.1 ou d’une D.G.1 (généralement présentées sous forme d’un tableau de
données), on a généralement la formule ci-après basée sur les valeurs distinctes ou les centres de classe
(Xj) ainsi que les effectifs correspondants (nj) :
J
 njX j
j 1
X
J
 nj
j 1
Exemple. – Reprenons l’exemple présenté dans le § 4.2., relatif au nombre d’enfants par travailleur :
Distribution observée : {(0, 3), (1, 5), (2, 1), (3, 1)}  X  1 3 x 0   5 x 1  1 x 2   1 x 3  1
10
Exemple. – Considérons la série définie par 175 mesures de tailles d’étudiants d’une université vues
§4.2.3. Si on tient compte des valeurs observées, la détermination de la moyenne arithmétique fournit la
valeur :
1
X  ( 2  150)  (2  151)  (1  152)  ...  (3  198)   30714  175 ,5
175 175
La valeur approchée, calculée selon la formule pour données groupées, est obtenue par l’intermédiaire
du tableau 4.9.

Pr Joseph TSHIMPANGA B.
55
Tableau 4.9. – D.G.1. de tailles des étudiants d’une université

Classes Xj nj nj Xj
150 – 159 154,5 14 2163,0
160 – 169 164,5 32 5264,0
170 – 179 174,5 65 11342,5
180 – 189 184,5 47 8671,5
190 – 199 194,5 17 3303,5
Totaux 175 30747,5
1
X ( D .G )  (14  154 ,5)  (32  164 ,5)  ( 65  174 ,5)  ( 47  184 ,5)  (17  194 ,5)   30747 ,5  175 ,7
175 175
Comme on peut s’en rendre compte les calculs nécessaires pour obtenir la valeur moyenne
peuvent être relativement laborieux, surtout si on ne dispose pas de calculette. Cette situation ne peut
d’ailleurs que s’aggraver dans la suite (paramètres de dispersion et de forme). C’est pourquoi il peut
parfois être utile d’effectuer un changement d’origine et (éventuellement) d’unité dans le but de réduire
le volume des calculs. Cette astuce s’appelle utilisation d’une moyenne arithmétique provisoire.

- Changement d’origine

Soit X0 une nouvelle origine. Elle peut être tout centre de classe. Il est conseillé de considérer le centre
de classe qui a l’effectif le plus élevé. Ainsi, au lieu de travailler avec Xj, on va considérer une nouvelle
variable dj qui égale à d j  X j  X0 . Partant, la formule a utilisé est :
1 J
X  X0 
n
 n jd j
j 1
- Changement d’unité
Les calculs sont restés tout de même laborieux. Aussi peut-on procéder au changement d’unité. Si on
observe les valeurs dj on constate qu’elles sont multiples de l’amplitude de classe i. Ainsi, la nouvelle
unité consiste à diviser les dj par i pour obtenir uj égale : u j  d j i . A partir de cette transformation, la
moyenne peut s’obtenir par :
 J 
 
 j j
n u

j 1
X  X0    i
 n 
 
 
 
Exemple. – Reprenons la distribution groupée en 5 classes considérée dans notre exemple 4.3.2. pour
réduire l’importance des valeurs Xj, choisissons comme nouvelle origine X0 et nouvelle unité i les valeurs
suivantes :

X0 = 174,5 ; i = 10

Les valeurs de uj sont contenues dans le tableau 4.10.

Pr Joseph Tshimpanga B.
56
Tableau 4.9. – Calculs nécessaires pour le changement d’origine et d’unité

Classes Xj nj dj njdj uj nj uj
150 – 159 154,5 14 -20 -280 -2 -28
160 – 169 164,5 32 -10 -320 -1 -32
170 – 179 174,5 65 0 0 0 0
180 – 189 184,5 47 10 470 1 47
190 – 199 194,5 17 20 340 2 34
Totaux 175 0 210 0 21

210
Changement d’origine : X   174 ,5  1, 20  174 ,5  175 ,7
175
21 
Changement d’unité : X  174,5   10  174,5  10 0,12   175,7
 175 

Propriétés de la moyenne arithmétique

- Une moyenne ne se conçoit que si les valeurs observées sont numériques.


- Cet indice est unique : une série ne peut pas posséder plusieurs moyennes arithmétiques distinctes.
- La moyenne arithmétique est rarement une valeur observée. De plus, la moyenne de nombres entiers
n’est pas nécessairement entière.
n
 Xi
n
- Si la X  i 1   Xi  nX
n
i 1
- la moyenne arithmétique est sensible à la présence de valeurs aberrantes (c’est-à-dire de valeurs qui
ne sont pas du même ordre de grandeur que les autres).
- La somme des différences ou déviations entre chacune des observations d’un ensemble et la moyenne
arithmétique de cet ensemble est nulle (centre de gravité) :
n
 X i  X   0
i 1
- L’ordre dans lequel les observations interviennent dans le calcul de X n’a pas d’influence sur cet
indice.
- Si une série statistique d’effectif n a et de moyenne X a se joint à une série d’effectif nb et de
moyenne X b , on peut calculer la moyenne X de la série globale appelée moyenne pondérée au moyen
de l’expression :
n X a  nb X b
X  a
n a  nb

Cette expression peut encore se concevoir sous forme d’une moyenne pondérée de X a et Xb . En effet,
elle peut encore s’écrire :
na nb
X Xa  Xb
na  nb na  nb
En posant
na nb
wa  et wb  ,
na  nb na  nb

Pr Joseph TSHIMPANGA B.
57
on constate que
X  wa X a  wb X b
où wa et wb sont des coefficients dont la somme vaut 1. Nous obtenons ainsi l’expression d’une moyenne
pondérée qui, d’une manière générale, peut se définir comme suit. Soit {X1, X2, …, Xm} une série de m
valeurs numériques et {w1, w2, …, wm} un ensemble de coefficients de pondération (encore appelés tout
simplement des poids) dont la somme vaut 1 :
m
 wi  1 .
i 1
L’expression
m
Xw   Wi X i
i 1
définit alors une moyenne (arithmétique) pondérée des valeurs de la série. Si tous les coefficients de
pondération sont égaux, la moyenne est dite simple. Cette formule peut être généralisée à autant de séries
(k) :
k
 ni X i
X  i 1
k
 ni
i 1
L’intérêt de ce dernier résultat est évident : si on possède la moyenne d’une série statistique et
qu’on ajoute des observations, le calcul de la moyenne de la série complétée ne nécessite pas de devoir
tout recalculer. Le cas le plus simple est celui de l’adjonction d’une observation. Si on ajoute la valeur
Xp à la série (X1, X2, …, Xn) de moyenne X , la moyenne X ' de la série complétée (X1, X2, …, Xn, Xp)
vaut :
nX  X p
X '
n 1

Exemple. – Reprenons la série des 175 tailles, de moyenne X  175,5 , considérée dans l’exemple du §
4.2. Si on ajoute à cette série une nouvelle taille égale à 192 cm la moyenne X ' de la nouvelle série
(comportant à présent 176 observations) vaut :
30714  192 30906
X '   175 ,6
176 176

Inconvénients, avantages de la moyenne arithmétique

La moyenne arithmétique présente l’inconvénient d’entraîner, pour sa détermination, des calculs


parfois longs, et d’être influencée par des valeurs aberrantes de la variable (valeurs exagérément faibles,
ou exagérément élevées). Cependant le fait d’utiliser les valeurs mêmes prises par la variable, et toutes
ces valeurs entraîne que la moyenne arithmétique est la meilleure des caractéristiques de position, et
qu’elle est commodément utilisable pour des développements mathématiques.

4.3.2. Le médian

a. Définition

Une autre mesure de tendance centrale bien connue et souvent utilisée comme mesure
caractéristique, c’est le médian ou la médiane. Dans une série statistique rangée en ordre de grandeur

Pr Joseph Tshimpanga B.
58
croissante (ou décroissante), la médiane est la valeur qui occupe la « position centrale ». Elle est notée
Mé. Concrètement, La médiane d’une variable X est une valeur numérique telle qu’il y a au plus 50%
des valeurs de la variable qui lui soient inférieures et au plus 50% des valeurs de la variable qui lui soient
supérieures. Elle partage la série des valeurs observées en deux séries de même taille.

b. Détermination
- Si le nombre n d’observations dans la série (ordonnée) est impair, alors la médiane est la [(n + 1)/2]e
observation. Considérons, par exemple, la série ordonnée 20, 21, 22, 23, 24 où n = 5, alors la médiane
est la [(5 + 1)/2] = 3e observation, c’est-à-dire 22.
- Si le nombre n d’observations est pair, par convention on choisit pour médian la moyenne
arithmétique des valeurs centrales, c’est-à-dire :
e e
1 n n 
la   observation  la   1 observation  .
2 2 2  
 
Considérons, par exemple, la série 20, 21, 22, 23, 24, 25 où n = 6 ; on choisit pour médiane la valeur
1  6 e 6  e  1
 la    3 observatio n  la   1   4 observatio n   22  23   22 ,5
2  2 2   2

- Lorsqu’on a affaire à une distribution des données groupées, la détermination du médian se fait sur
base de la formule suivante à partir de la classe médiane en considérant les effectifs cumulé et simple :
 n 2  N Mé 
Mé  l Mé   i

 n Mé 
où lMé = la limite inférieure exacte de la classe contenant la médiane
NMé = effectif cumulé jusqu’à la classe immédiatement inférieure à la médiane
nMé = effectif simple de la classe médiane
i = amplitude de la classe médiane.

On peut aussi utiliser à la place des effectifs les fréquences cumulée et simple mutatis mutandis
en prenant soin de remplacer dans la formule n/2 par 0,50.

En utilisant les données particulières sur les tailles représentées dans le tableau 2.8, on obtient donc
comme valeur de la médiane de ces tailles.

Tableau 4.14. – Calcul de la médiane dans une distribution groupée

Effectif
Limites de classe Nj
(nj)
149,5 – 159,5 14 14  175 2  46  41,5
Mé  169,5   10169,5  10  175,88  175,9
159,5 – 169,5 32 46  65   65 
169,5 – 179,5 65 111
179,5 – 189,5 47 158
189,5 – 199,5 17 175

4.3.3. Les quantiles ( fractiles)


a. Définition

Contrairement aux autres mesures de tendance centrale, à l’aide d’un fractile (ou quantile), on ne
cherche pas nécessairement à déterminer le centre des valeurs prises par une variable statistique, mais

Pr Joseph TSHIMPANGA B.
59
plutôt à décrire une position quelconque prise par ces valeurs. Intuitivement le fractile d’une variable
statistique est une valeur numérique en bas de laquelle repose une fraction donnée des valeurs prises par
cette variable. Par exemple, on cherche une valeur telle qu’il y ait 25% des valeurs qui lui soient
inférieures : on parle alors du fractile d’ordre 0,25 ou du premier quartile. La médiane est le fractile
d’ordre 0,5, c’est-à-dire celui qui partage une série statistique en deux parties égales. On appelle quartiles
(il y en a trois et on les désigne par Q1, Q2 et Q3) les fractiles qui partagent une série en quatre parties
égales, déciles ceux qui la partagent en dix parties égales, centiles ou percentiles ceux qui la partagent
en 100 parties égales.

Le fractile d’ordre  (ou quantile d’ordre ) d’une variable X. est une valeur numérique que l’on
note X, 0    1, telle qu’il y a au plus % des valeurs de la variable qui lui soient inférieures, et au
plus (1 - )% des valeurs de la variable qui lui soient supérieures. Ainsi, la médiane correspond à  = ½,
les quartiles au nombre de 3 (Q1, Q2 et Q3) et correspondent à  = ¼,  = ½ et  = ¾ ; les déciles sont
au nombre de 9 (D1, D2, …, D9) et correspondent respectivement à  = 1/10,  = 2/10, …,  = 9/10 ; les
percentiles au nombre de 99 (P1, P2, …, P99) et correspondent à  = 1/100,  = 2/100, …, 99/100.

b. Détermination

Dans le cas où on ne dispose que d’une distribution groupée, X peut être approché par une démarche
analogue à celle que nous avons suivie dans l’étude de la médiane, mutatis mutandis. Elle se fait sur base
de la formule suivante à partir de la classe qui contient le quantile X :
 n    N X  
X   l X    i

 n X 
où lX = la limite inférieure exacte de la classe contenant le quantile recherché
NX = effectif cumulé jusqu’à la classe immédiatement inférieure à la classe contenant le
quantile
nX = effectif simple de la classe contenant le quantile
i = amplitude de la classe contenant le quantile.

Exemple. En reprenant la distribution groupée des tailles d’étudiants, on obtient aisément les valeurs
suivantes

Tableau 4.15. – Calcul des quelques quantiles dans une distribution groupée

Effecti
Limites de classe Nj
f (nj)
149,5 – 159,5 14 14
159,5 – 169,5 32 46
169,5 – 179,5 65 111
179,5 – 189,5 47 158
189,5 – 199,5 17 175

 175 / 4  14 
X 1 4  X 0,25  Q1  P25  159,5  169,5  159,5   10  168,8
 32 

Pr Joseph Tshimpanga B.
60
 3(175) 
  111 
X 3 4  X 0,75  Q3  P75  179,5  189,5  179,5   4 10  183,8
 47 
 
 
 175 / 10  14 
X 1 10  X 0,10  D1  P10  159,5  169,5  159,5   10  160,6
 32 
 3(175) 
  46 
X 3 10  X 0,30  D3  P30  169,5  179,5  169,5   10 10  170,5
 65 
 
 
 7(175) 
  111 
X 7 10  X 0,70  D7  P70  179,5  189,5  179,5   10 10  181,9
 47 
 
 
 9(175) 
  111 
X 9 10  X 0,90  D9  P90  179,5  189,5  179,5   10 10  189,4
 47 
 
 
c. Boîtes à moustaches

- Définition

Les « boîtes à moustaches » (Box plots en anglais) sont des représentations graphiques d’un caractère
statistique numérique résumé par les cinq caractéristiques suivantes :
Sa valeur minimale : Xmin
Son premier quartile : Q1
Sa médiane ou deuxième quartile : Mé ou Q2
Son dernier quartile : Q3
et sa valeur maximale : Xmax.

Elles permettent de comparer différentes distributions selon ces cinq paramètres de position et d’illustrer
leur dispersion en mettant en évidence l’intervalle interquartile et l’étendue de chacune d’elles.

- Traçage
Cette représentation graphique est construite sur une échelle verticale (ou horizontale) de la façon
suivante :
1° on trace un rectangle, de largeur arbitraire, qui s’étend du premier au dernier quartile ;
2° on partage ce rectangle par une ligne tracée au niveau de la médiane ;
3° on ajoute les « moustaches » ! c’est-à-dire des segments s’étendant de la valeur minimale au premier
quartile et du dernier quartile à la valeur maximale.

Faisons remarquer que lorsqu’on compare plusieurs échantillons de tailles différentes, on peut
améliorer ce graphique. Pour cela, on dessine des boîtes à moustaches dont la largeur n’est plus arbitraire
mais proportionnelle à la racine carrée de la taille de l’échantillon.

Pr Joseph TSHIMPANGA B.
61

valeur m axim ale


198

Figure 2.10. – Boîte à


moustaches de la distribution des
183,3 dernier quartile tailles de 175 étudiants

175,9 m édiane
168,8 prem ier quartile

150 valeur m inim ale

Comme exemple, nous avons repris les mesures relatives à la distribution des données groupées
des tailles de 175 étudiants où nous comme valeur minimale 150 cm, valeur maximale 198 cm, Q1 =
168,8 cm, Mé = 175,9 cm et Q3 =183,3 cm.

4.3.4. Les modes


a. Définition
On appelle mode(s) d’une distribution statistique non groupée la (les) valeur(s) observées
d’effectif maximum. On le note généralement Mo. Pour une distribution groupée dont les classes sont
d’égales amplitudes, on appelle classe(s) modale(s), la ou les classes d’effectif maximum. Il s’agit de la
valeur observée qui apparaît le plus souvent. Attention ! si les classes sont d’amplitudes inégales, une
classe d’effectif maximum n’est pas forcément classe modale. Une série possédant deux modes est
appelée bimodale, plusieurs modes plurimodale ou polymodale.

b. Détermination
 Dans une distribution non groupée, la détermination du mode ne pose pas de problème. On considère
la valeur qui a été observée le plus souvent, la valeur la plus fréquente ou la valeur dominante de la
distribution. Considérons la série 10, 11, 11, 12, 12, 12, 12, 12, 13, 14, 14, 14, alors le mode que l’on
note Mo est 12 puisque c’est cette valeur qui a été observée le plus grand nombre de fois, soit cinq
fois. Si l’on fait une représentation graphique en bâtonnets, il s’agit de la valeur où le bâtonnet est le
plus long.

 Dans une distribution groupée, la détermination du mode peut se faire selon la démarche ci-
après basée sur une approximation parabolique lorsque la classe modale est unique et qu’elle est
précédée et suivie par des classes de même amplitude qu’elle :
- on localise d’abord la classe modale (c’est-à-dire la classe qui a le plus grand effectif simple) ;
- puis, on utilise comme mode parfois le point milieu de cette classe (distribution symétrique) mais
plus souvent une autre valeur qui tienne compte des différences dans les effectifs des classes
adjacentes. Dans ce dernier cas, on utilise la formule ci-après :

Pr Joseph Tshimpanga B.
62
 1 
Mo  l Mo   i

 1   2 
où lMo = la limite inférieure exacte de la classe modale
1 = la différence entre l’effectif de la classe modale et l’effectif de la classe immédiatement inférieure
à la classe modale (nMo – ninf),
2 = la différence entre l’effectif de la classe modale et l’effectif de la classe immédiatement
supérieure de la classe modale (nMo – nsup),
i = l’amplitude de la classe modale.

Exemple . Considérons les données du tableau 4.8.

Tableau 4.16. – Calcul du mode dans une distribution groupée


la classe modale est : 170-179 avec comme effectif 65 ; la
Effectif limite inférieure exacte est de 169,5
Classe Limites de classe
(nj)  65  32 
150 – 159 149,5 – 159,5 14 Mo  169,5   10
 ( 65  32 )  ( 65  47 ) 
160 – 169 159,5 – 169,5 32
170 – 179 169,5 – 179,5 65  33 
 169,5   10  175,97  176
180 – 189 179,5 – 189,5 47  33  18 
190 – 199 189,5 – 199,5 17
n =175
 Une troisième approximation existe pour des distributions groupées en forme de cloche et pas trop
dissymétriques. Dans ce cas, on peut aussi utiliser la relation empirique, dite de YULE et KENDALL,
liée à la position des paramètres de la tendance centrale (la moyenne, la médiane et le mode), selon
laquelle :
X  Mo  3 X  Mé 
Si on dispose des valeurs pour la moyenne et le médian, il résulte de cette relation ci-haut l’expression
:
Mo  3Mé  2 X
En considérant l’exemple de la distribution des tailles pour appliquer l’approximation de YULE et
KENDALL ( X = 175,7 et Mé = 175,9). Mo = 3(175,9) – 2 (175,7) = 176,3

4.4. PARAMETRES DE DISPERSION

Considérons les deux séries suivantes :


48, 49, 49, 50, 50, 50, 51, 51, 52 et
10, 30, 30, 50, 50, 50, 70, 70, 90

On constate facilement qu'elles ont la même moyenne arithmétique (50), la même médiane (50) et
le même mode (50). Cependant, elles diffèrent indiscutablement. Donc, les mesures de tendance centrale
et, d'une façon plus générale, les mesures de position ne suffisent pas à bien caractériser une série
statistique. On voit, par exemple, que les valeurs de la première série sont très concentrées autour des
valeurs centrales, alors que, dans la deuxième série, elles sont plus dispersées. On sent alors le besoin de
définir et de calculer des caractéristiques qui permettent de mesurer cette dispersion, et ainsi de pouvoir
mieux comparer des séries comme les précédentes. On conçoit facilement qu'une forte concentration des
valeurs de la variable autour d'une valeur centrale (la moyenne arithmétique, par exemple) donne à cette
valeur centrale (paramètre de position) une signification accrue.

Pr Joseph TSHIMPANGA B.
63
Les paramètres de dispersion ont pour but de caractériser la répartition des observations les unes
par rapport aux autres ou encore autour d’une valeur centrale. Il existe plusieurs mesures de dispersion.
Celles que l'on retrouve le plus fréquemment dans la littérature sont l'étendue, l'écart moyen, la variance,
l'écart type, le coefficient de variation, les intervalles ou les espaces interquartile et interdéciles.

4.4.1. L'étendue

Comme on l'a souligné précédemment, l'étendue d'une série statistique est notée e.v. et est définie
comme la différence entre la plus grande et la plus petite des valeurs dans la série. Pour la série proposée
relative aux tailles de 175 étudiant, on a 198 cm – 150 cm = 48 cm.

Ce paramètre présente le désavantage de ne pas tenir compte de toutes les observations et d'être
particulièrement sensible à la présence de valeurs aberrantes. Ainsi, les trois séries suivantes ont même
étendue

X(n) X(1) X(n)


X(1) X(n) X(1)

Figure 4.11. – Représentation schématique de dispersion pour une même étendue

Ce paramètre ne peut donc être retenu que pour des séries dont les observations sont réparties
« convenablement » (sans valeurs, extrêmes, ...) ; il sert souvent de première approche dans la mesure
de la dispersion.

4.4.2. L'écart moyen

Les paramètres de dispersion ayant pour but de mesurer la concentration des valeurs observées
autour d'une valeur centrale, il est logique de calculer pour chaque valeur de la variable sa distance par
rapport à une valeur centrale. L'écart moyen, que l'on note Em, est par définition la moyenne arithmétique
des écarts (distance en valeur absolue) entre chacune des valeurs de la variable et la moyenne
arithmétique, c'est-à-dire

1
Em 
n
 Xi  X

cette formule s'appliquant lorsque la variable X prend n valeurs Xi distinctes. Si l'on a plutôt affaire à
une distribution observée ou une distribution groupée, on travaille avec Xj en tenant comme des effectifs
nj, j = 1, 2, …J. On a alors
1 J
Em 
n

 nj X j  X 
j 1
Exemple. On veut déterminer l'écart moyen des valeurs de la variable «taille». On sait que X = 175,7
cm. On obtient alors le tableau suivant :

Pr Joseph Tshimpanga B.
64

Tableau 4.18. – Calcul de l’écart moyen


Xj nj |x| =|Xj - X | |x|nj
154,5 14 21,2 296,8
164,5 32 11,2 358,4
174,5 65 1,2 78
184,5 47 8,8 413,6
194,5 17 18,8 319,6
175 1466,40

L’écart moyen absolu est égal à :


Em = 1466,40/175 = 8,379429  8,38

Globalement, on peut donc conclure que la distance moyenne des valeurs prises par la variable «taille»
autour de la moyenne X = 175,7 cm est égale à 8,38 cm.

Remarque. Il pourrait sembler plus approprié de calculer les écarts de la variable par rapport à la médiane
plutôt que par rapport à la moyenne arithmétique, si l'on se fonde sur la propriété énoncée précédemment
pour la médiane : en effet, la somme des écarts entre chacune des valeurs d'un ensemble et une valeur Xo
est minimale lorsque cette valeur Xo est la médiane. Cependant, si l'on remplaçait la moyenne par la
médiane, il faudrait de nouveau utiliser la notion de valeur absolue dans le calcul de cet écart moyen. A
cause des difficultés algébriques entraînées par l'utilisation des valeurs absolues, on préfère
habituellement utiliser l'écart type (ou la variance) au lieu de l'écart moyen.

4.4.3. La variance et l'écart type

Puisque la somme des déviations entre les valeurs d'une variable et leur moyenne arithmétique est
nulle, et que l'utilisation de la valeur absolue entraîne des difficultés, il est naturel de considérer les carrés
des déviations (ou distances). La variance est justement la moyenne arithmétique des carrés des
déviations entre les valeurs d'une variable et sa moyenne arithmétique; l'écart type est simplement la
racine carrée (positive) de la variance.

 La variance d’une variable statistique X prenant les valeurs Xi est notée S2 et définie par
n 
1 n 2 1 2
 X i  X  ou S  n   Xi   X
2 2
S2 
n
i 1  i 1 
Cette formule est indiquée pour une série brute ou une suite ordonnée. Dans le cas d'une distribution
observée (D.O.1) ou de distributions regroupées (D.G.1), on remplace, dans les formules définissant la
variance, les valeurs Xi par Xj avec les effectifs nj, j = 1, 2, …, J et on peut utiliser l’expressions ci-
après :
1 J  J 
S2 
n
   2
n j X j  X ou S 2  1   n j X 2j   X 2
n 
j 1  j 1 

On utilise ici le symbole S2 pour désigner la variance d'un échantillon; le symbole grec 2 sera
utilisé pour désigner la variance d'une variable étudiée dans une population (comme on le verra plus
loin en statistique inférentielle).

Pr Joseph TSHIMPANGA B.
65
On peut, dans le cas d’une distribution groupée, comme pour la moyenne, choisir une nouvelle
unité et effectuer à la fois un changement d’unité et un changement d’origine dans le but de réduire le
volume des calculs. Il s’agit d’une astuce appelée utilisation d’une moyenne arithmétique provisoire.
Dans ces cas, on a les expressions suivantes :

- Changement d’origine
Soit X0 une nouvelle origine. Elle peut être tout centre de classe. Il est conseillé de considérer le centre
de classe qui a l’effectif le plus élevé. Ainsi, au lieu de travailler avec Xj, on va considérer une nouvelle
variable dj qui égale à d j  X j  X0 . Partant, la formule a utilisé est :
2
J  J 
 n j d 2j 
 n jd j 
 
j 1 j 1
S2   
n  n 
 
 
 
- Changement d’unité
Les calculs sont restés tout de même laborieux. Aussi peut-on procéder au changement d’unité. Si on
observe les valeurs dj on constate qu’elles sont multiples de l’amplitude de classe i. Ainsi, la nouvelle
unité consiste à diviser les dj par i pour obtenir uj égale : u j  d j i . A partir de cette transformation, la
moyenne peut s’obtenir par :
 J 2 
  J  
2  
  n j u j  j j
n u
 
2  j 1  j 1   2
S    i
n  n 
   
   
   
Exemple – On veut déterminer la variance de la variable «taille» des étudiants. Reprenons la distribution
groupée en 5 classes considérée dans notre exemple au §4.3.2. On va illustrer les formules présentées ci-
dessus.

Tableau 4.19. – Calculs nécessaires pour la variance et l’écart type

Xj nj x =Xj - X xnj x2 njx2 X 2j X jnj X 2j n j


154,5 14 -21,2 -296,8 449,44 6292,16 23870,25 2163 334183,5
164,5 32 -11,2 -358,4 125,44 4014,08 27060,25 5264 865928
174,5 65 -1,2 -78 1,44 93,6 30450,25 11342,5 1979266,25
184,5 47 8,8 413,6 77,44 3639,68 34040,25 8671,5 1599891,75
194,5 17 18,8 319,6 353,44 6008,48 37830,25 3306,5 643114,25
175 0 20048 30747,5 5422383,7
5

2
20048 5422383 ,75  30747 ,5 
S2   114 ,56 ; S2     114 ,56
175 175  175 

Illustrons les formules avec le changement d’origine et d’unité à partir de l’exemple sur la variable
« tailles ». Pour ce faire, posons comme moyenne provisoire X0 = 174,5 ; dj = Xj -Xo et uj = dj/i où i est
l’amplitude de classe. Tous les différents calculs sont consignés dans le tableau 2.20.

Pr Joseph Tshimpanga B.
66

Tableau 4.20. – Calculs nécessaires pour la variance et l’écart type


en tenant compte du changement d’origine et d’unité

Xj nj dj djnj d 2j n j uj ujnj u 2j n j

154,5 14 -20 -280 5600 -2 -28 56


164,5 32 -10 -320 3200 -1 -32 32
174,5 65 0 0 0 0 0 0
184,5 47 10 470 4700 1 47 47
194,5 17 20 340 6800 2 34 68
n= djnj =  d 2j n j = ujnj =  u 2 n = 203
j j
175 210 20300 21

2
J  J 
 n j d 2j 
 n jd j 
 
Changement d’origine : S2 
j 1

j 1  = 20300  210  2
     114 ,56
n n 175  175 
 
 
 
 J 2 
  J  
2  
 n j u j  
n ju j
   2
Changement d’unité : 2  j 1  j 1   2 =  203   21  102  114,56
S    i
n  n   175  175  
     
   
   

 L’écart type d'une variable statistique X est noté S et est simplement défini comme la racine
carrée positive de la variance de X, c'est-à-dire

1 J
S  S2 
n
 
nj X j  X
2

j 1

Exemple . - On veut déterminer la variance et l'écart type de la variable «taille» des étudiants.

S  114,56  10,7
Cette valeur 10,7 cm représente en quelque sorte une distance moyenne de la variable «taille»
autour de sa moyenne X = 175,7; cependant, comme on peut le constater, cette distance moyenne n'est
pas exactement équivalente à celle calculée par l'écart moyen. L'écart type s'exprime dans la même unité
de mesure que celle de la variable. Un écart type plus faible exprime une dispersion plus petite et une
concentration plus grande autour de la moyenne arithmétique.

Une propriété intéressante de la variance est la suivante. Si une série statistique d’effectif na, de
moyenne Xa et de variance s2 est jointe à une seconde série d’effectif nb, de moyenne Xb et de variance

Pr Joseph TSHIMPANGA B.
67
s2b, la variance de la série globale (de moyenne X) peut s’obtenir à partir des informations recueillies au
niveau de chaque série initiale, on peut en effet montrer que

na a2 nb b2 na( X a  X )2 nb( X b  X )2


 2 
na nb na nb

On peut résumer ce développement en disant que la variance de la série globale est égale à la
moyenne pondérée des variances des séries initiales à laquelle on ajoute la variance de leurs moyennes.
On exprime encore ce résultat en qualifiant le premier terme de variance dans les groupes et le second
de variance entre les groupes. Ce résultat peut être généralisé à la globalisation de plusieurs séries
statistiques.

Un cas particulier de la priorité (2.4.4.) est le suivant. Ajoutons une observations Xp à une série
2
2
statistiques (X1, X2, …, Xn) de moyenne X et de variance  . La variance  p
de la série complétée
(X1, X2, …, Xn) vaut, compte tenu de (2.14), (2.44) et du fait que la variance d’une observation est
nulle :

2
n 2  X 
 2p   nX p 
n 1  n 1 

4.4.4. Intervalles interquantiles

Une autre catégorie de paramètres de dispersion concerne les intervalles interquantiles. Ils sont
généralement définis par leurs limites qui sont respectivement les quantiles X et X1- (0 < p < 1/2). On
peut donc préciser qu’un tel intervalle contient un pourcentage d’observations égal (ou à peu près égal)
à (1 – 2). Les intervalles peuvent se définir pour des variables ordinales ou quantitatives. Dans ce
dernier cas, on désigne souvent du même nom la longueur de cet intervalle : X - X1-. Les intervalles
les plus utilisés sont contenus dans le tableau 4.21.

Tableau 4.21. – Définititon des intervalles interquantiles

Définition (par la longueur de Pourcentages d’observations


Nom
l’intervalle) contenues
Intervalle interquartile Q3 – Q1 50%
Intervalle interdécile D9 – D1 80%

On définit l'intervalle interquartile comme la différence entre le troisième et le premier quartile,


c'est-à-dire Q3 – Q1. C'est un intervalle qui contient la «moitié centrale» des valeurs observées, une fois
que ces valeurs ont été ordonnées. L’intervalle interdécile concerne la différence entre les 9e décile et le
1er décile. Ces intervalles ne contiennent pas les valeurs extrêmes. Si a n’est pas trop petit, ils ne sont
donc pas sensibles à la présence de valeurs aberrantes. Dans l’analyse d’une D.G.1, ils sont définis à
partir des valeurs approchées des quantiles.

Exemple. – Ainsi reprenant les quantiles de la distribution groupée les tailles considérées dans l’exemple
relatif à la variable « tailles » des étudiants, on obtient les paramètres suivants :

Pr Joseph Tshimpanga B.
68
Intervalle interquartile : Q3 – Q1 = 183,8 – 168,8 = 15
Intervalle interdécile : D9 – D1 = 189,4 – 160,6 = 28,8

On peut bien sûr imaginer d’autres mesures de dispersion basée sur les quantiles. C’est ainsi, par
exemple, que certains auteurs utilisent des intervalles semi-interquartiles.

Le semi-interquartile (écart probable)

On appelle intervalle ou espace semi-interquartile, et l'on note par Q, la moitié de l'intervalle interquartile;
autrement dit, le semi-interquartile est donc défini comme

Q3  Q1
Q
2

Exemple . - Déterminer le semi-interquartile pour la distribution de la variable «tailles» des 175 étudiants
d’une université où nous avons observé Q3 = 183,8 et Q1 = 168,8. Donc le semi-interquartile est

Q3  Q1 183,8  168 ,8 15
Q    7,5
2 2 2
En gros, on peut dire que 50 % de tailles s'écartent (en moyenne) de la médiane de moins de 7,5 cm..

2.4.5. Variables standardisées et coefficient de variation

 Variables standardisées

Dans le but de faciliter la comparaison entre deux variables statistiques, on peut rendre les
valeurs de ces variables comparables en utilisant, pour chacune des variables Xi, la transformation
suivante :
Xi  X
zi  .
S
On obtient ainsi des valeurs indépendantes de l'unité de mesure; on parle alors de variables standardisées
ou de variables centrées réduites. Nous verrons en statistique inférentielle le rôle joué par cette variable
dans la détermination des probabilités dans une variable continue et dans les tests statistiques.

 COEFFICIENT DE VARIATION

Une autre façon de faciliter la comparaison de plusieurs variables statistiques, consiste à calculer
pour chacune son coefficient de variation. Le coefficient de variation de X, noté c.v.(X), est défini
simplement comme le rapport de S sur X , c'est-à-dire:
S
c.v.( X ) 
X
Ce dernier paramètre mesure un risque relatif et permet donc une interprétation plus nuancée de
la dispersion. On l’exprime généralement en %. Si c.v.(X) est inférieure à 15%, on peut considérer que
la dispersion est faible, ce qui amène à dire que la distribution est très homogène. Si cette valeur est
supérieure à 30%, on considère que la dispersion est très forte ; et l’on dit que la distribution est
hétérogène. Si elle est comprise entre 15% et 30%, la dispersion est plus ou moins faible, et la distribution
est considérée comme relativement homogène.

Pr Joseph TSHIMPANGA B.
69
Exemple.- Pour la variable «taille», où l’on a observé X =175,7 et S = 10,7, on obtient comme coefficient
de variation de X
10,7
c.v.( X )  ( )100  6,09%
175,7

c'est-à-dire que l'écart type est 6 % de la moyenne arithmétique. Supposons qu'on veut comparer la taille
X de ces 175 étudiants de l’université A avec la taille Y d'un échantillon de 100 étudiants d’une université
B; si la moyenne de ce dernier échantillon est Y  170 cm avec un écart type S(Y) = 12 cm, alors le
coefficient de variation de Y est :
12
c.v.(Y )  ( )100  7 , 06 %
170

autrement dit, l'écart type de Y est égal à 7 % de sa moyenne arithmétique. L'écart type des tailles de
l’université B (12 cm) est supérieur à celui des tailles de l’université A (10,7 cm), on constate par le
calcul des coefficients de variation, que la dispersion relative des tailles de l’université B est supérieure
à celle des tailles de l’université B (du moins selon ces échantillons).

4.5. PARAMETRES DE FORME

Outre les caractéristiques de position et de dispersion introduites précédemment, pour mieux


décrire une variable statistique, on peut aussi chercher à caractériser la forme de sa distribution au moyen
de quelques indices appropriés. On désigne généralement sous le vocable de paramètres de forme deux
catégories de valeurs typiques : les paramètres d’asymétrie et les paramètres d’aplatissement. Ceux que
nous allons définir ci-dessous ne concernent que des distributions relatives à des variables quantitatives.
Mais avant d’en arriver là, faisons intervenir certains indices génériques qui englobent aussi bien les
mesures de la tendance centrale que celles de dispersion. Il s’agit des moments.

4.5.1. Les coefficients d’asymétrie (Skewness)

On a coutume de distinguer trois types de distributions selon qu’elles sont symétriques (figure
4.12a), dissymétriques à droite (figure 4.12b) ou dissymétriques à gauche (figure 4.12c). Il existe
plusieurs paramètres d’asymétrie. Nous avons retenu quatre coefficients. Les deux premiers résultent de
constatations empiriques. Les deux autres coefficients sont basés sur les moments centrés.

Moyenne

Mo
Figure 4.12a. : Une distribution symétrique

Pr Joseph Tshimpanga B.
70

Mo
Mo Moyenne
Moyenne

Mé Mé

Figure 4.12b. : asymétrie positive Figure 4.12c. : asymétrie négative

a. Coefficient d’asymétrie de Pearson ou coefficient empirique de PEARSON

Une mesure de l'asymétrie peut être basée sur la différence entre la moyenne arithmétique et le
mode: plus la distribution d'une variable est asymétrique, plus la moyenne et le mode diffèrent à cause
de l'influence des valeurs extrêmes. En conséquence, pour mesurer l'asymétrie, Pearson a proposé un
coefficient que l'on notera Asp et qui est défini par la formule
X  Mo
As p 
S
Evidemment, pour une variable symétrique, X et Mo coïncident et le coefficient d'asymétrie de Pearson
est alors égal à zéro. Si Asp est positive, la distribution a une asymétrie positive (étalement à gauche) ;
Si Asp est négative, la distribution a une asymétrie négative (étalement à droite).

Exemple. – On veut calculer le coefficient d'asymétrie de Pearson pour la distribution des tailles.
Comme on a déjà obtenu précédemment x = 175,7cm, Mo = 176cm et s = 10,7cm. On obtient directement
comme valeur du coefficient d'asymétrie de PEARSON :

X  Mo 175,7  176
As p    0,028
S 10,7
Cette valeur de –0,028 indique que cette distribution présente une très légère et négligeable asymétrie
négative. On peut dire que la distribution symétrique.

b. Coefficient d’asymétrie basé sur les quartiles ou le coefficient empirique de YULE et KENDALL

D'une façon générale, on peut illustrer à l'aide de courbes de fréquence des distributions qui
seraient symétriques ou présenteraient une asymétrie positive (à droite) ou une asymétrie négative (à
gauche). Pour une distribution symétrique, la moyenne arithmétique, le mode et la médiane se
confondent. De plus, pour une telle distribution, les fractiles d'ordre  et d'ordre (1 - ) sont à égale
distance de la médiane; c'est le cas en particulier pour le premier quartile Q1 et le troisième quartile Q3.
On peut donc obtenir une autre mesure de l'asymétrie d'une distribution en calculant la différence entre
(Q3 – Q2) et (Q2 – Q1). Pour obtenir un coefficient qui soit indépendant de l'unité de mesure, on considère
plutôt comme coefficient d'asymétrie celui que l'on notera AsQ, appelé coefficient empirique de YULE
et KENDALL noté Yk, qui est défini par la formule

Pr Joseph TSHIMPANGA B.
71
(Q3  Q2 )  (Q2  Q1 ) Q1  Q3  2Q2
AsQ  
Q3  Q1 Q3  Q1

Ce coefficient AsQ varie de - 1 à + 1 et qu'il est égal à zéro pour une distribution symétrique. S’il
est positif, il y a asymétrie positive (à droite) ; et s’il est négatif, il y a asymétrie négative (à gauche).

Exemple . On peut calculer ce coefficient d'asymétrie AsQ pour la distribution des tailles des étudiants
d’une université où l’on a obtenu Q1 = 168,8, Q2 = Mé =175,9 et Q3 = 183,8.

Q  Q3  2Q2 168,8  183,8  2  175,9


AsQ  1   0,0533
Q3  Q1 183,8  168,8

Alors on obtient pour le coefficient d'asymétrie AsQ la valeur de 0,0533, la distribution a une légère
asymétrie positive.

Remarque. Ces coefficients doivent cependant être interprétés avec prudence dans la mesure où les
constatations empiriques qui les ont engendrées ne concernent pas nécessairement toutes les
distributions. Ils ne peuvent donc être considérés que comme des outils d’appréciation, simples à obtenir,
mais pouvant parfois être contradictoires comme dans les deux exemples ci-dessus.

4.5.2. Les coefficients d’aplatissement (Kurtosis)

L’aplatissement est aussi désigné la notion de voussure. Il concerne la concentration de la masse


des effectifs au tour du mode. On distingue généralement trois types de distributions selon leur voussure.
Ainsi, lorsqu’il y a une forte concentration, la distribution est aiguë et on l’appelle distribution
leptocurtique ; lorsque la concentration est normale, la distribution est dite mésocurtique ; lorsque la
concentration est faible, la distribution prend le nom d’une distribution platicurtique ou platycurtique .
Tous ces types de distribution sont illustrés dans la figure 4.12d. Parmi les différents paramètres, nous
en avons retenu un coefficient.

d is trib u tio n le p to c u r tiq u e

d is trib u tio n p la tic u rtiq u e d is trib u tio n m é s o c u rtiq u e

Figure 4.12d. : Distributions présentant des coefficients d’aplatissement différents

Pr Joseph Tshimpanga B.
72

Le coefficient centile d’aplatissement

Ce coefficient s’obtient en cherchant le rapport entre l’intervalle semi-interquartile et la différence


entre les percentiles 90e et 10e. Il est noté K et s’obtient par la formule
Q
K où Q  1 Q 3  Q1 
P90  P10 2

 Si K = 0,263, la distribution est dite mésocurtique;


 Si K < 0,263 la distribution est dite platicurtique;
 Si K > 0,263 la distribution est dite leptocurtique.

Exemple. On peut illustration ce dernier coefficient sur la distribution de la taille de 175 étudiants pour
laquelle on a déjà calculé les quantiles nécessaires : Q3 = 183,3, Q1 = 168,8, P10 = 160,6 et P90 = 189,4.
Q
K où Q  1 Q 3  Q1 
P90  P10 2
1
L’espace semi-interquartile Q Q3  Q1   183,8  168,8  7,5
2 2
Q 7,5 7,5
Le coefficient K     0,26041667  0,260
P90  P10 189,4  160,6 28,8

Comme K < 0,263 la distribution est dite platicurtique; faisons remarquer que cette distribution
tend vers une courbe mésocurtique.

Pr Joseph TSHIMPANGA B.
CHAPITRE 5 : STATISTIQUE DESCRIPTIVE BIVARIEE

Jusqu'à maintenant, on a cherché à décrire les unités d'une population uniquement en fonction
d'un seul caractère ou d'une seule variable statistique. Cependant, comme on l'a souligné au
premier chapitre, une étude statistique peut porter sur plus d'un caractère de chacune des unités
de la population ou de l'échantillon. Dans ce qui suit, nous allons considérer le cas particulier
où chaque unité de la population ou de l'échantillon est étudiée en fonction de deux variables
statistiques notées X et Y. Supposons que les valeurs de X et Y sont respectivement X1, X2,
…Xn et Y1, Y2, …Yn. On dira que (X, Y) constitue une variable statistique à deux dimensions
prenant les valeurs (Xi, Yi), i = 1, 2, …, n. Chacune des variables X et Y peut être qualitative
ou quantitative.

Exemple - Dans une assistance de 30 personnes, on a noté pour chaque individu son âge (à son
dernier anniversaire) ainsi que son état matrimonial. L'âge, noté X, est une variable quantitative
prenant des valeurs entières Xi = 0, 1,2,...; l'état matrimonial, noté Y, est une variable qualitative
pour laquelle on a distingué trois modalités: Y1 = célibataire, Y2 = marié, Y3 = veuf ou divorcé.
Pour faciliter le traitement statistique, on préfère habituellement assigner des valeurs
numériques à ces modalités qualitatives : on peut poser, par exemple, Y1 = 1 (célibataire), Y2 =
2 (marié) et Y3 = 3 (veuf ou divorcé). En conséquence, la variable à 2 dimensions (X, Y) prend
les 30 couples (Xi, Yi) de valeurs données dans le tableau 3.1. Dans le cadre de cet exemple, on
peut être intéressé à étudier ces trente personnes selon chacune des variables X et Y prises
individuellement, auquel cas l'analyse descriptive à une variable peut être effectuée. Par contre,
Si l'on s'intéresse aux liens pouvant exister entre X et Y, on préférera traiter ces deux variables
conjointement en les considérant comme une variable (X, Y) à deux dimensions et donc
procéder à une analyse descriptive à deux variables.

Tableau 5.1 :L'âge X et l'état matrimonial Y d'un échantillon de 30 personnes

Xi Yi X Yi XI YI
i
15 1 48 3 28 I
17 1 27 2 31 2
29 2 14 1 49 3
38 2 36 2 37 2
19 I 35 3 48 1
54 3 64 2 16 1
37 2 70 2 26 2
24 I 26 2 47 2
72 3 22 I 14 2
59 2 17 I 38 2

5.1. TABLEAUX STATISTIQUES A DEUX VARIABLES ET REPRESENTATION


GRAPHIQUE

Pour résumer l'information véhiculée par une variable statistique (X, Y) à deux dimensions, on
va de nouveau recourir à la notion de distribution des effectifs et de tableau statistique pour
représenter l'ensemble des valeurs de cette variable. Considérons un ensemble statistique de n
unités, décrit suivant deux variables X et Y dont les valeurs sont respectivement X1, X2, …, Xj,
…, XJ et Y1, Y2, …, Yk, …, YK. La variable (X, Y) peut présenter J x K couples (Xj, Yk)
différents de valeurs. Désignons par njk le nombre d'unités correspondant au couple (Xj, Yk) :
njk est l’effectif du couple (Xj, Yk) et fjk = njk/n est la fréquence de ce couple. La série statistique
74

bivariée permet alors de définir une distribution observée à deux dimensions (brièvement notée
D.O.2) par l’ensemble des triplets
{(Xj, Yk, njk), j  J, k  K}

Cette D.O.2 donne lieu à un tableau de contingence que nous reprenons ci-après.

Tableau 5.2. – Tableau de contingence

Variable Y
Variable X Y1 … Yk … YK
X1 n11 … n1k … n1K
. . . .
. . . .
. . . .
Xj nj1 … njk … njK
. . . .
. . . .
. . . .
XJ nJ1 … nJk … nJK

La représentation graphique devient plus difficile à construire. On peut effet associer


un « point » de coordonnées (Xj, Yk) au couple défini par la j-ème valeur de X et la k-ième
valeur de Y, en le dotant d’une surface égale à njk.

Considérons l'exemple suivant. Un échantillon de 80 hommes mariés ayant au moins un enfant


a été examiné sous deux aspects : d'une part. le nombre d’enfants (variable X) et d'autre part le
nombre de frères et sœurs (variable Y) qu’ils ont eus. Le tableau de contingence résultant de
enquête est le suivant :

Tableau 5.3. – Tableau de contingence des résultats

Xj
Yk 0 1 2 3 4
1 4 4 2 0 0
2 9 16 4 0 0
3 4 12 9 2 0
4 1 6 1 1 2
5 0 1 0 1 1

On peut lui associer le graphique ci-dessous appelé nuage de points ou diagramme de


dispersion. Ce diagramme est particulièrement utile pour étudier le type de relation
fonctionnelle pouvant exister entre X et Y. Il s’agit simplement de porter en abscisse chacune
des valeurs Xi de X et en ordonnée la valeur correspondantes Yi de Y : ainsi chaque couple
(Xi, Yi) est représenté par un (ou plusieurs) point-s dans le plan cartésien, comme on illustre
à l’exemple précédent.

Pr Joseph TSHIMPANGA B.
75

2
4 1

2 1 1
3
2 4 9 1
2
4 16 12
6
1 1

4 9 4 1
0
1 2 3 4 5 x

Figure 5.1. – Diagramme de dispersion représentant le nombre d’enfants en fonction de


nombre de frères et de sœurs pour un échantillon de 80 hommes

Cette construction est encore valable quand les variables sont ordinales. Par ailleurs, on peut
aussi recourir à des groupements en classes pour l’une ou l’autre variable si cela s’avère
nécessaire. Dans ce cas, plusieurs représentations graphiques sont possibles. On peut en effet
construire un nuage de points où ces derniers sont définis à partir des centres de classe (mais on
ne fait pas apparaître explicitement le caractère continu des classes) ;

Il est évident que ce type de représentation donne une impression générale. Seule l'analyse du
tableau des données permet une étude plus approfondie.

Remarquons encore que si les variables sont nominales, la construction d'un graphique associé
à un tableau de contingence devient plus critiquable, en raison du caractère arbitraire de la
disposition des valeurs les unes par rapport aux autres.

5.2. STATISTIQUES DESCRIPTIVES POUR UNE SERIE BIVARIEE

Rappelons qu’une série statistique bivariée est constituée d’un ensemble d’observations
de deux caractères ou variables étudiés simultanément. Il en est par exemple de couples
d’observations représentant la taille et le poids de 100 étudiants. Tout comme à une dimension,
les observations d’une série bivariée peuvent être qualitatives ou quantitatives. Comme les
paramètres que nous allons introduire utilisent la notion de distance, nous allons désormais
supposer être en présence de deux variables quantitatives X et Y. L’introduction d’une nouvelle
dimension pose évidemment de nouveaux problèmes. On peut bien sûr caractériser chaque
variable par les paramètres étudiés au chapitre deux : moyenne, variance, coefficients
d’asymétrie, ... mais il faut en plus définir certains coefficients décrivant les relations entre les
deux variables.

Exemple : il est évident que le poids d’un étudiant est lié à sa taille. Quel est le degré de
dépendance entre ces deux variables ? Comment peut-on représenter une telle dépendance ? Il
s’agit là de deux grands problèmes qui nous préoccupent dans ce chapitre : l’ajustement et la
corrélation. Avant d’en arriver, examinons d’abord les distributions marginales et
conditionnelles.

Pr Joseph Tshimpanga B.
76

5.2.1. DISTRIBUTIONS MARGINALES ET CONDITIONNELLES

a. Pour une suite brute

Soit {(Xi, Yi), i = 1, 2, ..., n} une distribution observée à deux dimensions comportant n couples
d’observations.

Exemple : mesurons le poids X et la taille Y de 10 étudiants. La distribution observée est


constituée des dix couples de mesures présentés dans le tableau 5.4. (unité de poids : le kilo;
unité de taille : le centimètre).

Tableau 5.4. – Tableau I.C. à deux dimensions reprenant le poids (X) et la taille (Y) de 10
étudiants

i 1 2 3 4 5 6 7 8 9 10
Xi 53 58 64 69 73 73 74 76 78 82
Yi 156 154 158 172 173 180 182 183 186 176

Si on considère les deux séries à une dimension {Xi ; i = 1, 2, ..., n} et {Yi ; i = 1, 2, ..., n}, on
obtient les distributions marginales respectivement en X et en Y.

b. Pour des données groupées

Dans le cas d’une série comportant un grand nombre d’observations, il se peut que certains
couples de valeurs observées se répètent souvent. Tout comme au chapitre 2, il est alors utile
de présenter la distribution sous forme d’un tableau d’effectifs {(Xj, Yk), njk; j = 1, 2, ...., J; k =
1, 2, ...., K}, où njk représente l’effectif associé au couple de valeurs observées (Xj, Yk). Cette
présentation est souvent nécessaire lors d’un groupement en classes.

Exemple : Si on mesure le poids Y et la taille X de 200 étudiants, on peut présenter les


observations groupées dans un tableau à double entrée de la forme signalée dans le tableau 3.5.

Tableau 5.5. – Tableau de corrélation

Xj 150,5-160,5 160,5-170,5 170,5-180,5 180,5-190,5 190,5-200,5 nk


Yk 155,5 165,5 175,5 185,5 195,5
50,5-60,5 55,5 14 10 0 0 0 24
60,5-70,5 65,5 8 28 16 8 0 60
70,5-80,5 75,5 0 12 34 20 2 68
80,5-90,5 85,5 0 4 12 18 4 38
90,5-00,5 95,5 0 0 0 7 3 10
nj 22 54 62 53 9 200

Notons que dans une telle représentation sous forme de tableaux d’effectifs, les
distributions marginales faisant intervenir les valeurs observées de X et Y sont aux extrémités,
dans la marge à droite et dans la marge en bas, respectivement par Yk et nk; Xj et nj.

On voit par ailleurs apparaître un deuxième type de distributions à une dimension : celui où
ayant fixé une valeur d’une variable, on considère les valeurs de l’autre. Obtient ainsi des
distributions conditionnelles. Ainsi, la distribution de X étant donné que Y varie de 70,5 à 80,5
est fournie par le tableau 5.6.

Pr Joseph TSHIMPANGA B.
77

Tableau 5.6. – Distribution conditionnelle de Xj pour Yk variant de 70,5 à 80,5

Xi 160,5-170,5 170,5-180,5 180,5-190,5 190,5-200,5


njk 12 34 20 2

Il est clair que l’analyse de ces différentes distributions unidimensionnelles s’obtient selon les
procédés considérés au premier chapitre. On pourra dès lors parler de moyennes marginales et
conditionnelles, de variances marginales et conditionnelles, ...

5.2.2. Méthodes d’ajustement analytique

Dans le but d’étudier la dépendance entre X et Y, il est nécessaire d’introduire une notion
importante en statistique : celle qui permet d’effectuer un ajustement analytique d’un
ensemble d’observations. Le problème général d’un tel ajustement peut se poser comme suit :
on dispose d’un ensemble d’observations (Xi, Yi, i = 1, 2, ..., n) relatives à un couple de variables
(X, Y). Ces observations sont forcément influencées par l’effet du hasard, par des variations
accidentelles, etc. On désire ajuster ces points par une courbe donnée. D’après les données d’un
diagramme de dispersion, il est souvent possible de mettre en évidence une courbe continue qui
suit approximativement les données. Une telle courbe est appelée « courbe d’ajustement ». Une
courbe d’ajustement peut être une droite (relation linéaire : fig. 5.5a) ou une courbe (relation
non linéaire : fig. 5.5b). Dans la figure 5.5c, il n’y a aucune relation.

Y Y
Y

X X
a. Relation linéaire b. Relation non linéaire c. Absence de relation
Figure 5.5. – Différentes courbes d’ajustement

Soit Y =  (X, a1, a2, ..., ar) l’équation de cette courbe, dont nous supposons la forme analytique
connue. a1, a2, ..., ar sont des paramètres inconnus, à déterminer de manière à faire passer « au
mieux » la courbe parmi les points comme schématiser dans la figure 5.6.

Y = a + bX

Figure 5.6. – Droite de régression

Pr Joseph Tshimpanga B.
78

L’un des buts poursuivis par l’ajustement est la prévision ou la prédiction. Dans la
prévision, on cherche à obtenir la meilleure image possible du futur à partir des données dont
on dispose aujourd’hui. Nous allons nous limiter à l’ajustement linéaire.

Le cas le plus simple est évidemment celui d’une courbe d’ajustement linéaire de Y en
X (fig. 5.2a) d’équation :
Y =  (X, a, b) = a + bX

Il y a deux paramètres à déterminer : a et b, soient respectivement l’ordonnée à l’origine et le


coefficient angulaire de la droite. Il existe plusieurs droites, mais on retient la meilleure droite
possible, c’est-à-dire celle qui passe « au mieux » entre tous les points. Cette dernière peut être
obtenue par la méthode ou le critère des moindres carrés. L’application de ce critère permet de
construire un système de deux équations à deux inconnues, appelé système d’équations
normales.
Y  na  b X (1)
 XY  a X  b X 2 (2)

Les inconnues de ce système sont les deux coefficients a et b qu’il faut rechercher par l’une ou
l’autre techniques (calcul matriciel, méthode de substitution, etc.) La solution de ce système :
- Le coefficient angulaire b d’ajustement de Y ou la pente de droite de régression est égal à la
solution suivante :

b
n  XY -  X  Y   XY - n X Y
n X 2 -  X
2 2
 X2 - n X
On peut aussi obtenir la même solution par une formule basée sur le rapport entre les écarts
types de Y et X multiplié par la corrélation ou sur les écarts par rapport à la moyenne.

br
y

 xy

 X  X Y  Y 
x2
 X  X 
x 2

Le coefficient angulaire mesure l’accroissement de Y correspondant à un accroissement unitaire
de X. Il représente l’élasticité de Y en fonction de X.

- Le coefficient a d’ajustement de Y égale à la solution suivante tirée du système des équations


normales :

a
Y  X 2    X  XY 
n X 2   X 
2

Si on connaît la valeur de b, on peut également trouver le coefficient a. Il faut diviser les deux
membres de la première équation normale (1) par n pour ensuite dégager la valeur a :

Y  a  bX ; d’où a  Y  b X

Le coefficient a est l’ordonnée à l’origine qui est égale la valeur de Y lorsque X = zéro
(intersection de la droite de régression et de l’axe des Y).

Pr Joseph TSHIMPANGA B.
79

L’équation d’ajustement permet de prévoir ou de prédire la valeur de Y* la plus


vraisemblable à partir d’une valeur donnée de X. C’est pourquoi la droite est appelée la droite
d’ajustement de Y à partir de X. Il existe également une droite d’ajustement de X à partir de Y.
Son équation est de la forme : X* = a’ + b’Y avec a’ et b’ comme inconnues dont les solutions
sont les suivantes :

b  r
x

 xy   X  X Y  Y  et a   X  b Y
 y2  Y  Y 
y 2

Exemple : Sur 10 individus on a considéré deux variables Xi et Yi

Tableau 5.7. – Tableau des données


Xi Yi XiYi Xi2
5 1 5 25
10 3 30 100
10 5 50 100
15 4 60 225
20 5 100 400
20 8 160 400
40 10 400 1600
50 15 750 2500
80 16 1280 6400
100 20 2000 10000
350 87 4835 21750

X = 350/10 = 35 Y = 87/10 = 8,7

10(4835)  350(87)
b  0,188421052  0,188
10(21750)  3502

a = 8,7 - 0,188(35) = 2,105263158

Y* = 2,11 + 0,19X

5.2.3. Les coefficients de corrélation

En pratique, dans le contexte d'une variable (X,Y) à 2 dimensions, dans la plupart des cas, le
type de lien pouvant exister entre X et Y se situe à une position intermédiaire entre l'absence de
liaison (indépendance) et la liaison fonctionnelle exacte (loi). On pourra donc détecter une
certaine forme de liaison fonctionnelle entre X et Y mais il ne s'agira pas d'une relation
fonctionnelle exacte : on dira alors qu'il existe une relation statistique entre X et Y.

Lorsque le nuage de points représentant les mesures de 2 caractères est très dispersé, il n’y a
pas d’ajustement possible, les 2 caractères semblent indépendants. Lorsque le nuage de points
se regroupe autour d’une courbe on peut penser qu’il existe une liaison entre les 2 caractères,
c’est-à-dire qu’il y a influence d’un caractère sur l’autre. On dit que les 2 caractères sont en
corrélation (figure 5.8.). La courbe d’ajustement traduit la nature de cette corrélation.
L’intensité ou la force de cette relation statistique ou de la corrélation est exprimée par le degré
de représentativité de la courbe d’ajustement. Elle est mesurée par la covariance et le
coefficient de corrélation. On distingue plusieurs coefficients de corrélation dont la plupart

Pr Joseph Tshimpanga B.
80

varient entre -1 et +1 en passant par zéro. Leur choix est fonction de type de données qui
constituent l’une ou l’autre variables.

R e la tio n fo n c tio n n e lle


C o rré la tio n stricte p o sitiv e (d irecte )
Y
Y

X X

Y Y

X X
In d ép en d a n ce to ta le R e la tio n fo n c tio n n e lle
stricte n ég a tiv e (in d irecte )

Figure 5.8. – Type de relation et la corrélation

1. La covariance

Soit, (X, Y) une variable statistique prenant les valeurs (Xi, Yi) alors la covariance
(empirique) entre 2 variables statistiques quantitatives X et Y est notée cov (X,Y) ou Sx,y et
définie par la relation :
1 n
Cov( X , Y )  
 Xi  X Yi  Y
n i 1
 
La covariance peut aussi être calculée par la relation suivante lorsqu’on travaille sur les données
groupées en classe où l’on considère les points milieux de classe :

1 K J 1K J 
Cov ( X , Y )   
n k 1 j 1

n jk X j  X Yk  Y  ou 
n  k 1 J 1
n jk X jYk  n X Y 


La covariance mesure la force ou l'intensité de la relation linéaire pouvant exister entre


X et Y; Sx,y peut prendre toutes valeurs réelles entre - et + . Si X et Y sont indépendantes,
alors on a nécessairement Sx,y = 0; par contre, la relation inverse n'est pas nécessairement vraie.
Une valeur de Sx,y positive indique que X et Y varient dans la même direction (par exemple, Si
X augmente, alors Y augmente) et une valeur négative indique le contraire. L'inconvénient
majeur de Sx,y réside dans le fait que sa valeur dépend des unités de mesure de X et Y: en
conséquence, il est difficile d'interpréter ce que signifie, par exemple, des covariances Sx,y = -
100 ou Sx,y = 1500. Pour pallier cette dernière difficulté, à partir de la notion de covariance, on

Pr Joseph TSHIMPANGA B.
81

introduit celle de coefficient de corrélation entre X et Y, qui n'est rien d'autre que la covariance
standardisée d'une certaine manière.

Exemple : Chaque mois, une pharmacie consent certaines dépenses de publicité afin d’accroître
son chiffre d’affaires. Après 10 mois d’essais, on veut savoir si la variation des frais affectés à
la publicité entraîne dans le même sens le chiffre d’affaires mensuel. Est-ce que les 2 variables,
dépenses de publicité (X) et chiffre d’affaires (Y), sont-elles corrélées ?

Pour répondre à la question, il faut établir un graphique appelé tableau de corrélation pour se
faire une idée exacte de la relation linéaire. Pour la suite de calcul, nous avons construit le
tableau des données ci-après.

Tableau 5.11. – Tableau des données et des calculs nécessaires pour


la détermination de la covariance pour les données brutes

i Xi Yi XiYi x y xy
1 0 10 0 -5 -20 100 280
Cov ( X , Y )   28
2 1 30 30 -4 0 0 10
1
3 2 20 40 -3 -10 30 Cov ( X , Y )  1780  10(5)(30)  280  28
4 3 30 90 -2 0 0 10 10
5 4 10 40 -1 -20 20 La valeur de 28 indique qu'il y a une relation
6 6 40 240 1 10 10 linéaire positive entre X et Y
(plus les frais de publicité augmentent plus les
7 7 50 350 2 20 40 CA augmentent aussi)
8 8 40 320 3 10 30
9 9 30 270 4 0 0
10 10 40 400 5 10 50
50 300 1780 0 0 280

2. Coefficient de corrélation linéaire

Nous savons comment déterminer une courbe de dépendance entre deux variables X et Y.
Plaçons-nous dans le cas où cette courbe est linéaire. Par ajustement, on peut donc déterminer
soit la droite de régression (au sens des moindres carrés) de Y en X - si Y est variable
dépendante et X variable indépendante -, soit la droite de régression de X en Y - dans le cas
contraire -, soit les deux. Intéressons-nous à présent à la mesure de l’intensité de cette
dépendance linéaire.

a) Formules

L’intensité de la dépendance linéaire est estimée par le coefficient de corrélation de Bravais-


Pearson, symbolisée par la lettre r. Il existe plusieurs formules qu’on peut utiliser dans
l’approche de ce coefficient. La formule du départ est basée sur la définition mathématique :

n n

Cov ( X , Y )
 X i  X Yi  Y   xi yi
i 1 i 1
rxy   
SxS y n 2  n 2  n 2  n 
n  
 i 1
 
X i  X 
  i 1
Yi  Y 


 xi 
  yi2 

 i 1  i 1 
La seconde formule peut être utilisée à partir des données brutes :

Pr Joseph Tshimpanga B.
82

n X iYi   X i  Yi
rxy 
n X2 
  i
 X i 2  n Yi2   Yi 2 

Il existe une autre formule basée sur les données groupées en classe :

K J J K K J
n  n jk X jYk   njX j(  nk Yk )   n jk X jYk  n X Y
k 1 j 1 j 1 k 1 k 1 j 1
rxy  
 J 2  J 
2  K

 J   K  K
2
   2 2 2

 2 
  
 n n j X j   n j X j   n
2 

nk Yk  nk Yk      n j X j  n X  nk Yk  nY 
    j 1  k 1 
 j 1  j 1    k 1  k 1  

b) Interprétation

Ce coefficient r mesure l'intensité de la relation linéaire pouvant exister entre X et Y; ses


principales propriétés sont les suivantes:

- r prend des valeurs entre - 1 et + 1, ce qui le rend beaucoup plus facile à interpréter que la
covariance;
- Si Y est reliée à X par une relation linéaire exacte, alors on a r =  1 (r = + 1 si la pente de la
droite est positive et -1 dans le cas contraire);
- Si r = 0, alors on peut conclure qu'il n'existe aucune relation linéaire entre X et Y. Notons que
cela ne signifie aucunement que X et Y sont indépendantes : il se peut très bien qu'il existe tout
de même une relation fonctionnelle entre X et Y mais que cette relation ne soit pas linéaire
(relation non linéaire). Toutefois, à l'inverse, si X et Y sont indépendantes, on a alors
nécessairement r = 0;
- une valeur de r différente de zéro et de  1 indique une relation linéaire plus ou moins forte
entre X et Y, c'est-à-dire une relation d'autant plus faible que r s’approche de 0 et d'autant plus
forte que r s'approche de +1 ou de –1. Une valeur positive signifie que les 2 caractères varient
dans le même sens alors qu’une valeur négative montre que les 2 caractères varient en sens
contraire.

Dans l’interprétation de la corrélation on estime qu’une corrélation est convenable si r


est supérieur à 0,85 environ. Généralement, on interprète le coefficient de détermination qui
est égal à r2, considéré comme la proportion de la variance des Yi expliquée par la dépendance
fonctionnelle linéaire entre Xi et Yi. Il s’ensuit que 1- r2 est la proportion de la variance des Yi
non expliquée par la dépendance fonctionnelle linéaire entre Xi et Yi. Ce dernier est appelé
coefficient d’aliénation ou d’indétermination. Par moment, on peut retenir cette échelle
descriptive d’interprétation

r < 0,20 : corrélation faible, relation quasi négligeable


0,20 – 0,40 : corrélation basse, relation définie mais faible
0,40 – 0,70 : corrélation modérée, relation consistante
0,70 – 0,90 : corrélation haute, relation marquée
0,90 – 1,00 : corrélation élevée, relation étroite.

En statistique inférentielle, on verra quelle est la signification statistique à donner une


corrélation calculée par le biais du test de signification et de l’estimation d’un coefficient de
corrélation.

Pr Joseph TSHIMPANGA B.
83

Exemple (1) – Chaque mois, une pharmacie consent certaines dépenses de publicité afin
d’accroître son chiffre d’affaires. Après 10 mois d’essais, on veut savoir si la variation des frais
affectés à la publicité entraîne dans le même sens le chiffre d’affaires mensuel. Est-ce que les
2 variables, dépenses de publicité (X) et chiffre d’affaires (Y), sont-elles corrélées ?

Pour répondre à la question, il faut établir un graphique appelé tableau de corrélation pour se
faire une idée exacte de la relation linéaire. Pour la suite de calcul, nous avons construit le
tableau des données ci-après.

Tableau 5.12. – Tableau des données et des calculs nécessaires pour la détermination du
coefficient de corrélation linéaire pour les données brutes

i Xi Yi XiYi X2 Y2 x y xy x2 y2
1 0 10 0 0 100 -5 -20 100 25 400
2 1 30 30 1 900 -4 0 0 16 0
3 2 20 40 4 400 -3 -10 30 9 100
4 3 30 90 9 900 -2 0 0 4 0
5 4 10 40 16 100 -1 -20 20 1 400
6 6 40 240 36 1600 1 10 10 1 100
7 7 50 350 49 2500 2 20 40 4 400
8 8 40 320 64 1600 3 10 30 9 100
9 9 30 270 81 900 4 0 0 16 0
10 10 40 400 100 1600 5 10 50 25 100
50 300 1780 360 10600 0 0 280 110 1600

- Selon les données brutes :


10(1780)  50(300)
r  0,667
10(360)  50 10(10600)  300 
2 2

- Selon les écarts par rapport à la moyenne :


280
r  0,667
(110 )(1600 )

110 1600
- Selon les écarts types et la covariance S x   3,316 , S y   12,649 Sx,y = 28
10 10

28
Et la corrélation est égale : r   0,667
3,316(12,649)

Soit r2 = 0,6672 = 0,444889  44,49%, c’est-à-dire ce coefficient permet d’expliquer 44,49%


de la variation de C.A. due à la variation de frais de publicité.

Exemple (2) – On considère la répartition d’un échantillon de 100 institutions médicales d’une
région suivant deux caractères : l’effectif du personnel X (en milliers) et le chiffre d’affaire
annuel Y (en millions). Les données sont représentées dans un tableau à double (distribution
bivariée).

Pr Joseph Tshimpanga B.
84

Tableau 5.13a. – Tableau du calcul de la corrélation à partir des données groupées en classe

Xj 35 – 49 40– 45 – 49 50 – 54 55 – 59 60 – 64 nk nk Y k nk Yk2
44
Yk 37 42 47 52 57 62
90 – 94 92 2 4 4 10 920 84640
85 – 89 87 1 4 6 5 16 1392 121104
80 – 84 82 5 10 8 1 24 1968 161376
75 – 79 77 njk = 1 4 9 5 2 21 1617 124509
70 – 74 72 3 6 6 2 17 1224 88128
65 – 69 67 3 5 4 12 804 53868
nj 7 15 25 23 20 10 100 7925 633625
njXj 259 630 1175 1196 1140 620 5020
n j X 2j 9583 26460 55225 62192 64980 38440 256880

Tableau 5.13b. – Calcul de la covariance

Xj 37 42 47 52 57 62
Yk
92 184 368 368
87 87 348 522 435
82 410 820 656 82
77 77 308 693 385 154
72 216 432 432 144
67 201 335 268
 (n jkYk ) 494 1075 1890 1881 1700 885  n jkYk  nkYk = 7925
 (n jkYk ) X j 18278 45150 88830 97812 96900 54870  n jkYk X j = 401840

X 
 n j X j  5020  50,20 ; Y   nk Yk 
7925
 79,25 ; Sx 
256880
 50,20 2  6,9828
n 100 n 100 100
633625 401840
Sy   79,252  7,4625 ; S x , y  Cov ( X , Y )   50 , 20 ( 79 , 25 )  40 ,05
100 100

La corrélation d’après la formule basée sur les données groupées en classe dans un
tableau bivarié :

100(401840)  5020(7925)
r  0,7686
100(256880)  5020 100(633625)  7925 
2 2

S x, y 40 ,05
et en termes de la covariance : r   0,7686
SxS y ( 6,9828 )( 7, 4625 )

3. Coefficient de corrélation de rangs de SPEARMAN

Jusqu’à présent les calculs de corrélation ont été effectués sur les mesures de deux
caractères, c’est-à-dire sur des caractères évalués quantitativement. Cependant on peut aussi
mesurer la corrélation de deux caractères évalués qualitativement.

Pr Joseph TSHIMPANGA B.
85

Pour cela on ordonne les caractères par qualité croissance ou décroissante et on considère le
rang de chaque mesure. On effectue ensuite la corrélation entre les rangs de chaque caractère.
Cette méthode est non seulement utilisable pour les mesures qualitatives, mais aussi pour les
mesures quantitatives où elle simplifie souvent les calculs. Dans ce cours, nous avons retenu le
coefficient de corrélation de rangs de SPEARMAN.

Le coefficient de corrélation de SPEARMAN est symbolisé par la lettre grecque rhô () ou rs
et qui se calcule par la formule suivante (s’il n’y a pas d’ex-aequo) :
n
6  Di2
i 1
rs    1 
2
n(n  1)

avec Di = différence des rangs d’un même individu ; n = nombre de valeurs


Dans le cas d’ex-aequo :
2
rs   
 x2   y   D2
2  x2  y 2

n3  n n3  n (t 3  t )
où  x2   Tx ;  y2   T y ; Tx ou T y  et
12 12 12
t = nombre des rangs égaux dans le groupe X ou Y (cas-exaequo).

Exemple (1) : Chaque mois, une pharmarcie consent certaines dépenses de publicité afin
d’accroître son chiffre d’affaires. Après 10 mois d’essais, on veut savoir si la variation des frais
affectés à la publicité entraîne dans le même sens le chiffre d’affaires mensuel. Est-ce que les
2 variables, dépenses de publicité (X) et chiffre d’affaires (Y), sont-elles corrélées ? Répondez
à la question par le coefficient de SPEARMAN.

Etant donné que les 2 caractères sont quantitatifs, nous avons d’abord converti les valeurs en
rangs par variable, par ordre croissant. Ensuite nous avons déterminé la différence Di entre les
rangs de même individu. Ce qui a été fait dans le tableau ci-après :

Tableau 5.14a. – Tableau des données et des


calculs nécessaires pour la détermination du coefficient de
corrélation des rangs de SPEARMAN (sans ex-aequo)

n Xi Yi rangs X rangs Y Di Di2


6(28)
1 0 10 1 1 0 0 rS    1   0,83
2 1 30 2 4 -2 4 10(102  1)
3 2 20 3 3 0 0
4 3 35 4 5 -1 1
5 4 15 5 2 3 9
6 6 40 6 6 0 0
7 7 50 7 9 -2 4
8 8 45 8 8 0 0
9 9 60 9 10 -1 1
10 10 42 10 7 3 9
n
 Di2 = 28
i 1
On peut appliquer la même échelle d’interprétation que celle vue pour la corrélation r de
BRAVAIS-PEARSON.

Pr Joseph Tshimpanga B.
86

Exemple (2) : Chaque mois, une pharmacie consent certaines dépenses de publicité afin
d’accroître son chiffre d’affaires. Après 10 mois d’essais, on veut savoir si la variation des frais
affectés à la publicité entraîne dans le même sens le chiffre d’affaires mensuel. Est-ce que les
2 variables, dépenses de publicité (X) et chiffre d’affaires (Y), sont-elles corrélées ? Répondez
à la question par le coefficient de SPEARMAN.

Etant donné que les 2 caractères sont quantitatifs, nous avons d’abord converti les valeurs en
rangs par variable, par ordre croissant. Ensuite nous avons déterminé la différence Di entre les
rangs de même individu. Ce qui a été fait dans le tableau 14b.

Tableau 5.14b. – Tableau des données et des calculs


nécessaires pour la détermination du coefficient de Tableau 5.14c. –
corrélation des rangs de SPEARMAN (avec ex-aequo) Détermination de TX et TY

n Xi Yi rangs X rangs Y Di Di2


Y t t3 t3 - t
1 0 13 1 1,5 -0,5 0,25
13 2 8 6
2 1 25 2 5 -3 9,00 25 3 27 24
3 2 20 3 3 0 0,00 48 2 8 6
4 3 25 4 5 -1 1,00 Ty = (t3 – t)/12 = 36/12 = 3
5 4 13 5 1,5 3,5 12,25 Ty = (t3 – t)/12 = 0/12 = 0
6 6 25 6 5 1 1,00
7 7 48 7 8,5 -1,5 2,25 82,5  79,5  30
8 8 45 8 7 1 1,00 rS     0,81
2 82,5(79,5)
9 9 60 9 10 -1 1,00
10 10 48 10 8,5 1,5 2,25
n
 Di2 = 30,00
i 1

Pr Joseph TSHIMPANGA B.
TROISIEME PARTIE : INFERENCE STATISTIQUE

CHAPITRE 6 : THEORIE DE L’ECHANTILLONNAGE

Le problème du choix d’un échantillon des sujets représentatifs de la population étudiée est une
étape cruciale de toute étude et pour laquelle on peut se référer à la théorie statistique de
l’échantillonnage. Celle-ci apporte un certain nombre de règles précises permettant, avec un
risque d’erreur connu, de déterminer le nombre de personnes à inclure dans la recherche. Dans
ce chapitre, on examinera tout d’abord les principes qui doivent présider au choix d’un
échantillon représentatif pour analyser ensuite le problème de la précision de l’échantillonnage
(distribution échantillonnée).

6.1. L’ECHANTILLONNAGE

Dans une étude basée sur un échantillon, les faits recueillis ne le sont que sur une fraction
réduite de la population, un échantillon, sélectionné de telle manière que l’analyse des résultats
fournis par cet échantillon puisse donner lieu à des conclusions généralisables à l’ensemble de
la population. Ceci implique donc que l’échantillon prélevé soit «représentatif ».

6.1.1. Définitions

(1) Echantillonnage

C’est l’opération qui consiste à prélever un certain nombre d’éléments (c’est-à-dire un


échantillon) dans l’ensemble des éléments qu’on veut observer ou traiter (population). C’est la
façon de procéder dans la sélection des individus.

Les méthodes d’information à base de prélèvements sélectifs sont de pratique courante, non
seulement dans le monde scientifique, mais également dans notre vie quotidienne. Quelle
économie de temps et de moyens financiers que de disposer d’une information rapidement et à
peu de frais, mais aussi quel risque de se faire une opinion fausse. Toute la problématique de
l’échantillonnage est là : comment concilier économie et rapidité d’une part, qualité et précision
de l’information d’autre part. Pour être sûr de la qualité de l’information obtenue, on pourrait
être tenté de procéder à un recensement exhaustif qui consisterait à interroger tous les individus
de la population étudiée. C’est le cas du recensement de la population d’un pays, mais les
moyens mis en œuvre sont énormes et le dépouillement de l’information recueillie n’est pas
nécessairement meilleur étant donné l’importance de l’erreur d’observation, distincte de
l’erreur d’échantillonnage, toujours présente, qui risque d’être plus grande dans un recensement
car, lorsque l’échantillon est petit, les répondants peuvent être interrogés avec soin et en
profondeur par des enquêteurs professionnels. Le recensement reste utile cependant lorsque la
population étudiée est petite, comme c’est souvent le cas dans les enquêtes industrielles.

Même dans ce type de situation, le recensement exhaustif ne sera vraiment utile que si la
variable étudiée présente suffisamment de variabilité. A la limite, si toutes les unités de la
population sont identiques par rapport à la variable analysée, un recensement serait un
88

gaspillage de temps et d’argent et interroger une seule unité suffirait. On peut entrevoir ici une
règle importante qui interviendra dans le choix de la taille d’un échantillon ; d’une manière
générale, celui-ci devra être d’autant plus grand que la variabilité du facteur étudié est élevée.

En recherche, on n’aura donc recours au recensement que là où des unités sont


vraisemblablement très différenciées.

(2) Paramètres et statistiques

Un paramètre est une caractéristique de la population. C’est n’importe quelle caractéristique


de la variable statistique X que l’on étudie dans la population. Une statistique est une
caractéristique de l’échantillon. C’est n’importe quelle fonction d’un échantillon aléatoire.
Les valeurs statistiques comme moyenne, médiane, écart-type, centile, proportion,
corrélation,... s’appellent en général des constantes. Une constante quelconque, quand elle
représente une valeur de la population s’appelle un paramètre, par contre, elle s’appelle une
statistique si elle représente une valeur de l’échantillon.
E c h a n tillo n s
P o p u la tio n
N 1 M 1
S1 S2 r
N
µ
P a ra m è tr e s   N 2 M 2 S ta tis tiq u e s
 S2 S2
 r

N 3 M 3
S3 S2
r

Figure 6.1. Illustration des paramètres et des statistiques

Les statisticiens utilisent divers symboles afin de bien faire ressortir la différence entre les
paramètres et les statistiques. Ils recourent habituellement aux lettres grecques pour désigner
les paramètres tandis qu’ils utilisent les caractères romains minuscules pour désigner les
statistiques.

6.1.2. Espèces d’échantillon

a) Echantillon représentatif
Un échantillon est dit représentatif d’une population pour un caractère s’il n’y a aucune raison
de penser que la valeur de ce caractère puisse différer dans l’échantillon et dans la population.
Mais il faut préciser davantage. Il n’est pas du tout nécessaire que la conformité entre
l’échantillon et la population soit parfaite à tous les points de vue. Non, il suffit que la
conformité existe pour le trait étudié. Insistons, le caractère représentatif de l’échantillon
concerne directement les seuls traits étudiés. Souvent, il concerne aussi, mais indirectement,
d’autres traits qui sont en forte corrélation avec le trait étudié.
Pr Joseph TSHIMPANGA B.
89

b) Un échantillon accidentel
C’est un échantillon extrait de la population selon une méthode de sélection guidée par des
raisons de commodité pour le chercheur et par le souci de ne pas introduire d’autres facteurs de
sélection susceptibles de faire différer la valeur du caractère observé dans l’échantillon par
rapport à sa valeur dans la population. Un tel échantillon est économique du point de vue du
volume de travail. Cependant, il n’est pas représentatif de la population et on ne pourra pas en
tirer des conclusions relatives à la population. C’est un groupe de sujets qui manque de caractère
et de structure.

Voici quelques exemples de ce type d’échantillon : un professeur qui prend les élèves de sa
classe ; un enquêteur se borne aux habitués des bars ou des boîtes de nuit, un chercheur borne
ses études à ceux qui s’y prêtent de bonne grâce. On peut rassembler dans cette variété
d’échantillon les échantillons empirique, intentionnel ou dirigé, occasionnel.

c) Echantillons dépendants
Des échantillons sont dits dépendants (pairés, corrélés, égalisés, appariés, appareillés) si chaque
donnée de l’un a de relation avec la valeur d’une donnée de l’autre. En termes mathématiques,
si k échantillons sont dépendants, il y a une bijection entre chacun d’eux pris deux à deux.
E c h a n tillo n 1 E c h a n tillo n 2 E c h a n tillo n 3
S ta tis tiq u e M a th é m a tiq u e C o m p ta b ilité

A 2
A 1 A 3
B 1 B 2 B 3

C 1 C 2 C 3
D 2
D 1 D 3

Figure 6.2. – Illustration des échantillons dépendants

On distingue deux sortes de groupes dépendants.


 Les groupes formés des mêmes individus observés à des moments différents ou par rapport
à des variables différentes mais liées. Cette situation, comme la figure 6.2., se présente
lorsqu’on travaille avec un même groupe soumis simultanément à plusieurs épreuves.
 Les groupes formés d’individus différents mais choisis de telle manière que chaque individu
d’un groupe ait son équivalent dans chacun des autres groupes. L’équivalence est définie par
une égalité approximative des individus vis-à-vis de critère, qui ont une influence sur les
données que l’on veut recueillir. Ce pairage a pour inconvénient de réduire la taille des
échantillons dans des proportions d’autant plus grandes que sa qualité est élevée, si bien
finalement on perd en puissance ce qu’on gagne en rigueur.

d) Echantillons indépendants

On appelle échantillons indépendants, des échantillons où les éléments de l’un, considérés


individuellement, sont indépendants des éléments de l’autre, considérés également
individuellement.
Pr Joseph Tshimpanga B.
90

Exemple. - Considérés les cotes en statistiques des filles et des garçons dans cet auditoire.

6.1.3. Techniques d’échantillonnage

Deux types de procédures sont disponibles pour sélectionner un échantillon représentatif : la


procédure probabiliste ou objective, basée sur les lois du hasard, dans laquelle l’analyste
n’intervient pas pour décider quelle unité fera partie ou non de l’échantillon, et la procédure
non-probabiliste dans laquelle, au contraire, le chercheur intervient activement en mettant au
point une procédure de sélection destinée à assurer au mieux la représentativité.

D’une manière plus précise, on définira un échantillon probabiliste (ou aléatoire) comme « un
échantillon où TOUT individu de la population cible PEUT figurer dans l’échantillon et ce,
avec une probabilité connue ».

De même, un échantillon non probabiliste (ou empirique) se définit comme «un échantillon
dont la constitution repose sur une procédure subjective de choix dans laquelle la probabilité
de sélection de chaque unité n’est pas connue à l’avance (par exemple : les échantillons de
convenance ou de jugement, les quotas) ».

Ces deux procédures de constitution d’un échantillon représentatif ont chacune les mérites et
inconvénients respectifs. La supériorité de l’échantillon probabiliste tient au fait qu’il se prête
au calcul des probabilités et permet le calcul d’intervalles de confiance, ce qui n’est pas le cas
pour un échantillon empirique. Par contre, son organisation est généralement plus coûteuse et
plus complexe.

D’après De Landsheere, parmi les facteurs qui déterminent le choix de la technique


d’échantillonnage, on peut relever :
1° la population à étudier ;
2° la structure de cette population ;
3° les objectifs de la recherche ;
4° le degré de précision souhaité pour les résultats ;
5° le temps et les ressources dont on dispose.

A. Echantillons probabilistes simples


C’est la forme la plus élémentaire d’échantillon probabiliste. Le principe de base est celui de la
sélection «au hasard », de manière que chaque unité de la population cible ait une probabilité
non nulle d’appartenir à l’échantillon et que l’on connaît cette probabilité. Le procédé le plus
élémentaire consiste à tirer avec probabilités égales les n individus-échantillon parmi les N
individus composant la population. Cette opération requiert l’existence d’une base de sondage.

Une base de sondage est constituée par une liste ou un fichier énumérant les individus de la
population sans omission (puisque chacun d’entre eux doit avoir une probabilité non nulle
d’être désigné) et sans répétition (pour assurer l’égalité des probabilités de sortie). Il s’agit de
l’existence d’une liste complète des individus de la population avec leur adresse, telle que par
Pr Joseph TSHIMPANGA B.
91

exemple, les listes électorales, les listes d’abonnés à une revue, la liste des membres d’une
association, le fichier clients d’une entreprise, le fichier de feuilles logement d’un recensement,
etc.

Voyons quelques procédés de tirage de l’échantillon. Le tirage d’un échantillon est une
opération complexe. Aussi emploie-t-on, en pratique, certains procédés (utilisation de tables de
nombres aléatoires, tirages systématiques, tirages par grappes) pour simplifier.

(1) Technique de l’urne

Cette opération revient à tirer n boules dans une urne contenant N boules, numérotées de 1 à N
et ne différant que par leur numéro ; on peut aussi inscrire les noms de tous les individus sur
des papiers identiques. Les tirages peuvent avoir lieu :
- soit avec remise dans l’urne : tirages indépendants
- soit sans remise dans l’urne : tirages exhaustifs.

En réalité, cette façon de faire devient vite très lourde lorsque la taille de la population ou de
l’échantillon est grande – plusieurs milliers, voire plusieurs dizaines de milliers d’individus. Un
tel procédé est peu efficace. On peut s’en affranchir en utilisant des tables de nombres
aléatoires.

(2) Utilisation de tables de nombres aléatoires

(a) Procédure

La méthode des tables de nombres aléatoires consiste à tirer l’échantillon en donnant à


chaque individu de la population la même probabilité d’être désignés. Il faut pour cela :
 Se procurer ou établir la base de sondage ;
 Numéroter les individus de 1 à N ou de 00 à N – 1 ;
 Se donner la taille n de l’échantillon ;
 Tirer n nombres compris entre 1 et N ou 00 à N – 1, en donnant à chacun des N numéros
la même probabilité d’être désignés.

(b) Description d’une table de nombres aléatoires

Des statisticiens ont construit des tables comportant des suites de chiffres de 0 à 9, tirés
au hasard avec probabilités égales. On dispose ainsi des tables de TIPETT, de FISHER et
YATES, de KENDALL et BABINGTON SMITH, de BURKE HORTON et de Rand
Corporation. Ci-après, il est repris un extrait de la table de nombres aléatoires provenant de
KENDALL et BABINGTON SMITH. Les chiffres y sont rassemblés par paire pour de simples
raisons de commodités de lecture.

Des programmes informatiques mettant en œuvre des procédés mathématiques appropriés,


permettent désormais de générer à la demande des séries de nombres aléatoires. Ces
programmes et ces tables simplifient considérablement le tirage d’un échantillon.
Pr Joseph Tshimpanga B.
92

Extraits d'une table de nombres au hasard


(Kendall et Babington Smith, table tirée de Christian Labrousse, Statistique, Tome2, Dunod, Paris, 1962)
02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08
85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74
00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90
64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15
94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44
42 28 52 73 06 41 37 47 47 31 52 99 89 82 22 81 86 55
09 27 52 72 49 11 30 93 33 29 54 17 54 48 47 42 04 79
54 68 64 07 85 32 05 96 54 79 57 43 96 97 30 72 12 19
25 04 92 29 71 11 64 10 42 23 23 67 01 19 20 58 35 93
28 58 32 91 95 28 42 36 98 59 66 32 15 51 46 63 57 10
64 35 04 62 24 87 44 85 45 68 41 66 19 17 13 09 63 37
61 05 55 88 25 01 15 77 12 90 69 34 36 93 52 39 36 23
98 93 18 93 86 98 99 04 75 28 30 05 12 09 57 35 90 15
61 89 35 47 16 32 20 16 78 52 82 37 26 33 67 42 11 93
94 40 82 18 06 61 54 67 03 66 76 82 90 31 71 90 39 27
54 38 58 65 27 70 93 57 59 00 63 56 18 79 85 52 21 03
63 70 89 23 76 46 97 70 00 62 15 35 97 42 47 54 60 60
61 58 65 62 81 29 69 71 95 53 53 69 20 95 66 60 50 70
51 68 98 15 05 64 43 32 74 07 44 63 52 38 67 59 56 69
59 25 41 48 64 79 62 26 87 86 94 30 43 54 26 98 61 38
85 00 02 24 67 85 88 10 34 01 54 53 23 77 33 11 19 68
01 46 87 56 19 19 19 43 70 25 24 29 48 22 44 81 35 40
42 41 25 10 87 27 77 28 05 90 73 03 95 46 88 82 25 02
03 57 14 03 17 80 47 85 94 49 89 55 10 37 19 50 20 37
18 95 93 40 45 43 04 56 17 03 34 54 83 91 69 02 90 72

(c) Utilisation d’une table de nombres aléatoires


A titre d’illustration, supposons que l’on désire sélectionner 10 écoles d’une liste de 60 écoles,
lesquels sont arbitrairement numérotés de 00 à 59. On choisit de manière aléatoire une paire de
nombres, par exemple, au début. On peut lire en descendant (en colonne) ou en allant de gauche
à droite (en ligne). En ligne, on a comme échantillon sera composé des 10 écoles numérotées
02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08; en colonne : 02 85 00 64 94 42 09 54
25 28 64 61 98 61 94 54 63 61 51 59 85 01 42 03 18. Les valeurs aléatoires supérieures à 59 ou
répétitives seront simplement éliminées. Ce qui facilitera la recherche des individus
correspondants dans le fichier.

Si la base de sondage est un support informatique, l’échantillon pourra être désigné directement
par l’ordinateur à partir de la série de nombres aléatoires qu’il aura lui-même générée. Ce
procédé n’a, bien entendu, d’intérêt que pour les échantillons de taille importante.

(3) L’échantillonnage systématique ou sondage systématique

Pr Joseph TSHIMPANGA B.
93

La méthode des tirages systématiques évite d’avoir à tirer n nombres au hasard. En outre, elle
peut, dans certains cas, se révéler plus efficace que la méthode élémentaire (technique de l’urne
et tables de nombres aléatoires).

Les unités de l’échantillon sont prélevées dans la population suivant une progression
arithmétique, la base de celle-ci étant choisie au hasard et la raison calculée de façon à couvrir
entièrement la population de référence.

Exemple. - dans une population de 1000 unités, on souhaite prélever un échantillon de taille 50.
Le taux de sondage est donc de 1/20 (50/1000 = 0,05), ce qui veut dire que 1 individu sur 20
sera sélectionné pour faire partie de l’échantillon. L’intervalle de sondage est donc l’inverse
du taux de sondage, soit ici 20 qui sera considéré comme la raison. Il suffit dès lors de prélever
1 individu de la liste tous les 20 individus, en partant d’une origine arbitraire choisie au hasard
entre 1 et 20. Supposons que ce nombre soit 13, l’échantillon sera composé des unités de rang
13, 33, 53, 73, 93, etc. Si le point de départ avait été 17, les individus numérotés 17, 37, 57,...,
997 feraient automatiquement partie de l’échantillon.

Il est à remarquer que la séquence d’individus à inclure dans l’échantillon est entièrement
déterminée par le choix du point de départ. Cette procédure revient en fait à choisir au hasard
un sous-ensemble (une grappe) d’individus de la population.

L’avantage de cette méthode est évidemment sa simplicité d’autant plus que l’on obtient ainsi
des résultats aussi précis qu’avec la méthode d’échantillonnage simple. Une condition
importante doit être respectée cependant; il faut que la liste soit bien brassée et qu’il n’y ait pas
de régularité dans le rangement des individus qui conduirait à choisir, par exemple, toujours le
même jour de la semaine, du fait de l’intervalle choisi. Si tel était le cas, il faudrait veiller à
prendre un intervalle de prélèvement différent de la périodicité ou mélanger les unités de
manière à en faire une liste réellement aléatoire. Cette méthode est souvent utilisée lorsque
l’annuaire téléphonique sert de base de sondage.

(4) L’échantillonnage en grappes (ou par amas)


A défaut d’un fichier ou d’une liste complète, le tirage au hasard peut se faire en plusieurs
étapes ou plusieurs degrés. Au lieu de choisir des individus dans la base de sondage, on choisit
aléatoirement des sous-groupes de la population appelés « grappes » (clusters) et, ensuite, dans
chaque grappe ou îlot, on interroge tous les individus ou un échantillon d’individus.

Considérons l’exemple d’une enquête auprès de commerçants dans l’alimentation d’une ville
dont on ne possède pas les adresses. La ville peut être découpée en quartiers ou en blocs de
taille comparable; on procédera alors à un premier tirage au hasard de ces quartiers. La
deuxième étape consistera à établir la liste d’adresses de tous les commerçants en alimentation
des quartiers retenus, puis à procéder à un second tirage au hasard dans ces listes.

L’intérêt de la méthode est qu’elle est simple et économique. Il n’est nécessaire d’établir la liste
d’adresses que dans un nombre limité de quartiers et le travail des enquêteurs est facilité.

Pr Joseph Tshimpanga B.
94

L’inconvénient est qu’il y a deux sources d’erreur d’échantillonnage. La première est liée au
tirage des quartiers et la seconde est liée au tirage des adresses dans les listes établies.

Pour être valable cette procédure de tirage implique que les grappes soient des
«populations miniatures », représentatives de la population totale. En d’autres termes, les
grappes doivent être hétérogènes à l’intérieur et similaires entre elles. Si ces conditions ne sont
pas réalisées, on a un effet de grappe. Si l’on s’intéresse, par exemple au salon de coiffure, il
n’est pas indifférent, tirant 4 quartiers sur les 60 de la ville de GOMA, de les obtenir plutôt dans
le centre de la ville au plutôt à sa périphérie, sur la rive gauche ou sur la rive droite, à l’est ou à
l’ouest. A l’intérieur de certains quartiers, les magasins ont tendance à présenter des articles
semblables.

En tirant des sous-ensembles où les individus ont tendance à se rassembler, alors que la diversité
est grande, on rendra mal compte de cette diversité par un échantillon où le nombre de grappes
est faible.

Cette méthode s’appuie parfois sur l’annuaire téléphonique, où chaque page est considérée
comme une grappe. S’il y a 200 pages dans l’annuaire et 100 noms par page, pour avoir un
échantillon de 400 noms, il suffit de tirer au hasard quatre pages de l’annuaire et d’inclure tous
les noms dans l’échantillon. Pour que cette procédure soit valable, on conçoit facilement que
l’ordre alphabétique doive être sans effet sur l’enquête, une hypothèse qui n’est pas toujours
tenable.

Que se passe-t-il si, par exemple, une des quatre pages tirées comprend en majorité des noms
commençant par «MUHINDO» ou des noms commençant par «KASEREKA» ? Un certain
nombre des problèmes rencontrés dans les échantillons aléatoires simples peuvent être corrigés
par des méthodes de tirage plus complexes qui seront examinées dans l’échantillonnage
stratifié.

B. Echantillons aléatoires stratifiés

Il se produit souvent que la population puisse, a priori, être divisée en sous-groupes qui diffèrent
par rapport à la variable que l’on veut étudier. Or un inconvénient d’un échantillon simple est
qu’il ne garantit pas que les différents sous-ensembles qui peuvent exister au sein d’une
population sont bien représentés dans l’échantillon. Etant donné que chaque individu a une
chance égale d’être sélectionné, on peut parfaitement obtenir un échantillon «extrême » qui
déboucherait sur des estimations du paramètre étudié très éloignées de la valeur vraie de ce
paramètre. L’objectif d’un échantillon stratifié est d’éviter cet écueil et d’améliorer la précision
des estimations en constituant des «strates » qui doivent être homogènes à l’intérieur et
différentes entre elles, à l’inverse des «grappes » (ou clusters) qui, on l’a vu plus haut, doivent
être hétérogènes à l’intérieur et similaires entre elles. On distingue les échantillons stratifiés
proportionnels et les échantillons stratifiés non proportionnels.

Pour être choisi comme critère de stratification, un caractère statistique, quantitatif ou qualitatif,
doit :
Pr Joseph TSHIMPANGA B.
95

- Etre en corrélation étroite avec les variables étudiées. L’efficacité de la stratification


dépend, en effet, de l’homogénéité des strates vis-à-vis de ces variables. Les critères de
stratification seront donc choisis en fonction de l’étude entreprise ;
- Avoir une valeur connue, avant l’enquête, pour toutes les unités de la population.

(1) Les échantillons stratifiés proportionnels


Dans un échantillon stratifié proportionnel, la population cible est subdivisée en sous-
ensembles mutuellement exclusifs et exhaustifs. Un échantillon aléatoire simple est alors tiré
dans chaque strate de telle sorte qu’il comporte un nombre d’individus proportionnel à la taille
de la strate dans la population. Le critère de stratification doit être choisi de telle manière que
les individus soient homogènes à l’intérieur de chaque strate par rapport à la variable étudiée et
différents par rapport aux individus des autres strates. Dans les enquêtes industrielles, la taille
de l’entreprise est souvent utilisée comme critère de stratification, les petites, les moyennes et
les grandes entreprises ayant généralement des comportements différents. De même, dans les
enquêtes grand public, le niveau de revenu est un critère classique de stratification.

Un échantillon stratifié est en fait un groupe d’échantillons aléatoires simples effectués à


l’intérieur de chaque strate. Prenons l’exemple suivant d’une population composée de deux
strates constituées de types d’institutions sanitaires où l’on s’est intéressé aux personnels
soignants : les Hôpitaux Généraux de Référence (HGR) d’une part et les Centres de Santé (CS)
de l’autre.

Tableau 6.1. Echantillons aléatoires stratifiés


Strate (Ni) Taille (ni)
HGR 2100 70
CS 900 30
3000 100

On vérifie que l’échantillon total est réparti proportionnellement à l’importance de chaque strate
dans la population. Les tailles des sous-échantillons (ni) sont donc données par l’expression
suivante,
ni = (Ni/N)n ici, n1 = (2100/3000)100 = 70
n2 = ( 900/3000)100 = 30

ou encore, le poids de chaque strate,


wi = Ni/N ici, w1 = 2100/3000 = 70%
w2 = 900/3000 = 30%

(2) Les échantillons stratifiés non proportionnels


Dans un échantillon stratifié proportionnel, la taille des échantillons à prélever dans chaque
strate est déterminée par l’importance de la strate dans la population totale. Ce critère n’est pas
nécessairement le meilleur, dans la mesure où la variance de la variable étudiée est souvent
différente dans chaque strate. Là où la variance est faible, on pourrait se contenter d’un
échantillon beaucoup plus petit que celui suggéré par l’importance de la strate; et de même, là
où la variance est très grande, adopter un échantillon disproportionné permettrait d’améliorer
Pr Joseph Tshimpanga B.
96

la précision des estimations. Supposons que l’on s’intéresse aux opinions politiques d’une
population sur deux grands partis politiques, par exemple le Parti A et le Parti B et le Parti du
Centre formé d’Indépendants. Si l’on a eu aux dernières élections 50% de votes pour B, 40%
de votes A et 10% d’Indépendants, un échantillon stratifié proportionnel adoptera les mêmes
taux pour constituer un échantillon de 100 répondants. Il est bien connu toutefois que les
opinions des électeurs du groupe du centre ne pourra probablement pas refléter correctement
cette diversité. Un échantillon stratifié non proportionnel du type 30, 30, 40 donnera des
résultats plus précis.

Les raisons qui militent en faveur d’un tirage non proportionnel sont donc les suivantes.
- Il y a des différences importantes dans les variances de la variable étudiée dans chaque strate.
- Certaines strates ont une importance stratégique, sans rapport avec leur importance
quantitative.
- Les coûts d’échantillonnage sont plus faibles dans certaines strates que dans d’autres.

Cette procédure suppose toutefois que l’on connaisse la variance propre à chaque strate, ce qui
n’est pas souvent le cas. La solution pragmatique adoptée dans ce cas est de pratiquer le même
taux de sondage par strate et non pas un taux proportionnel.

En conclusion, les échantillons stratifiés non proportionnels sont de loin les plus performants
et aussi les plus économiques. Ils doivent être préférés chaque fois que possible.

C. Echantillons non probabilistes ou empiriques

La constitution d’un échantillon probabiliste présuppose l’existence d’une liste, c’est-à-dire


d’une base de sondage dans laquelle on prélève aléatoirement les unités de l’échantillon. Il faut
admettre que cette base de sondage n’est pas toujours disponible (surtout lorsqu’il s’agit
d’enquêtes portant sur des articles de grande consommation). En outre, il faut aussi reconnaître
que les échantillons probabilistes sont plus difficiles à établir et de ce fait plus coûteux. Pour
cet ensemble de raisons, les échantillons non probabilistes sont fréquemment utilisés dans la
pratique des études en sciences sociales, par exemple dans les études de marché. On distingue
différents types d’échantillons empiriques dont on analysera ici les principales caractéristiques.

6.2. LA DISTRIBUTION D’ECHANTILLONNAGE


Nous avons défini une statistique comme n’importe quelle fonction d’un échantillon aléatoire.
On peut, à partir d’un échantillon aléatoire (X1, X2, ..., Xi, ..., Xn), définir pratiquement une
infinité de statistiques différentes; on peut considérer entre autres les statistiques comme la
moyenne, la variance, etc. Puisqu’elle est une fonction de plusieurs variables aléatoires, une
statistique est nécessairement une variable aléatoire, et comme telle elle aura sa propre
distribution de probabilité. Cette distribution a une moyenne et une variance.

D’une façon générale, lorsqu’on utilise une statistique en inférence, on s’intéresse non
seulement à ses caractéristiques, mais aussi à sa disposition. C’est pourquoi, on introduit la
notion de la distribution d’échantillonnage ou distribution échantillonnée. On appelle ainsi la
distribution de probabilité de n’importe quelle statistique. Autrement dit, une distribution
Pr Joseph TSHIMPANGA B.
97

de probabilité est appelée distribution d’échantillonnage si elle est utilisée comme distribution
d’une statistique; ainsi, autant des statistiques, autant de distributions d’échantillonnage. Dans
ce cours, nous présentons les principales distributions d’échantillonnage utilisées en inférence
2
statistique : loi normale, distribution  (khi-carré), t de Student et F de FISHER.

Pr Joseph Tshimpanga B.
CHAPITRE 7 : INTRODUCTION A L’NFERENCE STATISTIQUE

L’inférence statistique regroupe l’ensemble des méthodes qui, à partir d’un échantillon prélevé
dans une population, permettent de tirer des conclusions soit sur les paramètres d’une variable
étudiée dans cette population, soit sur la distribution ou tout autre aspect de cette variable. On
distingue l’inférence paramétrique et l’inférence non paramétrique.

Dans l’inférence paramétrique, on pose l’hypothèse selon laquelle la forme de la distribution


de la population est connue, et l’on essaie de tirer des conclusions sur certains paramètres
inconnus de cette distribution. Par contre, dans l’inférence non paramétrique, on ne fait pas
d’hypothèse sur la distribution de la population et l’on essaie de tirer des conclusions, non plus
sur les paramètres, mais sur n’importe quel autre aspect de la population. Eventuellement,
l’inférence non paramétrique permet de tirer des conclusions sur la distribution de la population
ou encore sur l’indépendance de deux variables étudiées dans cette population.

Traditionnellement inférence statistique aborde deux grands problèmes qui sont


complémentaires : le test d’hypothèses et l’estimation.

7.1. LES TESTS D’HYPOTHESES PARAMETRIQUES

Ici, on se place dans le contexte général d’un problème d’inférence : on est en présence d’une
population dans laquelle on étudie une certaine variable X (ou même plusieurs variables) ayant
une distribution f(x ; ), qui dépend d’un paramètre  ou d’un vecteur de paramètres. On
suppose au départ que l’on a une certaine connaissance de la (des) valeur(a) du paramètre , et
l’on essaie d’en vérifier la véracité; cette (ces) valeur(s) constitue(nt) l’hypothèse de base.

Par exemple, d’après les données historiques que l’on possède sur les ventes de pâte dentifrice,
on sait que 30% de Boyomais achètent la pâte dentifrice de marque « Colgota ». Cependant,
pour une raison ou pour une autre, on est amené à croire que cette hypothèse de base n’est peut-
être plus vraie. Si l’on vient de terminer une campagne publicitaire intensive pour mousser les
ventes de la pâte dentifrice Colgota, on est porté à croire que la proportion des Boyomais
achetant Colgota a augmenté, et est maintenant, par exemple, de 40%; c’est l’hypothèse
alternative que l’on veut confronter avec l’hypothèse de base.

Pour faire un choix entre ces deux hypothèses, on tire un échantillon aléatoire de Boyomais, et
sur la base de l’information ainsi obtenue, on applique une procédure d’inférence permettant de
tenir compte de l’erreur échantillonnale.

On appelle test d’hypothèse statistique toute procédure ou règle de décision qui, à partir
d’un échantillon aléatoire de taille n tiré dans la population, permet de faire un choix
entre une hypothèse de base et une contre hypothèse. On peut dire que les tests proposés par
l’analyse statistique ont essentiellement pour raison d’être de donner au chercheur le moyen de
décider objectivement si les résultats obtenus sont révélateurs d’une réalité ou sont attribuables
aux fluctuations de l’échantillonnage.
99

En fait, un test statistique montrera que la différence observée n’est pas significative et qu’elle
aurait pu se produire « par hasard ». On ne peut donc conclure à partir de ces données que la
publicité a causé une augmentation de l’utilisation du produit, bien que les résultats bruts
semblent aller dans ce sens.

Les objectifs de l’analyse statistique sont alors les suivants :


- évaluer un paramètre, par exemple déterminer dans quelle mesure la moyenne d’un
échantillon représente bien la moyenne vraie de la population dont il est extrait;
- déterminer si une différence observée entre deux échantillons est due à une cause systématique
ou si elle est seulement l’effet du hasard;
- évaluer une relation, et déterminer dans quelle mesure l’association observée entre deux
variables est le résultat d’une cause systématique;

Dans chacun de ces cas, le chercheur est amené à construire un test d’hypothèses. Lorsqu’on
construit un test d’hypothèses, il est commode de procéder successivement par les étapes
suivantes.

7.1.1. Hypothèses statistiques


D’une façon générale, une hypothèse est un énoncé concernant une population. Une hypothèse
peut être paramétrique ou non paramétrique, selon qu’il s’agit ou non d’un énoncé quantitatif
concernant la ou les valeurs possibles du paramètre d’une population. On parle des tests
d’hypothèses paramétriques lorsque les hypothèses portent sur un ou des paramètres, et de
tests d’hypothèses non paramétriques lorsque les hypothèses ne portent pas sur un paramètre.

En inférence statistique paramétrique, une hypothèse est une proposition relative à une ou
plusieurs populations et plus particulièrement à la forme ou aux paramètres de distribution de
ces populations. (Insistons pour dire que les hypothèses statistiques portent sur la (les)
population(s) et non sur les échantillons).

Un test d’hypothèses implique deux types d’hypothèses statistiques : hypothèse nulle, notée H0
et une hypothèse alternative ou motivée, notée H1. Ces hypothèses sont mutuellement
exclusives et exhaustives.

(1) Hypothèse nulle. C’est l’hypothèse de base au sujet de . C’est une hypothèse que l’on ne
devrait pas rejeter à moins d’avoir suffisamment d’évidence contre elle. C’est la proposition
qui contredit la proposition de recherche. L’hypothèse nulle doit être énoncée de telle manière
que son rejet entraîne l’acceptation de l’hypothèse alternative, c’est-à-dire la proposition de
recherche. Faisons remarquer qu’on peut avoir une hypothèse nulle simple et une hypothèse
nulle complexe composée. Nous en donnons des exemples ci-dessous.

- On compare le taux d’utilisation d’un produit par deux échantillons de ménagères, l’un exposé
à la publicité en faveur du produit l’autre pas. L’hypothèse nulle est qu’il n’y a pas de
différence dans le taux d’utilisation du produit entre les deux groupes ; le rejet éventuel de
l’hypothèse nulle conduira à l’acceptation de l’hypothèse alternative selon laquelle la publicité
a eu un impact sur le taux d’utilisation.
Pr Joseph Tshimpanga B.
100

H0 : 1 = 2
- On s’interroge sur l’existence d’une relation entre la propension d’écoute de la musique
classique et l’âge ; l’hypothèse nulle consiste à postuler l’absence de toute relation et à
considérer que les deux facteurs sont indépendants.
H0 :  = 0
- Une entreprise envisage le lancement d’un nouveau produit si le taux d’intentions positives
d’achat est d’au moins 65%. L’hypothèse nulle sera énoncée comme suit :

H0 :  < 0,65

(2) Hypothèse alternative. Une «contre hypothèse » est toute proposition qui diffère de
l’hypothèse nulle. Ainsi, lorsque l’hypothèse nulle est rejetée, la conclusion acceptée s’appelle
l’hypothèse alternative. Celle-ci admet que la différence observée ne peut pas être entièrement
attribuée aux fluctuations dues au hasard de l’échantillonnage mais qu’elle provient en partie
d’une autre cause dite «systématique ». Il y a trois hypothèses alternatives simples possibles
dont le choix dépend soit de la nature du problème posé par le chercheur soit du type d’analyse.

(2.1) Hypothèse alternative bilatérale ou à deux issues. Cette hypothèse alternative reconnaît
l’existence de la différence entre les paramètres sans pour autant en préciser le sens en termes
du «plus grand » ou «du plus petit ». La différence peut être positive ou négative. L’utilisation
de cette hypothèse donne lieu à un test d’hypothèse à deux issues ou non directionnelle ou test
bilatéral.

Exemple. - Dans le cas du lancement d’un conditionnement nouveau d’un produit existant,
l’hypothèse nulle pourrait être énoncée comme suit : la part de marché du nouveau
conditionnement n’est pas différente de celle observée avec l’ancien conditionnement et qui
était 10%. Et l’hypothèse alternative pourrait être les deux conditionnements sont différents.
On a donc,
H0 :  =10% et H1 :   10%.
Le sens attendu n’est pas spécifié ici. On a donc un test bilatéral.

(2.2.) Hypothèses alternatives directionnelles ou unilatérales. Ici, la différence qui nous


intéresse doit toujours être considérée dans un sens ou dans une direction donnée. Ainsi, la
valeur du paramètre est probablement supérieure ou inférieure à la valeur présumée. On parle
dans ce cas du test à une issue ou un test unilatéral parce le sens ou la direction de l’hypothèse
alternative sont connus a priori. On a deux hypothèses alternatives unilatérales selon le sens
attendu qui peut être soit positif soit négatif.

Exemple. - Dans le cas du lancement d’un conditionnement nouveau d’un produit existant,
l’hypothèse nulle pourrait être énoncée comme suit : la part de marché du nouveau
conditionnement n’est pas différente de celle observée avec l’ancien conditionnement et qui
était 10%. Et l’hypothèse alternative pourrait être le nouveau conditionnement est mieux que
l’ancien. On a donc,
H0 :  =10% et H1 :  > 10%.

Pr Joseph TSHIMPANGA B.
101

Dans le cadre d’un test, on peut avoir deux hypothèses simples, une hypothèse simple contre
une hypothèse composée ou deux hypothèses composées.

7.1.2. Indiquer le seuil ou niveau de signification du test

Pour comprendre l’origine de ce concept ainsi que les autres qui y sont attachés, considérons
au départ le problème de test d’hypothèses comme un problème de décision statistique dont
l’ensemble A des actions possibles est constitué de deux actions, c’est-à-dire A = {a1, a2} où
a1 : accepter H0
a2 : rejeter H0 (accepter H1)

Evidemment, rejeter H0 revient à accepter H1, Ce problème de décision comporte deux états
possibles de la nature, c’est-à-dire E = {e1, e2} où
e1 : H0 est vraie
e2 : H0 est fausse.

Dans le contexte de l’approche classique, les conséquences des quatre couples (état, action)
possibles sont mesurées uniquement par les probabilités qui leur sont associées (alors qu’elles
seront mesurées par une fonction de regret dans l’approche bayésienne). Ces quatre situations
possibles sont représentées dans le tableau 7.2, et à chacune de ces situations on a associé la
probabilité correspondante.

Tableau 7.2. Les erreurs d’interprétation dans un test statistique


Décision à Etat vrai de la nature
prendre (actions) H0 est vraie H0 est fausse
Bonne décision Erreur du type II
Accepter H0 1- 
Rejeter H0 Erreur du type I Bonne décision
 1- 

Ces différentes situations donnent lieu aux définitions suivantes :

Erreurs du type I et du type II. : L’erreur faite en rejetant H0 lorsqu’elle est vraie est appelée
erreur du type I (EI), et l’erreur commise en acceptant H0 lorsqu’elle est fausse est appelée
erreur du type II (EII). Le seuil (ou niveau) de signification d’un test est la probabilité, que
l’on note , de rejeter H0 quand elle est vraie ; autrement dit

 = Pr(EI) = Pr(rejeter H0/H0 est vraie) = niveau de signification du test

La probabilité de commettre une erreur de type II est notée par la lettre grecque ; ainsi

 = Pr(EII) = Pr(accepter H0/H0 est fausse)

Pr Joseph Tshimpanga B.
102

Les probabilités complémentaires de  et de  correspondent aux probabilités de prendre une


bonne décision ; en particulier on a :

Le seuil de confiance. C’est la probabilité notée (1 - ), d’accepter H0 quand elle est vraie,
c’est-à-dire :
(1 - ) = Pr(accepter H0/H0 est vraie) = seuil de confiance

La puissance d’un test. C’est la probabilité notée (1 - ), de rejeter H0 quand elle est fausse,
c’est-à-dire :
(1 - ) = Pr(rejeter H0/H0 est fausse) = puissance du test

7.1.3. Choisir la statistique convenant au test


Pour faire un choix entre H0 et H1, il existe un grand nombre de tests statistiques susceptibles
d’être utilisés pour l’interprétation des résultats d’une étude et il importe de retenir la procédure
de test adaptée au problème posé et au type de données disponibles. A ce sujet, on utilise une
statistique donnée qui résume l’information contenue dans l’échantillon tiré au hasard de la
population. Pour le choix de la statistique adéquate, il est impérieux de connaître les conditions
de base qui président au processus du test. Ces conditions concernent principalement la
distribution de la population. De plus, on suppose que l’échantillon tiré est un échantillon
aléatoire simple, et il peut parfois être important de préciser la taille de cet échantillon puisque
cette taille peut avoir une influence sur la distribution de la statistique utilisée dans le test.

Une première distinction à faire porte sur le nombre de variables à analyser simultanément. On
parle d’analyse univariée si une seule variable fait l’objet du test, d’analyse bivariée lorsqu’il y
a deux variables et d’analyse multivariée lorsqu’il y en a deux ou plus. Pour les analyses
univariées, on peut disposer d’un ou de plusieurs échantillons de mesures portant sur la même
variable et ces échantillons peuvent être indépendants ou appariés (corrélés)

Un deuxième facteur à prendre en considération dans le choix d’une procédure de test est le
niveau de mesures des données : nominales, ordinales, intervalles ou proportions. Pour les
données de niveau métrique, on recourt à la statistique paramétrique; pour les données non
métriques, à la statistique non paramétrique. Dans ce cours, nous avons retenu les tests
classiques univariés, bivariés et multivariés: test de chi-deux, test t de Student, test z, ...

7.1.4. Déterminer la région critique


Après avoir établi l’hypothèse nulle, le seuil de signification, la nature de la statistique à utiliser,
il s’agit maintenant de déterminer la (ou les) valeur(s) critique(s) de la statistique du test. Ces
valeurs sont lues dans les tables statistiques. On les appelle souvent des valeurs tabulaires. Il
peut y avoir une ou deux de ces valeurs selon que le test est unilatéral ou bilatéral. C’est cette
valeur critique (ou ces valeurs critiques) qui donne(nt) la valeur de la variable statistique à partir
de laquelle on rejettera l’hypothèse nulle. Ces valeurs vont déterminer la (les) région(s)
critique(s) qui est (sont) l’ensemble des valeurs possibles de l’échantillon ou de la statistique
qui va entraîner le rejet de H0. Pour ce faire, on a besoin du seuil de signification et de la nature
de l’hypothèse alternative.

Pr Joseph TSHIMPANGA B.
103

Pour un test bilatéral, il convient de partager la zone ou région critique en deux parts égales; a
un seuil de signification de 5% correspondent en réalité deux zones de 2,5% à gauche et à droite
de la courbe, ce qui change les valeurs critiques. Pour un test unilatéral, la zone de rejet aurait
été entièrement concentrée d’un côté de la courbe. Par exemple, un test où  = 5% sur une loi
normale aura comme zone de rejet : pour un test unilatéral, les valeurs : z  +1,64 ou z  -1,64;
pour un test bilatéral, les valeurs : z  -1,96 et z  +1,64. Illustrons dans les figures 7.2 ci-après.

zo n e
zo n e
d ' a c c e p t a t io n
d ' a c c e p t a t io n
z o n e d e r e je t z o n e d e r e je t z o n e d e r e je t
1 -  1 - 
 


Fig. 7.2a. Localisation des régions critiques pour Fig. 7.2b. Localisation de la région critique pour
une H1 alternative une H1 alternative unilatérale à gauche

Fig. 7.2c. Localisation de la région critique pour une


H1 alternative unilatérale à droite
zo n e
d ' a c c e p t a t io n
z o n e d e r e je t
1 - 

7.1.5. Prendre une décision


On appelle décision statistique, les conclusions tirées à partir d’une analyse statistique. Pour
faire le choix entre H0 et H1, on compare la valeur calculée ou observée la statistique avec la
valeur critique. Si la valeur observée appartient à la région critique ou aux régions critiques, on
rejette H0. Il est intéressant de situer les valeurs calculées soit dans la région critique ou
d’acceptation. On décide alors d’accepter ou de rejeter l’hypothèse nulle selon que la valeur
de la statistique calculée ou observée est inférieure (tombe dans la zone d’acceptation) ou
supérieure ou égale à la valeur critique considérée en valeur absolue (tombe(nt) dans la les
zone(s) de rejet). Si l’on décide de rejeter l’hypothèse nulle, on accepte alors automatiquement
la contre-hypothèse.

Si on se sert d’un progiciel d’analyse statistique sur un ordinateur, par exemple le SPSS, le
SAS, SYSTAT, la machine donne chaque fois une probabilité (p) associée à la valeur de la
statistique. Dans ce cas, il convient de comparer la probabilité (p) associée au seuil de
signification (); si p   on rejette l’hypothèse nulle, si par p > , on accepte l’hypothèse
nulle.

A ce sujet, voici la règle à suivre :

Pr Joseph Tshimpanga B.
104

- s’il y a plus de 5 chances sur 100 que la différence observée soit due au hasard, on adopte
l’hypothèse nulle et on dit que la différence n’est pas significative;
- s’il y a 5% de chances ou moins que la différence soit due au hasard, on rejette l’hypothèse
nulle et on dit que la différence est « significative » ou « très significative » selon que l’on a
respectivement entre 5% et 1% de chances ou moins de 1%.

N.B. Remarquons que le terme « significatif » pose problème en ce sens que dans son acception
ordinaire, il suggère l’existence d’une différence importante. Il est utilisé ici dans un sens
technique qui indique simplement que l’on a pu établir l’existence d’une différence effective
laquelle peut être très faible. Certains auteurs comme WONNACOTT et WONNACOTT
suggèrent de remplacer le terme significatif par « discernable », tandis Karl POPPER propose
« falsifié ».

7.2. ESTIMATION
Tout travail statistique, par la force des choses, ne peut porter que sur un nombre limité de
valeurs dont l’ensemble constitue l’effectif de l’échantillon statistique. Or ce qui préoccupe le
chercheur, ce n’est pas tellement l’échantillon en soi, mais la population d’origine, d’effectif
théoriquement infini, dont on peut considérer que cet échantillon a été tiré. Il est évidemment
impossible d’appréhender directement l’ensemble de la population d’origine et le chercheur
doit se contenter d’étudier un échantillon d’effectif plus ou moins important de cette population
(échantillons représentatifs). Le problème se pose donc de savoir dans quelle mesure les
données recueillies sur échantillon peuvent renseigner sur la population d’origine; dans quelle
mesure les données échantillonnales (statistiques) permettent « d’estimer » les caractéristiques
(paramètres) de cette population sur laquelle se concentre tout intérêt. C’est là la question
fondamentale d’interprétation statistique dite problème d’estimation dont on peut deviner
l’importance pratique.

Les problèmes d’estimation sont fréquents aussi bien dans la vie de tous les jours que dans le
monde de la gestion, des sciences, etc. En effet, avant de traverser une rue, nous devons estimer
la vitesse de l’auto qui arrive, la distance que nous sépare de cette auto, et le temps qu’il nous
faille pour traverser cette rue; sur la base de ces estimations, nous décidons de traverser la rue
maintenant, ou d’attendre que l’auto soit passée. De même dans le monde des affaires,
l’administrateur doit constamment faire des estimations concernant divers aspects de son
entreprise, et ces estimations peuvent avoir un impact considérable sur la bonne marche de ses
affaires. Ainsi, un gérant des ventes doit pouvoir régulièrement prévoir les ventes des mois à
venir pour être en mesure de répondre à la demande; un gérant de crédit doit pouvoir estimer
les chances qu’un acheteur acquitte effectivement sa dette; un financier doit pouvoir estimer
l’évolution des taux d’intérêt dans l’avenir, etc.

En général, en estimation classique, on procède de la façon suivante : face à une population


dans laquelle on étudie un certain caractère X, on suppose connue la forme de la distribution de
X (il peut s’agir, par exemple, d’une distribution de BERNOULLI ou normale), mais la (ou les)
valeur(s) d’un (ou plusieurs) paramètres(s) de cette distribution est (sont) inconnue(s). On
désigne par  le paramètre inconnu; il peut s’agir, par exemple, du paramètre p d’une
distribution de BERNOULLI. Eventuellement, si la distribution renferme plusieurs paramètres
Pr Joseph TSHIMPANGA B.
105

inconnus,  peut représenter un vecteur; ainsi, dans le cas d’une distribution normale, si  et 2
sont inconnus, on a  = (, 2). Dans l’approche classique, on suppose que l’on ne connaît rien
du paramètre  (on n’en pas même une connaissance subjective). Pour estimer , on tire un
échantillon aléatoire dans la population, et à l’aide de l’information ainsi obtenue, on détermine
la valeur qui servira comme estimation de la valeur du paramètre  inconnu. Il importe de
préciser ici que les méthodes d’estimation se divisent en deux grandes catégories : l’estimation
ponctuelle et l’estimation par intervalle de confiance.

Partant de l’information fournie par l’échantillon, l’estimation ponctuelle permet d’obtenir une
valeur numérique spécifique qui sera prise comme valeur du paramètre  inconnu, tandis que
l’estimation par intervalle de confiance permet de construire un intervalle à l’intérieur duquel
la valeur du paramètre  a de grandes chances de se trouver.

7.2.1. Estimation ponctuelle

L’estimation ponctuelle est une méthode d’estimation qui s’approche sensiblement de la façon
de procéder de l’homme de la rue, quand il doit évaluer des paramètres inconnus de son
environnement. Face à une population dans laquelle on étudie la caractère X, on suppose connue
la forme de la distribution f(x; ) de X, mais cette distribution dépend d’un paramètre inconnu
(ce paramètre pouvant éventuellement être un vecteur). Pour estimer , on tire un échantillon
aléatoire de taille n dans la population, et à partir de l’information obtenue de l’échantillon, on
essaie de déterminer une valeur numérique précise qui sera prise comme valeur du paramètre 
inconnu.

Comme l’information contenue dans l’échantillon (X1, ..., Xn) est véhiculée justement par ces
variables X1, ..., Xn, on cherche à construire une fonction T = (X1, ..., Xn) que l’on appelle
statistique, et qui, pour une réalisation particulière (x1, ..., xn), fournira une valeur numérique
comme estimation de la valeur du paramètre  inconnu. Par exemple, pour estimer la moyenne
n
 d’une population, il semble assez naturel d’utiliser la statistique X =  X i n , la moyenne de
i=1

l’échantillon. Cette statistique X est une variable aléatoire, et pour une réalisation particulière
(x1, ..., xn) de l’échantillon aléatoire, elle prendra une valeur numérique X qui sera utilisée
comme estimation de la valeur du paramètre  inconnu.

Le tableau 7.3 illustre quelques-uns des estimateurs ponctuels des paramètres d’une population.
Chacun de ces estimateurs de paramètres n’est que la statistique correspondante
d’échantillonnage. Dans le chapitre précédent, on a vu qu’un facteur de correction (correctif de
BESSEL) modifier la variance d’échantillonnage. Sans ce facteur, la variance
d’échantillonnage serait un estimateur biaisé de la population.

Pr Joseph Tshimpanga B.
106

Tableau 7.3. Estimateurs ponctuels d’usage courant


Paramètres (population) Estimateur (Statistiques)
Moyenne, µ X
Différence entre les moyennes deux populations µ1 - µ2 X1 - X 2
Proportion,  p
Différence entre les proportions dans deux populations, 1 - p1 -p2
2 s
Ecart-type, 

Toute statistique d’échantillon que l’on veut utiliser pour estimer la valeur précise d’un
paramètre (c’est-à-dire que l’on veut utiliser comme estimateur ponctuel) doit être calculée à
partir d’un échantillon aléatoire tiré de la population où se trouve défini le paramètre d’intérêt.

7.2.2. Estimation par intervalle

a) Situation
Plutôt que d’estimer un paramètre à l’aide d’un seul nombre, il arrive fréquemment que l’on
fasse l’estimation en donnant un intervalle de valeurs. Il est peu probable que la moyenne d’un
échantillon particulier coïncide parfaitement avec la moyenne de la population : il faudra donc
prévoir une marge d’erreur afin d’obtenir une estimation qui ait beaucoup plus de chances d’être
exacte.

Ainsi, puisqu’on ne peut être certain que l’estimation ponctuelle obtenue pour un paramètre est
exacte, on apportera un complément d’information en construisant un intervalle autour de
l’estimateur, intervalle dans lequel  aura de grandes chances d’être inclus. Si l’on connaît la
distribution de probabilité de l’estimateur utilisé, on pourra calculer la probabilité que cet
intervalle aléatoire, appelé intervalle de confiance, englobe la vraie valeur du paramètre . On
sera ainsi en mesure d’exprimer explicitement la marge d’erreur associée à l’utilisation d’un
estimateur ponctuel de .

b) Détermination d’un intervalle de confiance sur une statistique


On veut construire un intervalle aléatoire qui contiendra la valeur du paramètre  avec une
probabilité donnée; cette probabilité (que l’on prendra assez près de 1) sera désignée par 1 - ,
et sera appelée le coefficient, degré, seuil ou niveau de confiance de l’intervalle. Le mot
confiance parce que la probabilité est un indicateur du degré de certitude d’en arriver à une
estimation qui englobe le paramètre en utilisant la méthode d’estimation par intervalle. La
probabilité complémentaire  mesure le risque d’erreur de l’intervalle, c’est-à-dire la
probabilité que l’intervalle aléatoire ne contienne pas la vraie valeur de . D’une façon générale,
on doit résoudre une équation de la forme suivante :

Pr(LI    LS) = 1 - 

Pr Joseph TSHIMPANGA B.
107

 = paramètre à estimer, LI = limite inférieure de l’intervalle de confiance, LS = limite supérieure de


l’intervalle de confiance,1 -  = niveau de confiance de l’intervalle

De cette équation, on déduit un intervalle de la forme [LI,LS] dont les limites LI et LS sont des
fonctions de l’échantillon aléatoire (X1, ..., Xn). Cet intervalle sera appelé intervalle de confiance
pour  au niveau 1 - . Pour construire cet intervalle de confiance, on commence par définir
un intervalle qui contient une fonction f(T, ) de T et de  (où T est un estimateur ponctuel pour
) avec une probabilité 1 - . On choisit une statistique f(T, ) dont on connaît la distribution
de probabilité. Définir cet intervalle pour f(T, ) revient à écrire l’équation
Pr(k1  f(T, )  k2) = 1 - 

les constantes k1 et k2 de cette équation sont déterminées par l’intermédiaire de la distribution de probabilité de la
statistique f(T, ).

La plupart du temps, le risque d’erreur  est divisé en deux parties égales à /2, et est réparti à
chaque extrémité de la distribution de f(T, ). Si, par exemple, la statistique f(T, ). suit une
distribution normale centrée, les constantes k1 et k2 seront symétriques et pourront être
désignées par -z/2 et +z/2 comme l’indique la figure 8.3; on obtiendra alors un intervalle de
confiance bilatéral symétrique. Cependant, si la distribution de f(T, ) n’est pas symétrique par
rapport à zéro, les constantes k1 et k2 de l’équation ci-dessus ne seront plus symétriques. Une
fois que l’on a déterminé les constantes k1 et k2, il ne reste qu’à isoler le paramètre  dans
l’équation en question pour obtenir l’intervalle de confiance pour au niveau 1 - .

zo n e
d ' a c c e p t a t io n
z o n e d e r e je t z o n e d e r e je t
1 -  


-z/2 +z/2

Figure 7.3. Valeurs de la distribution normale dans le contexte


d’un intervalle de confiance pour µ

Pr Joseph Tshimpanga B.
CHAPITRE 8 : ETUDE SUR LA MOYENNE ARITHMETIQUE

Dans le chapitre précédent on a présenté la procédure générale utilisée pour l’inférence


statistique. Maintenant, on va appliquer l’inférence statistique classique paramétrique sur la
statistique moyenne. On envisage l’estimation et le test d’hypothèses sur la moyenne
arithmétique. On examine successivement les cas d’une, de deux et de plusieurs moyennes.
Dans tous les cas, on suppose être en présence d’échantillons aléatoires ou le sondage aléatoire.

8.1. METHODES APPLIQUEES A UN ECHANTILLON

8.1.1. Intervalle de confiance pour une moyenne µ

Pour construire les intervalles de confiance, on utilise les distributions d’échantillonnage


présentées au chapitre sur l’échantillonnage. Dans la construction d’un intervalle de confiance
pour la moyenne µ d’une population, on distingue deux cas : celui où la variance 2 de la
population est connue, et celui où est 2 inconnue.

1)Variance de la population 2 connue

Faisons remarquer que ce cas est irréaliste, car si µ est inconnu, la plupart de temps 
l’est aussi. Pour estimer le paramètre  = µ, on est naturellement porté à utiliser la statistique T
= X , la moyenne de l’échantillon. Si 2 est connue, on prend dans l’équation la fonction
X 
f (T , ) 
 n
Si X est normale, ou encore si X suit une distribution quelconque, mais n est assez grand (n30),
alors cette statistique ( X  ) ( n ) suit soit exactement, soit approximativement une
distribution normale centrée réduite. Pour obtenir un intervalle de confiance pour µ au niveau
(1 – ), on écrit une équation de la forme suivante, à savoir
 X  
Pr  z 2    z   1
2
  n
 
dans laquelle les valeurs  z/2 sont lues dans la table de la normale centrée réduite cumulée.
En isolant µ dans cette équation, on obtient une équation de la forme ci-après, à savoir :
   
Pr  X  z 2    X  z 2   1  
 n n
En résumé, on a donc : L’intervalle de confiance pour µ au niveau (1 – ), dans le cas où la
variance 2 de la population est connue, lorsque cette population est normale, ou encore lorsque
la taille n de l’échantillon est assez grande (n  30), est de la forme
  
 X  z 2 
 n
où z/2 est une valeur de la loi normale centrée réduite

Exemple. - Un manufacturier de peinture veut estimer le temps moyen de séchage d’une


nouvelle peinture d’intérieur qu’il désire mettre sur le marché. Le temps de séchage de cette
109

peinture est une variable aléatoire X qui se distribue selon une loi normale. Supposons de plus
qu’il connaisse l’écart type  de ce temps de séchage (prenons  = 10 minutes). Pour estimer
µ, le manufacturier peint 25 surfaces de même taille et, pour ces 25 surfaces, il obtient un temps
de séchage moyen X = 65 minutes. Construire un intervalle de confiance au niveau 1 –  = 0,95
pour la moyenne µ du temps de séchage de cette peinture.

Solution. Pour estimer µ, le meilleur estimateur ponctuel que l’on connaît est X , la moyenne
de l’échantillon. Si le temps de séchage X est normal de moyenne µ et de variance 2 = 100,
alors X est aussi normale de moyenne µ et de variance 2/n = 100/25 = 4. Pour construire un
intervalle de confiance pour µ, on commence par rechercher :

pr X  1,96  n    X  1,96  n  0,95, 
pr 65  1,96 (10 / 5)    65  1,96 (10 / 5)   0,95,
pr 65  3,92  µ  65  3,92   0,95

Soit [61,08 et 68,92]. Ce manufacturier a seulement 5% des chances de se tromper en affirmant


que le temps moyen de séchage de sa nouvelle peinture se situe dans l’intervalle [61,08 minutes,
68,92 minutes].

2)Variance de la population 2 inconnue, population quelconque, n  30

C’est le cas le plus rencontré fréquemment car si µ est inconnu, la plupart de temps 
l’est aussi. Pour estimer le paramètre  = µ par intervalle, on ne peut plus utiliser la statistique
( X  ) ( n ) . On utilise alors dans la fonction
X 
f (T , ) 
S n

l’écart type S de l’échantillon remplaçant l’écart type s de la population. Si la population est


normale, on a vu au chapitre IV que la statistique ( X  ) (S n ) suit une distribution « t » à
(n – 1) degrés de liberté. Dans ce cas, l’équation du départ prend la forme
 X  
Pr  t 2   t   1
2
 S n
 
dans laquelle les valeurs  t/2 sont lues dans la table du t à (n – 1) degrés de liberté. Par la suite,
en isolant µ dans cette équation, on obtient
 S S 
Pr  X  t 2    X  t 2   1  
 n n
Si n est assez grand (n  30), la distribution du t peut être approximée par la distribution
normale, d’où on peut remplacer dans cette dernière équation les valeurs  t/2 par les valeurs
 z/2. De plus, si la distribution de la population n’est pas normale, lorsque n est assez grand
(n  30), le théorème central limite s’applique, et la distribution de la statistique ( X  ) (S n )
est approximativement normale.

Pr Joseph Tshimpanga B.
110

En résumé, on a donc : l’intervalle de confiance pour µ au niveau (1 – ), dans le cas où la


variance 2 de la population est inconnue,
- lorsque cette population est normale est de la forme
 S 
 X  t 2  où valeurs  t/2 sont lues dans la table du t à (n – 1) degrés de liberté, et
 n
- lorsque la taille n de l’échantillon est assez grande (n  30), que la population soit normale
ou non, est de la forme
 S 
 X  z 2  où z/2 est une valeur de la loi normale centrée réduite
 n

Exemple. – Un manufacturier de peinture veut estimer le temps moyen de séchage d’une


nouvelle peinture d’intérieur qu’il désire mettre sur le marché. Le temps de séchage de cette
peinture est une variable aléatoire X qui se distribue selon une loi normale. Supposons pour
estimer µ, le manufacturier ait tiré un échantillon aléatoire de taille 25, et qu’il ait obtenu un
temps de séchage moyen X = 65 minutes avec un écart type S = 15 minutes. Construire un
intervalle de confiance au niveau 1 –  = 0,95 pour la moyenne µ du temps de séchage de cette
peinture.

Solution. Pour un niveau de confiance 95%, l’équation à utiliser devient


 X  
Pr  t0,025   t0,025   0,95
 S n 
 
en lisant dans la table du t à 24 degrés de liberté, on obtient t0,025 = 2,064. En isolant µ dans
cette équation, on obtient comme intervalle de confiance pour µ au niveau 95%
 S 
 X  2,064 ;
 n
pour l’échantillon particulier de taille 25 tiré par le manufacturier, cet intervalle aléatoire prend
les valeurs
  15 
65  2,064   65  6,19  58,81;71,19.
  25 
Ce manufacturier a seulement 5% des chances de se tromper en affirmant que le temps moyen
de séchage de sa nouvelle peinture se situe dans l’intervalle [58,81 minutes, 71,19 minutes].

Détermination de la taille de l’échantillon en fonction de la précision désirée


On veut déterminer la taille n de la population en vue d’obtenir un niveau de précision désirée.
Le problème d’obtenir un niveau donné de précision peut s’énoncer de la façon suivante : quelle
est la taille n de l’échantillon qui permettrait d’affirmer qu’en utilisant l’estimateur ponctuel T
pour , l’erreur commise au niveau (1 – ) serait moindre que e ? Dans l’intervalle de confiance
donné par l’équation [6.3], l’erreur maximale commise au niveau (1 – ) en utilisant
l’estimateur X pour µ est définie par

e  z / 2
n
Si l’on fixe le niveau maximum d’erreur que l’on est prêt à accepter, on peut en déduire la taille
n comme suit :

Pr Joseph TSHIMPANGA B.
111

2
z 2.  z 2 . 
n d’où n 
e  e 
En conséquence, si n  (z/2 . )2/e2, l’erreur commise en utilisant X comme estimateur de µ ne
sera pas plus grande que e.

Exemple. – Reprenons l’exemple du manufacturier de peinture sur le temps de séchage de la


nouvelle peinture. Supposons que le manufacturier connaisse l’écart type de ce temps de
séchage,  = 10 minutes. Quelle taille n d’échantillon devra-t-il choisir s’il veut être certain au
niveau de confiance 95% que son erreur, en utilisant X comme estimateur de µ, ne dépassera
pas 1 minute ?

Solution. On a z/2 = 1,96,  = 10 et e = 1, d’où


z  2 . 1,96 x10
n   19 ,6 et n = (19,6)2 = 384,16.
e 1

Une taille d’échantillon n = 384 permet au manufacturier d’obtenir la précision désirée.

8.1.2. Test d’hypothèses sur moyenne µ

Il s’agit de ce que l’on appelle de conformité d’une moyenne à une norme. Selon la
nature des hypothèses en présence, on construit les tests suivants :
Test 1 : H0 : µ = µ0 contre H1 : µ < µ0
Test 2 : H0 : µ = µ0 contre H1 : µ > µ0
Test 3 : H0 : µ = µ0 contre H1 : µ  µ0

Les deux premiers tests sont unilatéraux et le dernier est bilatéral.

Dans la construction d’un test sur la moyenne µ d’une population, on distingue le cas
où la variance de la population est connue et celui où cette variance est inconnue. Nous en
résumons ci-dessous les principales étapes.

1. La variance 2 est connue

Test sur une moyenne µ d’une population de variance 2 connue au niveau , lorsque cette
population est distribuée normalement, ou encore lorsque la taille n de l’échantillon est assez
grande (n  30).

 Hypothèse nulle : H0 : µ = µ0
 
Statistique : X   0   n  de distribution normale centrée réduite (z)
 Hypothèse alternative Rejet de H0 si
H1 : µ < µ0 z0 < -z
H1 : µ > µ0 z0 > z
H1 : µ  µ0 z0 < -z2 ou  z0 > z2

Pr Joseph Tshimpanga B.
112

X 0  0
Où z0  , X0 est la valeur observée pour X et z et z/2 sont des valeurs de la loi normale
 n
centrée réduite.

2. La variance 2 est inconnue, population quelconque, n  30

Pour construire un test sur µ lorsque la variance 2 de la population est inconnue, on ne


peut plus utiliser la statistique X   0    n . Dans ce cas-là, on fait appel plutôt à la
statistique
X  0
t
S n
où S désigne l’écart type de l’échantillon. Quelle que soit la distribution de la population, si la
taille n de l’échantillon est assez grande (n  30), cette statistique t suit approximativement une
distribution normale centrée réduite. Dans ces conditions, pour construire un test sur la
moyenne µ, il suffit de remplacer 2 dans les tests 1, 2 et 3 construits précédemment par la
valeur S2. Ainsi dans le test 1, lorsque 2 est inconnue, le seul changement se situe au niveau
de la valeur calculée qui s’exprime maintenant comme

X 0  0
z0  où S est la valeur observée pour l’écart type de l’échantillon.
S n

3. La variance 2 inconnue, population normale, n < 30

Test sur une moyenne µ d’une population normale de variance 2 inconnue lorsque la taille n
de l’échantillon est petite (n < 30), au niveau .

 Hypothèse nulle : H0 : µ = µ0
 
Statistique : X   0  S n  de distribution du t de Student à (n – 1) degrés de liberté.
 Hypothèse alternative Rejet de H0 si
H1 : µ < µ0 t0 < -t
H1 : µ > µ0 t0 > t
H1 : µ  µ0 t0 < -t2 ou  t0 > t2

X 0  0
Où t0  , X 0 et S sont les valeurs observées pour X et l’écart type d’échantillon, t et
S n
t/2 sont des valeurs de la distribution du t à (n – 1) degrés de liberté.

8.2. Tests sur une différence (µ1 - µ2)

Assez souvent, en pratique, on veut comparer deux populations, et pour ce faire, on veut
construire un test sur des paramètres de même nature de chacune de ces deux populations. Ici,
on est ainsi amené à construire des tests pour une différence de moyennes (µ1 - µ2). Dans ces
Pr Joseph TSHIMPANGA B.
113

analyses on suppose que les distributions de population suivent la loi normale et que les
échantillons ont été tirés aléatoirement de populations.

Selon la nature des hypothèses en présence, on construit les tests suivants :

Test 1 : H0 : µ1 = µ2 contre H1 : µ1 < µ2


Test 2 : H0 : µ1 = µ2 contre H1 : µ1 > µ2
Test 3 : H0 : µ1 = µ2 contre H1 : µ1  µ2

Les deux premiers tests sont unilatéraux et le dernier est bilatéral.

Dans la construction d’un test sur la moyenne µ d’une population, on distingue deux grandes
catégories de situation. L’on retient la situation de deux échantillons indépendants et celle des
échantillons appareillés. Concernant les échantillons indépendants, on a le cas où les variances
de la population sont connues et celui où ces variances sont inconnues. Nous en résumons ci-
dessous les principales étapes. Pour construire un test sur  = (µ1 - µ2), on est naturellement
porté à utiliser la différence des moyennes échantillonnales X 1  X 2 .  
8.2.1. Echantillons indépendants

Dans le cas des échantillons indépendants, on a affaire à deux populations distinctes de


moyenne µ1 et µ2 et des variances 12 et 22 respectivement. En outre, les échantillons sont tirés
indépendamment de ces deux populations : un échantillon de taille n1 dans la première
population, et un échantillon de taille n2 dans la seconde population. Les distributions de ces
populations doivent suivre la loi normale.

1. Les deux variances 12 et 22 sont connues

Nous avons ici le test sur la différence (µ1 - µ2) des moyennes de deux populations de variances
12 et 22 connues au niveau . Ces populations peuvent se distribuer normalement, ou sont
quelconques mais n1  30 et n2  30.

 Hypothèse nulle : H0 : µ1 = µ2

 Statistique :
X 1 
 X 2  1   2 
qui suit une distribution normale centrée réduite (z)
 12  22

n1 n2

 Hypothèse alternative Rejet de H0 si


H1 : µ1 < µ2 z0 < -z
H1 : µ1 > µ2 z0 > z
H1 : µ1  µ2 z0 < -z2 ou  z0 > z2

Pr Joseph Tshimpanga B.
114

Où z0 
X 1  X 2   1  2  , X 
 12

 22
(erreur type de la différence entre
X 1 X 2 n1 n2
1X 2

 
moyennes), X 1  X 2 = la différence observée des moyennes échantillonnales, et z et z/2 sont
des valeurs de la loi normale centrée réduite.

Exemple. – Des échantillons aléatoires simples indépendants de n1 = 30 individus du centre de


formation A et n2 = 40 individus du centre de formation B, sont sélectionnés. Les moyennes
d’échantillons respectivement égales à 82 et 78. Les écarts types des populations sont connus
et sont 1=10 et 2=10. Ces données suggèrent-elles l’existence d’un écart significatif entre les
notes moyennes des populations des deux centres de formation ?

Solution.- Pour répondre à cette question, nous calculons la statistique de test en utilisant
l’expression ci-haut.

zo 
X 1 
 X 2  1   2 

(82  78)  0
 1,66
 12  22 10 2 10 2
 
n1 n2 30 40
Calculons à présent la valeur p associée à ce test bilatéral. Puisque la statistique de test z est
située dans la queue supérieure, nous calculons l’aire sous la courbe à droite de z = 1,66. D’après
la table des probabilités normales centrées réduites, l’aire à gauche de z=1,66 est égale à 0,9515.
L’aire dans la queue supérieure de la distribution est égale à 1– 0,9515 = 0,0485. Puisque ce
test est bilatéral, nous devons doubler l’aire dans les queues : la valeur p est égale à 2(0,0485)
= 0,0970. Selon la règle de rejet usuelle qui consiste à rejeter H0 si la valeur p ≤ , la valeur p
associée à ce test égale 0,0970 ne permet pas de rejeter H0 au seuil de 0,05. Les résultats de
l’échantillon ne fournissent pas de preuve suffisante pour conclure à une différence qualitative
entre les deux centres de formation.

2. Les deux variances 12 et 22 sont inconnues

La plupart du temps, lorsque les moyennes de deux populations sont inconnues, leurs variances
12 et 22 sont aussi inconnues. Le test indiqué dans cette situation est le test t de Student. On
distingue deux modèles de test t de Student : le modèle à variances réunies et le modèle à
variances séparées. Le choix de l’un ou l’autre de ces modèles est fonction de l’homogénéité
des variances et de la taille des échantillons. Lorsque les variances sont égales, on utilise le
modèle à variances réunies ; dans le cas contraire, on fait appel au modèle à variances séparées.
Lorsque les tailles sont identiques, les deux modèles donnent lieu à un même résultat.

Ainsi, dans toute comparaison de deux moyennes, dans le cas où les variances de populations
sont inconnues, il faut commencer d’abord par le test d’homogénéité des variances pour
procéder ensuite au modèle de t de Student approprié.

Pr Joseph TSHIMPANGA B.
115

1.1.Test de comparaison de deux variances pour échantillons indépendants

Ce test est connu sous le nom du test d’homogénéité de deux variances. La comparaison de
deux variances appartenant à deux échantillons indépendants se réalise par l’intermédiaire du
test F de SNEDECOR. On rencontre ce genre de problèmes lorsqu’on veut voir si deux groupes
ont la même dispersion ou bien lorsqu’on compare la variance dans un groupe expérimental et
dans un groupe témoin. L’hypothèse nulle est que les deux variances ne sont différentes que
par les fluctuations dues au hasard de l’échantillonnage ; tandis que l’hypothèse reconnaît
l’existence de la différence. Ce test est bilatéral. Autrement dit, on a :

H0 : 12 =  22 contre H1 : 12   22

2
Pour tester l’hypothèse H0, on cherche le rapport entre les deux estimations non biaisées S1 et
S 22 de deux variances inconnues 12 et  22 . Cette technique exige qu’on place toujours la plus
2
grande de deux estimations au numérateur. Ainsi, si S1 > S 22 , le rapport F sera :

 ( X1  X ) 2
S12 n1  1
Fobs  
S 22 (X 2  X ) 2

n2  1
Pour conclure, il faut comparer Fobs au F lu dans la table de F de SNEDECOR-FISHER avec
deux nombres de degrés de liberté. On place en colonne le nombre de degrés de liberté du
numérateur (n1 – 1) et en ligne le nombre de degrés de liberté du dénominateur (n2 – 1).

On rejette H0 si la valeur observée est supérieure à celle de la table des F, on conclut que les
variances diffèrent significativement. Rappelons que le test d’homogénéité de variances est un
test à deux issues alors que la table utilisée est indiquée pour un test unilatéral. Aussi faut-il
faire attention dans la lecture des valeurs critiques. Si l’on dispose d’une table avec deux seuils
(5% et 1%), on conseille de doubler les seuils de signification de la table : ainsi  = 5%
correspond au seuil de 10% et 1% à 2%. Partant, pour trouver les valeurs théoriques aux niveaux
de 5% et de 1% pour une hypothèse alternative bilatérale, il faut passer par interpolation si la
table ne contient pas des valeurs aux seuils de 2,5% et de 0,5% unilatéraux. Cette remarque ne
s’applique pas dans les principaux usages du rapport F comme l’analyse de variance. A l’issue
de ce test, on peut choisir judicieusement le modèle qu’il faut.

Exemple. – On cherche à voir si les variances de deux populations indépendantes d’où l’on a
tiré deux échantillons sont identiques. On dispose pour le premier échantillon la somme des
carrés des écarts égale à 30 et pour le deuxième échantillon, la somme des carrés des écarts
égale à 36. Les deux échantillons comptent un même nombre d’individus, soit n1 = n2 = 10.
Existe-t-il une différence significative entre les deux variabilités ?

Solution. – H0 : 12 =  22 contre H1 : 12   22

Pr Joseph Tshimpanga B.
116

Pour tester l’hypothèse H0, on cherche le rapport entre les deux estimations non biaisées
2 2
S 1 = S2de deux variances inconnues 12 et  22 .
( X1  X )2 36
S12 n1  1 4
Fobs    10  1   1,20
S22  ( X 2  X )2 30 3,33
n2  1 10  1

En consultant la table des F, on trouve le long de la ligne du haut, la colonne qui correspond
aux degrés de liberté de la plus grande variance, soit 10 – 1 = 9 ; et le long de la colonne de
gauche, la ligne qui correspond aux degrés de liberté de la plus petite des deux variances, soit
10 – 1 = 9. A l’intersection de ces deux coordonnées, on peut lire la valeur de 3,18 au seuil de
10%. La valeur observée de 1,20 est de loin inférieure à la valeur critique de 3,10. On peut
affirmer que les deux variances sont égales.

1.2. Modèles du t de Student

a) Modèle à variances réunies

2 2 2 2
Dans la situation où les deux variances 1 et 2 inconnues sont égales ( 1 = 2 ), on vérifie
l’hypothèse nulle de comparaison de deux moyennes pour échantillons indépendants en suivant
les démarches suivantes.

 Hypothèse nulle : H0 : µ1 = µ2

 Statistique :
X 1  X 2   1  2  qui suit une distribution du t à (n1 + n2 – 2) degrés
de liberté.
1 1  n  1 S12  n2  1 S22 
   1
n 
 1 n2  n1  n2  2 

 Hypothèse alternative Rejet de H0 si
H1 : µ1 < µ2 t0 < -t
H1 : µ1 > µ2 t0 > t
H1 : µ1  µ2 t0 < -t2 ou  t0 > t2

Où t0 
X 1  X 2   1  2  , où S 1
 S DM   
1  n1  1S12  n2  1S 22

SX X X1 X 2 
1 2  n1 n2  n1  n2  2

(erreur type de la différence entre moyennes), X1  X 2  = la différence observée des moyennes
échantillonnales, et t et t/2 sont des valeurs de la distribution du t de Student à (n1 + n2 – 2) degrés de liberté.

b) Modèle de t de Student à variances séparées

Lorsqu’on dispose de deux populations de variances 12 et 22 inconnues mais inégales avec n1
et n2 petits, on peut voir si les deux tailles sont identiques (n1 = n2) ou non (n1  n2). Si les
deux tailles sont différentes, on fait appel à la formule ci-après de t de Student pour variances
séparées :

Pr Joseph TSHIMPANGA B.
117

t0 
X 1  X 2   1  2 
S12 S 22

n1 n2
Pour prendre la décision dans cette dernière situation, on doit comparer la valeur observée t0 par t et t/2 qui
sont des valeurs de la distribution du t de STUDENT dont le nombre de degrés de liberté est donné
approximativement par la relation suivante établie par B.L. WELCH (P. DAGNELIE, 1984, p. 28) :
2
 S12 S22 
  
 n1 n2 
dl  k 
2 2
1  S12  1  S 22 

n1  1  n1  n2  1  n2 
Ce nombre de degrés de liberté est toujours compris entre la plus petite des deux valeurs n1 – 1, n2 – 1, et leur
somme n1 + n2 – 2. On peut aussi comparer la valeur observée t0 par t’ (valeur critique) obtenu à partir de
l’expression de COCHRAN et COX (1950) :
 S2   S2 
t1 1   t 2  2 
 n1   n2 
t '   2  
S1 S 22

n1 n2
où t1 et t2 sont des valeurs lues dans la table de t de Student à partir d’un seuil de signification
donné et avec comme nombre de degrés de liberté respectivement n1 - 1 et n2 – 1 pour le
premier et pour le deuxième échantillons.

2 2
Lorsque les deux variances 1 et 2 sont inconnues et inégales avec n1 et n2 grands, pour
tester une différence des moyennes, on utilise pratiquement la même statistique t.

t0 
X 1 
 X 2  1   2 
2
S S2
1
 2
n1 n2

Comme les tailles n1 et n2 des échantillons sont suffisamment grandes (n1 30 et n2 30), il est
possible de prouver que cette statistique t suit approximativement une distribution normale z.

Exemple (1). – Considérons les données résumées ci-dessous qui représentent les frais de
formation dans deux universités. Peut-on dire qu’il existe de différence des frais dans les deux
universités ?
Université A Université B
Taille de l’échantillon ni 28 22
Moyenne de l’échantillon 1025 910
Ecart type de l’échantillon S1= 150 S2=125

Exemple (2). – Considérons un nouveau logiciel développé dans le but de réduire le temps
nécessaire aux analyses pour créer un système d’information. Pour évaluer les avantages du
nouveau logiciel, un échantillon aléatoire de 24 analystes a été sélectionné. Chaque analyste
reçoit des renseignements sur les caractéristiques d’un hypothétique système d’information, et
Pr Joseph Tshimpanga B.
118

parmi les analystes, 12 sont formés pour créer le système d’information en utilisant la
technologie existante. Les 12 autres analystes apprennent à se servir du nouveau logiciel et
l’utilisent ensuite pour développer le système d’information. Le chercheur chargé du projet
d’évaluation du nouveau logiciel espère montrer que ce dernier nécessite en moyenne moins de
temps pour réaliser le projet. Voici les données.

Tableau 8.1a. – Données sur les temps de réalisations


Technologie actuelle Nouveau logiciel
300 274
280 220
344 308
385 336
372 198
360 300
288 315
321 258
376 318
290 310
301 332
283 263
Taille de l’échantillon n1=12 n2=12
Moyenne de l’échantillon 325 heures 286 heures
Ecart type de l’échantillon s1=40 s2=44

Dans la solution, il faut commencer par tester l’homogénéité des variances pour ainsi choisir le
modèle de t apprprié.

8.2.2. Les échantillons dépendants


Dagnelie (1984, p. 36) appelle ce test test t par paires ou par couples. C’est un cas important
de comparaison de moyennes relatif aux échantillons dont les individus sont associés par paires
ou par couples. Ce cas se présente par exemple quand on compare deux méthodes de mesure
en soumettant à ces deux méthodes les mêmes individus, choisis dans une population donnée :
à chacune des méthodes correspond alors une population de mesures, mais ces populations, et
les échantillons que l’on peut en extraire, ne sont pas indépendants.

Pour construire un test pour (µ1 - µ2) à partir d’échantillons dépendants, on utilise l’observation
par couples ou par paires (comme déjà vu ci-haut dans l’intervalle de confiance de différence
entre moyennes pour observations couplées). Soit (X1, …, Xn) le premier échantillon et (Y1, …,
Yn) le deuxième échantillon tirés de la population considérée (ou des deux populations
considérées). Pour chaque paire (Xi,Yi) de variables de ces deux échantillons, on définit la
différence :
D = (Xi – Yi), i = 1, …, n
On fait l’hypothèse que, dans la population, la différence D = X – Y suit une distribution
2
normale de moyenne µD inconnue et de variance D inconnue. Pour construire un test sur
µD = (µX - µY) ou sur µD = (µ1 - µ2), voici la démarche :

 Hypothèse nulle : H0 : µD = (µX - µY)


Pr Joseph TSHIMPANGA B.
119

  
Statistique utilisée : D   D S D qui suit une distribution du t de STUDENT à (n – 1) degrés
de liberté.

 Hypothèse alternative Rejet de H0 si


H1 : µX < µY t0 < -t
H1 : µX > µY t0 > t
H1 : µX  µY t0 < -t2 ou  t0 > t2
D 0   X  Y  D 0   X  Y  n
Où t0   , D   Di n et S sont respectivement la
n 2 D
 n
 Di  D 
2  i 1
 Di 
i 1 n   
nn  1  Di2   i 1 
i 1
n
nn  1
moyenne des différences et l’erreur type de la différence, t et t/2 sont des valeurs de la
distribution du t à (n – 1) degrés de liberté. On peut aussi la formule suivante si l’on dispose
pour les deux distributions dépendantes les moyennes ( X 1 et X 2 ), les écarts types ( S1 et S 2 )
ainsi que leur corrélation rx1x 2 :

t0 
X 1  X 2   1  2 
S12  S22  2rx1x2 S1S2
n
Exemple. – Un échantillon aléatoire simple de travailleurs est sélectionné. Chaque travailleur
utilise d’abord une méthode, puis l’autre. L’ordre d’utilisation des deux méthodes est assigné
de façon aléatoire à chaque travailleur, certains travailleurs utilisant en premier la méthode 1,
d’autres utilisant en premier la méthode 2. Les données fournies par chaque travailleur sont
formées de deux valeurs numériques, une valeur pour la méthode 1 et une autre valeur pour la
méthode 2. Il s’agit des temps de réalisation.

Tableau 8.1b. – Temps de réalisation d’une tâche pour un échantillon apparié


Temps de réalisation Ecart entre les temps
Travailleur
par la méthode 1 par la méthode 2 de réalisations (Di)
1 6,0 5,4 0,6
2 5,0 5,2 -0,2
3 7,0 6,5 0,5
4 6,2 5,9 0,3
5 6,0 6,0 0,0
6 6,4 5,8 0,6
 Di=1,8
D 0   X   Y  0,30
t0    2,20
n 0,335
 D 2
i D 6
i 1

nn  1
Avec 5 comme nombre de degrés de liberté, au seuil de 5% bilatéral, la table donne une valeur
de 2,571 qui est supérieure à la valeur calculée de 2,20. On accepte l’hypothèse nulle. Il n’y a

Pr Joseph Tshimpanga B.
120

pas de différence significative entre les deux méthodes quant au temps de la réalisation de la
tâche en question.

Pr Joseph TSHIMPANGA B.
CHAPITRE 9 : ETUDE SUR LES EFFECTIFS ET LES PROPORTIONS

Il existe plusieurs méthodes à utiliser dans la comparaison des données nominales. Ces
méthodes peuvent être rassemblées en deux grandes catégories. On distingue des tests destinés
à un échantillon et des techniques indiquées pour plusieurs échantillons.

9.1.0. TESTS SUR LES EFFECTIFS

Parmi ces tests, on retient quelques techniques d’ajustement qui permettent à comparer à tout
point de vue une distribution observée et une distribution théorique donnée (Chapitre III). On
envisage successivement deux tests. L’un, tout à fait classique, est dû à K. PEARSON et basé
sur les distributions chi deux (2). On donnera ici d’autres techniques similaires au 2 à utiliser
lorsque certains postulats ne sont pas observés : le test binomial et le test de rapport de
vraisemblance. Le deuxième test, plus récent, est dû essentiellement à KOLMOGOROV et
SMIRNOV (K-S).

Ces deux tests permettent entre autre de contrôler la normalité d’une distribution, mais il existe
cependant d’autres méthodes qui poursuivent le même but. Ce sont des diagrammes probit
représentés par des droites connues sous le nom de droites de HENRI, et les tests de symétrie
et d’aplatissement.

9.1.1. Tests destinés à un échantillon (test du chi deux)

a. Généralités
S’il y a un outil statistique qui est utilisé très fréquemment, et même parfois d’une façon
abusive, c’est bien le test du 2. Dans tous les cas, sur la base d’une certaine hypothèse que l’on
veut vérifier, on compare les effectifs observés (fréquences obtenues par échantillonnage
relativement à une ou plusieurs variables) [fo] qui ont été classifiés selon certaines catégories,
avec les effectifs théoriques (fréquences théoriques) espérées selon l’hypothèse en question [ft].
Dans le cadre de cette comparaison, on est amené à définir une statistique qui suit une
distribution 2 avec un nombre déterminé de degrés de liberté. Le test du 2 est utilisé
principalement comme test d’ajustement, comme test d’indépendance de deux variables et
comme test de comparaison de plusieurs proportions. Dans ce paragraphe, on s’intéresse au test
de 2 comme test d’ajustement

L’une des difficultés majeures que l’on rencontre lorsqu’on veut utiliser une méthode statistique
consiste à satisfaire les conditions ou hypothèses de base exigées pour que cette méthode puisse
être appliquée. Ainsi, en inférence paramétrique classique, on suppose que l’on connaît la nature
de la distribution de la population (et que seuls ses paramètres sont inconnus). Par exemple, au
chapitre 6, on a supposé avoir affaire à une population normale. La question qui se pose à
présent est celle de savoir dans quelle mesure une telle hypothèse sur la nature de la population
est vérifiée, et dans quelle mesure on peut accepter qu’il existe un écart entre cette hypothèse
et la situation réelle. On tire un échantillon aléatoire de la population, et l’on se demande alors
si l’on peut accepter ou non que l’échantillon obtenu provienne d’une population avec telle
distribution spécifiée. Le test du 2 permet de vérifier s’il y a une différence significative entre
122

les effectifs observés expérimentalement et les effectifs théoriques que l’on aurait obtenus si la
distribution de la population était bien la distribution spécifiée ; autrement dit, ce test permet
de vérifier la qualité de l’ajustement (« goodness of fit ») d’une distribution théorique
particulière à une distribution expérimentale.

Les étapes utilisées pour construire un test d’hypothèses paramétriques sont encore valables
pour construire un test non paramétrique : seule la nature des hypothèses va être différente.
Dans le cas d’un test d’ajustement, on veut vérifier si la distribution de la variable étudiée dans
une population correspond ou no à telle distribution spécifiée. A cette fin, on tire un échantillon
aléatoire de taille n dans la population, et on procède aux étapes suivantes :

(1) Les hypothèses :


H0 : la distribution de la population est la distribution f(x ; ),  pouvant être connu ou
inconnu (et  pouvant être un vecteur) ; fo = ft
H1 : la distribution de la population n’est pas la distribution spécifiée f(x ; ); fo  ft

(2) La formule
La formule générale du calcul d’un khi-deux indiquée dans le cas d’un échantillon se
présente de la manière ci-après :
k
2  foi  fti 2
 obs   fti
i 1

Cette quantité est à comparer à une valeur critique de la distribution échantillonnée de 2 lue
dans la table de khi-deux en fonction d’un nombre de degrés de liberté (dl) et d’un niveau de
signification.

Le grand problème du test 2 d’ajustement est la détermination des effectifs théoriques et du


nombre de degrés de liberté qui varient d’une situation à l’autre. Trois cas typiques sont à
distinguer : cas où la distribution théorique est connue, celui où elle est basée sur l’équipartition
des effectifs et celui où elle découle de la conformité à une fonction mathématique quelconque.

b. Application de la technique du 2 en fonction de situations types

(1) Le test 2 d’ajustement dans le cas d’une distribution théorique connue

Pour comparer la distribution théorique et la distribution observée, la première idée qui vient à
l’esprit est évidemment de mettre en parallèle les probabilités pi et les effectifs relatifs
correspondants fti. Mais en pratique, on est amené à confronter plutôt les effectifs observés foi
et les effectifs attendus ou théoriques fti correspondants npi. On démontre en effet que la
quantité :
k
2  foi  npi 2
 obs   npi
i 1

est une bonne mesure de l’écart entre les valeurs observées et théoriques.

Pr Joseph TSHIMPANGA B.
123

2
Lorsque l’hypothèse nulle est vraie, cette quantité obs peut être considérée comme une valeur
observée d’une variable aléatoire ayant approximativement une distribution 2 à k-1 degrés de
liberté. Cette propriété résulte notamment du fait que chacun des k effectifs observés foi peut
être considéré comme une valeur d’une variable binomiale, donc asymptotiquement normale et
de moyenne npi. Ces k variables sont liées par une relation linéaire :
k k
 foi   npi  n
i 1 i 1
2
La valeur obs est nulle lorsque les effectifs observés sont tous égaux aux effectifs attendus, c’est-à-dire lorsqu’il
y a concordance absolue entre la distribution observée et la distribution théorique. D’autre part ; cette valeur est
d’autant plus grande que les écarts entre les effectifs observés et attendus sont plus grands. On rejettera donc
l’hypothèse nulle lorsque la valeur observée est trop grande, c’est-à-dire lorsque :
2
obs  2
le test étant toujours unilatéral. Ce test est connu sous le nom de test 2 d’ajustement avec
nombre de degrés de liberté égale à (k – 1), k = nombre de lignes ou de colonnes dans le tableau
2
des données. La quantité obs peut être calculée plus facilement en pratique à l’aide de la
relation :
k
2 foi2
 obs   npi
n
i 1

en prenant soin de conserver un nombre suffisant de chiffres significatifs. Cette relation résulte
de ce que :
k k k k k
 foi  npi 2 foi2 foi npi n 2 pi2 foi2
 npi
  npi
2  npi
  npi
  npi
n
i 1 i 1 i 1 i 1 i 1

puisque :
k k
foi npi n 2 pi2
 npi
 
npi
n
i 1 i 1

Exemple. – Dans une ville donnée, les statistiques montrent que 46% des filles et 54% des
garçons constituent la population scolaire. Une école de la ville reçoit 85 filles et 115 garçons.
Peut-on dire que cette école accueille significativement plus de garçons que de filles ?

Solution. – Si l’hypothèse H0 est entièrement réalisée, la proportion d’individus attendue dans


chaque ligne de l’échantillon devrait être la même que celle rencontrée dans la population.
Ainsi, en ce qui concerne les filles, on aurait 200 x 0,46 = 92 comme effectif attendu ; pour les
garçons : 200 x 0,54 = 108 comme effectif théorique.

Tableau 9.1.- Calcul de 2 pour éprouver l’hypothèse de la distribution théorique connue


Sexe foi fti foi – fti (foi – fti)2 (foi – fti)2/fti
Filles 85 92 -7 49 0,532
Garçons 115 108 +7 49 0,543
2
Total 200 200 0 obs  0,985

Pr Joseph Tshimpanga B.
124

Avec dl = 2 – 1 = 1, la table exige une valeur de 3,841 au seuil de 5% pour rejeter H0. La valeur
observée est inférieure, donc on accepte l’hypothèse H0 : les effectifs observés dans cette école
ne diffère pas significativement de la distribution connue dans la population scolaire de la ville
en question.

(2) Le test 2 dans le cas d’une distribution théorique basée sur l’hypothèse de l’équipartition

Dans ce cas, on détermine les effectifs théoriques sur la base de la répartition égale des effectifs
dans les lignes ou les colonnes. Il s’agit de la distribution uniforme (modèle a priori). On se
pose la question de savoir si la distribution observée diffère significativement d’une distribution
uniforme dans les différentes lignes ou colonnes. Dans cette situation, l’hypothèse H0 est que
l’échantillon est tiré d’une population où les données sont réparties uniformément dans les
différentes lignes ou colonnes de la répartition.

Pour avoir l’effectif théorique dans une ligne, il suffit de diviser l’effectif total (n) par le nombre
de lignes (ou de colonnes) k et considérer le quotient ainsi obtenu comme effectif théorique de
chaque ligne.
n
fti 
k
La détermination du nombre de degrés de liberté se calcule : dl = k – 1.

Exemple. – On voudrait savoir quel jour faut-il organiser une rencontre sportive ; le choix est à
faire entre samedi soir ou dimanche avant-midi. On demande la préférence de 100 étudiants
tirés au hasard de l’ensemble de tous les étudiants de la faculté. Après dépouillement, on a
observé que 60 étudiants sont pour samedi soir. Peut-on conclure que l’opinion des étudiants
est tranchée ?

Si l’hypothèse H0 est entièrement réalisée ; c’est-à-dire si les réponses des sujets étaient au
hasard, on aurait pour chaque opinion le même nombre d’individus : soit fti = 100/2 = 50.

Tableau 9.2. – Calcul de 2 pour éprouver l’hypothèse de la distribution uniforme


Sexe foi fti foi – fti (foi – fti)2 (foi – fti)2/fti
Samedi 60 50 +10 100 2
Dimanche 40 50 - 10 100 2
2
Total 100 100 0 obs =4

Avec dl = 2 – 1 = 1, la table exige une valeur de 3,841 au seuil de 5% pour rejeter H0. La valeur
observée est supérieure, donc on rejette l’hypothèse H0 : l’opinion des étudiants est tranchée de
manière significative. La manifestation sportive devrait se faire le samedi soir.

(3) Le test 2 d’ajustement dans le cas d’une distribution théorique découlant de l’hypothèse de
conformité à une fonction mathématique quelconque

Pr Joseph TSHIMPANGA B.
125

C’est l’épreuve de la qualité de l’ajustement d’une courbe théorique à une courbe empirique
(test of goodness of fit). On compare une distribution observée dans un échantillon à une
distribution déterminée par un modèle mathématique, par exemple la distribution normale.

L’hypothèse H0 est que l’échantillon est tiré d’une population dont la distribution suit une loi
donnée des probabilités. Pour déterminer la distribution théorique, il faut commencer par
estimer le ou les paramètres qui caractérisent cette distribution. On peut ensuite calculer les
2
probabilités estimées p̂i , les effectifs attendus correspondants npˆ i , et la valeur obs :
k k
2  foi  npˆ i 2 ou foi2
 obs   npˆ i  npˆ i
n
i 1 i 1

9.1.2. Test 2 de l’indépendance

(1) Introduction
Les tests d’indépendance ont pour but de contrôler l’indépendance stochastique de deux ou
plusieurs critères de classification. Ils peuvent être considérés comme un cas particulier des
tests d’ajustement. Ces tests d’indépendance permettent également d’effectuer de comparaisons
de pourcentages ou de proportions. Dans tous les cas, on suppose que les échantillons
considérés sont aléatoires et simples, et évidemment indépendants, et qu’ils ont été extraits de
populations infinies ou pratiquement infinies.

(2) Généralités
Contrairement aux tests d’ajustement les plus courants, les tests d’indépendance concernent
toujours une population subdivisée en lk catégories (classes, cases ou cellules), en fonction de
deux critères de classification. La distribution de probabilité correspondante est alors une
distribution à deux dimensions, et les données relatives à tout échantillon extrait de cette
population peuvent être présentées sous la forme d’une distribution des effectifs à deux
dimensions ou tableau de contingence.

On appelle ainsi un tableau rectangulaire dans lequel, après avoir choisi au hasard N unités dans
une population, on classifie ces unités en l classes A1, A2, …, Al selon une première variable X,
et en k classes B1, B2, …, Bk selon une seconde variable Y, le nombre nij d’unités appartenant à
la fois à la classe Ai et à la classe Bj étant enregistré dans la case correspondante. Si les diverses
lignes du tableau correspondent aux classes A1, …, Al, et les diverses colonnes aux classes B1,
…, Bk, un tableau de contingence de dimensions l sur k prend la forme du tableau 10.6.

Dans le tableau de contingence 9.6, on a ajouté les totaux des lignes et des colonnes qu’on
appelle totaux marginaux. On va noter par ni. le nombre total d’unités appartenant à la classe
Ai, et par n.j le nombre total d’unités appartenant à la classe Bj.

(a) Hypothèses

Les hypothèses du test d’indépendance peuvent être exprimées comme suit :

Pr Joseph Tshimpanga B.
126

H0 : les variables X et Y sont indépendantes


H1 : les variables X et Y sont dépendantes.

Tableau 9.6. – Forme générale d’un tableau de contingence


Y Total
X B1 B2 … Bj … Bk
A1 fo11 fo12 … fo1j … fo1k n1.
A2 fo21 fo22 … fo2j … fo2k n2.
. . . . . . . .
. . . . . . . .
. . . . . . .
.
Ai foi1 foi2 … foij … foik ni.
. . . . . . . .
. . . . . . . .
. . . . . . .
.
Al fol1 fol2 … folj … folk nl .
Total n.1 n.2 … n.j … n.k n

Pour éprouver H0, on va utiliser les effectifs foij donnés dans le tableau de contingence et l’on
va comparer ces effectifs observés foij avec les effectifs théoriques espérés lorsque l’hypothèse
H0 est vraie. L’hypothèse H0 peut s’écrire en termes de probabilités. Pour une unité de
l’échantillon de taille N tiré de la population, notons par pij la probabilité jointe que cette unité
appartienne à la fois à la classe Ai (selon la variable X) et à la classe Bj (selon la variable Y),
par pi. la probabilité qu’elle appartienne à la classe Ai, et par p.j la probabilité qu’elle
appartienne à la classe Bj. Si H0 est vraie, on devrait avoir pij =(pi.)(p.j) pour tout i = 1, …, l et
pour tout j = 1, …, k. Ainsi, les hypothèses du test d’indépendance peuvent être reformulées
comme suit :
H 0  p ij  ( pi .)( p . j ) , pour tout i et pour j,

H1  pij  ( pi .)( p. j ) , pour au moins un couple (i,j).


Pour obtenir les effectifs théoriques espérés selon l’hypothèse H0, que l’on va noter ftij, on utilise
les probabilités pi. et p.j. Comme on ne connaît ni pi. ni p.j, on les estime :
pi. est estimé par ni./n et p.j, est estimé par n.j/n. On a donc
 n .   n. j 
ft ij  n i   .

 n  n 
Par la suite, pour tester l’indépendance entre X et Y, on utilise la statistique

2
l k  fo ij  ft ij 
2

 obs  
i 1 j 1 ft ij
Si l’on a vraiment un échantillon aléatoire indépendant, si le nombre total n d’observations est
suffisamment grand et si les effectifs attendus ftij sont suffisamment grands (en pratique, on
exige n  30, ftij  5), alors la statistique définie par la formule ci-haut suit une distribution 2
à (l – 1) (k – 1) degrés de liberté.

Pr Joseph TSHIMPANGA B.
127

(b) Réalisation du test de l’indépendance dans le cas général

Dans le cas général, le test d’indépendance se réalise comme un test d’ajustement, en calculant
2
la quantité  obs à l’aide de la formule donnée ci-dessus, ou à l’aide de la relation équivalente :

2
l k foij2  l k fo ij2 
  obs 
ft ij
 n ou   n  2
obs   1
n i .n j  
i 1 j 1  i 1 j 1

L’hypothèse d’indépendance doit être rejetée lorsque :


2
obs  12 ,

avec (l – 1)(k – 1) degrés de liberté, l’échantillon étant supposé aléatoire et simple et les effectifs
attendus devant en principe être tous au moins égaux à 5. Au paragraphe 7.2.2, nous donnons
quelques tests similaires au test de 2 non sensibles aux petits effectifs théoriques.

(3) Réalisation du test d’indépendance dans quelques cas particuliers

a. Tableau de contingence du type 2 x k catégories


Lorsqu’on dispose de deux lignes et k colonnes, les différents calculs de la formule générale
peuvent se simplifier pour arriver aux deux variantes ci-après. Ces variantes sont intéressantes
dans la mesure où elles ne nécessitent pas la connaissance préalable des effectifs théoriques.
2
 fo fo 
( n1 .)( n 2 .)  1k  2 k 
2
k
 n1 . n2 .  n2  k fo 22k n 22 . 
 obs  2
ou  obs    
j 1 fo1k  fo 2 k ( n1 .)( n 2 .)  j 1 n. k n 
L’hypothèse d’indépendance doit être rejetée lorsque :
2
obs  12 ,
avec (2 – 1) (k – 1) comme nombre de degrés de liberté, l’échantillon étant supposé aléatoire et
simple et les effectifs attendus devant en principe être tous au moins égaux à 5.

b. Tableau du type 2 x 2 catégories


Lorsque chacun de deux critères de classification ne possède que deux modalités, on dispose
évidemment d’un tableau de contingence à 4 catégories comme repris dans le tableau 10.7.

Tableau 9.7.- Tableau de contingence 2 x 2


Colonne 1 Colonne 2 Totaux
Ligne 1 a b a+ b
Ligne 2 c d c+d
Totaux a+c b+d n

Deux variantes peuvent être utilisées pour tester l’indépendance dans ce tableau de contingence
du type 2 x 2 à l’instar de la formule classique. Ces variantes n’exigent pas la connaissance des

Pr Joseph Tshimpanga B.
128

effectifs théoriques. La première est appliquée sans correction de YATES pour la continuité
tandis que la seconde l’est.
- Sans correction de YATES :
2 n(ad  bc) 2
 obs 
(a  b)(c  d )(a  c)(b  d )

- Avec correction de YATES :


2
n ( ad  bc  n 2) 2
 obs  .
( a  b)(c  d )( a  c )(b  d )
On rejette toujours l’hypothèse d’indépendance lorsque, pour un échantillon aléatoire et simple
et pour des effectifs attendus supérieurs à 5:
2
obs  12 , avec 1 comme nombre de degrés de liberté.
Dans ce cas particulier, et surtout pour des effectifs théoriques relativement faibles, la précision
du test 2 d’indépendance peut aussi être améliorée par l’utilisation de tables particulières
(FISHER et YATES, 1963). De plus, le test peut être réalisé par différentes méthodes comme
le test de probabilités exactes de FISHER.

(4) Conditions d’application du test de chi-deux

Parmi les nombreuses conditions pour l’application légitime du test, on peut retenir :
 le test s’applique aux effectifs ; moyennant certaines modifications, il peut s’appliquer aussi
sur les pourcentages et sur les proportions. L’interprétation de ces dernières valeurs exige une
nouvelle transformation de 2 calculé en2 classique :
2 2
dans le cas de proportions :  obs  n(  proportion )
2 n
dans le cas de pourcentages :  obs  (  2pourcentage ) ;
100
 Les effectifs doivent être indépendants d’une catégorie à l’autre ;
 Le test s’applique sur des échantillons assez grands : en principe, l’effectif total ne devrait
pas être inférieur à 50, mais on tolère souvent un effectif total de 30 (n  30) ;
 Tous les effectifs théoriques doivent être égaux ou supérieurs à 5 (ft  5) lorsque le nombre
de degrés de liberté est 1 ; si le nombre de degrés de liberté est supérieur à 1, les 4/5 (80%) au
moins des cellules ne devraient avoir des effectifs inférieurs à 5 et aucune plus petit que 1. C’est
ce qui ressort de la littérature des auteurs comme COCHRAN (1954). Selon ce dernier, on peut
admettre au maximum une valeur comprise entre 1 et 5 pour 6 à 10 catégories et deux valeurs.

9.2. ETUDE SUR LES PROPORTIONS

9.2.1. Estimation d’une proportion de la population

Souvent on désire estimer dans une population la proportion  des unités qui possèdent une
certaine caractéristique. Dans ce cas, la variable étudiée dans la population est une variable de
BERNOULLI de paramètre .

Pr Joseph TSHIMPANGA B.
129

Ici, la distribution de probabilité adéquate à l’estimation d’une proportion est la loi binomiale.
Cependant les calculs mathématiques qui permettent de construire un intervalle de confiance
d’une proportion à partir d’une distribution binomiale sont compliqués. C’est pourquoi la
plupart des manuels font appel à la loi normale comme approximation de la loi binomiale
lorsqu’il s’agit d’obtenir des intervalles de confiance de proportions. Cette approximation est
valable lorsque n  30 et que np  5 alors que nq  5. L’erreur type se calcule par
 (1   ) p(1  p)
p  dans le cas où la proportion de la population  est connue ; et S p  dans
n n
p (1  p) N n
le cas où la proportion  de la population n’est connue, ou S p   avec dans
n N 1
le cas de tirage sans remise.

Si X est une variable de BERNOULLI de paramètre , la moyenne X de l’échantillon (qui


exprime la proportion des succès dans n tirages) est un estimateur sans biais de . Si n est assez
grand, on a vu que X suit approximativement une distribution normale de moyenne p et de
variance (1-)/n. En conséquence, pour écrire une équation de l’intervalle de confiance, on a
recourir à la statistique
X 
f (T , )  f ( X ,  ) 
 (1   )
n
On obtient alors l’équation
X p
Pr(  z 2    z 2 )  1  
pq
n
d’où on peut tirer
pq pq
Pr( p  z 2    p  z 2 ) 1
n n

En résumé on a l’intervalle de confiance au niveau (1 – ) pour le paramètre  d’une population


de BERNOULLI lorsque la taille n de l’échantillon est grande (n  30), est de la forme
 pq 
Pr  p  z 2  1
 n 
Exemple. – On veut estimer la proportion des femmes enceintes qui suivent la CPM
régulièrement dans un quartier rural de la ville de Kisangani. Sur un échantillon de 200 femmes
qui ont accouché dans la maternité du coin, on a noté que 130 ont suivi la CPM de manière
régulière. Construire un intervalle de confiance au niveau 95% pour estimer la vraie proportion
p de femmes qui consultent pour la CPM.

Pour un niveau 95% est n = 200, l’intervalle de confiance se calcule avec p = 130/200 = 0,65
et z/2=  1.96 :
 pq  0,65(0,35)
 p  1,96   [0,65  1,96 ]  [0,65  0,066]  [0,584;0,716]
 n  200

Pr Joseph Tshimpanga B.
130

9.2.2. Tests d’hypothèses

(a) Test sur une proportion


Il s’agit du test de conformité d’une proportion. On voudrait si une proportion observée dans
un échantillon aléatoire simple tiré d’une population (0) est conforme à une proportion-norme
ou critère (). C’est que l’on souvent en pratique, par exemple en contrôle de la qualité. On
cherche à vérifier des hypothèses concernant la proportion  des unités d’une population qui
possèdent une certaine caractéristique. Pour construire un test sur une proportion, on va
supposer la taille n de l’échantillon est grande (n  30).

Selon la forme des hypothèses en présence, on construit alors les tests suivants :
Test 1 : H0 :  = 0 contre H1 :  < 0
Test 2 : H0 :  = 0 contre H1 :  > 0
Test 3 : H0 :  = 0 contre H1 :   0

Considérons pour l’illustration la construction du test 2, la construction des deux autres tests se
faisant de façon analogue.

1° Hypothèses : H0 :  = 0 (ou   0 )
H1 :  > 0
2° Conditions du test : X est une variable de Bernoulli de paramètre , n  30.
p 0
3° La statistique utilisée et sa distribution : z obs  ,
 0 1   0 
n
Cette statistique suit une distribution normale centrée réduite.

4° Région critique : il s’agit d’un test unilatéral. On s’intéresse à la queue du côté positif.
5° La décision : on rejette l’hypothèse nulle si la valeur observée est supérieure ou égale à la
valeur critique (lue dans la table de la loi normale centrée réduite à partir d’un seuil de
signification donnée ) c’est-à-dire zobs > z.

On procède d’une façon tout à fait analogue pour construire les test 1 et 3, et l’on peut résumer
les principales étapes des tests 1, 2 et 3 comme suit la manière de prendre la décision :

Hypothèse alternative Rejet de H0 si


 < 0 zobs < - z
H1 :  > 0 zobs > z
H1 :   0 zobs < - z zobs > z

(b) Test sur une différence de proportions (1 – 2)


On voudrait maintenant faire un test pour comparer dans deux populations indépendantes les
proportions des individus ou des unités qui possèdent une certaine caractéristique. La variable
étudiée dans chaque population est une variable de BERNOULLI de paramètre 1 dans la

Pr Joseph TSHIMPANGA B.
131

première population, et de paramètre 2 dans la seconde. Pour faire un test sur (1 – 2), on tire
indépendamment un échantillon de taille n1 dans la première population, et un échantillon de
taille n2 dans la deuxième population. Comme dans le paragraphe précédent, on va traiter ici le
cas ou n1 et n2 sont grands (n1  30 et n2  30).

Dans ces conditions, pour construire un test sur (1 – 2), on utilise la statistique

zobs 
 p1  p2   1   2 
S p1  p2

qui suit approximativement une distribution normale centrée réduite. L’expression au


dénominateur représentant l’erreur type de la différence entre p1 et p2 et se calcule par

1 1 n1 p1  n2 p2
S p1  p 2  pq    , avec p 
 n1 n2  n1  n2

si l’hypothèse est (1 – 2) = 0 c’est-à-dire 1 = 2 = . Par contre, si la valeur de (1 – 2) selon
l’hypothèse nulle est différente de zéro (cas des hypothèses nulles complexes pour un test
unilatéral), l’erreur type de la différence se calcule comme suit :
p1q1 p q
S p1  p 2   2 2 .
n1 n2

Par la suite, à partir de cette statistique z, on construit les tests :


Test 1 : H0 :  = 2 contre H1 :  < 2
Test 2 : H0 :  = 2 contre H1 :  > 2
Test 3 : H0 :  = 2 contre H1 :   2

L’hypothèse H0 :  = 2 peut être remplacée dans le test 1 par H0:   2, et dans le test 2 par
H0:   2. La prise de décision dans chacun de ces trois tests peut se faire comme résumer ci-
après :

Hypothèse alternative Rejet de H0 si


 < 2 zobs < - z
H1 :  > 2 zobs > z
H1 :   2 zobs < - z zobs > z

(c) Test de comparaison de plusieurs proportions


On peut utiliser le test du 2 pour vérifier l’égalité de proportions dans plusieurs populations
(au moins 2) soit dans le contexte où la variable étudiée dans chaque population est une variable
binomiale, soit dans le contexte où cette variable est multinomiale. Ce dernier cas a été déjà
envisagé au paragraphe 10.1.2. Ici, on va voir la première situation.

Au paragraphe (b), il a été question de comparer dans deux populations distinctes les
proportions 1 et 2 des unités de chacune de ces populations possédant une certaine
caractéristique. Supposons que l’on veuille comparer plus de deux populations (soit k
populations : k  2) dans lesquelles on s’intéresse aux proportions. On va vérifier l’hypothèse

Pr Joseph Tshimpanga B.
132

Ho : 1=2 = ... =k = 


l’hypothèse alternative étant alors :
H1 : ces k proportions ne sont pas toutes égales (au moins deux d’entre-elles diffèrent).

Les données de ce problème peuvent se présenter dans un tableau de contingence du type 2 x k


ou l x 2. On est placé dans une situation sensiblement analogue à celle qui prévalait dans
l’utilisation du 2 comme test d’indépendance. Pour éprouver l’hypothèse H0 selon laquelle
1=2 = ... =k =  on va comparer les effectifs observés avec les effectifs théoriques espérés
lorsque H0 est vraie.

Si les k échantillons viennent de populations ayant un paramètre p commun, on peut combiner


les k populations en une seule, et les k échantillons en un seul, et considérer que l’on a un
échantillon de taille n1 + n2 + ... + nk provenant d’une population de BERNOULLI de paramètre
. Comme on ne connaît pas p, on l’estime par p la proportion de ceux qui possèdent la
caractéristique désirée dans l’échantillon regroupé de taille n = n1 + n2 + ... + nk. On a donc
comme estimation de 
k
 n1 j n  n  ...  n1k
j 1
pˆ   11 12
n n
Par la suite on peut calculer pour chaque case du tableau l’effectif théorique espéré ftij, i = 1 et
2 et j = 1, 2, ..., k, si H0 est vraie. On a
ft1 j  n . j pˆ j = 1, 2, ..., k
ft 2 j  n. j 1  pˆ  j = 1, 2, ..., k
En fait, si l’on y regarde de plus près, on constate que les ftij sont calculés exactement de la
même façon qu’ils étaient dans le contexte du test d’indépendance ; en effet, on a

ftij 
 
ni . n. j
n

où les ni. ne sont rien d’autres que les tailles ni des échantillons respectifs.

Pour éprouver H0 contre H1, on définit alors la statistique

2
k 2  fo ij  ft ij 
2

 obs  
j 1 i 1 ft ij
Si le nombre total N d’observations est suffisamment grand (en pratique on exige au moins n
 30), si les k échantillons sont indépendants, et si les effectifs attendus ne sont pas trop petits
(en pratique, on exige ftij  5), alors la statistique définie ci-dessus suit une distribution du 2 à
(l – 1)(k – 1) = (2 – 1)(k – 1) = (k –1) degrés de liberté. Au niveau a, dans la table de la
distribution du c2 à (k – 1) degrés de liberté, on trouve la valeur critique 2 telle que

p  2  2   . 
Pr Joseph TSHIMPANGA B.
133

2
En conclusion, si obs  2 on rejette l’hypothèse d’égalité des proportions 1, ..., =k;
autrement, on accepte cette hypothèse.

Exemple. – On veut comparer mortalité à la suite d’une épidémie dans trois quartiers différents
d’un centre urbain. Sur 100 malades observées dans le quartier A, 40 décès ont été enregistrés;
de 130 personnes infectées au quartier B, 63 décès ont été identifiées; sur 90 patients résidents
le quartier C, 41 cas sont morts. A partir de ces données, peut-on affirmer que la mortalité à la
suite de l’épidémie est égale dans ces trois quartiers de la ville ?

On est en présence de k = 3 populations. Soit pi, i = 1, 2, 3, la vraie proportion des décès dans
le quartier i, alors on veut éprouver les hypothèses :

H0 : 1 = 2 = 3 =  contre H1 : les i ne sont pas toutes égales, i = 1, 2, 3.

Les nombres non placés entre parenthèses dans les deuxième et en troisième colonnes du
tableau 10.8 représentent les effectifs observés ni1 de décès dans le i-ème échantillon (2-ème
colonne du tableau) et les effectifs observés ni2 de survivants dans le i-ème échantillon (3-ème
colonne du tableau).

Pour obtenir les effectifs théoriques fti1 et fti2 lorsque H0 est vraie, on estime la proportion
commune inconnue p comme suit :
n  n21  n31 40  63  41
pˆ  11   0,45
n1.  n2.  n3. 100  130  90
Par la suite, on obtient les effectifs théoriques comme suit :

ft11 = n1.p = 100 (0,45) = 45 ; ft12 = n1. (1 – p) = 100 (0,55) = 55


ft21 = n2.p = 130 (0,45) = 58,5 ; ft22 = n2. (1 – p) = 130 (0,55) = 71,5
etc.

Dans les deuxième et troisième colonnes du tableau 10.8 on a placé entre parenthèses les
effectifs théoriques ainsi obtenus.

Tableau 9.8. – Tableau des effectifs observés et théoriques du problème


Quartiers Nombre de décès Nombre de survivants Total
A 40(45) 60(55) 100
B 63(58,5) 67(71,5) 130
C 41(40,5) 49(49,5) 90
Total 144 (p=0,45) 176 (q=0,55) 320

On peut déterminer le 2 observé : on a

Pr Joseph Tshimpanga B.
134

2
3 2 ( nij  ft ij ) 2 ( 40  45) 2 (60  55) 2 (63  58,5) 2 (67  71,5) 2 ( 41  40,5) 2 ( 49  49,5) 2
 obs   ft ij

45

55

58 ,5

71,5

40 ,5

49,5
i 1 j 1
 1,65
Au niveau  = 0,05, on obtient la valeur critique dans la table de la distribution 2 à k – 1 = 2
degrés de liberté : on a une valeur de 5,99. On accepte l’hypothèse H0, c’est-à-dire à accepter
que, au niveau de 5%, les parts de marché des céréales Pop dans ces trois quartiers sont égales.

Pr Joseph TSHIMPANGA B.
135

BIBLIOGRAPHIE

ANDERSON, D.R., SWEENEY, D.J. et WILLIAMS, T.A. (2010). Statistiques pour l’économie et
la gestion. Bruxelles : De Boeck.

BOURSIN, J-L. et DURU, G. (1995). Statistique, cours, méthodes, exercices. Paris : Vuibert.

CETAMA (Commission d’Etablissement des Méthodes d’Analyses du Commissariat à l’Energie


Atomique) (1986). Statistique appliquée à l’exploitation des mesures. Paris : Masson.

CHAUVAT G. et REAU J.-Ph. (1996). Statistiques descriptives, Exercices et corrigés. Paris : A.


Colin.

D’HAINAUT, L. (1975, 1978). Concepts et méthodes de la statistique. Bruxelles : Labor. Vol 1 et


2.

DAGNELIE , P. (1984). Théorie et méthodes statistiques. Gembloux : Duculot. Vol 1 et 2.

GRAIS, B.(1998). Méthodes statistiques. Paris : Dunod.

KAZMIER, J.L.(1982). Statistique de la gestion, Théorie et problèmes. New York : McGraw-Hill.

LABROUSSE, C.(1969). Statistique, exercices corrigés. Paris : Dunod. Tome 3.

LAMBIN, J.J.(1990). La recherche marketing. Paris : McGraw-Hill.

MARTEL, J.M. et NADEAU, R. (1988). Statistique en gestion et en économie. Boucherville : G.


MORIN.

MASIERI, W. (1996). Statistique et calcul des probabilités. Paris : Sirey.

SANDERS, D.H., et al. (1984). Les statistiques, une nouvelle approche. Montréal : McGraw-Hill.

WONNACOTT, T.L. et WONNACOTT, R.J. (1991). Statistique, économie, gestion, sciences,


médecine (avec exercices d’application). Paris : Economica.
136

TABLE DES MATIERES

INTRODUCTION .............................................................................................................................. 1

Première partie : La probabilité ..................................................................................................... 12

CHAPITRE 1 : ANALYSE COMBINATOIRE ........................................................................... 13


1.1. GENERALITES ...................................................................................................................................................... 13
1.2. ARRANGEMENTS ................................................................................................................................................. 13
1.3. PERMUTATIONS ............................................................................................................................................... 14
1.4. COMBINAISONS................................................................................................................................................ 15

DEUXIEME PARTIE : STATISTIQUE DESCRIPTIVE ........................................................... 35

CHAPITRE 4 : STATISTIQUE DESCRIPTIVE UNIVARIEE ................................................ 36


4.1. INTRODUCTION .................................................................................................................................................. 36
4.2. Présentation des données sous forme de tableaux et de graphiques ..................................................................... 36
4.2.1. Généralités ............................................................................................................................................................. 36
4.2.2. Série brute .............................................................................................................................................................. 37
4.2.3. Série ordonnée ....................................................................................................................................................... 38
4.2.4. Distribution observée ............................................................................................................................................. 39
4.2.4. Distribution groupée .............................................................................................................................................. 46
4.3.0. PARAMETRES DE POSITION ........................................................................................................................... 54
4.3.1. La moyenne arithmétique ...................................................................................................................................... 54
4.3.2. Le médian ............................................................................................................................................................... 57
4.3.3. Les quantiles ( fractiles)......................................................................................................................................... 58
4.3.4. Les modes ............................................................................................................................................................... 61
4.4. PARAMETRES DE DISPERSION ........................................................................................................................ 62
4.4.1. L'étendue ................................................................................................................................................................ 63
4.4.2. L'écart moyen........................................................................................................................................................ 63
4.4.3. La variance et l'écart type ...................................................................................................................................... 64
4.4.4. Intervalles interquantiles ....................................................................................................................................... 67
4.5. PARAMETRES DE FORME ................................................................................................................................. 69
4.5.1. Les coefficients d’asymétrie (Skewness) .............................................................................................................. 69
4.5.2. Les coefficients d’aplatissement (Kurtosis) ........................................................................................................... 71

CHAPITRE 5 : STATISTIQUE DESCRIPTIVE BIVARIEE .................................................... 73


5.1. TABLEAUX STATISTIQUES A DEUX VARIABLES ET REPRESENTATION GRAPHIQUE .............................. 73
5.2. STATISTIQUES DESCRIPTIVES POUR UNE SERIE BIVARIEE ........................................................................ 75
5.2.1. Distributions marginales et conditionnelles ....................................................................................................... 76
5.2.2. Méthodes d’ajustement analytique................................................................................................................... 77
5.2.3. Les coefficients de corrélation ............................................................................................................................ 79

CHAPITRE 6 : GRANDES LOIS STATISTIQUES OU DISTRIBUTIONS DE


PROBABILITES........................................................................................ Erreur ! Signet non défini.
6.1. DISTRIBUTION DE PROBABILITE ............................................................................. Erreur ! Signet non défini.
6.2. LA LOI BINOMIALE ..................................................................................................... Erreur ! Signet non défini.
6..3 LA LOI HYPERGEOMETRIQUE .................................................................................. Erreur ! Signet non défini.
6.4. LA LOI NORMALE ........................................................................................................ Erreur ! Signet non défini.
137

CHAPITRE 7 : THEORIE DE L’ECHANTILLONNAGE ........................................................ 87


7.1. L’ECHANTILLONNAGE ....................................................................................................................................... 87
7.1.1. Définitions .............................................................................................................................................................. 87
7.1.2. Espèces d’échantillon ............................................................................................................................................ 88
7.1.3. Techniques d’échantillonnage .............................................................................................................................. 90
7.2. LA DISTRIBUTION D’ECHANTILLONNAGE ..................................................................................................... 96
8.1. LES TESTS D’HYPOTHESES PARAMETRIQUES ............................................................................................... 98
8.1.1. Hypothèses statistiques .......................................................................................................................................... 99
8.1.2. Indiquer le seuil ou niveau de signification du test ............................................................................................ 101
8.1.3. Choisir la statistique convenant au test ............................................................................................................... 102
8.1.4. Déterminer la région critique .............................................................................................................................. 102
8.1.5. Prendre une décision ........................................................................................................................................... 103
8.2. ESTIMATION ...................................................................................................................................................... 104
8.2.1. Estimation ponctuelle .......................................................................................................................................... 105
8.2.2. Estimation par intervalle ..................................................................................................................................... 106

CHAPITRE 9 : ETUDE SUR LA MOYENNE ARITHMETIQUE.......................................... 108


1.1. Test de comparaison de deux variances pour échantillons indépendants ...................................................... 115

CHAPITRE 10 : ETUDE SUR LES EFFECTIFS ET LES PROPORTIONS........................ 121


10.1.0. TESTS SUR LES EFFECTIFS ........................................................................................................................ 121
10.1.1. Tests destinés à un échantillon (test du chi deux)............................................................................................. 121
10.1.2. Test 2 de l’indépendance ................................................................................................................................. 125
10.2. ETUDE SUR LES PROPORTIONS ................................................................................................................... 128
10.2.1. Estimation d’une proportion de la population .................................................................................................. 128
10.2.2. Tests d’hypothèses.............................................................................................................................................. 130

BIBLIOGRAPHIE ......................................................................................................................... 135

Pr Joseph Tshimpanga B.

Vous aimerez peut-être aussi