Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUE
CHEZ LE MÊME ÉDITEUR
S. GELLER
Président du Centre d’Exploration Fonctionnelle
et d’Etude de la Reproduction (C.E.F.E.R.)
de Marseille.
MASSON IR
Paris New York Barcelone
Milan Mexico Sao PaulO"
1983
Tous droits de traduction, d'adaptation et de reproduction par tous procédés
réservés pour tous pays
La loi du 11 mars 1957 n'autorisant, aux termes des alinéas 2 et 3 de l'article 41,
d'une part, que les «copies ou reproductions strictement réservées à l'usage privé du
copiste et non destinées à une utilisation collective » et, d'autre part, que les analyses et.
les courtes citations dans un but d'exemple et d'illustration, « toute représentation ou
reproduction intégrale, ou partielle, faite sans le consentement de l'auteur ou de ses
ayants droit ou ayants cause, est illicite » (alinéa l®"^ de l'article 40).
Cette représentation ou reproduction, par quelque procédé que ce soit, constitue¬
rait donc une contrefaçon sanctionnée par les articles 425 et suivants du Code pénal.
Avant-propos . ]
Introduction . 3
Première partie
STATISTIQUE DESCRIPTIVE
Deuxième partie
STATISTIQUE PROBABILISTE
Moyenne . 37
Espérance mathématique . 37
Variance. Ecart type . 38
Diagramme des probabilités . 39
Diagramme des probabilités et diagramme des fréquences . 40
Fonction de densité de probabilité . 40
Courbe de fréquence . 41
Probabilités partielles et probabilités totales . 42
Probabilités cumulées. Diagramme intégral . 43
Fonction de répartition . 44
Exploitation probabiliste . 45
Troisième partie
INTERPRETATION STATISTIQUE
Exercices . 220
C’est pourquoi, bien plus que sur les procédés de calcul, nous avons
insisté sur les bases et le support probabiliste de cette méthode, auxquels
nous avons consacré les quatre chapitres de la deuxième partie, ainsi que
sur les principes de l’interprétation statistique qui fait l’objet de toute la
troisième partie de cet ouvrage.
Bien que les calculs statistiques n’aient pas constitué notre objectif essen¬
tiel, il nous a paru utile de donner dans chaque cas une application numé¬
rique, généralement tirée de notre expérience personnelle, destinée à illustrer
d’une manière concrète le raisonnement statistique et à montrer l’intérêt pra-
tique des notions étudiées. Des tables simplifiées placées en fin d’ouvrage
permettent de suivre ces applications numériques et, au besoin, de résoudre
dans les cas simples les problèmes pratiques du même type avec lesquels le
lecteur peut se trouver confronté. Dans le même esprit, afin de permettre
à ceux qui le désireraient de tester leurs aptitudes à cet égard, ont été proposés
en fin d’ouvrage un certain nombre d’exercices, avec leurs solutions (i).
On croit souvent que les calculs statistiques sont très compliqués. On sera
surpris de constater que les opérations mises en jeu ne dépassent pas en
général le niveau du certificat d’études primaires. En revanche la compré¬
hension du raisonnement statistique nécessite quelques bases mathématiques,
comme par exemple la notion d’aire intégrale, la courbe en cloche, le déve¬
loppement du binôme, etc., toutes notions qui ont été exposées dans notre
Abrégé de Mathématiques dont la lecture devrait en principe précéder celle de
cet ouvrage. Toutefois, pour éviter des recherches au lecteur préoccupé uni¬
quement par la Statistique, nous avons résumé l’essentiel de ces bases mathé¬
matiques, d’ailleurs peu nombreuses, dans un Rappel placé à la fin de cet
ouvrage et auquel le lecteur pourra commodément se reporter en cas de
besoin.
Ainsi conçu, ce petit livre, comme l’indique son titre, ne prétend pas être
autre chose qu’un ouvrage d’initiation, ce qui rend compte de la présentation
très élémentaire que nous avons adoptée, ainsi que des libertés que, comme
précédemment et pour les mêmes raisons, nous avons parfois prises avec
l’orthodoxie. Mais muni des bases qu’il y aura puisées, le lecteur sera à même,
du moins nous l’espérons, d’aborder éventuellement par la suite, si son propos
le justifie, des ouvrages plus classiques et moins élémentaires que celui-ci.
STATISTIQUE DESCRIPTIVE
■ iFai>>-' '-. '■ ^' * ,S f v*i-^ r
«;^,S..v , ■ .;.v.,. ;! > .
ÿ.■
ï.fÿ\ V«
v, . '3'^' '-'<^î^'
H
'
f??-v‘^W ï,Vs^*: n-.. .• rtç
' ' ■ ’‘''‘V‘ 'WÊU ' rÆ 2r'^#i :
't '.^
\ ‘ >x-^,
CHAPITRE PREMIER
TABLEAU I
0 21 0,011 1,1
1 111 0,059 5,9
2 287 0,153 15,3
3 480 0,256 25,6
4 529 0,282 28,2
5 304 0,162 16,2
6 126 0,067 6,7
7 19 0,010 1,0
TABLEAU II
Distribution des poids de 100 adultes du sexe féminin
X F 100/p. 100
Intervalle de cla»$e
variable dans cette classe, auquel cas la limite supérieure d’une classe et la
limite inférieure de la classe suivante sont communes, par exemple la valeur
44,5 pour les classes [39,5 à 44,5] et [44,5 à 49,5] (0.
TABLEAU ni
Distribution des poids de 100 adultes du sexe féminin
40-44 59,5-44,5 42 5
45-49 44,5-49,5 47 12
50-54 49,5-54,5 52 31
55-59 54,5-59.5 57 31
60-64 59.5-64,5 62 16
65-69 64.5-69,5 67 3
70-74 69.5-74.5 72
100
(D On doit s’arranger polir que les limiies réelles ne coïncident p.is avec une
valeur possible de la variable. Il suffit pour cela de les prendre en dehors de la limite
de précision des mesures, par exemple. 0.5 kg si la précision des mesures est de I kg.
O.O.S kg si la précision des mesures est de 0.1 kg. etc. Sinon, il faut convenir à quelle
classe appartient la limite elle-même.
(2) Il en résulte une perte d’information qui est d’autant plus importante que
l’intervalle de classe choisi est plus étendu, c’est-à-dire qu’il y a moins de classes. Si
l'intervalle de classe est très étroit, c'est-à-dire s’il y a un très grand nombre de classes,
le groupement en classes perd tout son intérêt. Si. au contraire, l’intervalle de classe
est très large, c’est-à-dire si le nombre de classes est très réduit, la perte d’information
devient rédhibitoire. Le choix de l’intervalle de classe doit réaliser un compromis
entre ces deux tendances nécessairement contradictoires. L’expérience montre qu’en
pratique il y a intérêt à adopter un intervalle de classe tel que le nombre de classes
soit compris entre 10 et 20.
DESCRIPTION D UNE SÉRIE STATISTIQUE 11
Fréquence» relative»
Z/=1
à la valeur (ou l’intervalle de classe) repérée sur l’axe des abscisses et dont
la hauteur est proportionnelle à l’effectif de cette valeur (ou de cette classe),
qui est porté en ordonnée.
On obtient ainsi un ensemble de rectangles de même largeur et dont les
hauteurs, et par conséquent les siuiaces, sont respectivement proportionnelles
aux effectifs de chaque valeur (ou classe) (âg. 2 et 3).
Fio. 2. Fig. 3.
(*) Il en résulte que la surface totale de l’histogramme fait alors la somme des
fréquences relatives, c’est-à-dire qu’elle est égale à 1.
DESCRIPTION D'UNE SÉRIE STATISTIQUE 13
0 2 4 6 8 10 12 14 16 18 20
Iode Hé aux protéines jtg/lOOml
19 20 21 22 2 3 24 25 26
Diamètre de ta coquille en mm
14 STATISTIQUE DESCRIPTIVE
Age Age
Age
Fréquences cumulées
TABLEAU IV
Tableau des FRiQUENCES cumulées (type « jusqu’à »)
0 21 0 21
1 111 Oàl 132
2 287 0à2 419
3 480 0à3 899
4 529 0à4 1 428
5 304 0à5 1 732
6 126 0à6 1 858
7 19 0à7 1 877
n = 1 877
Diagramme cumulatif
(^) Noter que ces deux types de diagramme ne sont pas exactement symétriques.
C’est ainsi que dans le diagramme du type t jusqu’à » le premier rectangle, c’est-à-dire
le plus à gauche, correspond ici à la fréquence de la valeur zéro, soit 21, alors que
dans le diagramme du type t plus de », le premier rectangle, c’est-à-dire le plus à
droite, correspond à la fréquence de la valeur 7, soit 19.
DESCRIPTION D’UNE SÉRIE STATISTIQUE 17
TABLEAU V
Tableau des fréquences cumulées (type t plus de »)
7 19 7 19
6 126 6 ou plus 145
5 304 5 ou plus 449
4 529 4 ou plus 978
3 480 3 ou plus 1 458
2 287 2 ou plus 1 745
1 111 1 ou plus 1 856
0 21 0 ou plus 1 877
1 877
Exemple ('). — On a étudié la couleur des cheveux chez 6 800 sujets. Le caractère
« couleur des cheveux » a été réparti en quatre catégories différentes ; blond, brun,
noir, roux. Le tableau ci-dessous (tableau VI) indique les résultats observés :
TABLEAU VI
Distribution de la couleur des cheveux chez 6 800 sujets
PARAMÈTRES CARACTÉRISTIQUES
D’UNE DISTRIBUTION DE FRÉQUENCES
Moyenne
Par exemple, si l’on a effectué une série de cinq mesures qui ont donné
les résultats suivants :
Moyenne pondérée
fl Fl F„
— ■Xi+ — -X2 + ... + —-X„
n n n n
Les coefficients Fijn, Fzin.FJn, appelés t coefficients de pondéra¬
tion » ou encore « poids » de chaque caractère, ne sont autre chose que les
fréquences relatives fi. fz./„ de chaque valeur.
On a donc :
X =fiXy -\-fzXz -I-... +fn • x„
x = Y,f.x
Données groupées
IF.X
A' =
n
Exemple. — Dans la distribution qui a été décrite au tableau III la moyenne sera
égale à :
Moyenne provisoire
.. .x;-f.ri + ...-far;
O M = .V = --- = -•
n n
22 STATISTIQUE DESCRIPTIVE
TABLEAU VII
II'
N)
X F FX’
1
42 0 5 0
47 5 12 60
52 10 31 310
57 15 31 465
62 20 16 320
67 25 3 75
72 30 2 60
100 1 290
On obtient ainsi :
Y^FX' 1290
12,90
“ n ~ 100
d’où :
i^'-t-42 = 12,90-1-42 = 54,90.
-YF.X'=
PARAMÈTRES CARACTÉRISTIQUES 23
Insuffisance de la moyenne
pour caractériser une distribution de fréquences
V ariance
Mais de ces écarts, les uns sont positifs, les autres sont négatifs, de telle
sorte que si l’on en faisait la somme algébrique, les écarts de signe contraire
se compenseraient.
On a donc été amené à envisager les carrés des écarts, soit (oc — x)\ pour
lesquels le signe n’intervient pas. La somme de ces carrés, encore appelés
« écarts quadratiques », pour les n valeurs de la distribution, qui se symbolise :
n 1
Données groupées
Bien entendu, si une valeur est répétée plusieurs fois, ce qui est toujours
le cas, nous l’avons vu, lorsque les données sont groupées, il faut compter
autant de fois son écart quadratique, ce qui revient à multiplier les écarts
quadratiques par la fréquence F.
PARAMÈTRES CARACTÉRISTIQUES 25
Ainsi, pour la distribution des sept classes du tableau Vil, qui admet pour moyenne
^ = 54.9, la variance s'établit comme suit :
3J
5 ■ (42-54,9)^ + 12 ■ (47-54,9)»-j-,,, 4-3 . (67-54,9)»+2 . (72-54,9)»
lôô
3 809
= 38,09 .
100
, YF.iX-X)^ YFAX-A)^ „
^^-- -(X-A)^ . (1)
n n
Ce qui peut encore s’écrire ;
al = al.-{Jt-AŸ . (2)
Le calcul de ïFfAT —étant naturellement plus simple que celui de IF (A"—JP)*,
le calcul de la variance se trouve facilité.
TABLEAU VIII
II'
X F A'» F. A'»
1
3
26 STATISTIQUE DESCRIPTIVE
On a donc :
2
4 250
aX* 42,5.
100
On en déduit
= 42,5-(54,9-57)2 ^ 35 09 .
Signalons enfin qu’il peut être intéressant de choisir pour A la valeur zéro. La
formule du calcul de la variance s’obtient alors en faisant A = 0 dans (1). Il vient :
(3)
<t2 = 1
(2)
n
t X par 'Lx/n :
(3)
Lorsqu’on dispose d’une table des carrés et d’une machine à calculer, les
formules (2) et (3) ci-dessus permettent de calculer plus commodément la
variance car les carrés sont donnés directement par les tables et il n’est pas
nécessaire par ailleurs de calculer les différences {x -Je) pour chaque valeur
individuelle.
Aussi ces formules sont-elles souvent utilisées en pratique pour le calcul
de la variance, surtout lorsqu’on doit traiter un grand nombre de données.
PARAMÈTRES CARACTÉRISTIQUES 27
Petits échantillons
La formule :
= l5](x-x)2
n
que nous avons précédemment donnée de la variance n’est valable que pour
une distribution d’effectif suffisamment important (en pratique au moins égal
à 100), qui permet de se placer dans des conditions comparables à celles du
calcul des probabilités. Lorsqu’on a affaire à une distribution d’effectif plus
limité, les calculs montrent qu’il est préférable de prendre comme quotient non
pas le nombre n, mais le nombre («-1) dit encore nombre de degrés de
liberté (‘).
L’expression de la variance devient alors :
(1,5 — 2,7)* + (1,8 — 2,7)* + (2,1 — 2,7)* + (3,3 - 2,7)* + (4,8 - 2,7)* _ 7,38 _
fZTl 4
7 38
alors que si l’on avait divisé par n, soit 5, on aurait trouvé = 1,47.
Ecart type
Mais la variance est un carré. C’est ainsi que si la variable x est un poids
exprimé en kg la variance sera exprimée en « kg au carré ».
Afin d’avoir un indice de même équation dimensionnelle que la variable,
c’est-à-dire qui puisse s’exprimer dans la même unité que cette dernière, on
est amené à considérer la racine carrée de la variance, qui est homogène avec
X et qui constitue l’écart type a, encore appelé « écart quadratique moyen ».
tlix-xf
ou
n-\
L’écart type indique bien la dispersion plus ou moins grande des mesures
autour de leur moyenne : plus l’écart type est faible en effet, plus les valeurs
sont f resserrées » autour de leur moyenne, et inversement bien entendu, plus
l’écart type est important, plus la distribution est étalée.
Coefficient de variation
(1) ScHOLLER (R.), Soldat (J. C.), Avigor (R.), Elimination de l’estriol urinaire
au cours des deux derniers trimestres de la grossesse normale. Pathol. Biol., 1973, £1,
375-383.
30 STATISTIQUE DESCRIPTIVE
Poids en grammes
STATISTIQUE PROBABILISTE
CHAPITRE IH
INTRODUCTION A L’ÉTUDE
DES PHÉNOMÈNES ALÉATOIRES
Notion de probabilité
Jetons en l’air une pièce de monnaie. Nous avons une chance sur deux
d’amener « pile » et une sur deux également d’amener a face » : on dit que la
probabilité d’amener « pile » est de 1/2 = 0,50 (ou encore 50 p. 100). De
même celle d’amener t face ».
Lançons un dé à six faces que nous supposerons parfaitement cubique.
Chacune des six faces a une chance égale d’apparaître. Nous avons donc une
34 ST A TISTIQ UE PR OBA BIU STE
chance sur six d’amener une quelconque des faces que nous aurons choisie,
par exemple le 4. On dit que la probabilité d’amener le 4 est de 1/6 = 0,166
(ou encore 16,6 p. 100). De même pour toute autre face du dé.
Soit encore un sac contenant une boule blanche et 2 boules noires,
que nous supposerons absolument identiques, à la couleur près. Si l’on tire
« au hasard » une boule du sac (^) chaque boule a une chance égale de sortir.
On a donc une chance sur 3 de tirer une boule blanche et 2 sur 3 de tirer
une boule noire : on dit que la probabilité de tirer une blanche est
P — 1/3 = 0,333 (ou encore 33,3 p. 100) et la probabilité de tirer une noire
est q = 213 = 0,666 (ou encore 66,6 p. 100).
1 1 ,
2 + 2-1
(1) Ce tirage «au hasard » d'une boule à partir d’un sac définit ce qu’on appelle
« le schéma d’urne » auquel nous aurons souvent recours pour expliciter la notion
de probabilité. Quand, comme c est le cas ici, le sac est supposé contenir seulement
deux variétés de boules on dit qu'il s'agit d’une urne « binaire ».
(2) La probabilité étant un rapport, il en résulte qu’elle ne fait pas intervenir
le nombre absolu, mais seulement le nombre relatif d’éventualités. C’est ainsi que si
l'on avait procédé au tirage à partir d'un sac de 300 boules dont lOD blanches et
200 noires, on aurait obtenu pour p et q respectivement :
100 _ 200 2
300 ~ 3 3ÔÔ ~ 3 ’
donc les mêmes valeurs que pour le sac de 3 boules. Le nombre absolu de boules
n intervient donc pas dans le schéma d urne. Seules comptent les proportions respectives
des diverses variétés de boules, c’est-à-dire la « composition » de l'urne.
INTRODUCTION À L'ÉTUDE DES PHÉNOMÈNES ALÉATOIRES 35
de 1 unité, elle est exprimée par un nombre qui est toujours compris entre 0
(qui représente / impossibilité), et I (ou encore 100 p. 100) qui représente la
certitude, de l’événement considéré : chaque billet d’une loterie confère une
certaine probabilité de gagner le gros lot, mais si l’on n’en prend aucun, il est
évidemment impossible de gagner, alors que si, au contraire, on prend tous
les billets, on a la certitude de gagner le gros lot.
Dire que la probabilité de tirer une blanche est de 1/3 ne signifie nulle¬
ment que si l’on répète par exemple trois fois l’épreuve, on tirera forcément
une fois une blanche et deux fois une noire.
Rien n'empêche en effet que sur les trois épreuves on tire 2 fois ou même
3 fois la boule blanche.
Mais répétons l’épreuve 10 fois par exemple. On constatera que la
blanche va sortir, par exemple, 2 fois sur 10. Répétons l’épreuve 100 fois :
la blanche sortira par exemple, 30 fois sur ces 100 tirages. Répétons l’épreuve
1 000 fois : la blanche sortira mettons 320 fois sur ces 1 000 tirages. Les
chiffres 2, 30, 320, c’est-à-dire le nombre de fois où l’on observe l’événement
constitué par le tirage d’une boule blanche, sont les fréquences absolues de cet
événement. Si l’on rapporte ces valeurs au nombre d’épreuves dans chaque
cas respectivement, on obtient les rapports : 2/10, 30/100, 320/1 000, etc. qui
représentent les fréquences relatives de l’événement considéré au cours de
ces différentes expériences.
On constate que les rapports observés se rapprochent de plus en plus du
rapport p = 0,33 (ou encore 33 p. 100), qui exprime la probabilité du tirage de
la boule blanche.
// apparaît ainsi un caractère essentiel de la notion de probabilité, à
savoir qu’elle implique la répétition, le grand nombre des épreuves : Lors¬
qu’on répète l’épreuve un nombre suffisant de fois, la fréquence relative de
l’événement tend à se rapprocher de plus en plus d’une valeur théorique
donnée par le calcul et qui représente précisément la probabilité de l’événe¬
ment considéré.
C’est ce qu’exprime la célèbre « Loi des grands nombres » ou « Loi empi¬
rique du hasard » formulée par Bernouilli à propos du tirage de boules dans
une urne ; « Lorsque les événements sont nombreux, ils se produisent avec
36 STATISTIQUE PROBABILISTE
des fréquences voisines de leur probabilité, et ceci d’autant plus que les
épreuves sont plus nombreuses. »
Si donc le nombre n d’épreuves devient infiniment grand, la fréquence
relative se rapprochera de plus en plus de la probabilité : on peut donc
considérer la probabilité d’un événement comme la limite vers laquelle tend
la fréquence relative de cet événement lorsqu’on augmente indéfiniment le
nombre d’épreuves Q).
• 1 i i i i i
^‘666666
Moyenne
x = Y.^iPi-
x = Y.XiPi
1
Ainsi, pour la distribution constituée par le jet d’un dé, la moyenne sera
X = A'i Pi +X2P2+--- + X„ Pn
peut s’écrire :
Ÿ - Y + V + +Y —
X est donc égal à la somme, divisée par leur nombre, des produits tels que
f .X \ c’est la moyenne arithmétique de ces produits.
Espérance mathématique
En matière de jeu de hasard, en effet, c’est la valeur moyenne que l’on peut espérer
obtenir (d’où le nom) si l’on joue un grand nombre de parties.
Ainsi, dans le jet d’un dé. l'espérance mathématique est ;
A chaque partie, n’importe quelle face du dé peut apparaître. Mais si l’on fait
la moyenne des numéros qui sortent lors d’un grand nombre de parties, on trouvera
un chiffre voisin de 3,5 et qui s’en rapprochera d’autant plus que le nombre de parties
sera plus grand.
0-2 =
a= /X(x-.x)^
et :
^'3,67 = 1,9 .
INTRODUCTION À L’ÉTUDE DES PHÉNOMÈNES ALÉATOIRES 39
P
2/3
'/3
1 6
B N Sou.'p
Fig. 16.
Courbe de fréquence
(1) L’ordonnée y n’est pas la probabilité proprement dite, qui est représentée par
la surface du rectangle élémentaire, c’est-à-dire le produit (y . dx) de sa hauteur y par sa
base devenue l’infiniment petit dx. A la limite,-ce produit (y. dx) est nul. C’est pourquoi
l'on ne parle pas de la « probabilité » d’obtenir une valeur donnée X d’une variable
aléatoire continue, cette probabilité étant nulle. Rigoureusement parlant, y indique la
probabilité pour qu’une valeur donnée X d’une variable aléatoire continue x soit com¬
prise dans un petit intervalle dx de cette variable, au voisinage de x. entre x et (x+dx).
C’est pourquoi on l’appelle « densité » de probabilité de X.
42 STATISTIQUE PROBABILISTE
Cette courbe de fréquence dont la genèse est ainsi tout à fait super¬
posable, on le voit, à celle d’une courbe de densité de probabilité, a, on le
devine, la même signification que cette dernière.
On peut la considérer comme la représentation géométrique d’une loi
idéale de distribution du caractère étudié. Du reste, on retrouve souvent alors
des courbes qui se rapprochent des courbes théoriques du calcul des proba¬
bilités, et en particulier la courbe en cloche de Gauss (fig. 18).
On peut interpréter ces données en considérant que la série statistique
étudiée, caractérisée par son diagramme des fréquences, est un échantillon
limité d’une population (^) d’effectif très grand, théoriquement infini, dite
« population d’origine » (ou encore « population parente »), dont la courbe
des fréquences exprime la loi véritable de distribution. C’est là une notion très
importante, car elle permet d’étendre à des ensembles réels et limités des
résultats établis dans l’hypothèse théorique d’une population infinie. Nous
aurons souvent l’occasion d’y recourir notamment pour les problèmes d’inter¬
prétation statistique.
Cette probabilité peut donc être représentée par un rectangle ayant pour
base xz et dont la hauteur (et par conséquent la surface) fait la somme de
celles du rectangle précédent et du rectangle correspondant à (fig. 20).
Puisque les valeurs sont supposées rangées par ordre de grandeur crois¬
sante, la surface de ce rectangle, qui fait la somme des probabilités de Xy,
de X2 et de x^, donne la probabilité totale de xs et de toutes les valeurs de
la distribution inférieures à X3, c’est-à-dire de toutes les valeurs de la distri¬
bution jusqu’à X3 inclusivement.
On peut continuer ainsi de la même façon en progressant de gauche à
droite tout au long de la distribution et faire correspondre à chacune des
valeurs de la distribution un rectangle dont la surface mesure la probabilité
globale de cette valeur et de toutes les valeurs qui lui sont inférieures (fig. 20).
Le dernier rectangle, le plus à droite, fera la somme de toutes les proba¬
bilités de la distribution : sa surface sera donc égale à 1, c’est-à-dire à la
surface globale du diagramme de distribution (^).
Ce diagramme où l’on additionne successivement les probabilités au fur
et à mesure et qui est tout à fait superposable, on le voit, au diagramme des
fréquences cumulées, est appelé « diagramme des probabilités cumulées »,
ou encore diagramme intégral. En effet, comme dans une intégration, la sur¬
face qui, sur ce diagramme, correspond à une valeur donnée, fait la somme,
en partant de la gauche, de toutes les surfaces du diagramme de distribution
jusqu’à celle, inclusivement, qui correspond à cette valeur.
(^) On se souvient en effet que, par définition, la somme de toutes les probabilités
et par suite des surfaces de tous les rectangles du diagramme de distribution est
égale à 1.
(2) Avant d’aborder la lecture de ce qui suit nous vous conseillons de lire les
pages 193 à 202 du Rappel mathématique placé à la fin de cet ouvrage.
INTRODUCTION À L'ÉTUDE DES PHÉNOMÈNES ALÉATOIRES 45
Exploitation probabiliste
(^) Le diagramme intégral fait du reste, par définition, la somme intégrale des
probabilités de la distribution qui sont représentées alors, nous l’avons vu, par les
produits (y . dx). C’est donc l’intégrale J y .dx, c’est-à-dire J f (x) dx.
46 STATISTIQUE PROBABILISTE
Cette probabilité, qui n’est autre que la probabilité cumulée de toutes les
valeurs de x inférieures à xi, est représentée par la surface comprise sous la
courbe de densité de probabilité à gauche de Xi et elle est mesurée par
l’ordonnée correspondante Yi de la courbe de répartition (fig. 22).
Xl
Prob Xl] = J
— 00
f{x). dx = F(xt) = .
J
00
= f{x) .dx=\.
- 00
l-F(jti)
1- [f(;c2)-^'(^i)] .
On voit tout le parti que l’on peut tirer de l’étude d’une fonction de
répartition. En associant ces données à celles déjà fournies par la fonction
de densité de probabilité ou celles du diagramme de distribution et du dia¬
gramme cumulatif dans le cas d’une variable discontinue, il est possible, on le
conçoit, d’approcher de manière satisfaisante les problèmes posés par les
variations d’un phénomène aléatoire.
CHAPITRE IV
DISTRIBUTION BINOMIALE
Revenons à notre sac de trois boules, dont une blanche et deux noires
et voyons ce qui se passe sur le plan des probabilités lorsque nous procédons,
non plus à un tirage isolé, mais à deux tirages successifs.
Nous supposerons que la boule tirée lors du premier tirage, est remise
dans le sac afin que la composition de ce dernier ne change pas lors du
deuxième tirage.
Dans ces conditions, il y a à ce deuxième tirage, comme au premier, une
probabilité p = 1/3 de tirer une blanche et une probabilité q — 2/3 de tirer une
noire.
Mais ce qui nous intéresse c’est la probabilité des associations qui
peuvent résulter de ce double tirage.
Lors de cette épreuve, chacune des trois boules susceptibles de sortir au
premier tirage, peut s’associer à chacune des trois boules susceptibles de sortir
au deuxième tirage. U y a donc au
total 3x3 = 9 associations pos¬
1*tirage O sibles de deux boules à savoir
(fig. 25):
/i\ m /w
2«tirt.geO0® O®® O— — une association B + fl ;
B N N B N N B N N — deux associations B + N -,
Fig. 25. — deux associations N B -,
— quatre associations N + N.
2
- (c’est-à-dire p . q), pour l’association B + N ;
DISTRIBUTION BINOMIALE 49
4
^ (c’est-à-dire pour l’association N-I-N (^).
Si l’on ne tient pas compte de l’ordre dans lequel se présentent les boules
(ce qui peut être réalisé en effectuant un tirage de deux boules à la fois à partir
d’un sac de même composition, c’est-à-dire comportant la même proportion
de boules blanches et noires, mais contenant un grand nombre de boules) on
voit que ces éventualités peuvent se ramener à trois :
— association BB. de probabilité ;
— associaticn BN (ou NB), de probabilité pq+pq = (*) ;
— association NN, de probabilité q^.
(p + q)^ = + .
(^) On voit que les probabilités dites t composées i de ces associations obtenues
au double tirage sont égales au produit des probabilités p ou q, dites * élémentaires »,
des événements isolés (tirage simple) qui les composent. C’est là un théorème fonda¬
mental du calcul des probabilités, dit « théorème des probabilités composées », que
nous venons de vérifier sur cet exemple.
(2) D’après le principe des probabilités totales, en effet, la probabilité d avoir BN
ou NB est égale à
PiBN) +P(NB) = pq + pq == 2 pq.
50 STATISTIQUE PROBABILISTE
TABLEAU IX
BBB .P P’ 0
BB
(/»") \ N iq) BBN .q
3p^q 1
BNB (ou NBB) Ipq .p = lp^q
BNfouNB)/*
0.pq) \ N iq) BNN (ou NBN) Ipq . q = lpq^
3pq^ 2
NN ^ B (;>) NNB q^ . P
N(,) NNN q^ . q 3
£ 0 12 3 n-i n r'
r de boules noires contenues dans l’échantillon
de n boules, r pouvant prendre toutes les valeurs
Fig. 27. discrètes, c’est-à-dire entières, de 0 à « : on obtient
une distribution où les probabilités des différentes
valeurs de la variable aléatoire sont données par les termes successifs du
DISTRIBUTION BINOMIALE 51
Cr _ _ - ni
" r ! (n — r) !
(^) Notons que la somme des termes de cette distribution est bien, comme il se
doit pour une distribution de probabilités, égale à 1, puisque (p-f^) = 1, donc éga¬
lement (p-bq)".
(2) Cf. Rappel mathématique, p. 193.
(3) Cf. S. Geller, Abrégé de Mathématiques, Masson éd., Paris 1979, p. 221.
52 STATISTIQUE PROBABILISTE
de r boules noires, a une probabilité qui est donnée par la valeur du terme de
rang r dans le développement de (p + qY, c’est-à-dire par Pr ■
Pr indique donc la probabilité qu’il y a de tirer, à partir dune urne
binaire, un échantillon comportant r boules noires sur les n boules de l’échan¬
tillon (^).
Appelons « événement favorable ». ou « succès », le tirage d’une boule
noire, celui d’une boule blanche étant considéré comme la non-réalisation de
l’événement favorable.
On peut dire alors que F, exprime la pro¬
babilité d’avoir r succès sur n épreuves succes¬
sives : Les termes respectifs de la distribution
km Q
0 1 2 3
.
r
Fig. 28.
binomiale, représentent donc, dans l’ordre, les
probabilités d’avoir 0, 1,2, 3, ..., n .... n succès
.£1 nombr-e
n de succès
sur n épreuves répétées (fig. 28).
Ainsi, lorsque l’événement aléatoire se
réduit à une alternative (tirage ou non tirage
d’une boule noire) dont la probabilité élémentaire de réalisation q (ou de
non-réalisation p = l—q) tst constante, la probabilité du nombre de succès
sur n épreuves répétées est donnée par les termes successifs du développement
de (p + qT.
Tous les termes du développement sont donc alors de la forme p" et ils
ne diffèrent les uns des autres que par la valeur du coefficient C.
Mais il résulte de l’expression du coefficient C que si deux termes sont
situés à égale distance des extrémités du développement, ils ont même coef¬
ficient.
En effet, si un terme a pour rang r, son « symétrique » aura pour rang
(n — r). Le coefficient de ce dernier terme sera donc obtenu en remplaçant r (*)
(*) Remarquons que cet échantillon comporte un nombre de boules blanches égal
à (n — r) qui est l’exposant de p dans l’expression de P^, alors que r, nombre de boules
noires, est l’exposant de q.
DISTRIBUTION BINOMIALE 53
par (/I —r) dans l’expression de C^, ce qui, on le constatera, ne change pas
cette expression.
Il en résulte que, si p = q, les termes situés à égale distance des extré¬
mités du binôme deviennent respectivement égaux entre eux : la distribution
est dite alors symétrique (fig. 29).
d’où :
r = nq.
r = nq
m = nq
et, lorsque les conditions précitées sont réalisées, cette moyenne correspond
au rang du terme le plus probable (^).
Cela veut dire que dans xme série de n épreuves dont la probabilité cons¬
tante de succès est q, le nombre de succès auquel on doit s’attendre est nq.
(1) Lorsque p = q, la distribution, qui est alors symétrique, est donc symétrique
autour de la moyenne.
56 ST A TISTIQUE PR OBA Bl LISTE
C’est ainsi que si l’on joue 100 parties de pile ou face, on doit s’attendre à sortir
pile (ou face) 100 x i = 50 fois. Ce qui veut dire que si l’on fait un grand nombre
de séries de 100 parties, la moyenne du nombre de piles (ou de faces) sera voisine
de 50, bien que l’arrivée de 50 fois pile (ou face) exactement puisse être très rare.
La. variance d’une distribution binomiale est donc donnée par la formule :
=n.p . q
a =yjn.p.q
Ainsi pour 100 parties de pile ou face, on doit s'attendre à un écart type théorique
a-j/lOOx 1x1=5.
Ce qui veut dire que lorsqu’on fait un grand nombre de séries de 100 parties, la
moyenne des écarts par rapport à la moyenne (ici égale à 50) sera voisine de 5.
mg = q
Cela veut dire que la proportion la plus probable est précisément, comme
on pouvait s’y attendre, celle qui correspond à la composition de turne
binaire.
(1) En réalité, la probabilité de naissance d’un garçon est très légèrement supé¬
rieure à la probabilité de naissance d'une fille et l’urne binaire représentative de la déter¬
mination des sexes devrait contenir environ 105 boules « garçons » pour 100 boules
« filles ».
58 STATISTIQUE PROBABILISTE
DISTRIBUTION NORMALE
Définition
P — _ p-{r-nq)^l2npq
yj2 n npq
où e est la base des logarithmes népériens.
Mais on se souvient que dans une distribution binomiale la moyenne
est m = nq et la variance = npq. L’expression précédente peut donc
s’écrire :
y= __ . p-(x-myi2a^
(3)
Oyj2n
Courbe centrée
y= (4)
Oyj2n
Écart réduit
t=
£
<T
y = —î—. e (5)
a yjln
avec :
x—m
t=
a a
Courbe réduite
(6)
On voit qu’au facteur l/>/2 n près, cette équation est celle de la courbe
en cloche que nous avons précédemment étudiée (^).
(^) Il en résulte, comme on peut le voir en comparant les relations (S) et (6),
que l’ordonnée ^ de la courbe < réduite » et l’ordonnée y de la courbe non réduite,
sont liées par la relation = ay. Si donc les abscisses de la courbe t réduite » ont été
divisées par a, en revanche ses ordonnées ont été multipliées par a- La t réduction »
a donc conservé les aires. Les aires comprises sous la courbe réduite entre des abscisses
données sont donc exactement équivalentes aux aires correspondantes comprises sous
la courbe non réduite.
(-) Cf, Rappel mathématique, p. 201.
DISTRIBUTION NORMALE 65
plus lentement au-delà de ces points, jusqu’à devenir asymptote à l’axe des
abscisses. Il est clair que la forme de la courbe sera déterminée par la valeur
du a ; plus le a est faible, plus les points d’inflexion seront près de l’axe et
plus la courbe sera resserrée autour de la moyenne, et inversement bien
entendu.
Fig. 41.
_ 1
^ a yjln
Cette valeur est donc en raison inverse de a. Donc plus le a sera petit, plus
le sommet de la courbe sera élevé, et inversement
Au total, par conséquent, plus le a est faible, plus la courbe est étroite
et haute, plus le a est grand, plus la courbe est basse et étalée (fig. 42).
r -l=e-^^/^.dx
J ^ 2 7t V
«I
Fig. 47.
qui est mesurée par l’ordonnée la plus à droite de la courbe intégrale, soit Yt
(fig. 47), laquelle est égale à 1 (*)•
(D -L=e-*^i^.dt
yj2n
0
J . dx vaut n.
— 00
L’intégrale précédente, qui n’est autre que celle-ci multipliée par est donc bien
^2n
égale à 1.
70 ST A TISTIQ UE PR OBA BI LISTE
4° la surface
7r(r,) = r 1
J y! 2n
“ 00
Exemple. — Pour /j z= 0,5, on trouve dans les tables des pages 200 et 201 :
= 0,352 1
<I)(/i) = 0,191 5
2a)(/i) = 0,383 0
1 - 2 0(/i) = 0,617 0
(/i) = 0,691 5
1 -;r (ti) = 0,308 5
Ces tables permettent donc d’obtenir facilement pour toute valeur x d’une
distribution normale la probabilité qui lui correspond, ainsi que les différentes
probabilités cumulées qui peuvent s’y rattacher.
Nota. — Les tables ayant été établies pour la courbe réduite, il faut préalablement
calculer t à partir de la valeur considérée de x, par la relation
x—m
t = -.
a
L’ordonnée réduite correspondante une fois obtenue dans les tables, on revient à
l’ordonnée non réduite cherchée y par la relation y = lcr.
Ainsi pour la valeur x = 6 d’une distribution normale de moyenne m = 5 et de
a = 2, on a
= 0,5.
0,352 1
y = 0,176 0.
a 2
La probabilité de la valeur x est donc 0,176 0, soit 17,6 %.
(^) Plus précisément 68,26 %, comme on peut le vérifier dans la table de la courbe
de Gauss, p. 208.
(*) Plus précisément 95,44 %, comme on peut le vérifier dans la table de la courbe
de Gauss, p. 208.
DISTRIBUTION NORMALE 73
(1) Plus précisément 99,06 %, comme on peut le vérifier dans la table de la courbe
de Gauss, p. 208.
74 STATISTIQUE PROBABILISTE
DISTRIBUTION DE POISSON
Exemple introductif
Supposons par exemple que l’ume binaire qui nous a servi à étudier la
distribution binomiale contienne 999 boules blanches et seulement une boule
noire. On conçoit que la boule noire unique a très peu de chances de sortir,
en fait une chance sur 1 000 seulement, soit 0,1 % : la probabilité de cet
événement est donc très faible. Elle n’est cependant pas nulle et si nous
effectuons 1 000 tirages, par exemple, nous pouvons espérer tirer une fois
la boule noire. Au cours de ces 1 000 tirages, la boule noire a cependant
beaucoup plus de chances de ne pas sortir. Inversement, il n’est pas impos¬
sible qu’elle sorte deux ou trois fois, ou même davantage. On devine, cepen¬
dant, que ces éventualités seront d’autant moins probables qu’elles impliquent
un plus grand nombre de fois le tirage de la boule noire.
C’est effectivement ce qui se passe : si l’on établit le graphique des proba¬
bilités, on constate, en effet, que les probabilités deviennent rapidement très
petites dès que le nombre r de boules noires à tirer augmente (fig. 57).
n !
Pr = g'
r\{n-r)\‘
qui donnait la probabilité du terme de rang r, tend alors vers l’expression :
(1)
r! •
On montre d’autre part que, comme la distribution binomiale dont elle
est issue, la distribution de Poisson a pour moyenne m = nq.
L’expression de P, devient alors :
Pr = (2)
(1) Cf. s. Geller, Abrégé de Mathématiques, Masson éd., Paris, 1969, p. 220.
(2) Il en résulte que si l’on connaît la fréquence relative de ce terme, on peut
en déduire la valeur de m et, par suite, la valeur de tous les termes de la distribution.
En effet, soit /q la fréquence relative du terme de rang zéro, = e"" d’où :
log/o = — m . loge et
-log/o -log/o
loge 0,434 3 ■
DISTRIBUTION DE POISSON 11
(1) Dans ce cas, en effet ces deux termes sont égaux : si r = w, le terme en r.
qui est
m’’
■I
devient :
m"
e .
I ’
m
c’est-à-dire ;
m . (m— 1) ! ’
c'est-à-dire :
w”
(m-D!
—m
a = y/m
e-m
Pr =
7i ■
(1) Ces tables donnent pour les différentes valeurs de r, la probabilité du terme
correspondant en fonction de la moyenne m trouvée pour un grand nombre de mesures.
80 STATISTIQUE PROBABILISTE
TABLEAU X
0 109 109,7
1 65 65,8
2 22 18,8
3 3 4,1
4 1 0,6
5 0 0.1
(1) Nous verrons ultérieurement (p. 133) comment on peut effectuer ce calcul.
(2) Plus précisément, on montre que l’on est conduit à une loi de Poisson lorsque
la probabilité qu’un événement se produise dans un intervalle de temps infiniment petit
dt est proportionnelle à la durée de cet intervalle : p = Xdl, c’est-à-dire
P
— = A = constante .
dt
La probabilité de l’événement est donc constante pour un même intervalle de temps dt
(d’où le nom d’aspect « différentiel »), ce qui explique la parenté de cette loi avec la
fonction exponentielle.
DISTRIBUTION DE POISSON 81
de temps donné, par exemple une minute. Si l’on fait plusieurs comptages
pour des intervalles de temps égaux, on obtient des chiffres différents qui se
répartissent autour d’une moyenne suivant une loi de Poisson.
Si l’on veut que cet écart ne soit pas trop important, il faut prendre m assez grand,
donc compter sur un intervalle de temps suffisamment long.
•r»,T
^‘- .A“‘ ’i
;
il ..
V
V-
it ■ ■.'* .'W V :
**' *,
,..^1
'1 .«.riU=-«îl£.-/.'V f *
r^Y *■ -"J -
|l‘V* V , ••■.; *■'-■.'■ , ♦' i-1 -W’
m\r:‘
,-^^sA f'si'.“if-irji'.’ '
.''‘■V , '.,
-, - ^
■Sf5tiï«. ' f ..'• ■"*■•' w . ' . t ■ * îi.*-. i'
" ■■ • “^î-. ' •■.«»■■ ^ "'à Y- :><
îf;- - ; "K
.r -f , »■
A V F> ^ ' /
..
■ '7., ’.iifii,
> .■^j-'*4llEwl
rSdiîSÆfltt. sM' • ‘«rifTlMû
Ü»âS':.iSLJÉÊi
TROISIÈME PARTIE
INTERPRÉTATION STATISTIQUE
CHAPITRE VU
ESTIMATION DE LA MOYENNE
Tout travail statistique, par la force des choses, ne peut porter que sur
un nombre limité de valeurs dont l’ensemble constitue l’effectif de l’échan¬
tillon statistique. Or ce qui intéresse l’observateur, ce n’est pas tellement
l’échantillon lui-même, mais la population d'origine, d’effectif théoriquement
infini, dont on peut considérer, nous l’avons vu, que cet échantillon a été tiré.
Ainsi, si nous étudions par exemple le taux du cholestérol sanguin dans un groupe
de trente adultes jeunes normaux, ce qu’il nous importe de connaître ce n'est pas le taux
du cholestérol de ces trente sujets-là, mais bien celui de l’adulte jeune normal, c’est-
à-dire de l’ensemble des adultes jeunes à l’état normal qui constituent i la population
d’origine > dont on peut considérer que l’échantillon étudié a été tiré.
Fig. 65.
l~ir (‘)
° N n-r
On peut donc utiliser cette valeur pour calculer le Sm qui sera donc égal à
^ a ! " - ^
s„ = — .
Vn-1
A partir des valeurs estimées de M et de , on pourra exprimer l’inter'
valle de confiance de la moyenne qui sera donc finalement
"»o ± 2
au coeflScient de sécurité de 95 %, et
"»o±2,6
a
n-\
au coefficient de sécurité de 95 % et de :
wo ± 2,6 = 4,50 + (2,6 x 0,10) = 4^0 + 0,26, soit 4,24 à 4,76
au coefficient de sécurité de 99 %
dit encore paramètre t de Student (^), qui est l’écart réduit de la moyenne (^),
c’est-à-dire rapporté à l’écart type de la moyenne.
l’échantillon est plus réduit (fig. 70). Le paramètre t varie donc en fonction
de n, et il est d’autant plus petit, on le voit, que la taille de l’échantillon se
rapproche de l’effectif limite n = 30. A partir de cette valeur de n, la distribu¬
tion du paramètre t se confond pratiquement avec une courbe de Gauss
(fig. 70) et to.os devient, par suite, égal à 2.
Des tables spéciales, dont on
trouvera un extrait page 211 donnent
en fonction de l’effectif de l’échan¬
tillon étudié, et plus précisément en
fonction du « nombre de degrés de
liberté » v, qui est égal ici à /i — 1 Q),
les valeurs limites du paramètres t
qui ont seulement 5 chances sur 100,
(soit /o.o5. fig. 71), ou une chance
sur 100, (soit /oo,i . fig. 71) d’être dépassées sous l’influence des fluctuations
"î ± h.OS Sm
au coeflBcient de sécurité de 95 %. et
m±to.oi Sm
au coefficient de sécurité de 99 %.
1.50
= 0,67 .
">0 ± '0.05 = 4.50 ± (2,57 X 0,67) = 4,50 ± 1,72, soit 2,78 à 6.22
au coefficient de sécurité de 95 % et
"«o±'o,oi = 4,50+ (4,03 x0,67) = 4,50 + 2,70 soit 1,80 à 7,20
au coefficient de sécurité de 99 %.
Valeurs de référence
TABLEAU XI
Phosphatasémies (mg/ml)
33 37 28 32 29 32 23 36 42 30
29 42 28 36 34 30 33 34 35 32
26 31 29 27 32 30 32 28 27 35
30 39 31 33 27 38 18 32 37 30
27 29 33 30 32 33 34 29 35 29
28 30 29 33 36 30 31 37 31 36
28 25 30 26 32 28 29 33 31 34
36 39 37 27 34 28 31 34 26 30
30 29 37 28 29 22 24 31 33 28
30 26 40 30 24 28 26 22 32 34
25 31 28 34 34 33 38 30 27 38
28 31 29 30 28 27 34 30 38 31
37 27 30 41 27 30 19 27 31 26
29 32 27 35 25 31 34 41 24 33
27 30 34
Ce tableau, où les valeurs ont été consignées sans ordre, au fur et à mesure de
leur présentation, est dit « tableau brut ». Le premier travail consiste à ordonner les
valeurs par ordre croissant, ce qui amène au tableau XII, dit « tableau ordonné » :
TABLEAU XII
18 19 22 22 23 24 24 24 25 25
25 26 26 26 26 26 26 27 27 27
27 27 27 27 27 27 27 27 27 28
28 28 28 28 28 28 28 28 28 28
28 28 29 29 29 29 29 29 29 29
29 29 29 29 30 30 30 30 30 30
30 30 30 30 30 30 30 30 30 30
30 30 30 31 31 31 31 31 31 31
31 31 31 31 31 32 32 32 32 32
32 32 32 32 32 33 33 33 33 33
33 33 33 33 33 34 34 34 34 34
34 34 34 34 34 34 34 35 35 35
35 36 36 36 36 36 37 37 37 37
37 37 38 38 38 38 39 39 40 41
41 42 42
TABLEAU XIII
4 421
d ou JC = -- __ ^ 30,916
n 143
'l. ix-xŸ
et a 4,38
Dans une distribution gaussienne, l’aire de distribution normale est représentée par
la surface comprise sous la courbe entre les ordonnées — 2ff et + 2a, qui englobe 95 %
de la surface totale (cf. p. 72). Les limites de l’aire « normale » sont donc respec¬
tivement ici
x — la- 30,9 — 2 X 4.38 = 22,14
et
.X- -I- 2o- = 30,9 -t- 2 X 4.38 = 39,66.
soit, en arrondissant à l’unité, respectivement 22 et 40.
Toute valeur de la phosphatasémie extérieure à cet intervalle 1 22 — 40 1 pourra
donc être considérée comme pathologique.
Si, cependant, la distribution étudiée n’est pas gaussienne, ce calcul n’est pas
utilisable. Si donc le caractère gaussien de la distribution de référence ne peut être
affirmé, il est préférable de recourir à l’approche non paramétrique qui ne préjuge
pas du type de la distribution étudiée.
Dans cette approche, rappelons-le, les valeurs sont rangées par ordre croissant
x,, X.,... x„. On notera que, comme certaines valeurs se répètent, des valeurs égales
auront cependant des rangs différents (Tableau XII).
Afin de pouvoir comparer les résultats avec ceux des méthodes paramétriques,
proposons-nous de déterminer respectivement les quantiles 0,025 (c’est-à-dire le per¬
centile 2,5) et 0,975 (c’est-à-dire le percentile 97,5) qui laissent chacun à l’extérieur
2,5 % des valeurs et qui englobent donc également entre eux 95 % des valeurs de la
distribution.
On montre que, pour estimer le quantile 0,025, il suffit de prendre la valeur dont
le rang est égal à 0,025 (n -|- 1), soit ici 0,025 X 144 = 3,6. Le quantile cherché se situe
donc entre la valeur de rang 3, soit ici 22 (tableau XII) et la valeur de rang 4, qui est
également 22 (tableau XII). C’est donc le quantile 22.
De la même façon, le quantile 0,975 est égal à 0,975 (n -f 1), soit ici
0,975 X 144 = 140,4. Le quantile 140 est 41 et le quantile 141 également (tableau XII).
Le quantile cherché est donc le quaiitile 41.
On aboutit ainsi aux valeurs limites 22 — 41, assez proches, on le voit, dans ce cas
particulier, des valeurs obtenues par la méthode paramétrique.
Avec la méthode non paramétrique, le calcul est beaucoup plus complexe. Il existe
des tables spéciales (i) qui ne sont utilisables cependant que pour un nombre d’obser¬
vations au moins égal à 120. Dans l’exemple étudié, on trouverait qu’au niveau d’in¬
certitude de 0,10 les intervalles de confiance des limites de référence 22 et 41 sont
respectivement 18 à 24 et 38 à 42, donc un peu plus étendus qu’avec la méthode
paramétrique.
(1) Reed A.H., Henry R.J., Mason W.B. : Influence of statistical method used
on the resulting estimate of normal range. Clin. Chem., 1971, 17, 275.
ESTIMATION DE LA MOYENNE 101
1 3 5 7 9 11 13 15 17 19 21
/ode protéique p.g/100 ml
Si l’on avait étudié dans les mêmes conditions un autre groupe numéri¬
quement identique de 120 malades comparables, atteints de la même affection
et traités de la même façon, on aurait trouvé, par suite des fluctuations for¬
tuites, un pourcentage différent, disons, par exemple, 25 % de guérisons.
Comme dans le cas d’une moyenne, on est donc amené à rechercher jus¬
qu’à quelles limites les variations du pourcentage peuvent être mises sur le
compte des fluctuations fortuites, c’est-à-dire à déterminer l’intervalle de con¬
fiance du pourcentage observé.
Pour résoudre ce problème, il faut, par analogie avec ce que nous avons
vu pour l’intervalle de confiance d’une moyenne, rechercher comment se dis¬
tribuent les différents pourcentages qi, q2, qz, etc. correspondant aux
nombres r\, r2, r^, etc. de guérisons que l’on observerait en recommençant
un grand nombre de fois l’expérience avec différents échantillons de même
effectif n, à partir d’une population théoriquement infinie ayant la même
composition, c’est-à-dire comportant une proportion identique q de guéris
[et une proportion identique p = (1 — ^) de non-guéris].
Considérons donc une urne binaire comportant la même proportion q
de boules noires correspondant aux malades guéris et la même proportion
P = 1 — (? de boules blanches correspondant aux malades non guéris.
ESTIMATION D’UN POURCENTAGE 103
même moyenne q et même écart type, soit . Dans ces conditions, la distri¬
bution des pourcentages est une distribution normale de moyenne q et d’écart
type Sg (fig. 73). L'intervalle de confiance du pourcentage sera donc q±2s^,
c’est-à-dire, d’après les valeurs estimées
^0 ± 2 ^80
qo±2,bSq^
Fig. 73.
pour le coefficient de sécurité de 99 %, avec
_ / Qo (1 -<?o) /0,30x0,70
= 0,0418 = 4,18 Vo .
120
Le pourcentage vrai est donc compris, au coefficient de sécurité de 95 %. dans
l’intervalle à (^o + 2J,o), soit
30-(2,6 X 4,18) = 19,13 %, à 3C +(2.6 x 4,18) = 40.87 %, soit entre 19.1 3 et 40.87 %.
On voit que les limites de confiance d’un pourcentage sont beaucoup plus
larges que pour une moyenne. // jaut donc toujours interpréter avec réserve
les résultats portant sur des pourcentages.
On peut s’cn rendre compte en évaluant l’erreur relative faite sur l’intervalle
de confiance. Pour le seuil de 95 % elle vaut
2 ^
<1
c’est-à-dire
(1-g)
q nq
ou encore, en % :
4x100 .
N nq
On voit que si q diminue, simultanément le numérateur augmente tandis que le
dénominateur diminue. Par suite l’erreur relative augmente très vite quand q diminue.
ESTIMATION D'UN POURCENTAGE 107
Position du problème
Hypothèse nulle
population d’origine.
Nous savons que si, à partir d’une même population d’effectif N très
grand, théoriquement infini, on tire un premier échantillon d’effectif «1, la
valeur la plus probable pour la moyenne mi de cet échantillon sera M. vraie
moyenne de la population globale. Si l’on recom¬
mence avec un autre échantillon d’effectif /I2. la
valeur la plus probable pour la moyenne mz sera
aussi M. Cette probabilité étant d’autant plus
0 Sjj grande que l’effectif de l’échantillon en question
Fi«- 78. est plus grand. Il en résulte que si l’on étudie la
différence (mi—mz). on doit s’attendre, intuitive¬
ment, à ce que sa valeur la plus probable soit zéro.
On montre effectivement que si d’une population d’effectif N très grand
on tire au hasard des échantillons d’effectifs différents ni et nz ayant respec¬
tivement pour moyenne mi et mz et qu’on recommence un grand nombre de
fois l’expérience, les différences (mi—mz) se répartissent suivant une distri¬
bution normale autour de la valeur zéro (représentée par l’éventualité
mi = m2 = M).
COMPARAISON DE DEUX MOYENNES 111
La distribution des différences des moyennes est donc dans ce cas une
distribution normale qui a pour moyenne zéro (fig. 78).
On montre en outre que la variance, dite o variance standard », des
différences que nous symboliserons s\ de cette distribution des différences
des moyennes est égale à la somme des variances respectives des distributions
des moyennes de chaque échantillon (^).
«1 — 1 «2 — 1
s d2 ^ ^ fi
«1 «2
(^) Ceci résulte du principe de l’additivité des variances qui est également valable
pour les différences : en effet, du fait que les écarts peuvent se faire en sens inverse,
la dispersion propre de chaque distribution contribue à augmenter la dispersion de la
différence.
112 INTERPRÉTATION STATISTIQUE
Si donc nous trouvons que cette différence est supérieure à 2 s'd, plutôt
que d’accepter une éventualité qui n'a que 5 chances sur 100 de se réaliser,
nous admettrons (avec cependant 5 chances sur 100 de nous tromper) que
notre hypothèse initiale était fausse et que les deux échantillons appartiennent
en réalité à des populations différentes ; nous dirons alors que la différence
observée est significative au seuil de probabilité de 5 %.
Une différence sera donc considérée comme significative au seuil de
probabilité de 5 % si elle est supérieure à 2 Sd :
d > Isd
d>2,6sd
Pour savoir si une différence d observée entre deux moyennes est, ou non,
significative, il suffira donc de calculer, à partir des écarts types cri et CT2 de
chaque échantillon, l’écart standard de la différence, Sd et de voir si la diffé-
a.
m2 = 6,3
00
5
3
II
3
Il
Kl
II
1
= 1,5 <T2 = 1,7
ni = 253 «2 = 100
On calcule :
Sa = /-1-—
1 5)2 /( ,
(XJ)2
/ --TV- H—77^ = 0,194
V «t «2 V 253 100
d'où
2 î. = 0,39 et 2,6 i. = 0,47.
La différence d entre les deux moyennes, qui vaut 1,8, est donc très supérieure à
2s^ et même à 2,6 s^. La probabilité qu’une telle différence soit purement fortuite est
donc très inférieure à 1 %. On doit donc la considérer comme très significative. On peut
donc conclure légitimement que les corticoïdes urinaires sont plus élevés chez les obèses
dans les conditions étudiées.
(2) Il faut savoir qu’une différence en réalité significative peut cependant ne pas
apparaître comme telle si les effectifs des échantillons étudiés sont insuffisants. Si donc
une différence n’est pas trouvée significative, cela ne veut pas dire nécessairement que
les deux échantillons appartiennent à la même population. Ce mode de raisonnement,
il importe de ne pas l’oublier, permet d’affirmer, avec une probabilité donnée, une
divergence, mais non une identité.
114 INTERPRÉTATION STATISTIQUE
* «1+/I2-2
qui tient compte à la fois des variances estimées de chaque échantillon, soit
(cf. p. 91)
2 »2 <72
(T
ei
et
«1-1 «2 - 1 ■
avec
a, = = 1.75.
On a donc :
La différence d entre les deux moyennes, qui vaut 1,80, est donc inférieure à
/q 05 . . Elle ne peut donc pas être considérée comme significative, même au seuil
de probabilité de 0,05 (').
d _ 1,80
1.91
“ 0,94
correspond à une aire [1-2 <!>(/)] qui vaut 0,0574, c’est-à-dire qu’un tel écart a exacte¬
ment 5,74 chances sur 100, donc un peu plus de 5 chances sur 100, de se produire sous
l’influence des seules fluctuations fortuites.
CHAPITRE X
tifs différents n\ et «2, prélevés au hasard à partir d’une même population d’ori¬
gine d’effectif N très grand, se distribuent normalement autour de la valeur zéro.
COMPARAISON DE DEUX POURCENTAGES 117
<2(1-0,6(1-g)
Ug Qi Q1 «1 «2
Ainsi,
(1)
et
^1+^2
ô.= ni+/»2 *
valeur que l’on substitue à Q dans l’expression (1) qui devient finalement :
avec
^1+^2
Qe =
«1 +«2
dç > 2 Sdg
dg > 2,6
On calcule d’abord Q,
ri+ri 50 + 54
G.= = 0,297
n,+/i2 200+150
et par suite
2r,, = 0,098 et 2,6 r,, = 0,127.
La différence des pourcentages dg, qui vaut 0,11, est donc légèrement supérieure
à 2 s^g mais inférieure à 2,6 s^g. Elle serait donc significative au seuil de probabilité
de 0,05 mais pas au seuil de probabilité de 0,01 (^). C’est un cas où il est préférable de
réserver la conclusion et de considérer qu’une nouvelle enquête est nécessaire avant de
conclure.
0,11
vaut
0,049
= 2,2.
Sdq
D’après les tables de <I> f r) cette valeur de i correspond à une valeur de l’aire
[1 — 2 <I> (/)] qui vaut 0,027 8. Ce qui veut dire qu’il y a exactement 2,78 chances sur 100
d’observer un tel écart sous l’influence des fluctuations fortuites.
120 INTERPRÉTATION STATISTIQUE
(en pratique au moins égal à 100) et si les pourcentages observés ne sont pas
voisins de 1 ou de 0. S’il n’en est pas ainsi, la distribution des pourcentages
et, par suite, celle de leurs différences, ne sont plus normales. La méthode
précédente ne peut plus être appliquée et l’on doit résoudre le problème
dans chaque cas particulier en s’appuyant sur les propriétés de la distribution
binomiale.
Toutefois, on peut éviter les calculs, particulièrement laborieux, qui sont
alors nécessaires, en recherchant dans les tables les intervalles de confiance de
chaque pourcentage.
«1 = 11 «2 = 13
Formons le rapport Fj j des variances :
(2.3)2 = 1,46
cfi (1.9)2
Reportons-nous à la table de Snédécor : Pour vi = ni —1 = 11 —1 = 10 et
V2 = «2 — 1 = 13 — 1 = 12, la table indique que la valeur limite de F au seuil de proba¬
bilité de 0,05, c’est-à-dire qui a seulement 5 chances sur 100 d’être dépassée par suite
des fluctuations fortuites, est Fq q, = 2,76. La valeur trouvée pour F, soit 1,46 est
nettement inférieure. Il n’y a donc pas de différence significative entre les deux variances
observées. (*)
(*) Le risque indiqué les tables donne la probabilité de dépasser la limte supérieure,
correspondant au rapport de l’intervalle de fluctuation du rapport des variances. Pour
la limite inférieure de cet intervalle, qui correspond au rapport inverse il existe un risque
égal de rester inférieur à cette limite. Pour obtenir le risque réel total U convient donc de
multiplier par 2 le risque indiqué par les tables (cf. à ce sujet par exemple : D. Schwartz,
Méthodes statistiques à l'usage des médecins et biologistes. Éditions médicales Flammarion!
1963, p, 164). ’
CHAPITRE XII
ANALYSE DE LA VARIANCE
Variance intra-groupe
+ ...-f-
ni ni ni, k
= ZZ(^<-"'i)^-
1
Z Z iXi-m,y
Variance inter-groupe
(1) Le symbole qui se lit « somme des sommes •, signifie simplement que
l’on fait la somme de toutes les sommes telle que ^ (Vj —pour tous les k groupes
de l’ensemble.
126 INTERPRÉTATION STATISTIQUE
Sl = f,n{m-My .
1
Vb =
(1) Dite encore dispersion « factorielle », car elle met en évidence l’influence éven¬
tuelle du facteur en fonction duquel on a distingué les différents groupes, la variance
intra-groupe étant alors appelée la variance « résiduelle ».
ANALYSE DE LA VARIANCE 127
' Le problème se ramène donc à tester la divergence entre deux variances (*), ce
qui, nous venons de le voir, se fait par l’étude du rapport des deux variances
à comparer.
On formera donc le rapport Va/Vb (ou VbIVa si Vg > Va) et on recher¬
chera dans les tables de Snédécor le seuil de signification de ce rapport au
coefficient de sécurité désiré de 95 ou 99 % (^). Si ce rapport est supérieur au
seuil de signification, on doit rejeter l’hypothèse de population unique et
. admettre que les différences constatées entre les différentes moyennes sont
bien significatives.
Exemple. — On a dosé les corticoïdes urinaires chez 40 sujets de sexe féminin qui
, ont été répartis en fonction du poids en quatre groupes : I, de 50 à 59 kg ; II, de 60 à
69 kg ; III, de 70 à 79 kg ; IV, de 80 à 89 kg, comportant chacun 10 sujets.
Le tableau ci-dessous donne les résultats obtenus (en mg/24 h).
TABLEAU XIV
Corticoïdes urinaires chez 40 sujets de sexe féminin
I II III IV
Peut-on en conclure que les différences observées entre ces moyennes sont signifi¬
catives et que, par suite, le facteur < poids > en fonction duquel on a distingué ces
différents groupes a une influence sur le taux des corticoïdes urinaires ?
(^) D’où la dénomination t d'analyse de la variance », qui ne doit pas faire perdre
UC vue cependant qu’il s’agit d’un problème de comparaison de moyennes.
(2) On entre dans les tables de Snédécor avec le degré de liberté correspondant à
chacune des variances envisagées, c’est-à-dire va = (N — k) pour la variance intra-
groupe et vb = (^ —0. Pour la variance inter-groupe.
128 INTERPRÉTATION STATISTIQUE
^2 = = 22,26
•^3 = = 19,94
si = Y(x — m4)^ = 20,83
d’où
SI = sl+sl + sl+sl = 69,87
et
1 ^ 69,87
yA = 1,94.
N-k^ ^ 40-4
16,30
= 8,4.
1,94
ANALYSE DE LA VARIANCE 129
ADAPTATION
D’UNE DISTRIBUTION EXPÉRIMENTALE
les coefScients étant respectivement : 1, 7, 21, 35, 35, 21, 7, 1, figurant à la septième
ligne du triangle de Pascal.
Les effectifs correspondants seront donc les produits de 1 877 par les termes
successifs du développement de (1/2+1/2)7, soit
1877
Li28 128 128 128 128 128 128 ^ 128j
dont la somme est bien égale à 1 877 (puisque la parenthèse est égale à 1).
Fig. 82.
Les résultats obtenus sont indiqués dans la colonne (3) du tableau ci-dessous
(tableau XV) et la figure 82 reproduit les deux diagrammes correspondant resi>ecti-
vement à la distribution réelle et à la distribution théorique.
TABLEAU XV
Adaptation d’une distribution binomiale
0 21 14,6
1 111 102,6
2 287 307,9
3 480 513,2
4 529 513,2
5 304 307,9
6 126 102,6
7 19 14,6
(^) On peut également dans ce cas utiliser pour le calcul des factorielles la formule
approchée de Stirling :
h! n" . e~’'^lnn
n = 738;Ô9 = 6,2 .
Le tableau ci-contre (tableau XVI) reproduit cette distribution dans les colonnes (1)
et (2).
La colonne (3) indique les limites des classes, qui sont disposées verticalement
de façon à encadrer la classe correspondante.
Dans la colonne (4) on indique les écarts réduits correspondant à ces limites,
obtenus par la relation
x—x
t = -.
a
39,5-54,9
t= = 2,5(0.
6.2
Connaissant les écarts réduits, on trouve dans les tables de la fonction n (0 les
fréquences cumulées correspondantes qui sont indiquées dans la colonne (5).
(1) Pour les valeurs suivantes, il est inutile de refaire le calcul. En effet, les valeurs
réduites suivantes se déduisent de la précédente en lui ajoutant la largeur de l’intervalle
de classe réduit, soit hia, qui est ici égal à 5/6,2 = 0,8. On les calcule donc de proche
en proche à partir de la première valeur. Il est prudent cependant de recalculer direc¬
tement la dernière valeur à titre de vérification.
134 INTERPRÉTATION STATISTIQUE
TABLEAU XVI
— OO
—00-39,5 0 0,0062 0,62
39,5 -2,5 0,0062
39,5-44,5 5 0,0384 3,84
44,5 -1,7 0,0446
44,5-49,5 12 0,1395 13,95
49,5 -0,9 0,1841
49,5-54,5 31 0,2761 27,61
54,5 -0,1 0,4602
54,5-59,5 31 0,2978 29,78
59,5 -h0,7 0,7580
59,5-64,5 16 0,1752 17,52
64,5 + 1,5 0,9332
64,5-69,5 3 0,0561 5,61
69,5 +2,3 0,9893
69,5-74,5 2 0,0097 0,97
74,5 + 3,1 0,9990
74,5-+ oo —
0,0010 0,10
+ 00
1,0000 100,00
Il faut encore compléter cette colonne par la fréquence cumulée des valeurs
comprises entre — oo et la limite inférieure de la première classe (qui est donnée par la
fréquence cumulée de cette limite, soit ici 0,0062) d’une part et, d’autre part, par la
fréquence cumulée des valeurs comprises entre la limite supérieure de la classe supé¬
rieure et + 00 (qui est donnée par le complément à 1 de la fréquence cumulée de cette
limite supérieure, soit ici 1 —0,9990 = 0,0010).
Il s’agit là de fréquences relatives. Pour obtenir les fréquences absolues corres¬
pondantes, il suflSt de les multiplier par l’effectif N ici égal à 100 [colonne (7)].
La confrontation des colonnes (2) et (7) du tableau permet de se rendre compte
de la qualité de l’ajustement qui peut être également appréciée par la confrontation des
diagrammes de fréquence correspondants (fig. 83).
ADAPTATION D’UNE DISTRIBUTION EXPÉRIMENTALE 135
Distribution de Poisson
On peut à cet effet utiliser les formules donnant les termes génériques
de la série de Poisson :
TABLEAU XVII
Adaptation d’une distribution de Poisson
Y Fx 122
m= ^- = - =0,61
N 200
Pour cette valeur de ni, les tables de la loi de Poisson (table III, p. 210) donnent
les valeurs successives de P, qui sont indiquées dans la colonne (4).
Il suffit de les multiplier par l’efiectif N pour obtenir les effectifs théoriques cor¬
respondants qui sont indiqués dans la colonne (5). On a déjà noté la qualité de l’ajus¬
tement obtenu (fig. 60, p. 79).
CHAPITRE XIV
CRITÈRE DU
Notion de
Pour chacune de ces valeurs (ou classes), cette divergence est définie
par l’écart (F — O) qui sépare son effectif expérimental F de son effectif théo¬
rique O. Comme pour les écarts à la moyenne, on est amené à prendre en
considération les écarts quadratiques (F-O)^ qui sont indépendants du signe.
Par ailleurs, on conçoit qu’un écart donné n’aura pas la même signification
suivant qu’il se rapporte à une classe comprenant un grand ou un petit
10
138 INTERPRÉTATION STATISTIQUE
nombre de cas. Pour donner à chaque écart le « poids » qui lui revient, on
est donc amené à rapporter l’écart quadratique correspondant à l’effectif théo¬
rique que l’on aurait dû observer pour cette valeur. On est ainsi amené à
définir pour chaque valeur ou classe de la distribution l’écart quadratique
relatif (F —qui caractérise au mieux la divergence entre son effectif
expérimental F et son effectif théorique O.
Pour l’ensemble de la distribution, on est ainsi amené à définir un para¬
mètre appelé (lire « khi deux » ou a khi carré ») qui fait la somme de tous
les écarts quadratiques relatifs pour les k classes qu’elle comporte :
^ “ ô; ^
ce qu’on peut symboliser ;
Distribution du x^
Détermination pratique du x^
TABLEAU XVni
VÉRIFICATION d’adaptation D’UNE DISTRIBUTION BINOMIALE
Pour entrer dans les tables du x^ A f^ut encore déterminer le nombre de degrés
de liberté, c’est-à-dire le nombre de différences indépendantes. 11 y a huit termes à
comparer. Mais ces huit termes sont liés par deux relations, à savoir, d’une part ;
somme des effectifs de chaque classe = 1 877. D’autre part ; somme des termes = 8.
11 y a donc seulement 8 — 2 = 6 degrés de liberté.
(1) Ce qui ne veut pas dire, il importe de le souligner, que sa valadité soit
démontrée.
CRITÈRE DU 141
Exemple 2. — Faisons le même calcul pour la distribution des poids de 100 adultes
de sexe féminin dont nous avons calculé précédemment les effectifs théoriques pour une
distribution supposée normale.
Le tableau ci-dessous (tableau XIX) rappelle les effectifs réels F trouvés et les
effectifs théoriques <I> calculés [colonnes (2) et (3)]. On a inclus dans ce tableau les
effectifs théoriques calculés pour les classes comprises entre — oo et la première et
entre la dernière et -foo- Par ailleurs, afin d’avoir un nombre suffisant de valeurs
par classe on a groupé les deux premières classes d’une part et les trois dernières classes
d’autre part.
TABLEAU XIX
VÉRIFICATION d’adaptation D’UNE DISTRIBUTION NORMALE
rique restent dans les limites des fluctuations fortuites. On peut en déduire que l’hypo¬
thèse qui avait été faite sur la nature normale de la distribution n’a pas été infirmée
par les constatations expérimentales.
TABLEAU XX
VÉRincATioN d’adaptation d’une distribution de Poisson
Xï = 0,69
Dans les cas où l’on présume qu’il s’agit d’une distribution gaussienne,
on peut vérifier de façon approximative la normalité de la distribution par des
procédés graphiques simples.
Droite de Henry
En effet, la relation
t =
(*) L’équation de la droite de Henry montre qu’elle a pour pente Ija et qu elle
coupe l’axe des x au point x = m. On obtient donc une estimation approximative de
(Voir xniu’ tte la note p. 144.)
144 INTERPRÉTATION STATISTIQUE
TABLEAU XXI
Détermination de la droite de Henry
Echelle gausao-métrique
Echelle gausso-logarithmique
Si donc, en outre, l’on adopte pour l’axe des ordonnées, non plus une
échelle métrique, mais une échelle gaussienne, la courbe cumulative de répar¬
tition s’anamorphosera en droite de Henry. Un tel graphique, dit gausso-
logarithmique permet donc de vérifier directement la normalité d’une distri¬
bution lorsqu’un phénomène relève de la loi de Galton-Mac Allister (fig. 92).
CHAPITRE XVI
CORRÉLATION STATISTIQUE
Les notions développées dans les chapitres précédents nous ont permis
d’étudier un caractère quantitatif donné, par exemple ; le poids, la taille, la
tension artérielle, un taux humoral, etc. dans une population statistique déter¬
minée, de définir des paramètres numériques permettant de caractériser les
variations de cette grandeur, de préciser le degré de confiance que l’on pouvait
attacher à ces résultats et de les confronter avec ceux obtenus pour le même
caractère quantitatif dans une autre population statistique.
Mais l’on est souvent amené dans les sciences expérimentales et tout
particulièrement en médecine et en biologie, à s’intéresser, non pas aux varia¬
tions d’une seule grandeur, mais aux variations respectives de deux grandeurs,
c’est-à-dire de deux caractères quantitatifs, dans une même population statis¬
tique. Par exemple, on veut savoir s’il existe dans un groupe de sujets une
relation entre le poids et la taille, entre la tension artérielle et le taux humoral
d’une substance, ou encore, dans un lot d’animaux en expérience, une relation
entre le poids global de l’animal et le poids d’un de ses organes, par exemple
la capsule surrénale, etc.
Sur le plan mathématique, ce problème est résolu par la notion de fonc¬
tion qui traduit, on le sait, la relation entre les variations de deux grandeurs,
relation qui est matérialisée par sa courbe représentative y — f (x). Dans ce
cas, à une valeur donnée de la variable indépendante x correspond une valeur
et une seule de la variable dépendante y, que la relation y = f(x) permet
précisément de calculer.
Cette relation étant établie, la connaissance d’une des grandeurs suffit
alors pour déterminer complètement la valeur correspondante de l’autre. Ce
type de relation, dit relation fonctionnelle, est celui qu’on rencontre dans les
sciences dites c exactes >.
Mais le problème se complique lorsque les grandeurs envisagées sont
soumises à des fluctuations statistiques. En effet, en raison de ces fluctuations.
150 INTERPRÉTATION STATISTIQUE
à une valeur donnée d’une des variables il correspond non pas une seule, mais
toute une distribution des valeurs de l’autre variable. Et inversement.
C’est ainsi que dans un groupe de sujets dont on étudie la taille et le poids, pour
une valeur donnée de la taille, par exemple 1,70 m, on trouvera toute une série de sujets
ayant cette taille mais différant entre eux par le poids. Inversement, pour une valeur
donnée du poids, on trouvera toute une série de sujets différant entre eux par la taille.
D ne saurait donc être question de dire que le poids est une « fonction »
de la taille au sens mathématique de ce terme, ou inversement. Cependant,
l’on sent très bien, intuitivement, que si l’on étudie cette population, on trou¬
vera que, dans l’ensemble, les poids les plus importants seront associés aux
tailles les plus élevées. 11 y a donc toute de même une dépendance, une cer¬
taine relation entre les deux grandeurs, mais elle est plus lâche, moins rigide,
que la relation fonctionnelle proprement dite.
Cette relation d’une nature particulière constitue la corrélation statistique
qui joue un rôle important dans les sciences de la vie et plus particulièrement
dans la science médicale, du fait que celle-ci, nous l’avons vu, est essentielle¬
ment une science de corrélation.
Des procédés spéciaux permettent d’étudier cette corrélation statistique,
de mettre en évidence la loi générale qui relie les variations réciproques des
grandeurs envisagées et d’apprécier quantitativement le degré, c’est-à-dire le
caractère plus ou moins étroit de cette liaison. Nous les envisagerons dans ce
chapitre en nous limitant essentiellement au cas le plus simple et du reste
le plus fréquent de la corrélation dite linéaire où l’une des grandeurs varie
proportionnellement à l’autre.
Diagramme de dispersion
X tailles -
Fig. 93. Fig. 94. — Corrélation
positive (directe).
X
Fig. 95. — Corrélation Fig. 96. — Absence de
négative (inverse). corrélation.
Notion de covariance
Hix-x) (y-ÿ)>0.
'Zix-x) iy-ÿ)<0.
Si, enfin, il n’y a pas de corrélation, les points seront uniformément répar¬
tis dans les quatre quadrants, les écarts positifs et négatifs se compenseront
et la somme envisagée sera voisine de 0 :
Hix-x) {y-ÿ)~0.
Par l’étude de cette somme des produits des écarts, on peut donc déjà
-préciser davantage la notion de corrélation.
Bien entendu, cette somme sera d’autant plus grande en valeur absolue
qu’il y aura davantage de couples d’observation. Pour lui donner une signifi¬
cation plus générale, il y a donc intérêt à rapporter cette somme au nombre N
de couples d’observation. On est ainsi amené à définir un paramètre p appelé
covariance qui est égal à la somme des produits des écarts divisée par le
nombre N de couples d’observation :
Z(x-x) (y-ÿ)
^ N
On devine que ce paramètre est appelé à jouer un rôle important dans les
problèmes de corrélation.
Ligne de régression
N
qu’on pourrait écrire
y(x-x)(x-x)
= —-
N
11
154 INTERPRÉTATION STATISTIQUE
(^) Le terme de c régression » a une origine historique. Il a été utilisé par le bio¬
logiste Galton, créateur de la méthode, qui étudiait la relation entre la taille des enfants
et celle de leurs parents, pour rechercher dans quelle mesure la taille des enfants mar¬
quait un retour, une t régression » vers la taille des parents.
CORRÉLATION STATISTIQUE 155
Droite de régression
Un des cas les plus intéressants en pratique est celui où la loi des varia¬
tions moyennes représentée par la ligne de régression est une loi hnéaire,
c’est-à-dire qu’une des grandeurs varie proportioimellement à l’autre. Dans
ce cas, la ligne de régression est en fait une droite dont la linéarité est plus
ou moins masquée par les fluctuations d’échantillonnage.
Lorsqu’on présume qu’il en est ainsi, il est donc naturel de chercher à
f ajuster » à la ligne brisée obtenue expérimentalement la droite théorique,
dite « droite de régression », ou mieux « droite d’estimation », qui lui corres¬
pond, quitte à vérifier par la suite la légitimité de cette assimilation.
On peut certes essayer de tracer cette droite à vue d’oeil, au besoin en
s’aidant d’un fil tendu, si du moins les points ne sont pas trop nombreux ni
trop dispersés. Mais ce procédé est évidemment peu précis et il est préférable
d’utiliser une méthode plus rigoureuse. La méthode généralement adoptée
est la méthode dite des moindres carrés.
En effet, la droite à trouver doit donner la meilleure estimation d’une
variable en fonction de l’autre. Par exemple, pour la droite d’estimation de y,
il faut trouver la droite qui, pour une valeur donnée de x, fournisse la meil¬
leure estimation de y, c’est-à-dire, par conséquent, celle pour laquelle les
valeurs de y seront le moins dispersées possible.
156 INTERPRÉTATION STATISTIQUE
Y-ÿ^a,{X-x)
avec
^ ^ E (x-x) (y-ÿ)
(') En effet, soit (fig, 102) un point P du diagramme, .v et y ses coordonnées par
rapport aux axes ox et oy ; x' = (x—x) et y' = (y— ) ses coordonnées par rapport
aux axes Mxf t\. My' \ A le point de la droite D situé sur la verticale passant par P ;
X et Y ses coordonnées par rapport aux axes ox et oy ; a = tg a la pente de la droite D.
Dans le triangle rectangle MAB, on a
X-x = ay{Y-ÿ)
et un coefficient linéaire de régression de x en y
- Z jy-ÿ) jx-x)
" liy-ÿ)^
qui mesure la pente de cette droite par rapport à Oy.
AB = AC-BC = Y-ÿ
d’où
Y—ÿ = a{X—x).
= Yy'^-2aYx'y'-ya^Y.^'^ •
Cette somme est un trinôme du second degré en a qui passe par un minimum
lorsque sa dérivée s’annule, c’est-à-dire quand
la Yx'^—2 Y^'y' — ®
ce qui a lieu pour
a =
Yx'^
c’est-à-dire
a =
Z(x-;c)2 '
ce qui démontre la proposition.
158 INTERPRÉTATION STATISTIQUE
Z {x-x) {y-ÿ)
Z {x-xf
peut s’écrire
Z (x-x) (y-ÿ)
N
lix-xy
N
Le numérateur de cette expression est la covariance p et le dénominateur
n’est autre que la variance des x, soit . On a donc
et de la même façon
y' y y'
Dx y'
Jx
M M M
■ r Y y-
Dy X' ^ x'
X X
Entre ces deux extrêmes, c’est-à-dire lorsqu’il existe une certaine corré¬
lation, il y a deux droites de régression qui font entre elles un angle inférieur
à 90 degrés (fig. 103/>).
Par conséquent, si l’on part de l’absence de corrélation pour aboutir à la
corrélation parfaite, on voit que les deux droites de régression, initialement
parallèles aux axes, tournent autour du point M en se rapprochant l’une de
l'autre pour finalement venir se confondre (fig. I()3«, 103/), l()3(). La conver¬
gence ou la divergence de ces deux droites donne donc un aspect visuel du degré
de liaison entre les deux variables, cette liaison étant d’autant plus étroite que
les deux droites sont plus voisines l’une de l’autre. On pourra donc évaluer
quantitativement le degré de corrélation, à condition de trouver un paramètre
qui renseigne sur la position respective des deux droites. On devine que dans
ce paramètre seront impliquées les pentes respectives de ces deux droites.
L.L
rr^
= j!-
2 /t
160 INTERPRÉTATION STATISTIQUE
d’où
et de façon symétrique
ûx = 0 et ay = 0,
y
y'
y 0
M rr
yX y X'
D
XX XX
Les formules (1) et (2) montrent que plus r est petit en valeur absolue,
plus les pentes des droites de régression sont faibles et plus elles seront par
conséquent écartées l’une de l’autre. Inversement, plus r est grand en valeur
absolue, plus les pentes des droites de régression seront grandes, plus ces deux
droites se rapprochent l’une de l’autre jusqu’à se confondre complètement
dans le cas de la corrélation parfaite où | r 1 = 1.
L’étude du paramètre r permet donc bien, conformément au but que l’on
s’était proposé, une évaluation quantitative de la corrélation.
<7j; .
p= (y-ÿ)
ainsi que les écarts types CTx et Oy de la distribution des x et des y. Si les don¬
nées sont peu nombreuses, on peut calculer directement ces divers éléments
qui entrent dans la formule du coefficient de corrélation :
Exemple. — Nous avons constaté précédemment (cf. p. 127) que le taux des corti¬
coïdes urinaires s’élevait avec le poids.
Ceci suggère une corrélation entre le poids et le taux urinaire des corticoïdes.
162 INTERPRÉTATION STATISTIQUE
TABLEAU XXII
Corticoïdes urinaires et poids de 40 sujets de sexe féminin
= -{.xY
n
Z(^^)
t2 ^
■(PY
On trouve
= 2 730 = 191 158
d’où
Z^ 2 730
X = = 68,25
40
x = 68,25
On peut alors calculer
.2 _ , 191 158
-(xY = ——-(68,25)2 ^ 120,8
40
et
CT* = 1 1
CORRÉLATION STATISTIQUE 163
Yy 224
ÿ= ^ = 5,60
n 40
P = 5,60
= 1,95
P = - Y.^x-x){y-p)
P = - Y^x.y-x.p.
On trouve
'Y^xy= 15 663,90
d’où
P = 9,40
3° D'où finalement r :
9,40
r = = 0,438
Ox . Oy 11 X l ,95
r =0,438
^ -
= X et ly
^ = P
n n
164 INTERPRÉTATION STATISTIQUE
Il existe donc une corrélation assez nette entre le poids et le taux urinaire des
corticoïdes (i).
Nous pouvons également calculer l’équation de la droite de régression.
Le coefficient linéaire de régression est
_ P 9,40
0,077
^ “ 120,80
= 0,077
Y-P = aAy-x)
c’est-à-dire
y-5,60 = 0,077 (A'-68,25) = 0,077 2r-(0,077 x 68,25)
c’est-à-dire
Y = 0,077 X-fO,35
Mais pour peu que les données soient nombreuses, il est nécessaire de les
grouper en classes et de les présenter dans un tableau à double entrée, dit
(^) Sous réserve que cette corrélation soit significative comme nous le verrons
plus loin.
CORRÉLATION STATISTIQUE 165
TABLEAU XXIII
Tableau de corrélation
Poids en kg (j:)
Total
40-44
60-64
50-54
55-59
65-69 (Fy)
70-74
85-89
90-94
OS
95-99
Ov
t 00
V •r» O
r- 00
1,5-2,4 1 1
2,5-3,4 2 3 4 2 1 2 1 1 16
3,5^,4 2 7 10 17 II 3 4 1 2 57
CORTICOÏDES, en mg/24 h (>>)
4,5-5,4 2 11 6 7 11 9 6 1 3 5 1 62
5,5-6,4 1 2 4 10 9 8 10 6 4 3 1 58
6,5-7,4 1 1 1 3 5 5 7 1 2 1 27
7,5-8,4 3 1 1 4 1 4 2 3 1 20
8,5-9,4 1 3 2 2 2 1 11
9,5-10,4 1 1 1 1 1 5
10,5-11,4 2 1 3
11,5-12,4 1 1 2 4
Total 34 35 36 34 34 17 15 9 5 264
5 10 30
(F.)
166 INTERPRÉTATION STATISTIQUE
X = A+-TF:,{X-A)
n
— pour la variance (cf. p. 25)
= \iY.^AX-aÿ-{x-aÿ
de même pour Y, avec une moyenne provisoire B
^=B+‘iYFy{Y-B)
et
1 !
42 47 52 57 1 62 72 77 82 87 92 97
3'^
a-À
1
<<a-ÀYj
ziS-AYJ
<N
*r\
-
25
(N
(N
(N
-
-64 256
O
ro
<N
-
r*
fO
-171 513
<s
-
On
nO
h'
-
<s
VO
-
w->
-
>o
-124 248
CORRÉLATION STATISTIQUE
1
1
CS
00
O
o\
O
00
sO
ro
00
W-)
-
58
-
-
-
S
CS
v->
-
<s
O
O
O
00
-
-
CS
s-
CS
O
-
+
+20 20
O
-
CS
CS
CO
CS
-
CS
?
4-
+ 22
O
-
-
-
fO
-
•O
4-
+ 15 45
CS
CO
+4 + 12 48
CS
-
CS
CS
O
»r>
+
4-
100
*o
ro
sO
•O
Os
<o
1
1
7
7
VS
O
VS
VS
O
O
VS
+
CS
+
4-
1
!
S*
VS
O
O
-125 -200 -340 -175 + 170 + 340 +255 + 300 + 225 + 150 + 150
<N
1
O
tC
'iw'
3 125 4000 6 750 3 400 875 850 3400 3 825 6 000 5 625 4 500 42 350
167
168 INTERPRÉTATION STATISTIQUE
En faisant les totaux des lignes et des colonnes, on obtient donc respectivement
= +150 et = 42 350
X = 67,57
et
1
= =5.74
Ÿ = 5,74
ainsi que
j = 12,69
de même
-(5,74-7)2 = 3,55
et
Oy = = 1,88.
Oy = 1,88
P =
P= ^'LPxv(X-A)iY-B)-X.Ÿ
^xv représente 1 effectif commun des x et des y, c’est-à-dire le nombre qui figure
CORRÉLATION STATISTIQUE 169
dans les cases du tableau de corrélation, et y étant les points médians des classes
et A et B les moyennes provisoires, respectivement pour les x et les y.
Il faut donc calculer pour chaque case du tableau de corrélation le produit
(X — A) (Y — B). Tous les éléments de ce produit sont déjà dans le tableau de
corrélation ; est le nombre qui figure dans la case, (X — A) et (Y —B) sont donnés
par la colonne et la ligne correspondante.
Ainsi, pour la case de coordonnées AT = 42 et y = 3 on a F^ = 2,iX — A)= — 25
et (y — B) = — 4. On effectue donc le produit {X — A) {Y —B), soit — 25 x — 4 = +100,
qu’il suffit de multiplier par F^, soit 2, ce qui donne F^ (X — A)(Y — B) = 200.
En pratique, il est commode d’écrire F^ soit ici 2, en haut et à gauche de la
case, le produit (X — A) {Y —B), soit ici 100, en haut et à droite de la case, et le
produit F^{X — A){Y — B), soit ici 200, à la partie inférieure :
2 X + 100
200
On procède ainsi pour chacune des cases du tableau de corrélation et l’on obtient
autant de produits F^ (X — A) (Y —B), dont il reste à faire la somme, ce qui se fait en
additionnant par exemple verticalement tous les chiffres d’une même colonne, puis
horizontalement, tous les totaux de colonnes ainsi obtenues, en tenant compte des signes.
On obtient ici
Y^F^^(X-A){Y-B) = 2 443.
D’où
Donc
P = 11,24
11,24
r = 0.471
12,69 X 1,88
r = 0.471
12
170 INTERPRÉTATION STATISTIQUE
Y-P = a^iX-x).
C’est-à-dire
y-5,74 = 0,070 (X-67,57)
y = 0,070 A'-l-1,01
Sf = —- ■ * ~ —
sJn-\ yj n
Ces limites sont donc assez larges. Cela tient à ce que nous sommes à la
limite d’application de ce procédé. Pour que la distribution de r puisse être
considérée comme normale il faut en effet qu’il y ait au moins 250 à
300 couples de valeurs, et davantage si r est sensiblement différent de 0,5.
peuvent dépasser 0,05, alors que les déviations négatives peuvent être beau¬
coup plus importantes. Il en résulte que la distribution est trop dissymétrique
pour pouvoir être assimilée à une distribution normale.
On recourt alors à un paramètre intermédiaire, désigné par la lettre z,
dit paramètre de corrélation transformée, qui est lié à r par la relation
l+r
Z =
l-r '
La distribution d’échantilloimage de ce paramètre z est une distribution
normale autour d’une valeur Ze correspondant à , avec une erreur standard
1
-7=f
0,149-0,664 et 0,050-0,716.
On voit que les intervalles de confiance sont encore plus étendus quand l’effectif
est petit.
CORRÉLATION STATISTIQUE 173
Dans bien des cas en biologie on désire simplement savoir s’il existe
ou non une corrélation entre deux phénomènes étudiés, sans être intéressé
par la valeur exacte du coefficient de corrélation.
Le fait de trouver un coefficient de corrélation différent de zéro, il
importe de le souligner, ne signifie pas forcément qu’il existe effectivement
vme corrélation. En effet, même dans le cas où il n’y aurait pas de corrélation
et où le coefficient réel serait égal à zéro, le coefficient trouvé serait cependant
différent de zéro en raison des inévitables fluctuations d’échantillonnage.
Avant d’admettre l’existence d’une corrélation, il faut donc prouver que le
chiffre trouvé ne peut s’expliquer simplement par les fluctuations d’échantil¬
lonnage, donc que le coefficient de corrélation trouvé diffère significativement
de zéro.
On montre que, dans une population de deux séries de valeurs où la
corrélation est nulle, le coefficient de corrélation est distribué normalement
1
autour de zéro avec une erreur standard sq égale à , . qui représente la
yjn— 1
valeur prise par Sr pour r = 0
1
5o=
2
à 95 % =0,122
^264-1
et
2,6 2,6
à 99 % : = 0,159
^n-1 7264^
174 INTERPRÉTATION STATISTIQUE
On montre que
Y^dl = n.al{\-r^) (^).
(1)
On a donc
peut être considérée comme l’écart type de cette distribution des résidus par
rapport à la droite D.
Si l’on admet que cette distribution est gaus¬
sienne (^), en traçant deux parallèles à la
droite D situées à une distance égale à Say (mesu¬
rée verticalement) de part et d’autre de celle-ci,
on doit englober environ 68 p. 100 des données,
c’est-à-dire des points du diagramme de distribu-
Fici. 107. lion (fig. 107).
n.al-2al.n.al+al. n. ai
c’est-à-dire
n[al-al.al].
Mais a, peut s’exprimer en fonction de r :
a^ = r. .
Ox
II vient donc finalement :
Q) Ce qui revient à admettre que les variations de y autres que celles qui sont
conunandées directement par les variations de x sont normalement distribuées, ce qui
implique qu'elles sont liées à des causes nombreuses, indépendantes et dont les effets
sont du même ordre de grandeur.
25 35 45 55 65
Volume globulaire en centièmes de mrnymm^
de sang total
Cet écart type, encore appelé erreur type d’estimation de y, est souvent
utilisé pour visualiser les limites de l’estimation d’une variable à partir de la
droite d’estimation correspondante (fig. 108).
Fig. 109.
Roids (Hg)
La formule de montre que S^y est d’autant plus petit, donc que la
bande ainsi déterminée est d’autant plus étroite, que se rapprochera de 1.
Pour = 1, c’est-à-dire r = ± 1, Sdy = 0, la bande se réduit à la ligne sans
épaisseur de la corrélation parfaite.
CORRÉLATION STATISTIQUE 177
Ainsi pour la droite d'estimation que nous avons étudiée dans notre premier
exemple, on trouve _
^dy = oy = 1,95 ^1 -(0,438)2 = 1,75
Indice de précision
On définit bien entendu de la même façon une dispersion des résidus par rapport
à la droite de régression de x en >
Hx = (l-H).
Les formules 5^^ et peuvent encore s'écrire
^dy = aX2 •
Sous cette forme, on voit que la variance des résidus est égale à la variance de la
variable correspondante amputée d'une fraction de cette variance qui est proportion¬
nelle à r^.
Plus r2 sera élevé, plus cette fraction sera importante, donc plus la dispersion
des résidus sera faible, donc plus grand sera le gain de précision obtenu par le recours
à la droite d’estimation.
C’est pourquoi le coefficient r^, qui n’est autre que le carré du coefficient de corré¬
lation, est encore appelé indice de précision.
Ces formules peuvent encore s’écrire :
L’écart 5^^ peut alors être considéré comme une erreur type d’estimation, comme
précédemment .
Par analogie avec ce que nous avons vu pour la régression linéaire, nous pouvons
écrire que cette dispersion évaluée par rapport à la courbe de régression est égale à la
dispersion globale soit diminuée d’une fraction ^2 de cette dispersion, » étant
un nombre pur analogue à r. "
ril, qui varie entre 0 et 1, c’est-à-dire entre 0 et 100 %, est appelé f rapport empi¬
rique de corrélation de y en x ». Il indique, comme r^, le pourcentage de la variance
des y qui est expliqué par les variations de x. On peut montrer que est toujours
supérieur ou au moins égal à (i). *'
Il en résulte que la quantité r)l— r^ peut être utilisée pour évaluer la linéarité de la
régression de y par rapport à x : si tjJ _ ;.2 ^ q régression peut être considérée comme
linéaire.
De la même façon, on peut définir un nombre rjx tel que
(*) En effet, la somme des déviations par rapport à la moyenne étant un minimum,
est toujours inférieur ou au plus égal à 5^2 .
180 INTERPRÉTATION STATISTIQUE
ASSOCIATION
ENTRE CARACTÈRES QUALITATIFS
Exemple Q). — Après une vaccination, l’étude des sujets ayant ou n’ayant pas
contracté la maladie a donné les résultats indiqués dans le tableau suivant dit « tableau
de contingence 2x2» (tableau XXV).
TABLEAU XXV
C’est ainsi que la proportion théorique des sujets « vaccinés-non malades » doit
être les 790/1 510 du total des sujets non malades, c’est-à-dire :
790
1298 = 679.
1 510
De même, la proportion des sujets « non vaccinés-non malades » doit être les
720/1 510 du total des sujets non malades, c’est-à-dire
720
. 1 298 = 619.
1 510
On est ainsi conduit au tableau des effectifs théoriques suivants (tableau XXVI).
TABLEAU XXVI
NM M totaux
STATISTIQUES PROSPECTIVES
ET STATISTIQUES RETROSPECTIVES
Compte tenu des objectifs de ce petit livre, il paraît utile de dire ici
quelques mots d’une variété de statistiques que l’on peut être amené à
rencontrer en médecine, et plus particulièrement en épidémiologie, à savoir
les statistiques rétrospectives.
Supposons que l’on désire savoir si les thromboses observées chez des
femmes sous « pilule » sont, ou non, attribuables à cette dernière. Pour
répondre correctement à cette question, il faut constituer au départ 2 grou¬
pes de patientes, les unes prenant (groupe « traité ») et les autres ne
prenant pas (groupe « témoin ») la pilule. Au bout d’un certain temps (« à
l’arrivée »), on arrête l’expérience et l’on recherche dans chacun de ces
groupes qu’elle a été l’incidence de l’effet (thrombose) auquel on s’inté¬
resse. S’il apparaît que cette incidence est «significativement » plus grande
chez les sujets traités que chez les témoins, alors on est en droit d’incri¬
miner la responsabilité du facteur en question (la « pilule ») dans l’appari¬
tion de l’effet étudié (thrombose). C’est ainsi que procèdent les statistiques,
dites « prospectives », usuelles (fig. 112).
Il en va tout autrement avec les statistiques dites « rétrospectives ».
Dans ce cas, en effet, on étudie des patientes ayant déjà présenté l’accident
en question (thrombose) et l’on recherche par une enquête rétrospective
(d’où la terminologie) quelle a été, chez ces patientes non pas l’incidence du
trouble (qui est de 100 % dans ce groupe) mais la proportion des utilisa¬
trices de pilule. Cela fait, et dans une optique de comparaison, on constitue
un groupe « témoin ». A cet effet, dans la très vaste population de sujets
n’ayant pas présenté l’accident en question, on sélectionne, selon des critères
que l’on se donne arbitrairement, par exemple même tranche d’âge, même
statut familial, mêmes conditions d’habitation, etc., un certain nombre de
13
186 INTERPRÉTATION STATISTIQUE
Le « rapport de risque » R est mesuré par le rapport des « taux d’exposition » respec¬
tifs a/b et a'/b' dans le groupe « cancer » et dans le groupe « témoin » :
a a'
R = —: —
b b'
Pour que ce calcul soit valable statistiquement, il faut que les quatre groupes
a, a', b, b' aient la même probabilité d’être hospitalisés. Or, l’administration d’œstro¬
gènes à une patiente ayant un cancer de l’endomètre latent méconnu — ce qui n’est
pas exceptionnel — entraîne naturellement l’apparition de saignements, ce qui augmente
donc, pour ce sous-groupe, la probabilité d’être hospitalisé. Si a augmente, R augmente
également, ce qui conduit donc à une fausse majoration du risque.
On peut « compenser » ce biais en utilisant comme témoins des sujets ayant une
affection utérine, un polype par exemple, susceptible de saigner également sous oestro-
génothérapie : a' augmente alors également et le rapport R reste conservé. C’est ainsi
qu’ont raisonné Horwitz et Feinstein. Dans une première étude utilisant la méthode
habituelle, ils aboutissent effectivement à un rapport de risque significativement élevé
de 11,89. Mais dans une deuxième étude, réalisée dans la même institution, mais cette
fois avec l’approche « compensée » ci-dessus décrite, ils arrivent à un rapport de risque
de 1,7 seulement, augmentation qui n’est pas significative. Il est intéressant de noter
que des études bien antérieures, dont les auteurs avaient justement choisi ce même
type de sujets-témoins, avaient abouti à des chiffres exactement semblables : 1,1 pour
Dunn et Bradbury en 1967 (i) et 0,5 pour Pacheco et Kempers en 1968 (2) — ce qui
, paraît bien confirmer cette analyse.
STATISTIQUE ET MÉTHODOLOGIE
Echantillon représentatif
Randomisation
Conclusion
Toutes les notions mathématiques auxquelles il est fait appel dans cet
ouvrage ont été précédemment exposées dans votre ouvrage Abrégé de
Mathématiques (M-
Aussi bien nous contenterons-nous de présenter ici très sommairement
et de façon volontairement très élémentaire les quelques notions de mathé¬
matiques qui nous paraissent indispensables, notamment pour la compréhen¬
sion des bases probabilistes de la Statistique, renvoyant le lecteur, pour plus
de détail, à l’ouvrage précité.
Formule du binôme
(a + bP = a^+ 2 ab +b^
^ n-
C = -
" r\(n-r)\
Triangle de Pascal
r ■* 0 1 2 3 4
n
▼
1 1 1
2 1 + 2 1
T
3 1 3 - 3 1
t
4 1 4 6 4 1
RAPPEL MATHÉMATIQUE 195
Soit (fig. 113).la courbe représentative d’une fonction y = f (x) que nous
supposerons régulière et continue dans l’intervalle étudié et deux points A
et B de cette courbe, de coordonnées Xa. ya et Xb, (fig- 113).
Proposons-nous d’évaluer la surface englobée sous la courbe, entre la
courbe, l’axe des x et les ordonnées de A et de B, c’est-à-dire la surface du
trapèze mixtiligne AA'B'B = S (fig- 113).
Fig. 116.
On voit que plus on divise les surfaces, c’est-à-dire plus les rectangles
deviennent étroits (donc plus il y a de rectangles), plus la somme de ces
surfaces élémentaires se rapproche de la vraie valeur de la surface cherchée S.
Celle-ci représente donc la limite vers laquelle tend la somme de ces
surfaces élémentaires quand leur nombre augmente infiniment.
Si donc on veut obtenir la valeur exacte de cette surface, il faut la
diviser en un nombre infini de surfaces élémentaires à dimensions transver¬
sales infiniment petites et faire la somme de toutes ces surfaces élémentaires.
La limite de cette somme sera l’aire « exacte » de la surface 5 : c’est pourquoi
on l’appelle aire « intégrale » de la surface 5.
S= I dS= J y.dx
5 = j y . dx
Z=a
■S" = I f{x) . dx
Fonction intégrale
Supposons que des deux ordonnées qui limitent latéralement l’aire inté¬
grale, l’une, par exemple AA', soit fixe et l’autre, BB', soit mobile, c’est-à-dire
qu’elle puisse se déplacer parallèlement à elle-même, soit vers la droite, soit
vers la gauche (fig. 118).
Soit OA' = a l’abscisse fixe du point A et x = OB' l’abscisse, supposée
variable, du point B.
L’aire intégrale correspondant à B est, par définition, la surface
J
X
AA'B'B = S= f{x).dx.
= I f{x).dx,
a
Représentation graphique
jm dx.
Xl
J f(x). dx.
C’est la valeur que prend l’intégrale
Y = F (x) pour X = X2 , soit F (^2), et qui est
mesurée par l’ordonnée correspondante Y2 de
la courbe intégrale (fig. 117 haut).
La surface AA'M'^M^ n’est autre que
l’intégrale, également comptée à partir de AA',
correspondant à la valeur xi de x, soit
J f{x). dx .
C’est la valeur que prend l’intégrale
Y = F {x) pour X = xi, c’est-à-dire F (ri), qui est mesurée par l’ordonnée Yi
correspondante de la courbe intégrale (fig. 121 haut).
On peut donc écrire
X2
J f{x) -dx^ j f(x) ‘àx- j f{x). dx = i=’(x2) - Fx^)
Xi
C’est-à-dire
X2
J f{x).dx = F{x2)-F{x,) = Y2-Yi.
RAPPEL MATHÉMATIQUE 201
Ce qui veut dire que / aire intégrale comprise entre deux valeurs particulières
Xi et X2 est mesurée par la différence entre les ordonnées correspondantes de
la courbe intégrale (fig. 121 haut).
Courbe en cloche
y = e-i= — = -L -0,60:
yje
U
202 RAPPEL MATHÉMATIQUE
Fig. 125.
(1) Les tables présentées ici sont des tables simplifiées destinées essentiellement
à permettre au lecteur non initié de suivre les calculs de ce livre, et éventuellement
d’effectuer par lui-même quelques calculs simples. Pour une utilisation plus poussée,
le lecteur est invité à se reporter aux tables des ouvrages spécialisés (voir notamment
Fisher et Yates, Statistical Tabhs for Biological. Agricultural and Medical Research.
Oliver and Boyd, Edinburgh).
204 TABLES NUMÉRIQUES
Fig. 126.
^0,05 = 21,03
Xloi = 26,22 .
Exemple. — Soit à désigner 10 sujets pris « au hasard » dans un lot de 100 rats.
Chaque rat sera affecté d’un numéro de 1 à 100.
On va prendre les dix premiers nombres de deux chiffres rencontrés en parcourant
la table par exemple de gauche à droite à partir par exemple de la treizième ligne : soit
68 - 50 - 85 - 88 - 60 - 04 - 54 - 71 - 48 - 12 et l’on choisira les animaux porteurs du
numéro correspondant.
Les carrés et les racines carrées sont fournis par des tables qu’on trouve
dans le commerce, par exemple les tables de Barlow qui donnent les carrés
et les racines carrées des nombres entiers inférieurs à 10 000.
LÉGENDE ET UTILISATION DES TABLES 207
I 2g
on a yo,28 = / JQQ = 7^ = 0,529 150 3.
/39x 10
On a
V 100
on a donc
V ’
= _L
,0^
yi0x 39 = 1,974 842.
208 TABLES NUMÉRIQUES
II. — Table de jt (0
(1 ^m^lO)
TABLES NUMERIQUES 211
OO 1,96^2) 2.58~2,6)
212 TABLES NUMÉRIQUES
10 15 20 30 40 50 100
r
0 0 31 0 22 0 17 0 12 0 9 0 7 0 4
1 0 45 0 32 0 25 0 17 0 13 0 11 0 5
2 3 56 2 40 1 31 1 22 1 17 0 14 0 7
3 7 65 4 48 3 38 2 27 2 20 1 17 1 8
4 12 74 8 55 6 44 4 31 3 24 2 19 1 10
5 19 81 12 62 9 49 6 35 4 27 3 22 2 11
6 26 88 16 68 12 54 8 39 6 30 5 24 2 12
7 35 93 21 73 15 59 10 43 7 33 6 27 3 14
8 44 97 27 79 19 64 12 46 9 36 7 29 4 15
9 55 100 32 84 23 68 15 50 11 38 9 31 4 16
10 69 100 38 88 27 73 17 53 13 41 10 34 5 18
11 45 92 32 77 20 56 15 44 12 36 5 19
12 52 96 36 81 23 60 17 46 13 38 6 20
13 60 98 41 85 25 63 19 49 15 41 7 21
14 68 100 46 88 28 66 21 51 16 43 8 22
15 78 100 51 91 31 69 23 54 18 44 9 24
16 56 94 34 72 25 56 20 46 9 25
17 62 97 37 75 27 59 21 48 10 26
18 69 99 40 77 29 21 23 50 11 27
19 75 100 44 80 31 64 25 53 12 28
20 83 100 47 83 34 66 27 55 13 29
)
21 50 85 36 68 28 57 14 30
22 54 88 39 71 30 59 14 31
23 57 90 41 73 32 61 15 32
24 61 92 43 75 34 63 16 33
25 65 94 46 77 36 64 17 35
>
001
ïM
00
NO
20 30 50
-
10
// >^
/
161 200 216 225 230 234 239 242 244 248 250 252 253 254
-
4 052 4 999 5 403 5 625 5 764 5 859 5 981 6056 6106 6 208 6 258 6 302 6 334 6366
18,51 19,00 19.16 19.25 19.30 19.33 19,37 19.39 19.41 19.44 19.46 19.47 19.49 19.50
CA
98,49 99,01 99.17 99.25 99.30 99.33 99,36 99.40 99.42 99.45 99.47 99.48 99.49 99.50
10,13 9,55 9,28 9,12 9,01 8,94 8,84 8,78 8,74 8,66 8,62 8,58 8,56 8,53
34,12 30,81 29,46 28,71 28,24 27,91 27,49 27,23 27,05 26,69 26,50 26,35 26,23 26,12
7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5.91 5,80 5,74 5,70 5,66 5,63
27,20 18,00 16,69 15,98 75,52 15,21 14,80 74,54 14,37 74,02 /i,«i 13,64 13,57 13,46
O
6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,68 4,56 4,50 4,44 4,36
16,26 13,27 12,06 11,39 10,97 10,67 10,27 10,05 9,89 9,55 9,38 9,24 9,02
00
5,99 5.14 4,76 4,53 4,39 4,28 4.15 4,06 4,00 3,87 3,75 3.71 3,67
NO
fs.
13,74 70,92 9,75 9,75 5,75 8,47 8,10 7,87 7,72 7,J9 7,09 6,99 6,88
fn
5,59 4,74 4,35 4,12 3,97 3,87 3,63 3,57 3,44 3,38 3,23
ts
m «0
00 ^
«s «4^
ro^’<r
72,25 9,55 5,45 7,55 7,46 7,79 6,62 6,75
5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,34 3,15 3,08 3,03 2,98 2,93
00
00 ^S
77,26 5,65 7,59 7,01 6,6i 6,37 6,03 5,52 i,J6 5,20 5,06 4,96 4,56
1
5,12 4,26 3,86 3,63 3,48 ' 3,23 3,13 3,07 2,93 2,86 2,80 2,76 2,71
ON
Oo
r-- Cl
10,56 5,02 6,99 6,42 6,06 5,47 5,26 5,77 4,80 4,64 4,57 4,47 4,31
4,96 4,10 3,71 3,48 3.33 3,22 3,07 2,97 2,77 2,70 2,64 2,59 2,53
O
^ ts
70,04 7,56 6,55 5,99 5,64 5,J9 5,06 4,55 4,41 4,25 4,72 4,01 3,91
TABLES NUMÉRIQUES
(1) La table donne les valeurs limites du rapport F pour les coefficients de sécurité de 95 % (chiffres droits) et de 99 % (chiffres Italiques).
TABLES NUMÉRIQUES 215
O ^ rt Ns St ri rv n 00 er^
en P Os 'r oo ^ r* "««» 8§
(1) La table donne les valeurs limites du rapport F pour les eoeflîcients de sécurité de 95 % (chiffres droits) et de 99 % (chiffres italiques).
8 VO C n
<N en <N en ri ri ^ «N *N ^ ri ^ «N ^ ■'N *-A
3,46
2,86
2,35
2,19
2,07
2,68
3,11
1,90
1,98
2,53
2,29
1,77
2,13
1,82
1,69
1,59
1,52
1,36
100
1,39
1.24
en vc SO fO SO > 00en SO ri
o^ 5f5
50
<N ^ Os VO 00 r» rvi S5 ^ IV en SO
fS en «S en n (N n ri —< <N <-H <N —i ri ^ •«-» 1— -i *«>.
en n ^ Os Os SO 00 en SO SO 0© Tt SC
er^ «N ^ ri en ri n ri ri «N — ri ^ ri ^ •'H
-et VO Os
srs 00 en os
^ O
K rt > en *o 00 SC 00 SC r* iv
S
V-V Oo m n r» Os 8R Os «O r* ri SO C SO 0©
en <N en n en ri en ri rsj »S <N —. ri ^ ri ^ “««t
en n •V î:; 00 en SO Vc
SNéoéooit (*) (suite)
Os 'O C SO SO SC SO 0©
SO «n 00 ^ *n en en n r^ O 0© OS *0 00 en r-
CS > «N en <s 'n ri en n fo <N ri n <N ri — ri ^ ri
SO Cl Os p\ SO N. ^ en SO «O n c n en ri
O en ^ VC 5 *n en en rs •- Os O Os ^O 00 en
rs > (N ri en en n en ri en n ri <N ri «—1 ri ^ ri
•n VO os Os ^ O
so
Q <N
O «0 00 >
•St C
r- <N
\0
sO C ss^ rj K.
^ >
OS 0©
n ^ — Os
<>
O QO
n >»■ ri > ri ri en r4 <0 n en rj e^ n ri (N «N
\C ^ en en 0© en SO ûO Os <N SO «N SO *- r* ri
<s > ^ c O os n 00 > r> SO O SO N. «O en en
en en ^ en yt‘ ri V ri > ri > ri > rt en rl n en
Os C
en
Os*0
^ Os
Tt 'O
en ^
rr Ov
rs <N
SO ^
^ O — Os
Os û©
Os SO
n
Os »o «N
O û©
r» ov s?s
en *n en n en n >»• ri V ri V n V ri en ri en
00 en rt ^ en en SO Os n 00 N. n Os 00 ^ ^ ri Os C
ts 00 ^ \o rj «O C '•et 0© en O en en c O «0 Os VO
'O en O rA VO fO 'O en *o fO en »o en SO en ^ n >
30
CN SO 00 SO O
n SO 8
216 TABLES NUMÉRIQUES
IX. — Table du
V V
Zo.os Xo.oi Zo.OS ^0,01
15
218 TABLES NUMÉRIQUES
1
i II
n 7« 710, 1 n V"
^\0n
1 1 1,000 000 3,162 278 51 2 601 7,141 428 22,583 18
2 4 1,414 214 4,472 136 52 2 704 7,211 103 22,803 51
3 9 1,732 051 5,477 226 53 2 209 7,280 110 23,021 73
4 16 2,000 000 6,324 555 54 2 916 7,348 469 23,237 90
5 25 2,236 068 7,071 068 55 3 025 7,416 198 23,452 08
Classes Classes
Fréquences Fréquences
(g/24 h) (g/24 h)
0 45-0,55 2 1,05-1,15 43
0,55-0,65 2 1,15-1,25 40
0,65-0,75 4 1,25-1,35 29
0,75-0,85 13 1,35-1,45 8
0,85-0,95 20 1,45-1,55 5
0,95-1,05 34
EXERCICES 221
Échantillon 1 ;
10,7 9,2 10,0 8,2 9,1 10,8 15,1 10,6 14,1 11,5 14,2
12,6 10,0 13,8 10,9 9,3 10,0 10,8 9,2 11,8 13,1 14,9
10,1 10,2 11,0 11,6 12,7 15,5 12,4 11,3 11,8 13,3 13,8
13,8 8,0 10,7.
Échantillon 2 ;
15,7 16,3 13,5 14,0 15,8 10,2 12,0 14,9 11,9 12,5
12,9 12,6 10,9 14,3 13,3 14,4 13,0 12,0 18,3 14,4
11,1 13,6 16,1 11,1 12,1 12,7 13,6 17,1 17,7 12,3
13,1 14,3 17,1 15,0 14,8 16,1 13,5 15,9 13,6 12,8
15,2 14,2.
fl) Calculer à l’aide d’une table de carrés et éventuellement d’une
machine à calculer les moyennes xi et X2 des échantillons ainsi que les
estimations des écarts types si et ^2 des populations d’où sont tirés les
échantillons.
222 EXERCICES
5. Des enfants de même âge ont été groupés en deux séries en vue de déter¬
miner l’influence d’un paramètre biologique sur le développement sta¬
tural. La mesure en mètre de la taille a donné les résultats suivants :
série :
1,42 1,68 1,48 1,42 1,55 1,49 1,38 1,57 1,43 1,40
1,61 1,28 1,57 1,35.
2* série
Les résultats obtenus avec deux groupes de 160 individus ont été les
suivants ;
Direction : Nord N.-O. Ouest S.-O. Sud S.-E. Est N.-E
Série 1 26 17 9 2 3 16 33 54
Série 2 : 17 25 13 28 19 20 22 16
1° Calculer x, ÿ, ax et ay, a, b.
2° L’erreur type d’estimation Sdy et r.
RÉPONSES
Zx = 30,60 X = 1,53 // = 20
5 = 0,05.
i. 1° Distribution normale.
2° a) X = 1,095 5 1,10
a = 0,190 3 ~ 0,19
5 = 0,190 8 ~ 0,19
Jk" 4- 11 200 ^ * *
J = d_L_ü = —^- = 1,095 5
10 10
2 2 - 725
ax = al’ — (A' — /02 = ^ — (10,955 — 11)2 = 3,622 975 ~ 3,623 0
4“ Appliquer le test du x~- H y a en tout 13 classes si l’on tient compte des classes extrê¬
mes : — 00 à 0,45 et 1,55 à -I- oo. De façon à avoir dans les classes des effectifs théoriques
supérieurs à 5, on regroupe les classes de — oo à 0,75 et de 1,45 à -h oo, ce qui ne laisse
subsister que 9 classes. Dans ce cas on trouve = 4,63 avec 9 — 3 = 6 degrés de liberté.
Pour V = 6, la valeur du x ' donnée par la table est xo.os = 12,59. L'échantillon observé
peut être supposé tiré d’une population normale caractérisée par les paramètres A/ = 1,10
et tr = 0,19.
4. a) !«'■ échantillon ;
2'’ échantillon ;
^x = 585,90
II
2:x2 = 8 324,49
X2 = 13,95 52 = 1,92
h) L'"'échantillon 2® échantillon
Classe Effectif Classe Effectif
7,25- 8,75 2 8,75-10,25 1
8,75-10,25 9 10,25-11,75 3
10,25-11,75 10 11,75-13,25 12
11,75-13,25 6 13,25-14,75 12
13,25-14,75 6 14,75-16,25 9
14,75-16,25 3 16,25-17,75 4
17,75-19,25 1
XI = 11,58 X2 = 13,96
.ïi = 2,10 .52 = 1,91
c) Compte tenu des résultats de a)
/( 1,99)2
d = X2 —XI = 2,39 ~
V 36 + 42 - 0 445 / =
Si l’on se contente des valeurs calculées en b) et arrondies à 3ci = 11,6, jcz = 14,0,
,yi = 2,10 et .ï2 = 1,92, ce qui est acceptable compte tenu de la précision de la méthode,
on obtient :
,10)2
/ÔJÔ] (I 92)2
d = 2,4 + 0,46 t ~ 5,2
= V-3r 42
Les valeurs de t trouvées dépassent de très loin celle qui correspond au seuil de
probabilité de 0,01. Les échantillons ne proviennent pas de la même population.
^2 2: (x—1,47)2
m = 14 X. = 1,47 13 = 0,012 4
2 Lfx—1,33)2
«2 = 8 X2 = 1,33 "«2 7 = 0,009 9
^2 ^ n\ +
+(r,2 -l)>T.^
«2 — 2
^ ,,
00 525
6. En procédant comme dans l’exercice n" 5 on obtient t = 2,38. Si les calculs avaient été
exécutés sans arrondir les moyennes et les résultats intermédiaires, on aurait trouvé
t = 2,SS. Quoi qu’il en soit, la conclusion n’en serait pas changée. D’après la table
de Student et pour 20 degrés de liberté, la différence est significative au seuil de 0,05,
mais elle ne l’est pas au seuil de 0,01.
7. Loi de Poisson.
Regrouper les classes jc = 0 et jr = 1, ainsi que x = 6, x = 7, x = S et x > S,
V = 6 — 2 = 4,. x** = 5,25.
N R
Rautomisation,
Nombre de degrés de liberté, 28. Référence (Valeurs de), 95.
Nombres (Loi des grands), 35. Régression (Coefficients linéaires de),
Non paramétrique (Méthode), 28. 157.
Normale (Distribution), 60. Régression (Droite de), 155.
Normalité biologique, 95. Régression (Lignes de), 153.
Répartition (Fonction de), 44.
P Rétrospectives (Statistiques), 185.
Paramètre de corrélation transformée,
172.
S
Paramètre t de Student, 93. Série statistique, 7.
Paramètres caractéristiques, 19. Sigmoïde (Courbe), 202.
Pascal (Triangle de), 197. Statistiques prospectives, 185.
Percentiles, 28. Statistiques rétrospectives, 185.
Poids (d’un caractère), 20. Student (Distribution de), 92.
Point médian, 10. Student (Paramètre de), 93.
Poisson (Distribution de), 74.
Polygone de fréquences, 15. T
Pondération (Coefficient de), 20.
t (Paramètre — de Student), 93.
Pondérée (Moyenne), 20.
Triangle de Pascal, 194.
Population, 42.
Pourcentage (Abaque d’estimation
d’un), 103.
V
Pourcentage (Distribution d’un), 57- Variable aléatoire, 36.
102. Variable contrôlée^ 155.
Pourcentage (Estimation d’un), 102. Variable de contrôle, 155.
Pourcentage (Intervalle de confiance Variable explicative, 155.
d’un), 103. Variable expliquée, 155
Pourcentage (Signification d’un), 118. Variance, 23-28.
Pourcentages (Comparaison de deux), Variance (Analyse de la), 123.
116. Variance (Calcul simplifié de la), 25.
Précision (Indice de), 177. Variance (Formules pratiques de la),
Probabilité (Fonction de densité de), 26.
40. Variance intergroupe, 125.
Probabilité (Notion de), 33. Variance intragroupe, 124.
Probabilités composées, 49. Variance factorielle, 125.
Probabilités cumulées, 43. Variance résiduelle, 125.
Probabilités (Diagramme des), 39. Variances (Additivité des), 88.
Probabilités (Distribution des ), 36. Variances (Comparaison de deux), 121.
V>, ' ■ ., ■ ’■ X-'t'»' -
.1 ■■ v' . ’. ..
•• '•
• ■ ‘ .'•T'^i''.//V-'fj
-J : , • • ’te’J
A '. * . •'■ •- i\ -
■■>'■ . V'
•.- ■ , * ^* '
'\ ■ r'''‘-'' •
/• > /
V. ' '^.
. . ■■
•'v^-- i-;
-*t '. ■
- ^,. ■
■■■■i--
••'■m'4
Imprimé en France
IMPRIMERIE LOUIS-JEAN
av. d’Embrun, 05002-GAP
Dépôt légal 183-Mars 1983
I .* ff
c
ISBN ; 2-225 791