Vous êtes sur la page 1sur 37

1.1.

Loi normale ou de Gauss


Supposons que nous tirions des échantillons aléatoires d'une population
dont la taille moyenne est de 170 cm, avec un écart type de 10 cm.
Traçons l'histogramme de la taille, avec des classes de 5cm de large.
Examinons l’aspect de ces histogrammes.
Echantillon de 10 individus Echantillon de 100 individus
20
n n
o o
m m
b b
r 3 r 15
e e

d’ d’
i 2 i
n n 10
d d
i i
v v
i 1 i 5
d d
u u
s s

0
120 140 160 180 200 120 140 160 180 200
taille (cm) taille (cm)

Echantillon de 1000 individus Echantillon de 10.000 individus


n n
o o
m
b
150 m
b
r r 1500
e e

d’ d’
i 100 i
n n 1000
d d
i i
v v
i 50 i
500
d d
u u
s s

0 0
120 140 160 180 200 120 140 160 180 200
taille (cm) taille (cm)

Echantillon de 100.000 individus. (ici, les classes sont de 2 cm)


n
o
m
b
r 6000
e

d’
i
n
4000
d
i
v
i 2000
d
u
s

0
120 140 160 180 200
taille (cm)
Au fur et à mesure que la taille de l'échantillon augmente (et que la taille
des classes diminue), l'histogramme devient de plus en plus régulier et se
rapproche d'une courbe en cloche, appelée loi normale.
Loi normale
n
o
m
b
r
e

d’
i
n
d
i
v
i
d
u
s

120 140 160 180 200


taille (cm)
La loi normale est la loi statistique la plus répandue et la plus utile.
Elle représente beaucoup de phénomènes aléatoires.
De plus, de nombreuses autres lois statistiques peuvent être approchées
par la loi normale, tout spécialement dans le cas des grands échantillons.
Son expression mathématique est la suivante:

 x  2
n 2
n( x ) 
2
e
2 

n(x)

 

  + x
  est la moyenne
  l’écart type
 n le nombre total d’individus dans l’échantillon
 n(x) le nombre d’individus pour lesquels la grandeur analysée a la
valeur x.
Lorsque la distribution des individus dans une population obéit à la loi
normale, on trouve :
A. 50 % des individus en dessous de la moyenne  et 50 % au-dessus (la
loi normale est symétrique)
50 %

 x
B. 68 % des individus entre  et 
68 %

x
  +
C. 95 % des individus entre -1,96 et +1,96, que nous arrondirons à
l’intervalle 2, 
95 %

x
  2   + 2
D. 99,7 % des individus entre  et  (il y a donc très peu de
chances qu’un individu s’écarte de la moyenne de plus de 3).
99,7 %

x
  3   + 3
1.2. Calcul des probabilités
Pour calculer les probabilités associées à la loi normale, on utilise
généralement la loi normale réduite : c’est une loi normale pour laquelle
   et   .
La table suivante permet de déterminer la probabilité que la variable x
s’écarte de la moyenne  de plus de z0   vers le haut.
Pour obtenir z0, on calcule l’écart par rapport à la moyenne :   x - ,

puis on divise par l’écart type : z0 

2ème décimale de z0
Z0 0 1 2 3 4 5 6 7 8 9

0.0 .500 .496 .492 .488 .484 .480 .476 .472 .468 .464
0.1 .460 .456 .452 .448 .444 .440 .436 .433 .429 .425
0.2 .421 .417 .413 .409 .405 .401 .397 .394 .390 .386
0.3 .382 .378 .374 .371 .367 .363 .359 .356 .352 .348
0.4 .345 .341 .337 .334 .330 .326 .323 .319 .316 .312

0.5 .309 .305 .302 .298 .295 .291 .288 .284 .281 .278
0.6 .274 .271 .268 .264 .261 .258 .255 .251 .248 .245
0.7 .242 .239 .236 .233 .230 .227 .224 .221 .218 .215
0.8 .212 .209 .206 .203 .200 .198 .195 .192 .189 .187
0.9 .184 .181 .179 .176 .174 .171 .169 .166 .164 .161

1.0 .159 .156 .154 .152 .149 .147 .145 .142 .140 .138
1.1 .136 .133 .131 .129 .127 .125 .123 .121 .119 .117
1.2 .115 .113 .111 .109 .107 .106 .104 .102 .100 .099
1.3 .097 .095 .093 .092 .090 .089 .087 .085 .084 .082
1.4 .081 .079 .078 .076 .075 .074 .072 .071 .069 .068

1.5 .067 .066 .064 .063 .062 .061 .059 .058 .057 .056
1.6 .055 .054 .053 .052 .051 .049 .048 .047 .046 .046
1.7 .045 .044 .043 .042 .041 .040 .039 .038 .038 .037
1.8 .036 .035 .034 .034 .033 .032 .031 .031 .030 .029
1.9 .029 .028 .027 .027 .026 .026 .025 .024 .024 .023

2.0 .023 .022 .022 .021 .021 .020 .020 .019 .019 .018
2.1 .018 .017 .017 .017 .016 .016 .015 .015 .015 .014
2.2 .014 .014 .013 .013 .013 .012 .012 .012 .011 .011
2.3 .011 .010 .010 .010 .010 .009 .009 .009 .009 .008
2.4 .008 .008 .008 .008 .007 .007 .007 .007 .007 .006

2.5 .006 .006 .006 .006 .006 .005 .005 .005 .005 .005
2.6 .005 .005 .004 .004 .004 .004 .004 .004 .004 .004
2.7 .003 .003 .003 .003 .003 .003 .003 .003 .003 .003
2.8 .003 .002 .002 .002 .002 .002 .002 .002 .002 .002
2.9 .002 .002 .002 .002 .002 .002 .002 .001 .001 .001
Lorsque l’on doit déterminer une probabilité à partir de la loi normale, on
essaie de se ramener à une probabilité considérée dans la table.
Quelques cas concrets sont illustrés ci-dessous.
1) x >  + z0
Prob (table)

  z0   + z0 x
2) x <  - z0
Prob (table)

  z0   + z0 x
3) x plus éloigné de  que z0
2Prob (table)

  z0   + z0 x
4) x plus proche de  que z0
1-2Prob (table)

  z0   + z0 x
5) x    z0
1-Prob (table)

  z0   + z0 x
Exemples :
Le poids des tomates produites par un jardinier obéit à une loi normale de
moyenne 200 gr et d'écart type 40 gr.
a. Calculez la probabilité que le poids d'une tomate excède 250 gr.
Solution:   250  200  50 gr
 50
z0    1,25
 40
Prob  0,106  10,6 %
b. Calculez la probabilité que le poids d'une tomate soit inférieur à 100 gr.
Solution:   100  200  100 gr
la loi normale est symétrique  on ne s'occupe pas du signe
 100
z0    2,5
 40
moins de 100 gr: on s'écarte donc de la valeur moyenne  = 200 gr de plus de
z0  
Prob  0,006  0,6 %
c. Calculez la probabilité que le poids d'une tomate soit inférieur à 230 gr.
Solution:   230  200  30 gr
 30
z0    0,75
 40
L’intervalle ( 230 gr) considéré contient la valeur moyenne (200 gr)  on
prend 1 – Prob(table):
Prob  1  0,227  0,773  77,3 %
d. Calculez la probabilité que le poids d’une tomate ne s’écarte pas de la
valeur moyenne de plus de 20 gr.
Solution: on calcule d’abord la probabilité que le poids s’écarte de plus de 20 gr,
vers le haut ou vers le bas :
  20 gr   40
 20
z0    0,5
 40
Prob  0,309  30,9 %
On doit multiplier par 2 car on considère les deux côtés  Prob = 2  0,309 =
0,618
On a donc une prob. de 0,618 que le poids s'écarte de µ de plus de 20 gr, et donc
une prob. 1-0,618 que le poids ne s'écarte pas de plus de 20 gr.
Réponse: 0,382 = 38,2 %
1.3. Forme de la distribution d'échantillonnage
Supposons que nous analysions une population quelconque à partir d'un
ensemble d'échantillons.
Pour chacun de ces échantillons, nous calculons une valeur moyenne X
qui est une estimation de la moyenne de la population .
Bien entendu, les estimations X différeront généralement de la vraie
moyenne .
Nous désirons savoir comment les différentes déterminations X vont se
distribuer autour de la vraie moyenne .

n(x) n(x)
population

x x
X échantillon 1 X échantillon 2
Traçons l'histogramme des valeurs moyennes, c'est-à-dire le nombre
d'échantillons pour lesquels la valeur moyenne X prend une certaine
valeur (se situe dans une certaine classe).

n(x)
histogramme des valeurs
moyennes X

x
La figure suivante montre l’histogramme des valeurs moyennes X pour
des échantillons de tailles croissantes tirés des populations indiquées sur
la première ligne.
Lorsque la taille de l'échantillon est suffisamment grande, (n  10) la
distribution de la moyenne a une forme approximativement normale.
L'écart type sur la moyenne est:

 
 X 

n
Quelle que soit la population sous-jacente, si on utilise des échantillons
suffisamment grands (au moins 10 à 20 individus), la précision de la
valeur moyenne peut être calculée à partir de la loi normale.
Il y a 68 % (2/3) de chances que la vraie moyenne  soit dans l'intervalle
compris entre X- et X+.
n

x x x+ x
Il y a 95 % de chances que la vraie moyenne  soit dans l'intervalle
compris entre X-2 et X+2.
n

x2 x x+2 x
Exemples
1. Une organisation de consommateurs désire savoir si le poids réel des
pains de 800gr produits dans une boulangerie est bien conforme au
poids annoncé.
Pour cela, elle prélève 100 pains au hasard. Elle obtient un poids
moyen de 780 gr, avec un écart type de 80 gr.
Quelle est la probabilité que le boulanger triche en moyenne sur le
poids de ses pains?
n  100 X  780 gr s  80 gr

Ecart type de X:  
 X 
s

80
 8 gr
n 100
Il n'y a pas tricherie si  est de 800 gr au moins, c'est-à-dire 20 gr au-
dessus de X.
20 20
z0    2,5
 
 X 8
D'après la table, la probabilité que  soit supérieur à X d'au moins 2,5
( X ) est de 0,006.
100 - 100  0,006 = 100 - 0,6 = 99,4
Il y a 99,4 % de chance pour que le boulanger triche
 on peut raisonnablement conclure à la tricherie !
2. Dans une autre boulangerie, l’échantillon de 100 pains conduit au
résultat suivant :
n  100 X  795 gr s  50 gr
 
 X 
s

50
 5 gr
n 100
800  795 5
z0   1
5 5
D’après la table, la probabilité que  soit supérieur ou égal à 800 gr
est de 0,159.
Il y a donc 84,1 % de chances que ce boulanger triche.
Même si la présomption est forte, ce n’est pas vraiment suffisant pour
conclure à la tricherie !
3. Dans une troisième boulangerie, on obtient :
n  100 X  810 gr s  50 gr

 
 X 
s

50
 5 gr
n 100
800  810 10
Z0    2
5 5
D'après la table, la probabilité que  soit inférieur ou égal à 800 gr est
de 0,023.
Il n'y a que 2,3 % de chances que ce boulanger triche.
On peut conclure qu'il est honnête !
4. Le revenu moyen d'un échantillon représentatif de 16 ménages s'élève
à 62 000 F net par mois, avec un écart type de 16 000 F.
a. Quelle est la probabilité que le revenu moyen de l'ensemble de la
population soit inférieur à 60 000 F ?
Solution: n  16 X  62000 s  16000

 
 X 
s

16000 16000

4
 4000
n 16
  60000  62000  2000
 2000
z0    0,5
 X   4000
< 60 000: s'écarte de X de plus de 0,5( X )
 on prend la valeur de la table
Prob = 0,309 = 30,6 %
b. Quelle est la probabilité que le revenu moyen de la population soit
inférieur à 65 000 F ?
Solution:   65000  62000  3000
 3000
Z0    0,75
 
 X 4000
< 65000: ne s'écarte pas de X de plus de 0,75 ( X ) vers le haut
 on prend la valeur p de la table et on calcule 1-p
p = 0,227
1-p = 0,773 = 77,3 %
5.4. Intervalles de confiance
Nous avons vu que la moyenne X d'un échantillon aléatoire permet
d'estimer la vraie moyenne  de la population.
Nous voudrions estimer également la précision de cette moyenne, c'est-à-
dire donner une marge d'erreur ou un intervalle de confiance.
Nous pouvons utiliser les tables de la loi normale pour estimer ces
intervalles de confiance.
En général nous adopterons l'intervalle de confiance à 95%, soit à
2( X ).
Nous pourrons donc écrire, soit:
 
  X  2 X

soit, plus explicitement:


Il y a 95 chances sur 100 que  se situe entre
 
X  2 X et  
X  2 X

Si nous tirons une série d’échantillons aléatoires de la population, dans 19


cas sur 20 (en moyenne),  se trouvera dans l’intervalle de confiance X 
( X ).
Exemples :
1. La taille moyenne d'un échantillon de 51 filles de 2 ème candi. commu.
est de 167,9 cm.
L'écart type de cet échantillon est de 5,3 cm.
Si nous supposons que cet échantillon est représentatif de la taille des
filles belges âgées d'une vingtaine d'années, nous pouvons calculer la
taille moyenne de cette population, avec sa marge d'erreur :
n  51 X  167,9 s  5,3

 
 X 
5,3
 0,74
51
2  X   1,48  1,5 cm
Avec 95 % de confiance, nous pouvons donc dire que la taille
moyenne de la population vaut:
 = 167,9  1,5 cm
ce qui revient à dire qu'il y a 95 chances sur 100 pour que la taille
moyenne des filles belges de 20 ans se situe entre 166,4 et 169,4 cm.
2. La taille moyenne d'un échantillon de 35 garçons de 2 ème candi.
commu. est de 182,9 cm
En supposant de même l'échantillon représentatif, nous pouvons
donner un intervalle de confiance pour la taille des garçons belges de
20 ans.
n  35 X  182,9 s  6,7

 
 X 
6,7
 1,13
35
2  X   2,26  2,3 cm
Avec 95 % de confiance, on a donc:
 = 182,9  2,3 cm
5.5. Comparaison de deux échantillons indépendants
Des échantillons sont indépendants lorsqu’une modification dans l’un
d’eux n’a pas d’influence sur les autres.
Par exemple, un échantillon de filles et un échantillon de garçons
sélectionnés pour déterminer le poids moyen des filles et celui des
garçons sont indépendants.
Par contre, les personnes qui affirment voter pour un parti A ou pour un
parti B dans un sondage politique ne forment pas deux échantillons
indépendants car si une personne de plus déclare voter pour A, il y a un
électeur potentiel en moins pour B (les résultats de A et B s’influencent).
La différence moyenne est simplement:
X D  X1  X 2
Son écart type est donné par:
 D  1 X   2
 
2 X
2

(formule approchée, mais suffisamment précise)


Pour la taille des filles et des garçons:
X D  182,9  167,9  15 cm
D  0,74 2  1,132  1,35 cm
L'intervalle de confiance à 95 % est de:
2  1,35 = 2,7 cm
XD = 15,0  2,7 cm
Si nous désirons maintenant répondre à la question suivante: les garçons
sont-ils plus grands, en moyenne, que les filles?
 différence moyenne de taille: XD = 15,0 cm
 écart type de cette différence: D = 1,35 cm
 nombre d'écarts types au-dessus de 0 cm (0 cm  pas de
différence de taille)
15,0
z0   11,1111
1,35
Dans une distribution normale, la probabilité d'avoir une valeur qui
s'écarte de la moyenne de plus de 11  est inférieure à 2.10-28 et donc
complètement négligeable.
Si nos échantillons sont représentatifs, il n'y a donc aucune chance que la
différence de taille soit due au hasard.
Sur base de nos échantillons, nous sommes donc pratiquement certains
que les garçons sont, en moyenne, plus grands que les filles.
Exemple
On sélectionne un échantillon de 25 paysans syldaves. La superficie de
leurs terres s'élève à 24 hectares en moyenne, avec un écart type de 5
hectares.
Pour un échantillon de 16 paysans bordures, la superficie moyenne des
terres est de 26 hectares, avec un écart type de 8 hectares.
Quelle est la probabilité que les paysans syldaves aient, en moyenne, plus
de terres que les bordures ?
Solution:
Ces échantillons sont indépendants.
 échantillon syldave: n1  25 X 1  24 s1  5

écart type sur la moyenne:  


 X1 
5

5
5
1
25
 échantillon bordure: n2  16 X 2  26 s2  8

écart type sur la moyenne:  


 X2 
8 8
 2
16 4
différence moyenne: (syldave-bordure):
X D  X 1  X 2  24  26  2
écart type sur la différence:
 
 D   X1
2
 
 X2
2
 12  2 2  5  2,24
les syldaves ont plus de terre en moyenne que les bordures si la différence
est >0s'écarte de la valeur moyenne calculée de plus de 2
 2
z0    0,89
 D 2,24
tableProb = 0,187 = 18,7 % de chances que la superficie moyenne soit
supérieure en Syldavie.
6 Les proportions
6.1. Ecart type pour les proportions
Considérons le cas d’un sondage politique.
Ici, on ne désire plus estimer la moyenne d'une grandeur sur une
population, mais la proportion des individus de cette population qui se
rangent dans une catégorie (p.ex., qui déclarent voter pour le P.U.B.).
Exemple
Un institut de sondage interroge un échantillon représentatif de 200
électeurs, qui ont le choix entre 4 partis politiques.
Les résultats du sondage sont les suivants:
parti nombre d’intentions de vote
PUB 24
PET 35
PAF 69
PIF 61
ne se prononcent pas 11
Notons p la proportion d'individus d'une classe dans l'échantillon
Si n1 est le nombre d'individus dans la classe 1 et n le nombre total d'individus dans
l'échantillon, on a :
n1
p1 
n
et de même
n2
p2  ,
n
Dans notre sondage, les proportions sont les suivantes:
parti proportion
PUB 0,120
PET 0,175
PAF 0,345
PIF 0,305
n.s.p. 0,055
Si l'échantillon est représentatif, la proportion p dans l'échantillon est une
approximation de la proportion  dans la population.
Pour des échantillons suffisamment grands, les proportions suivent une
loi normale, avec un écart type d'échantillon de:
 (1 - )
p =
n
En général, la proportion  dans la population n'est pas connue. On la
remplace alors par la proportion p dans l'échantillon
p (1  p )
p 
n
Les proportions obéissent à des lois comparables à celles des moyennes.
Une différence importante est que l'écart type peut être calculé à partir
des proportions (pour les moyennes, il devait être connu par ailleurs).
Nous pouvons donc calculer les intervalles de confiance à 95 % sur les
intentions de vote.
0,12 (1 - 0,12)
p(PUB) = = 0,023
200

0,175 (1 - 0,175)
p(PET) = = 0,027
200

0,345 (1 - 0,345)
p(PAF) = = 0,034
200

0,305 (1 - 0,305)
p(PIF) = = 0,033
200
Les intervalles de confiance à 95 % sont de 2P
Les résultats du sondage sont les suivants:
parti intentions de vote
PUB 12,0  4,6 %
PET 17,5  5,4 %
PAF 34,5  6,8 %
PIF 30,5  6,6 %
6.2. Les proportions sont des moyennes
Considérons une élection opposant deux partis A et B.
Considérons la grandeur x = nombre de voix qu’un électeur apporte au
parti B.
C’est une variable discrète qui peut prendre deux valeurs :
x=0 si l’électeur vote pour A
x= 1 si l’électeur vote pour B
Soient
nA le nombre d’électeurs votant pour A
nB le nombre d’électeurs votant pour B
n le nombre total d’électeurs
p la proportion d’électeurs votant pour B
Calculons la valeur moyenne de x :
1 1
X=
n
x= n
(0 + 0 +…+ 1 + 1 +…)

nA nB
nB
X= =p
n
La proportion est donc la moyenne de x.
Calculons l’écart type sur x (ou plutôt son carré, appelé variance) :
1
 (x - X)
2 2
 =
n
2 1 2 2 2 2
 = [(0 - p) + (0 - p) +…+ (1 - p) + (1 - p) +…]
n
nA nB
2 1 2 2
 = [ nA p + nB ( 1 - p ) ]
n
2 nA 2 nB 2
 = p + (1-p)
n n
2 2 2
 =(1-p)p +p(1-p)
2
 = p (1 - p) [ p + 1 - p ]
On a donc
 = p (1 - p)
Et donc,

p =  ( p ) =  ( X ) =
n
p(1-p)
=
n
6.3. Exemples
Exemple 1 :
n = 100 n1 = 60 n2 = 40
n1 60 n2 40
p1 = = = 0,6 p2 = = = 0,4
n 100 n 100
p1 (1 - p1) 0,6  0,4
1 = = = 0,049
n 100
Pourquoi = ? *
p2 (1 - p2) 0,4  0,6
2 = = = 0,049
n 100
* Quand il n'y a que deux choix possibles, et pas d'abstentions, on a
n2  n  n1 et l'incertitude sur n2 est forcément la même que sur n 1. Ce n'est
plus vrai à partir de 3 choix.
On ne peut pas calculer
 D   p1   p2
2 2

car les 2 échantillons ne sont pas indépendants !


Le parti 1 gagne les élections si p1>0,5
 = 0,6 - 0,5 = 0,1
 = 0,049
 0,1
z0 = = = 2,04
 0,049
table  Prob = 0,021
il y a 2,1 % de chances que p1 < 0,5
il y a 100-2,1 = 97,9 % de chances que le parti 1 remporte les élections
Exemple 2 :
On constate un défaut dans 20 % des voitures d’un modèle. Un garagiste,
qui a vendu 50 voitures de ce modèle, fait revenir tous ses clients afin de
remplacer une pièce aux voitures défectueuses. Pour cela, il a commandé
12 pièces de rechange.
Quelle est la probabilité qu’il n’ait pas suffisamment de pièces ?
Solution :
La proportion de voitures défectueuses vaut   .
Dans l’échantillon de 50 voitures, on s’attend à la même proportion, avec
un écart type :
 (1 - ) 0,2  0,8
p= = = 0,057
n 50
Il n’aura pas suffisamment de pièces si le nombre de voitures
défectueuses est supérieur à 12, ou au moins égal à 13.
On a le choix entre deux critères :
12 13
p> ou p
50 50

Dans ce cas, on obtient un meilleur résultat en appliquant la correction de


continuité et en choisissant 12,5 plutôt que 12 ou 13.
Nous retiendrons donc
12,5
p> = 0,25
50

Pour qu’il n’ait pas assez de pièces de rechange, il faut donc que la
proportion s’écarte de la valeur moyenne de plus de
      
On obtient donc :
 0,05
z0 = = = 0,88
 0,057

La probabilité d’avoir un écart au moins aussi élevé est, d’après la table


de la loi normale, de 0,189.
Il y a donc 18,9 % de risques que le garagiste n’ait pas assez de pièces de
rechange.
6.4. Illustration : test de la fiabilité des horoscopes
Lors de deux leçons, nous organisons un test destiné à mesurer la fiabilité
des horoscopes.
Dans ce but, nous distribuons des feuilles reprenant les horoscopes de la
semaine précédente.
Chaque étudiant présent lit ces horoscopes et indique :
 son signe astrologique ;
 lequel de ces horoscopes correspond le mieux à ce qui lui est
arrivé lors de la semaine écoulée.
Pour le premier test, les signes astrologiques sont indiqués.
Dans le second test, ces signes ne sont pas indiqués et l’ordre en est
modifié.
Ce test a pour but de répondre à deux questions :
 les horoscopes sont-ils fiables ?
 la connaissance du signe a-t-elle une influence sur les réponses
des individus testés ?
Nous désignerons par « coïncidences positives » (CP) les cas où
l’étudiant a reconnu son signe, c’est-à-dire les cas où l’horoscope qu’il a
sélectionné correspond bien à son signe.
Les résultats des tests effectués de 1998 à 2004 sont résumés dans le
tableau suivants :
année signes connus signes inconnus
n CP n CP
1998 69 8 67 2
1999 - - 78 5
2000 - - 65 12
2001 76 19 65 3
2002 71 9 71 9
2003 57 10 72 5
2004 81 15 44 2
total 354 61 418462 38
6.4.1. Test de la fiabilité des horoscopes.
Nous considérons l’ensemble des quatre années et retenons les tests où
les signes n’étaient pas connus, afin d'éviter des biais éventuels.
Nous avons un échantillon de 462 réponses, avec 38 coïncidences
positives.
Si ces coïncidences positives étaient dues au hasard uniquement, c’est-à-
dire si chaque individu répondait au hasard, il aurait une chance sur 12 de
choisir l’horoscope correspondant à son signe.
Par le hasard seul, nous nous attendrions donc à
462
= 38,5 CP
12
Or, nous avons 38 CP, ce qui est pratiquement égal au nombre attendu
par l’action du hasard.
C’est très mauvais signe pour la fiabilité des horoscopes !
Nous allons cependant utiliser nos connaissances en statistique pour
analyser ces tests de manière plus quantitative.
(a) le nombre de coïncidences positives est compatible avec l’action
du hasard seul.
Dans le cas d’une répartition au hasard, le nombre de CP doit être, en
1
moyenne, 12
du nombre de réponses.
La proportion de CP, p+ , vaut donc :
1
p+ = = 0,083
12
avec un écart type
p+ (1 - p+) 0,083  0,917 = 0,013
+ = =
n 418
L’intervalle de confiance à 95 % vaut donc :
0,083 ± 0,026
ou encore :
[0,057 ; 0,109]
38
La valeur obtenue par l’étude de notre échantillon vaut : p   462  0,082
Elle se trouve dans l’intervalle de confiance pour une répartition due au
hasard.
On peut donc conclure que la petite différence entre la valeur mesurée et
la valeur attendue est parfaitement compatible avec le hasard : c’est ce
qu’on appelle une fluctuation statistique.
Exemple de fluctuation statistique.
Si on lance une pièce de monnaie, on s’attend à avoir, en moyenne, autant
de « pile » que de « face ».
Sur 100 lancers, on n’aura que rarement 50 « pile » et 50 « face »
exactement. Les écarts par rapport à ce nombre moyen sont les
fluctuations statistiques.
ex : 47 pile et 53 face,
52 pile et 48 face,…
(b) Avec quelle confiance pouvons-nous conclure à la non-fiabilité
des horoscopes ?
Nous devons tout d’abord définir ce que nous entendons par fiabilité des
horoscopes.
Si l’astrologie était une science exacte, elle devrait être capable de prédire
avec certitude ce qui va nous arriver.
Toutefois, nous ne lui en demanderons pas tant.
Nous dirons que les horoscopes sont fiables à 50 % si les prédictions
concernant notre signe sont celles qui correspondent le mieux à ce qui
nous arrive, dans au moins un cas sur deux.
Dans ce cas, au moins la moitié des individus devraient reconnaître leur
signe.
Remarque : cette définition est très peu contraignante pour l’astrologie.
En effet :
nous ne lui demandons pas de prédire avec précision ce qui va nous
arriver, mais seulement que la prédiction concernant notre signe
soit la plus proche de ce qui va nous arriver, parmi les 12
prédictions.
nous ne demandons pas que cela se produise pour tous les individus,
mais seulement pour la moitié d’entre eux.
Soit p+ la proportion des individus qui reconnaissent leur signe.
Dans notre échantillon, nous avons :
38
p+ = = 0,082
462
avec un écart type :
p+ (1 - p+) 0,082  0,918 = 0,013
+ = =
n 462
Pour que les horoscopes soient fiables à 50 %, il faudrait, dans la
population, une proportion p+  0.5, donc un écart minimum avec
notre valeur d’échantillon :
+ = 0,5  0,082 = 0,418
et donc :
+ 0,418
Z0 = =  32 !
+ 0,013
Cette valeur est si grande qu’elle ne figure pas dans notre table de la loi
normale.
En fait, il n’y a pas une chance sur des milliards de milliards pour que les
horoscopes testés soient fiables à 50 %.
Notre échantillon nous permet d’exclure cette hypothèse avec une
certitude quasi absolue.
Les horoscopes pourraient-ils être fiables à 25 % ?
Pourrait-il y avoir une chance sur 4 pour que la prédiction qui correspond
le mieux à un individu soit celle de son signe ?
Dans ce cas, au moins un quart des individus devraient reconnaître leur
signe.
Il faudrait donc p+  0.25, et donc un écart 
+ = 0,25  0,082 = 0,168
et :
+ 0,168
Z0 = =  12,9
+ 0,013
Cette valeur est, une fois de plus, en dehors de la table de la loi normale.
Notre test nous permet d’exclure avec une quasi certitude que les
horoscopes testés soient fiables une fois sur 4.
Tester une fiabilité plus faible n’a pas beaucoup de sens car :
être fiable moins d’une fois sur 4, c’est plutôt être non fiable.
le hasard seul donne une fiabilité d’une fois sur 12on risque
évidemment de trouver que les horoscopes sont fiables une fois sur
12 !
En résumé :
Nous pouvons conclure que la fiabilité des horoscopes testés est nulle,
puisque l’on obtiendrait le même résultat en choisissant les signes au
hasard.
Si vous lisez les horoscopes, rien ne sert de connaître votre signe. Les
prévisions des autres signes s’appliquent tout aussi bien (ou plutôt : tout
aussi mal) à vous !
6.4.2. La connaissance du signe a-t-elle influencé les
réponses ?
Nous allons tâcher de déterminer si les individus testés se sont laissé
influencer par la connaissance de leur signe, lorsque celui-ci était indiqué.
Dans les tests avec signes connus, nous avons 61 coïncidences positives
sur 354 réponses, soit une proportion:
61
pc = = 0,172
354
avec un écart type:
0,172  0,828 = 0,020
c =
354
Avec les signes inconnus, nous avons 38 coïncidences positives sur 462
réponses, soit une proportion:
38
pi = = 0,082
462
avec un écart type:
0,082  0,918 = 0,013
i =
462
On a donc une proportion plus grande de coïncidences positives lorsque
les signes sont connus, ce qui laisse supposer que certains individus se
sont laissé influencer par la connaissance de leur signe .
Cette différence est-elle statistiquement significatives ?
Avec quelle confiance pouvons-nous affirmer que cette différence ne peut
pas être due à l'action du hasard (fluctuation statistique).
Nous pouvons supposer que les deux échantillons sont indépendants car
nous ne voyons pas comment la réponse à un des test pourrait influencer
la réponse à l'autre.
Nous avons une différence de proportion:
 = pc  pi = 0,172  0,082 = 0,090
entre les CP avec signes connus et inconnus.
L'écart type sur cette différence vaut:
2 2
    c   i  0,020 2  0,0132  0,024
Nous obtenons donc:
 0,090
Z0 = =  3,7
 0,024
D'après la loi normale, la probabilité qu'un tel écart soit dû au hasard est
de 0,0001.
Nous pouvons donc conclure avec 99,99 % de confiance que la
connaissance du signe a effectivement influencé les réponses.
Ce résultat illustre l'importance de réaliser les tests "à l'aveugle", sans que
les sujets testés puissent se laisser influencer par la connaissance
d'informations de nature à influencer le résultat. Même en essayant de ne
pas tenir compte de ces informations, on risque fort de se laisser
influencer.
7Corrélation
7.1. Corrélation entre deux variables
Jusqu'à présent, nous nous sommes intéressés à des questions du type:
 quelle est la taille moyenne des garçons belges âgés d'une vingtaine
d'années ?
 quelle est la probabilité pour qu'un médicament soit efficace ?
 quel pourcentage de voix un parti politique recueillera-t-il aux
prochaines élections ?
 quelle fraction des barres métalliques produites par une usine sera-t-
elle rejetée par le client ?
 le poids moyen des pains produits dans une boulangerie est-il
supérieur à 800 grammes ?
Dans toutes ces questions, nous étudions le comportement statistique
d'une seule variable: taille, efficacité du médicament, pourcentage de
voix, longueur des barres, poids des pains.
Il existe cependant toute une gamme de problèmes statistiques où l'on
s'intéresse à la relation entre plusieurs variables.
Exemples:
 les individus les plus grands sont-ils les plus lourds ?
 le revenu d'une famille a-t-il une influence sur les résultats scolaires
des enfants ?
 y a-t-il une relation entre le tabagisme et les cancers du poumon ?
 le rendement en céréales dépend-il de la quantité d'engrais utilisée ?
 la productivité d'une entreprise est-elle liée au salaire des ouvriers ou
employés ?
Dans ces questions, nous désirons savoir si le comportement d'une variable est influencé par la valeur
d'une autre variable:
taille poids revenu résultats
tabagisme cancer rendement engrais

La relation peut être causale ou non


Pour étudier les relations ou corrélations entre deux variables
statistiques, on peut les porter sur un graphique.
Exemple: relation entre la taille et le poids des individus
pour chaque individu de l'échantillon, on porte sur un graphique:
 sa taille en abscisse (l'abscisse d'un point correspond à sa projection
sur l'axe horizontal)
 son poids en ordonnée (l'ordonnée d'un point correspond à sa
projection sur l'axe vertical)
chaque individu est donc, dans ce graphique, représenté par un point
(point représentatif)
soit un individu mesurant 172 cm et pesant 66 kg:
70
p
66
o
i
d 60 point représentatif
s
(kg)

50
150 160 170 180
172
taille (cm)
Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans
l'échantillon.

p . .
o 80 . .
i . . .
d 70
.. . . . .
. . .. . . . .
s
(kg) 60 . . .. . . .
. .
50
150 160 170 180 190 200
taille (cm)
Relation entre le poids et la taille dans un échantillon de 30 individus.
On peut (par la pensée ou réellement) tracer une droite qui passe au
mieux par ces points (au milieu du "nuage" de points).
Si cette droite "monte", on dira qu'il y a corrélation positive entre les
deux variables.
Si elle "descend", c'est une corrélation négative.
Si elle est "horizontale", ou si on ne peut pas décider, c'est qu'il y a
absence de corrélation.
Corrélation positive:
y
. .
. .
. . .
.. . . . .
. . .. . . . .
. . .. . . .
. .

x
Corrélation négative:
y
. .. .
. . . .. .. . .
. . . .
. . . .. . .
. . .
.
. .
x
Absence de corrélation:
y y
. . .
.. .. . ..
. .. . . .
. . .. . . .. . . . . . . . .. . . . .
.
. .. . . . . .. . . . . . . .

x x
La qualité de la corrélation entre deux variables peut se mesure par la
dispersion des points autour de la relation moyenne.
Corrélation parfaite:
y
.
..
. .
.
.
x
Bonne corrélation (corrélation forte):
y
. .
. .
.. .
. .
. .
x
Mauvaise corrélation (corrélation faible):
y .
. . .
. . .
.
.
. .
x
Exemple:
1. Corrélation entre le poids et la taille pour les garçons de 2ème
candidature communication (1998).
100

.. . .
p
o 80 . .. ..
i
..
. .. ...... .
d
..
. . . ..
s .. . .
(kg) 60 .
.

40
140 160 180 200
taille (cm)
On constate une augmentation du poids avec la taille (corrélation
positive): les garçons les plus grands sont généralement les plus
lourds.
Mais la dispersion des points est assez grande: la corrélation est
assez faible.
2. Corrélation entre le poids et la taille pour les filles de 2 ème candi.
commu.

p
o 80
i
d . . ..... .
.
s
. ... . .. .
(kg) 60 . . .. ....... .
. ..... . ..
...... ...
.
40
140 160 180 200
taille (cm)
On ne constate pas de relation entre le poids et la taille (absence de
corrélation): le poids des filles est indépendant de leur taille.
(Les filles les plus grandes sont donc les plus minces)
7.2. Méthode des moindres carrés
Si on se contente de tracer à main levée la droite qui "passe au mieux" par
les points représentatifs, différentes personnes vont obtenir des résultats
différents.
Il existe une méthode mathématique pour déterminer la "meilleure"
droite: c'est la méthode des moindres carrés.
Elle consiste, dans sa version la plus simple, à trouver la droite qui
minimise les carrés des écarts des points représentatifs à cette droite.
Y
d5

d3 d4
d1
d2

X
Trouver la droite telle que la somme des carrés des écarts d 1, d2,… soit
minimale:
 d 2  minimum
Soit
Y  aX  b
l'équation de la droite cherchée (droite de régression)
Les coefficients a et b peuvent être calculés à partir des formules
suivantes:
Pente:
a
X 1       
 X . Y1  Y  X 2  X . Y2  Y    X n  X . Yn  Y 
X  X   X  X   X  X 
1
2
2
2
n
2

ou:

a
 ( X  X ).(Y  Y )
 (X  X )2
Ordonnée à l'origine:
b  Y  a. X

Rappels:
1
X 
n
X
1
Y  Y
n
7.3. Coefficient de corrélation
Le signe de la pente a donne le sens de corrélation, mais pas sa qualité.
a>0 corrélation positive
a<0 corrélation négative
a=0 pas de corrélation
La qualité de la corrélation peut être mesurée par un coefficient de
corrélation r
r  ( X  X ).(Y  Y )
 ( X  X )   (Y  Y ) 2
2

Le coefficient de corrélation est compris entre 1 et +1.


Plus il s'éloigne de zéro, meilleure est la corrélation
r = +1 corrélation positive parfaite
r = 1 corrélation négative parfaite
r=0 absence totale de corrélation
Quelques exemples de corrélation
(le coefficient de corrélation r est indiqué dans chaque cas)
Exemples:
1. Supposons un échantillon aléatoire de 4 firmes pharmaceutiques présentant les dépenses de
recherche X et les profits Y suivants (en milliers de dollars):
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de régression et le coefficient de corrélation.
Calculons tout d'abord X et Y:
1 1 160
X   X   40  40  30  50    40
n 4 4
1 1 200
Y   Y   50  60  40  50   50
n 4 4
Complétons le tableau suivant:
X Y XX Y Y  X  X  2 Y  Y  2 X  X  .Y  Y 

40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 10 10 +100 +100 +100
50 50 +10 0 +100 0 0
On a donc:
  X  X   200
2

 Y  Y   200
2

  X  X .Y  Y   100
Les coefficients de la droite de régression sont:
a
  X  X .Y  Y   100  0,5
X  X 
2
200

b  Y  a. X  50  0,5  40  50  20  30
Et le coefficient de corrélation:
r
  X  X .Y  Y  
100

100
 0,5
  X  X    Y  Y 
2 2 200  200 200
La corrélation est positive et de qualité moyenne
Y
60

50

40

30 40 50 60 X
2. La corrélation entre la taille (X) et le poids (Y) pour les garçons de
2ème candi. commu. donne les résultats suivants:
(a) droite de régression Y = aX + b
a = 0,816 b = -77,0
(b) coefficient de corrélation
r = 0,61
la corrélation est donc positive, de qualité moyenne
3. De la même manière, pour les filles, on obtient:
(a) droite de régression
a = 0,239 b = 16,6
(b) coefficient de corrélation
r = 0,20
la corrélation est positive (les filles les plus grandes tendent à être les
plus lourdes), mais de très mauvaise qualité (r proche de zéro).
Remarques:
1. Le coefficient de corrélation nous donne des informations sur
l'existence d'une relation linéaire (sous forme d'une droite) entre les
deux grandeurs considérées.
Un coefficient de corrélation nul ne signifie pas l'absence de toute
relation entre les deux grandeurs. Il peut exister une relation non
linéaire entre elles.
(cf. exemple (f) ci-dessus: la connaissance de X nous donne des
informations sur la valeur de Y).
2. Il ne faut pas confondre corrélation et relation causale.
Une bonne corrélation entre deux grandeurs peut révéler une relation
de cause à effet entre elles, mais pas nécessairement.
Exemples:
1. Si on compare la durée de vie des individus à la quantité de
médicaments pour le cœur qu'ils ont absorbée, on observera
probablement une corrélation négative. Il serait imprudent de
conclure que la prise de médicaments pour le cœur abrège la vie
des individus…
(en fait, dans ce cas, la corrélation est l'indice d'une cause
commune: la maladie de cœur).
2. Le soleil tire son énergie de réactions nucléaires transformant
l'hydrogène en hélium. Notre société tire une bonne part de son
énergie de la combustion du pétrole. Si on compare, année après
année, la quantité d'hélium contenue dans le soleil au prix moyen
du pétrole, on obtiendra une bonne corrélation positive, sans qu'il
y ait la moindre relation de cause à effet, ni aucune cause
commune.
3. Depuis une dizaine d'années, la taille de mon fils cadet, né en
1989, est très bien corrélée avec la puissance de calcul des
ordinateurs personnels. Cette excellente corrélation ne révèle bien
évidemment aucune relation de cause à effet, ni cause commune.
L'existence d'une corrélation, aussi bonne soit elle, n'est jamais la
preuve d'une relation de cause à effet.

Vous aimerez peut-être aussi