Vous êtes sur la page 1sur 25

Lycée Agricole Mèdji de Sékou

Cellule de Formation Continue

Tel : 95 15 50 26/ 95 28 02 54/ 97 72 52 28

Sciences et Technique Agricoles

Formation à Distance

Cours de Biostatistique

1
Monographie : 5ème année

(édition de Février 2014)

Monographie 1 (Rappel)

2
Introduction générale

La statistique peut être vue comme l'ensemble des méthodes et techniques permettant
de traiter les données (informations chiffrées) associées à une situation ou un
phénomène. Cette démarche correspond à plusieurs objectifs, c'est pourquoi on
subdivise la statistique en plusieurs domaines :
• Description d'une situation donnée (faire parler les chiffres) : C'est le cadre de la
Statistique Descriptive.
• Mettre en évidence certaines relations : On parle ici de statistique corrélative.
• Faire des prévisions à propos de phénomènes évoluant dans le temps : ce que l'on
appelle les séries temporelles, ou chronologiques.
• D'induire des conclusions générales à partir de mesures faites sur un échantillon.
• De tester une hypothèse : c'est l'objet de la statistique inférentielle.

Nous l'aborderons lors de la théorie des sondages (ou de l'échantillonnage).


En conséquence la statistique se révèle être un outil fondamental d'aide à la décision.

3
1. Quelques définitions
1.1. Population
Une population est un ensemble d’individus ou d’éléments ayant un certain nombre
de caractère commun. C’est le Groupe d'individus ou d'éléments auquel nous nous
intéressons, ensemble de " référence " sur lequel portent les observations. Ainsi
l’ensemble de tous les bovins de race Borgou du Bénin ou de tous les veaux de race
Borgou eu 2004 constituent des populations.
Définir la population d'étude est un point fondamental, dans la mesure où tout ce que
nous pouvons observer, dire ou calculer est relatif à cette population. Bien souvent
cette population est définie à travers la ou les valeurs spécifiques d'une variable.
1 .2. Echantillon
Bien entendu, le plus souvent, il est difficile d’étudier tous les éléments d’une
population donnée. Il est tentant alors d’essayer d’examiner un sous-groupe de cette
population d’étude et d’essayer de déduire (d’inférer), à partir des observations
effectuées sur ce sous-groupe, le comportement de la population générale. La difficulté
réside dans le choix du ou des "échantillon(s)" qui doit (vent) être représentatif(s) de
la population. Nous reviendrons plus longuement ultérieurement sur les moyens
d’atteindre cette représentativité.
Que nous travaillions sur la population entière ou sur un échantillon, nous allons
effectuer des mesures, observer des valeurs prises par des grandeurs ou des caractères
etc...., bref nous allons définir des variables.

1.3. Variable statistique


Un individu peut être décrit selon une ou plusieurs composantes qu’on appelle
caractères ou variables statistiques.
Ex: hauteur au garrot, périmètre thoracique, poids, gain moyen quotidien etc.
1.3.1. Variables quantitatives.
Les variables quantitatives sont des variables mesurables qui peuvent s’exprimer en
unité (volume, temps, poids). Certains variables quantitatives n’ont pas d’unité ; c’est
le cas d’un indice de consommation, le pH.etc .Les variables quantitatives sont
composées de valeurs isolées et sont appelées variables discrètes par opposition aux
variables continues qui peuvent prendre n’importe quelle valeur dans un intervalle.

4
Exemple de valeurs discrètes : le nombre de veaux par exploitation dans la commune
de Lokossa en septembre 2004.
Exemple de variables continues : poids de veaux à la naissance à la ferme de
l’Okpara ; poids mensuel des veaux en croissance dans le troupeau bovin du Lycée
Agricole Médji de Sékou.
Par ailleurs, le degré de précision des mesures peut entraîner des regroupements de ces
mesures. La mesure de la durée d’incubation d’une maladie n’est pas suffisamment
précise pour qu’on puisse l’estimer en heures, minutes, secondes ... On décide alors de
considérer, par exemple, que toute durée située entre 5 jours et 6 jours est de : 6 jours.
La variable continue devient discrète, et prend un plus ou moins grand nombre de
valeurs isolées.
1.3.2. Les variables qualitatives :
Un caractère est qualitatif si chaque modalité ne peut être mesurée ou repérée par un
nombre.
Variable qualitative nominale :
La modalité (dénommée aussi catégorie) est alors un nom, un adjectif, une phrase...
Ex : sexe (féminin, masculin), couleur des yeux, groupes sanguins...
Les modalités qualitatives n’ont ici pas de relation d’ordre.
Variable qualitative ordinale
Les modalités d’une variable qualitative ordinale ont une relation d’ordre.
Ex: intensité d’une réaction inflammatoire (-, +, ++,+++), stades d’une maladie (peu
avancé, avancé, très avancé).
Les modalités d’une variable qualitative ordinale sont encore dénommées catégories,
ou niveaux (pour mettre l’accent sur le caractère ordonné des modalités).
Dans ces situations, il est d’usage d’attribuer un codage consistant à associer
artificiellement une valeur à chaque modalité, reprenant l’ordre croissant ou
décroissant des modalités de la variable.
1.4. Unité statistique
L’unité statistique est un élément de la population ou du groupe étudié. L’ensemble
des unités statistique constitue la population. On remplacera volontiers par la suite le
terme " unité " par le terme " individu ".
1.5. Distribution statistique
5
Il s’agit de l’ensemble des couples (xi, ni), où xi est une modalité de la variable x, et ni
le nombre de fois où cette modalité est observée (effectif ou fréquence absolue). Elle
peut aussi être l’ensemble des couples (x i, fi), où fi est la fréquence relative (ou
proportion) de la modalité xi :
fi = ni /n (n étant l’effectif total des observations).

6
Monographie 2

Tests d’hypothèse
Introduction
Dans tout travail scientifique, le chercheur doit tester des hypothèses. Son but est d'être
objectif dans sa décision et Dour être objectif il doit utiliser des systèmes fiables. Si la
méthodologie employée n'est pas fiable, l'expérience ne peut être répétée et
l'expérience n'est pas scientifique, n'est pas relative à une Science.
La Science est définie comme un "ensemble cohérent de connaissances relatives à
certaines catégories de faits, d'objets ou de phénomènes obéissant à des lois et
vérifiées par les méthodes expérimentales". Dans le mot "vérifiées" se retrouve en
quelque sorte la répétabilité de l'expérience.

7
La décision occupe une place importante en Statistique. En fait, le chercheur va, au
départ des données, confirmer ou infiriner une idée (hypothèse) qu'il a voulu tester par
son expérience.
Pour pouvoir réaliser des décisions importantes et objectives, une série d'étapes,
appelées tests d'hypothèse, doivent être programmées.

1-Etablir une hypothèse nulle (HO) et son alternative (HI), chercher les
données et voir lesquelles choisir.

2-Choisii- une Statistique (en fait revient à choisir un test statistique (ex: Z)
en fonction de l'hypothèse à tester et du type de données.

3-Définir un seuil (x appelé seuil de signification ainsi que la taille de


l'échantillon (n).

4-Etudier la distribution de la statistique en fonction de Ho c'est-à-dire Ho


étant vraie.

5-Définir la zone de rejet de Ho (et donc la zone d'acceptation).

6-Calculer la Statistique, voir où la valeur calculée se situe et enfin décider si


Ho est rejetée ou non en n'oubliant pas la notion d'erreur.

Hypothèse nulle - Ho

Etablir une hypothèse nulle (H0) est donc la première étape à réaliser. Quand nous
parlons d'hypothèse nulle, nous sous-entendons "pas d'effet" et cette notion est
supposée être rejetée c'est-à-dire que l'hypothèse alternative HI sera, dans ce cas,
acceptée.

8
En effet, dans la plupart des situations que nous avons à traiter nous essayons montrer
l'effet d'un traitement, d'un produit, d'un régime..Le fait de rejeter Ho revient donc à
accepter la présence de l'effet d'un traitement, d'un produit, d'un régime ... que nous
testions, Dans ce cas on dira que l'effet d'un traitement, d'un produit, d'un régime...est
signifîcatif.
Exemple:
Un chercheur veut tester qu'un nouvel additif dans l'alimentation augmente le poids au
sevrage chez le mouton. Il réalise deux groupes GI et G2. Il donne l'additif à G2 et
veut donc tester si il y a une différence significative (=effet du produit).

Il va poser Ho qu'il n'y a pas d'effet de cet additif. L'alternative est H1. Nous verrons
plus loin que le chercheur va tester 2 moyennes.

-Ho suppose μ1=μ2 alors que H1 suppose μ1# μ2.

Dans certains cas, H1 sera posée autrement; c'est le cas lorsque le chercheur veut tester
si G2>Gl ou bien l'inverse. Dans ce cas, H1 suppose μ1<μ2 Ou bien l'inverse μ1>μ2.

Choisir une Statistique

Ce n'est évidemment qu'après avoir étudié l'ensemble du cours que vous pourrez
choisir la Statistique appropriée mais disons que vous aurez à choisir parmi : les
statistiques paramétriques (utilisant des paramètres ex: μ) ; les statistiques non
pararmétriques et dans chaque groupe vous aurez à choisir la procédure statistique
appropriée.

Choisir un seuil α de signification

A ce niveau, il faut distinguer:


-les données
-la Statistique calculée à partir de ces données en fonction de Ho (Ho étant vraie)

9
-la probabilité de la Statistique en fonction de Ho.

Lorsque la probabilité va être plus petite qu'un certain seuil, H0 sera rejetée. Ce seuil
est appelé seuil de signification ou α.
Valeurs d'a classiquement utilisées : α =0,05 ; α =0,01 ; α=0,001.
C'e
évé
mai
Pour prendre un exemple simple, considérons le cas d'un individu mesurant 2,13
mètres. Nous ferons l'hypothèse qu'il est tiré d'une Population centrée plu
sur μ= 1,70 avec σ=0,10.

En fait, nous faisons l'H0 qu'il n'y a pas de différence entre la population d'où est tiré
l'individu (2,13) et la Population (μ= 1,70 avec σ=0,10).
Il y
Voyons à présent α. Nous savons que si H0 est μ= 1,70 avec σ = 0,10, alors la
statistique Z nous apprend que après 1,64 σ, nous avons 5% des valeurs selon cette H0.
Au niveau des données 1,64 σ vaut 0,164 soit 1,864 mètres. Le seuil est donc à 1,864
mètres (test unilatéral).

Par convention le seuil étant fixé à 5%, nous dirons que puisque l'individu tombant
dans la zone des 5% de H0 (en effet, 2,13 est bien dans cette zone) H0 est rejetée au
seuil 5%. Nor

Comme des individus mesurant 2,13 mètres existent toutefois dans la population : μ=
1,70 avec σ = 0,10 (c'est évident puisque nous calculons la valeur de Z au départ de
cette population), nous dirons que dans moins de 5% des cas nous pourrons nous
tromper c-a-d rejeter H0 alors qu'elle est vraie, nous disons moins de 5% pcq 2,13m
est largement supérieur à 1,64 σ ) c'est l'erreur de type 1 ou α.

L'erreur de type 1 ou σ

10
C'est la probabilité de rejeter Ho alors qu'elle est vraie. Avec notre exemple,
nous comprenons que des individus mesurant > ou = à 2,13 mètres existent
dans la population (μ= 1,70 ; σ = 0,10) mais la probabilité de cet événement
est très faible alors le statisticien dira que Ho est rejetée au seuil 5% mais
que dans 5% des cas elle pourra être toutefois vraie. Une décision est prise
mais elle est prise avec la notion d'α. On comprend que plus α est grande
plus la probabilité de se tromper augmente.

L'erreur de type Il ou β

Il y a un autre type d'erreur; c'est l'erreur de type Il ou β. Cette erreur n'a


de sens que lorsque des alternatives sont présentes. Elle s'énonce comme
suit. Lorsque nous acceptons Ho il se peut que nous l'acceptions alors
qu'elle est fausse. Accepter l'hypothèse alors qu'elle est fausse c'est
réaliser l'erreur de type Il ou β

Les deux types d'erreurs sont bien illustrés par la figure suivante:
Notons encore que les tests d'hypothèse ne nous permettent pas d'affirmer
qu'une hypothèse est vraie; en effet, une hypothèse sera toujours acceptée
ou rejetée et ce à un certain seuil de signification.

Puissance d'un test d'hypothèse

Normalement tous les seuils (α, β) ainsi que la valeur de la taille


d'échantillon doivent être connus au départ mais généralement seuls α et N
sont fixés en fonction des problèmes à traiter; le seuil 13 est fixé par la
suite.

On appelle puissance du test, la probabilité de rejeter Ho alors qu'elle est


fausse c'est-à-dire la faculté d'un test de rejeter Ho quand cela doit être le
cas.
11
Puissance = (1- β)

La puissance d'un test dépend de l'effectif et augmente en fonction de la taille de


l'échantillon.

Le Test de Chi-Carré

12
Quand ?

Lorsque l'expérimentateur est intéressé par le nombre d’individus, tombant dans des
catégories particulières (=des classes) comme:

AA,Aa,aa 3 classes (loi de Mendel)


mâles/femelles 2 classes
++/+-/-- 3 classes
A,AB,B,O 4 classes (groupes ABO)
+ou - (=sondage) 2 classes

Le test du Chi-Carré - χ2 peut être utilisé pour déterminer si une différence


significative existe entre les observations (0i) et les espérances (Ei, les valeurs
attendues).

Dans le cas de la loi de Mendel et de l'expérience classique de Génétique, les valeurs


attendues sont facilement obtenues en multipliant le nombre total d'individus par les
pourcentages suivants:
A,A Aa aa
0,25 0,50 0,25

Dans le cas de la proportion des sexes, les valeurs attendues sont facilement obtenues
en partant de l'hypothèse que c'est 50:50.

Mâle Femelle

0,50 0,50

Dans le cas des groupes sanguins ABO, les observations (Phénotypes Oi) sont
comparées aux espérances (Ei, données par la Génétique).
Exemple:Tamarin (1993)

Oi Ei
A (AA, AO) 199
B (BB, BO) 53 Sera donné

AB (AIB) 17 dans le cours de Génétique

13
O(OO) 231

Les génotypes sont donnés entre parenthèses. Lorsque nous avons plus de deux allèles
(ex: a, b, c) leur fréquence est f (a), f (b), f (c) soit p, q et r avec (p + q + r)² =1.

Dans le cas du sondage où parmi 120 personnes, 64 (O1 individus) sont pour et 56 (O2
individus) sont "contre". Les espérances sont 60.

O/E Pour Contre Total


oi 64 56 120
Ei 60 60 120

Conditions pour le Test de Chi-Carré.

Nous avons indiqué plus haut que le test du Chi-Carré - χ2 peut être utilisé pour
déterminer si une différence significative existe entre les observations (0i) et les
espérances (Ei). Les conditions sont les suivantes:
- les Oi sont des observations indépendantes
-toutes les Ei > ou = 5
- les Oi et les Ei ne sont pas des pourcentages.

Le Test de Chi-Carré - Méthode.

Dans les test du Chi-Carré - χ2, des valeurs prévues sont calculées. Ces valeurs
prévues sont obtenues de la littérature scientifique (Génétique, sex ratio ... ), calculées
au départ des données (voir plus loin) ou précisées par l'expérimentateur (valeurs à
priori).

La démarche est la suivante:

-Formuler l'hypothèse nulle.


L'hypothèse nulle Ho est toujours la suivante:
Ho: pas de différence entre la situation observée et celle prévue (par
le calcul des Ei)

- Calculer le nombre de classes (k) et le nombre de degrés de liberté

- Calculer la statistique χ2:

14
χ2= ∑(Oi – Ei)²
Ei

c'est le χ2 observé.

- Comparer le χ2 observé avec le χ2 théorique (obtenu au départ


d'une table).

La table de χ2 donne la valeur limite en fonction du nombre de degrés de liberté.


Lorsque les différences (Oi-Ei) sont importantes, c'est-à-dire les différences entre les
observés (0i) et les prévus par l'Ho (Ei), la valeur de χ2 grandit rapidement et entraîne
le rejet de Ho.

Exemple 1: Sondage où parmi 120 personnes, 64 (O1 individus) sont "pour" et 56 (O2
individus) sont "contre".

Pour Contre Total


64 56 120
Ho: 50:50 = pas de majorité
χ2 = (64 - 60)²/60+(56 - 60)²/6=0,5333 avec (2- 1)= 1 degré de liberté.

Dans la table --> 0,5333 est < à 3,84 d'où Ho acceptée.

On peut monter que la racine carrée de χ2 = Z ou χ2=Z²

Table de Chi-Carré

Utilisation de la table de Chi-Carré


Dans la table, les surfaces sont indiquées dans les colonnes et les degrés de libertés
(ddl) dans les rangées.

ddl Probabilité
0,95
1 3,84
2
3

La valeur de χ²0,05 = 3,84

Chi-Carré dans les tables de contengence 2 X 2

15
Le test de Chi-carré peut être également utilisé pour tester l’indépendance entre
caractères. En médecine, tester si un produit est actif revient, par exemple, à comparer
ses effets par rapport à un témoin.

Ainsi, tester l’effet d’un vaccin au départ des données relatives à 700 individus dont le
nombre total de vaccinés et de vivants sont respectivement 400 et 150, situation où
100 individus sont vivants parmi les vaccinés, revient à créer la table de contingence
suivante :

Morts Vivants Total


Non
vaccinés 250 50 300
Vaccinés 300 100 400
Total 550 150 700

Les chances de survies sont –elles indépendantes de la vaccination (indépendance de


deux caractères) ?

Les pourcentages de survivants chez les vaccinés et chez les non vaccinés sont – ils
significativement différents ?

Pour la table de contingence de 2 X2 se présente de la manière suivante :

Morts Vivants Total


Non O1 O2 O1+O2
vaccinés E1 E2
O3 O4 O3+O4
Vaccinés E3 E4
Total O1+O3 O2+O4 N

N = O1+O2+O3+O4

Dans le cas de l’exemple ci-dessus, les attendus sont calculés à partir de la probabilité
de morts ou de vivants de la population.

Ainsi, les attendus sont dans le tableau ci-dessous :

16
Morts Vivants Total
Non
vaccinés 235,714 64,286 300
Vaccinés 314,286 85,714 400
Total 550 150 700

En appliquant la formule de chi-carré, on obtient une valeur de 7,07

Le nombre de degré de liberté est égal au nombre de classes dont les fréquences
peuvent variées indépendamment, sans modifier les totaux moins 1.

En conclusion, l’hypothèse d’indépendance doit être rejetée, autrement dit, le vaccin


assure une protection réelle vis-à-vis de l’infection car χ² calculé et > à χ² théorique.

Chi-Carré dans les tables de contengence R X 2

Lorsque le problème consiste à comparer plusieurs pourcentages, une table de


contingence caractérisée par deux colonnes et un nombre de rangées (R) égal au
nombre de traitements peut être créée. On parle dans ce cas de table de contingence R
X 2.

Exercice d’application

Pour tester l’effet d’un antibiotique, 1420 porcelets ont été infectés et répartis en 6
groupes. Chaque groupe a eu un traitement différent des autres. Le nombre de
survivants a été compté et consigné dans le tableau ci-dessous.

Groupe Survivants Total


1 90 400
2 20 120
3 30 220
4 10 110
5 20 370
6 30 200
Total 200 1420

Le nombre de morts a été déduit dans chaque groupe. Les 6 groupes proviennent d’une
seule population.

17
1. Calculer le pourcentage de morts au sein de la population
2. Calculer les nombres de survivants et de morts attendus
3. Calculer le nombre de degré de liberté
4. Calculer la statistique χ²
5. Comparer le χ² observé au χ² théorique obtenu au départ d’une table et dites si
la différence entre les effectifs observés et ceux attendus sont significatifs.

Table de Chi-carré
ddl 20,005 20,025 20,05 20,90 20,95 20,975 20,99 20,995
1 0,0000393 0,000982 0,00393 2,706 3,841 5,024 6,635 7,879
2 0,01 0,051 0,103 4,605 5,991 7,378 9,21 10,597
3 0,072 0,216 0,352 6,251 7,815 9,348 11,345 12,838
4 0,207 0,484 0,711 7,779 9,488 11,143 13,277 14,86
5 0,412 0,831 1,145 9,236 11,07 12,832 15,086 16,75
6 0,676 1,237 1,635 10,645 12,592 14,449 16,812 18,548
7 0,989 1,69 2,167 12,017 14,067 16,013 18,475 20,278
8 1,344 2,18 2,733 13,362 15,507 17,535 20,09 21,955
9 1,735 2,7 3,325 14,684 16,919 19,023 21,666 23,589
10 2,156 3,247 3,94 15,987 18,307 20,483 23,209 25,188
11 2,603 3,816 4,575 17,275 19,675 21,92 24,725 26,757
12 3,074 4,404 5,226 18,549 21,026 23,337 26,217 28,3
13 3,565 5,009 5,892 19,812 22,362 24,736 27,688 29,819
14 4,075 5,629 6,571 21,064 23,685 26,119 29,141 31,319
15 4,601 6,262 7,261 22,307 24,996 27,488 30,578 32,801
16 5,142 6,908 7,962 23,542 26,296 28,845 32 34,267
17 5,697 7,564 8,672 24,769 27,587 30,191 33,409 35,718
18 6,265 8,231 9,39 25,989 28,869 31,526 34,805 37,156
19 6,844 8,907 10,117 27,204 30,144 32,852 36,191 38,582
20 7,434 9,591 10,851 28,412 31,41 34,17 37,566 39,997
21 8,034 10,283 11,591 29,615 32,671 35,479 38,932 41,401
22 8,643 10,982 12,338 30,813 33,924 36,781 40,289 42,796
23 9,26 11,689 13,091 32,007 35,172 38,076 41,638 44,181
24 9,886 12,401 13,848 33,196 36,415 39,364 42,98 45,558
25 10,52 13,12 14,611 34,382 37,652 40,646 44,314 46,928
26 11,16 13,844 15,379 35,563 38,885 41,923 45,642 48,29
27 11,808 14,573 16,151 36,741 40,113 43,195 46,963 49,645
28 12,461 15,308 16,928 37,916 41,337 44,461 48,278 50,994
29 13,121 16,047 17,708 39,087 42,557 45,722 49,588 52,335
30 13,787 16,791 18,493 40,256 43,773 46,979 50,892 53,672
31 14,458 17,539 19,281 41,422 44,985 48,232 52,191 55,002

18
32 15,134 18,291 20,072 42,585 46,194 49,48 53,486 56,328
33 15,815 19,047 20,867 43,745 47,4 50,725 54,775 57,648
34 16,501 19,806 21,664 44,903 48,602 51,966 56,061 58,964
35 17,192 20,569 22,465 46,059 49,802 53,203 57,342 60,275
36 17,887 21,336 23,269 47,212 50,998 54,437 58,619 61,581
37 18,586 22,106 24,075 48,363 52,192 55,668 59,893 62,883
38 19,289 22,878 24,884 49,513 53,384 56,895 61,162 64,181
39 19,996 23,654 25,695 50,66 54,572 58,12 62,428 65,475
40 20,707 24,433 26,509 51,805 55,758 59,342 63,691 66,766
41 21,421 25,215 27,326 52,949 56,942 60,561 64,95 68,053
42 22,138 25,999 28,144 54,09 58,124 61,777 66,206 69,336
43 22,86 26,785 28,965 55,23 59,304 62,99 67,459 70,616
44 23,584 27,575 29,787 56,369 60,481 64,201 68,71 71,892
45 24,311 28,366 30,612 57,505 61,656 65,41 69,957 73,166
46 25,041 29,16 31,439 58,641 62,83 66,616 71,201 74,437
47 25,775 29,956 32,268 59,774 64,001 67,821 72,443 75,704
48 26,511 30,754 33,098 60,907 65,171 69,023 73,683 76,969
49 27,249 31,555 33,93 62,038 66,339 70,222 74,919 78,231
50 27,991 32,357 34,764 63,167 67,505 71,42 76,154 79,49
51 28,735 33,162 35,6 64,295 68,669 72,616 77,386 80,746
52 29,481 33,968 36,437 65,422 69,832 73,81 78,616 82,001
53 30,23 34,776 37,276 66,548 70,993 75,002 79,843 83,253
54 30,981 35,586 38,116 67,673 72,153 76,192 81,069 84,502
55 31,735 36,398 38,958 68,796 73,311 77,38 82,292 85,749
56 32,491 37,212 39,801 69,919 74,468 78,567 83,514 86,994
57 33,248 38,027 40,646 71,04 75,624 79,752 84,733 88,237
58 34,008 38,844 41,492 72,16 76,778 80,936 85,95 89,477
59 34,77 39,662 42,339 73,279 77,93 82,117 87,166 90,715
60 35,534 40,482 43,188 74,397 79,082 83,298 88,379 91,952
61 36,3 41,303 44,038 75,514 80,232 84,476 89,591 93,186
62 37,068 42,126 44,889 76,63 81,381 85,654 90,802 94,419
63 37,838 42,95 45,741 77,745 82,529 86,83 92,01 95,649
64 38,61 43,776 46,595 78,86 83,675 88,004 93,217 96,878
65 39,383 44,603 47,45 79,973 84,821 89,177 94,422 98,105
66 40,158 45,431 48,305 81,085 85,965 90,349 95,626 99,33
67 40,935 46,261 49,162 82,197 87,108 91,519 96,828 100,554
68 41,714 47,092 50,02 83,308 88,25 92,688 98,028 101,776
69 42,493 47,924 50,879 84,418 89,391 93,856 99,227 102,996
70 43,275 48,758 51,739 85,527 90,531 95,023 100,425 104,215
71 44,058 49,592 52,6 86,635 91,67 96,189 101,621 105,432
72 44,843 50,428 53,462 87,743 92,808 97,353 102,816 106,647
73 45,629 51,265 54,325 88,85 93,945 98,516 104,01 107,862

19
74 46,417 52,103 55,189 89,956 95,081 99,678 105,202 109,074
75 47,206 52,942 56,054 91,061 96,217 100,839 106,393 110,285
76 47,996 53,782 56,92 92,166 97,351 101,999 107,582 111,495
77 48,788 54,623 57,786 93,27 98,484 103,158 108,771 112,704
78 49,581 55,466 58,654 94,374 99,617 104,316 109,958 113,911
79 50,376 56,309 59,522 95,476 100,749 105,473 111,144 115,116
80 51,172 57,153 60,391 96,578 101,879 106,629 112,329 116,321
81 51,969 57,998 61,262 97,68 103,01 107,783 113,512 117,524
82 52,767 58,845 62,132 98,78 104,139 108,937 114,695 118,726
83 53,567 59,692 63,004 99,88 105,267 110,09 115,876 119,927
84 54,368 60,54 63,876 100,98 106,395 111,242 117,057 121,126
85 55,17 61,389 64,749 102,079 107,522 112,393 118,236 122,324
86 55,973 62,239 65,623 103,177 108,648 113,544 119,414 123,522
87 56,777 63,089 66,498 104,275 109,773 114,693 120,591 124,718
88 57,582 63,941 67,373 105,372 110,898 115,841 121,767 125,912
89 58,389 64,793 68,249 106,469 112,022 116,989 122,942 127,106
90 59,196 65,647 69,126 107,565 113,145 118,136 124,116 128,299
91 60,005 66,501 70,003 108,661 114,268 119,282 125,289 129,49
92 60,815 67,356 70,882 109,756 115,39 120,427 126,462 130,681
93 61,625 68,211 71,76 110,85 116,511 121,571 127,633 131,871
94 62,437 69,068 72,64 111,944 117,632 122,715 128,803 133,059
95 63,25 69,925 73,52 113,038 118,752 123,858 129,973 134,247
96 64,063 70,783 74,401 114,131 119,871 125 131,141 135,433
97 64,878 71,642 75,282 115,223 120,99 126,141 132,309 136,619
98 65,693 72,501 76,164 116,315 122,108 127,282 133,476 137,803
99 66,51 73,361 77,046 117,407 123,225 128,422 134,641 138,987
100 67,328 74,222 77,929 118,498 124,342 129,561 135,807 140,17

Monographie 3
Tests d’hypothèse sur les moyennes de population

Introduction
Lorsque nous avons estimé la moyenne de la population μ par la moyenne
d'échantillon x, nous avons observé que, si on réalise cette estimation un grand nombre
20
de fois, nous n'avions pratiquement jamais la vraie valeur μ mais une distribution des
x et une dispersion des valeurs mesurée par la variance σ². C'est ce qui est appelé le
théorème de la limite centrale: "Dans une population quelconque (pas nécessairement
normale), ayant une variance σ² et une moyenne μ, la distribution de la moyenne
d'échantillon s'approche d'une distribution normale avec moyenne μ et variance σ²/n
lorsque n augmente."
Il y a deux méthodes permettant d'approcher cette moyenne μ.

Méthode 1: calculer un intervalle de confiance au départ des données (x ) et indiquer


les limites (p. ex. 95%) de localisation de μ.

Méthode 2: le test d'hypothèse. Cette méthode consiste à donner une valeur


"plausible" de μ et à tester si cette valeur est compatible avec les données.
Dans la méthode 2 (Test d'hypothèse), nous partons généralement de la situation
suivante:

1- La population a une moyenne μ. Lorsque 2 populations sont concernées, les


moyennes sont μ l et μ 2 (nous testerons d'ailleurs μ l = μ 2 = μ et dans la plupart des
cas elles auront la même variance σ² pour le caractère étudié (cas le plus fréquent).
2- L'hypothèse relative à une différence entre moyenne observée et moyenne de
population ou à la différence entre deux moyennes d'échantillon sera acceptée ou
rejetée sur base d'une probabilité de l'Ho (pas de différence) calculée au départ de la
déviation standard de cette différence de moyennes c'est-à-dire une erreur standard.

Un seul échantillon-Variance de la population connue- Test de Z.


Une expérience consiste à examiner 100 agneaux soumis à un régime particulier. Le
but est donc de tester si le régime est efficace sur le poids à un âge donné.
Ces 100 agneaux sont issus d'une population où la moyenne du poids à un âge donné
est de 30 kilos (μ=30) et où la variance (du poids) est de σ² = 25. La déviation
standard des données est donc σ =5.
Le régime a donné x = 32 ou encore la moyenne du poids des agneaux ayant une
alimentation particulière est de 32 kilos. Ce régime est-il efficace? Ce qui en
statistique s'écrit: la différence entre la moyenne x = 32 et la moyenne μ =30 est-elle
significative?
Deux situations sont donc possibles:
Soit la moyenne x = 32 n'est pas significativement différente; l'échantillon conduisant
à x = 32 est un échantillon provenant de la population où μ =30 et est donc un
échantillon atypique de cette population.
Soit la moyenne des animaux traités n'est pas μ =30 (>30 ou <30).
Pour choisir l'une des propositions nous écrivons:

21
On considère que x estime μT et on fait l'H0 μT= μ.

Z = (x- μ)/erreur standard avec erreur standard = σ sur racine carrée de l’effectif.
Dans notre exemple : Z= (32-30) / (5/10) = 4 (10 est la racine carrée de 100, c-à-d,
nbre d’agneaux).

1) Test bilatéral H0 μ T= μ, H1 μ T # μ

La question posée était le régime conduit-il à une différence? Alors il faut prendre Z=
+1,96 ou Z = -1,96.
La valeur Z calculée (4) dépasse 1,96, l'hypothèse est rejetée et la différence est
significative (erreur alpha =0,05)

2) Test unilatéral droit H0 μ T= μ, H1 μ T > μ


La question posée était le régime a-t-il augmenté le poids? Alors il faut prendre Z=
+1,64.
La valeur Z calculée (4) dépasse 1,64 et la différence est significative (erreur alpha=
0,05).
Notons que si la taille d'échantillon n'était plus n=100 mais n=16 alors
5
l'erreur standard serait 16 et la valeur de Z deviendrait:
32  30
 1,6
5
Z= 16
Dès lors, lorsqu'une expérience ne conduit pas à une différence significative de
moyennes, il est parfois conseillé d'augmenter la taille de l'échantillon.
Un seul échantillon –Variance de la population non connue - Test de t.
Une expérience consiste à examiner 64 agneaux soumis à un régime particulier. Le
but est donc de tester si le régime est efficace.
Ces 64 agneaux sont issus d'une population où la moyenne du poids à un âge donné est
de 30 kilos (μ=30) et où la variance de la population σ² (du poids à un âge donné) n'est
pas connue.
La variance des données est S²=25 et donc la déviation standard est S=5. L'erreur
standard S/racine carrée de n est = 5/8= 0,625.

Le régime a donné x = 32 ou encore la moyenne du poids des agneaux ayant une


alimentation particulière est de 32 kilos. Ce régime est-il efficace?
On considère que x estime μ T et on fait l'H0 = μ.
Nous écrivons: t = (x- μ)/erreur standard.

22
T= ((32-30)/5)/(5/8)=3.2

Nous voyons donc apparaître une nouvelle statistique; c'est la statistique t dit test de t
de student.
La table de t donne la probabilité des valeurs égales ou supérieures à t en fonction du
nombre de degré de liberté : le test est uni ou bilatéral. Le nombre de degré de liberté
est ici égal à n- 1.

Test bilatéral H0 μT= μ, H1 μT # μ.


La question posée était le régime conduit-il à une différence? Alors prendre t +2,00 ou
t = -2,00. (Degrés de liberté = 64- 1 =63 --- > prendre 60).
La valeur t calculée dépasse la valeur de la table et la différence est significative
(erreur alpha = O,05)

Test unilatéral droit H0 μ T= μ, H1 μ T > μ


La question posée était le régime a-t-il augmenté le poids? Alors prendre t = +1,67
La valeur calculée dépasse 1,67 et la différence est significative (erreur alpha =0,05)

Table de t

t ou Z : quand?
Nous avons vu clairement plus haut que l'utilisation de la statistique t est requise
lorsque la variance de la population σ² n'est pas connue.
En examinant une table de t, vous verrez que pour un nombre infini de degré de
liberté, la valeur de t est égale à 1,96 (5%) et 1,64(2,5%) et donc égale à Z. En effet,
dans ce cas, S² devient σ².
Notons encore que si σ² n'est pas connue et si vous ne disposez pas des données pour
calculer σ², vous ne pouvez pas répondre à la question relative à la signification (au
sens statistique) de la différence des moyennes.

Le problème de la comparaison de deux moyennes d'échantillon.

23
Dans les données que nous avons à traiter, il est très fréquent d'avoir à comparer deux
moyennes. Un exemple classique est la comparaison d'un lot traité à un lot témoin.
Il existe deux types de situation.

1 -Deux lots issus d'une même population sont constitués au hasard; un des deux lots
reçoit le traitement, l'autre devient le lot témoin. Dans ce cas on parle de deux lots au
hasard.

2-Un seul lot est constitué et chaque animal reçoit les deux traitements.
Chaque animal est donc son propre témoin. Dans ce cas on parle de données pairées.
Il faut bien comprendre l'intérêt du deuxième plan expérimental où chaque animal est
donc son propre témoin. Dans cette situation, la variance de la différence des
moyennes va être plus petite car la variation individuelle n'existe forcément plus.

Exemple Traitement 1 Traitement 2 de données relatives à la


20 31 comparaison de moyennes,
deux lots 21 35 au hasard, Deux traitements
T1 et T2 23 33 sont comparés,
31 31
20 30
21 31
32 32
Total 168 223
n 7 7
x 24 31,857
Différ. des x -7,857

Exemple de données relatives à la comparaison de moyennes, données pairées.


Avant et après traitement.

Avant Après Différence d


Animal
1 20 31 -11
2 21 35 -14
3 23 33 -10
4 31 31 0
5 20 30 -10
6 21 31 -10
7 32 32 0
24
Total 168 223 -55
n 7 7 7
x 24,000 31,857 -7,857

La moyenne des différences est -7,857; cette valeur est la même que celle vue plus
haut puisque ce sont les mêmes données. Prendre les moyennes des deux lots et
prendre la différence entre celles-ci (24-31,857) est d'ailleurs une autre façon de
calculer la moyenne des différences (-55/ 7).
La différence fondamentale entre ces deux plans expérimentaux est que dans le
premier, on examine au total 14 individus (nl=7 et n2=7) tandis que dans le deuxième,
on en a 7 (n=7).

Deux lots au hasard - Variance connue - Test de Z


Nous avions vu dans un autre contexte que:
Soient deux variables continues X et Y
Si Z =X-Y
Alors μZ = μX – μY

25

Vous aimerez peut-être aussi