Académique Documents
Professionnel Documents
Culture Documents
V. Monbet
L2 S1 - 2009
1 Introduction
1.1 1.2 1.3 1.4
Qu'est ce que la statistique ? . . Qu'est ce qu'un test statistique ? Exemple . . . . . . . . . . . . . Rappels de probabilit . . . . . . 1.4.1 Loi de Bernouilli . . . . . 1.4.2 Loi binomiale . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 5 5 6 6 6 7 7 8 8 9 9 9 9
Hypothses de test . . . . . . . . . . . . Statistique de test . . . . . . . . . . . . Rgion de rejet et niveau de signication Les deux espces d'erreur . . . . . . . . Test unilatral ou bilatral . . . . . . . . Estimation . . . . . . . . . . . . . . . . 2.6.1 Intervalle de conance . . . . . . 2.6.2 Intervalle de tolrance . . . . . .
10
3.2
10 10 11 11 11 11 12 13 14 15 15 17 17 18 20
15
4.2
4.2.2 Calcul de la puissance du test . . . . . . . . . . . . . . . . . . . . . . . . . . Test pour une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introduction . . . . . . . . . . . . . . . . . . . . . . . . Tests non paramtriques . . . . . . . . . . . . . . . . . . 5.2.1 Test de la mdiane . . . . . . . . . . . . . . . . 5.2.2 Test de Mann-Whitney-Wilcoxon . . . . . . . . . Tests paramtriques . . . . . . . . . . . . . . . . . . . . 5.3.1 Comparaison de deux moyennes - Test de Student 5.3.2 Comparaison de deux variances - Test de Fisher . 5.3.3 Comparaison de deux proportions . . . . . . . . . Introduction . . . . . . . . . . . . . . . . . . . . . . . . Test d'adquation de Kolmogorov . . . . . . . . . . . . . 6.2.1 Estimer la fonction de rpartition . . . . . . . . . 6.2.2 Statistique de test . . . . . . . . . . . . . . . . . 6.2.3 Cas de la loi normale . . . . . . . . . . . . . . . 6.2.4 Test d'adquation du chi 2 : loi discrte . . . . . Test d'identit de deux distributions de deux distributions 6.3.1 Test de Kolmogorov-Smirnov . . . . . . . . . . . 6.3.2 Test de Cramr-von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20 20
22
22 22 23 23 25 25 26 26 27 27 28 28 28 29 30 30 31
6.3
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
27
Chapitre 1
Introduction
Exemple - Rpartition par classe d'age d'une population de poissons. Si on veut caractriser la population de morue dans une zone donne de l'Atlantique Nord, on va prlever quelques poissons (ces quelques poissons vont constituer l'chantillon). Puis on va mesurer leur age (otolithe), leur poids,
leur taille, ... on va enn chercher extrapoler ces rsultats toute la population. Mais on peut aussi chercher synthtiser une information trop dense.
Exemple - Acheteurs potentiels (prospects) d'un certain forfait de tlphone portable. On va chercher
les principales caractristiques spciques du groupe des clients du forfait an de mieux les connatre et d'tre capable d'identier des prospects. Ou encore vrier une hypothse.
Exemple - Contrle de qualit. Le fabriquant de caf fournit des paquets de 250 g. Le remplissage est
automatis. Rgulirement le fabriquant prlve quelques paquets de caf ce qui constitue l'chantillon. Il pse les paquets de l'chantillon an de vrier l'hypothse selon laquelle les paquets de caf psent bien 250 g en moyenne.
Exemple - Eet d'un traitement. Dans l'industrie pharmaceutique, il est obligatoire de tester l'ecacit
d'un traitement avant de le mettre sur le march. On procde alors de la faon suivante : on slectionne deux groupes de patients. L'un reoit le mdicament, l'autre un placbo. Il faut alors vrier que le groupe qui reoit le mdicament voit bien ses symptmes diminuer en moyenne. On trouve des applications de la statistique dans tous les domaines : industrie, environnement, mdecine, nance, marketing, sport, ...
Dans le cadre de ce cours, nous allons nous intresser principalement aux tests statistiques.
1.3 Exemple
Traitons un exemple [?]. J'ai 114 livres dans ma bibliothque. J'en extrais un chantillon de 12. Chaque livre doit avoir la mme probabilit d'tre choisi. Je veux tester l'hypothse que la mdiane du nombre de pages par volume est 220. Dans mon chantillon, j'observe les nombres de pages suivants : 126 142 156 228 245 246 370 419 433 454 478 503
Je leur associe un signe - si le nombre de pages est infrieur 220 et un signe + sinon. Si la mdiane est 220, il est galement probable pour chaque livre slectionn d'avoir plus ou moins de 220 pages.
En associant un + un face et un - un pile, nous pouvons faire une analogie avec un lancer de pice. Nous verrons plus loin que le tirage "9 faces et 3 piles" a une probabilit assez forte pour qu'on ne puisse pas rejeter l'hypothse selon laquelle le nombre de pages mdian de mes livres est 220. Si nous avions observ 12 signes + et pas de signe - (ou inversement 12 signes - et pas de signe +) nous aurions pu raisonnablement rejeter l'hypothse que la mdiane est 220. En eet, on peut vrier 1 que la probabilit d'obtenir un de ces 2 rsultats est seulement de 2048 , de sorte qu'un tel rsultat dans une exprience signierait soit que nous avons observ un vnement fortement improbable soit que notre hypothse d'une pice quilibre est incorrecte.
Exercice : Calculer la probabilit d'observer 3 piles parmi 12 lancs d'une pice quilibre. On note
que si suit une loi binomiale
( , ), on a
= )=
(1 )
Exercice Calculer la probabilit que parmi les 12 livres, 9 d'entre eux aient plus de plus de 220 pages,
sous l'hypothse que la mdiane du nombre de pages des livres de ma bibliothque est gale 220.
0 0.000
1 0.003 7 0.193
2 0.016 8 0.121
3 0.054 9 0.054
4 0.121 10 0.016
6 0.226 12 0.000
, pour
= 12,
1 2
Chapitre 2
Tests d'hypothses, gnralits
Dans ce chapitre nous nonons (ou rappelons) un certain nombre de gnralits autour des tests d'hypothse, l'objectif tant d'tre capable de bien formuler un test.
= 220
reprsente ici la mdiane du nombre de page. Nous rassemblerons d'autre part l'ensemble des hypothses alternatives sous 1 : 1 : = 220 Et nous parlerons de tester ou suprieur 220).
0
(sous
1,
La rgion complmentaire de tous les rsultats hors de la rgion de rejet est appele rgion de non rejet (ou d'acceptation) de l'hypothse nulle. En choisissant une rgion de rejet de probabilit infrieure au gale au niveau de signication on adopte une attitude dite conservatrice.
La probabilit de cet vnement est le niveau de signication. On dira aussi que le niveau de
Rejeter l'hypothse nulle tort constitue une erreur de premire espce. Si nous ne rejetons pas l'hypothse nulle alors qu'elle est fausse nous commettons une erreur de seconde espce. C'est le cas si la valeur de la statistique de test tombe dans la rgion de non rejet (ou d'acceptation) alors que 0 est fausse (c'est dire si 1 est vraie). Lorsque l'alternative la probabilit de rejeter inconnue !).
1. En anglais : p-value
1 0
est de la forme = 0 , notre peut prendre une innit de valeurs ; et lorsqu'elle est fausse dpend beaucoup de la vraie valeur de (qui est
Par exemple, en lanant une pice de monnaie 12 fois, on a plus de chances d'obtenir 10, 11 ou 12 faces si la probabilit de face est = 0.99 que si = 0.55. Or dans les deux cas, 0 est fausse. Lorsque la vraie valeur de est dans 1 , la probabilit d'obtenir un rsultat dans la rgion de rejet est appele puissance du test de 0 contre 1 . La puissance d'un test dpend de plusieurs facteurs : le niveau de signication du test la vraie valeur du paramtre test la taille de l'chantillon la nature du test utilis De manire gnrale, plus on tient compte d'informations pertinentes dans un test plus sa puissance est leve.
contre
<
La dnition de la rgion de rejet du test dpend de la forme de l'hypothse alternative (voir TD 1, ex. 2). Le choix d'un test unilatral ou bilatral dpend de la logique de la situation exprimentale et doit tre fait avant d'inspecter les donnes.
2.6 Estimation
2.6.1 Intervalle de conance
Bien que ce problme soit souvent formul diremment, une des faons de spcier un intervalle de conance 100(1 ) pour un paramtre de position consiste le dnir comme l'ensemble de toutes les valeurs qui seraient acceptes par un test de niveau .
Chapitre 3
Tests non paramtriques - Estimation de la position pour un chantillon isol
Dans ce chapitre, nous allons dcrire plusieurs tests pour la position d'un chantillon isol. La position d'un chantillon peut tre caractrise par dirents paramtres. Les plus usuels sont la moyenne et la mdiane.
contre
<
10
contre
<
dans le cas o l'on a 24 observations et que le niveau de signication nominal est x 1% ? On remarque que la table des probabilits cumules de la loi binomiale ne donne des valeurs que pour 20. Plus loin, nous verrons que pour des chantillons plus grands, nous utilisons des approximations.
comme la valeur
Cas particuliers : si = /10 avec {1, 2, , 9} alors {1, 2, 3} alors est appel quartile. Test du signe modi : voir exercices.
= /4 avec
11
Si maintenant, nous postulons de plus que la distribution de la population est symtrique, le centre de symtrie est alors la mdiane de la population (ou sa moyenne puisque dans ce cas elles concident) et nous pouvons mieux tenir compte des valeurs des observations pour nos dicisions (infrences) statistiques.
Hypothses : Nous supposons que la distribution de la variable dans la population est symtrique
une variable alatoire de distribution symtrique et le centre de symtrie,
( )= ( + )
Dnition : Soient on a
Etant donn un chantillon de mesures indpendantes, nous pouvons au lieu de noter seulement les signes des carts la mdiane spcie dans 0 , relever aussi la grandeur de chaque cart. Si 0 est vraie, les carts d'une grandeur donne ont autant de chance, pour une distribution symtrique, d'tre positifs que ngatifs ; et une valeur dpassant de 4 ou 5 units a la mme probabilit d'tre observe qu'une valeur infrieure de 4 5 units. C'est sur cette ide que se base le test des signes et rangs de Wilcoxon 1 Reprenons l'exemple du nombre de pages dans les livres de ma bibliothque. En notant de pages mdian, les hypothses de test sont
0
le nombre
= 220 contre
= 220
126
142
156
228
245
246
370
419
433
454
478
503
Table 3.1 Nombre de pages des 12 livres tirs au hasard dans ma bibliothque
absolue), puis nous associons chaque cart son signe (c'est dire un signe + si l'observation correspondante est suprieure la mdiane spcie sous 0 et un signe - sinon). On calculons la somme des rangs des carts positifs et la somme des rangs des carts ngatifs. Si 0 est vraie, on s'attend ce que ces deux sommes soit presque gales. La statistique de test est la plus petite des deux sommes. Pour valuer la signication, nous utilisons la table des signes et rangs de Wilcoxon qui donne le seuil de la rgion de rejet.
Formulation et postulat. Nous rangeons par ordre croissant les carts 220 (carts en valeurs
Exercice
1. Combien y a t'il de faons direntes d'attribuer des signes + et - un ensemble de 12 valeurs ? 2. Quelle est la probabilit que tous les signes soient positifs (ie
= 0) ?
1. En anglais, on dit signed ranks test ce qui est aussi traduit test des rangs signs.
12
4. Utiliser excel ou openoffice pour construire la loi de la statistique de test du test des signes et rangs de Wilcoxon dans le cas o le nombre d'observations est gal 11. En dduire la probabilit que la statistique de test soit infrieure ou gale 15, 10.
Procdure. Dans l'exemple des livres, nous rangeons par ordre de valeur absolue croissante les carts 220. En conservant le signe, nous obtenons
8, 25, 26, -64, -78, -94, 150, 199, 213, 234, 258, 283 Les signes et rangs correspondants sont 1,2,3,-4,-5,-6,7,8,9,10,11 La somme des rangs ngatifs est = 15. Or dans la table, nous voyons que si = 11, le test bilatral de niveau 5% rejette 0 si la plus petite des deux sommes, et est infrieur ou gale 10. En conclusion, nous ne rejetons pas
0
Discussion
1. Hypothse de symtrie ? 2. Hypothse de continuit ?
Si plusieurs carts ont le mme rang (en valeur absolue) ; nous leur attribuons le rang moyen. Par exemple, si les carts signs sont : 3, 4.7, -5.2, 5.2, 7,7,-7, nous leur attribuons les rangs suivants : 1,2,-3.5,3.5,6,6,-6.
13
1 2
( +1) 4
( + 1)(2 + 1)/24
est plus grand que 20. ou des ex aequo, on
suit approximativement une loi de Gauss de moyenne 0 et de variance 1 si Le 1/2 au numrateur est une correction de continuit. Si un grand chantillon comporte des valeurs gales la mdiane sous modie de la faon suivante
( + 1)(2 + 1)/24
( +1) 4 0( 0
0( 0 0
+ 1)
=1 ( 3
+ 1)(2
+ 1)/24
0,
)/48
o 0 est le nombre de valeurs gales la mdiane spcie sous d'ex aaequo et le nombre d'ex aequo dans le me groupe.
14
Chapitre 4
Tests paramtriques - Estimation de la position pour un chantillon isol
Dans le cadre des tests non paramtriques tels que le test du signe ou le test des signes et rangs, on ne fait aucune hypothse sur la distribution de la variable observe. On n'utilise que la position des observations les unes par rapport aux autres. Ceci est un avantage, car a permet d'appliquer ces tests dans un grand nombre de situations. Cependant l'inconvnient est une perte de puissance lie au fait qu'on utilise peu d'information. Dans les tests paramtriques, on utilise d'avantage d'information sur la distribution de la variable tudie ou sur celle des estimateurs des paramtres considrs.
( )=
1 2
( )2 2 2
pour
La fonction de rpartition de la loi de Gauss n'admet pas d'expression analytique simple. On l'obtient par l'approximation numrique de l'intgrale ( ) = ()
On parle de loi de Gaus centre rduite si la moyenne est nulle (centre ) et la variance est gale 1 (rduite ).
15
suit une
Proposition 1 Toute combinaison linaire de variables alatoires de loi de Gauss suit une loi de Gauss.
deux variables alatoires indpendantes de loi de Gauss. Notons leurs moyennes et 2 et 2 leurs variances. Quelles est la loi de la + 2 ? Donner ses paramtres et crire sa fonction de densit de
, variables alatoires de loi de Gauss de moyenne et 1 de variance Alors l'estimateur empirique = de laa moyenne est une variable =1 2 alatoire de loi de Gauss de moyenne et de variance .
1, 2.
2. Loi du chi2 La loi du chi2 permet de modliser la loi d'une somme de carrs de variables alatoires gaussiennes centres rduites : soient 1 , , variables alatoires gaussiennes indpendantes 2 2 suit une loi du chi 2 degrs de libert. et de mme variance alors, = =1 Remarque :
=1 (
3. Loi de Student La loi de student permet de modliser la loi du rapport d'une variable alatoire gaussienne centre rduite sur la racine carre d'une variable alatoire de loi chi 2 normalise par le nombre de degrs de libert : soient une variable gaussienne centre rduite et une variable alatoire du chi 2 degrs de libert, alors soit une loi de student degrs de libert.
/
4. Loi de Fisher La loi de Fisher permet de modliser le rapport de deux variables distribues suivant des lois du chi 2. Soient 1 et 2 deux variables de loi de chi 2 1 et 2 degrs de liberts et d'cart-types 1 et 2 alors
1/ 1 2/ 2
2)
degrs de libert.
16
Loi 0-1 Uniforme Binomiale Gomtrique Pascal Poisson Uniforme Gauss Cauchy Gamma Exponentielle Rayleigh Laplace
2
Prob. ou ddp
( ( ( ( (
Moyenne
+1 2 1 (1 )
2 2
Variance
(1 )
1 12 1
2
(1 )
( = )= pour 0 et ! 1 ( ) = avec ( )= ( )= ( )= ( )= ( )= ( )= ( )= ( )=
1 2
( )2 2 2
= 1 , 2, . . .
+ 2 ( )2 12 2
pour
( 2+ 2)
1
non dni
non dni
2
( ) 1
2
2 2 2
pour
> 0 et >0
>0
2
2 2 2
2
2 2 2 1 ( 2 )
pour
2 +1 2
(2
0
1 2
2 0
2
Student
( ) 2 ( +1)/2 ( 2 ) 1+
>2
Dnition 1 - Convergence en loi. Soit une suite de v.a. de fonction de rpartition ( ), et soit une v.a. de fonction de rpartition ( ). On dit que la suite converge en loi vers la v.a. si et seulement si ( ) converge vers ( ).
approximativement distribue suivant une loi de Gauss. On devrait toujours dire que la statistique de test converge en loi vers une variable alatoire de loi normale.
C'est ce type de convergence qu'on utilise quand on dit abusivement qu'une statistique de test est
Thorme 1 - Thorme de limite centrale 1 Soit une suite de v.a. de mme loi d'esprance et d'cart type . Alors la v.a. ( 1+ converge en loi vers une v.a. normale centre rduite (0, 1) quand tend vers l'inni.
17
2 +...+
Exemples
( 1 + 2 +...+ ) 1. La moyenne exprimentale ou arithmtique est de moyenne thorique, et d'cart-type . Et d'aprs de thorme de limite centrale, (
1
, la moyenne
+ ... + /
)/
tend vers l'inni. et
converge vers une variable alatoire de loi normale centre et rduite quand Exercice : (b) Montrer que si Y suit une loi de Gauss de moyenne une loi de Gauss de moyenne 0 et de variance 1. et de variance
alors
suit
(1 )
2. Une proportion admet pour moyenne la proportion thorique Ainsi d'aprs le thorme de limite centrale
et pour cart-type
(1 )/
tend vers l'inni.
tend vers une variable alatoire de loi normale centre et rduite quand
3. Comme cas particulier de ce thorme, on retrouve galement la convergence d'une suite de variables alatoires de loi binomiale vers une variable alatoire de loi normale (thorme de Bernoulli). Ce thorme justie l'utilisation de la loi normale lorsqu'il y a rptition d'expriences identiques.
La variable est suppose gausienne et de variance 2 = 0.04. On veut tester, au niveau de signication nominal 5% l'hypothse selon laquelle le taux moyen dans le sang de la population des sportifs est gal 0.4. On pose des hypothses de test unilatrales :
0
= 0.4 contre
> 0.4
18
La statistique de test est la moyenne empirique (enocre appele moyenne arithmtique). Si on note 1 , , un chantillon de variables alatoires de mme loi que , la moyenne empirique est donne par = 1
=1
Intuitivement, on comprend bien qu'on va rejeter 0 si 0 est trop grand en valeur absolue c'est dire si la moyenne empirique est trop loigne de la moyenne sous 0 .
0 converge vers une variable alatoire D'aprs le thorme de limite centrale, sous 0 , = / de loi de Gauss de moyenne 0 et de variance 1 quand tend vers l'inni. D'autre part, d'aprs la remarque faite plus haut on comprend qu'on rejette 0 si > 0 . Pour construire la rgion de rejet de 0 , on cherche donc 0 tel que ( > 0 ) =
soit encore
>
ou
<
0)
>
0)
< 0) =
>
0)
< 0 ) = ( 0 ) = 1 ( 0 )
0
o on note la fonction de rpartition de la loi Gauss de moyenne 0 et de variance 1. Ainsi tel que 1 ( 0 ) = /2 ce qui s'crit encore
0
est
= 1 (1
2) 0
D'aprs la table de la fonction de rpartition inverse de la loi normale, on en dduit que car = 0.05. Finalement, on rejette donc
0
= 1.96
si
> 1.96
Remarques
>) =
Lorsque le nombre d'observations est grand (suprieur 30), d'aprs le thorme de limite centrale on a que la statistique de test
considre.
19
=
o
1 ( 1
)2
Dans ce cas, ne suit plus une loi de Gauss car le dnominateur n'est plus une constante mais une ralisation de l'estimateur de la moyenne de la variable . L'cart-type Par construction, 2 suit une loi du 2 ( 1) degrs de libert si suit une loi de Gauss. est alors une v.a. suivant une de Student ( 1) degrs de liberts. Et on utilise une table de la loi de Student pour conclure le test.
Remarque : Lorsque le nombre d'observations est grand (suprieur 30), on peut utiliser le thorme de limite centrale pour approcher la loi de la statistique .
contre
(rejeter
est fausse)
1.
Ainsi la puissance est la probabilit de la rgion de rejet de 0 sous la loi de ( ) 1 = > 0 suit une loi (0, 1) / ( ) 0 1 = > / ( ) 0 1 = 1 /
20
A partir de l'chantillon, l'estimateur de la proportion thorique sera la frquence empirique o est le nombre d'individus possdant le caractre dans l'chantillon. Les hypothses de test sont donc
{
La rgle de dcision est donne par { o
0 1
: :
= =
0 1
<
1 0
dsigne la borne de la rgion critique. est une ralisation d'une v.a. dont la loi de probabilit peut tre dtermine grce au thorme central limite. Si la taille de l'chantillon est susamment grande (en pratique, > 5 et (1 ) > 5 ), on admet que la loi de tend vers une loi normale de moyenne et d'cart-type
(1 )
=
avec : [ , Sous l'hypothse
(1 ) 0,
]. on obtient [ ] ( 0) 0 (1 0 )
[ =
o
] ( 0) ( 0) = 0 (1 0 ) 0 (1 0 )
= (
une table de la loi normale. L'erreur de seconde espce est donne par : [
0) 0 (1 0 )
est une v.a. normale centre rduite. La valeur du seuil critique est lue dans
=
o
] ( 1) 1 (1 1 )
=(
1) 1 (1 1 )
21
Chapitre 5
Tests sur la position et la dispersion pour deux chantillons indpendants
5.1 Introduction
Le problme qui consiste comparer la position de deux chantillons est un problme trs courant. Il se pose, par exemple, losque l'on veut verier l'ecacit d'un traitement mdical. Dans ce cas, on considre deux groupes de patients, l'un recevant le traitement et l'autre un placebo. Si on note respectivement et les positions des populations sous traitement et sous placebo, on pose les hypothses de test suivantes :
0
contre
On remarque que l'hypothse nulle traduit toujours l'absence d'eet (c'est dire un eet nul). Lorsque l'on veut comparer les positions (mdiane ou moyenne) de deux chantillons indpendants, on doit tenir compte de la dispersion des deux chantillons et non plus d'un seul. On ne peut pas simplement se ramener aux tests tudis prcdemment. Nous introduisons ci-dessous deux types de tests : des tests non paramtriques (ou libres de distribution) reposant sur des proprits des statistiques d'ordre comme dans le test du signe ou le test des rangs signs de Wilcoxon ; ces tests sont utiliss quand on tudie des petits chantillons pour lesquels on ne peut/veut pas faire d'hypothse sur la distribution de la variable d'intrt. des tests praramtriques bass sur une hypothse de normalit de la variable d'intrt ou de l'estimateur considr.
22
204 243
218 228
197 261
183 202
227 270
233 242
191 220
239
On se demande alors si les populations d'o proviennent ces deux sries d'observations sont signicativement direntes. Notons 1 et 2 les temps mdians des deux groupes d'enfants. On pose les hypothses de tests : 0 : 1 = 2 contre 1 : 1 < 2
> <
o
1
1 1
= (2
1)
+
1 2
On peut montrer que sous 0 , suit une loi du chi2 un degr de libert (voir test du chi2). Ainsi, si la statistique de test observe est suprieure 3.84, on rejette 0 au risque 5
23
204 243
218 228
197 261
183 202
227 270
233 242
191 220
239
On se demande alors si les populations d'o proviennent ces deux sries d'observations sont signicativement direntes. Notons 1 et 2 les temps mdians des deux groupes d'enfants. On pose les hypothses de tests : 0 : 1 = 2 contre 1 : 1 < 2 On remarque ici que les cart-types estims des deux groupes d'observations sont respectivement 18.9 et 21.8. Il est en pratique insusant de comparer ces deux valeurs et nous proposerons un test plus loin. Cependant, on convient qu'elles sont du mme ordre de grandeur. Si les deux chantillons ont la mme mdiane, on s'attend ce qu'ils se rpartissent de faon homogne autour de cette mdiane. Autrement dit, on s'attend ce que les rangs des deux chantillons regroups soient bien mlangs. Valeurs Rangs Valeurs Rangs 183 1 191 2 233 10 197 3
202 4 242 12
204 5
218 6
220 7 270 15
227 8
228 9
239 11
243 13
261 14
On fait alors la somme des rangs de chacun des chantillons et on obtient On en dduit la valeur des statistiques de test qui sont
1
= 35 et
= 85.
1( 1
+ 1)
et
2( 2
+ 1)
Ici,
= 14 et
= 42.
Dans le test de Mann-Whitney-Wicoxon, on rejette 0 si la plus petite des deux statistiques (test bilatral) ou celle qui est approprie (test unilatral), suprieure ou gale la valeur lue dans la table (table A6 de P. Sprent).
0.
Ici, la valeur seuil correspondant au niveau de signication de 5% est gale 10. Donc on rejette
+ 1 /2
1 2( 1
1 2 /2 2
+ 1)/12
24
On rejette 0 au risque si [ 1 2 , 1 2 ] o la valeur 1 2 est lue dans la table de la loi normale centre rduite. Si les cart types 1 et 2 sont inconnus, il faut tenir compte de la taille des chantillons a) Si 1 et 2 sont tous les deux suprieurs 30, on calcule
=
On rejette 0 au risque si [ normale centre rduite. b) Si 1 ou 2 est infrieur 30 et
1
2 1
2
2 2 2 1
1 1
1 2 , 1 2 ] 1
o la valeur
1 2
on calcule
1 2 = 11 + 12
2 1 1 1
+
2
2 2 2
2
1 + 2 2
] o la valeur
1 2 ;
1 + 2 2
est
25
c) Si
ou
est infrieur 30 et
on calcule
1
2 1 1 1
2
2 2 2 1
On rejette 0 au risque si [ 1 2 ; , 1 2 ; ] o la valeur Student degrs de libert ; est l'entier le plus proche de
1 2 ;
[
4 1
2 1 1 1
+ +
2 2 2 1
]2
2 1 1) 1
4 2 2 2 1) 2
Le test de Student est assez robuste mais si l'on s'loigne trop des conditions de normalit, il est prfrable d'utiliser un test non paramtrique.
1,
1) =
1
1 2
2 1, 1 1)
1 (1 )(
2 1 + 1 ) 1 2
On rejette
au risque
si
1 2 , 1 2 ]
o la valeur
1 2
26
Chapitre 6
Tests d'adquation et comparaison de distributions
6.1 Introduction
Jusqu' prsent nous avons tudi des mthodes permettant de tester la position et la dispersion d'un ou deux chantillons. Cependant des populations peuvent prsenter d'autres caractristiques importantes. Nous considrons ici toute la distribution de la population. La distribution (ou la loi) d'une variable alatoire est dcrite par sa fonction de rpartition 1 c'est dire par la fonction ( )= ( ) (6.1) On observe que la fonction de rpartition est une fonction monotone croissante comprise entre 0 et 1.
Exemple - soit une variable alatoire de loi uniforme sur l'intervalle [0, 1]. n ralisation de la variable la mme probabilit de prendre toute valeur [0, 1] et sa fonction de rpartition est donne par ( ) = 1[0,1] ( )
tant donnes des observations 1 , , on peut se demander si ces valeurs sont cohrentes avec un chantillonnage d'une distribution continue spcies. Le test d'adquation 2 de Kolmogorov permet de rpondre cette question.
27
de tests :
0
suit la loi
contre
On propose de construire une statistique de test base sur la distance entre les fonction estimation de la fonction de rpartition de obtenue partir des observations.
d'aprs l'quation
- On considre les donnes d'un essai visant dterminer la solidit d'une corde d'escalade. Un morceau de 1 m corde est mis sous tension jusqu' cassure. On se demande si la corde pour casser n'importe endroit. On obtient les rsultats suivants : 0.1 0.4 0.4 0.6 0.7 0.7 0.8 0.9 0.9 0.9 1. Tracer l'estimation de la fonction de rpartition. 2. Ajouter sur le graphique la fonction de rpartition thorique pour ce problme. Exercice : 1. Tracer la fonction de rpartition empirique de l'chantillon ci-dessus. 2. Superposer, sur le mme graphique, la fonction de rpartition de la loi uniforme sur [0, 1].
= sup
( )
( )
La loi de cette statistique de test est donnes dans la table de Kolmogorov. Si on considre de nouveau les donnes de l'exercice, on obtient observations 0.1 0.4 0.4 0.6 0.7 0.7 0.8 0.9 0.9 1/10 3/10 3/10 4/10 6/10 6/10 7/10 1 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.1 0 0 0.1 0 0.2 0.1 0 d'o = 0.2 or on rejette 0 au risque = 5% si > 0.369. Ainsi, ici les observations sont issues d'une loi uniforme sur [0, 1]. 0.9 1 1 on peut supposer que
28
deux estimateurs de la variance qui ne peuvent conduire la mme estimation que si les observations sont issues d'une loi de Gauss. Pour vrier qu'une srie d'observation suit une loi normale, on peut en premire approche utiliser une mthode graphique : la droite de Henry (quantile-quantile plot ou qqplot). Soit { 1 , , } une suite d'observations. Si cette suite constitue une suite de ralisation d'une variable gaussienne, alors les points de coordonnes ( , 1 (( 1/2)/ )) sont aligns sur la droite d'quation = Cette droite est appele droite de Henry.
Exercice - Les observations ci-dessous correspondent la hauteur de 7 arbres dans une fort. Peut-on considrer que la distribution de ces hauteurs est gaussienne ?
23.4
24.6
25.0
26.3
26.8
27.0
27.6
On tracera la droite de Henry pour les donnes centres et rduites de faon pouvoir utiliser la table de la loi de Gauss ( = 25.8, = 1.5).
Donnes centres rduites 1
(( 1/2)/7)
-1.5 -1.46
-0.8 -0.79
-0.5 -0.36
0.3 0
0.6 0.36
0.7 0.79
1.1 1.46
(
On pose les hypothses de test
0
= )=
1.2 contre
On observe 100 jours de production de cette machine, voici les rsultats, regroups en 5 classes. Nombre de pices dfectueuses Nombre d'observations Frquence empirique 0 27 0,27 1 41 0,41 2 21 0,21 3 7 0,07 4 et plus 4 ` 0,04
29
(
=1
)2
et le nombre de classes. suit
avec et les frquences empirique et thorique de la classe une loi du chi 2 1 degrs de libert.
Pour l'exemple considr, les frquences thoriques sont donnes ci-dessous. Nombre de pices dfectueuses 0 1 2 3 4 et plus Frquence thorique 0,30 0,36 0,22 0,09 0,03 La statistique de test = 0, 0112 ; or d'aprs la table du chi 2 on rejette > 5.99.
au risque 5% si
183 202
191 220
197 228
204 239
218 242
227 243
233 261
270
contre
obs.
183
1/7 0 8/56
191
2/7 0 16/56
197
3/7 0 ...
204
4/7 1/8
218
5/7 1/8
227
6/7 2/8
233
1 3/8
239 1 4/8
242 1 5/8
243 1 6/8
261 1 7/8
270 1 1
Ecart
30
sup
La loi du supremum des carts en valeur absolue est tabule dans la table de Smirnov. On rejette > 0.71. Donc ici, on ne peut pas rejeter l'hypothse selon laquelle les distributions 0 si , sont direntes pour les deux groupes d'enfants.
=
avec et
est suprieur
Le test de Cramr-von Mises est souvent plus puissant que le test de Kolmogorov-Smirnov et il est plus facile utiliser grace la bonne approximation qui vite le recours des tables.
31
Rfrences
Fourdrinier D., (2002). Statistique infrentielle. Dunod. Jolion J.M., (2003). Probabilit et Statistique. Cours de l'INSA. http ://rfv.insa-lyon.fr/ jolion Kaufman P., (1994). Statistique : Information, Estimation, Test. Dunod. Saporta G., (1990). Probablits, analyse des donnes et statistique. Edition Technip. Reau J.P., Chauvat G., (1996). Probabilits et statistiques. Excercices et corrigs, Armand Colin, Collection cursus TD, srie conomie. Scherrer B., (1988). Biostatitiques. Edition Gaetan Morin. Schwartz D., (1984). Mthodes statistiques l'usage des mdecins et des biologistes, Flammarion, Mdecine-Sciences, Collection Statistique en biologie et mdecine.
32