Cours Tests 2009

Tests statistiques Notes de cours
V. Monbet
L2 S1 - 2009
Table des matires
1 Introduction
1.1 1.2 1.3 1.4
Qu'est ce que la statistique ? . . Qu'est ce qu'un test statistique ? Exemple . . . . . . . . . . . . . Rappels de probabilit . . . . . . 1.4.1 Loi de Bernouilli . . . . . 1.4.2 Loi binomiale . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 5 5 6 6 6 7 7 8 8 9 9 9 9
2 Tests d'hypothses, gnralits

2.1 2.2 2.3 2.4 2.5 2.6
Hypothses de test . . . . . . . . . . . . Statistique de test . . . . . . . . . . . . Rgion de rejet et niveau de signication Les deux espces d'erreur . . . . . . . . Test unilatral ou bilatral . . . . . . . . Estimation . . . . . . . . . . . . . . . . 2.6.1 Intervalle de conance . . . . . . 2.6.2 Intervalle de tolrance . . . . . .
3 Tests non paramtriques - Estimation de la position pour un chantillon isol

3.1 Le test du signe . . . . . . . . . . . . . . . . . . 3.1.1 Quelques remarques . . . . . . . . . . . . 3.1.2 Intervalle de conance . . . . . . . . . . . 3.1.3 Approximation pour les grands chantillons 3.1.4 Test du signe modi : test d'un quantile Infrence base de rangs . . . . . . . . . . . . . 3.2.1 Test des signes et rangs de Wilcoxon . . . 3.2.2 Le problme des ex aequo . . . . . . . . . 3.2.3 Approximation pour les grands chantillons Elments de probabilit . . . . . . . . . . . . 4.1.1 Quelques lois de probabilit continues 4.1.2 Convergence en loi . . . . . . . . . . 4.1.3 Thorme de limite centrale . . . . . . Test de la moyenne (ou Test de Student) . . . 4.2.1 Si la variance est inconnue . . . . . . . . . . . . . . . . . .
10
3.2
10 10 11 11 11 11 12 13 14 15 15 17 17 18 20
4 Tests paramtriques - Estimation de la position pour un chantillon isol

4.1
15
4.2
4.3 5.1 5.2 5.3
4.2.2 Calcul de la puissance du test . . . . . . . . . . . . . . . . . . . . . . . . . . Test pour une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introduction . . . . . . . . . . . . . . . . . . . . . . . . Tests non paramtriques . . . . . . . . . . . . . . . . . . 5.2.1 Test de la mdiane . . . . . . . . . . . . . . . . 5.2.2 Test de Mann-Whitney-Wilcoxon . . . . . . . . . Tests paramtriques . . . . . . . . . . . . . . . . . . . . 5.3.1 Comparaison de deux moyennes - Test de Student 5.3.2 Comparaison de deux variances - Test de Fisher . 5.3.3 Comparaison de deux proportions . . . . . . . . . Introduction . . . . . . . . . . . . . . . . . . . . . . . . Test d'adquation de Kolmogorov . . . . . . . . . . . . . 6.2.1 Estimer la fonction de rpartition . . . . . . . . . 6.2.2 Statistique de test . . . . . . . . . . . . . . . . . 6.2.3 Cas de la loi normale . . . . . . . . . . . . . . . 6.2.4 Test d'adquation du chi 2 : loi discrte . . . . . Test d'identit de deux distributions de deux distributions 6.3.1 Test de Kolmogorov-Smirnov . . . . . . . . . . . 6.3.2 Test de Cramr-von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20 20
5 Tests sur la position et la dispersion pour deux chantillons indpendants
22
22 22 23 23 25 25 26 26 27 27 28 28 28 29 30 30 31
6 Tests d'adquation et comparaison de distributions

6.1 6.2
6.3
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
27
Chapitre 1
Introduction
1.1 Qu'est ce que la statistique ?

Les statistiques, dans le sens populaire du terme, traitent des populations. Leur objectif consiste caractriser une population partir d'une image plus ou moins oue constitue l'aide d'un chantillon issu de cette population. On peut alors chercher extrapoler une information obtenue partir de l'chantillon.
Exemple - Rpartition par classe d'age d'une population de poissons. Si on veut caractriser la population de morue dans une zone donne de l'Atlantique Nord, on va prlever quelques poissons (ces quelques poissons vont constituer l'chantillon). Puis on va mesurer leur age (otolithe), leur poids,
leur taille, ... on va enn chercher extrapoler ces rsultats toute la population. Mais on peut aussi chercher synthtiser une information trop dense.
Exemple - Acheteurs potentiels (prospects) d'un certain forfait de tlphone portable. On va chercher
les principales caractristiques spciques du groupe des clients du forfait an de mieux les connatre et d'tre capable d'identier des prospects. Ou encore vrier une hypothse.
Exemple - Contrle de qualit. Le fabriquant de caf fournit des paquets de 250 g. Le remplissage est
automatis. Rgulirement le fabriquant prlve quelques paquets de caf ce qui constitue l'chantillon. Il pse les paquets de l'chantillon an de vrier l'hypothse selon laquelle les paquets de caf psent bien 250 g en moyenne.
Exemple - Eet d'un traitement. Dans l'industrie pharmaceutique, il est obligatoire de tester l'ecacit
d'un traitement avant de le mettre sur le march. On procde alors de la faon suivante : on slectionne deux groupes de patients. L'un reoit le mdicament, l'autre un placbo. Il faut alors vrier que le groupe qui reoit le mdicament voit bien ses symptmes diminuer en moyenne. On trouve des applications de la statistique dans tous les domaines : industrie, environnement, mdecine, nance, marketing, sport, ...
Dans le cadre de ce cours, nous allons nous intresser principalement aux tests statistiques.
1.2 Qu'est ce qu'un test statistique ?

Un test, qu'il soit statistique ou pas, consiste vrier une information hypothtique. On parle d'ailleurs de tests d'hypothses. En statistique mathmatique, l'information hypothtique concerne la population laquelle on s'intresse. C'est une information statistique qui peut tre : Une distribution qu'une variable d'intrt quelconque est cense prsenter. Exemple : rpartition de l'age des poissons. Une valeur ponctuelle laquelle une statistique, par exemple une moyenne, une mdiane, une frquence, etc. serait gale. Exemple : poids des paquets de caf. Un intervalle de valeurs auquel appartiendrait la valeur d'une statistique, comme ci-dessus (on qualie un tel intervalle d'hypothse composite). L'indpendance statistique de deux variables. Un test statistique peut aussi tre utilis pour vrier le succs (ou l'chec) d'une action entreprise pour modier la valeur d'une statistique de population. Par exemple, On cherche augmenter le nombre moyen des clients servis l'heure, qui est actuellement de 10. On cherche faire tomber la proportion des appareils dfectueux en dessous de 3%. Il est gnralement impossible de recenser toute la population. On prlve alors un chantillon dont on dduit une statistique (par exemple la moyenne de l'chantillon). Cette statistique est compare la valeur laquelle on peut s'attendre si l'hypothse est vraie. Cependant, on doit tenir compte du fait qu'on a observ seulement un chantillon de la population. L'observation d'un autre chantillon conduira vraisemblablement une autre valeur de la statistique. La thorie des tests procure des outils pour bien prendre en compte cette variabilit.
1.3 Exemple
Traitons un exemple [?]. J'ai 114 livres dans ma bibliothque. J'en extrais un chantillon de 12. Chaque livre doit avoir la mme probabilit d'tre choisi. Je veux tester l'hypothse que la mdiane du nombre de pages par volume est 220. Dans mon chantillon, j'observe les nombres de pages suivants : 126 142 156 228 245 246 370 419 433 454 478 503
Je leur associe un signe - si le nombre de pages est infrieur 220 et un signe + sinon. Si la mdiane est 220, il est galement probable pour chaque livre slectionn d'avoir plus ou moins de 220 pages.
En associant un + un face et un - un pile, nous pouvons faire une analogie avec un lancer de pice. Nous verrons plus loin que le tirage "9 faces et 3 piles" a une probabilit assez forte pour qu'on ne puisse pas rejeter l'hypothse selon laquelle le nombre de pages mdian de mes livres est 220. Si nous avions observ 12 signes + et pas de signe - (ou inversement 12 signes - et pas de signe +) nous aurions pu raisonnablement rejeter l'hypothse que la mdiane est 220. En eet, on peut vrier 1 que la probabilit d'obtenir un de ces 2 rsultats est seulement de 2048 , de sorte qu'un tel rsultat dans une exprience signierait soit que nous avons observ un vnement fortement improbable soit que notre hypothse d'une pice quilibre est incorrecte.
Exercice : Calculer la probabilit d'observer 3 piles parmi 12 lancs d'une pice quilibre. On note
que si suit une loi binomiale
( , ), on a
= )=
(1 )
1.4 Rappels de probabilit

Soit une variable alatoire. Dans la premire partie du cours, nous utiliserons essentiellement des lois discrtes.
1.4.1 Loi de Bernouilli

La loi de Bernouilli modlise un tirage pile ou face. Notation : suit la loi (1, ) Univers : () = {0, 1} Loi : ( = 0) = Esprance et variance : ( ) = , ( ) = (1 )
1.4.2 Loi binomiale

La loi binomiale modlise un tirage avec remise parmi un ensemble de objets de deux types (ex : boules blanches et noires) avec une probabilit de succs chaque tirage (ex : succs = tirer une boule blanche). Notation : suit la loi ( , ) Univers : () = {0, 1, , } Loi : ( = ) = (1 ) Esprance et variance : ( ) = , ( ) = (1 )
Exercice Calculer la probabilit que parmi les 12 livres, 9 d'entre eux aient plus de plus de 220 pages,
sous l'hypothse que la mdiane du nombre de pages des livres de ma bibliothque est gale 220.
0 0.000
1 0.003 7 0.193
2 0.016 8 0.121
3 0.054 9 0.054
4 0.121 10 0.016
5 0.193 11 0.003 signes +,
6 0.226 12 0.000
Table 1.1 Probabilits binomiales

6
, pour
= 12,
1 2
Chapitre 2
Tests d'hypothses, gnralits
Dans ce chapitre nous nonons (ou rappelons) un certain nombre de gnralits autour des tests d'hypothse, l'objectif tant d'tre capable de bien formuler un test.
2.1 Hypothses de test

En premier lieu, nous devons formuler les hypothses. L'hypothse que nous voulons vrier sera appele hypothse nulle et on la notera 0 . Dans l'exemple concernant le nombre de pages des livres de ma bibliothque, nous poserons alors
0
= 220
reprsente ici la mdiane du nombre de page. Nous rassemblerons d'autre part l'ensemble des hypothses alternatives sous 1 : 1 : = 220 Et nous parlerons de tester ou suprieur 220).
0
contre les alternatives bilatrales
(sous
1,
peut tre infrieur
2.2 Statistique de test

Une fois les hypothses de test poses, nous devons choisir la statistique de test. C'est en comparant la valeur de cette statistique observe dans l'chantillon la sa valeur sous l'hypothse 0 que nous pourrons prendre une dcision (ie donner la conclusion du test). Dans l'exemple de nombre de pages des livres tel que nous l'avons trait jusqu' prsent, la statistique de test est par exemple le nombre de signes + observ. On a alors que la loi de probabilit de la statistique de test sous 0 est ici une loi binomiale (12, 1/2). Nous aurions pu choisir de manire quivalente le nombre de signes -. D'aprs la table de la loi binomiale, nous constatons que si pour 6 signes +.
0
est vraie, la probabilit est maximale
2.3 Rgion de rejet et niveau de signication

En suivant une procdure formelle en test d'hypothse, nous sparons les rsultats possibles en deux sous-ensembles. Le premier regroupe les rsultats les plus vraisemblables sous l'hypothse nulle, de faon que la somme de leurs probabilits soit au moins gale l'une des valeurs conventionnelles 0.90, 0.95 (valeur la plus souvent choisie), 0.99 ou 0.999. On peut vrier facilement dans le tableau 1.1 que la probabilit de l'ensemble allant de 3 9 signes + est 0.962. Et on ne peut liminer de l'ensemble aucun de ces rsultats sans rduire la probabilit une valeur infrieure 0.95. On remarque que dans ce cas symtrique, on doit liminer les rsultats par paire. Les rsultats restants c'est dire {0, 1, 2, 10, 11, 12} forment un ensemble de probabilit 0.038 appele rgion de rejet (ou rgion critique) de niveau de signication nominal ou encore de de niveau de signication rel (ou degr de signication 1 ) 0.038. La rgle des tests d'hypothse consiste rejeter si le rsultat tombe dans la rgion de rejet.
0
au niveau de signication 0.05 si et seulement
La rgion complmentaire de tous les rsultats hors de la rgion de rejet est appele rgion de non rejet (ou d'acceptation) de l'hypothse nulle. En choisissant une rgion de rejet de probabilit infrieure au gale au niveau de signication on adopte une attitude dite conservatrice.
2.4 Les deux espces d'erreur

Lorsque l'on fait un test d'hypothse, deux sortes d'erreur sont possibles. On peut rejeter l'hypothse nulle alors qu'elle est vraie. Ceci se produit si la valeur de la statistique de test tombe dans la rgion de rejet alors que l'hypothse 0 est vraie.
signication est la probabilit de rejeter l'hypothse nulle tort.
La probabilit de cet vnement est le niveau de signication. On dira aussi que le niveau de
Rejeter l'hypothse nulle tort constitue une erreur de premire espce. Si nous ne rejetons pas l'hypothse nulle alors qu'elle est fausse nous commettons une erreur de seconde espce. C'est le cas si la valeur de la statistique de test tombe dans la rgion de non rejet (ou d'acceptation) alors que 0 est fausse (c'est dire si 1 est vraie). Lorsque l'alternative la probabilit de rejeter inconnue !).
1. En anglais : p-value
1 0
est de la forme = 0 , notre peut prendre une innit de valeurs ; et lorsqu'elle est fausse dpend beaucoup de la vraie valeur de (qui est
Par exemple, en lanant une pice de monnaie 12 fois, on a plus de chances d'obtenir 10, 11 ou 12 faces si la probabilit de face est = 0.99 que si = 0.55. Or dans les deux cas, 0 est fausse. Lorsque la vraie valeur de est dans 1 , la probabilit d'obtenir un rsultat dans la rgion de rejet est appele puissance du test de 0 contre 1 . La puissance d'un test dpend de plusieurs facteurs : le niveau de signication du test la vraie valeur du paramtre test la taille de l'chantillon la nature du test utilis De manire gnrale, plus on tient compte d'informations pertinentes dans un test plus sa puissance est leve.
2.5 Test unilatral ou bilatral

Dans l'exemple du nombre de pages dans les livres de la bibliothque, nous avons pos des hypthses de tests telles que l'alternative est bilatrale. C'est dire que si l'on rejette l'hypothse nulle, la mdiane du nombre de pages peut-tre suprieure ou infrieure 220. Dans certains problmes, il est plus pertinent de considrer une hypothse alternative unilatrale. On pose alors 0 : 0 contre 1 : > 0 ou
0
contre
<
La dnition de la rgion de rejet du test dpend de la forme de l'hypothse alternative (voir TD 1, ex. 2). Le choix d'un test unilatral ou bilatral dpend de la logique de la situation exprimentale et doit tre fait avant d'inspecter les donnes.
2.6 Estimation
2.6.1 Intervalle de conance
Bien que ce problme soit souvent formul diremment, une des faons de spcier un intervalle de conance 100(1 ) pour un paramtre de position consiste le dnir comme l'ensemble de toutes les valeurs qui seraient acceptes par un test de niveau .
2.6.2 Intervalle de tolrance

L'intervalle de tolrance est un autre concept utile. Il s'agit d'intervalles ayant la proprit suivante : tant donns 1 et , l'intervalle contient 1 % de la population avec une probabilit . ...
Chapitre 3
Tests non paramtriques - Estimation de la position pour un chantillon isol
Dans ce chapitre, nous allons dcrire plusieurs tests pour la position d'un chantillon isol. La position d'un chantillon peut tre caractrise par dirents paramtres. Les plus usuels sont la moyenne et la mdiane.
3.1 Le test du signe

Dans le chapitre prcdent, nous avons dj introduit le test du signe titre d'exemple et nous ne reviendrons pas ici sur sa thorie. Mais ajoutons ici quelques remarques.
3.1.1 Quelques remarques

Il peut arriver que, dans un chantillon, une ou plusieurs observations soient exactement gales la valeur 0 du paramtre sous 0 . Dans ce cas, il est recommand d'ignorer ces observations. Les tables habituellement utilises pour construire la rgion de rejet sont les tables des probabilits binomiales cumules qui correspondent aux probabilits d'observer au plus succs (c'est dire 1 signes plus). Nous voyons par exemple, dans le tableau de la loi (16, 2 ), que pour un test bilatral de niveau nominal 5% (la partie infrieure de la rgion de rejet doit reprsenter une probabilit d'au plus 0.025), le plus petit des deux nombres de signes "plus" et "moins" ne doit pas dpasser 3. Pour un test unilatral de 0 : 0 contre 1 : < 0 au niveau nominal 5%, la rgion de rejet contient les valeurs de 0 4.
Exercice - Quel est le niveau de signication rel du test du signe unilatral

0
contre
<
dans le cas o l'on a 24 observations et que le niveau nominal est 5% ?
10
Exercice - Quel est la region de rejet du test du signe unilatral

0
contre
<
dans le cas o l'on a 24 observations et que le niveau de signication nominal est x 1% ? On remarque que la table des probabilits cumules de la loi binomiale ne donne des valeurs que pour 20. Plus loin, nous verrons que pour des chantillons plus grands, nous utilisons des approximations.
3.1.2 Intervalle de conance

Vu en travaux dirigs.
3.1.3 Approximation pour les grands chantillons

Si > 20, une approximation base sur la loi Gauss est gnralement satisfaisante. Lorsque est assez grand et pas trop petit (typiquement > 10), si suit la loi binomiale ( , ), alors la variable = (1 ) suit une loi de Gauss de moyenne gale zro et de variance gale un. Dans le cas du test du signe, 1 =2 , et on utilise alors /2 = /2
3.1.4 Test du signe modi : test d'un quantile

On peut adapter le test du signe pour tester des hypothses sur un quantile d'une distribution. On dnit le -ime quantile de la distribution continue de la variable alatoire telle que ( < ) et ( > ) 1 On remarque que
1/2
comme la valeur
est la mdiane. est appel dcile et si
Cas particuliers : si = /10 avec {1, 2, , 9} alors {1, 2, 3} alors est appel quartile. Test du signe modi : voir exercices.
= /4 avec
3.2 Infrence base de rangs

Le test du signe utilise seulement une petite partie de l'information contenue dans un jeu de donnes comme les nombres de pages de l'exemple des livres : pour chaque observation nous avons not si elle tait suprieure ou infrieure la mdiane spcie dans 0 .
11
Si maintenant, nous postulons de plus que la distribution de la population est symtrique, le centre de symtrie est alors la mdiane de la population (ou sa moyenne puisque dans ce cas elles concident) et nous pouvons mieux tenir compte des valeurs des observations pour nos dicisions (infrences) statistiques.
3.2.1 Test des signes et rangs de Wilcoxon

et continue.
Hypothses : Nous supposons que la distribution de la variable dans la population est symtrique
une variable alatoire de distribution symtrique et le centre de symtrie,
( )= ( + )
Dnition : Soient on a
Etant donn un chantillon de mesures indpendantes, nous pouvons au lieu de noter seulement les signes des carts la mdiane spcie dans 0 , relever aussi la grandeur de chaque cart. Si 0 est vraie, les carts d'une grandeur donne ont autant de chance, pour une distribution symtrique, d'tre positifs que ngatifs ; et une valeur dpassant de 4 ou 5 units a la mme probabilit d'tre observe qu'une valeur infrieure de 4 5 units. C'est sur cette ide que se base le test des signes et rangs de Wilcoxon 1 Reprenons l'exemple du nombre de pages dans les livres de ma bibliothque. En notant de pages mdian, les hypothses de test sont
0
le nombre
= 220 contre
= 220
Nous rappelons que nous avions observ l'chantillon suivant :
126
142
156
228
245
246
370
419
433
454
478
503
Table 3.1 Nombre de pages des 12 livres tirs au hasard dans ma bibliothque
absolue), puis nous associons chaque cart son signe (c'est dire un signe + si l'observation correspondante est suprieure la mdiane spcie sous 0 et un signe - sinon). On calculons la somme des rangs des carts positifs et la somme des rangs des carts ngatifs. Si 0 est vraie, on s'attend ce que ces deux sommes soit presque gales. La statistique de test est la plus petite des deux sommes. Pour valuer la signication, nous utilisons la table des signes et rangs de Wilcoxon qui donne le seuil de la rgion de rejet.
Formulation et postulat. Nous rangeons par ordre croissant les carts 220 (carts en valeurs
Exercice
1. Combien y a t'il de faons direntes d'attribuer des signes + et - un ensemble de 12 valeurs ? 2. Quelle est la probabilit que tous les signes soient positifs (ie
= 0) ?
1. En anglais, on dit signed ranks test ce qui est aussi traduit test des rangs signs.
12
3. Si seul le rang 1 est ngatif, que vaut
? Quelle est la probabilit associe ?
4. Utiliser excel ou openoffice pour construire la loi de la statistique de test du test des signes et rangs de Wilcoxon dans le cas o le nombre d'observations est gal 11. En dduire la probabilit que la statistique de test soit infrieure ou gale 15, 10.
Procdure. Dans l'exemple des livres, nous rangeons par ordre de valeur absolue croissante les carts 220. En conservant le signe, nous obtenons
8, 25, 26, -64, -78, -94, 150, 199, 213, 234, 258, 283 Les signes et rangs correspondants sont 1,2,3,-4,-5,-6,7,8,9,10,11 La somme des rangs ngatifs est = 15. Or dans la table, nous voyons que si = 11, le test bilatral de niveau 5% rejette 0 si la plus petite des deux sommes, et est infrieur ou gale 10. En conclusion, nous ne rejetons pas
0
au niveau nominal 5%.
Discussion
1. Hypothse de symtrie ? 2. Hypothse de continuit ?
3.2.2 Le problme des ex aequo

Nous avons suppos que la distribution de la variable d'intrt est continue dans la population. Or pour une distribution continue, la probabilit d'obtenir des observations gales est nulle de mme que celle d'obtenir des observations gales la mdiane de la population. Cependant, en pratique, les observations ne sont pas strictement continues (arrondis ou prcision limite des appareils de mesure). Si une ou plusieurs valeurs concident avec la mdiane spcie sous rang 0.
0,
nous leur attribuons le
Si plusieurs carts ont le mme rang (en valeur absolue) ; nous leur attribuons le rang moyen. Par exemple, si les carts signs sont : 3, 4.7, -5.2, 5.2, 7,7,-7, nous leur attribuons les rangs suivants : 1,2,-3.5,3.5,6,6,-6.
13
3.2.3 Approximation pour les grands chantillons

Pour des tailles d'chantillon > 20, on peut approcher la statistique de test du test des signes et rangs de Wilcoxon par une variable alatoire de loi de Gauss. Soit la statistique de test, on vrie que la moyenne de est ( + 1)/4 et que sa variance est ( + 1)(2 + 1)/24 et on a que la variable
1 2
( +1) 4
( + 1)(2 + 1)/24
est plus grand que 20. ou des ex aequo, on
suit approximativement une loi de Gauss de moyenne 0 et de variance 1 si Le 1/2 au numrateur est une correction de continuit. Si un grand chantillon comporte des valeurs gales la mdiane sous modie de la faon suivante
( + 1)(2 + 1)/24
( +1) 4 0( 0
0( 0 0
+ 1)
=1 ( 3
+ 1)(2
+ 1)/24
0,
)/48
o 0 est le nombre de valeurs gales la mdiane spcie sous d'ex aaequo et le nombre d'ex aequo dans le me groupe.
est le nombre de groupes
14
Chapitre 4
Tests paramtriques - Estimation de la position pour un chantillon isol
Dans le cadre des tests non paramtriques tels que le test du signe ou le test des signes et rangs, on ne fait aucune hypothse sur la distribution de la variable observe. On n'utilise que la position des observations les unes par rapport aux autres. Ceci est un avantage, car a permet d'appliquer ces tests dans un grand nombre de situations. Cependant l'inconvnient est une perte de puissance lie au fait qu'on utilise peu d'information. Dans les tests paramtriques, on utilise d'avantage d'information sur la distribution de la variable tudie ou sur celle des estimateurs des paramtres considrs.
4.1 Elments de probabilit

L'ide dans les tests apramtriques est d'jouter de l'information structurante. En pratique, on va modliser la loi de la variable d'intrt et/ou des estimateurs considrer. On a donc besoin de disposer d'outils de modlisation qui sont ici des lois de probabilits.
4.1.1 Quelques lois de probabilit continues

1. Loi de Gauss (ou loi normale) On sait crire la densit de probabilit de la loi de Gauss de moyenne et de variance
2
( )=
1 2
( )2 2 2
pour
La fonction de rpartition de la loi de Gauss n'admet pas d'expression analytique simple. On l'obtient par l'approximation numrique de l'intgrale ( ) = ()
On parle de loi de Gaus centre rduite si la moyenne est nulle (centre ) et la variance est gale 1 (rduite ).
15
Pour simplier l'criture, on notera parfois loi de Gauss de moyenne et de variance 2 .
( , ) pour signier que la v.a.
suit une
Proposition 1 Toute combinaison linaire de variables alatoires de loi de Gauss suit une loi de Gauss.
Exercice : Soient et respectivement et variable alatoire = probabilit.
deux variables alatoires indpendantes de loi de Gauss. Notons leurs moyennes et 2 et 2 leurs variances. Quelles est la loi de la + 2 ? Donner ses paramtres et crire sa fonction de densit de
, variables alatoires de loi de Gauss de moyenne et 1 de variance Alors l'estimateur empirique = de laa moyenne est une variable =1 2 alatoire de loi de Gauss de moyenne et de variance .
1, 2.
Exemple important : Soient
2. Loi du chi2 La loi du chi2 permet de modliser la loi d'une somme de carrs de variables alatoires gaussiennes centres rduites : soient 1 , , variables alatoires gaussiennes indpendantes 2 2 suit une loi du chi 2 degrs de libert. et de mme variance alors, = =1 Remarque :
=1 (
) suit une loi du chi 2 ( 1) degrs de libert.
3. Loi de Student La loi de student permet de modliser la loi du rapport d'une variable alatoire gaussienne centre rduite sur la racine carre d'une variable alatoire de loi chi 2 normalise par le nombre de degrs de libert : soient une variable gaussienne centre rduite et une variable alatoire du chi 2 degrs de libert, alors soit une loi de student degrs de libert.
/
4. Loi de Fisher La loi de Fisher permet de modliser le rapport de deux variables distribues suivant des lois du chi 2. Soient 1 et 2 deux variables de loi de chi 2 1 et 2 degrs de liberts et d'cart-types 1 et 2 alors
1/ 1 2/ 2
suit une loi de Fisher ( 1 ,
2)
degrs de libert.
16
Loi 0-1 Uniforme Binomiale Gomtrique Pascal Poisson Uniforme Gauss Cauchy Gamma Exponentielle Rayleigh Laplace
2
Prob. ou ddp
( ( ( ( (
= 0) = 1 et ( = 1) = = ) = 1 , [1, ] = )= (1 ) pour [0, ] = ) = (1 ) 1 pour = 1, 2, . . . 1 = )= (1 ) 1
Moyenne
+1 2 1 (1 )
2 2
Variance
(1 )
1 12 1
2
(1 )
( = )= pour 0 et ! 1 ( ) = avec ( )= ( )= ( )= ( )= ( )= ( )= ( )= ( )=
1 2
( )2 2 2
= 1 , 2, . . .
+ 2 ( )2 12 2
pour
( 2+ 2)
1
non dni
non dni
2
( ) 1
2
2 2 2
pour
> 0 et >0
>0
2
2 2 2
2
2 2 2 1 ( 2 )
pour
2 +1 2
(2
0
1 2
2 0
2
Student
( ) 2 ( +1)/2 ( 2 ) 1+
>2
4.1.2 Convergence en loi

On s'intresse la loi d'une suite de v.a. identiquement distribues, et plus particulirement la convergence l'inni. Pour tudier cette convergence, il existe de nombreux outils ; nous utiliserons ici uniquement la notion de convergence en loi.
Dnition 1 - Convergence en loi. Soit une suite de v.a. de fonction de rpartition ( ), et soit une v.a. de fonction de rpartition ( ). On dit que la suite converge en loi vers la v.a. si et seulement si ( ) converge vers ( ).
approximativement distribue suivant une loi de Gauss. On devrait toujours dire que la statistique de test converge en loi vers une variable alatoire de loi normale.
C'est ce type de convergence qu'on utilise quand on dit abusivement qu'une statistique de test est
4.1.3 Thorme de limite centrale

Le thorme de limite centrale est l'un des rsultats les plus importants de la thorie des probabilits. De faon informelle, ce thorme donne une estimation trs prcise de l'erreur que l'on commet en approchant l'esprance mathmatique par la moyenne arithmtique. Ce phnomne a d'abord t observ par Gauss qui l'appelait loi des erreurs ; mais ce dernier n'en a pas donn de dmonstration rigoureuse. La preuve du thorme a t apporte par Moivre et Laplace ; le thorme porte donc parfois leurs noms. Ce thorme est fondamental car il justie toutes les approximations par la loi normale.
Thorme 1 - Thorme de limite centrale 1 Soit une suite de v.a. de mme loi d'esprance et d'cart type . Alors la v.a. ( 1+ converge en loi vers une v.a. normale centre rduite (0, 1) quand tend vers l'inni.
17
2 +...+
Exemples
( 1 + 2 +...+ ) 1. La moyenne exprimentale ou arithmtique est de moyenne thorique, et d'cart-type . Et d'aprs de thorme de limite centrale, (
1
, la moyenne
+ ... + /
)/
tend vers l'inni. et

converge vers une variable alatoire de loi normale centre et rduite quand Exercice : (b) Montrer que si Y suit une loi de Gauss de moyenne une loi de Gauss de moyenne 0 et de variance 1. et de variance
(a) Vrier que la moyenne et l'cart-type de la moyenne arithmtique sont bien

2,
alors
suit
(1 )
2. Une proportion admet pour moyenne la proportion thorique Ainsi d'aprs le thorme de limite centrale
et pour cart-type
(1 )/
tend vers l'inni.
tend vers une variable alatoire de loi normale centre et rduite quand
3. Comme cas particulier de ce thorme, on retrouve galement la convergence d'une suite de variables alatoires de loi binomiale vers une variable alatoire de loi normale (thorme de Bernoulli). Ce thorme justie l'utilisation de la loi normale lorsqu'il y a rptition d'expriences identiques.
4.2 Test de la moyenne (ou Test de Student)

Un contrle anti-dopage a t eectu sur 16 sportifs. On a mesur la variable de moyenne , qui est le taux (dans le sang) d'une certaine substance interdite. Voici les donnes obtenues : 0.35 0.24 0.4 0.48 0.65 0.12 0.27 0.70 0.14 0.21 0.59 0.13 0.73 0.74 0.13 0.18
La variable est suppose gausienne et de variance 2 = 0.04. On veut tester, au niveau de signication nominal 5% l'hypothse selon laquelle le taux moyen dans le sang de la population des sportifs est gal 0.4. On pose des hypothses de test unilatrales :
0
= 0.4 contre
> 0.4
18
La statistique de test est la moyenne empirique (enocre appele moyenne arithmtique). Si on note 1 , , un chantillon de variables alatoires de mme loi que , la moyenne empirique est donne par = 1
=1
Intuitivement, on comprend bien qu'on va rejeter 0 si 0 est trop grand en valeur absolue c'est dire si la moyenne empirique est trop loigne de la moyenne sous 0 .
0 converge vers une variable alatoire D'aprs le thorme de limite centrale, sous 0 , = / de loi de Gauss de moyenne 0 et de variance 1 quand tend vers l'inni. D'autre part, d'aprs la remarque faite plus haut on comprend qu'on rejette 0 si > 0 . Pour construire la rgion de rejet de 0 , on cherche donc 0 tel que ( > 0 ) =
soit encore
>
ou
<
0)
>
0)
< 0) =
or on a par symtrie de la loi de Gauss de moyenne 0 et de variance 1
>
0)
< 0 ) = ( 0 ) = 1 ( 0 )
0
o on note la fonction de rpartition de la loi Gauss de moyenne 0 et de variance 1. Ainsi tel que 1 ( 0 ) = /2 ce qui s'crit encore
0
est
= 1 (1
2) 0
D'aprs la table de la fonction de rpartition inverse de la loi normale, on en dduit que car = 0.05. Finalement, on rejette donc
0
= 1.96
si
> 1.96
Remarques
On peut aussi conclure le test en calculant son degr de signication soit
>) =
Lorsque le nombre d'observations est grand (suprieur 30), d'aprs le thorme de limite centrale on a que la statistique de test
suit approximativement une loi de Gauss quelque soit la loi de la variable
considre.
19
4.2.1 Si la variance est inconnue

Dans le cas o la variance n'est pas connue, on doit l'estimer en utilisant les observations. La statistique de test du test de la moyenne est alors donne par
=
o
est l'entimateur de la variance dni de la faon suivante

2
1 ( 1
)2
Dans ce cas, ne suit plus une loi de Gauss car le dnominateur n'est plus une constante mais une ralisation de l'estimateur de la moyenne de la variable . L'cart-type Par construction, 2 suit une loi du 2 ( 1) degrs de libert si suit une loi de Gauss. est alors une v.a. suivant une de Student ( 1) degrs de liberts. Et on utilise une table de la loi de Student pour conclure le test.
Remarque : Lorsque le nombre d'observations est grand (suprieur 30), on peut utiliser le thorme de limite centrale pour approcher la loi de la statistique .
4.2.2 Calcul de la puissance du test

Dans le cas d'un test de Student, on peut calculer la puissance du test si on peut donner une valeur de la moyenne sous l'hypothse alternative.
0
contre
La puissance est dnie par
(rejeter
est fausse)
1.
Ainsi la puissance est la probabilit de la rgion de rejet de 0 sous la loi de ( ) 1 = > 0 suit une loi (0, 1) / ( ) 0 1 = > / ( ) 0 1 = 1 /
4.3 Test pour une proportion

Soit une population trs grande o la proportion d'individus possdant le caractre est gale . On pense que cette proportion ne peut avoir que deux valeurs 0 ou 1 . Au vu d'un chantillon de taille , on dsire prendre une dcision quant la valeur de cette proportion, avec une signication .
20
A partir de l'chantillon, l'estimateur de la proportion thorique sera la frquence empirique o est le nombre d'individus possdant le caractre dans l'chantillon. Les hypothses de test sont donc
{
La rgle de dcision est donne par { o
0 1
: :
= =
0 1
<
1 0
dsigne la borne de la rgion critique. est une ralisation d'une v.a. dont la loi de probabilit peut tre dtermine grce au thorme central limite. Si la taille de l'chantillon est susamment grande (en pratique, > 5 et (1 ) > 5 ), on admet que la loi de tend vers une loi normale de moyenne et d'cart-type
(1 )
. Ce qui nous conduit
=
avec : [ , Sous l'hypothse
(1 ) 0,
]. on obtient [ ] ( 0) 0 (1 0 )
[ =
o
] ( 0) ( 0) = 0 (1 0 ) 0 (1 0 )
= (
une table de la loi normale. L'erreur de seconde espce est donne par : [
0) 0 (1 0 )
est une v.a. normale centre rduite. La valeur du seuil critique est lue dans
=
o
] ( 1) 1 (1 1 )
=(
1) 1 (1 1 )
est une v.a. normale centre rduite. On en dduit la puissance du test.
Remarque : voir le test du signe pour les grands chantillons !
21
Chapitre 5
Tests sur la position et la dispersion pour deux chantillons indpendants
5.1 Introduction
Le problme qui consiste comparer la position de deux chantillons est un problme trs courant. Il se pose, par exemple, losque l'on veut verier l'ecacit d'un traitement mdical. Dans ce cas, on considre deux groupes de patients, l'un recevant le traitement et l'autre un placebo. Si on note respectivement et les positions des populations sous traitement et sous placebo, on pose les hypothses de test suivantes :
0
contre
On remarque que l'hypothse nulle traduit toujours l'absence d'eet (c'est dire un eet nul). Lorsque l'on veut comparer les positions (mdiane ou moyenne) de deux chantillons indpendants, on doit tenir compte de la dispersion des deux chantillons et non plus d'un seul. On ne peut pas simplement se ramener aux tests tudis prcdemment. Nous introduisons ci-dessous deux types de tests : des tests non paramtriques (ou libres de distribution) reposant sur des proprits des statistiques d'ordre comme dans le test du signe ou le test des rangs signs de Wilcoxon ; ces tests sont utiliss quand on tudie des petits chantillons pour lesquels on ne peut/veut pas faire d'hypothse sur la distribution de la variable d'intrt. des tests praramtriques bass sur une hypothse de normalit de la variable d'intrt ou de l'estimateur considr.
5.2 Tests non paramtriques

Considrons l'exemple suivant. Un psychologue note le temps (en s) mis par des enfants, dont 7 sont considrs comme normaux et 8 comme mentalement retards, pour accomplir une srie de tches manuelles simples. Les temps sont
22
Enfants normaux Enfants retards
204 243
218 228
197 261
183 202
227 270
233 242
191 220
239
On se demande alors si les populations d'o proviennent ces deux sries d'observations sont signicativement direntes. Notons 1 et 2 les temps mdians des deux groupes d'enfants. On pose les hypothses de tests : 0 : 1 = 2 contre 1 : 1 < 2
5.2.1 Test de la mdiane

Le test de la mdiane gnralise le test du signe. L'ide est que si les deux chantillons proviennent de deux populations ayant la mme mdiane, alors chacune des deux mdianes empiriques est un estimateur raisonnable de la mdiane commune. Soient deux suites d'observations de tailles respectives 1 et 2 et issues de deux populations de mdianes respectives 1 et 2 . Si les mdianes des deux populations concident, on s'attend ce que la mdiane de toutes les observations regroupes soit proche de la mdiane de chacun des chantillons. Pour dnir la statistique de test, nous construisons le tableau de contingence suivant Ech. 1 Ech. 2
2 1 2
> <
o
1
1 1
est le nombre d'observations de l'chantillon 1 qui sont suprieurs la mdiane.
On dnit alors la statistique de test par
= (2
1)
+
1 2
On peut montrer que sous 0 , suit une loi du chi2 un degr de libert (voir test du chi2). Ainsi, si la statistique de test observe est suprieure 3.84, on rejette 0 au risque 5
5.2.2 Test de Mann-Whitney-Wilcoxon

Le test de la mdiane utilise trs peu d'information et comme le test du signe il est peu puissant. On introduit alors le test de Mann-Whitney-Wilcoxon qui est une extension du test des signes et rangs. Ce test est utilis pour comparer deux chantillons qui ne peuvent se distinguer que par un glissement de leur position. Aussi, pour utiliser ce test, on fait l'hypothse que la dispersion des deux chantillons est comparable. Considrons l'exemple suivant. Un psychologue note le temps (en s) mis par des enfants, dont 7 sont considrs comme normaux et 8 comme mentalement retards, pour accomplir une srie de tches manuelles simples. Les temps sont
23
Enfants normaux Enfants retards
204 243
218 228
197 261
183 202
227 270
233 242
191 220
239
On se demande alors si les populations d'o proviennent ces deux sries d'observations sont signicativement direntes. Notons 1 et 2 les temps mdians des deux groupes d'enfants. On pose les hypothses de tests : 0 : 1 = 2 contre 1 : 1 < 2 On remarque ici que les cart-types estims des deux groupes d'observations sont respectivement 18.9 et 21.8. Il est en pratique insusant de comparer ces deux valeurs et nous proposerons un test plus loin. Cependant, on convient qu'elles sont du mme ordre de grandeur. Si les deux chantillons ont la mme mdiane, on s'attend ce qu'ils se rpartissent de faon homogne autour de cette mdiane. Autrement dit, on s'attend ce que les rangs des deux chantillons regroups soient bien mlangs. Valeurs Rangs Valeurs Rangs 183 1 191 2 233 10 197 3
202 4 242 12
204 5
218 6
220 7 270 15
227 8
228 9
239 11
243 13
261 14
On fait alors la somme des rangs de chacun des chantillons et on obtient On en dduit la valeur des statistiques de test qui sont
1
= 35 et
= 85.
1( 1
+ 1)
et
2( 2
+ 1)
Ici,
= 14 et
= 42.
Dans le test de Mann-Whitney-Wicoxon, on rejette 0 si la plus petite des deux statistiques (test bilatral) ou celle qui est approprie (test unilatral), suprieure ou gale la valeur lue dans la table (table A6 de P. Sprent).
0.
Ici, la valeur seuil correspondant au niveau de signication de 5% est gale 10. Donc on rejette
Cas des grands chantillons

Dans le cas o l'un des chantillons est de taille suprieure 20, on donne une approximation gaussienne de la loi de la statistique de test :
+ 1 /2
1 2( 1
1 2 /2 2
+ 1)/12
suit approximativement une loi de Gauss centre et rduite.
24
Le problme des ex aequo

Dans le cas o il y a peu d'ex aequo, on peut utiliser la mthode des rangs moyens.
5.3 Tests paramtriques

Les tests non paramtriques ont l'inconvnient d'tre souvent peu puissants. Ceci vient du fait que l'on n'utilise que la position des observations dans les chantillons et non leur valeur. Quand on sait faire des hypothses sur la distribution de la variable d'intrt, il est prfrable de construire un test paramtrique qui sera plus puissant. Pour comparer deux moyennes de la variables alatoires gaussiennes, on utilise le test de Student pour deux chantillons.
5.3.1 Comparaison de deux moyennes - Test de Student

Soient 1 et 2 deux variables alatoires indpendantes de lois normales de moyennes 1 et (1) (1) 2 , et d'cart types 1 et 2 . On dispose de deux chantillons indpendants { 1 , , 1 } et (2) (2) (1) (2) { 1 , , 2 } tels que (resp. ) suit la mme loi que 1 (resp. 2 ). Sachant les chantillons, on cherche dcider si les moyennes 1 et 2 sont signicativement direntes ou non. On teste alors 0 : 1 = 2 contre 1 : 1 = 2 au risque On utilise le test de Student pour deux chantillons indpendants. Si les cart types 1 et 2 sont connus, on calcule
1 = 2 1 + 1 2
2 2 2
On rejette 0 au risque si [ 1 2 , 1 2 ] o la valeur 1 2 est lue dans la table de la loi normale centre rduite. Si les cart types 1 et 2 sont inconnus, il faut tenir compte de la taille des chantillons a) Si 1 et 2 sont tous les deux suprieurs 30, on calcule
=
On rejette 0 au risque si [ normale centre rduite. b) Si 1 ou 2 est infrieur 30 et
1
2 1
2
2 2 2 1
1 1
1 2 , 1 2 ] 1
o la valeur
1 2
est lue dans la table de la loi
on calcule
1 2 = 11 + 12
2 1 1 1
+
2
2 2 2
2
1 + 2 2
On rejette 0 au risque si [ 1 2 ; 1 + 2 2 , 1 2 ; lue dans la table de Student 1 + 2 2 degrs de libert.
] o la valeur
1 2 ;
1 + 2 2
est
25
c) Si
ou
est infrieur 30 et
on calcule
1
2 1 1 1
2
2 2 2 1
On rejette 0 au risque si [ 1 2 ; , 1 2 ; ] o la valeur Student degrs de libert ; est l'entier le plus proche de
1 2 ;
est lue dans la table de
[
4 1
2 1 1 1
+ +
2 2 2 1
]2
2 1 1) 1
4 2 2 2 1) 2
Le test de Student est assez robuste mais si l'on s'loigne trop des conditions de normalit, il est prfrable d'utiliser un test non paramtrique.
5.3.2 Comparaison de deux variances - Test de Fisher

Avec les mmes notations que prcdemment, on teste 0 : 1 = 2 contre 1 : 1 = 2 au risque 2 2 1 1 2 La statistique de test est dnie par = 1 2 avec 1 = 1. 1 2 D'aprs les proprits des variables alatoires de loi de Gauss, suit une loi de Fisher ( 1 1, 2 1) degrs de libert. est On rejette 0 au risque si [ 2 ( 1 1, 2 1), 1 2 ( 1 1, 2 1)] o la valeur la valeur de l'inverse de la fonction de rpartition de la loi de Fisher de ( 1 1, 2 1) degrs de libert au point . Cette valeur est lue dans la table de Fisher-Sndcor 1 1 et 2 1 degrs de libert. Remarque :
2
1,
1) =
1
1 2
2 1, 1 1)
5.3.3 Comparaison de deux proportions

Soit 1 (respectivement 2 ) la proportion d'individus d'une certaine modalit dans la population mre 1 (resp. 2 ). On extrait un chantillon de taille 1 (resp. 2 ) dans la population 1 (resp. 2 ). On teste partir de ces chantillons, on dispose d'une estimation 1 (resp. 2 ) de 1 (resp. ) 2 qui suit une loi 1 (resp. 2 ). 0 : 1 = 2 contre 1 : 1 = 2 au risque . On suppose + 2 2 que 1 1 et 2 2 suivent approximativement des lois normales. On calcule = 1 1 puis 1+ 2
1 (1 )(
la table de la loi normale centre rduite.
2 1 + 1 ) 1 2
On rejette
au risque
si
1 2 , 1 2 ]
o la valeur
1 2
est lue dans
26
Chapitre 6
Tests d'adquation et comparaison de distributions
6.1 Introduction
Jusqu' prsent nous avons tudi des mthodes permettant de tester la position et la dispersion d'un ou deux chantillons. Cependant des populations peuvent prsenter d'autres caractristiques importantes. Nous considrons ici toute la distribution de la population. La distribution (ou la loi) d'une variable alatoire est dcrite par sa fonction de rpartition 1 c'est dire par la fonction ( )= ( ) (6.1) On observe que la fonction de rpartition est une fonction monotone croissante comprise entre 0 et 1.
Exemple - soit une variable alatoire de loi uniforme sur l'intervalle [0, 1]. n ralisation de la variable la mme probabilit de prendre toute valeur [0, 1] et sa fonction de rpartition est donne par ( ) = 1[0,1] ( )
tant donnes des observations 1 , , on peut se demander si ces valeurs sont cohrentes avec un chantillonnage d'une distribution continue spcies. Le test d'adquation 2 de Kolmogorov permet de rpondre cette question.
6.2 Test d'adquation de Kolmogorov

Soient 1 , , , ralisations d'une variable alatoire . On se demande s'il est raisonnable de supposer que suit la loi caractrise par la fonction de rpartition et on pose les hypothses
1. En anglais : cumulative distribution function 2. En anglais : goodness-of-t test
27
de tests :
0
suit la loi
contre
suit une autre loi et une
On propose de construire une statistique de test base sur la distance entre les fonction estimation de la fonction de rpartition de obtenue partir des observations.
6.2.1 Estimer la fonction de rpartition

On construit naturellement un estimateur de la fonction de rpartition de (6.1). Card({ } ( )= )
Exercice
d'aprs l'quation
- On considre les donnes d'un essai visant dterminer la solidit d'une corde d'escalade. Un morceau de 1 m corde est mis sous tension jusqu' cassure. On se demande si la corde pour casser n'importe endroit. On obtient les rsultats suivants : 0.1 0.4 0.4 0.6 0.7 0.7 0.8 0.9 0.9 0.9 1. Tracer l'estimation de la fonction de rpartition. 2. Ajouter sur le graphique la fonction de rpartition thorique pour ce problme. Exercice : 1. Tracer la fonction de rpartition empirique de l'chantillon ci-dessus. 2. Superposer, sur le mme graphique, la fonction de rpartition de la loi uniforme sur [0, 1].
6.2.2 Statistique de test

Kolmogorov propose d'utiliser la statistique de test suivante :
= sup
( )
( )
La loi de cette statistique de test est donnes dans la table de Kolmogorov. Si on considre de nouveau les donnes de l'exercice, on obtient observations 0.1 0.4 0.4 0.6 0.7 0.7 0.8 0.9 0.9 1/10 3/10 3/10 4/10 6/10 6/10 7/10 1 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.1 0 0 0.1 0 0.2 0.1 0 d'o = 0.2 or on rejette 0 au risque = 5% si > 0.369. Ainsi, ici les observations sont issues d'une loi uniforme sur [0, 1]. 0.9 1 1 on peut supposer que
6.2.3 Cas de la loi normale

La version du test de Kolmogorov adapte pour la loi de Gauss s'appelle le test de Lilliefors. Ce test est peu puissant et on lui prfre le test de Shapiro-Wilk. Ce dernier est bas sur une comparaison de
28
deux estimateurs de la variance qui ne peuvent conduire la mme estimation que si les observations sont issues d'une loi de Gauss. Pour vrier qu'une srie d'observation suit une loi normale, on peut en premire approche utiliser une mthode graphique : la droite de Henry (quantile-quantile plot ou qqplot). Soit { 1 , , } une suite d'observations. Si cette suite constitue une suite de ralisation d'une variable gaussienne, alors les points de coordonnes ( , 1 (( 1/2)/ )) sont aligns sur la droite d'quation = Cette droite est appele droite de Henry.
Exercice - Les observations ci-dessous correspondent la hauteur de 7 arbres dans une fort. Peut-on considrer que la distribution de ces hauteurs est gaussienne ?
23.4
24.6
25.0
26.3
26.8
27.0
27.6
On tracera la droite de Henry pour les donnes centres et rduites de faon pouvoir utiliser la table de la loi de Gauss ( = 25.8, = 1.5).
Donnes centres rduites 1
(( 1/2)/7)
-1.5 -1.46
-0.8 -0.79
-0.5 -0.36
0.3 0
0.6 0.36
0.7 0.79
1.1 1.46
6.2.4 Test d'adquation du chi 2 : loi discrte

Pour une distribution discrte on utilise le test d'adquation du chi 2.
Exemple : On suppose que le nombre de pices dfectueuses produites en un jour par une machine suit une loi de Poisson, de paramtre inconnu. Rappelons les caractristiques de cette loi : si une variable alatoire suit une loi de Poisson de paramtre , alors ( ) = , ( ) = , et pour tout ,
(
On pose les hypothses de test
0
= )=
1.2 contre
suit une autre loi
On observe 100 jours de production de cette machine, voici les rsultats, regroups en 5 classes. Nombre de pices dfectueuses Nombre d'observations Frquence empirique 0 27 0,27 1 41 0,41 2 21 0,21 3 7 0,07 4 et plus 4 ` 0,04
29
On utilise une statistique de test du chi2 donne par
(
=1
)2
et le nombre de classes. suit
avec et les frquences empirique et thorique de la classe une loi du chi 2 1 degrs de libert.
Pour l'exemple considr, les frquences thoriques sont donnes ci-dessous. Nombre de pices dfectueuses 0 1 2 3 4 et plus Frquence thorique 0,30 0,36 0,22 0,09 0,03 La statistique de test = 0, 0112 ; or d'aprs la table du chi 2 on rejette > 5.99.
au risque 5% si
6.3 Test d'identit de deux distributions de deux distributions

On peut gnraliser le test de Kolmogorov au cas de deux chantillons an de comparer leurs distributions. Le test s'appelle alors test de Kolmogorov-Smirnov.
6.3.1 Test de Kolmogorov-Smirnov

L'hypothse nulle est que les deux chantillons proviennent de la mme distribution ; l'alternative est qu'ils proviennent de distributions ayant des rpartitions direntes. On ne spcie aucune forme particulire pour leur dirence. Et la statistique de test est base sur un cart en valeur absolue entre la fonctions de rpartition empiriques des deux suites d'observations. Exemple - Un psychologue fait passer un test de rapidit des enfants normaux et d'autres considrs comme mentalement retards. Les temps qu'ils mettent pour accomplir une srie de tches sont les suivants :
Enfants normaux Enfants retards On pose les hypothses de test

0
183 202
191 220
197 228
204 239
218 242
227 243
233 261
270
contre
Et on estime les fonctions de rpartition des deux groupes :
obs.
183
1/7 0 8/56
191
2/7 0 16/56
197
3/7 0 ...
202 3/7 1/8
204
4/7 1/8
218
5/7 1/8
220 5/7 2/8
227
6/7 2/8
228 6/7 3/8
233
1 3/8
239 1 4/8
242 1 5/8
243 1 6/8
261 1 7/8
270 1 1

Ecart
30
L'cart en valeur absolue le plus grand
sup
est |1-3/8| = 0.62.
La loi du supremum des carts en valeur absolue est tabule dans la table de Smirnov. On rejette > 0.71. Donc ici, on ne peut pas rejeter l'hypothse selon laquelle les distributions 0 si , sont direntes pour les deux groupes d'enfants.
6.3.2 Test de Cramr-von Mises

Il existe d'autres tests permettant de comparer des distributions. Par exemple, le test de Cramrvon Mises repose sur la somme des carrs des carts en valeurs absolue entre les deux fonctions de rpartition. En notant, 2 cette somme, la statistique de test est
2
=
avec et
les nombres d'observation des deux groupes.

0
Pour un test bilatral, on rejette 0.461 (resp. 0.743).
au niveau de signication 5% (resp. 1%) si
est suprieur
Le test de Cramr-von Mises est souvent plus puissant que le test de Kolmogorov-Smirnov et il est plus facile utiliser grace la bonne approximation qui vite le recours des tables.
31
Rfrences
Fourdrinier D., (2002). Statistique infrentielle. Dunod. Jolion J.M., (2003). Probabilit et Statistique. Cours de l'INSA. http ://rfv.insa-lyon.fr/ jolion Kaufman P., (1994). Statistique : Information, Estimation, Test. Dunod. Saporta G., (1990). Probablits, analyse des donnes et statistique. Edition Technip. Reau J.P., Chauvat G., (1996). Probabilits et statistiques. Excercices et corrigs, Armand Colin, Collection cursus TD, srie conomie. Scherrer B., (1988). Biostatitiques. Edition Gaetan Morin. Schwartz D., (1984). Mthodes statistiques l'usage des mdecins et des biologistes, Flammarion, Mdecine-Sciences, Collection Statistique en biologie et mdecine.
32

Cours Tests 2009

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Tests 2009

Transféré par

Droits d'auteur :

Formats disponibles

Tests statistiques Notes de cours

Table des matires

2 Tests d'hypothses, gnralits

3 Tests non paramtriques - Estimation de la position pour un chantillon isol

4 Tests paramtriques - Estimation de la position pour un chantillon isol

4.3 5.1 5.2 5.3

5 Tests sur la position et la dispersion pour deux chantillons indpendants

6 Tests d'adquation et comparaison de distributions

1.1 Qu'est ce que la statistique ?

1.2 Qu'est ce qu'un test statistique ?

1.4 Rappels de probabilit

1.4.1 Loi de Bernouilli

1.4.2 Loi binomiale

5 0.193 11 0.003 signes +,

Table 1.1  Probabilits binomiales

2.1 Hypothses de test

contre les alternatives bilatrales

peut tre infrieur

2.2 Statistique de test

est vraie, la probabilit est maximale

2.3 Rgion de rejet et niveau de signication

au niveau de signication 0.05 si et seulement

2.4 Les deux espces d'erreur

signication est la probabilit de rejeter l'hypothse nulle tort.

2.5 Test unilatral ou bilatral

2.6.2 Intervalle de tolrance

3.1 Le test du signe

3.1.1 Quelques remarques

Exercice - Quel est le niveau de signication rel du test du signe unilatral

dans le cas o l'on a 24 observations et que le niveau nominal est 5% ?

Exercice - Quel est la region de rejet du test du signe unilatral

3.1.2 Intervalle de conance

3.1.3 Approximation pour les grands chantillons

3.1.4 Test du signe modi : test d'un quantile

est la mdiane. est appel dcile et si

3.2 Infrence base de rangs

3.2.1 Test des signes et rangs de Wilcoxon

Nous rappelons que nous avions observ l'chantillon suivant :

3. Si seul le rang 1 est ngatif, que vaut

? Quelle est la probabilit associe ?

au niveau nominal 5%.

3.2.2 Le problme des ex aequo

nous leur attribuons le

3.2.3 Approximation pour les grands chantillons

est le nombre de groupes

4.1 Elments de probabilit

4.1.1 Quelques lois de probabilit continues

Pour simplier l'criture, on notera parfois loi de Gauss de moyenne et de variance 2 .

( , ) pour signier que la v.a.

Exercice : Soient et respectivement et variable alatoire = probabilit.

Exemple important : Soient

) suit une loi du chi 2 ( 1) degrs de libert.

suit une loi de Fisher ( 1 ,

= 0) = 1 et ( = 1) = = ) = 1 , [1, ] = )= (1 ) pour [0, ] = ) = (1 ) 1 pour = 1, 2, . . . 1 = )= (1 ) 1

4.1.2 Convergence en loi

4.1.3 Thorme de limite centrale

(a) Vrier que la moyenne et l'cart-type de la moyenne arithmtique sont bien

4.2 Test de la moyenne (ou Test de Student)

or on a par symtrie de la loi de Gauss de moyenne 0 et de variance 1

 On peut aussi conclure le test en calculant son degr de signication soit

suit approximativement une loi de Gauss quelque soit la loi de la variable

4.2.1 Si la variance est inconnue

est l'entimateur de la variance dni de la faon suivante

4.2.2 Calcul de la puissance du test

Table 1.1 Probabilits binomiales

2.3 Rgion de rejet et niveau de signication

au niveau de signication 0.05 si et seulement

signication est la probabilit de rejeter l'hypothse nulle tort.

Exercice - Quel est le niveau de signication rel du test du signe unilatral

3.1.2 Intervalle de conance

3.1.4 Test du signe modi : test d'un quantile

Pour simplier l'criture, on notera parfois loi de Gauss de moyenne et de variance 2 .

( , ) pour signier que la v.a.

(a) Vrier que la moyenne et l'cart-type de la moyenne arithmtique sont bien

On peut aussi conclure le test en calculant son degr de signication soit

est l'entimateur de la variance dni de la faon suivante

La puissance est dnie par

On dnit alors la statistique de test par

au niveau de signication 5% (resp. 1%) si