Vous êtes sur la page 1sur 6

Introduction a` la biostatistique Mat 2779

Lete 2010
Cours 9 le jeudi 1 juin

9.1. Sur le test QQ de normalite de distribution. Le jeu de donnees sleep fait une partie
du package psy de R. En utilisant package installer de R, installez psy. Apr`es, on importe
sleep,
> library(psy)
> data(sleep}
On peut donner un nom plus courte au data.frame sleep, par exemple,
> d <- sleep
Si on ne planifie pas dutiliser linvite de commandes, alors on peut importer le jeu de
donnees directement dans R commander en utilisant R commander Data data in packages load data set from an atached package.
Pour une description detaillee de ce jeu de donnees, voir la description sous le titre Le
sommeil chez les mammif`eres par Yannick Wurm, trouvee sur le site
http ://pbil.univ-lyon1.fr/R/enseignement.html
(suivez le lien Donnees probl`emes divers), ou accedez directement le lien
http ://pbil.univ-lyon1.fr/R/pdf/pps005.pdf
En bref, les donnees portent sur la morphilogie et la composition de sommeil des 62 mammif`eres. Les donnees sont issues dune e tude publiee en 1976 dans Science.1 Voici lune
des conclusions de letude : des grandes quantites du sommeil sans reve desavantagent les
animaux de grande masse corporelle...
Les dimensions de sleep sont
> dim(sleep)
[1] 62 11
Les lignes correspondent aux esp`eces danimaux, et les colonnes aux variables. Pour obtenir
les variables (les noms des colonnes), on tape
> names(sleep)
[1] "Species"
"Body.weight"
"Brain.weight"
[4] "Slow.wave.sleep"
"Paradoxical.sleep" "Total.sleep"
[7] "Maximum.life.span" "Gestation.time"
"Predation"
1

Allison T, Cicchetti DV., Sleep in mammals : ecological and constitutional correlates. Science, 1976 Nov
12 ; 194 (4266) :732-4.
1

[10] "Sleep.exposure"

"Danger"

Les noms des lignes sont normalement retrouves en tapant


> row.names(sleep)
[1] "1" "2" "3"
+ ....

"4"

"5"

"6"

"7"

"8"

"9"

"10" "11" "12" "13" "1

On en conclut que les lignes sont numerotees. Mais cela nest pas interessant, car les numeros
en eux-memes ne nous disent rien. Donc, au lieu de cela, on retrouve la colonne Species :
> sleep$Species
[1] African.elephant
[3] Arctic.Fox
[5] Asian.elephant
[7] Big.brown.bat
[9] Cat
[11] Chinchilla
[13] Desert.hedgehog
.................

African.giant.pouched.rat
Arctic.ground.squirrel
Baboon
Brazilian.tapir
Chimpanzee
Cow
Donkey

Pour voir les donnees dune esp`ece particuli`ere, on cherche le nombre de la ligne correspondante
(cest 9 pour le chat, ou bien 6 pour le babouin), et on tape
> sleep[6,]
Species Body.weight Brain.weight Slow.wave.sleep Paradoxical.sleep
6 Baboon
10.55
179.5
9.1
0.7
Total.sleep Maximum.life.span Gestation.time Predation Sleep.exposure
6
9.8
27
180
4
4
Pour une valeur particuli`ere de la matrice, il suffit dindiquer les coordonnees (le numero de
la ligne et le numero de la colonne). Par exemple, la longueur du sommeil sans reve (slow
wave sleep), en heures par jour, du babouin2 est retrouvee par
> sleep[6,4]
[1] 9.1
Maintenant on applique le test Q-Q de normalite de distribution a` quelques variables aleatoires
de cette e tude, sans aucun but particulier.
Par exemple, choisissons le poids du cerveau comme la variable. On peut produire le
graphe avec R commander, ou bien directement :
> qq.plot(sleep$Brain.weight, dist= "norm", labels=FALSE)
La distribution sur la figure 1, a` gauche, est decidement non normale. Plus precisement : on
dit quavec la confiance 95 %, la distribution sous-jacente nest pas normale. Lhistogramme
(`a droite) confirme cette conclusion.
2

Javais fait la connaissance de cet e tre charmant en Afrique du Sud.

50
30
20
10

frequency

40

1000 2000 3000 4000 5000

sleep$Brain.weight

1000

norm quantiles

2000

3000

4000

5000

6000

sleep$Brain.weight

0.10
0.06
0.02

0.04

density

0.08

15
10

0.00

sleep$Slow.wave.sleep

F IG . 1. Le test Q-Q de normalite (`a gauche) et lhistogramme (`a droite) pour


la variable sleep$Brain.weight.

0
norm quantiles

10

15

sleep$Slow.wave.sleep

F IG . 2. Le test Q-Q de normalite (`a gauche) et lhistogramme (`a droite) pour


la variable sleep$Slow.wave.sleep.
Par contre, les resultats pour la distribution de la duree du sommeil sans reve (figure 2)
favourisent lhypoth`ese de normalite de la distribution. La normalite de la distribution est
consistente avec les resultats du test.

Il est interessant de noter que la normalite est toujours difficile de predire par la forme de
lhistogramme, meme muni de la courbe en cloche de la meme moyenne et lecart-type. Cet
histogramme a e te produit avec :
> Hist(sleep$Slow.wave.sleep, scale="density", breaks="Sturges",
+ xlim=c(-1,19), ylim=c(0,0.11), col="darkgray")
> x<-seq(-2,20,length=100)
> y<-dnorm(x,mean=mean(sleep$Slow.wave.sleep,na.rm=TRUE),
+ sd=sd(sleep$Slow.wave.sleep,na.rm=TRUE))
> points(x,y)
La valeur du param`etre na.rm=TRUE sert a` ce que le logiciel ignore les valeurs numeriques
manquantes (qui sont remplacees par le symbole NA, do`u le nom ; rm signifie remove).
9.2. Estimation ponctuelle. Notre but prochain est de raffiner davantage la relation entre la
theorie des probabilites et la statistique. Rappellons-nous que le sujet de la statistique est de
faire les conclusions generales sur le comportement des variables aleatoires X, Y, . . . sur un
ensemble fondamental S a` partir des valeurs connues de ces variables sur un sous-ensemble
fini s1 , s2 , . . . , sn de lensemble fondamental, S. Les conclusions doivent rester valables si
lechantillon s1 , . . . , sn est remplace par un autre, tire de S au hasard.
La mani`ere de faire les conclusions sur une v.a. X consiste en estimation dun param`etre
de X, note dhabitude par la lettre grecque :
= (X).
Les exemples des param`etres sont :
lesperance mathematique de X, = E(X) ;
la variance de X, var (X) ;
lecart-type de X, (X) ;
la mediane de X,
chaquun des q-quantiles de X, par exemple, le troisi`eme quartile Q3 (X), ....
Donc, un param`etre de X est un nombre reel associe a` la v.a. X.
Car on ne peut par acceder a` la valeur de directement, on estime en calculant la valeur
dun param`etre dechantillon, note t.
Notons lechantillon
x1 = X(s1 ), x2 = X(s2 ), . . . , xn = X(sn ).
Voici quelques exemples des param`etres dechantillon, dans le meme ordre.
Exemple 9.1. La moyenne dechantillon,
x1 + x2 + . . . + xn
x =
.
n
La moyenne est le param`etre statistique qui est utilise pour estimer la valeur de E(X). On
dit que x est un estimateur de E(X).

lechantillon de donnees

x1
v.a. X

= (X) ??
inconnu

estimateur .
de .
.
xn

s3

s1
s2

x2

...

lensemble fondamental, S

t,
le parametre
dechantillon

F IG . 3. Un estimateur statistique.
Exemple 9.2. Pour estimer la valeur de la variance var X, on peut utliser la variance de la
restriction de X sur s1 , . . . , sn , qui est bien sur une v.a. sur lespace fondamental plus petit,
e quiprobable {s1 , . . . , sn }. Cette variance est donnee par lexpression bien connue a` nous :
(x1 x)2 + (x2 x)2 + . . . + (xn x)2
(9.1)
.
n
Pourtant, dans la statistique on utilise les plus souvent un autre estimateur de variance, appele
la variance dechantillon (sample variance, en anglais). La variance dechantillon est notee
s2 . On obtient cet estimateur en remplacant n dans le denominateur par n 1 :
s2 =

(x1 x)2 + (x2 x)2 + . . . + (xn x)2


.
n1

La raison detre de cette definition, cest quil y a une relation de la dependance lineaire entre
les e carts
x1 x, x2 x, . . . , xn x,
dont seulement n 1 sont libres.
Par exemple, si n = 1, alors le seule e cart en existence, x1 x = x1 x1 = 0, ne contient
aucune information sur la variance de X. Donc cest tout a` fait raisonnable que lestimateur
s2 nest pas defini quand n = 1.
Cette explication est vague, mais en effet la variance dechantillon donne un meuilleur
estimateur de la variance theorique 2 = var (X) que la variance theorique donnee par la
formule 9.1.
La valeur de lestimateur dechantillon, t, depend de lechantillon, o`u, plus exactement,
de sous-ensemble s1 , s2 , . . . , sn tire de lensemble fondamental S au hasard. Pour cette raison, on peut regarder t, a` son tour, comme une variable aleatoire. Cette variable est notee T .

On esp`ere que T sapproche de la valeur du param`etre quand la taille dechantillon saccroit, n . De cette facon, pour les grands e chantillons de donnees, t devient une bonne
approximation a` .