Vous êtes sur la page 1sur 45

UE4 : Biostatistiques

Chapitre 9
Corrlation - Rgression
Exercices comments
Jos LABARERE
Anne universitaire 2011/2012
Universit Joseph Fourier de Grenoble - Tous droits rservs.
Exercice I

Les notes lpreuve de premire session

danglais et de biostatistique de 60 tudiants inscrits en

master en 2009 ont t analyses.

Les statistiques descriptives rsumes figurent dans le

tableau suivant.

Existe-t-il une relation entre la note danglais et la note

de biostatistique en master ?
Exercice I

Anglais Biostatistique
moyenne (m) 13,2 12,7
cart-type (s) 1,5 2,6
somme 10173,0
(anglais*biostat)
Exercice I

Biostatistique
20
18
16
14
12
10
8
6
4
2
0
0 5 10 15 20

Anglais
Questions

1. De quel type de problme sagit-il ?


2. Formulez explicitement les hypothses
du test statistique
3. Quel test statistique utilisez vous ?
4. Quelles sont les conditions de validit de
ce test ?
5. Appliquez le test statistique.
6. Que concluez-vous au seuil = 0,05 ?
1. De quel type de problme sagit-il ?

Corrlation
Tester la liaison entre 2 variables quantitatives :
note danglais
note de biostatistique
Rle symtrique
(il est possible que les 2 variables soient lies mais lune
nest pas susceptible de dpendre de lautre : il ne sagit
pas dun problme de rgression)
2. Formulez explicitement les hypothses
du test statistique

Hypothse nulle (H0) : = 0


Il nexiste pas de liaison linaire entre la note danglais et la
note de biostatistique chez les tudiants de master.

Hypothse alternative (H1) : 0


Il existe une liaison entre la note danglais et la note de
biostatistique chez les tudiants de master.
3. Quel test statistique utilisez vous ?

Le test du coefficient de corrlation

population

chantillon
r
r
4. Quelles sont les conditions de validit de
ce test ?

Liaison linaire entre les 2 variables


Distribution conditionnelle normale et de
variance constante
Indpendance des observations
5. Appliquez le test statistique

1. calculez lestimateur empirique r du coefficient de corrlation

cov X, Y
r
s 2X s 2Y
x y 60 13,260 12,7
x i yi i i
10173
cov X, Y n 60 1,9
n 1 60 1

1,9
r 0,5
1,5 2,6
5. Appliquez le test statistique
2. calculez la valeur du test du coefficient de corrlation

r
t
sr
1 r 1 0,5
sr 0,1
n2 60 2

0,5
to 5
0,1
6. Que concluez-vous, avec un risque de
1re espce fix 0,05 ?
1
(non-rejet de H0)

/2 /2
(rejet de H0 = acceptation de H1) (rejet de H0 = acceptation de H1)

-t 0 t

|to| > t |to| t |to| > t

to = 5 t = 1,96 pour 58 ddl rejet de H0 : acceptation de H1


Dtermination du degr de signification associ
to (P-value)

to = 5
n = 60

P <0.001

P < rejet de H0

Rappel : P-value = probabilit


dobserver une valeur de t plus grande
que to sous lhypothse nulle H0

(n-2) = 58 ddl X
6. Que concluez-vous, avec un risque de
1re espce fix 0,05 ?

Conclusion

Les notes de 1re session danglais et de


biostatistique sont positivement corrles
chez les tudiants de master (r = 0,5, P<0,001).
Exercice II

Une tude a t conduite sur un chantillon

de 30 sujets pour dterminer si la valeur de la

pression artrielle systolique dpendait de

lge. Les statistiques descriptives sont

prsentes dans le tableau suivant.

Adapt de Kleinbaum et al. Applied regression analysis and


other multivariable methods 1998
Exercice II
PAS 250

200

150

100

50

0
0 20 40 60 80

ge

Age (an) PAS (mmHg)


moyenne (m) 45 143
cart-type (s) 15 23
somme (ge*PAS) 199576
QCM 1

Dans cette tude :

A lge est une variable qualitative

B leffectif de lchantillon est gal 30

C la pression artrielle systolique est une variable


quantitative continue

D la variance de lge est gale 15

E les propositions A, B, C, D sont fausses.


QCM 2

Pour dterminer sil existe une liaison entre lge et la

pression artrielle systolique, il est possible dutiliser :

A un test de comparaison de 2 moyennes observes


sur 2 chantillons apparis

B un test du Chi

C un test du coefficient de corrlation

D un test de comparaison de 2 moyennes observes


sur 2 chantillons indpendants

E les propositions A, B, C, D sont fausses.


QCM 3

Les conditions dapplication vrifier avant destimer les


paramtres (pente et ordonne lorigine) de la droite de
rgression linaire de la pression artrielle systolique en
fonction de lge sont :
A un degr de signification P <0.05
B lindpendance des observations
C la liaison linaire entre la pression artrielle
systolique et lge
D les effectifs thoriques attendus sous lhypothse
nulle H0 sont tous suprieurs ou gaux 5
E les propositions A, B, C, D sont fausses.
QCM 4

Dans la droite de rgression de la pression artrielle


systolique en fonction de lge (dont lquation est PAS =
+ x ge ) :
A lge est la variable dpendante
B lge est la variable explicative
C la pression artrielle systolique est la variable
indpendante
D la pression artrielle systolique est la variable
dpendante
E les propositions A, B, C, D sont fausses.
QCM 5

Lestimation du coefficient de la pente (b) de la droite de


rgression est de 1.0 et lestimation de son cart-type
(sb) est de 0.2. La valeur observe du test de la pente de la
droite de rgression est gale :
A 2.048
B 0.05
C 5
D 28
E les propositions A, B, C, D sont fausses.
QCM 6

Le degr de signification (P-value) associ au test du


coefficient de la pente de la droite de rgression est
infrieur 0.001. Comment interprter cette information ?
A la pente de la droite de rgression est gale 0
B la pression artrielle systolique moyenne diffre
significativement de lge moyen
C la pente de la droite de rgression diffre
significativement de 0
D la pente de la droite de rgression est significativement
infrieure 0.001
E les propositions A, B, C, D sont fausses.
QCM 7

Lestimation du coefficient de lordonne lorigine (a) de


la droite de rgression est gale :
A 2.048
B 0.05
C 5
D 28
E les propositions A, B, C, D sont fausses.
QCM 1

Dans cette tude :

A lge est une variable qualitative

B leffectif de lchantillon est gal 30

C la pression artrielle systolique est une variable


quantitative continue

D la variance de lge est gale 15

E les propositions A, B, C, D sont fausses.


Correction : BC
QCM 1

Dans cette tude :

A lge est une variable qualitative Faux : lge est


une variable quantitative continue

B leffectif de lchantillon est gal 30 Vrai

C la pression artrielle systolique est une variable


quantitative continue Vrai

D la variance de lge est gale 15 Faux : la


variance est gale s = 15
QCM 2
Pour dterminer sil existe une liaison entre lge et la

pression artrielle systolique, il est possible dutiliser :


A un test de comparaison de 2 moyennes observes
sur 2 chantillons apparis
B un test du Chi

C un test du coefficient de corrlation

D un test de comparaison de 2 moyennes observes


sur 2 chantillons indpendants

E les propositions A, B, C, D sont fausses.

Correction : C
QCM 2
Pour dterminer sil existe une liaison entre lge et la
pression artrielle systolique, il est possible dutiliser :
A un test de comparaison de 2 moyennes observes sur 2
chantillons apparis Faux : test de liaison entre deux paires de
mesures dune mme variable quantitative (exemple : PAS
avant/aprs traitement)
B un test du Chi Faux : test de liaison entre 2 variable
qualitatives
C un test du coefficient de corrlation Vrai : test de liaison
entre 2 variables quantitatives continues
D un test de comparaison de 2 moyennes observes sur 2
chantillons indpendants Faux : test de liaison entre 1 variable
qualitative et 1 variable quantitative continue
QCM 3
Les conditions dapplication vrifier avant destimer les
paramtres (pente et ordonne lorigine) de la droite de
rgression linaire de la pression artrielle systolique en
fonction de lge sont :
A un degr de signification P <0.05
B lindpendance des observations
C la liaison linaire entre la pression artrielle
systolique et lge
D les effectifs thoriques attendus sous lhypothse
nulle H0 sont tous suprieurs ou gaux 5
E les propositions A, B, C, D sont fausses.
Correction : BC
QCM 3

Les conditions dapplication vrifier avant destimer les


paramtres (pente et ordonne lorigine) de la droite de
rgression linaire de la pression artrielle systolique en
fonction de lge sont :
A un degr de signification P <0.05 Faux : le degr de
signification est dtermin a posteriori (i.e., aprs avoir
calcul la valeur du test). Ca nest pas une condition
dapplication du test qui doit tre vrifie a priori (i.e.,
avant de calculer la valeur du test)
B lindpendance des observations Vrai
QCM 3

Les conditions dapplication vrifier avant destimer les


paramtres (pente et ordonne lorigine) de la droite de
rgression linaire de la pression artrielle systolique en
fonction de lge sont :
C la liaison linaire entre la pression artrielle
systolique et lge Vrai : le plus souvent vrifie
empiriquement (sur les donnes de lchantillon) par
lexamen du nuage de points
D les effectifs thoriques attendus sous lhypothse
nulle H0 sont tous suprieurs ou gaux 5 Faux :
condition dapplication du test du Chi
QCM 3

Rappel - conditions dapplication du test du coefficient

de corrlation et de la rgression linaire simple :

Liaison linaire entre les 2 variables X et Y

Distribution conditionnelle normale et de variance


constante de Y pour toutes les valeurs de X

Indpendance des observations


QCM 4
Dans la droite de rgression de la pression artrielle
systolique en fonction de lge (dont lquation est PAS =
+ x ge ) :
A lge est la variable dpendante
B lge est la variable explicative
C la pression artrielle systolique est la variable
indpendante
D la pression artrielle systolique est la variable
dpendante
E les propositions A, B, C, D sont fausses.

Correction : BD
QCM 4
Dans la droite de rgression de la pression artrielle

systolique en fonction de lge (dont lquation

est PAS = + x ge ) :

B X = lge est la variable explicative (synonyme =


indpendante)

D Y = la pression artrielle systolique est la variable


dpendante (synonyme = explique ou expliquer )
QCM 5

Lestimation du coefficient de la pente (b) de la droite de


rgression est de 1.0 et lestimation de son cart-type
(sb) est de 0.2. La valeur observe du test de la pente de la
droite de rgression est gale :
A 2.048
B 0.05
C 5
D 28
E les propositions A, B, C, D sont fausses.

Correction : C
QCM 5

Rappel : Test de la pente de la droite de rgression

b
t n 2 ddl
sb

1
to 5
0,2
QCM 5
Lestimation du coefficient de la pente (b) de la droite de
rgression est de 1.0 et lestimation de son cart-type
(sb) est de 0.2. La valeur observe du test de la pente de la
droite de rgression est gale :
A 2.048 Faux : il sagit de la valeur de t pour 28 ddl
B 0.05 Faux : il sagit de la valeur du risque de 1re
espce consentie en sant et biologie
C 5 Vrai : cf application numrique
D 28 Faux : il sagit du nombre de degr de
libert test de la pente de la droite de rgression
pour un chantillon de 30 sujets
QCM 6
Le degr de signification (P-value) associ au test du
coefficient de la pente de la droite de rgression est
infrieur 0.001. Comment interprter cette information ?
A la pente de la droite de rgression est gale 0
B la pression artrielle systolique moyenne diffre
significativement de lge moyen
C la pente de la droite de rgression diffre
significativement de 0
D la pente de la droite de rgression est significativement
infrieure 0.001
E les propositions A, B, C, D sont fausses.

Correction : C
QCM 6
Le degr de signification (P-value) associ au test du coefficient de la
pente de la droite de rgression est infrieur 0.001. Comment
interprter cette information ?

1. Commencez par formuler les hypothses du test de la pente de la


droite de rgression
H0 : la pente de la droite de rgression est nulle : = 0 (ou PAS = )
H1 : la pente de la droite de rgression est diffrente de 0 : 0
(ou PAS = + .ge)

Concluez laide de la P-value


P<0.001 P< : rejet de H0 : acceptation de H1
la pente de la droite de rgression est diffrente de 0 : 0

3. Rpondez au QCM
QCM 6
Le degr de signification (P-value) associ au test du
coefficient de la pente de la droite de rgression est infrieur
0.001. Comment interprter cette information ?

A la pente de la droite de rgression est gale 0


Faux : il sagit de H0

B la pression artrielle systolique moyenne diffre


significativement de lge moyen
Faux : aucun intrt de comparer la PAS moyenne lge
moyen (ils sont forcment diffrents)
QCM 6
Le degr de signification (P-value) associ au test du
coefficient de la pente de la droite de rgression est infrieur
0.001. Comment interprter cette information ?
C la pente de la droite de rgression diffre
significativement de 0
Vrai
D la pente de la droite de rgression est significativement
infrieure 0.001
Faux : 0.001 est le degr de signification (P-value) du test.
Le degr de signification du test est une notion distincte
de lestimation ponctuelle de la pente de la droite de
rgression (b = 1.0)
QCM 7

Lestimation du coefficient de lordonne lorigine (a) de


la droite de rgression est gale :
A 2.048
B 0.05
C 5
D 28
E les propositions A, B, C, D sont fausses.

Correction : E
QCM 7
Rappel : Estimation de lordonne lorigine

Y Y=+
X
m
y

m X
x

Une particularit de la droite de rgression est de passer par le point moyen


thorique de coordonne (mx, my). Lestimateur de lordonne lorigine a est
dduit de la pente b et des coordonnes du point moyen (mx, my) :
a = my b mx
QCM 7

my = mPAS = 143 (nonc)


mx = mge = 45 (nonc)
b = 1.0 (nonc QCM 5)

my = a + b mx a = my - b mx

a = 143 (1 x 45) = 98
QCM 7
Lestimation du coefficient de lordonne lorigine (a) de
la droite de rgression est gale :

A 2.048 Faux : il sagit de la valeur de t pour 28 ddl


B 0.05 Faux : il sagit de la valeur du risque de 1re
espce consentie en sant et biologie
C 5 Faux: Il sagit de la valeur observe du test de la
pente (cf QCM 5)
D 28 Faux : il sagit du nombre de degr de libert du
test de lordonne lorigine de la droite de
rgression pour un chantillon de 30 sujets
E Vrai a = 98
Mentions lgales
L'ensemble de cette uvre relve des lgislations franaise et internationale sur le droit d'auteur et
la proprit intellectuelle, littraire et artistique ou toute autre loi applicable.
Tous les droits de reproduction, adaptation, transformation, transcription ou traduction de tout ou
partie sont rservs pour les textes ainsi que pour l'ensemble des documents iconographiques,
photographiques, vidos et sonores.
Cette uvre est interdite la vente ou la location. Sa diffusion, duplication, mise disposition du
public (sous quelque forme ou support que ce soit), mise en rseau, partielles ou totales, sont
strictement rserves luniversit Joseph Fourier (UJF) Grenoble 1 et ses affilis.
Lutilisation de ce document est strictement rserve lusage priv des tudiants inscrits
lUniversit Joseph Fourier (UJF) Grenoble 1, et non destine une utilisation collective, gratuite
ou payante.

Ce document a t ralis par la Cellule TICE de la Facult de Mdecine de Grenoble (Universit Joseph Fourier Grenoble 1)
en collaboration avec lEquipe Audiovisuel et Production Multimdia (EAEPM) de lUniversit Stendhal de Grenoble.