Vous êtes sur la page 1sur 25

Fiche 1 – Estimation ponctuelle d'une moyenne et d'un écart- type, Intervalle de confiance

On dispose en général d'un échantillon X 1 ,

variable d'intérêt quantitative X a pour espérance (moyenne théorique) µ et variance 2 inconnues.

, X n prélevé dans une population pour laquelle la

Règle pour l'estimation ponctuelle : Soit une variable d'intérêt X mesurée sur un échantillon de n individus,

n 1 ● la moyenne  est estimée par l'estimateur X = n ∑ X
n
1
● la moyenne  est estimée par l'estimateur X =
n ∑
X i
i=1
n
1
● la variance  2 est estimée par l'estimateur s 2 X =
(X i − X) 2
n−1 ∑
i= 1

D'une réalisation à l'autre, les estimations ponctuelles vont variées d'autant plus que le nombre d'observations n est faible. Pour affiner l'estimation de ces paramètres, on détermine alors un intervalle de confiance dans lequel les valeurs réelles µ ou 2 ont une probabilité déterminée à l'avance de se trouver. Cet intervalle de confiance, noté IC, permet ainsi de prendre en compte la variabilité de l'estimation ponctuelle.

Propriétés de l'estimateur X

cas 1 : n 30 et la variable X suit une loi normale (fiche #Normalité)

Si 2 est connue, alors

Z n =n X μ

σ

Si 2 est inconnue, alors T n =n Xμ s X

liberté.

suit la loi normale centrée réduite

suit la loi de Student à n 1 degrés de

Cas 2 : Pour n 30 (application du théorème limite central)

T n = n X−μ

s X

approche la loi normale centrée réduite

Propriété de l'estimateur s

2

X

dans le cas où la variable X suit une loi normale

n1s 2 X

2

suit la loi du 2 à n-1 ddl.

Construction d'un intervalle de confiance pour la moyenne:

On recherche toutes les valeurs de µ pour lesquelles T n = n Xμ

s X t 1- /2 est le quantile de la loi normale ou de la loi de student T à n-1 ddl pour laquelle P(T<t 1- /2 )=1-

/2

soit compris entre t /2 et t 1- /2

donc

(par symétrie t /2 =- t 1- /2 ).

P (t /2 <

T < t 1- /2 )=1-

On a alors l intervalle de confiance à 1-

n

n

pour :

X

-t 1- /2

s

X

< µ < X +t 1- /2

s X

Pour = 5%, ce résultat signifie que "la vraie moyenne, μ", de la population a une probabilité de 95% d’être dans cet intervalle. On notera par commodité cet intervalle de confiance IC 95 .

Construction d'un intervalle de confiance pour la variance :

On recherche toutes les valeurs possibles de 2 pour lesquelles n1 s 2 X 2

, n 1 (ici il n'y a pas symétrie des quantiles).

2

et 2 1

2

2 , n1

soit compris entre

, n 1 est le quantile dans la table pour laquelle P( n1 s 2 X < 2 , n 1 ) = 2

2

2

2

2

donc

On a alors l intervalle de confiance à 1-

pour 2 :

n1

s 2 X / 2

1

2

, n1

< 2

<

n1s 2 X / 2

2

, n1

Exemple :

Reprendre l'exercice 1 du TD 1 et en déduire un intervalle à 95% de la moyenne et de s X . On trouvera les quantiles de la loi de Student et de la loi du Chi-2 à l'aide des commandes suivantes :

> qchisq(0.975,39)

[1] 58.12006

> qchisq(0.025,39)

[1] 23.65432

> qt(0.975,39)

[1] 2.022691

On peut retrouver ces résultats à l'aide de la commande t.test qui propose un test de Student univarié sur la moyenne ainsi qu'un intervalle de confiance pour la moyenne.

> t.test(poids)

One Sample t-test

data: poids

t = 27.3169, df = 39, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 0 95 percent confidence interval:

99.7716 115.7284 sample estimates:

mean of x

107.75

sample estimates:

mean of x

177

Construction d'un intervalle de confiance d'une proportion

Si une population contient une proportion f d’individus possédant un caractère donné, l'estimateur de ce paramètre est la fréquence du caractère dans l'échantillon, noté f .

Propriété de f

pour n >100 et 0,1< f <0,9

f approche la loi normale N (f, f 1 f )

n

Dans les autres cas, n<100 ou f < 0,1, il faut utiliser un modèle exact (binom.test dans R).

Propriété : Pour un échantillon tel que n >100 et n f >10 et n(1- f )>10 :

L’intervalle de confiance à 1- d’une proportion est :

] f

-

f 1 f ;

n

f

+ u 1-

/2 f 1 f

n

[

 

u 1-

/2

où u1-a /2 représente le quantile de la loi normale centrée réduite. Pour =5%, u1-a /2=1,96.

Fiche 2 Test de comparaison d'une moyenne à une valeur référence

Objectif : L'objectif est de comparer une moyenne à une valeur de référence. On qualifie un tel test de test de conformité.

Données : On dispose d'une variable quantitative X mesurée sur n individus.

Hypothèse nulle H 0 : « = 0 »

Conditions d utilisation:

- Un échantillon de n individus indépendants

- La variable suit une loi normale ou n >30.

Principe du test :

Pour une population de moyenne et variance inconnue, nous avons déjà vu que si les conditions sont respectées :

T

n =n X μ 0 s X

suit sous H 0 une loi de Student à n-1 ddl.

Test bilatéral: On teste

H 0 : « = 0 » contre

H 1 : «

0 »

si , T n < t 1α/2 (n1) on accepte H 0

sinon on rejette H 0 avec un risque de première espèce .

Test unilatéral: H 0 « µ>µ 0 »

contre H 1

« µ

µ 0 »

si T n >t α (n1) , on accepte H 0

sinon on rejette H 0 avec un risque de première espèce .

Exemple : Reprendre l'Exercice 1 du TD2 et réaliser le test grâce à la commande t.test.

Tester si une fréquence est conforme à une fréquence attendue.

cas favorables

Le but est de savoir si un échantillon de fréquence observée f obs =

total de f, appartient à une population de référence connue de fréquence f 0 ( H 0 vraie) ou à une autre population inconnue de fréquence f f 0 (H vraie).

Principe du test :

On calcule

(f obs f 0 )

la statistique U= f o (1f 0 )

n

qui suit sous H 0 la loi normale centrée réduite.

On calcule alors la probabilité p-value d'observer une valeur supérieure ou égale sous H 0 (en valeur absolue).

Conditions d'utilisation :

Le test est applicable si n f 0 10 et n(1- f 0 ) 10 (approximation par la loi normale). Si cette condition n'est pas vérifiée, on utilise un test exact (binom.test).

Les individus sont indépendants.

Test : On teste H 0

f = f 0 contre H

f f 0 .

Si U< N 1α/2 on accepte H 0 (où N p est le quantile d'ordre p de la loi normale centrée réduite).

Sinon, on rejette H 0 avec un risque de première espèce p.

Exemple 1

Reprendre l'exercice 2 du TD2 et conclure quant à la toxicité de la solution injectée au risque 5%. Utiliser la commande prop.test et comparer avec la commande binom.test

Exemple 2: On observe le sexe de 10 bébés : M F M M F F F F M F. Cette répartition est-elle conforme avec l'hypothèse de répartition équilibrée des deux sexes.

Fiche 3 – Comparaison de deux variances : Test F

Objectif : L'hypothèse d'égalité des variances est indispensable pour tester l'égalité de deux moyennes avec le test t (#t - test). On souhaite donc tester l'égalité des variances de deux populations

Données : On dispose d'une variable quantitative X 1 de variance 2 mesurée sur n 1 individus d'une population 1 et d'une variable quantitative X 2 de variance 2 2 mesurée sur n 2 individus d'une population 2.

1

Hypothèse nulle H 0 : Les variances sont égales « 1 = 2 »

Conditions d utilisation:

- Deux populations de moyennes et variances inconnues.

- Deux échantillons de n 1 et n 2 individus indépendants,

- Les variables suivent des lois normales ou chacun des effectifs est supérieur à 30

Le quotient

2

s s 2 2

1

suit sous H 0 la loi de Fisher-Snedecor à n 1 -1 et n 2 -1 ddl

Test : On teste

lhypothèse H 0 ( 1 ² = 2 ²) contre H 1 ( 1 ²

2 ²)

si F

2

2

1

(n 1 -1,n 2 -1)< s

2

s 2

< F 1

2

(n 1 -1,n 2 -1), on accepte H 0

sinon on rejette H 0 avec un risque de première espèce égal à .

Exemple :

Récupérer le fichier « poulpe.csv » qui contient le poids de poulpes mâles et femelles. Pour cela, on utilise la commande read.table.

> poulpe<-read.table("poulpe.csv",sep=";",header=T)

>summary(poulpe)

> boxplot(Poids~Sexe,data=poulpe)

On veut tester l'égalité des variances dans ces deux populations. Qu'en pensez-vous ? Utiliser la commande var.test pour tester l'égalité des variances dans ces deux populations :

> var.test(Poids~Sexe,conf.level=0.95,data=poulpe)

Fiche 4 : Test de comparaison de deux moyennes : t – test

Objectif : Comparer les moyennes obtenues dans deux populations.

Données : On dispose d'une variable quantitative X 1 d'espérance 1 mesurée sur n 1 individus d'une population 1 et d'une variable quantitative X 2 d'espérance 2 mesurée sur n 2 individus d'une population 2.

Hypothèse nulle

H 0 : « 1 =

2 »

Conditions d utilisation:

Deux échantillons de n 1 et n 2 individus indépendants.

La variable suit une loi normale dans chaque population ou n 1 et n 2 >30 : fiche « Normalité »

La variable a la même variance dans les deux populations : fiche « Test F »

Principe du test :

2

La variable d= x 1 x 2 a pour variance estimée s d

=

n 1 1 s 2 n 2 1 s 2

1

2

n 1 n 2 2

×

1

n

1

2

1

n

.

Si les conditions sont respectées, la

n 1 n 2 2 ddl.

statistique T n = x 1 x 2

s

d

suit sous H 0 une loi de Student à

Test bilatéral: On teste

H 0 :

« 1 = 2 »

contre

H 1 :

« 1

2

»

si

T n

<

t 1

2

( n 1 n 2 2 ) , on accepte H 0

sinon on rejette H 0 avec un risque de première espèce .

Test unilatéral: On teste

H 0 :

« 1 > 2 »

contre

H 1 :

« 1

si T n <tα ( n 1 n 2 2 ), on accepte H 0

2 »

sinon on rejette H 0 avec un risque de première espèce .

Exemple :

Reprendre le fichier « poulpe.csv ». Tester l'égalité des moyennes à l'aide de la fonction t.test :

> t.test(Poids~Sexe,conf.level=0.95,var.equal=TRUE,data=poulpe)

Peut-on considérer les variances égales ? Faire le test dans les deux cas en utilisant les options de la fonction t.test.

Fiche 5 –Test de conformité à une distribution : test du 2 d'adéquation

Objectif : On considère une variable X prenant k modalités, k > 2.

L'objectif du test est de vérifier que les modalités se distribuent suivant des probabilités attendues. On utilise un tel test en génétique par exemple pour vérifier :

les lois de Mendel, (répartition

1

4 ,

2

4 ,

1

4 pour F2)

le modèle de Hardy Weinberg. (répartition p 1 2 , 2 p 1 p 2 , p 2 2 ) .

Données : Les données sont regroupées dans un tableau de contingence de la forme :

Variable qualitative

effectif

Modalité 1

1

n obs

Modalité 2

n

2

obs

i

Conditions d'application : Les effectifs théoriques doivent être supérieurs à 5 ( n th eor 5). Dans le cas contraire, on peut regrouper les classes les plus faibles, utiliser un test du 2 corrigé, utiliser le test exact de Fisher

Hypothèse nulle : H 0 « Les fréquences observées sont conformes aux probabilités attendues ».

Principe du test :

Le principe du test du 2 est d’estimer à partir d’une loi de probabilité connue (ou estimée à partir de l'échantillon), les effectifs théoriques pour les différentes modalités du caractère étudié et les comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter :

soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d’un modèle déterministe tel que la distribution mendélienne des caractères.

soit la loi de probabilité théorique n’est pas connue a priori et elle est déduite des caractéristiques statistiques mesurées sur l’échantillon (estimation de p 1 et p 2 dans le cas du modèle de Hardy Weinberg).

Le test du 2 consiste à mesurer l’écart qui existe entre la distribution théorique et la distribution

observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations

d’échantillonnage.

On calcule les effectifs théoriques n th eor

distribution est conforme à celle attendue.

1

2

, n th eor

attendus sous l'hypothèse où la

On calcule ensuite la statistique :

k

  2 =

i=1

n obs

i

n

i

th eor

2

i

n th eor

2 suit sous H 0 la loi du 2 à degrés de liberté. On rejette alors

H 0 dans le cas où

2

dépasse la valeur seuil 2 1 (v).

Le nombre de ddl

contraintes.

est

k c,

k représente le nombre de modalités et c celui des

Si la distribution théorique est entièrement connue a priori (lois mendeliennes), la

seule contrainte est que la somme des probabilités vaut 1, donc  = k 1.

Sinon, il faut estimer des probabilités sur l'échantillon et augmenter d'autant les

contraintes. Par exemple avec le modèle de Hardy Weinberg, la somme des

probabilités vaut 1 et il faut estimer p 1 , soit c=2, donc  = k 2 .

Test : On teste lhypothèse H 0 (conforme à la distribution attendue)

-si

  2 < 2 1 (v), on accepte H 0

-sinon on rejette H 0 avec un risque de première espèce ,

Exemple :

Reprendre l'exercice 4 du TD2 et calculer à la main la valeur de 2 dans ce cas. Comparer-le au quantile 2 1 4 1et conclure pour un test à 5%. Réaliser le test sous R avec la commande chisq.test.

Fiche 6 – Test du Chi2 d'indépendance

Objectif : Le test du 2 est largement utilisé pour l'étude de l'indépendance entre deux caractères qualitatifs. La présentation des résultats se fait sous forme d'un tableau de contingence à deux entrées. Chaque entrée représente les modalités d'une des variables. On détermine alors le tableau attendu sous l'hypothèse d'indépendance.

Données : Deux variables qualitatives sont mesurées sur n individus puis présentées sous forme d'un tableau de contingence (tableau à deux entrées) :

Par exemple :

 

tabac

c

présence

absence

total

a

présence

n

c

absence

e

r

total

Hypothèse nulle H 0 : Les deux caractères sont indépendants

Conditions d utilisation:

L' effectif théorique calculé sous l'hypothèse H 0 doit être supérieur à 5.

Principe du test : On calcule les effectifs théoriques sous l'hypothèse H 0 . Les effectifs marginaux (totaux à la marge en ligne ou en colonne) et fréquences marginales du tableau restent inchangés.

n

ij

th eor

=

n obs ×n obs

i

j

n

avec

On calcule alors la statistique :

ij

n theor

l'effectif théorique,

n

i

obs

j

et n obs

les effectifs marginaux ligne et colonne,

n l'effectif total.

  2 =

ij

n obs

ij

n

ij

th eor

2

n ij

th eor

Sous H 0 , cette statistique suit la loi du 2 à v= (l-1)(c-1) ddl avec l le nombre de lignes et c le nombre de colonnes.

Test : On teste lhypothèse H 0 “indépendance des deux caractères” contre H 1 “dépendance entre les deux caractères” :

-si

  2 < 2 1 (v), on accepte H 0

Exemple :

Reprendre l'exercice 5 du TD2 et calculer à la main les valeurs de 2 dans chaque cas. Comparer-le

au quantile 2 1 et conclure pour un test à 5%. On peut aussi réaliser le test sous R. Pour cela, on pourra utiliser les commandes suivantes, qui permettent de visionner les données et de réaliser le test :

>tab<-matrix(c(10,29,75,27),ncol=2)

>rownames(tab)<-c("infection","pas d'infection") >colnames(tab)<-c("antibio","placebo")

>par(mfrow=c(2,1))

>barplot(tab[1,],main="infection")

barplot(tab[2,],main="pas d'infection")

>resultat<-chisq.test(tab)

>resultat$res

Fiche 7 – Comparaison de deux moyennes appariées : t-test apparié

Objectif : Comparer les moyennes obtenues dans le cas où les observations sont appariées (avant- après sur un même individu, mesure par deux méthodes).

Chaque individu est décrit par un couple de variables X 1 , X 2 .

Données : On dispose de deux variables quantitatives X 1 et X 2 mesurées sur n individus d'une population.

ind 1

ind 2

X 1

x

11

x

12

X 2

x 21

x 22

Hypothèse nulle H 0 : « 1 =

2 »

Conditions d utilisation:

Les individus sont indépendants.

Les variables X 1 et X 2 suivent une loi normale ou n >30

Les variables ont la même variance

Principe du test :

On construit une nouvelle variable Z = X 2 X 1 .

Si les conditions sont respectées, la variable

ddl.

Test bilatéral: On teste

H 0 :

« 1 = 2 »

si

T n < t 1 , on accepte H 0

2

T n =

n Z

s z

contre

H 1 :

suit sous H 0 une loi de Student à n-1

« 1

2 »

sinon on rejette H 0 avec un risque de première espèce égal à .

Exemple

Reprendre l'exercice 6 du TD2 et comparer les moyennes avant et après traitement grâce à la fonction t.test et la commande suivante :

Fiche 8 – Normalité d'une distribution

Objectif : La majorité des tests paramétriques s'appuie sur l'hypothèse de normalité de la variable étudiée X. Lorsque le nombre d'observations est suffisamment grand, le théorème limite central permet d'approcher la moyenne empirique par une loi normale. Cependant, lorsque le nombre d'observations n'est pas suffisant, il existe plusieurs méthodes de vérification. Elles ne sont pas entièrement satisfaisantes (faible puissance) notamment du fait des faibles effectifs souvent étudiés. On est donc conduit à croiser plusieurs approches, graphiques et tests, pour évaluer cette hypothèse.

Exemple 1 : Reprendre l'exemple des poulpes mâles et femelles. Discuter.

I) Représentations graphiques :

1. Symétrie de la distribution On réalise ici une boîte à moustache (ou boxplot) de nos observations à l'aide de la comande boxplot. Ce graphique nous indique la position de la médiane dans l'intervalle inter-quartile, ainsi que la distribution des points extrémaux. Un boxplot asymétrique permet d'infirmer l'hypothèse de normalité des données.

2. Symétrie et unimodalité de la distribution Pour plus de précisions, on réalise ici un histogramme. L'existence de deux « pics » ou une forte dissymétrie est un bon indice d'une non normalité.

3. Droite de Henry La droite de Henry représente les quantiles ( x i ) de la loi empirique en fonction des quantiles de la loi normale centrée réduite ( t i ). Si la loi empirique suit une loi normale, les points sont alignés ( x i =t i + ). La fonction permettant cette représentation graphique est qqnorm.

II) Tests statistiques :

Il existe différents tests pour étudier la normalité : Test de Jarque Bera , Test d'adéquation du 2 , test de Lilliefor (> library(nortest) > lillie.test(X)), test de shapiro Wilks. La multitude des tests indique qu'aucun n'est entièrement satisfaisant. Nous nous limiterons au dernier parmi les plus utilisés.

Test de Shapiro & Wilks :

On retiendra que le test de Shapiro et Wilks porte sur la corrélation au carré qu’on voit sur un qqplot. La corrélation est toujours très forte, la question est toujours ”l’est-elle assez ?” La probabilité critique est la probabilité pour que la statistique soit inférieure ou égale à l’observation.

Exemple 1 -suite- : Reprendre l'exemple poulpe avec la variable Poids. Effectuer le test de Shapiro. Le résultat est le suivant :

> shapiro.test(data$Poids)

Shapiro-Wilk normality test

data: data$Poids

W

= 0.933, p-value = 0.0733

Le

chaque sous-population, sinon on réalise le test sur un mélange de deux distributions.

test n'est pas correct ici car cette variable dépend du sexe. Il faut donc tester la normalité pour

On teste la normalité pour chacune des populations à l'aide des commandes suivantes :

> data=read.table("poulpe.csv",header=T,sep=";")

> x=data$Poids[data$Sexe=="Femelle"]

> y=data$Poids[data$Sexe=="M\xe2le"]

> shapiro.test(y)

Shapiro-Wilk normality test

data: y

W = 0.935, p-value = 0.3238

> shapiro.test(x)

Shapiro-Wilk normality test

data: x

W = 0.9711, p-value = 0.907

On remarque ici que les deux tests ont des p-valeurs supérieures à 5%. Peut-on conclure à la normalité des observations ? Aidez -vous des représentations graphiques.

Fiche 9 – Test du coefficient de corrélation

Soient (X,Y) un couple de variables quantitatives. La description de la liaison entre les deux

variables se fait préalablement par un examen du nuage de points (x i ,y i ), i=1,

n.

Si le nuage de points décrit une relation linéaire entre les deux variables, on peut calculer comme indicateur de la liaison linéaire entre les deux variables, le coefficient de corrélation de Pearson :

r= ((x i x)(y i y))

σ x σ y

Si la relation entre les variables n'est pas linéaire, il est possible d'utiliser un autre coefficient de corrélation (par exemple le coefficient de corrélation de Spearman basé sur les rangs des observations).

Données : Un couple de variables quantitatives :

X

x

x

1

2

Y

y 1

y 2

Objectif : On veut tester si la liaison linéaire entre les variables est significative, c'est-à-dire si le coefficient de corrélation peut être considéré comme significativement non nul.

Conditions d'application : Elles reposent sur la normalité de chacune des variables X et Y.

Hypothèse nulle : H 0 "le coefficient de corrélation de Pearson est nul" ou "Les variables X et Y ne sont pas corrélées linéairement".

Principe du test : Sous H 0 , la statistique r suit une loi tabulée à n-2 ddl. On construit alors une zone d'acceptation centrée sur 0.

Test : On teste H 0

«

r= 0 » contre H

« r

0 ».

Si

Si p <0,05, on rejette H 0 avec un risque de première espèce p.

p >0,05, on accepte H 0 .

Exemple : Sur un échantillon de 10 sujets d’âges différents, on a recueilli l'âge et la concentration sanguine du cholestérol (en g/L) de 10 individus :

age (xi)

30

60

40

20

50

30

40

20

70

60

gl (yi)

1.6

2.5

2.2

1.4

2.7

1.8

2.1

1.5

2.8

2.6

Ci-dessous les commandes R pour effectuer le test. Commenter la sortie graphique du logiciel et la réponse au test de corrélation. On pourra investiguer les autres méthodes (Spearman, Kendall), en changeant l'argument method dans la fonction cor.test,

> age<-c(30,60,40,20,50,30,40,20,70,60)

> chol<-c(1.6,2.5,2.2,1.4,2.7,1.8,2.1,1.5,2.8,2.6)

> plot(chol,age)

> cor.test(age,chol,method="pearson")

Pearson's product-moment correlation

data: age and chol t = 9.0714, df = 8, p-value = 1.748e-05 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval:

0.8148247 0.9895142 sample estimates:

cor

0.9546712

Fiche 10 – Régression linéaire simple

I. Introduction

, ( x n , y n )

de couples de variables quantitatives. L'analyse peut se limiter à l'analyse des liaisons entre variables (corrélation linéaire ou non-linéaire), mais on recherche souvent à expliquer une des variables en fonction de l'autre.

La régression linéaire simple s'applique à un ensemble d'observations ( x 1 , y 1 ), ( x 2 , y 2 ),

On distingue alors la variable à expliquer Y (réponse) et les variables explicatives X i . Les variables explicatives peuvent être fixées par l'expérimentateur ou aléatoires. Dans tous les cas :

la variable explicative X i est considérée comme fixe (ce n'est pas une variable aléatoire).

la variable réponse Y est considérée comme une variable aléatoire (loi normale le plus souvent).

le rôle des variables n'est donc pas symétrique et le choix de Y est le plus souvent naturel.

L'objectif de la régression est de déterminer, si elle existe, une relation fonctionnelle entre la variable à expliquer Y et une ou plusieurs variables explicatives X 1 , X 2

Données :

individu

1

individu

2

Y

X 1

y 1

x 11

y 2

x 12

Représentation graphique : La première étape est d'observer le nuage de point pour déceler une éventuelle relation fonctionnelle.

Exemple :

Reprendre l'exemple du cholesterol. Existe-t'il un lien entre ces deux variables ? Ce lien est-il linéaire ?

II. Le modèle de régression linéaire simple

On utilisera une régression linéaire simple dans le cas où :

la relation fonctionnelle peut être considérée comme linéaire entre Y et X (observation du nuage de points),

la corrélation est significativement différente de 0 (Fiche 9). Dans le cas contraire, il n'existe pas de relation (linéaire) significative entre Y et X et l'utilisation d'un modèle de régression linéaire n'a aucun intérêt.

On réalisera donc toujours ces deux vérifications au préalable et dans l'ordre avant de se lancer dans une régression linéaire.

Dans de nombreux cas, la relation fonctionnelle entre Y et X ne peut pas être considérée comme linéaire :

on peut soit revenir à un modèle linéaire par changement de variables,

soit utiliser une régression non linéaire (non abordé).

a. Le modèle et les hypothèses

y i = α + β x i + i

avec i une variable aléatoire suivant une loi normale centrée N (0, ²)

On suppose dans ce cas les choses suivantes :

le lien entre les deux variables est linéaire,

les variables i sont indépendantes identiquement distribuées de loi N (0, ²)

L'intérêt du modèle linéaire est sa simplicité et les différents outils statistiques qui s'y rattachent :

diagnostic, intervalle de prédiction, test sur les coefficients …

b. Estimation des paramètres:

Pour estimer les paramètres du modèle, on recherche dans une famille fixée de fonctions, la fonction f pour laquelle les y i sont les plus proches des f(x i ). Dans le cas de la régression simple, f(x)= α + βx . La proximité se mesure en général comme une erreur quadratique moyenne :

Critère des moindres carrés = 1

n

n i=1

y i f x i 2

On parle alors de régression au sens des moindres carrés. Dans le cadre du modèle linéaire, on notera a, b, s² les estimations des paramètres α, β et ² . La méthode des moindres carrées conduit à :

b

= x i x y i y

x i x2

, a =

y - b

x et s² =

1

n2

y i −y i 2 .

Les différences entre les valeurs observées y i et les valeurs prédites y i par le modèle s'appellent les résidus, notés e i :

Résidus:

e i = y i a+b x i = y i -

y i

avec y i = a+b x i

Exemple : Reprendre l'exemple cholesterol et estimer les paramètres à la main et avec R grâce aux commandes suivantes :

> X<-cbind(chol,age)

> cholesterol<-data.frame(X)

> reg<-lm(chol~age,data=cholesterol)

>summary(reg)

Call:

lm(formula = chol ~ age, data = cholesterol)

Residuals:

Max

-0.17826 -0.11141 -0.01304 0.03315 0.35217

Min

1Q

Median

3Q

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.923913

0.141793

6.516 0.000185 ***

age

0.028478

0.003139

9.071 1.75e-05 ***

---

Signif. codes:

0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1649 on 8 degrees of freedom

Multiple R-squared: 0.9114,

F-statistic: 82.29 on 1 and 8 DF, p-value: 1.748e-05

Adjusted R-squared: 0.9003

Commenter les résultats obtenus.

Illustration de la méthode des moindres carrés

c. Tests et intervalles de confiances : exemple des eucalyptus

On étudie toutes les possibilités du logiciel R et de la fonction lm dans le cas d'un modèle de régression simple. On dispose pour cela des données eucalyptus, qui contient la hauteur de 1429 eucalyptus (ht) en fonction de la circonférence à un mètre du sol (circ). Réaliser et commenter les commandes suivantes du logiciel R :

Phase de pré-analyse >euca=read.table("eucalyptus.txt",header=T)

>plot(ht~circ,data=euca)

>cor.test(euca$ht,euca$circ,method="pearson")

Réalisation du modèle de régression >reg=lm(ht~circ,data=euca)

Droite de régression et intervalle de confiance

>circ=seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100)

>grille<-data.frame(circ)

>ICdte<-predict(reg,new=grille,interval="confidence",level=0.95)

>matlines(grille$circ,cbind(ICdte),lty=c(1,2,2),col=1)

Représentation des résidus >res<-rstudent(reg)

>plot(res,pch=15,ylab=Résidus,ylim=c(-3,3))

>abline(h=c(-2,0,2),lty=c(2,1,2)).

Intervalle de confiance des paramètres

>seuil<-qt(0.975,df=reg$df.res)

>beta0min<-coef(resume)[1,1]-seuil*coef(resume)[1,2]

>beta0max<-coef(resume)[1,1]+seuil*coef(resume)[1,2]

>beta1min<-coef(resume)[2,1]-seuil*coef(resume)[2,2]

>beta1max<-coef(resume)[2,1]+seuil*coef(resume)[2,2]

Fiche 11 – Validation du modèle de régression linéaire simple

On se place dans le cadre d'une relation linéaire entre deux variables (examen du nuage de points) et d'une liaison linéaire significative entre ces deux variables (coefficient de corrélation significativement non nul).

Les hypothèses du modèle de régression linéaire simple nécessaire à la construction des principaux tests statistiques (inférence) sont :

- l'indépendance des observations,

- la distribution normale centrée de l'écart résiduel,

- l'homoscédasticité, à savoir que l'écart résiduel suit la même loi indépendamment des valeurs de x i ou y i .

Dans le cas où ces hypothèses sont vérifiées, il est possible de construire des intervalles de confiances pour les paramètres estimés, des intervalles de confiance pour la prédiction, comparer les modèles,

La vérification de ces hypohèses n'est pas toujours évidente. Il est préférable de croiser différentes méthodes, graphiques et tests, pour évaluer l'existence d'écarts aux hypothèses. Aucune méthode n'est entièrement satisfaisante.

1. Indépendance des résidus

Le problème d'indépendance est important, notamment dans le cas de séries chronologiques où nos observations sont rangées par ordre chronologique. Pour vérifier l'indépendance des observations, on va réaliser l'analyse de l'indépendance des résidus e i = y i a+b x i = y i - y i .

La première méthode est l'observation graphique : On observe les résidus en fonction du temps

(dans le cas des séries chronologiques), ou bien les résidus en fonction de la variable explicative. On observe ainsi l'ajustement du nuage de points par rapport à la droite de régression et on peut détecter des écarts éventuels, dus à l'apparition de tendances cycliques (saisons, cycles

économiques,

),

une relation non linéaire, une répartition non aléatoire des résidus (amplitude,

signe).

On peut aussi réaliser un test de Durbin Watson grâce à la statistique

n

e i e i1 2

i= 2

n

i=2

e

2

i

qui mesure

l'autocorrélation d'ordre 1 des résidus, c'est-à-dire une relation du type :

i+1 =

i

+ τ

2. Homoscédasticité

avec τ ~N(0, ²).

Un des problèmes récurrents est l'existence d'une relation entre la variance des résidus et la valeur de y i ou celle de xi. la variance des résidus a parfois tendance à croître avec y i ou xi. On peut alors, pour vérifier l'hypothèse d'homoscédasticité, faire une observation graphique des résidus en

fonction des y i ou des xi . Les écarts ne doivent pas croître en fonction de rester du même ordre de grandeur.

3.

Normalité

y i ou x i mais toujours

La dernière hypothèse du modèle de régression simple est la normalité des résidus. Pour cela, on se reporte à la Fiche 8, que l'on applique à nos résidus e i.

Exemples : Reprendre l'exemple cholesterol puis l'exemple eucalyptus et vérifier les hypothèses du modèle de régression simple.

Fiche 12 – Analyse de variance à 1 facteur

Objectifs :

Comparer les moyennes d'une variable quantitative Y en fonction d'un facteur. Estimer les effets de chaque modalité du facteur sur la valeur de la variable Y.

Les données :

On dispose d'un tableau du type :

Y

y 11

y 12

y 11

y 21

y 22

Facteur

A

A

A

B

B

Y représente la colonne des observations Y et Facteur est une colonne déclarée en facteur. On appelle facteur une variable qualitative prenant plusieurs modalités dont on étudie l'influence sur la variable Y. Par exemple, le facteur peut être la variété, le dosage d'un apport nutritif, le type d'engrais, un traitement …

L'objectif est d'évaluer si le facteur influence significativement la variable Y.

Conditions d'utilisation (Voir Fiche 13) :

les observations sont indépendantes,

la variable Y suit la loi normale au sein de chaque modalité,

la variance de Y est la même pour toutes les modalités.

Hypothèse nulle : H 0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas toutes égales ».

Principe du test :

La somme des carrés totale décompose en somme des carrés entre les groupes (ou expliqué par le modèle), et somme des carrés à l'intérieur des groupes (ou résiduelle) :

SCE T

ik

y ik y2

=

=

SCE B

y i y2

ik

On utilise l'écriture anglosaxonne avec :

B pour between groups (entre groupes) W pour within group (intra groupe)

+

+

SCE W

y ik y i 2

ik

On obtient les différentes variances, ou carrés moyens, en divisant les sommes de carrés d'écart par leurs degrés de liberté :

CM

T

= SCE T

n1

CM

B =

SCE B

q1

CM

W = SCE W nq

avec n l'effectif total et qle nombre de modalités.

On montre alors que la statistique F =

CM B

CM W

suit la loi de Fisher à (q-1;n-q) ddl sous H 0 .

Test : On teste H 0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas toutes égales

si F < F 1 (q-1,n-q), on accepte H 0

sinon on rejette H 0 avec un risque de première espèce égal à (ou p).

Estimation des effets

En présence d'un seul facteur, on peut écrire le modèle d'analyse de variance de la manière suivante :

y ik = μ + α i + ik

N (0, ²).

avec

μ

α i l'effet du la modalité i sur la moyenne ik variables aléatoires indépendantes suivant une loi normale centrée

la moyenne générale de Y

on considère que la variable Y suit pour chaque modalité i une loi normale N( μ + α i , ²).

estimation des paramètres du modèle:

Les coefficients sont estimés en minimisant l'erreur quadratique moyenne :

Critère des moindres carrés =

1

n

ik

y ik −y ik 2 ,

et l'on obtient y ik = y i . Les différences entre les valeurs observées y ik et les valeurs prédites par le

modèle notée y ik s'appellent les résidus, notés e ik = y ik y i .

Les estimations des coefficients sont :

1

y =

n

ik

1

y i =

n i

k

y ik

y ik

pour

pour

μ

μ i = μ + α i soit

a i =

y i y

pour α i

1

nq

s² =

ik

y ik y i 2 pour

² avec q le nombre de modalités

Exemple : Cinq pièces sont prélevées au hasard dans la production de trois machines, A, B et C. Chacune des pièces est ensuite mesurée par un seul opérateur. Les mesures sont présentées dans le tableau ci-dessous:

facteur

A

A

A

A

A

B

B

B

B

B

C

C

C

C

C

mesure

5

7

6

9

13

8

14

7

12

9

14

15

17

18

11

Fiche 13 – Validation du modèle d'analyse de variance

On rappelle le modèle d'analyse de variance :

y ik = μ + α i + ik

avec

μ

la moyenne générale de Y

 

α i l'effet du la modalité i sur la moyenne ik variables aléatoires indépendantes suivant une loi normale centrée

N (0, ²).

Ainsi on doit vérifier les trois hypothèses suivantes : indépendance, normalité, et homoscédasticité.

1. Indépendance

L'hypothèse principale du modèle d'analyse de variance est l'indépendance des données. Ne pas respecter cette propriété conduit à mesurer et tester autre chose que l'effet étudié, autant dire les données deviennent inexploitables. Pour vérifier l'indépendance des données, on pourra utiliser les techniques utilisées en régression linéaire simple (Fiche 11), à savoir l'analyse graphique des résidus du modèle.

2. Normalité

La décomposition de la variance est toujours valable, quelle que soit la distribution des variables étudiées. Cependant, lorsqu'on réalise le test final (test F ), on admet la normalité des distributions (puisque le F est le rapport de deux khi-deux, qui sont des sommes de carrés de lois normales). L'ANOVA fait donc l'hypothèse de normalité. Elle est cependant assez robuste à la non normalité, ce qui permet de l'utiliser dans une grande variété de conditions. Pour vérifier la normalité des données de chaque modalités, on utilise la Fiche 8 sur la normalité.

3. Homoscédasticité

A l'opposé, l'ANOVA fait une autre hypothèse très forte et moins évidente. Il est en effet nécessaire que la variance dans les différents groupes soit la même. C'est l'hypothèse d'homoscedasticité. L'ANOVA y est sensible. Il est donc nécessaire de la tester avant toute utilisation. Pour cela, on doit vérifier que l'égalité des variances dans les différents groupes. On peut utliser le test de Bartlett.

Exemple : Vérifier les hypothèses de l'analyse de variance dans l'exemple précédent.