R-Cours 7

Cours 7 : Rappels de cours et exemples sous
R
I- Régression linéaire simple
II- Analyse de variance à 1 facteur
III- Tests statistiques
I- Le modèle de régression linéaire simple:
théorie
Rappels On cherche à expliquer ou à prévoir les variations d’une variable Y

(variable dépendante) par celles d’une fonction linéaire de X (variable
explicative), i.e., à valider le modèle de RLS
Y = aX + b + ε
où ε est une variable aléatoire gaussienne de moyenne nulle et de variance σ²
Pour cela on observe un n-échantillon de réalisations de X et de Y, sur

lesquelles on va chercher à voir si le lien est plausible,
i.e. si il existe a, b et σ ²
yi = axi + b + ε i , i = 1,..., n. (validation)
Avec ε i i.i.d. Gaussiennes et σ ² pas trop grand,

et à approcher les valeurs des paramètres a, b, et σ ² (estimation)
théorie
Estimation des paramètres :
• Estimation de a et b : On commence par chercher le « meilleur » ajustement

linéaire sur nos données, au sens des moindres carrés :
ŷyî = axi + b =i° valeur estimée

ei = yi − yî = i° résidu
n n
â et b̂ sont tels que ∑ e = ∑ ( y − ax

i =1
2
i
ˆ − bˆ)² est minimal. Ce sont les
i =1
i i
coefficients de la régression (ou estimateurs des moindres carrés).
théorie
n
On montre que :
∑ ( x − x )( y − y )
i i
aˆ = i =1
n
, bˆ = y − ax
ˆ
∑ ( x − x )²
i =1
i
• La droite d’ajustement y = ax
ˆ + bˆ s’appelle droite de régression ou des
moindres carrés.
• La valeur ŷ estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) .

i
C’est aussi la prévision de Y pour une observation telle que X=xi.
• Estimation de σ ²: La variance de l’erreur s’estime par

n
∑e 2
i
SSR
s² = i =1
=
n−2 n−2
théorie
Validation du modèle sur les données : il faut que le modèle soit de
bonne qualité (bon pouvoir explicatif et prédictif)
• Analyse de la qualité du modèle : Décomposition de la variabilité
SST = ∑ ( yi − y )² = nsY2 =somme des carrés des variations de y
SSM = ∑ ( yî − y )² =sY2ˆ =somme des carrés des variations expliquées

par le modèle
SSR = ∑ ei2 = (n − 2) s 2 =somme des carrés des variations résiduelles
On montre que : SST=SSR+SSM
Au plus SSM est grand (ou SSR faible), au meilleur est l’ajustement.
théorie
Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la
variance ci-dessous :
source Degrés Somme Somme des Stat de

de des carrés carrés moyens Fisher
liberté
modèle 1 SSM SSM F=SSM/s²
erreur n-2 SSR s²=SSR/(n-2)
total n-1 SST s²(Y)=SST/(n-1)

théorie
Indicateur principal de qualité du modèle: le coefficient de détermination (%
de variation expliqué par le modèle, carré du coefficient de corrélation
linéaire):
SSM 1 − SSR
R² = = doit être proche de 1.
SST SST
Autres indicateurs :
SSM
- Le F de Fisher F= doit être le plus grand possible
s²
- Le s² doit être le plus faible possible pour garantir de bonnes prévisions.
- Les coefficients doivent être stables pour garantir de bonnes prévisions, i.e.
leurs écarts type s(aˆ ) et s(bˆ) doivent être faibles. On montre que
  avec
2  
s ²(aˆ ) = n
s 1
; s ²(bˆ) = s ²  + n
x²  ci = xi − x
n 
∑ ci ²  ∑ c ² 
i=1  i=1 i 
théorie
Vérification des hypothèses sur les aléas ε i: il faut que les aléas
soient i.i.d. et gaussiens
Tests graphiques :
• Le graphe des résidus versus les valeurs prédites ne doit pas présenter de
structure (indépendance, homoscedasticité, normalité).
• Le corrélogramme (ACF) ne doit pas présenter de structure (indépendance)
• Le QQ-plot suit la première bissectrice

théorie
théorie
Conséquences
• de la non-normalité :
– Les estimateurs ne sont pas optimaux
– Les tests et intervalles de confiances sont invalides. En réalité seulement les
distribution à queue très longue posent problème et une légère non-normalité
peut être ignorée, d’autant plus que l’échantillon est grand.
• d’une variance non constante : Les estimations ne sont pas bonnes il faut utiliser les
moindres carrés pondérés.
théorie
Solutions
• Essayer de transformer les données en se rappelant que

- quoiqu’on fasse, certaines données ne peuvent être analysées par
régression
- la bonne transformation est parfois difficile à trouver.
• Utiliser une régression non-linéaire.

théorie
Repérage des points aberrants:
• Résidu réduit ou studentisé :  

 1 ci ² 
rei =
ei s ²(ei ) = s ² 1 − − n  = s ²(1 − hii )²
 n ci ² 
s (ei )


∑i =1 
Tests graphiques
• Le graphe des résidus réduits versus les valeurs prédites doit normalement
être compris entre –2 et 2 pour au moins 95% des observations dès lors que
la normalité est vérifiée.
théorie
• Des observations dont le résidu réduit est >2 en v.a. sont des points
contribuant fortement à la valeur de s². Ils peuvent constituer des points
aberrants. Il faut les analyser plus avant.
- Analyse du « leverage » de ces points (hii) : Le leverage mesure l’influence

potentielle d’un point sur la valeur des coefficients de la régression. Une
valeur hii>4/n traduit un point trop influent sur la détermination des
coefficients.
- Analyse de la distance de Cook : La distance de Cook mesure le leverage et

la contribution au s², c’est-à-dire l’influence réelle d’un point . Une valeur
>1 traduit un point aberrant.
théorie
Solutions
• Enlever les observations aberrantes et recalculer la régression.

Comparer les résultats. Y-a-t-il des différences significatives entre
les coefficients?
théorie
Validation du modèle sur la population
Une fois la gaussianité vérifiée, on peut effectuer des tests afin d’asseoir la
pertinence du modèle sur la population étudiée. Ces tests testent
l’hypothèse :
H 0 : a = 0 contre H1 : a ≠ 0
(a=0 signifie absence de lien linéaire entre X et Y)

• Test de student . Basé sur la statistique aˆ
T= T ∼ T(n-2) sous H 0
s ( aˆ )
SSM
• Test de Fisher. Basé sur la statistique : F = F ∼ F(1,n-2) sous H 0
s²
exemple
Exemple 1 : On cherche à expliquer les variations de y par celles d’une fonction linéaire
de x à partir de 30 observations de chacune des variables, i.e. à ajuster le modèle
yi = axi + b + ε i , i = 1,...,30.
où εi est une suite de variables aléatoires i.i.d.gaussiennes de moyenne nulle et de variance σ²
>x=1:100; X=sample(x,30,replace=TRUE)
>Y=3+7*X+rnorm(30,0,100)
>regression=lm(Y~X); regression
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept) X
-30.26 7.42
Le modèle de régression linéaire simple:
exemple
Dessin du nuage de points :
> plot(X,Y)
>text(40,600, substitute(y==a*x+b, list(a=regression$coef[2],
b=regression$coef[1])))
> lines(X,regression$fitted.values) #ou abline(regression)
> M=locator(); v=locator()
> segments(0,M$y,M$x,M$y)
> arrows(M$x,M$y,M$x,v$y,angle=30, code=3)
> segments(M$x,v$y,0,v$y,lty=2)
> text(0,350, "yi",col="red")
> text(0,200, "^yi",col="red")
> text(25,250, "ei",col="red")
> title("nuage de points et droite de regression")
exemple
exemple
Explication des sorties R
> names(regression)
[1] "coefficients" "residuals" "effects" "rank"
[5] "fitted.values" "assign" "qr" "df.residual"
[9] "xlevels" "call" "terms" "model«
coefficients (ou coef) : estimations des paramètres aˆ et bˆ

fitted.values (ou fitted): valeurs estimées yî
Residuals (ou res) : résidus ei = yi − yî
df.residual : nombre de ddl des résidus (n-2)
exemple
> anova(regression)
Analysis of Variance Table F=MSM/MSR
SSM
Response: Y
SSR
Df Sum Sq Mean Sq F value Pr(>F)
X 1 1485466 1485466 159.83 4.312e-13 ***
Residuals 28 260238 9294 MSM=SSM/dl=SSM
--- n-2 MSR=SSR/dl=SSR/n-2
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
exemple
â
>summary(regression)
Call:
lm(formula = Y ~ X)
^b
Residuals:
Min 1Q Median 3Q Max s(^b)
-206.89 -76.47 12.28 61.42 192.04
s(â)
Coefficients: tb=^b/s(^b)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -30.2553 34.3536 -0.881 0.386
X 7.4199 0.5869 12.642 4.31e-13 *** ta=â/s(â)
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 S=sqrt(MSR)
Residual standard error: 96.41 on 28 degrees of freedom

Multiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 R²=SSM/(SSM
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13 +SSR)
exemple
Pertinence du modèle sur les données :
De petites valeurs sont un gage
>summary(regression) de stabilité du modèle donc du
Call:
pouvoir prédictif: valeur de b
lm(formula = Y ~ X)
pas très stable ici
Residuals:
Min 1Q Median 3Q Max
-206.89 -76.47 12.28 61.42 192.04 % de variations expliquées
par le modèle R² doit être
Coefficients: proche de 1 pour bon
Estimate Std. Error t value Pr(>|t|) pouvoir explicatif: ok ici
(Intercept) -30.2553 34.3536 -0.881 0.386
X 7.4199 0.5869 12.642 4.31e-13 ***
--- Écart-type résiduel
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1doit être faible
pour bon pouvoir
Residual standard error: 96.41 on 28 degrees of freedom prédictif
Multiple R-Squared: 0.8509, Adjusted R-squared: 0.8456
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13
exemple
• Conclusion 1 : le modèle a un bon pouvoir explicatif sur les
données, mais le pouvoir prédictif risque d’être entaché par
l’instabilité du coefficient b et une variance résiduelle importante.
exemple
Analyse des résidus
Fonctions R utiles:
- influence(): étude des points contribuant à l’instabilité du modèle
(prédiction).
- residuals()
- rstudent() : résidus réduits
- acf() : graphe d’autocorrelation des résidus
- plot()
- qqnorm()
exemple
- Repérage des points aberrants et des points contribuant fortement à

la détermination du modèle :
Est suspect un point tel que le résidu réduit est supérieur à 2
en valeur absolue : si sa distance de Cook’s est >1, le point
suspect contribue trop fortement à la détermination du modèle
- Vérifier les hypothèse sur les aléas : iid et normalité (préalable à
l’interprétation des tests)
Le graphe des résidus (ou des résidus réduits) ne doit pas
présenter de structure (variance constante sur la verticale et
symetrie par rapport aux abscisses).
. Le graphe des résidus réduits doit être compris entre –2 et 2 et
ne doit pas présenter de structure. D’autres graphiques tels
que le qqnorm() ou acf() peuvent aider.
exemple
exemple
> regression$res
1 2 3 4 5 6
-124.555774 192.039037 -206.889677 66.405930 134.778691 84.971904
7 8 9 10 11 12
62.303811 49.992064 58.754097 -59.526887 -122.429844 164.829565
13 14 15 16 17 18
-32.171872 66.230754 14.259927 -85.047904 -10.456005 -85.910834
19 20 21 22 23 24
-25.642668 -90.246235 50.526061 40.156580 -54.350556 10.292678
25 26 27 28 29 30
1.090471 94.392800 29.988159 20.679500 -162.341983 -82.121786
exemple
> rstudent(regression)
1 2 3 4 5 6
-1.33891051 2.18030419 -2.35658586 0.69563804 1.44970973 0.90378230
7 8 9 10 11 12
0.67206553 0.54684103 0.61362322 -0.63902844 -1.37190197 1.80811221
13 14 15 16 17 18
-0.33693306 0.72519680 0.14970613 -0.92811721 -0.11319206 -0.91236104
19 20 21 22 23 24
-0.27792699 -0.96174524 0.53172811 0.43253471 -0.58014349 0.10726922
25 26 27 28 29 30
0.01142126 1.03392757 0.31123595 0.21446494 -1.79851278 -0.86589500
exemple
>par(mfrow=c(2,2)); plot(regression)
Graphe1 : doit être sans structure réparti de part et d’autre de l’axe des x
Graphe 2 : doit suivre la bissectrice
Graphe 3 : doit être sans structure
Graphe 4 : distances de Cook ou courbe de niveaux de leverage de distances de Cook’s
égales
exemple
>plot(regression$fitted,rstudent(regression),xlabel="fitted values",
ylabel="standardized residuals");
>abline(h=2,col="red");abline(h=-2,col="red")
exemple
> par(mfrow=c(1,2))
> plot(regression$residuals)
> acf(regression$res)
exemple
Conclusion 2 : Les résidus semblent approximativement gaussiens
(qqnorm) et i.i.d. (pas de structure, de part et d’autre de 0 sur les
plots et le corrélogramme).Deux points devraient être
éventuellement enlevés du modèle : les points 2 et 3.
exemple
exemple
Validité du modèle sur la population
>summary(regression)
Call:
lm(formula = Y ~ X) La variable X a une influence
significative sur Y à 5%: le
Residuals:
coefficient est significativement
Min 1Q Median 3Q Max différent de zero: le modèle est
-206.89 -76.47 12.28 61.42 192.04
pertinent par student
Coefficients: Le terme constant n’est
Estimate Std. Error t value Pr(>|t|) pas significativement
(Intercept) -30.2553 34.3536 -0.881 0.386 different de zero: on peut
X 7.4199 0.5869 12.642 4.31e-13 *** decider de refaire tourner
--- le modèle sans lui
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 96.41 on 28 degrees of freedom

Multiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 Le modèle est
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13 pertinent à 5% par
Fisher
exemple
Conclusion 3: le modèle linéaire est pertinent pour expliquer
variations de Y sur la population.
Conclusion : L’ajustement linéaire est pertinent ici. Pour obtenir un

meilleur pouvoir prédictif, il faudrait éventuellement retirer les
points 2 et 3 de l’analyse et utiliser un modèle sans terme constant.
II- Analyse de variance : théorie
• Soit X une variable qualitative (facteur) à p modalités (niveaux) et Y une variable

quantitative. On veut mettre en évidence une différence de valeur moyenne de la
variable Y selon le niveau du facteur. On suppose alors que X discrimine bien Y:
E(Y/X=x j ) = µ + α j ou de façon équivalente Y j = µ + α j + ε j , j = 1,...p.

avec ε j de moyenne nulle.
On veut pouvoir rejeter l’hypothèse : H 0 : α1 =...=α j =...=α p
Pour cela, on observe ces deux variables sur un ensemble de n individus, on suppose
yij = µ + α j + ε ij i = 1....n j , j = 1,...p. p
n =n
avec ∑ j
j =1
et on veut valider l’hypothèse précédente. On fait généralement l’hypothèse implicite que
les ε ij sont iid gaussiens.
p
• y=1 ∑ n y
n j=1 j j
E1 (X = x1 ) E j (X = x j ) E p (X = x p )
…. ……
y11 ,... yn11 y1 j ,... yn j j y1 p ,... yn p p
n j
y1 y j = ∑i =1
y ij yp
• Un moyen simple pour se rendre compte :

• Lorsque n1 = ... = n p on dit qu’on a un plan équilibré.

Estimation des paramètres
• Moyennes
On a p+1 inconnues du modèle ( µ ,α1,...,α p ) et uniquement p groupes donc
on doit imposer une contrainte. On impose :
p
∑ n jα j = 0 (ce qu’un groupe perd l’autre le gagne)
j =1
• On cherche les valeurs des paramètres minimisant la fontion des moindres

carrés:
∑i ∑ ( yij −α j − µ )2
j
• On trouve :
µˆ = y αˆ j = y j − y
et
yˆ j = αˆ
j −µ
ˆ est la moyenne estimée ou prédite dans le niveau j du facteur
eij = y − yˆ j est le i° résidu du niveau j du facteur
ij
• Estimation de la variance des erreurs :
∑ ∑e ij ²
s² =
i j
n− p
Validation du modèle : on doit d’abord vérifier que le facteur X discrimine bien Y,
c’est à dire que la majeure partie de la variabilité est bien expliquée par le modèle.
Décomposition de la variabilité
D j = ∑ ( yij − y j )2 = Somme des carrés des variations dans le

i ∈E j niveau j
SSint ra = ∑ D j = (n − p ) s ² = Somme des carrés des variations intra-niveaux
j
SSint er = ∑ n j ( y j − y )2 = Somme des carrés des variations inter-niveaux

j
SST = ∑ ∑ ( yij − y )2 = somme des carrés des variations totales
j i∈Ej
On a : SST = SSint er + SSint ra
Le modèle est d’autant meilleur que SSinter est grand (que SSintra est faible)
• Indice de qualité du modèle : le rapport de corrélation (% de variations

expliquée par X)
SS INTER SS
η2 = = 1 − INTRA
SST SST
• Autre indice : le F de Fisher :
VINTER
F=
VINTRA
SS INTER SS INTRA
VINTER = VINTER =
p −1 n− p
Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la

variance ci-dessous :
source Degrés Somme Somme des carrés Stat de

de des moyens Fisher
liberté carrés
Inter- p-1 SSinter Vinter=SSinter/p-1 F=Vinter/
groupes s²
Intra- n-p SSintra Vintra=s²
groupes =SSintra/(n-p)
total n-1 SST s²(Y)=SST/(n-1)
Validation des hypothèses sur les aléas
Voir régression
Test d’égalité des moyennes
Dès lors qu’on a vérifié que les erreurs sont i.i.d. gaussiennes, on peut
tester
H 0 : α1 =...=α j =...=α p
En utilisant le test de Fisher. On utilise la statistique de test
VINTER
F= sous H 0 , F ∼ F ( p − 1, n − p )
VINTRA
II- Analyse de variance :exemple
Six (k) insecticides (spray) ont été testés chacun sur 12 cultures. La
réponse observée (count) est le nombre d'insectes. Les données sont
contenues dans le data.frame « InsectSprays ». On veut savoir si il
existe un effet significatif du facteur insecticide, i.e. on veut valider
le modèle d’analyse de variance :
Countij = µ + α j + ε ij , i = 1,...12; j = 1,...6.
où ε i est une suite de variables aléatoires i.i.d. de moyenne nulle et de
variance σ ²
>anov=aov(sqrt(count) ~ spray, data = InsectSprays)

II- Analyse de variance
SSInter
> summary(anov)
P(F>Fvalue)
SSIntra
F suit F(k-1,n-k)
spray 5 88.438 17.688 44.799 < 2.2e-16 ***
Residuals 66 26.058 0.395 V Inter
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
V intra
k-1
n-k
V inter/V intra
> names(anov)
[1] "coefficients" "residuals" "effects" "rank"
[5] "fitted.values" "assign" "qr" "df.residual"
[9] "contrasts" "xlevels" "call" "terms"
[13] "model"
coefficients : moyennes dans les niveaux αˆ j

residuals : résidus estimes du modèle eij = yij − yîj
fitted.values : valeurs estimées yîj = µˆ + αˆ j
>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray
Le Boxplot montre :
- les points aberrants

- l’asymétrie de la distribution
- une inégalité dans les variances. Cependant, comme souvent il y
a peu de données dans chaque niveau du facteur on peu s’attendre
à une grande variabilité même si les variances des sous-
populations sont en réalité égales.
Analyse des résidus (cf régression)

>par(mfrow=c(2,2)); plot(anov)
>plot(rstudent(anov))
>par(mfrow=c(2,1))
> acf(anov$res)
>plot(anov$res)
La distribution des résidus semble gaussienne

Les résidus sont i.i.d.
Il existe des points aberrants 39, 27, 25 dont les distances de Cook’s
montrent qu’ils influencent trop les coefficients.
>summary(anov)

spray 5 88.438 17.688 44.799 < 2.2e-16 ***
Residuals 66 26.058 0.395
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Le test de Fisher montre que l’on rejette fortement l’hypothèse nulle

(avec un risque de se tromper presque nul): le modèle est significatif
:il existe un fort effet du facteur spray sur le nombre d’insectes : les
moyennes sont differentes
>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray
>anov$coeff
(Intercept) sprayB sprayC sprayD sprayE sprayF

3.7606784 0.1159530 -2.5158217 -1.5963245 -1.9512174 0.2579388
Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B

a une moyenne de 3.76+0.11,….
Les écarts les plus significatifs sont entre les groupes A B et F et les groupes C
D et E, qui sont plus efficaces que les premiers.
III- Test de comparaison de moyenne
Soient (X1, . . . , Xn) un echantillon issu d’une population iid N(1, 1) et (Y1, . . . ,
Ym) un échantillon issu d’une population iid E(1). On veut tester:
H 0 : E ( X ) = E (Y ) contre H1 : E ( X ) ≠ E (Y )
• Lorsque les variances théoriques des deux variables sont égales :

Test de student
X −Y (n1 − 1) s12 + (n2 − 1) s22

t= ; s² = t ∼ T (n1 + n2 − 2) sous H 0
1 1 n1 + n2 − 2
s +
n1 n2
• Lorsque les variances théoriques des deux variables sont inégales :
Correction de Welch
Test de student à la main (à α=5%) :
>x = rnorm(100,1,1); y = rexp(200,1)

>p=abs(mean(x)-mean(y))
> s=sqrt((99*var(x)+199*var(y))/298)
>t=p/(s*sqrt(1/100+1/200))
>t
[1] 0.7274531
On compare |t| le fractile d’ordre 1- α/2 de la loi de student à 298 ddl.

Si |t| supérieur, on rejette H0, sinon en accepte.
Avec la fonction t-test : Cas où on suppose les variances égales :

>x = rnorm(100,1,1); y = rexp(200,1)
>t.test(x,y, var.equal=T)
Two Sample t-test
P(|T|>t)
Où T suit T(298)
data: x and y Rejet de H0 si <5%
t = -0.7275, df = 298, p-value = 0.4675
Nombre
alternative hypothesis: true difference in means is not equal de ddl = 298
to 0
95 percent confidence interval:
-0.3460831 0.1592772
sample estimates: Valeur de t
mean of x mean of y
0.9584589 1.0518618
X
Avec la fonction t-test : Cas où on suppose les variances inégales
>x = rnorm(100,1,2); y = rexp(200,1)
>st=t.test(x,y) Généralisation du test de Student au cas de

Welch Two Sample t-test variances inégales
data: x and y
t = 0.8249, df = 118.758, p-value = 0.4111
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: Rejet de H0 si <5%
-0.2472865 0.6004484
sample estimates:
mean of x mean of y
1.182571 1.005990
Nombre de ddl
corrigé=178,46
X Y
Valeur de la Statistique de
Welch
> names(st)
[1] "statistic" "parameter" "p.value" "conf.int" "estimate"
[6] "null.value" "alternative" "method" "data.name"
statistic : valeur de t
alternative : type d’alternative two-sided, one-sided.
estimate : moyennes empiriques des echantillons
null.value : hypothese nulle
conf.int: intervalles de confiances
parameter :ddl
Conclusion : pour les deux exemples, on ne peut pas rejeter l’hypothèse nulle
au seuil 5% : les moyennes ne sont pas significativement différentes.
IV – Test du chi2
On veut tester à partir d’un tableau de contingence de n individus s’il y a une
relation entre deux caractères X et Y
H 0 : les deux critères sont indépendants contre H1 = ! H 0
Statistique de test :
χ n−1 ² ∼ χ ²((l − 1)(c − 1)) sous H 0
Où Oi sont les éléments du tableau de contingence, Ei sont les éléments du

tableau attendu sous l’hypothèse d’indépendance (voir un cours et
l’exemple ci-après)
IV – Test du chi2
Test du chi2 à la main

>O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE)
>colnames(O)=c("homme","femme"); rownames(O)=c("voyant","aveugle")
>O #tableau observé Oi #tableau théorique Ei
homme femme homme femme
voyant 442 514 voyant 458.88 497.12
aveugle 38 6 aveugle 21.12 22.88
#Création du tableau théorique :

>ni=apply(O,1,sum); nj= apply(O,2,sum)
voyant aveugle homme femme
956 44 480 520
>E=matrix(c(ni[1]*nj[1]/1000,ni[2]*nj[1]/1000,ni[1]*nj[2]/1000,
ni[2]*nj[2]/1000),2,2)
>chi2=sum((O-E)^2/E)
[1] 27.13874
IV – Test du chi2
> X2=chisq.test(O, correct=F)

Pearson's Chi-squared test
Valeur de la statistique de test du chi2
data: tab
X-squared = 27.1387, df = 1, p-value = 1.894e-07
P(X>X-squared )
X v.a. de loi X²(1)
On rejette H0 si la p-value est <5%. Ici, c’est le cas, les caractères sexe et
cecite ne sont pas indépendants.

R-Cours 7

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

R-Cours 7

Transféré par

Droits d'auteur :

Formats disponibles

Cours 7 : Rappels de cours et exemples sous

Rappels On cherche à expliquer ou à prévoir les variations d’une variable Y

Pour cela on observe un n-échantillon de réalisations de X et de Y, sur

yi = axi + b + ε i , i = 1,..., n. (validation)

Avec ε i i.i.d. Gaussiennes et σ ² pas trop grand,

• Estimation de a et b : On commence par chercher le « meilleur » ajustement

ŷyˆi = axi + b =i° valeur estimée

â et b̂ sont tels que ∑ e = ∑ ( y − ax

• La valeur ŷ estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) .

• Estimation de σ ²: La variance de l’erreur s’estime par

• Analyse de la qualité du modèle : Décomposition de la variabilité

SST = ∑ ( yi − y )² = nsY2 =somme des carrés des variations de y

SSM = ∑ ( yˆi − y )² =sY2ˆ =somme des carrés des variations expliquées

On montre que : SST=SSR+SSM

source Degrés Somme Somme des Stat de

erreur n-2 SSR s²=SSR/(n-2)

total n-1 SST s²(Y)=SST/(n-1)

• Le corrélogramme (ACF) ne doit pas présenter de structure (indépendance)

• Le QQ-plot suit la première bissectrice

• Essayer de transformer les données en se rappelant que

• Utiliser une régression non-linéaire.

• Résidu réduit ou studentisé :  

- Analyse du « leverage » de ces points (hii) : Le leverage mesure l’influence

- Analyse de la distance de Cook : La distance de Cook mesure le leverage et

• Enlever les observations aberrantes et recalculer la régression.

(a=0 signifie absence de lien linéaire entre X et Y)

coefficients (ou coef) : estimations des paramètres aˆ et bˆ

Residual standard error: 96.41 on 28 degrees of freedom

Analyse des résidus

- Repérage des points aberrants et des points contribuant fortement à

Residual standard error: 96.41 on 28 degrees of freedom

Conclusion : L’ajustement linéaire est pertinent ici. Pour obtenir un

• Soit X une variable qualitative (facteur) à p modalités (niveaux) et Y une variable

E(Y/X=x j ) = µ + α j ou de façon équivalente Y j = µ + α j + ε j , j = 1,...p.

y11 ,... yn11 y1 j ,... yn j j y1 p ,... yn p p

• Un moyen simple pour se rendre compte :

• Lorsque n1 = ... = n p on dit qu’on a un plan équilibré.

Estimation des paramètres

• On cherche les valeurs des paramètres minimisant la fontion des moindres

• Estimation de la variance des erreurs :

D j = ∑ ( yij − y j )2 = Somme des carrés des variations dans le

SSint er = ∑ n j ( y j − y )2 = Somme des carrés des variations inter-niveaux

On a : SST = SSint er + SSint ra

• Indice de qualité du modèle : le rapport de corrélation (% de variations

• Autre indice : le F de Fisher :

Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la

source Degrés Somme Somme des carrés Stat de

Validation des hypothèses sur les aléas

Test d’égalité des moyennes

En utilisant le test de Fisher. On utilise la statistique de test

>anov=aov(sqrt(count) ~ spray, data = InsectSprays)

coefficients : moyennes dans les niveaux αˆ j

- les points aberrants

Analyse des résidus (cf régression)

La distribution des résidus semble gaussienne

Df Sum Sq Mean Sq F value Pr(>F)

Le test de Fisher montre que l’on rejette fortement l’hypothèse nulle

(Intercept) sprayB sprayC sprayD sprayE sprayF

Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B

• Lorsque les variances théoriques des deux variables sont égales :

X −Y (n1 − 1) s12 + (n2 − 1) s22

Test de student à la main (à α=5%) :

>x = rnorm(100,1,1); y = rexp(200,1)