Académique Documents
Professionnel Documents
Culture Documents
Objectifs :
- Introduire le vocabulaire de la théorie de la régression linéaire simple.
- Définir la méthode des moindres carrées
- Donner les formules pour calculer les coefficients de la droite de régression
- Donner la décomposition de la variation et la formule du coefficient de
détermination
- Etablir les intervalles de confiance et les tests pour la pente de la droite et
l’ordonnée l’origine.
1- Introduction
Pour résumer un nuage de points dont les coordonnées sont constituées par
deux variables quantitatives on va chercher l’équation d’une droite.
1
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Yi = ß0 + ß1Xi + έi , où i= 1, …………… , n
Les deux paramètres ß0 et ß1 sont inconnus mais fixes. Les variables aléatoires
έi sont les variables d’erreur qui sont supposés vérifier des hypothèses,
appelées aussi conditions fondamentales, qui sont au nombre de trois :
Commande Description
lm Permet de construire la droite de régression
coef Donne les coefficients de la droite de régression
summary Donne les coefficients de la droite de régression et les tests associés.
fitted Calcule les valeurs ajustées à partir de la droite de régression pour les
observations initiales.
predict Calcule les valeurs ajustées, les intervalles de confiance et les
intervalles de prévision à partir de la droite de régression pour
n’importe quelle valeur.
2
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
3- Exemples avec R
Exemple 1 :
À titre d’exemple, considérons une première variable constituée des valeurs 1
2 3 4 5 6 7 8 9 10 11 et 12 et une seconde dont les valeurs sont : 40 42 44 45 48 50
52 55 58 63 68 et 70.
xi <- c(1:12)
xi
Lorsque l’on tape le nom de l’objet puis la touche entrer, la console renvoie les
valeurs :
[1] 1 2 3 4 5 6 7 8 9 10 11 12
yi <- c(40, 42, 44, 45, 48, 50, 52, 55, 58, 63, 68, 70)
yi
[1] 40 42 44 45 48 50 52 55 58 63 68 70
Représentation graphique
plot(xi, yi)
3
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Équation de la droite
lm(yi ~ xi)
R répond :
Call:
lm(formula = yi ~ xi)
Coefficients:
(Intercept) xi
35.076 2.745
y = 2,74x + 35,08
Représentation de la droite
4
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
plot(xi, yi)
Dans le cas de ce nuage de points, la relation entre les deux variables (le xi
et le yi) est assez nette.
Interprétation
Prédictions
2.745 * 13 + 35.076
R répond :
[1] 70.761
data.frame(xi, yi)
5
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
R répond:
xi yi
1 1 40
2 2 42
3 3 44
4 4 45
5 5 48
6 6 50
7 7 52
8 8 55
9 9 58
10 10 63
11 11 68
12 12 70
summary(xi)
R répond :
summary(yi)
R répond :
Exemple 2:
Nous avons le jeu de données suivant qui représente les variables observes
chez huit arbres d’arganier : Poids des fruits (g/0,25 m²), surface de l’arbre (m²),
rendement estimé (kg) et la production total (kg).
Tree Fruit weight (g/0.25m²) Tree surface (m²) Estimated yield (kg) Total production (kg)
1 295,1 18,53 21,9 11,1
2 119,85 36,48 14,9 3,4
3 137,43 20,34 19,7 5,9
4 62,07 17,56 8,6 5,3
5 91,48 36,1 9,3 2,1
6 141,87 23,3 15,4 2,9
6
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
xi
Lorsque l’on tape le nom de l’objet puis la touche entrer, la console renvoie les
valeurs :
yi
R répond :
plot(yi ~ xi)
droite<-lm(yi ~ xi)
coef(droite)
7
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
R répond :
(Intercept) xi
0.32095778 0.03365755
fitted(droite)
R répond
1 2 3 4 5 6 7 8
Les ordonnées ^yi se lisent sous les nombres entiers. Ils varient de 1 à 8 car ils
proviennent data.frame où ils correspondent aux numéros des lignes contenant
les observations réalisées sur les huit arbres.
f
R répond: Call:
lm(formula = yi ~ xi)
Coefficients:
(Intercept) xi
0.32096 0.03366
plot(f)
> summary(f)
R répond:
Call:
8
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
lm(formula = yi ~ xi)
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
y = 0.03366x + 0.32095778
Anova(droite)
Response: yi
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Donc la variation expliquée par la variable poids des fruits (xi) est égale
52,272 et la variation totale est égale à 52,272 + 17,716 (variance résiduelle) =
69,988. Pour retrouver la valeur du coefficient de détermination R², il faut diviser
52,272 par 69,988, ce qui donne 0,74687089 ou encore 74,68%.
9
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
H0 : ß0 = 0 contre H1 : ß0 différent de 0
Il faut verifier que les variables erreurs sont indépendantes et suivent la loi
normale centrée et de variance σ². La condition d’indépendance est vérifiée
compte tenu du protocole expérimental qui a été suivi. La procédure pour vérifier
les deux conditions restantes est en deux temps :
> residus<-residuals(droite)
> shapiro.test(residus)
R répond:
data: residus
Comme la p-value du test est supérieure à α(alpha) = 5%, le test est significatif.
Donc on accepte dans ce cas H0 et on rejette H1 avec un risque d’erreur de
première espèce α = 5%.
+ readXL("C:/Users/Hp/Desktop/ZahidiMasterFPT/ANOVA/RegreLinMasterFPT.xlsx",
10
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
+ stringsAsFactors=TRUE)
> editDataset(Dataset)
> summary(RegModel.1)
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pour avoir nuage de points: cliquer sur graphe, nuage de points et choisir
les deux variables x et y puis ok. Sur Plot de RStudio, on affiche le graphe ainsi.
11
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
donnees=read.table(file.choose(),header=TRUE,sep="\t")
is.data.frame(donnees)
[1] TRUE
names(donnees)
summary(donnees)
1st Qu.:13 1st Qu.: 0.618 1st Qu.: 1.800 1st Qu.:0.472
3rd Qu.:37 3rd Qu.: 3.636 3rd Qu.: 5.527 3rd Qu.:1.454
#nuage de point#
y=donnees$parasite
x=donnees$mort
12
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Ylab et xlab pour donner des étiquettes aux deux variables dans le graphe
ci-dessous.
cor(x,y)
cor.test(x, y)
data: x and y
alternative hypothesis: true correlation is not equal to 095 percent confidence interval:
0.7748750 0.9232157
13
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
sample estimates:
cor 0.8671306
abline(lm(y~x))
modele=lm(y~x)
modele
R répond:
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
0.0950 0.2439
summary(modele)
Call:
lm(formula = y ~ x)
Residuals:
14
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Avec Rcmdr
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
15
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
#nuage de point#
y=donnees$parasite
x=donnees$vivant
plot(x, y)
cor(x,y)
tester la corrélation
cor.test(x, y)
abline(lm(y~x))
estimation de la
modele=lm(y~x)
modele
summary(modele)
16
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Call:
lm(formula = y ~ x)
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+
readXL("C:/Users/Hp/Desktop/ZahidiMasterFPT/ANOVA/RegreLinMasterFPT.xl
sx",
+ stringsAsFactors=TRUE)
> editDataset(Dataset)
17
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
> summary(RegModel.1)
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> summary(RegModel.2)
18
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Remarque:
Regression multiple
> summary(Model3)
Call:
19
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Residuals:
Coefficients:
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> summary(LinearModel.3)
Call:
20
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Residuals:
Coefficients:
21
Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
22