Régression Linéaire Simple Avec R Et R Commander

Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.
Régression linéaire simple avec R et R commander

« Essentially, all models are wrong, but some are useful. »
De George E.P., Box, 1979.
Objectifs :
- Introduire le vocabulaire de la théorie de la régression linéaire simple.
- Définir la méthode des moindres carrées
- Donner les formules pour calculer les coefficients de la droite de régression
- Donner la décomposition de la variation et la formule du coefficient de
détermination
- Etablir les intervalles de confiance et les tests pour la pente de la droite et
l’ordonnée l’origine.
1- Introduction
Le principe élémentaire des statistiques descriptives consiste à résumer

des données que l’on ne peut pas appréhender une à une. On cherche à
synthétiser ces données par le biais d’indicateurs. Ainsi un indicateur qui est très
utilisé pour résumer une variable quantitative est la moyenne arithmétique.
Pour résumer un nuage de points dont les coordonnées sont constituées par
deux variables quantitatives on va chercher l’équation d’une droite.
1- Ajustement linéaire en statistique descriptive

1.1. La méthode des moindres carrées
On souhaite ajuster la distribution du couple de variables quantitatives (X, Y)

à une fonction affine Y = b0 + b1X, où b0 et b1 sont deux nombres réels à
déterminer. Cet ajustement s’appelle la régression linéaire de Y en X. Soit
(X1, Y1), ……….. , (XN, YN) les données brutes. Le couple (ß0, ß1) va être déterminé
de manière à ce que la fonction :
d(b0, b1) = ∑ (Yk - b0 - b1Xk)² (avec k=1 …. N)

ait un minimum global sur Ŗ² en (ß0, ß1). C’est la raison pour laquelle cette
méthode s’appelle aussi la méthode des moindres carrées ordinaires.
(Yk - ß0 - ß1Xk)² représente le carré de la distance verticale du point (Xk, Yk) à

la droite, d’équation y = ß0 - ß1x , considérée comme la meilleure.
ß1 est le coefficient directeur de la droite, également appelé la pente
de la droite, et ß0 son ordonnée à l’origine.
1
1.2. La droite de régression de Y par rapport à X

Définition : la droite de régression de Y par rapport à X est la droite d’équation
y = b0 + b1 x qui rend la fonction d(b0, b1) minimale.
Les valeurs des nombres réels ß0, ß1 sont déduites :
ß1 = Cov (X, Y) / σ ² (X) = р(X, Y) σ(Y) / σ(X)

et ß0 = µ(Y) - ß1µ(X)
où Cov(X, Y) est la covariance de X et de Y, σ² (X) la variance de X ; р(X, Y) le
coefficient de corrélation linéaire théorique entre X et Y, et σ(Y) l’écart-type de Y
et µ(X) et µ(Y) les moyennes respectives de X et Y.
Remarque :
- Le langage R donne dans l’ordre suivant le coefficient ß0 puis ß1, bien que
le coefficient ß0 se calcule à partir du coefficient ß1.
- R appelle le coefficient ß0 l’intercept.
- Les fonctions qui permettent de réaliser le calcul des deux coefficients sont
la fonction lm puis la fonction coef.
2- Régression linéaire simple
Définition : la régression linéaire simple est liée au modèle suivant :
Yi = ß0 + ß1Xi + έi , où i= 1, …………… , n
Les deux paramètres ß0 et ß1 sont inconnus mais fixes. Les variables aléatoires
έi sont les variables d’erreur qui sont supposés vérifier des hypothèses,
appelées aussi conditions fondamentales, qui sont au nombre de trois :
- Les variables aléatoires έi sont indépendantes.

- Les variables έi ont toute la même variance inconnue σ².
- Les variables έi suivent la loi normale centrée et de variance σ².
La σ² est appelée la variance résiduelle de Y.
Dans R les fonctions suivantes :
Commande Description
lm Permet de construire la droite de régression
coef Donne les coefficients de la droite de régression
summary Donne les coefficients de la droite de régression et les tests associés.
fitted Calcule les valeurs ajustées à partir de la droite de régression pour les
observations initiales.
predict Calcule les valeurs ajustées, les intervalles de confiance et les
intervalles de prévision à partir de la droite de régression pour
n’importe quelle valeur.
2
confint Calcule les intervalles de confiance pour la pente et l’ordonnée à

l’origine de la droite de régression.
anova Donne le tableau de l’analyse de la variance.
residuals Calcule les résidus.
lmp Utilise les tests de permutation au lieu de la théorie classique basée sur
la loi normale.
3- Exemples avec R
Exemple 1 :
À titre d’exemple, considérons une première variable constituée des valeurs 1
2 3 4 5 6 7 8 9 10 11 et 12 et une seconde dont les valeurs sont : 40 42 44 45 48 50
52 55 58 63 68 et 70.
Saisir les valeurs dans R
Dans R, assignons la première distribution à un objet que l’on nomme xi :
xi <- c(1:12)
xi
Lorsque l’on tape le nom de l’objet puis la touche entrer, la console renvoie les
valeurs :
[1] 1 2 3 4 5 6 7 8 9 10 11 12
Entrons la seconde variable dans un objet que l’on nomme yi ainsi :
yi <- c(40, 42, 44, 45, 48, 50, 52, 55, 58, 63, 68, 70)
yi
[1] 40 42 44 45 48 50 52 55 58 63 68 70
Représentation graphique
Il est maintenant possible de voir comment se répartissent ces deux

distributions l’une par rapport à l’autre en faisant un graphique grâce à la
fonction plot() :
plot(xi, yi)
3
On remarque une régularité dans le nuage, presque un alignement. Cet

élément suggère qu’une droite serait un bon résumé de ces points.
L’équation d’une droite est de la forme y = ax + b. La méthode de la

régression linéaire par les moindres carrés va nous permettre de connaître
les valeurs a et b de façon à minimiser l’écart entre la droite et l’ensemble des
points.
Équation de la droite
Valeurs calculées par la commande lm()
Dans R on fera appel à la commande lm(), qui signifie linear model ou

modèle linéaire. Pour obtenir l’équation de la droite d’ajustement simplement
entrer la commande :
lm(yi ~ xi)
R répond :
Call:
lm(formula = yi ~ xi)
Coefficients:
(Intercept) xi
35.076 2.745
En notation anglo-saxonne, « Intercept » correspond ici à l’ordonnée à

l’origine le « b » de notre droite et le « x » est la pente de la droite ce qui
correspond au « b » dans notre notation. L’équation, de notre droite est donc
y = 2,74x + 35,08
Représentation de la droite
Pour dessiner les points et la droite, on fait :
4
plot(xi, yi)
abline(35.076, 2.745, col = "red", lwd=2)
Dans le cas de ce nuage de points, la relation entre les deux variables (le xi
et le yi) est assez nette.
Interprétation
On peut interpréter l’équation de la droite y = 2,745x + 35,076 en disant :

« lorsque les xi augmentent d’une unité les yi augmentent de 2,745 unités. »
Prédictions
Maintenant que nous disposons de l’équation, on peut réaliser des

prédictions. Ainsi pour une valeur de x qui serait de 13 on calcule une
approximation de y en calculant 2,745 × 13 + 35,076, dans R on le fera ainsi :
2.745 * 13 + 35.076
R répond :
[1] 70.761
y(13) sera donc aux alentours de 70.8.
Quelle est la fiabilité de ce modèle ?
Nous avons donc obtenu un modèle statistique élémentaire, mais nous ne

nous sommes pas interrogés sur sa validité et sa robustesse. Pour ce faire la
première étape est toujours de revenir aux données et de les examiner lorsque
c’est possible ou d’examiner des indicateurs de tendances centrales et des
critères de dispersions notamment en utilisant la commande summary() :
data.frame(xi, yi)
5
R répond:
xi yi
1 1 40
2 2 42
3 3 44
4 4 45
5 5 48
6 6 50
7 7 52
8 8 55
9 9 58
10 10 63
11 11 68
12 12 70
summary(xi)
R répond :
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 3.75 6.50 6.50 9.25 12.00
summary(yi)
R répond :
Min. 1st Qu. Median Mean 3rd Qu. Max.
40.00 44.75 51.00 52.92 59.25 70.00
Exemple 2:
Nous avons le jeu de données suivant qui représente les variables observes
chez huit arbres d’arganier : Poids des fruits (g/0,25 m²), surface de l’arbre (m²),
rendement estimé (kg) et la production total (kg).
Tree Fruit weight (g/0.25m²) Tree surface (m²) Estimated yield (kg) Total production (kg)
1 295,1 18,53 21,9 11,1
2 119,85 36,48 14,9 3,4
3 137,43 20,34 19,7 5,9
4 62,07 17,56 8,6 5,3
5 91,48 36,1 9,3 2,1
6 141,87 23,3 15,4 2,9
6
7 42,2 24,44 4,7 2

8 52,8 12,99 7,4 1,6
Saisir les valeurs dans R
Dans R, assignons la première distribution à un objet que l’on nomme xi,

qui représente le poids des fruits en kg:
xi <- c(295.1, 119.85, 137.43, 62.07, 91.48, 141.87, 42.2, 52.8)
xi
Lorsque l’on tape le nom de l’objet puis la touche entrer, la console renvoie les
valeurs :
[1] 295.10 119.85 137.43 62.07 91.48 141.87 42.20 52.80
Entrons la seconde variable dans un objet que l’on nomme yi (production

en kg) ainsi :
yi <- c(11.1, 3.4, 5.9, 5.3, 2.1, 2.9, 2, 1.6)
yi
R répond :
[1] 11.1 3.4 5.9 5.3 2.1 2.9 2.0 1.6
Pour obtenir le graphique, taper la ligne de commande suivante:
plot(yi ~ xi)
Il semblerait qu’en regardant le graphique, une relation linéaire pourrait

exister entre les deux variables poids des fruits et production des fruits.
Taper les lignes de commande suivantes :
droite<-lm(yi ~ xi)
coef(droite)
7
R répond :
(Intercept) xi
0.32095778 0.03365755
La pente est égale à 0,03365755 kg et l’ordonnée à l’origine est de 0,32095778 kg.
Taper la commande suivante :
fitted(droite)
R répond
1 2 3 4 5 6 7 8
10.253301 4.354815 4.946515 2.410082 3.399950 5.095954 1.741306 2.098076
Les ordonnées ^yi se lisent sous les nombres entiers. Ils varient de 1 à 8 car ils
proviennent data.frame où ils correspondent aux numéros des lignes contenant
les observations réalisées sur les huit arbres.
f <- lm(yi ~ xi)
f
R répond: Call:
Coefficients:
(Intercept) xi
0.32096 0.03366
plot(f)
Taper à chaque fois entrée pour afficher les graphes :

Changement de page : attente de confirmation...
Taper la ligne de commande pour avoir les résultats:
> summary(f)
R répond:
Call:
8
Residuals:
Min 1Q Median 3Q Max
-2.1959 -1.0411 -0.1197 0.8734 2.8899
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.320958 1.121533 0.286 0.78437
xi 0.033658 0.007999 4.207 0.00564 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.718 on 6 degrees of freedom

Multiple R-squared: 0.7469, Adjusted R-squared: 0.7047
F-statistic: 17.7 on 1 and 6 DF, p-value: 0.005639
y = 0.03366x + 0.32095778
On constate que le coefficient de détermination R² est environ égal à 74,69.
Pour récupérer les variations, taper la ligne de commande suivante :
Anova(droite)
R renvoie comme résultat :
Analysis of Variance Table
Response: yi
Df Sum Sq Mean Sq F value Pr(>F)
xi 1 52.272 52.272 17.703 0.005639 **
Residuals 6 17.716 2.953
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Donc la variation expliquée par la variable poids des fruits (xi) est égale
52,272 et la variation totale est égale à 52,272 + 17,716 (variance résiduelle) =
69,988. Pour retrouver la valeur du coefficient de détermination R², il faut diviser
52,272 par 69,988, ce qui donne 0,74687089 ou encore 74,68%.
9
Pour donner une estimation de σ² , on utilise la fonction summary. Les

résultats de cette ligne de commande ci-dessus donnent : Residual standard
error: 1.718 , le carrée de cette valeur nous donne une estimation de σ². σ² = 2,95.
Cette valeur est donnée également par la fonction anova, voir la valeur du carré
moyen résiduel.
Pour tester les deux hypothèses :
H0 : ß0 = 0 contre H1 : ß0 différent de 0
Il faut verifier que les variables erreurs sont indépendantes et suivent la loi
normale centrée et de variance σ². La condition d’indépendance est vérifiée
compte tenu du protocole expérimental qui a été suivi. La procédure pour vérifier
les deux conditions restantes est en deux temps :
- calculer les résidus,
- faire un test de shapiro-Wilk sur ces résidus et évaluer l’homogénéité

des variances.
Pour cela, taper les lignes de commandes suivantes :
> residus<-residuals(droite)
> shapiro.test(residus)
R répond:
Shapiro-Wilk normality test
data: residus
W = 0.9713, p-value = 0.908
Comme la p-value du test est supérieure à α(alpha) = 5%, le test est significatif.
Donc on accepte dans ce cas H0 et on rejette H1 avec un risque d’erreur de
première espèce α = 5%.
Regression lineaire avec R commander
> Dataset <-
+ readXL("C:/Users/Hp/Desktop/ZahidiMasterFPT/ANOVA/RegreLinMasterFPT.xlsx",
10
+ rownames=FALSE, header=TRUE, na="", sheet="PouRegMasterFPT",
+ stringsAsFactors=TRUE)
> editDataset(Dataset)
> RegModel.1 <- lm(parasite~mort, data=Dataset)
> summary(RegModel.1)
Call:
lm(formula = parasite ~ mort, data = Dataset)
Residuals:
-0.93064 -0.24676 -0.04587 0.09868 2.50710
Coefficients:
(Intercept) 0.09509 0.12134 0.784 0.437
mort 0.24391 0.02043 11.939 7.79e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
F-statistic: 142.5 on 1 and 47 DF, p-value: 7.788e-16
Pour avoir nuage de points: cliquer sur graphe, nuage de points et choisir
les deux variables x et y puis ok. Sur Plot de RStudio, on affiche le graphe ainsi.
11
Regression lineaire 2 PouCalifornie 2ans
donnees=read.table(file.choose(),header=TRUE,sep="\t")
is.data.frame(donnees)
[1] TRUE
names(donnees)
[1] "date" "vivant" "mort" "parasite"
summary(donnees)
date vivant mort parasite
Min. : 1 Min. : 0.000 Min. : 0.036 Min. :0.000
1st Qu.:13 1st Qu.: 0.618 1st Qu.: 1.800 1st Qu.:0.472
Median :25 Median : 1.836 Median : 3.018 Median :0.709
Mean :25 Mean : 2.726 Mean : 4.448 Mean :1.180
3rd Qu.:37 3rd Qu.: 3.636 3rd Qu.: 5.527 3rd Qu.:1.454
Max. :49 Max. :16.254 Max. :18.400 Max. :4.927
#nuage de point#
y=donnees$parasite
x=donnees$mort
12
plot(x, y) #fonction plot#
Ylab et xlab pour donner des étiquettes aux deux variables dans le graphe
ci-dessous.
plot(x, y, ylab="parasite (en nombre)", xlab="mort (en nombre)")
La fonction « cor(x,y) » pour décrire l’intensité de la relation entre x et y.
cor(x,y)
R répond : [1] 0.8671306 , la corrélation est forte et positive.
Tester la corrélation avec la ligne de commande suivante :
cor.test(x, y)
Pearson's product-moment correlation
data: x and y
t = 11.935, df = 47, p-value = 7.865e-16
alternative hypothesis: true correlation is not equal to 095 percent confidence interval:
0.7748750 0.9232157
13
sample estimates:
cor 0.8671306
Pour ajouter la droite de régression sur le nuage de points, on utilise la

fonction abline. Taper la ligne de commande suivante :
abline(lm(y~x))
Estimation de l’ordonnée à l’origine et la pente de la droite par la méthode

des moindre carrée en utilisant la fonction lm pour le modèle linéaire. Taper les
lignes de commande suivantes :
modele=lm(y~x)
modele
R répond:
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
0.0950 0.2439
La fonction summary va donner plus d’informations :
summary(modele)
Call:
lm(formula = y ~ x)
Residuals:
14
-0.93084 -0.24676 -0.04573 0.09866 2.50901
Coefficients:
(Intercept) 0.09500 0.12136 0.783 0.438
x 0.24389 0.02043 11.935 7.87e-16 *** (significatif)
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.563 on 47 degrees of freedom (écart type)

Multiple R-squared: 0.7519, Adjusted R-squared: 0.7466 (coefficient de determination 75,19%)
F-statistic: 142.5 on 1 and 47 DF, p-value: 7.865e-16 Call:
Avec Rcmdr
> RegModel.2 <- lm(parasite~mort, data=Dataset)

Call:
lm(formula = parasite ~ mort, data = Dataset)
Residuals:
-0.93064 -0.24676 -0.04587 0.09868 2.50710
Coefficients:
(Intercept) 0.09509 0.12134 0.784 0.437
mort 0.24391 0.02043 11.939 7.79e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
15
Intervalle de confiance: cliquer sur Modeles : Intervalle de

confiance
> library(MASS, pos=17)
> Confint(RegModel.2, level=0.95)
Estimate 2.5 % 97.5 %
(Intercept) 0.0950863 -0.149016 0.3391886
mort 0.2439094 0.202809 0.2850098
Faire la même chose avec l’autre variable
Parasité en fonction de vivants:
#nuage de point#
y=donnees$parasite
x=donnees$vivant
plot(x, y)
plot(x, y, ylab="parasite (en nombre)", xlab="vivant (en nombre)")
cor(x,y)
tester la corrélation
cor.test(x, y)
# ajouter la droite de regression sur le nuage de points#
abline(lm(y~x))
estimation de la
modele=lm(y~x)
modele
summary(modele)
16
Call:
lm(formula = y ~ x)
Residuals:
-1.6660 -0.5230 -0.2691 0.3491 2.8475
Coefficients:
(Intercept) 0.73010 0.18843 3.875 0.00033 ***
x 0.16494 0.04521 3.649 0.00066 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> Dataset <-
+
readXL("C:/Users/Hp/Desktop/ZahidiMasterFPT/ANOVA/RegreLinMasterFPT.xl
sx",
+ rownames=FALSE, header=TRUE, na="", sheet="PouRegMasterFPT",
+ stringsAsFactors=TRUE)
> editDataset(Dataset)
17
> RegModel.1 <- lm(mort~parasite, data=Dataset)
Call:
lm(formula = mort ~ parasite, data = Dataset)
Residuals:
-7.6335 -0.8461 -0.3657 0.7070 5.9301
Coefficients:
(Intercept) 0.8098 0.4178 1.938 0.0586 .
parasite 3.0832 0.2583 11.939 7.79e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> RegModel.2 <- lm(mort~vivant, data=Dataset)
18
Call:
lm(formula = mort ~ vivant, data = Dataset)
Residuals:
-6.468 -1.917 -1.060 1.004 13.027
Coefficients:
(Intercept) 2.6704 0.6471 4.127 0.000149 ***
vivant 0.6520 0.1552 4.200 0.000118 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Remarque:
Regression multiple
> Model3 <- lm(mort ~ vivant + parasite, data=Dataset)
> summary(Model3)
Call:
19
lm(formula = mort ~ vivant + parasite, data = Dataset)
Residuals:
-6.8187 -0.8337 -0.3026 0.6434 6.3099
Coefficients:
(Intercept) 0.5987 0.4236 1.413 0.1642
vivant 0.1841 0.1002 1.837 0.0727 .
parasite 2.8368 0.2854 9.939 4.95e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> LinearModel.3 <- lm(Parasite ~ Stade + Date + Stade : Date,

data=Dataset)
> summary(LinearModel.3)
Call:
lm(formula = Parasite ~ Stade + Date + Stade:Date, data = Dataset)
20
Residuals:
-11.27 -0.04 0.00 0.00 32.94
Coefficients:
(Intercept) -1.256e-15 5.725e-01 0.000 1.00000
Stade[T.2 mue] -6.207e-15 8.096e-01 0.000 1.00000
Stade[T.F1] -2.248e+00 8.096e-01 -2.777 0.00557 **
Stade[T.F2] 3.800e-02 8.096e-01 0.047 0.96257
Stade[T.F3] 4.200e-02 8.096e-01 0.052 0.95863
Stade[T.L1] 5.577e-15 8.096e-01 0.000 1.00000
Stade[T.L2f] 2.008e+00 8.096e-01 2.480 0.01325 *
Stade[T.L2m] 1.180e-01 8.096e-01 0.146 0.88414
Stade[T.Lm] -8.090e-15 8.096e-01 0.000 1.00000
Stade[T.N] -6.348e-15 8.096e-01 0.000 1.00000
Stade[T.PN] 2.400e-01 8.096e-01 0.296 0.76693
Date -2.469e-16 3.851e-02 0.000 1.00000
Stade[T.2 mue]:Date 2.311e-16 5.446e-02 0.000 1.00000
Stade[T.F1]:Date 7.120e-01 5.446e-02 13.074 < 2e-16 ***
Stade[T.F2]:Date -1.692e-03 5.446e-02 -0.031 0.97521
Stade[T.F3]:Date -7.692e-04 5.446e-02 -0.014 0.98873
Stade[T.L1]:Date 2.781e-16 5.446e-02 0.000 1.00000
Stade[T.L2f]:Date 5.169e-02 5.446e-02 0.949 0.34269
Stade[T.L2m]:Date -3.538e-03 5.446e-02 -0.065 0.94820
Stade[T.Lm]:Date 2.621e-16 5.446e-02 0.000 1.00000
21
Stade[T.N]:Date 4.048e-16 5.446e-02 0.000 1.00000
Stade[T.PN]:Date 4.412e-01 5.446e-02 8.102 1.2e-15 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
F-statistic: 65.45 on 21 and 1353 DF, p-value: < 2.2e-16
22

Régression Linéaire Simple Avec R Et R Commander

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Régression Linéaire Simple Avec R Et R Commander

Transféré par

Droits d'auteur :

Formats disponibles

Faculté Polydisciplinaire Taroudant Master PACQ Statistique avec R Zahidi A.

Régression linéaire simple avec R et R commander

De George E.P., Box, 1979.

Le principe élémentaire des statistiques descriptives consiste à résumer

1- Ajustement linéaire en statistique descriptive

On souhaite ajuster la distribution du couple de variables quantitatives (X, Y)

d(b0, b1) = ∑ (Yk - b0 - b1Xk)² (avec k=1 …. N)

(Yk - ß0 - ß1Xk)² représente le carré de la distance verticale du point (Xk, Yk) à

1.2. La droite de régression de Y par rapport à X

ß1 = Cov (X, Y) / σ ² (X) = р(X, Y) σ(Y) / σ(X)

- Les variables aléatoires έi sont indépendantes.

La σ² est appelée la variance résiduelle de Y.

Dans R les fonctions suivantes :

confint Calcule les intervalles de confiance pour la pente et l’ordonnée à

Saisir les valeurs dans R

Dans R, assignons la première distribution à un objet que l’on nomme xi :

Entrons la seconde variable dans un objet que l’on nomme yi ainsi :

Il est maintenant possible de voir comment se répartissent ces deux

On remarque une régularité dans le nuage, presque un alignement. Cet

L’équation d’une droite est de la forme y = ax + b. La méthode de la

Valeurs calculées par la commande lm()

Dans R on fera appel à la commande lm(), qui signifie linear model ou

En notation anglo-saxonne, « Intercept » correspond ici à l’ordonnée à

Pour dessiner les points et la droite, on fait :

abline(35.076, 2.745, col = "red", lwd=2)

On peut interpréter l’équation de la droite y = 2,745x + 35,076 en disant :

Maintenant que nous disposons de l’équation, on peut réaliser des

y(13) sera donc aux alentours de 70.8.

Quelle est la fiabilité de ce modèle ?

Nous avons donc obtenu un modèle statistique élémentaire, mais nous ne

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 3.75 6.50 6.50 9.25 12.00

Min. 1st Qu. Median Mean 3rd Qu. Max.

40.00 44.75 51.00 52.92 59.25 70.00

7 42,2 24,44 4,7 2

Saisir les valeurs dans R

Dans R, assignons la première distribution à un objet que l’on nomme xi,

xi <- c(295.1, 119.85, 137.43, 62.07, 91.48, 141.87, 42.2, 52.8)

[1] 295.10 119.85 137.43 62.07 91.48 141.87 42.20 52.80

Entrons la seconde variable dans un objet que l’on nomme yi (production

yi <- c(11.1, 3.4, 5.9, 5.3, 2.1, 2.9, 2, 1.6)

[1] 11.1 3.4 5.9 5.3 2.1 2.9 2.0 1.6

Pour obtenir le graphique, taper la ligne de commande suivante:

Il semblerait qu’en regardant le graphique, une relation linéaire pourrait

Taper les lignes de commande suivantes :

La pente est égale à 0,03365755 kg et l’ordonnée à l’origine est de 0,32095778 kg.

Taper la commande suivante :

10.253301 4.354815 4.946515 2.410082 3.399950 5.095954 1.741306 2.098076

f <- lm(yi ~ xi)

Taper à chaque fois entrée pour afficher les graphes :

Changement de page : attente de confirmation...

Changement de page : attente de confirmation...

Changement de page : attente de confirmation...

Taper la ligne de commande pour avoir les résultats:

Min 1Q Median 3Q Max

-2.1959 -1.0411 -0.1197 0.8734 2.8899

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.320958 1.121533 0.286 0.78437

xi 0.033658 0.007999 4.207 0.00564 **

Residual standard error: 1.718 on 6 degrees of freedom

On constate que le coefficient de détermination R² est environ égal à 74,69.

Pour récupérer les variations, taper la ligne de commande suivante :

R renvoie comme résultat :