Vous êtes sur la page 1sur 2

CEDoc RISI

Travaux pratiques sous R

Analyse de Régression Linéaire

1. Charger le fichier de données « Cars.csv » : Environnement – Import Dataset – From


Text (readr). L’étude consiste à chercher le lien entre les variables « mileage »
kilométrage, « lh labor hours » heures de travail et « lc labor cost » coût de travail.
2. Tracer le nuage de points entre les trois variables deux à deux par la fonction scatter :
scatter.smooth(x=Cars$lh, y=Cars$lc, main="LaborCost ~ LaborHours"). On peut aussi
utiliser la fonction pairs pour avoir une vision globale. Interpréter.
3. Vérifier s’il y a des points abberants (outliers) en utilisant les boites à moustaches des
trois variables.
4. Tracer les diagrammes de densité des trois variables. Interpréter.
plot(density(Cars$lh), main="Labor Hours Plot: lh", ylab="Frequency")
polygon(density(Cars$lh), col="red")
5. Calculer la corrélation entre les variables deux à deux. Interpréter les résultats.
6. Créer deux jeux de données, un premier pour le traitement et un second pour le test :
trainingRowIndex <- sample(1:nrow(Cars), 0.8*nrow(Cars))
trainingData <- Cars[trainingRowIndex, ]
testData <- Cars[-trainingRowIndex, ]
7. Extraire le modèle de régression linéaire simple entre la variable lc et la variable lh en
utilisant la fonction lm : Sregression = lm(lc ~ lh, data=trainingData). Interpréter les
résultats en se basant sur l’output de la fonction summary et de la fonction confint()qui
génère les intervalles de confiance pour les paramètres du modèle. La fonction
residuals() permet d’avoir les résidus du modèle.
8. Extraire le modèle de régression linéaire multiple entre la variable lc et les variables
mileage et lh en utilisant la fonction lm : Mregression = lm(lc ~ Mileage + lh,
data=trainingData). Interpréter les résultats.
9. Prédire les coûts de travail du jeux de données testData : lcPred <- predict(Sregression,
testData).
10. Créer un data frame contenant les valeurs réelles et prédites, visualiser le puis calculer
la corrélation entre eux.
CEDoc RISI

11. Calculer la précision MinMaxAccuracy et l’erreur MeanAbsolutePercentageError


(MAPE) du modèle.
12. Prédire le coût de travail pour 15 heures de travail en utilisant la fonction predict et
l’interval de confiance comme paramètre : predict(Sregression,
data.frame(lh=15),interval = 'confidence')
13. Comment effectuer une cross-validation ?

N.B :

Vous aimerez peut-être aussi