Vous êtes sur la page 1sur 5

2020/2021 Data Mining TP n°1 ENIT

ème
Enseignant : Walid Ayadi 2 année GI

1. Régression linéaire simple :


1.1 Les données

Pour 47 immeubles d’appartements locatifs d’une grande ville américaine, les données
fournissent le revenu net de chaque immeuble en fonction du nombre d’appartements.
Liste des variables :
– Revenu : Revenu net de chaque immeuble
– Nbappart : Nombre d’appartements de chaque immeuble

1.2 Etapes préalables

Se positionner dans le dossier qui contient les fichiers du TP1

Lire les données


don=read.table(‘donreg1.txt’,header=TRUE) ;

Etude statistique
summary(don)

Travaux Pratiques Data Mining Walid Ayadi


Interprétation :

Pour le revenu, on constate que la valeur moyenne est 92257. La médiane (qui est un
indicateur plus pertinent que la valeur moyenne) est 48008. De plus, 1rd Qu est inférieur à la
3re Qu ce qui indique que les valeurs sont plus importantes dans le 75% des observations. Le
revenu minimal est 9882. Quant au revenu maximal, il est de 562 942.
Pour le nbapp, on constate que la valeur moyenne est 41.32. La médiane est 24. D’un autre
côté, 1st Qu est inférieure à 3rd Qu. Le nbapp minimal est 12. Quant au nbapp maximal, il est
de 205.

1.3 Modélisation linéaire

Ajuster le modèle
reg=lm(revenu~nbappt,data=suit)

β0 = -4872 et β1 = 2351
la variation d’une unite du nombre d’appartement engendre un gain de 2351

summary(reg)

Travaux Pratiques Data Mining Walid Ayadi


On s’intéresse à l’étude graphique en utilisant ces codes-là :
> plot(don1$nbapp,don1$revenu)  dessiner le nuage des points
> abline(res_reg1)  dessiner la regression
> plot(res_reg1$fitted.values,rstudent(res_reg1))  l’erreur
Tout existe dans la figure ci-dessous :

Nuage des points


plot(suit$nbappt,suit$revenu)
Ajouter la droite de régression
abline(reg)

La ligne en trait plein est la droite de régression linéaire (définie par la méthode des
moindres carrés) entre les deux variables. 
Pour déterminer la droite de régression, on ajuste un modèle linéaire simple aux
données, à l’aide de la fonction “lm”.

Travaux Pratiques Data Mining Walid Ayadi


Graphique des résidus studentisés
plot(reg$fitted.values,rstudent(reg))

Que penser de cette modélisation ?

La régression linéaire simple permet d’évaluer la significativité du lien linéaire entre deux
variables. La forme linéaire entre les deux variables est donc présupposée.
Autrement dit, on fait l’hypothèse que la forme de la relation entre les variables est
linéaire. Néanmoins, il est préférable de vérifier si cette hypothèse est acceptable, ou
non, car si ce n’est pas le cas, les résultats de l’analyse n’auront pas de sens.

Travaux Pratiques Data Mining Walid Ayadi


2. Régression linéaire multiple :
2.1 Les données
Les données décrivent les résultats comptables de 80 entreprises du Royaume Uni. RETCAP
est la variable à prédire.

Descriptif des 13 variables :

RETCAP Retour sur capitaux employés


WCFTDT Ratio des flux de fonds de roulement à la dette totale
LOGSALE Chiffre d'affaires total
LOGASST Total des actifs
CURRAT Ratio de liquidité générale
QUIKRAT Ratio de liquidité
NFATAST Ratio de l'actif immobilisé net de l'actif total
FATTOT Actifs bruts au total des actifs
PAYOUT Ratio de distribution
WCFTCL Rapport du débit du fonds de roulement au total des passifs courants
GEARRAT Ratio d'endettement
CAPINT L'intensité du capital (ratio du total des ventes à l'actif total)
INVTAST Ratio du total des stocks à l'actif total

2.1 Lecture des données :

2.2 Première estimation du modèle :

Travaux Pratiques Data Mining Walid Ayadi