Correction TD Datamining Technique de Régression

Année Universitaire 2019 - 2020
Master ID & PPDE

TD Datamining: Les techniques prédictives
Pr. A. EL OUARDIGHI
1
Prédiction par Régression linéaire multiple
Définition du problème et des objectifs

Ce travail est axé sur deux objectifs, dans un premier temps nous souhaitons construire un
modèle permettant d’estimer les ventes d’un produit en fonction de huit variables potentiellement
explicatives, et dans un deuxième temps identifier les facteurs qui influencent le plus sur les ventes
de ce produit:
X1= Marché total (MT) X2=Remises aux grossistes (RG) X3=Prix (P)
X4=Budget de recherche (BR) X5=Investissement (I) X6=Publicité (P)
X7=Frais de ventes (FV) X8=Total budget publicité (TPUB)
Variable à estimer : ventes
Sources de données
 Fichier source VENTES.arff
o 9 variables, continues,
o 30 enregistrements.
Pour développer un modèle de régression multiple permettant d’estimer les ventes du produit, Nous
avons appliqué la technique de régression sur les données ventes utilisant l’outil WEKA. Les résultats
obtenus sont reportés dans l’annexe 1.
1. Justifier le choix de cette technique.
Rép.
Variable de sortie (vente) numérique et on a au moins une variable d’entrée numérique
2. Donner l’équation du modèle.
Rép.
VENTE = 4.4139 * MT + 0.8219 * RG -7.0874 * P -4.5053 * BR + 2.1032 * I + 7.3457 *
PUB + 1.0813 * FR + 0.2942 * TPUB + 2900.0716
3. Analyser la qualité du modèle développé.
Rép.
R= 0.88 la corrélation entre la variable vente et les autres variables est de l’ordre de 0.88
R2 = 0.77 la part expliqué par le modèle est de 77%, 23% non expliqué par le modèle
2
Pour développer un modèle de régression linéaire avec un jeu de variables réduit, nous avons appliqué
la méthode d’élimination M5 Methode de WEKA. Les résultats obtenus sont reporté dans l’annexe 2.
4. Donner la nouvelle équation de ce modèle.
Rép.
VENTE = 4.6325 * MT + 2.1738 * I + 6.633 * PUB + 2712.0361
5. Analyser la qualité du modèle développé.

Rép.
R= 0.87 la corrélation entre la variable vente et les autres variables est de l’ordre de 0.88
R2 = 0.75 la part expliqué par le modèle est de 75%, 25% non expliqué par le modèle
6. Comparer avec celui développé avec toutes les variables.
Rép.
Une légère dégradation du modèle
7. Quelles sont les variables qui influences le plus sur les ventes. Justifier votre question
Rép.
MT, I et PUB ceux retenu par la méthode d’élimination
3
Annexe 1
Régression linéaire multiple utilisant l’open source WEKA
=== Run information ===
Scheme: weka.classifiers.functions.LinearRegression -S 1 -R 1.0E-8

Relation: VENTES
Instances: 30
Attributes: 9
MT
RG
P
BR
I
PUB
FR
TPUB
VENTE
Test mode: evaluate on training data
=== Classifier model (full training set) ===
Linear Regression Model
VENTE =
4.4139 * MT +
0.8219 * RG +
-7.0874 * P +
-4.5053 * BR +
2.1032 * I +
7.3457 * PUB +
1.0813 * FR +
0.2942 * TPUB +
2900.0716
Time taken to build model: 0.05 seconds
=== Evaluation on training set ===

=== Summary ===
Correlation coefficient 0.8804

Mean absolute error 194.5443
Root mean squared error 241.1248
Relative absolute error 48.8323 %
Root relative squared error 47.4303 %
Total Number of Instances 30
4
Annexe 2:
Régression linéaire utilisant la méthode d’élimination M5 Methode de WEKA

=== Run information ===
Scheme: weka.classifiers.functions.LinearRegression -S 0 -R 1.0E-8

Relation: VENTES
Instances: 30
Attributes: 9
MT
RG
P
BR
I
PUB
FR
TPUB
VENTE
Test mode: evaluate on training data
=== Classifier model (full training set) ===
Linear Regression Model
VENTE =
4.6325 * MT +
2.1738 * I +
6.633 * PUB +
2712.0361
Time taken to build model: 0.02 seconds
=== Evaluation on training set ===

=== Summary ===
Correlation coefficient 0.8722

Mean absolute error 206.446
Root mean squared error 248.6855
Relative absolute error 51.8198 %
Root relative squared error 48.9176 %
Total Number of Instances 30

Correction TD Datamining Technique de Régression

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Correction TD Datamining Technique de Régression

Transféré par

Droits d'auteur :

Formats disponibles

Année Universitaire 2019 - 2020

Master ID & PPDE

Prédiction par Régression linéaire multiple

Définition du problème et des objectifs

5. Analyser la qualité du modèle développé.

=== Run information ===

Scheme: weka.classifiers.functions.LinearRegression -S 1 -R 1.0E-8

=== Classifier model (full training set) ===

Linear Regression Model

Time taken to build model: 0.05 seconds

=== Evaluation on training set ===

Correlation coefficient 0.8804

Régression linéaire utilisant la méthode d’élimination M5 Methode de WEKA

Scheme: weka.classifiers.functions.LinearRegression -S 0 -R 1.0E-8

=== Classifier model (full training set) ===

Linear Regression Model

Time taken to build model: 0.02 seconds

=== Evaluation on training set ===

Correlation coefficient 0.8722

Vous aimerez peut-être aussi