Vous êtes sur la page 1sur 5

Année Universitaire 2019 - 2020

Master ID & PPDE


TD Datamining: Les techniques prédictives

Pr. A. EL OUARDIGHI

1
Année Universitaire 2019 - 2020

Prédiction par Régression linéaire multiple

Définition du problème et des objectifs


Ce travail est axé sur deux objectifs, dans un premier temps nous souhaitons construire un
modèle permettant d’estimer les ventes d’un produit en fonction de huit variables potentiellement
explicatives, et dans un deuxième temps identifier les facteurs qui influencent le plus sur les ventes
de ce produit:
X1= Marché total (MT) X2=Remises aux grossistes (RG) X3=Prix (P)
X4=Budget de recherche (BR) X5=Investissement (I) X6=Publicité (P)
X7=Frais de ventes (FV) X8=Total budget publicité (TPUB)
Variable à estimer : ventes

Sources de données
 Fichier source VENTES.arff
o 9 variables, continues,
o 30 enregistrements.
Pour développer un modèle de régression multiple permettant d’estimer les ventes du produit, Nous
avons appliqué la technique de régression sur les données ventes utilisant l’outil WEKA. Les résultats
obtenus sont reportés dans l’annexe 1.
1. Justifier le choix de cette technique.
Rép.
Variable de sortie (vente) numérique et on a au moins une variable d’entrée numérique
2. Donner l’équation du modèle.
Rép.
VENTE = 4.4139 * MT + 0.8219 * RG -7.0874 * P -4.5053 * BR + 2.1032 * I + 7.3457 *
PUB + 1.0813 * FR + 0.2942 * TPUB + 2900.0716
3. Analyser la qualité du modèle développé.
Rép.
R= 0.88 la corrélation entre la variable vente et les autres variables est de l’ordre de 0.88
R2 = 0.77 la part expliqué par le modèle est de 77%, 23% non expliqué par le modèle

2
Année Universitaire 2019 - 2020

Pour développer un modèle de régression linéaire avec un jeu de variables réduit, nous avons appliqué
la méthode d’élimination M5 Methode de WEKA. Les résultats obtenus sont reporté dans l’annexe 2.
4. Donner la nouvelle équation de ce modèle.
Rép.
VENTE = 4.6325 * MT + 2.1738 * I + 6.633 * PUB + 2712.0361

5. Analyser la qualité du modèle développé.


Rép.
R= 0.87 la corrélation entre la variable vente et les autres variables est de l’ordre de 0.88
R2 = 0.75 la part expliqué par le modèle est de 75%, 25% non expliqué par le modèle
6. Comparer avec celui développé avec toutes les variables.
Rép.
Une légère dégradation du modèle
7. Quelles sont les variables qui influences le plus sur les ventes. Justifier votre question
Rép.
MT, I et PUB ceux retenu par la méthode d’élimination

3
Année Universitaire 2019 - 2020

Annexe 1
Régression linéaire multiple utilisant l’open source WEKA

=== Run information ===

Scheme: weka.classifiers.functions.LinearRegression -S 1 -R 1.0E-8


Relation: VENTES
Instances: 30
Attributes: 9
MT
RG
P
BR
I
PUB
FR
TPUB
VENTE
Test mode: evaluate on training data

=== Classifier model (full training set) ===

Linear Regression Model

VENTE =

4.4139 * MT +
0.8219 * RG +
-7.0874 * P +
-4.5053 * BR +
2.1032 * I +
7.3457 * PUB +
1.0813 * FR +
0.2942 * TPUB +
2900.0716

Time taken to build model: 0.05 seconds

=== Evaluation on training set ===


=== Summary ===

Correlation coefficient 0.8804


Mean absolute error 194.5443
Root mean squared error 241.1248
Relative absolute error 48.8323 %
Root relative squared error 47.4303 %
Total Number of Instances 30

4
Année Universitaire 2019 - 2020

Annexe 2:

Régression linéaire utilisant la méthode d’élimination M5 Methode de WEKA


=== Run information ===

Scheme: weka.classifiers.functions.LinearRegression -S 0 -R 1.0E-8


Relation: VENTES
Instances: 30
Attributes: 9
MT
RG
P
BR
I
PUB
FR
TPUB
VENTE
Test mode: evaluate on training data

=== Classifier model (full training set) ===

Linear Regression Model

VENTE =

4.6325 * MT +
2.1738 * I +
6.633 * PUB +
2712.0361

Time taken to build model: 0.02 seconds

=== Evaluation on training set ===


=== Summary ===

Correlation coefficient 0.8722


Mean absolute error 206.446
Root mean squared error 248.6855
Relative absolute error 51.8198 %
Root relative squared error 48.9176 %
Total Number of Instances 30

Vous aimerez peut-être aussi