Vous êtes sur la page 1sur 24

République du Sénégal

Un Peuple - Un But - Une Foi


**********************

Institut de Recherche en Economie et Statistique

*****************************

Dakar School Of Economics

_____________________________________
___

Projet Econométrique :
***********
Analyse de la puissance des véhicules:
(cas de la Suisse).

Realisé par :
✓ Abdi-Basid
Abdi-Basid Ibrahim Adan
ADAN
✓ MahadMahamoudWaiss

1
Mars 2016
Tables des Matières

Liste des abréviations


Liste des tableaux
Liste des graphiques
Liste des références

Introduction……………………………………………………………………2

I- Construction du Modèle…………………………………………………….……..4

II- Analyses descriptives univariées…………….…………….…………….……..….6

III- Analyses descriptives bivariées…………….…………….…………….…………14

IV- Analyse économétrique…………….…………….…………….…………….…...16

Conclusion…………….…………….…………….…………….…………….………….23

Annexe…………….…………….…………….…………….…………….…………….24

2
Introduction

L'économétrie est une branche de la science économique qui a pour objectif de


déterminé une estimation du modèle et en même temps de tester les modèles, à partir
de données issues de l'observation du fonctionnement réel de l'économie ou provenant
d'expériences contrôlées.
En effet, Il est le principal outil d’analyse quantitative utilisé par les économistes et
gestionnaires dans divers domaines d’application, comme la macroéconomie, la
finance ou le marketing. Par ailleurs, les méthodes de l’économétrie permettent, non
seulement de vérifier l’existence de certaines relations entre des phénomènes
économiques, mais aussi de mesurer concrètement ces relations, sur la base
d’observations de faits réels. Dans son acception la plus restreinte, on dit que
l’économétrie est un ensemble de techniques utilisant la statistique mathématique qui
vérifient la validité empirique des relations supposées entre les phénomènes
économiques et mesurent les paramètres de ces relations.

Au sens large, l’économétrie est l’art de construction et d’estimation des modèles


empiriques adéquats par rapport aux caractéristiques de la réalité, et intelligibles au
regard de la théorie économique.
Effectivement, par le biais des méthodes de l’analyse économétrique, nous souhaitons
dans ce projet, de pouvoir comprendre, d’avantage, de quoi dépend la puissance d’une
voiture, en d’autre terme, il s’agit d’analyser la puissance d’une trentaine de véhicules
en fonction de leurs poids (en KG), de leurs cylindres(en cm3), de leurs prix (en Frs)
et de leurs consommation (en l/100km). Pour ce faire, nous serons, en mésure, de se
focalisé d’une base de données réalisé en suisse.

Dans ce cas, comment allons nous s’y prendre cette rèlation fonctionnelle pour la
modélisée?
Néanmoins une fois modélisée, comment allons-nous, par la suite, tester notre
modèle, estimé et finalement validé, afin de pouvoir entamer l’interprétation du
phénomène que l’on étudie ?

Pour y répondre à nos problématiques, nous serons, en mesure, d’étudier la


description statistique de nos variables, ensuite appréhender les interactions
éventuelles pouvant exister entre celles-ci et enfin de mené une analyse purement
économétrique.

3
I- Construction du Modèle

Un modèle économétrique est une formalisation ou une représentation formalisée d'un


phénomène sous forme d'équations dont les variables sont des grandeurs économiques.
Tout modèle économétrique est inévitablement une simplification de la réalité par lequel le
modélisateur cherche à saisir les traits fondamentaux du système qu'il cherche à styliser, en
d'autres termes, le modèle est un outil que le modélisateur utilise lorsqu'il cherche à
comprendre et à utiliser ou expliquer les phénomènes.
Les variables qui entrent dans le modèle sont déterminées :
✓ Soit par la théorie économique ;
✓ Soit par les études déjà existantes qui peuvent fournir aussi des variables
additionnelles ;
✓ Soit par l'information ad hoc.
Il faut signaler que le modèle ne doit pas inclure toutes les variables explicatives mais
seulement les variables les plus pertinentes. L'influence des variables moins importantes non
incluses dans le modèle, est en compte dans le modèle par la variable aléatoire.

1- Enonciation des hypothèses

Une hypothèse est une proposition ou une explication que l'on se contente d'énoncer sans
prendre position sur son caractère véridique, c'est-à-dire sans l'affirmer ou la nier. Il s'agit
donc d'une simple supposition, appartenant au domaine du possible ou du probable. Une fois
énoncée, une hypothèse peut être étudiée, confrontée, utilisée, discutée ou traitée de toute
autre façon jugée nécessaire, par exemple dans le cadre d'une démarche expérimentale.
En effet, établissant les hypothèses sur la puissance d’une voiture :

 La puissance d’une voiture, qui est en effet, la capacité motrice qui fait rouler la voiture
dépend essentiellement de son poids.
 La puissance d’une voiture, serait plutôt, en fonction de la consommation et du poids de
celle-ci.
 Plus une voiture est puissante plus son cylindre est volumineux.
 La voiture la plus chère est inévitablement la voiture la plus puissante.
 La puissance d’une voiture ne dépend ni de sa consommation ni de son poids, mais
plutôt, de son prix et de son cylindrée.

4
2- Formalisation du modèle

La modélisation est définie comme étant une formalisation ou une représentation formalisée
d’un phénomène sous forme d’équation dont les variables sont des grandeurs économiques.
Dans notre cadre, il est question de formalisé la puissance d’une véhicule en fonction de sa
consommation, de son poids, de son prix et de son cylindrée.
Dans cette condition, nous avons à faire à une modélisation linéaire généralisée, qui se
formalise sous la forme ci-dessous :
Etant donné un échantillon (Yi, X{i1}, X{ip}), tel que i = {1,…, 31}, nous cherchons à
expliquer, avec le plus de précision possible, les valeurs prises par Yi (Puissance) , dite
variable endogène, (à expliqué ou dépendante), à partir d'une série de variables explicatives
(X{i1},….., X{ip}), il s’agit : le poids, le prix , le cylindrée et la consommation, avec p = 4,
car il ya quatre variable explicatives.
Le modèle théorique, formulé en termes de variables aléatoires, prend la forme :
Yi = a0 + a1 Xi1 + a2 Xi2 + a3 Xi3 + a4 Xi4 + Ei, (i = 1… 31) et (p = 1… 4).

OùEiest l'erreur du modèle qui exprime, ou résume, l'information manquante dans l'explication
linéaire des valeurs de Yi à partir des (X {i1},…..., X {ip}) ( dû à des problèmes de
spécifications, variables non prises en compte, etc.) ; et a0,…, ap sont les paramètres à estimer.

3- Estimations du modèle
L’estimation du modèle consiste à calculer la valeur prédite de la puissance par la méthode de
moindre carré généralisé (MCG).
Elle est une phase non négligeable dans l’analyse économétrique, car c’est à partirdu quel on
construit le tableau d’ANOVA (la somme carré résiduels, la somme carré de la régression les
moyens des carrés).

Graphique 1: La courbe du modèle et sa prédiction par la méthode MCG.

Sources : Excel, 2016

Nous constatons aussi bien que la puissance prédite, ici en rouge,surpasse presque
parfaitement la puissance du phénomène observé, colorié en bleu. Obtenue en estimant les
paramètres du modèle par la méthode de moindre carré généralisé.
On constate d’autre part, un pic de puissance pour les voitures Mercedes s 6000, Opel Astra 1
61 16v et Toyota Corolla.

Cependant, nous cherchons àcomprendre les éléments en fonction de la puissance, autre ente
les éléments dont la puissance dépend.

5
4- Validation du modèle

La validation du modèle linaire multiple ou linéaire généralisé correspond à vérifier si ce


dernier valide bien les neuf hypothèses suivantes :

 H1 : Le modèle est linéaire en Xt,


 H2 : Les Xt sont observés sans erreurs
 H3 : Le modèle est bien spécifique et l’erreur moyen est u : E(£) = 0
 H4 : La variance de l’erreur est constante, l’homocédasticité : E (£²) =
 H5 : Absence d’autocorrélation, pour tout t’≠t E (£t’, £t) = 0
 H6 : l’erreur est indépendant de la variable explicative : cov (Xt, £t) = 0
 H7 : Absence de colinéarité entre les variables explicatives du modèle : l’inverse (X’X)
existe.
 H8 : (X’X)/n tend vers une matrice finie non inversible ou non régulier.
 H9 : le nombre d’observation doit être supérieur au nombre de variables explicatives :
n>k+1

En effet, nous aurons l’occasion de vérifier ces postulats dans la quatrième partie de ce
rapport de l’analyse de l’économétrie.

II- Analyses descriptives univariées

La première technique des analystes statistiques s’attache à une seule série d'une variable ou à
une seule mesure (même s’il y a plusieurs échantillons) et offre le plus de possibilités de
représentations graphiques et des calcules des indicateurs.

Cependant, elle varie en fonction de la variable : si la variable est qualitative, on présente


les proportions des différentes modalités de la variable étudiée (graphique circulaire,
camembert, en bande,… par exemple) sans donner lieu à des calculs.
Ainsi, sur une seule variable quantitative, on peut établir la moyenne, l’écart-type, les
quantiles…etc., avec des graphiques (en bâton, courbe cumulative croissant et décroissante).

Dans notre cadre, nous serons en mesure d’étudier les calculs des indicateurs, les box plots et
les densités des variables.

6
1. Calcul des indicateurs
Les calculs des indicateurs statistiques se subdivisent, généralement, en trois grande famille
de tendances à savoir : les tendances centrale (la moyenne, la médiane,…) ; les tendances de
dispersions (la variance, l’ecartype,…) et enfin les tendances d’asymétriques et
d’aplatissements (coefficient d’aplatissement et d’asymétrique,…).

Tableau1 :Calcul des indicateurs

Sources : Stata, 2016

Le tableau ci-dessous décrit statistiquement nos variables sur 31 observations. On voit que le
prix de(s) véhicule(s) le plus élevé(s) coût 285000 francs contre 10450francs, la voiture(s) la
moins chère. D’autre part le(s) prix est plus dispersé(s),car sa moyenne ne varie pas autour de
sa variance. Elle est due essentiellement à la présence des valeurs aberrantes ou atypique que
nous allons voir dans la représentation de Box plot.

De même, le cylindre de véhicule(s) le plus volumineux mesure 5987 cm3 contre 658 cm3,
la voiture, la moins volumineux en termes de cylindre, la variable cylindre est plus dispersée,
car sa moyenne n’est pas autour de sa variance.

En effet, la(es) voiture(s) la plus puissante(s) à une capacité de 325 KW contre 29 KW, la
variable puissance est aussi dispersée, car sa moyenne ne varie autour de sa variance.

Effectivement, le poids de véhicule(s) le plus lourd mesure 2250kg contre 650kg la(es)
voiture(s) la plus légère(s), cette variables est aussi plus dispersé, car sa moyenne ne varie pas
autour de sa variance.

En fin, la(es) voiture(s) qui consomme le plus d’essence est de 21.3 l/km, contre 5.7l/km, la
(es) voiture (s) qui consomme le moins d’essence possible, sa variance est également dispersé,
parce que sa moyenne est considérablement élève par rapport a sa variance.

2. Diagramme des variables


La construction de diagramme s’effectue en fonction de la nature des variables. En effet, nous
aurons l’occasion de représenté graphiquement des variables quantitativement discrètes par le
biais de Boite à moustache, de représentation de densité des variables…., que nous aurons
l’opportunité de voir ci-dessous.

7
2.1.1 Boite à moustache

La boîte à moustache, ou diagramme en boîte, ou encore box plot en anglais, est un


diagramme simple qui permet de représenter la distribution d’une variable, en générale, ce
diagramme est composé de trois éléments à savoir:

On identifiant la plus petite et la plus grande observation comprise entre ces bornes. Ces
observations sont appelés “valeurs adjacentes”, les valeurs au delà du borne sont appelés des
valeurs extrêmes.
Les bornes de la boîte à moustache de variable par variable est plus intéressante cette fois ci
pour décrire chaque variables graphiquement et déterminer les valeurs extrêmes.
Dans notre cadre, nous obtenons les boites à moustaches représenté ci-dessous :

Graphique 2: Représentation séparé en Boite à moustache des variables

Prix Poids Cylindrée

6000
250000

2000

5000
4000
150000

1500

3000
2000
1000
50000

1000
0

Consommation Puissance
300
20

250
15

200
150
10

100
50

Sources :R, 2016

La représentation graphique des variables ci-dessus, illustre d’une part, l’existence des
valeursextrêmes décrit par ici avec la présence de pointéau dessous de box plot.
Il se pourrait l’existence des valeurs au delà de la réalité du phénomène observé. Les bornes
de la boîte à moustache de la variable prix s’étendent du premier quartile (19820) au
troisième quartile (3939) en passant par la médiane (28750), avec l’existence de trois valeurs
extrêmes.Les valeurs adjacentes de la variable Poids sont comprises entre le premier quartile
(1042) et le troisième quartile (1525)en passant par la médiane (1155), cette variable présente
une valeur aberrante. Les bornes de la boite à moustache de la variable Cylindre est comprise
entre le premier quartile (1390) au troisième quartile (2456) en passant par la médiane (1984),
avec l’existence de deux valeurs extrêmes. Les valeurs adjacentes de la variable Puissance
sont comprises entre le premier quartile (55.0) et le troisième quartile (106.5)en passant par la
médiane (85.0), cette variable présente trois valeurs extrêmes. Les bornes de la boite à
moustache de la variable Consommation est comprise entre le premier quartile (7.250) au
troisième quartile (11.650) en passant par la médiane (19.300), avec l’existence de deux
valeurs extrêmes.
8
2.2.2Densité des variables

Le graphique de densité est un outil « visuel » qui permet de détecter certaines anomalies ou
de faire un diagnostic avant d’engager une démarche d’amélioration. Utilisé dans ce cadre, il
est un outil « qualitatif ». Pour pouvoir bien mener l’étude de la dispersion d’une variable à
l’aide d’un ou de plusieurs histogrammes, il faut avoir une bonne connaissance de la variable
étudiée. De même, il faut connaître les conditions de collecte des données : fréquence de
mesure, outil de mesure utilisé, possibilité de mélange de lots, possibilité de tri etc.

Graphique 3: Les densités de variables

prix Poids Puissance


0.0015

0.010
1.5e-05

0.008
0.0010
1.0e-05

0.006
Density

Density

Density

0.004
0.0005
5.0e-06

0.002
0.0e+00

0.0000

0.000
0 50000 100000 150000 200000 250000 300000 1000 1500 2000 0 50 100 150 200 250 300 350

d$Prix d$Poids d$Puissance

Cylindrée Consommation
0.15
0e+00 1e-04 2e-04 3e-04 4e-04 5e-04

0.10
Density

Density

0.05
0.00

0 1000 2000 3000 4000 5000 6000 5 10 15 20

d$Cylindrée d$Consommation

Sources : Excel, 2016

 Pour l’histogramme de la variable Prix, nous constatons, en effet l’homogénéité de la


population de puissance.
 En termes de densité, on a bien un pic qui correspond à une seule mode unique,
autrement à un effectif élevé d’une valeur possible.
 L variable Poids est aussi homogène, car elle ne possède une seule bosse. Ainsi pour la
variable puissance, on constate l‘homogénéité de la population, qui correspond à
l’existence d’un mode unique.
 D’autre part, pour la variable cylindre, on remarque la présence d’une homogénéité de
la population, car nous avons une seule bosse.
 Enfin, ce qui n’est pas le cas pour la variable Consommation qui admet deux bosse,
donc l’hétérogénéité de la population, entre autre l’existence de deux sous population
dominante.

9
III- Analyses descriptives bivariées (conjointe)
L’analyse bi variée est une technique d’analyse statistique des données, consistant à découvrir
les relations qui peuvent exister entre les variables prises deux par deux et utilise les mesures
d'association entre deux variables à différents niveaux de mesure (X² coefficient de
contingence, coefficients j et l de Guttman, coefficient de différenciation, coefficient de
corrélation de rang de Spearman, le t de Kendall, le g de Goodman-Krushal, le coefficient point
bisérial et multisérial, le coefficient de corrélation de Pearson...).
Dans notre cadre, nous allons appréhender les relations éventuels qui existent entre les variable
du quantitative prisent deux à deux en utilisant le test de khi-deux et le coefficient de cramer.

1- Liaison entre deux variables (cas de régression)


Le nuage de point reflète le lien qui existe entre deux variables quantitatives.
Elle peut, cependant, avoir plusieurs tendances : linéaire, polynomiale, exponentiel,
rationnel…etc.
Dans notre cadre, le nuage de point entre nos variables se décrit des façons suivantes :

Graphique 4: Régression linéaire simple

puissance=f(Cylindrée) puissance=f(Consommation)
150 250

150 250
Puissance

Puissance
50

50

1000 3000 5000 10 15 20

Cylindrée Consommation

puissance=f(Poids) puissance=f(Prix)
150 250

150 250
Puissance

Puissance
50

50

1000 1500 2000 1000 1500 2000

Proids Prix

Sources : R, 2016

Le nuage de points entre la variable puissance et Cylindre nous illustre un ajustement


linéaire, qui traduit une liaison fonctionnelle que le coefficient de corrélation nous en dira
d’avantage. De même, on constate, un ajustement qui passe au plus prés des points de
nuages entre ces différents variables, il s’agit, en effet, entre les variables puissance et
consommation, puissance et poids et enfin puissance et prix.

10
Graphique 5: Matrice de régression linéaire simple

1000 4000 1000 2000

0 150000
Prix
1000 4000

Cy lindrée

50 150 300
Puis s anc e
1000 2000

Poids

10 15 20
Cons ommation

0 150000 50 150 300 10 15 20

Sources : R, 2016

Autre perception de nuages des points, celle de matrice de nuage des points, qui illustre les
liaisons linéaires, fonctionnelle entre les variables.

2- Liaison entre deux variables (cas de corrélation)

2.1 Matrice de corrélation


La matrice des corrélations est tout simplement la matrice des coefficients de corrélation
calculés sur plusieurs variables quantitatives prises deux à deux.
En général, il s’agit des coefficients de corrélation linéaire de Pearson. C’est donc aussi la
matrice des variances-covariances de variables réduites. La matrice est évidemment
symétrique et sa diagonale est constituée de 1, puisque la corrélation d’une variable avec elle-
même est parfaite. Donc, sa trace est égale au nombre de variables.
En effet, une matrice des corrélations permet de détecter rapidement certaines liaisons. C’est
donc en amont des études qu’on l’utilise. Toutefois, dès que le nombre de variables devient
important, les interprétations deviennent difficiles et on se tourne souvent vers les analyses
factorielles.
Il existe, pour autant, sept types de corrélations à savoir :
0:corrélation nulle,
[0-0,2]: corrélation très faible ;
[0,2-0,4] : corrélation faible
[0,4-0,6] : corrélation moyenne ;
[0,6-0,8] : corrélation fort,
[0,8-1] : corrélation très forte
1 : corrélation parfaite.

11
Tableau2 : Matrice de corrélation

Sources : Stata, 2016

La matrice de corrélation, nous traduit le degré de liaison entre deux variables quantitatives, on
remarque, par ailleurs, différents degrés de corrélations entre plusieurs variables, il s’agit :

 Corrélation très forte : [0,8-1]: Puissance et prix ; Puissance et cylindre, Puissance et


consommation.
 corrélation fort : [0,6-0,8] : Poix et Prix et puissance et poids.

2.1.Test de corrélation de pearson

Effectivement, nous allons nous donner l’opportunité de voir la significativité des


coefficientdecorrélationsdes variables par le biais de test de corrélation de Pearson.

Dans ce cas, vérifions la significativité des corrélations entre las variables fortement
corrélés.

Test de corrélation de Pearson entre puissance et Poids

Sources : R, 2016

H0 : la corrélation est nulle


H1 : la corrélation est différente de 0

On confrontant le p-value au seuil de risque alpha à 5%, nous constatons que le p-value est
inferieur a 5%, alors on rejette l’hypothèse nulle, la corrélation entre Puissance et poids est
significativement différentes de zéro. Par ailleurs, il existe 95% de chance que la vraie valeur
la valeur testé de coefficient de corrélation se trouve dans l’intervalle de confiance :
[0.587,0888]

12
Test de corrélation de Pearson entre Puissance et consommation

Sources : R, 2016

H0 : la corrélation est nulle


H1 : la corrélation est différente de 0

On confrontant le p-value au seuil de risque alpha à 5%, nous constatons que le p-value est
inferieur a 5%, alors on rejette l’hypothèse nulle, la corrélation entre Puissance et
consommation est significativement différentes de zéro. Par ailleurs, il existe 95% de chance
que la vraie valeur la valeur testé de coefficient de corrélation se trouve dans l’intervalle de
confiance : [0.903 ; 0.977]

Test de corrélation de Pearson entre puissance et Prix

Sources : R, 2016

H0 : la corrélation est nulle


H1 : la corrélation est différente de 0

On confrontant le p-value au seuil de risque alpha à 5%, nous constatons que le p-value est
inferieur a 5%, alors on rejette l’hypothèse nulle, la corrélation entre Puissance et Prix est
significativement différentes de zéro. Par ailleurs, il existe 95% de chance que la vraie valeur
la valeur testé de coefficient de corrélation se trouve dans l’intervalle de confiance : [0.8686;
0.968]

13
Test de corrélation de Pearson entre puissance et Cylindré

Sources : R, 2016

H0 : la corrélation est nulle


H1 : la corrélation est différente de 0

On confrontant le p-value au seuil de risque alpha à 5%, nous constatons que le p-value est
inferieur a 5%, alors on rejette l’hypothèse nulle, la corrélation entre Puissance et Cylindré est
significativement différentes de zéro. Par ailleurs, il existe 95% de chance que la vraie valeur
la valeur testé de coefficient de corrélation se trouve dans l’intervalle de confiance : [0.9229;
0.981].

IV- Analyse économétrique


L’analyse économétrique consiste, d’abord,à partir d’une théorie, de la formalisé sous forme
d’un modèle dont les équations sont des grandeurs économiques. Puis l’estimé le modèle pour
pouvoir déterminer les résidus, en d’autre terme les variables explicatives absente d’une
modèle.

Ensuite, vient l’avant dernier phase, en occurrence la validation du pour pouvoir passer
finalement à l’interprétation du modèle.

1. Modèle linéaire multiple


L’une de première hypothèsedu modèle de régression linéaire multiple que nous allons
entamer à vérifier est celui de lanormalité de la distribution des termes,.Il va donc falloir tester
si cette hypothèse est respectée, en premier lieu.
Il s’agit de vérifier si les termes d'erreurssont distribues selon une loin normale. Des
vraistermes d'erreurs inobservables "suivent ou non une loi normale.Si, les erreurs n'est pas
vérifie, cela viendra mettre à mal les résultatsde nombreux tests paramétriques.
Quand n est grand, le modèlelinéaire admet une propriété derobustesse impliquant que, sous
un certains nombre d'hypothèses très générales, la propriété de normalité des résidus restera
vraie (loi des grands nombres et théorème central limite).

14
Tableau 3 : résumé de la régression

Sources : Stata, 2016

Il s’agit d’une modélisation linéaire généralisé, traduit par la puissance en fonction de du

Yi=-27.25+7.76*consommation – 0.211*Poids + 0.0298*cylindre + 0.000257*Prix + Ei.

En vérifiant, la qualité de ce modèle,parle biais de coefficient de déterminations : R², nous


constatons qu’il vaut 0.9626, donc proche de 1, alors meilleur est l’ajustement, la
connaissance de cylindre, du prix, du poids, et de consommation de véhicule permet de
devenir avec précision celle de la puissance du véhicule.

Il y’a 99% de chance que la vraie valeur de ces coefficients appartient à leurs intervalles
respectives.

Par ailleurs, si nous vérifions la significativité de ces coefficients, on constate que seuls
cylindre, consommation et le terme constant sont significatifs, vérifions les hypothèses du
modèle de régression linéaire multiple sont respectés.

Tableau 4 : TestSkewness/Kurtosis normalité des résidus

Sources : Stata, 2016

H0 : Normalisation des résidus


H1 : les résidus ne suivent pas une loi normale

Selon le test de Skewness et Kurtosis de normalité des résidus, on confrontant le p-value au


seuil de risque alpha 5%, nous parvenons à rejeter l’hypothèse H0, donc les résidus ne suivent
pas une loi normale centrée. En conséquence de quoi, il faudrait spécifier notre modèle en
appliquant la fonction Logarithme Népérien sur (ln) l’ensemble de nos variables.

15
Tableau5 : test Shapiro wilk normalité des erreurs

Sources : Stata, 2016

H0 : Normalisation de donnée
H1 : Le donnée ne suit pas une loi normale

Selon le test de Shapiro Wilk de normalité de notre données, on confrontant le p-value au


seuil de risque alpha 5%, nous parvenons à rejeter l’hypothèse H0, donc le donne ne suit pas
une loi normale. En conséquence de quoi, avec confirmation, il faudrait spécifier notre
modèle en appliquant la fonction Logarithme Népérien sur (ln) l’ensemble de nos variables.

2. Logarithme Népérien de la Régression Linéaire Multiple

a- Tableau 6 : Résumé de la régression

Sources : Stata, 2016

En vérifiant, le modèle de logarithme Népérien de la régression, la qualité du modèle semble


être très bonne avec R²=0.953, car elle est proche de 1, alors meilleur est l’ajustement, la
ln(connaissance) de ln(cylindre), du ln(prix), du ln(poids), et de ln( consommation) de
véhicule permet de devenir avec précision celle de la puissance du véhicule.

Il y’a 99% de chance que la vraie valeur de ces coefficients estimés par la moindre carré
généralisés appartient à leurs intervalles de confiances respectives.

Par ailleurs, si nous vérifions la significativité de ces coefficients, on constate que seuls Prix
et consommation sont significatifs, vérifions les hypothèses du modèle de régression linéaire
multiple sont respectés.

16
3. Normalité des résidus

Tableau 7: Test Skewness/Kurtosis normalité des résidus

Sources : Stata, 2016

H0 : Normalisation des résidus


H1 : les résidus ne suivent pas une loi normale

Selon le test de Skewness et Kurtosis de normalité des résidus, on confrontant le p-value au


seuil de risque alpha 5%, nous parvenons à accepter l’hypothèse H0, donc les résidus suivent
pas une loi normale centrée. En conséquence de quoi, l’hypothèse H3 est vérifiée, donc le
modèle est bien spécifique et l’erreur moyenne est u

Tableau8: test Shapiro wilk normalité des erreurs:

Sources : Stata, 2016

H0 : Normalisation de donnée
H1 : Le donnée ne suit pas une loi normale

Selon le test de Shapiro Wilk de normalité de notre données, on confrontant le p-value au


seuil de risque alpha 5%, nous parvenons à accepter l’hypothèse H0, donc le donnée suit une
loi normale. En conséquence de quoi, avec confirmation, notre modèle est bien spécifique et
l’erreur moyenne est u.

17
Tableau 9: Test student de comparaison de moyenne pour vérifier si la moyenne est nulle :

Sources : Stata, 2016

H0 : la moyenne est nulle


H1 : la moyenne est différente de zéro.

Selon le test de Student de comparaison de moyenne, on confrontant le p-value au seuil de


risque alpha 5%, nous parvenons à accepter l’hypothèse H0, le test bilatérale ou
unilatéralement à gauche ou à droite.

4. Constance des variances

Tableau 10 : Test Breusch-Pagan heterodasticité

Sources : Stata, 2016

H0 : Constante de variance / homocédasticité


H1 : Non constance de variance / heterodasticité

Selon le test de Breusch-Pagan d’hétérocedasticité, on confrontant le p-value au seuil de


risque alpha 5%, nous parvenons à accepter l’hypothèse H0, alors notre modèle vérifie bien
l’hypothèse H4 de l’homocédasticité.

18
Tableau 11 :Test de white homocédasticité de variance de résidus

Sources : Stata, 2016

H0 : Homocédasticité
H1 : Heterodasticité

Pour confirmer, la véracité de l’homocédasticité Selon le test de White d’homocédasticité, on


confrontant le p-value au seuil de risque alpha 5%, nous parvenons à accepter l’hypothèse H0,
alors notre modèle vérifie bien l’hypothèse H4 de l’homocédasticité.

5. Autocorrelation entre les résidus

Tableau 12 :TestdurbinWatsonautocorrélation entre résidus d'ordre 1 :

Sources : Stata, 2016

H0 : Absence d’autocorrélation d’ordre 1


H1 : Présence d’autocorrélation d’ordre 1

Selon le test de Durbina d’autocorrelation des résidus, on confrontant le p-value au seuil de


risque alpha 5%, nous parvenons à accepter l’hypothèse H0, donc notre modèle est dépourvue
d’autocorrélation entre les résidus d’ordre 1.

19
Tableau 13 :TestBreusch Godfrey d’autocorrélation entre résidus d'ordre 1 :

Sources : Stata, 2016

H0 : Absence d’autocorrélation d’ordre 1


H1 : Présence d’autocorrélation d’ordre 1

Selon le test deBreusch et Godfrey d’autocorrelation des résidus, on confrontant le p-value au


seuil de risque alpha 5%, nous parvenons à accepter l’hypothèse H0, donc notre modèle est
dépourvue d’autocorrélation entre les résidus d’autocorrelation d’ordre 1.

Tableau 14:Test Breusch-Godfrey for autocorrelation d'ordre supérieur à 1

Sources : Stata, 2016

H0 : Absence d’autocorrélation d’ordre q


H1 : Présence d’autocorrélation d’ordre q

Selon le test de Cumby-Huizinga d’autocorrelation des résidus d’ordre ou q, on confrontant le


p-value au seuil de risque alpha 5%, nous parvenons à accepter l’hypothèse H0, donc notre
modèle est dépourvue d’autocorrélation entre les résidus d’autocorrelation d’ordre q.

20
Tableau 15;Test Cumby-Huizinga for autocorrelation (Breusch-Godfrey)

Sources : Stata, 2016

H0 : Absence d’autocorrélation d’ordre supérieur à 1


H1 : Présence d’autocorrélation d’ordre supérieur à 1

Selon le test de Cumby-Huizinga d’autocorrelation des résidus d’ordre ou q, on confrontant le


p-value au seuil de risque alpha 5%, nous parvenons à accepter l’hypothèse H0, donc notre
modèle est dépourvue d’autocorrélation entre les résidus d’autocorrelation d’ordre supérieur à
1.

6. Facteurs Écart d'inflation (VIF)

La colinéarité entre variables explicatives advient lorsque celles-ci sont liées entre elles.
Il existe deux types de colinéarité :

La colinéarité parfaite : au moins une des variables explicatives peut s'écrire comme une
combinaison linéaire d'une ou de plusieurs variables explicatives. Dans ce cas, l'estimation par
les MCO est impossible.

La colinéarité partielle : les variables sont fortement mais non parfaitement corrélation, dans
ce cas, l'estimation des MCO demeure possible mais on a un problème de précision statistique
(au niveau des coefficients estimés, des p-value, des écarts-types,etc.). On considère
généralement que lorsque le 1/VIF est inferieur à 0,1 il faut mener des investigations
supplémentaires.

21
7. Tableau 16 :Tableau de Facteur d’écart d’inflation

Sources : Stata, 2016

On confrontant, la valeur 1/VIF à 0 ,1 nous constatons la présence de multi colinéarité dans


notre modèle,dû essentiellement à la présence des variables très fortement ou fortement
corrélées.
Pour enlever ou corriger, il serait très exigent de solliciter une méthode de correction de
problème de multi colinéarité, en occurrence la suppression des variables.
Dans ce cas, supprimons une variable qui présente un 1/VIF inferieur à 0,1, en occurrence le
prix.

7.1. Tableau 17 :Tableau de Facteur d’écart d’inflation

Sources : Stata, 2016

En effet, on supprimant la variable prix, le problème de multi colinéarité semble être résolu,
car l’inverse des facteurs des écarts des inflations sont strictement supérieur à 0,1.

En conséquence de quoi il nous reste à valider notre modèle pour pouvoir passer à
l’interprétation.
22
2

8. Validation du modèle

Sources : Stata, 2016

Selon le test de Ramsey Reset, on confrontant le p-value au seuil de risque alpha 5%, nous
parvenons à accepter l’hypothèse H0, donc notre modèle est bien spécifiés, dans ce cas nous
pouvons passer à l’interprétation du modèle.

9. Interprétation du modèle

Graphique de regression

Residuals vs Fitted Normal Q-Q


0.0 0.2 0.4

Standardized residuals

Mas erat i Ghibli GT Mas erat i Ghibli GT


-2 -1 0 1 2
Residuals

H y undai Sonat a 3000 H y undai Sonat a 3000


-0.4

Opel C ors a 1. 2i Ec o Opel C ors a 1. 2i Ec o

3.5 4.0 4.5 5.0 5.5 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage


Standardized residuals

0 1 2 3
Standardized residuals
0.0 0.5 1.0 1.5

Mas erat
Opel Ciors
Ghibli GT
a 1. 2i Ec o
Mas erat i Ghibli GT
H y undai Sonat a 3000 1
0. 5
Subaru Viv io 4W D

0. 5
Toy ot a Prev ia s alon
-2

1
Cook's distance

3.5 4.0 4.5 5.0 5.5 0.0 0.1 0.2 0.3 0.4 0.5

Fitted values Leverage

En effet, la puissance d’une voiture dépend en générale de sa consommation, de son poids et


de son cylindre.
Le graphique de Resiuals vs Fitted, nous montre ici, qu’il existe dans ce modèle trois
individus influents. Alors le graphique Normal Q-Q, nous illustre quant à lui , la normalité des
résidus. Par ailleurs, le graphique de scale location n’est que le graphique de points influent,
apparemment le graphique residuals vs leverage nous confirme que les points influents sont à
l’intérieur du distance du coock.

23
Conclusion
En conclusion, nous pouvons valider les hypothèses établies préalablement, en d’autre terme,
avec conviction, la puissance d’un véhicule est en fonction de son poids, son cylindre et sa
consommation, plus une voiture est puissant est plus il dépend de son poids en kg, de cylindre
en cm3 et de son consommation en l/km.

ANNEXE

Liste des tableaux


Tableau1 :Calcul des indicateurs
Tableau2 : Matrice de corrélation
Tableau 3 : résumé de la régression
Tableau 4 : Test Skewness/Kurtosis normalité des résidus
Tableau5 : test Shapiro wilk normalité des erreurs
Tableau 6 : Résumé de la régression
Tableau 7: Test Skewness/Kurtosis normalité des résidus
Tableau8: test Shapiro wilk normalité des erreurs:
Tableau 9: Test student de comparaison de moyenne pour vérifier si la moyenne est nulle :
Tableau 10 : Test Breusch-Pagan heterodasticité
Tableau 11 :Test de white homocédasticité de variance de résidus
Tableau 12 :Testdurbin Watson autocorrélation entre résidus d'ordre 1 :
Tableau 13 :TestBreusch Godfrey d’autocorrélation entre résidus d'ordre 1 :
Tableau 14:Test Breusch-Godfrey for autocorrelation d'ordre supérieur à 1
Tableau 15;Test Cumby-Huizinga for autocorrelation (Breusch-Godfrey)
Tableau 16 :Tableau de Facteur d’écart d’inflation
Tableau 17 :Tableau de Facteur d’écart d’inflation

Liste des graphiques

Graphique 1: La courbe du modèle et sa prédiction par la méthode MCG.


Graphique 2: Représentation séparé en Boite à moustache des variables
Graphique 3: Les densités de variables
Graphique 4: Matrice de régression linéaire simple.

24