Vous êtes sur la page 1sur 11

SÉANCE 9

STATISTIQUES ANALYTIQUES (suite)

Analyses de régression
Considérations
économétriques
Tests statistiques
Formes fonctionneles
Exemples

17 mars 2006
Modèles et formes fonctionnelles

Régression (OLS) Très utilisées, conviennent bien lorsque résultats de


l’échantillon s’applique à la population,
Linéaire et non-linéaire cependant biaisées et paramétriques

Récemment utilisées, préférés lorsque la dimension spatiale


Autoregressif (SAR ou SARS) et temporelle affecte le phénomène, nécessite coordonnées,
Maximum de vraisemblance réduit les erreurs et fournit de paramètres fiables.

Récemment utilisées, permet de mieux modéliser, suit le du


Artificial Neural Networks (ANNs) cerveau humain, cependant problèmes de «Over-Fitting » et
« Black-Box ». Il n’est pas encore tout à fait connu.

Même principe que ANNs, cependant «Over-Fitting » résolu,


Abductive Learning Networks(ALNs) ne tient pas compte des bruits d’informations
contrairement à ANNs. Il reste à en savoir plus.

Fonctionne selon une approche multicritère, conditions


Case-Based Reasoning (CBR) spécifiées dans une table de critères référencée à la base
de données utilisées. Semble être moins bon que OLS.
Régression linéaire
« Méthode des moindres carrés ordinaires »

Y = B0 + (B1 * D) + (B2 * S) + (B3 * R) + (B4 *


T) + E

Y Valeur marchande ;
D Structurel ;
S Spatial ;
R Socio-économique ;
T Temporel;
B0 et B1,2,3,4 Coefficients de la régression;
E part d’erreur dans le modèle.
Superficie habitable
Type de propriété (Bungalow, Cottage,…)
STRUCTUREL Garage
(CUM)  Piscine
 Foyer
 Climatisation

 Distances : centre-ville, emploi, commerce, école, …


SPATIAL  Proximités : parc, fleuve, autoroute, chemin de fer, industrie, …
(SIG et statistiques)  Positions : municipalités et divers secteurs.

 Revenus
 Scolarité
SOCIO-ÉCONOMIQUE  Origine ethnique
(RECENSEMENT et SIG)  Taux de chômage
 Autocorrélation spatiale

 Mois écoulés depuis la transaction


TEMPOREL  Saison de vente
(CUM et statisques)  Cycle immobilier
 Autocorrélation temporelle
Analyse de corrélation – test bilatéral (2-tailed)
Il y a corrélation entre deux variables du modèle lorsque les valeurs prises par les deux fluctuent
simultanément dans le même sens (corrélation positive ou inverse (corrélation négative).
En recherche, le seuil de signification statistique des corrélations est habituellement en dessous de 5 %.
Dans le tableau qui suit, la plus forte relation est entre la superficie du terrain et son frontage, soit 75,8 % (et le
test est très significatif).

Correlations

PRIX AGEFFECT SUPTERR FRONTAGE PROFOND GARJSSOL GARJINTG GARJEXT SUPHABT


PRIX Pearson Correlation 1,000 -,199 ,436 ,321 ,142 ,334 ,300 ,073 ,436
Sig. (2-tailed) , ,000 ,000 ,000 ,003 ,000 ,000 ,121 ,000
N 450 450 450 450 450 450 450 450 450
AGEFFECT Pearson Correlation -,199 1,000 -,096 -,060 -,313 -,326 -,055 ,159 -,096
Sig. (2-tailed) ,000 , ,043 ,203 ,000 ,000 ,244 ,001 ,043
N 450 450 450 450 450 450 450 450 450
SUPTERR Pearson Correlation ,436 -,096 1,000 ,758 ,333 ,068 ,241 ,170 1,000
Sig. (2-tailed) ,000 ,043 , ,000 ,000 ,153 ,000 ,000 ,000
N 450 450 450 450 450 450 450 450 450
FRONTAGE Pearson Correlation ,321 -,060 ,758 1,000 ,328 ,118 ,129 ,202 ,758
Sig. (2-tailed) ,000 ,203 ,000 , ,000 ,012 ,006 ,000 ,000
N 450 450 450 450 450 450 450 450 450
PROFOND Pearson Correlation ,142 -,313 ,333 ,328 1,000 ,116 -,005 ,013 ,333
Sig. (2-tailed) ,003 ,000 ,000 ,000 , ,014 ,910 ,787 ,000
N 450 450 450 450 450 450 450 450 450
GARJSSOL Pearson Correlation ,334 -,326 ,068 ,118 ,116 1,000 -,125 -,132 ,068
Sig. (2-tailed) ,000 ,000 ,153 ,012 ,014 , ,008 ,005 ,153
N 450 450 450 450 450 450 450 450 450
GARJINTG Pearson Correlation ,300 -,055 ,241 ,129 -,005 -,125 1,000 -,028 ,241
Sig. (2-tailed) ,000 ,244 ,000 ,006 ,910 ,008 , ,550 ,000
N 450 450 450 450 450 450 450 450 450
GARJEXT Pearson Correlation ,073 ,159 ,170 ,202 ,013 -,132 -,028 1,000 ,170
Sig. (2-tailed) ,121 ,001 ,000 ,000 ,787 ,005 ,550 , ,000
N 450 450 450 450 450 450 450 450 450
SUPHABT Pearson Correlation ,436 -,096 1,000 ,758 ,333 ,068 ,241 ,170 1,000
Sig. (2-tailed) ,000 ,043 ,000 ,000 ,000 ,153 ,000 ,000 ,
N 450 450 450 450 450 450 450 450 450
Analyse de régression : considérations économétriques et tests statistiques

1. Test R² :
Test du Coefficient de détermination (pourcentage de la variation totale de la variable
dépendante expliquée par les variables prédictives). Plus il est élevé, plus il capte la majorité
des variations du phénomène. Les résidus (erreurs d’estimation) auront également un poids
plus faible.
2. Test F :
Test de Ficher est une mesure globale qui nous indique qu’on peut ou non rejeter
l’hypothèse nulle, au risque de se tromper 5 fois sur 100, selon laquelle aucune variable du
modèle n’exerce une influence sur la variable explicative. Lorsque F = 0, on garde
l’hypothèse nulle, si F > 0, il y a au moins une variable explicative qui a un effet sur la
variable dépendante. Plus F est grand, mieux c’est.
3. Test ESE ou SEE
Test d’erreur standard d’estimation nous donne une idée sur la performance prédictive de
l’équation de régression. C’est comme une sorte de « résidu moyen » ou « erreur de
prévision » du modèle (comparer ce test au moyen des prix). Plus ESE est petit, mieux c’est.
4. Test t ou Student t
C’est l’erreur standard de chacun des coefficients estimés. Il nous indique si on peut rejeter
ou non l’hypothèse nulle selon laquelle il n’y a pas de relation entre le coefficient estimé de
la variable explicative et la variable dépendante. La valeur obtenue du Test t est comparée à
une valeur critique dans les tables. Plus Test t est grand, mieux c’est.
5. Test VIF (variation inflation factor)
Détecte les problèmes de multicolinéarité et identifie les variables qui en sont la cause. Un
VIF < 5 est admis pour dire que le problème de multicolinéarité est réduit. Proche de 1, c’est
l’idéale. En dessus de 10, c’est problématique.
Interprétation des résultats – Régression linéaire multiple

C’est le coefficient de corrélation multiple


Mesure sur la performance au carré.
explicative globale du modèle.
Coefficient de corrélation 63,7 % est la roportion de la variance totale
multiple de Y expliquée par l’équation de régression

Model Summary

Model R R Square Adjusted R Square Std. Error of the Estimate


1 ,798 ,637 ,628 18956,93

« R² ajusté » accomplit la même Erreur standard d’estimation (ESE)


fonction que R², mais tient Ici, c’est 18 957 $. Si on le compare à la moyenne des
compte du nombre de degrés de prix (108 811 $), c’est élevé. En effet, il représente un
liberté. terme d’erreur d’estimation « moyenne » du modèle de
17,4 % (18 957 / 108 811). On en conclut que l’équation
DL = n – k – 1, n’explique pas toutes les variations, ce qui est confirmé
n = nombre d’observations par Adjusted R Square (62,8 %). On peut retravailler le
k = nombre de variables modèle, par exemple y intégrer d’autres variables
explicatives. explicatives !

Si DL > 30, on utilise la table Z, si


DL < 30, la table de Student
Interprétation des résultats – Régression linéaire multiple (suite)
Sur les 449 DL, il y en
a 11 qui sont associés Nombre d’observations 276799497319 / 11 = 25163590665
au modèle, soit le totales : DL + 1 = 450
nombre de variables 157402014200 / 438 = 359365329

Il reste 438 degrés de libertés aux


erreurs du modèle.

DL = 450 – 11 – 1 = 438

ANOVA

Model Sum of Squares df Mean Square F Sig.


1 Regression 276799497319 11 25163590665 70,022 ,000
Residual 157402014200 438 359365329
Total 434201511519 449

Somme des variances C’est le test Fisher. Ici, on ne se trompe pas


élevées au carré expliquées 70 fois en disant qu’au moins une des
par le modèle / la variation variables affecte le prix.
totale
F = 25163590665 / 359365329 = 70
R² = 276799497319 /
434201511519 = 63, 7 % D’ailleurs, le test de F est très significatif.
F > 5 %.
On veut que ce total des
variances diminuent (erreurs
élevées au carré).
Interprétation des résultats – Régression linéaire multiple (suite)
Sig t : C’est la
Erreur C’est le test t signification du test t.
Constante de standard du 78 922 / 7 648 Si > 5 %, on rejette la
l’équation (b0) coefficient = 10,3 variable.
estimé
Coefficients b1 C’est le coefficient de
des X estimés corrélation. Aucun
problème dans ce
cas, car VIF < 5

Coefficients

Unstandardized Coefficients Collinearity Statistics


B Std. Error t Sig. VIF
(Constant) 78922,7 7648,2 10,3 ,0000
AGEFFECT -501,8 83,2 -6,0 ,0000 2,278
GARJSSOL 45,9 7,4 6,2 ,0000 1,352
GARJINTG 105,6 15,3 6,9 ,0000 1,184
GARJEXT 38,1 13,8 2,8 ,0060 1,113
FOYER 11703,5 2138,9 5,5 ,0000 1,365
SSOLPERS 4,5 3,0 1,5 ,1377 1,632
SALBAIN 8233,6 1917,5 4,3 ,0000 1,537
METRO -7882,0 557,0 -14,2 ,0000 1,996
POP96 7,0 3,4 2,0 ,0423 1,320
REVMEN96 ,5 ,1 6,4 ,0000 1,243
SUPHABT 7,0 ,7 9,9 ,0000 1,693

J’ai 13,77 % de probabilité de me tromper quand je dis que


chaque pi² de SSPERS ajoute 7 $ au prix.
NIVEAU 1
MODÈLE GLOBAL

R² ajusté 0.76 Échantillon 17208


F-statistic 2313 Moyenne 162652
Fisher 0.000 Minimum 32000
Erreur Modèle 47610 Maximum 1000000

Coefficients Erreur type coeff. Test t Sig t Nature

Constante 74871.13 2569.11 29.14 0.0000


Attributs structurels
AIREHABIT 79.26 0.94 84.38 0.0000 M
TERRAIN 4.13 0.18 23.20 0.0000 M
SSOLPERS 18.76 1.19 15.79 0.0000 M
BUNGALOW 10973.79 1326.71 8.27 0.0000 B
COTTAGE 5089.37 1031.93 4.93 0.0000 B
DETACHEE 6469.47 943.19 6.86 0.0000 B
SALBAIN 4611.50 586.76 7.86 0.0000 M
AGEFFECT -150.66 24.57 -6.13 0.0000 M
GARAJSSOL 12.17 3.09 3.94 0.0001 M
PISCINE 37.16 3.96 9.38 0.0000 M
FOYER 13193.71 725.53 18.19 0.0000 M
CLIMATISEE 31.23 10.38 3.01 0.0026 M
Attributs spatiaux
CENTRVILL -5494.04 90.86 -60.47 0.0000 M
EMPLOIS 3185.61 394.59 8.07 0.0000 M
ECOLES 6567.84 944.15 6.96 0.0000 M
HOPITAUX -2190.95 325.05 -6.74 0.0000 M
AUTORTE60 -9000.32 4051.51 -2.22 0.0263 B
BOISEE200 4345.53 1498.16 2.90 0.0037 B
CHEMFER100 -12140.33 1967.26 -6.17 0.0000 B
INDUSTRIES100 -19492.11 2699.86 -7.22 0.0000 B
Attributs socio-économiques
REVENBAS -21378.83 1531.36 -13.96 0.0000 B
REVENELEV 62055.54 1396.91 44.42 0.0000 B
TXCHOMAGE -1454.05 87.27 -16.66 0.0000 M
Ajustement temporel
MOISECOULE -804.29 35.37 -22.74 0.0000 M
ESTIMATION DE LA TAILLE REQUISE D’UN ÉCHANTILLON

Il est possible d’estimer la tille requise d’un échantillon si l’on connaît ces paramètres :
n = ((Z * δ) / E)² où :
n = taille requise de l’échantillon
Z = valeur de la variable centrée réduite correspondant au coefficient de confiance désiré
δ = écart-type de la population
E = erreur maximale tolérée de part et d’autre de la moyenne

Exemple :
Supposons que nous avons recueillie 50 ventes de propriétés résidentielles. L’écart-type de la
population de cet échantillon est de 16 500 $ et que l’erreur tolérée de part et d’autre de la moyenne
soit de 3 000 $ au maximum, alors quelle est la taille optimale de l’échantillon si on voudrait avoir un
niveau de confiance de 95 % ?

Solution : n = ((Z * δ) / E)²


n = ((1,96 * 16 500)/ 3 000)²
n = (32 340 / 3 000)²
n = (10,78)²
n = 116 observations !