Vous êtes sur la page 1sur 12

Proiect Econometrie

Dineț Ella-Ionela
Grupa 1045, Seria Cibernetică

Academia de Studii Ecomonice Bucuresti - 2009


În prezentarea modelului liniar de regresie sunt importante aspecte legate de identificarea
celor două variabile şi specificarea parametrilor modelului de regresie. Modelul liniar simplu de
regresie este definit prin intermediul relaţiei liniare care există între două variabile economice şi
printr-un ansamblu de ipoteze formulate asupra seriilor de date, variabilei reziduale şi a celor
două variabile ale modelului şi asupra relaţiei liniare dintre acestea.
Variabila reziduală este introdusă în cadrul modelului deoarece în economie nu se întălneşte o
dependenţă funcţională între două variabile, ci mai degrabă una de tip stohastic. Asupra
variabilei endogene mai acţionează şi o serie de factori care nu sunt specificaţi în cadrul
modelului de regresie, din mai multe motive, precum faptul că o serie de variabile nu pot fi
măsurate direct sau nu sunt observabile. De asemenea, seriile de date obţinute în urma unor
observării asupra unor eşantioane.
Pentru construcţia unui model de regresie liniară simplă am pornit de la analiza influenţei
pe care o serie de variabile explicative, exogene, precum: nivelul de studii al populaţiei, rata
inflaţiei şi indicele P.I.B. pe locuitor o exercită asupra variabilei de explicat, numită şi endogenă,
rata şomajului.
În elaborarea modelelor econometrice unifactorile şi multifactoriale utilizate în cadrul
analizei se pleacă de la teoria economistului englez Arthur Philips ("The relationship between
unemployment and the rate of change of money wages in the United Kingdom 1861-1957",
publicată în 1958 în Economica) care surprinde relaţia inversă între nivelul şi dinamica salariilor
şi cererea şi oferta de muncă. Prin extrapolare se constată că pentru o creştere economică
durabilă trebuie controlat un anumit nivel al inflaţiei, considerat “moderat”, pentru care şomajul
are nivelul scăzut. Pornind de la această teorie am considerat că rata şomajului se află în strânsă
dependenţă cu indicele P.I.B. pe locuitor ( ce caracterizează evoluţia economică naţională în
ansamblu) şi numărul de studenţi (văzut ca factor principal al presiunii sociale).
Pentru asigurarea comparabilităţii datelor, indicii produsului intern brut pe locuitor sunt
calculaţi prin raportarea la produsul intern brut al Uniunii Europene cu 29 de ţări..
În ceea ce priveşte datele statistice utilizate în elaborarea analizei, sursa este reprezentată
de site-ul Eurostat.
Primul model de regresie simplă este definit pentru anul 2006 şi are următoarea formă:
Yi= b + a*Xi + εi , i=1..n
unde yi= rata şomajului
xi= indicele PIB pe locuitor
n= numărul ţărilor luate în calcul, în acest caz 29.

Pentru estimarea parametrilor celor două modele econometrice am introdus datele într-un fişier
Eviews , realizând următoarea codificare a variabilelor:
• Y = rata şomajului
• X= indicele produsului intern brut pe locuitor

2
• Reprezentarea grafica

Graficul include atât punctele de coordonate (Xi, Yi)i=1..29, dar şi dreapta de regresie folosită
pentru a cuantifica efectul indicelui produsului intern brut pe locuitor asupra ratei şomajului.
Din acest grafic rezultă o dependenţă liniară negativă între cele două variabile: pe măsură ce
creşte valoarea indicelui PIB pe locuitor, scade nivelul ratei şomajului ceea ce este uşor de
explicat pentru că dacă se înregistrează o creştere economică, atunci se va diminua numărul
şomerilor şi prin urmare rata şomajului va scădea.

• Estimarea parametrilor modelului simplu de regresie în Eviews folosind metoda


celor mai mici pătrate (OLS)

Folosind metoda celor mai mici pătrate (OLS), se estimează parametrii modelului de regresie:
Yi = b + aXi + εi
na + b∑xi =∑yi
a∑xi +b∑xi2=∑xiyi
Seria rezidurilor, se notează cu ei sau ε ^ şi se estimează prin relaţia:
ei=yi-ŷ=yi-(b^+âxi)
Valorile reale ale caracteristicii endogene sunt egale cu estimaţia dedusă cu ajutorul modelului
de regresie, corectată cu eroarea reziduală yi=ŷ+ei
Pentru estimarea celor doi parametri se pune condiţia ca suma pătratelor diferenţelor dintre
valoarea reală şi cea estimată prin modelul de regresie să fie minimă:

3
Figura 1: Rezultatele estimării parametrilor modelului de regresie

Pe baza rezultatelor de mai sus se pot formula următoarele observaţii ca şi în cazul primului
modelul liniar de regresie :
-dependenţa existentă între rata şomajului şi indicele PIB pe locuitor este una liniară negativă
semnificativă , panta de regresie este negativă şi diferă semnificativ de zero, coeficientul de
regresie având valoarea -0,025670. Această valoare se poate interpreta astfel: la o creştere cu o
unitate a indicelui produsului intern brut pe locuitor, valoarea ratei şomajului scade, în medie, cu
0,025670 unităţi.
-termenul liber are valoarea de 9,67789 şi nu are interpretare economică.
-ecuaţia de regresie are forma: Y = 9,67789 - 0,025670X.
-între valoarea statisticii F şi a lui t, ce corespunde pantei de regresie se verifică relaţia t2=F.
-evoluţia indicelui produsului intern brut pe locuitor influenţează în proporţie de 24,02% evoluţia
ratei şomajului, după cum rezultă din valoarea lui R2=0,240251.

• Validitatea modelului statistic

Pentru a studia validitatea modelului foloste testarea calităţii ajustării/ bonităţii modelului
Construim tabelul Anova in Excel.
Consideram ipotezele:

H0 modelul nu este valid statistic


H1 modelul este valid statistic
MSR SSR / 1
Statistica folosită este F= = ~ Fα;k, n-k-1=Fα;1,27, deoarece n=29, k=1.
MSE SSE / 27
Regula de decizie:
Dacă Fcalc>Fcrit=Ftab= Fα;1,25 atunci resping H0 şi accept H1.

4
Figura 2: Tabelul a fost obtinut in excel cu ajutorul functiei Regression din Data analisys:

Fcalc=8,538037
Ftabel=4,241699
Fcalc>Ftabel => modelul este valid statistic, accept H1, resping H0

Verificarea ipotezei de independenţă a erorilor se realizează cu ajutorul testului Durbin –


Watson. Din figura2 avem valoarea variabilei Durbin- Watson d= 2.235563; d1=1,34 d2=1,48
(din tabelul distributiei Durbin-Watson pt α=0,05, n=29 si k=1)
Din regulile de decizie ale aplicării testului Durbin-Watson rezultă că: d2<d<4-d2, deci erorile
sunt independente.

• Testarea unor ipoteze formulate asupra parametrilor modelului de regresie

Erorile standard a lui a şi b:


SE(a) =Sa= 0,959528
SE(b) =Sb= 0,008785
Testez parametrii α, β pentru un prag de semnificaţie de 0,05.
Testarea semnificaţiei parametrului β :
H0: β=0 (parametrul β nu este semnificativ statistic) ;
H1: β≠0 (parametrul β este semnificativ statistic);
b −β b −0
În ipoteza H0, statistica t= = ~ Sn-2
SE(b) SE (b)
Rc: |tcalc|> tcrit=tα/2;n-2
b 0,02567
tcalc= = 0,008785 = 2,9220266
SE (b)
Calculez în excel tcrit=2,368452

5
Cum 2,922 > 2,268 ⇒ tcalc > tcrit atunci resping H0 şi accept H1 deci parametrul β este
semnificativ.
Spunem că o statistică este semnificativă dacă valoarea testului statistic se află în regiunea
critică.

Testarea semnificaţiei parametrului α :


H0: α =0 (parametrul α nu este semnificativ statistic) ;
H1: α ≠0 (parametrul α este semnificativ statistic);
a −α a
În ipoteza H0: t= = ~ Sn-2.
SE (a ) SE (a )
Rc: |tcalc|> tcrit=tα/2;n-2
a 9,67789
tcalc= = = 10,0860
SE (a ) 0,959528
tcrit= 2, 368452
10,0860 > 2, 368452 ⇒ tcalc> tcrit ⇒ resping H0 şi accept H1, deci parametrul α este semnificativ.

Intervalele de încredere pentru β:


b- tcrit*SE(b) ≤ β ≤ b+ tcrit*SE(b) ⇔ b- tα/2 ;n-2*SE(b) ≤ β ≤ b+ tα/2 ;n-2*SE(b)
-0,0437 ≤β ≤ -0,00764 ⇒ β ∈ (0,0437 ; 0,00764) - interval de încredere de 95%.
Intervalele de încredere pentru α:
a- tcrit*SE(a) ≤ α ≤b+ tcrit*SE(a)
7,709 ≤ α ≤ 11,6465 ⇒ α ∈ (7,709; 11,6465) - interval de încredere de 95%.

• Coeficientul de corelaţie

rxy= 0,490154 >0. Din acest coeficient ⇒ legătura este directă şi puternică. Acest coeficient a
fost calculat în Excel cu ajutorul funcţie correl.
Testez semnificaţia coeficientului :
H0 : rxy =0 (coeficientul de corelaţie nu este semnificativ) ;
H1 : rxy ≠0 (coeficientul de corelaţie este semnificativ) ;
Rc: tcalc> tcrit=tα/2;n-2
n −2
1 −r 2
tcalc= rxy xy
~ Sn-2
tcalc=3,4138 > tcrit=2,059539, unde tcrit este calculat mai sus ⇒ resping H0 şi acceptă H1 ⇒
coeficientul de corelaţie este semnificativ statistic.

• Raportul de corelaţie

6
SSE
R= 1 − =0,4901 ⇒ R2=0,2402
SST
Testez semnificaţie raportului de corelaţie:
H0 : R2=0 (nu este semnificativ statistic);
H1: R2 >0 (este semnificativ statistic);
R2
Fcalc= (n-2) ~ Fα;1,n-2; Fcalc=8,854247 . Fcrit=4,241699 a fost calculat în Excel cu funcţia
1− R2
finv(0,05;1,27).
Fcalc> Fcrit ⇒ resping H0 şi accept H1 ⇒ raportul de corelaţie este semnificativ statistic.

• Să se stabilească în ce măsură rata somajului este determinată de indicele volumului


PIB pe baza modelului de regresie determinat

Cum R2=0,2402 ⇒ aproximativ 24% din variaţia ratei somajului este explicată prin variaţia
indicelui de volum al PIB- ului
Deoarece R2 poate fi cel mult 1, R2 observat sugerează că dreapta de regresie estimată aproape
bine datele.

• Să se previzioneze speranţa de viaţă medie în ipoteza că indicele de volum al PIB-


ului x0=100 ;

Pentru predicţie se cunoaşte o valoare a varibilei independente x0=100 ⇒ E(Y/X=x0)


ŷi=a+bxi ⇒ ŷ0= 9,67789 - 0,025670*100=7,11089 (estimaţie punctuală a mediei).
Intervalul de încredere este:

2 1 ( x0 − x m ) 2
ŷ0- tα/2;n-2*SE(ŷ0) ≤α+βx0 ≤ ŷ0+ tα/2;n-2*SE(ŷ0), unde SE(ŷ0)= S ( + )
n ∑ ( xi − x m ) 2
=7,5539 ⇔ 7,11089- 2,3734*7,5539 ≤E(Y/x0=100) ≤ ⇔ 7,11089+ 2,3734*7,5539 ⇔

-10,7835 ≤ E(Y/x0=100) ≤ 25,0035.

La un prag de semnificaţie α=0,05 am obţinut intervalul (-10,78 ; 25,0035), un interval de


încredere de 95%. Înseamnă că din 100 de intervale obţinute în 100 de selecţii repetate în 95 din
aceste intervale va fi inclusă valoarea reală a mediei.

Cea mai bună estimaţie punctuală a mediei este 7,5539.

MODELUL MULTIPLU DE REGRESIE

7
Pentru estimarea parametrilor modelului multiplu de regresie am introdus datele într-un fişier
Eviews , realizând următoarea codificare a variabilelor:
Y = rata şomajului
X1 = indicele produsului intern brut pe locuitor
X2 = numărul studenţilor
Folosind metoda celor mai mici pătrate (OLS), se estimează parametrii modelului de regresie:
Yi = b0 + b1X1 + b2X2 + εi

• Să se estimeze parametrii modelului de regresie şi să se interpreteze rezultatele


obţinute ;

(X’X)β’=X’Y ⇒ β’=(X’X)-1*XY unde X’= transpusul iar β’= β ajustat.


1 x 21 x31 
 1

1 .. 1  
 1 x 22 x32  
  n ∑ x2i ∑ x3i 
(X’X)=  x 21 x 22 .. x 2 n  * 
.. .. ..  =  ∑ x 2i ∑ x22i ∑ x2i x3i  =
x    x32i 
 31 x32 .. x3 n   
1 x 2 n x 3 n   ∑ x 3i ∑ x 2 i x 3i ∑
 29 2857,6 109678683 
 
 2857,6 345942,9 1093875184 1 
109678683 1093875184 1 1072008717 025880 
 
y 
 1

1 .. 1    
 y  
∑y i   207,3
  

(X’Y)=  x 21 x 22 .. x2n  *  2  = 
.. ∑x y
2i i  =
18774,74 
x
 31 x32 .. x3 n     ∑x y  902131312, 2 
 yn  
3i i 

 9,06972337 14 
 
Astfel β’= - 0,02644955 21 
 0,00000018 35 
 
OBS ! Calculul pt β’ au fost facute in excel cu ajutorul functiilor minverse si mmult

β1 - In conditiile in care valoare lui x2 si x3 sunt 0 atunci valoare medie a ratei somajului este
9,0697233.
β2 - Mentinand toate celelalte variabile constante valoarea ratei dobanzii scade in medie cu
0,02644955 daca PIB creste cu o unitate
β3 - Mentinand toate celelalte variabile constante valoarea ratei dobanzii creste cu 0,0000001835
daca numarul studentilor creste cu o unitate.

• Să se estimeze matricea de covarianţă a estimatorilor modelului ;

8
Figura 3 Covariance matrix

Elementele de pe diagonala principală reprezintă varianţele estimatorilor βj

• Să se testeze semnificaţia statistică a parametrilor modelului de regresie şi să se


determine intervalele de încredere 95 % pentru aceştia ;

Testarea semnificaţiei parametrului β1 :


H0 : β1 =0 (parametrul nu este semnificativ statistic) ;
H1 : β1≠0 (parametrul nu este semnificativ statistic);
β '1 −0
Folosesc statistica t: tcalc= ~ Sn-k ⇒ tcalc= 9,611799258
SE ( β '1 )
tcrit=ttab=tα/2;n-k=t0,025 ;29-3=t0,025 ;26= 2,378786 ⇒ tcalc>tcrit ⇒ accept H1 ⇒ parametrul β1 este
semnificativ statistic.

Testarea semnificaţiei parametrului β2:


H0 : β2 =0 (parametrul nu este semnificativ statistic) ;
H1 : β2≠0 (parametrul nu este semnificativ statistic);
Calculez cu formula de mai sus ⇒ tcalc> tcrit (-3,188154823 > 2,378786) ⇒ resping H0 şi accept
H1 ⇒ parametrul β2 este semnificativ statistic.

Analog şi pentru testarea semnificaţiei parametrului β3 ⇒ parametrul este nesemnificativ


statistic.

Construiesc un interval de încredere 95% pentru parametrul β2’:


β’2-tcrit*SE(β’2) ≤ β2 ≤ β’2+tcrit*SE(β’2) ⇒ -0,026047552 - 2,378786 * 0,008170 ≤ β2 ≤ -
0,026047552 + 2,378786*0,008170 ⇒ -0,04548 ≤ β2 ≤ -0,0066128 ⇒ β2 ∈ (-0,04548;
-0,0066128).

• Să se calculeze coeficientul de determinare şi coeficientul de determinare ajustat ;

9
SSR
Coeficientul de determinaţie R2= =0,3675 ⇒ 36,75% din variaţia variabilei dependente
SST
este explicată prin influenţa celor două variabile eplicative.
SSR /( k −1)
Coeficientul de determinaţie ajustat Ř2= =5,4152 ⇒ Ř2< R2.
SST /( n −1)

• Folosind analiza dispersională pentru un prag de semnificaţie de 5 % să se testeze


validitatea modelului de regresie ;

H0 : β2=β3=0 (modelul nu este valid) ;


H1 : non H0 (modelul este valid) ;
MSR
Folosesc statistica F= ~Fk-1;n-k=F2;26 ⇒ Fcalc=7,5538 iar din excel Fcrit=3,3690 ⇒ Fcalc>Fcrit
MST
⇒ resping H0 şi accept H1 ⇒ modelul este valid statistic, adică împreună PIB- ul şi numarul
studentilor au un impact pozitiv asupra ratei dobanzilor.
Figura (4) ANOVA pentru modelul multifactorial

Figura (5) Rezultatele estimării parametrilor in Eviews

• Testarea fenomenului de multicoliniaritate

10
Pentru a semnala prezenţa coliniarităţii am folosit ca şi criteriu, testul Farrar-Glauber.
La o analiză sumară a rezultatelor obţinute în cazul estimării parametrilor modelului de regresie
cu două variabile explicative a rezultat că totul este în regulă. Totuşi estimările pot fi perturbate
de prezenţa coliniarităţii.
Am calculat matricea de corelaţie Rp a variabilelor exogene ale modelului de regresie:

Figura 6

O valoare a determinantului matricei Rp egală cu zero sau o valoare foarte mică a acestuia scoate
în evidenţă prezenţa coliniarităţii.
În acest caz determinantul are valoarea 0,98, foarte apropiată de 1. De aceea am realizat testul de
mai jos pentru a determina dacă valoarea determinantului matricei Rp este egală cu 1.
Am definit ipotezele:
H0: | Rp|=1, modelul liniar de regresie nu este suspectat de prezenţa fenomenului de
multicoliniaritatea
H1 : | Rp|<1, modelul liniar de regresie este afectat de prezenţa fenomenului de
multicoliniaritatea
Am definit statistica testului:
C=-[n-1-1/6(2p+5)]*ln|Rp|→χ2 1/2p(p-1)
Din tabelul repatiţiei χ2, pentru un prag de semnificaţie de 5% şi un grad de libertate, se obţine
valoarea Ctabel=3,841.
Ccalculat=-0,463652
Ccalc<Ctabel => modelul de regresie nu este suspectat de prezenţa multicoliniarităţii; accept H0,
resping H1.

• Să se previzioneze valoarea medie a lui y şi apoi o valoare individuală pentru y în


cazul în care x20=80 şi x30=150000 ;

11
 1 
 
x0=  80  . Doresc E(Y/X0)=x’0β.
150000 
 
 9,06972337 14 
 
ŷ0=x’0β’= (1 80 150000 ) * - 0,02644955
21  =6,9545233.
 0,00000018 35 
 
 1 
 
Var(ŷ0/x0)=S x’0(X’X) x0=4,2940 * (1 80
e
2 -1
150000 ) *(X’X) *  80
-1
 =0,059487
150000 
 

⇒ SE(ŷ0)= =0,243899 ⇒ ŷ0-tcrit* SE(ŷ0) ≤ E(Y/X0) ≤ ŷ0+tcrit* SE(ŷ0) ⇔


0,059487

6,9545-2,3787*0,243899 ≤ E(Y/X0) ≤6,9545+2,3787*0,243899 ⇔


6,36222 ≤ E(Y/X0) ≤ 7,534662.
Previzionarea unei valori individuale: se doreşte o valoare individuală (y0/x0)= x’0β’
ŷ0=x’0β’, de undeVar(y0- ŷ0)= Se2 [1+x’0(X’X)-1x0]= 4,496355 ⇒ SE(y0- ŷ0)= 2,1204612 ⇒ ŷ0-
tcrit* SE(y0- ŷ0) ≤ y0 ≤ ŷ0+tcrit* SE(y0- ŷ0) ⇔ 1,9107 ≤ y0 ≤11,9982.

12

Vous aimerez peut-être aussi