Académique Documents
Professionnel Documents
Culture Documents
Introdução
∂Y
βj = ,
∂X j
Noutros casos, a variável dependente não é, sequer, quantitativa: ter ou não ter
casa própria, deslocar-se para o trabalho de combóio, de autocarro, a pé, em viatura
própria ou de outro modo, votar a favor, contra, ou abster-se numa deliberação, etc.
Conquanto seja habitual fazer-se corresponder números inteiros às diversas categorias
(por exemplo, 1 à posse de casa própria e 0 ao caso contrário), esses números não
traduzem verdadeiramente uma quantificação, mas constituem, antes, um dispositivo
de codificação essencialmente arbitrário.
Noutros casos, ainda, embora a variável de interesse possa ser uma variável
contínua, pode não ser observável em todo o domínio. Num exercício de tiro ao alvo,
a distância a que a bala passa do centro só é observada, tipicamente, para os projécteis
que embateram num raio limitado em torno do centro; quanto aos outros, sabe-se
apenas que a distância excedeu esse raio. As restrições à observabilidade da variável
podem ser ainda mais drásticas e limitá-la a uma mera informação qualitativa, do tipo
"acertou" ou "não acertou".
Yi = Xi β + ui [2]
(em que Xi é o vector (1×k) de componentes 1, X2i, X3i, ... , Xki e β o vector (k×1)
de coeficientes de regressão), e admita-se que Yi designa uma variável binária
codificada com o valor 1 ou o valor 0. Usualmente, o valor 1 é atribuído à presença de
um certo atributo na iª observação, enquanto o valor 0 é atribuído à sua ausência.
Noutra perspectiva, podem ver-se os dois valores possíveis como correspondendo à
verificação, ou não, de um certo acontecimento pela iª observação.
Sendo o valor médio condicional de Y a probabilidade (condicional a X2, X3, ... , Xk)
de Y = 1, modelos com esta estrutura são conhecidos por modelos lineares de
probabilidade ou pela sigla inglesa LPM (linear probability models).
Uma vez que E(Y) é uma medida de probabilidade, terá de ser 0 ≤ E(Y) ≤ 1.
Mas é difícil compatibilizar a restrição 0 ≤ E(Y) ≤ 1 com a possibilidade de variações
absolutas constantes em E(Y) induzidas por variações unitárias de uma variável
explicativa. Se E(Y) é uma função linear de Xj, é inevitável que, para alguns valores
de Xj, E(Y) venha a situar-se fora do intervalo admissível. Seria mais natural que,
exercendo Xj um efeito positivo na probabilidade de ser Y = 1, esse efeito fosse
praticamente nulo para valores muito baixos ou muito altos de Xj e fosse mais sensível
para algum intervalo de valores intermédios da variável. Isto é, seria de esperar que
fosse
lim Prob(Y = 1) = 1
X i β → +∞
e
lim Prob(Y = 1) = 0
.
X i β → −∞
com probabilidade 1−pi, pelo que possuirá uma distribuição binomial. A consequência
mais importante de tal facto será a de invalidar as técnicas de inferência estatística
apresentadas anteriormente, em amostras de dimensão finita. O melhor que se poderá
esperar é que, em amostras de grande dimensão, os resultados obtidos com essas
técnicas sejam uma boa aproximação aos verdadeiros.
1, se Yi* ≥ 0
Yi = . [7]
0, se Yi* < 0
Note-se que, nesta formulação, quer a variável dependente latente, quer a perturbação
aleatória, podem ser validamente definidas como variáveis aleatórias contínuas e o
carácter discreto é reservado apenas para a contrapartida observável da variável de
interesse.
Pode conceber-se a variável latente Yi* como a diferença entre a utilidade, U1i,
que para o iº indivíduo teria a alternativa representada por Yi = 1 e a utilidade, U0i,
associada com a alternativa Yi = 0, isto é,
O indivíduo optaria pela primeira alternativa se U1i > U0i e pela segunda se U1i ≤ U0i,
ou seja, verificar-se-ia Yi = 1 ou Yi = 0 conforme fosse, respectivamente, Yi* > 0 ou
Yi* ≤ 0.
1
A escolha da constante 0 como limiar de separação entre Y = 0 e Y = 1 é, essencialmente,
arbitrária. O assunto é discutido mais extensamente noutro ponto do texto.
e, por conseguinte,
Prob(Yi = 0) = Prob(ui ≤ − Xi β ).
Então, sendo ui uma variável aleatória com função de distribuição F(.), vem
Prob(Yi = 0) = F(− Xi β ),
[8]
Prob(Yi = 1) = 1 − F(− Xi β).
As duas escolhas mais comuns para a forma funcional de F(.) são as que
correspondem à distribuição normal reduzida e à distribuição logística. No modelo
probit, é postulado que ui tem distribuição normal reduzida e F(.) designa, então, a
função de distribuição normal,
1
x 1 − t2
Φ (x) = e 2 dt ; [9]
−∞ 2π
dΦ(x) 1 1
− x2
φ(x) = = e 2
. [10]
dx 2π
1
Λ(x) = , [11]
1 + e -x
π2
a função de distribuição de uma variável logística de média nula e variância .A
3
função de densidade da logística é
dΛ (x) e -x
λ(x) = = ; [12]
dx (1 + e -x ) 2
designe F(.) a função em [9] ou a função em [11]. Isso explica por que é possível dar
às expressões em [8] um aspecto diferente:
Prob(Yi = 0) = 1 − F(Xi β ),
[13]
Prob(Yi = 1) = F(Xi β ).
ou seja,
Portanto,
∂ E(Yi ) d F( X i β ) ∂( X i β )
= = f(Xi β ) β , [15]
∂ Xi ' d( X i β ) ∂X i'
∂E(Yi )
= f(Xi β) βj. [16]
∂X ji
Resulta de [16] que, nos modelos probit e logit, βj não mede necessariamente o efeito
marginal de Xj sobre E(Y) (ou, o que é o mesmo, sobre Prob(Y = 1)). Relembre-se,
contudo, que continua a ser, salvo não linearidade em relação a Xj,
ii) Esse efeito é também variável com Xj; isto é, para o mesmo indivíduo, esse
efeito será diferente de um valor de Xji para outro.
iii) Por último, note-se que, para o iº indivíduo, os efeitos marginais descritos
em [16] dependem, além do coeficiente associado, de um factor de proporcionalidade
idêntico, f(Xi β ), qualquer que seja o regressor (X2, ou X3, etc., ou Xk) considerado.
Uma vez que esse factor é, geralmente, positivo (recorde-se que f(.) designa uma
função de densidade), pode concluir-se que uma variação infinitesimal de Xji, tudo o
resto igual, induz uma variação positiva ou negativa na probabilidade de ser Y = 1,
conforme for positivo ou negativo o coeficiente βj.
e, por conseguinte,
1 e -x
Prob(Y = 0) = 1 − = ,
1 + e -x 1 + e -x
vem
Prob(Y = 1)
= ex
Prob(Y = 0)
e
Prob(Y = 1)
ln = x.
Prob(Y = 0)
Prob(Yi = 1)
ln = Xi β = β1 + β2 X2i + β3 X3i + ... + βk Xki, [17]
Prob(Yi = 0)
1
Prob(Yi = 1) = -( β1 + β 2 X 2 i + ...+ β k X ki ) , [18]
1+ e
Y = X β + u,
X1
X2
X= ,
. ..
Xn
∧
Pr ob(Yi = 1) = Xi β .
∧ ∧
β EGLS = {X' [ Var (u) ]-1 X}-1 X' [ Var (u) ]-1 Y, [20]
∧
em que, por Var (u) , se designou um estimador da matriz diagonal Var(u).
em que Yit = 1 ou Yit = 0, Xjit = Xjit', para quaisquer t, t' = 1, 2, ..., ni e j = 2, 3, ..., k, e
uit é uma perturbação aleatória de média nula e variância pi(1−pi), somando essas
observações e dividindo por ni, obtém-se
ni ni
Yit u it
t =1
= β1 + β2 X2i + β3 X3i + ... + βk Xki + t =1
.
ni ni
p = X β + u. [21]
como se sabe, conquanto cêntrico e consistente, esse estimador não é eficiente. Uma
alternativa seria o estimador GLS de β dado por
com Var( u ) a designar uma matriz diagonal em que o elemento genérico da diagonal
principal é pi(1−pi)/ni,
Uma vez que as probabilidades pi não são observadas, o estimador GLS exequível a
empregar seria
∧ ∧
β EGLS = {X' [ Var (u) ]−1 X}−1 X' [ Var (u) ]−1 p , [24]
∧
em que Var (u) designa um estimador de Var( u ). Oferecem-se duas vias para a
construção desse estimador: corresponde uma à utilização directa das proporções
amostrais,
∧
Var (u) = diag[ p 1(1− p 1)/n1, p 2(1− p 2)/n2, ..., p n(1− p n)/nn]; [25]
parece preferível uma segunda via em que essas proporções seriam substituídas pelas
estimativas resultantes da estimação da equação [21] por OLS,
p = X β OLS,
e
∧
Var (u) = diag[ p 1(1− p 1)/n1, p 2(1− p 2)/n2, ..., p n(1− p n)/nn]. [26]
Seja o modelo
1, com probabilidade F( X i β )
Yi = ,
0, com probabilidade 1 - F( X i β )
conforme se viu atrás (equações [13]). Seja F(.) uma ou outra das funções de
distribuição que se consideraram atrás, F(Xi β ) não é função linear de β e a estimação
pelos métodos habituais no contexto do modelo de regressão linear não é possível.
{
L = ∏ [1 − F( X i β )] [ F( X β)] }.
n 1− Yi Yi
i [27]2
i=1
∂ ln L
= 0, ∀j = 1, 2, ..., k. [29]
∂ βj
A condição de 2ª ordem, por sua vez, será preenchida se, na vizinhança do óptimo, for
negativa definida a matriz das derivadas parciais de 2ª ordem de ln L em ordem a β.
2
Embora se tenha usado, nas expressões acima, o símbolo L, simplesmente, para facilitar a
notação, deve ter-se presente que L se refere a uma função dos parâmetros do modelo, dados os valores
amostrais das variáveis. Entre os parâmetros do modelo incluem-se, de modo óbvio, os coeficientes das
variáveis explicativas que são as componentes de β , e, eventualmente, também os parâmetros da matriz
de variâncias e covariâncias das perturbações. Entenda-se, portanto, que
L ≡ L(β | X1, X2, ..., Xn ,Y1, Y2, ..., Yn ).
d ln L
=0
d β1
n − f(β1 ) f(β1 )
(1 − Yi ) + Yi =0
i=1 1 − F(β1 ) F(β1 )
d F(β1 )
(recorde-se que = f(β1), por definição de função de densidade)
d β1
f(β1 ) n f(β1 ) n
Yi − (1 − Yi ) = 0
F(β1 ) i=1 1 − F(β1 ) i=1
f(β1 ) f(β1 )
n1 = (n − n1)
F(β1 ) 1 − F(β1 )
n1
F(β1) = . [30]
n
n n1 n
ln L0 = (1 − Yi ) ln 1 − + Yi ln 1 ;
i=1 n n
após simplificação,
n0 n
ln L0 = n 0 ln + n1 ln 1 . [31]
n n
β1
1 1
− t2 n
Φ ( β1 ) = e dt = 1 ;
2
[32]
−∞ 2π n
1 n1
Λ( β 1 ) = = ,
1 + e −β1 n
donde resulta
n1
β 1 = ln . [33]
n0
em que a matriz das derivadas parciais de 2ª ordem indicada na expressão deve ser
entendida como avaliada para β = β ML .3
3
Há outras aproximações possíveis à matriz Var( β ML ); a escolha por uma ou outra
aproximação depende, geralmente, do algoritmo usado na busca do máximo da função, questão que não
será discutida neste texto.
ocorre imediatamente que poderia obter-se estimativas OLS dos coeficientes, por
ajustamento de
pi
ln = β1 + β2 X2i + β3 X3i + ... + βk Xki + erro,
1 − pi
As classes de modelos LPM, probit e logit têm em comum o facto de, neles, a
variável dependente ser uma variável qualitativa com dois estados possíveis, a que,
habitualmente, se faz corresponder o símbolo 1 ou o símbolo 0. Dispondo-se de uma
amostra aleatória de observações (X2i, X3i, ..., Xki), i = 1, 2, ..., n, e ainda, para cada
observação, de informação sobre a qual dos dois grupos possíveis pertence, seria
concebível proceder-se à estimação, com os mesmos dados, de um LPM (por OLS),
de um probit, ou de um logit (por máxima verosimilhança). Que comparação se pode
estabelecer entre os resultados segundo as três especificações?
Por sua vez, as estimativas obtidas por probit, β j ,P, e por logit, β j ,L, tendem a
verificar, aproximadamente,
β j ,L ≈ 1,6 β j ,P , j = 2, 3, ..., k,
em que o factor 1,6 está associado com a desigualdade da variância das perturbações
2
nos modelos logit (π /3) e probit (1).
∧ ∧
Yi = Pr ob(Yi = 1) = Xi β , [35]
Xiβ 1
∧ 1 − t2
Pr ob(Yi = 1) = Φ (Xi β ) = e dt
2
[36]
−∞ 2π
∧ 1
Pr ob(Yi = 1) = Λ(Xi β ) = . [37]
1 + e - X iβ
ln L(β ML )
ps.R2 = 1 − , [38]
ln L 0
1) uma relação estrutural que envolve uma variável dependente, Y * , que não é
observável ou, pelo menos, não é observável para todos os indivíduos da população;
1, se YiA* > 0
Y i
A*
= β1 + β2 Xi + ui, E(ui) = 0, Yi = .
0, se YiA* ≤ 0
1, se YiB* > 0
YiB* = α1 + β2 Xi + vi, α1 = β1 − µ, vi ≡ ui + µ, E(vi) = µ, Yi = .
0, se YiB* ≤ 0
Para todos os pares (Xi, ui), é YiA* = YiB* ; por conseguinte, também a variável
observada Yi será idêntica. Não é possível determinar, a partir de qualquer amostra de
observações (Xi, Yi), se foi gerada pela população A ou pela população B e, portanto,
se os parâmetros relevantes são β1, β2, 0, ou α1, β2, µ.
Desta vez, são diferentes, para cada par (Xi, ui), as variáveis latentes YiC* e YiA*
( YiC* = YiA* + λ), mas a variável observada, Yi, é a mesma, tornando impossível
distinguir se, na população, o limiar de transição de Y = 0 para Y = 1 é 0 e o termo
constante é β1, ou se são λ e α1, respectivamente.
1, se YiD* > 0
Y i
D*
= α1 + α2 Xi + vi, α1 = σβ1, α2 = σβ2, vi = σui, Yi = ,
0, se YiD* ≤ 0
com σ > 0. Para cada par (Xi, ui), as variáveis latentes YiD* e YiA* são, novamente,
diferentes (agora, YiD* = σ YiA* ), mas é óbvio que, sempre que for YiA* > 0, também
será YiD* > 0. Por conseguinte, a variável observada, Yi, será a mesma, quer a
população tenha por parâmetros β1, β2 e Var(u), ou σβ1, σβ2 e σ2Var(u).
1, se Z*i > 0
Yi = [42]
0, se Z *i ≤ 0
vi ∼ N(0,1) [43]
e
1, se Wi* > λ
Yi = [45]
0, se Wi* ≤ λ
wi ∼ N(µ,σ2) [46]
São parâmetros do primeiro modelo as k componentes do vector δ, δ1, δ2, ..., δk; no
segundo, além dos k coeficientes γ1, γ2, ..., γk, incluem-se λ, µ e σ2 como parâmetros
adicionais.
e, evidentemente, não se altera com isso o valor de Wi* , nem a regra em [45] conduz a
observações de Y diferentes das anteriores.
1, se Wi* − λ > λ − λ
Yi = ,
0, se Wi* − λ ≤ λ − λ
ou seja, se
1, se Wi* − λ > 0
Yi = ,
0, se Wi* − λ ≤ 0
3) Por último, dividam-se ambos os membros da equação acima por σ > 0; virá
Wi* − λ γ +µ−λ γ γ γ w −µ
= 1 + 2 X2i + 3 X3i + ... + k Xki + i . [47]
σ σ σ σ σ σ
É imediato que a divisão de ( Wi* − λ) por uma constante positiva não trará
modificação alguma aos valores observados para Y, que continuarão a ser dados por
1, se Wi* − λ > 0
Yi = .
0, se Wi* − λ ≤ 0
γ1 + µ − λ
δ1 = ,
σ
[48]
γj
δj = , para j = 2, 3, ..., k .
σ
Wi* − λ
*
E( Z | Xi) = E( | Xi),
i
σ
W* − λ
Var( Z*i | Xi) = Var( i | Xi),
σ
*
Wi* − λ
e, como Z e têm ambas distribuição normal, a identidade da média e da
i
σ
variância é suficiente para garantir a identidade das distribuições.
{[ ] [ Φ( X δ ) ] },
n 1− Yi Yi
L(δ) = ∏ 1 − Φ( X i δ ) i [49]
i=1
Tem-se
= Prob(Xi γ + wi ≤ λ)
= Prob(wi ≤ λ − Xi γ)
wi − µ λ − µ − Xi γ
= Prob( ≤ )
σ σ
λ − µ − Xi γ
= Φ( ).
σ
Por consequência,
λ − µ − Xi γ
Prob(Yi = 1) = 1 − Φ ( ).
σ
Φ (x) = 1 − Φ(−x) ,
1− Yi Yi
n µ − λ + Xi γ µ − λ + Xi γ
L(γ, λ, µ, σ2) = ∏ 1 − Φ( ) Φ( ) . [50]
i=1 σ σ
{
L(β ) = ∏ [1 − Φ( X i β )] [Φ( X β ) ] }.
n 1− Yi Yi
i [51]
i=1
δ ML = β ML
BIBLIOGRAFIA