Vous êtes sur la page 1sur 105

UNIVERSIDADE DE SO PAULO

FACULDADE DE ECONOMIA, ADMINISTRAO E CONTABILIDADE


DEPARTAMENTO DE ADMINISTRAO

ANLISE DE RISCO DE CRDITO COM O USO DE


MODELOS DE REGRESSO LOGSTICA, REDES NEURAIS E
ALGORITMOS GENTICOS.

Eric Bacconi Gonalves


Orientadora: Prof Dr Maria Aparecida Gouva

SO PAULO
2005

Prof. Dr. Adolpho Jos Melfi


Reitor da Universidade de So Paulo
Profa. Dra. Maria Tereza Leme Fleury
Diretora da Faculdade de Economia, Administrao e Contabilidade
Prof. Dr. Eduardo Pinheiro Gondim de Vasconcellos
Chefe do Departamento de Administrao
Prof. Dr. Isak Kruglianskas
Coordenador do Programa de Ps-Graduao de Administrao

ERIC BACCONI GONALVES

ANLISE DE RISCO DE CRDITO COM O USO DE


MODELOS DE REGRESSO LOGSTICA, REDES NEURAIS E
ALGORITMOS GENTICOS.
Dissertao apresentada ao Departamento de
Administrao

da

Faculdade

de

Economia,

Administrao e Contabilidade da Universidade


de So Paulo como requisito para a obteno do
ttulo de Mestre em Administrao.

Orientadora: Prof Dr Maria Aparecida Gouva

SO PAULO
2005

d
Dissertao defendida e aprovada no Departamento de
Administrao da Faculdade de Economia, Administrao e
Contabilidade da Universidade de So Paulo Programa de
Ps-Graduao em Administrao, pela seguinte banca
examinadora:

FICHA CATALOGRFICA
Elaborada pela Seo de Processamento Tcnico do SBD/FEA/USP

Gonalves, Eric Bacconi


Anlise de risco de crdito com o uso de modelos de regresso
logstica, redes neurais e algoritmos genticos / Eric Bacconi
Gonalves. -- So Paulo, 2005.
96 p.
Dissertao (Mestrado)
Bibliografia.

Universidade de So Paulo, 2005.

1. Administrao financeira 2. Estatstica aplicada 3. Redes


neurais 4. Algoritmos genticos I. Universidade de So Paulo.
Faculdade de Economia, Administrao e Contabilidade. II. Ttulo.
CDD

658.15

Aos meus pais Simio e Cleide e


minha esposa Mariana que me
incentivam e apiam em todos os
momentos.

ii

AGRADECIMENTOS

A Deus por ter permitido que eu chegasse at aqui.


professora Cida, por confiar no meu potencial, acreditar no tema deste trabalho e compartilhar
seu conhecimento.
minha esposa Mariana que faz que eu entenda o significado da palavra companheira.
Aos meus pais Simio e Cleide e minha irm Paula por sempre me apoiarem.
Aos meus familiares, que sempre torcem por mim.
Ao professor Ronaldo Zwicker, membro da banca, que desde as primeiras disciplinas da ps
incentiva os alunos a pensar .
Ao professor e brilhante estatstico Adolpho Canton, que fez parte da minha qualificao e
mostrou a importncia da Estatstica no contexto da Administrao.
Ao professor e amigo Ricardo Furtado, membro da banca, por dividir seu conhecimento e
colaborar com dicas preciosas na preparao deste trabalho.
Aos amigos Robinson Semolini e Wander Mion que cooperaram transmitindo suas experincias
prticas.
Aos mestres Alexandre Trevisani, Leila Humes e Marcelo DEmdio, companheiros nas
disciplinas cursadas.
Aos meus colegas de trabalho, que me ajudaram sempre que possvel.
Aos funcionrios, professores e alunos da FEA que tornaram agradveis estes dois anos e meio
que passei cursando o mestrado.

iii

O saber no ocupa lugar


Annimo

iv

RESUMO

Praticamente todas as grandes instituies brasileiras que trabalham com concesso de crdito
utilizam-se de modelos para avaliar o risco de inadimplncia dos potenciais contratantes de
produtos de crdito. Qualquer avano nas tcnicas, que resulte no aumento da preciso de um
modelo de previso, acarreta ganhos financeiros para a instituio.
Neste trabalho so apresentados, em um primeiro momento, conceitos de crdito e risco.
Posteriormente, a partir de uma amostra de dados, fornecida por uma grande instituio
financeira brasileira, esto desenvolvidos trs modelos, aplicando-se trs tcnicas para a
classificao de clientes: Regresso Logstica, Redes Neurais e Algoritmos Genticos. Em uma
etapa final, so avaliadas e comparadas a qualidade e performance dos modelos desenvolvidos,
onde apontado qual o modelo que melhor se ajusta aos dados.
Os resultados obtidos pelos modelos de regresso logstica e rede neural so satisfatrios e
bastante prximos, sendo o primeiro ligeiramente superior. O modelo embasado por algoritmos
genticos apresenta tambm bons resultados embora num patamar inferior aos dois j citados.
Este trabalho ilustra os procedimentos a serem adotados por uma empresa para identificar o
melhor modelo de concesso de crdito que tenha boa aderncia aos seus dados. A adoo do
melhor modelo detectado permite o direcionamento da estratgia da instituio, podendo
aumentar a eficincia do seu negcio.

Palavras-chave: risco de crdito, modelos de credit scoring, regresso logstica, redes neurais,
algoritmos genticos.

ABSTRACT
Most of the large Brazilian institutions which work with credit concession use credit models to
evaluate the risk of consumer loans. Any improvement in techniques that results in the precision
increase of a prediction model, will provide financial gains to the institution.
The first phase of this study introduces concepts of credit and risk. Subsequently, with a sample
set of applicants from a large Brazilian financial institution, three credit scoring models are built
applying three different techniques: Logistic Regression, Neural Networks and Genetic
Algorithms. Finally, the quality and the performance of these models are evaluated and
compared, and the best one is identified.
The results obtained by the logistic regression model and neural network model are good and
very similar, but the first one is slightly better. The results obtained with the genetic algorithm
model are also good, but a little bit inferior.
This study shows proceedings to be adopted by a financial institution in order to identify the best
credit model to evaluate the risk of consumer loans. The use of the proper model will help the
definition of an adequate business strategy and increase profits.

Keywords: credit risk, credit scoring models, logistic regression, neural networks, genetic
algorithms.

SUMRIO
LISTA DE FIGURAS ................................................................................................................... 3
LISTA DE TABELAS .................................................................................................................. 4
CAPTULO 1-INTRODUO .................................................................................................... 5
1.2 OBJETIVOS DO ESTUDO ................................................................................................... 6
1.2.1 Objetivos Gerais ............................................................................................................. 6
1.2.2 Objetivos Especficos ..................................................................................................... 6
1.3 JUSTIFICATIVA DO TRABALHO ..................................................................................... 7
1.4 DELIMITAO DO TRABALHO....................................................................................... 7
1.5 ORGANIZAO DO ESTUDO ........................................................................................... 8
CAPTULO 2- FUNDAMENTAO TERICA ..................................................................... 9
2.1 CRDITO .............................................................................................................................. 9
2.1.1 Crdito ao Consumidor................................................................................................. 10
2.2 RISCO.................................................................................................................................. 11
2.2.1 Principais Tipos de Risco ............................................................................................. 11
2.2.2 Risco de Mercado ......................................................................................................... 11
2.2.3 Risco Legal ................................................................................................................... 12
2.2.4 Risco Operacional......................................................................................................... 12
2.2.5 Risco de Crdito ........................................................................................................... 13
2.3 AVALIAO DO RISCO DE CRDITO .......................................................................... 15
2.4 MODELOS DE CREDIT SCORING .................................................................................. 17
2.4.1 Histrico ....................................................................................................................... 17
2.4.2 Conceitos ...................................................................................................................... 19
CAPTULO 3- ASPECTOS METODOLGICOS.................................................................. 22
3.1 DESCRIO DO ESTUDO................................................................................................ 22
3.2 O PRODUTO DE CRDITO EM ESTUDO ....................................................................... 22
3.3 OS DADOS.......................................................................................................................... 23
3.4 AS VARIVEIS .................................................................................................................. 24
3.5 DEFINIO DA VARIVEL RESPOSTA ....................................................................... 25
CAPTULO 4- TCNICAS UTILIZADAS .............................................................................. 26
4.1 REGRESSO LOGSTICA ................................................................................................ 26
4.1.1 Histrico ....................................................................................................................... 27
4.1.2 Conceitos ...................................................................................................................... 27
4.1.2.1 Mtodo de escolha das variveis ........................................................................... 28
4.1.3 Pontos Fortes e Fracos da Aplicao de Regresso Logstica...................................... 29
4.2 REDES NEURAIS ARTIFICIAIS ...................................................................................... 30
4.2.1 Histrico ....................................................................................................................... 30
4.2.2 Conceitos ...................................................................................................................... 31
4.2.2.1 Arquitetura............................................................................................................. 33

2
4.2.2.2 Processo de Aprendizado....................................................................................... 37
4.2.2.3 Funes de Ativao.............................................................................................. 38
4.2.3 Pontos Fortes e Fracos das Redes Neurais ................................................................... 38
4.3 ALGORITMOS GENTICOS ............................................................................................ 39
4.3.1 Histrico ....................................................................................................................... 39
4.3.2 Conceitos ...................................................................................................................... 40
4.3.2.1 Fases de um algoritmo gentico ............................................................................ 40
4.3.3 Pontos Fortes e Fracos dos Algoritmos Genticos ....................................................... 42
4.4 CRITRIOS DE AVALIAO DE PERFORMANCE...................................................... 43
4.4.1 Taxa de Acerto.............................................................................................................. 43
4.4.2 Teste de Kolmogorov-Smirnov .................................................................................... 45
CAPTULO 5- APLICAO..................................................................................................... 47
5.1 TRATAMENTO DAS VARIVEIS................................................................................... 47
5.2 REGRESSO LOGSTICA ................................................................................................ 52
5.2.1 Modelo Implementado.................................................................................................. 52
5.2.2 Resultados..................................................................................................................... 54
5.3 REDE NEURAL .................................................................................................................. 60
5.3.1 Modelo Implementado.................................................................................................. 60
5.3.2 Resultados..................................................................................................................... 62
5.4 ALGORITMOS GENTICOS ............................................................................................ 65
5.4.1 Modelo Implementado.................................................................................................. 65
5.4.2 Resultados..................................................................................................................... 68
5.5 AVALIAO DA PERFORMANCE DOS MODELOS.................................................... 70
CAPTULO 6- CONCLUSES E RECOMENDAES ....................................................... 74
BIBLIOGRAFIA......................................................................................................................... 77
APNDICE A

CLCULO DO RISCO RELATIVO ........................................................... 84

APNDICE B

CLCULO DO KS ......................................................................................... 88

3
LISTA DE FIGURAS

Figura 1: Encadeamento da teoria ....................................................................................................9


Figura 2: Ciclo de desenvolvimento de um modelo .......................................................................19
Figura 3: Exemplo de Regresso Logstica ....................................................................................26
Figura 4: O modelo de McCullock e Pitts ......................................................................................32
Figura 5: Exemplo de uma rede neural...........................................................................................33
Figura 6: Rede Feedforward com uma nica camada....................................................................34
Figura 7: Rede Feedforward com mltiplas camadas ....................................................................35
Figura 8: Rede Recorrente..............................................................................................................36
Figura 9: Cromossomos gerados aleatoriamente............................................................................41
Figura 10: Seleo dos Melhores....................................................................................................41
Figura 11: Cruzamento ...................................................................................................................42
Figura 12: Mutao.........................................................................................................................42
Figura 13: Modelo de rede neural artificial utilizado neste trabalho..............................................61
Figura 14: Funo computacional do neurnio ..............................................................................61
Figura 15: Curva de erro mdio......................................................................................................63
Figura 16: Curva de erro de classificao ......................................................................................64
Figura 17: Exemplo de Cruzamento Uniforme ..............................................................................67

4
LISTA DE TABELAS

Tabela 1: Variveis Disponibilizadas para Este Estudo ................................................................ 24


Tabela 2: Exemplo de Clculo no Teste de Kolmogorov-Smirnov............................................... 46
Tabela 3: Exemplo de Clculo do Risco Relativo......................................................................... 48
Tabela 4: Variveis Categorizadas ................................................................................................ 51
Tabela 5: Estatstica 2LL............................................................................................................. 53
Tabela 6: Modelo de Regresso Logstica..................................................................................... 55
Tabela 7: Teste Qui-Quadrado da Mudana em 2LL .................................................................. 57
Tabela 8: Teste de Hosmer e Lemeshow....................................................................................... 58
Tabela 9: Estatsticas da Rede Neural Adotada............................................................................. 64
Tabela 10: Exemplo de Seleo de Pais Via Roleta...................................................................... 67
Tabela 11: Pesos Finais das Variveis........................................................................................... 69
Tabela 12: Resultados de Classificao......................................................................................... 71
Tabela 13: ndices de Comparao................................................................................................ 72
Tabela 14: Preciso da Classificao dos Modelos Construdos para Anlise de Crdito............ 75
Tabela 15: Preciso da Classificao dos Modelos Construdos (Literatura Pesquisada) ........... 75

5
CAPTULO 1-INTRODUO

1.1 CENRIO
Com a estabilidade da moeda, atingida no Plano Real em 1994, os emprstimos financeiros
passaram a ser um bom negcio para os bancos que j no obtinham os vultuosos lucros que
provinham da desvalorizao da moeda (ROSA, 2000, p. 1). Aps o fim do perodo inflacionrio,
percebeu-se a necessidade de se aumentarem as alternativas de investimento para substituir a
rentabilidade do perodo de inflao. Desde ento as instituies tm se preocupado em aumentar
suas

carteiras

de

crdito.

Entretanto,

emprstimo

no

poderia

ser

oferecido

indiscriminadamente a todos aqueles clientes que o solicitassem, sendo necessrias formas de


avaliar o candidato ao crdito.
H alguns anos ao fazer uma solicitao de crdito, o cliente preenchia uma proposta que seria
avaliada por um ou mais analistas que apresentavam um parecer em relao ao pedido
(SEMOLINI, 2002, p. 103). Apesar de eficaz, este processo era lento, por no permitir a anlise
de muitos pedidos. Com isso, os modelos de anlise para concesso de crdito comearam a ser
adotados nas instituies financeiras com o objetivo de acelerar a avaliao das propostas.
Os modelos de anlise para concesso de crdito, conhecidos como modelos de credit scoring
baseiam-se em dados histricos da base de clientes existentes para avaliar se um futuro cliente
ter mais chances de ser bom ou mau pagador. Os modelos de credit scoring so implantados nos
sistemas das instituies, permitindo que a avaliao de crdito seja on-line.
Os modelos de credit scoring so especficos para a aprovao em cada produto de crdito, sendo
que os produtos de crdito podem ser: crdito pessoal, cheque especial, emprstimos para
financiamentos, entre outros. Nesse estudo, o produto em questo ser o crdito pessoal.

6
1.2 OBJETIVOS DO ESTUDO

1.2.1 Objetivos Gerais


Com base nos dados provenientes de uma amostra, pretende-se:
Desenvolver trs modelos de credit scoring, mediante o uso de trs tcnicas
estatsticas/computacionais:
1. Regresso Logstica;
2. Redes Neurais;
3. Algoritmos Genticos;
Comparar os modelos desenvolvidos em termos de indicadores de qualidade de ajuste e
previso;
Propor um modelo para a classificao de clientes.

1.2.2 Objetivos Especficos


Para o alcance dos objetivos gerais, so definidos especificamente os seguintes objetivos:
Selecionar as variveis a serem utilizadas em cada um dos trs modelos;
Definir critrios para aferir o poder de discriminao das variveis;
Identificar as variveis com maior poder de discriminao dos clientes catalogados nos
grupos de bons e maus pagadores;
Definir critrios para comparao da eficincia dos modelos;
Comparar os resultados obtidos pelos trs modelos;

7
Identificar qual modelo apresentou-se como o mais indicado para a discriminao dos
clientes.

1.3 JUSTIFICATIVA DO TRABALHO


Modelos que avaliam o crdito so de vital importncia para o negcio de uma instituio
financeira. Um cliente mal classificado pode causar prejuzos (no caso de classificar um cliente
mau como bom) ou ento privar a instituio de ganhos (no caso de classificar um cliente bom
como mau).
Nenhum modelo consegue preciso absoluta, ou seja, acertar totalmente suas previses. Sabendo
disto, qualquer avano em termos de acuracidade da previso gera ganhos financeiros para a
instituio. Da vem o interesse de analisar diferentes tipos de modelo e apontar quais apresentam
uma maior preciso.
Na literatura pesquisada, principalmente no Brasil, encontram-se poucos estudos que abordam os
algoritmos genticos como ferramenta para construo de modelos de credit scoring. Em
contrapartida, redes neurais e regresso logstica so largamente empregadas neste tipo de
problema. Por esta razo, julgou-se oportuno apresentar as trs tcnicas para utilizao em um
mesmo banco de dados e comparar seus aspectos positivos e negativos.
Por questo de economia de tempo e custo, este trabalho desenvolvido por meio de dados
secundrios de clientes, fornecidos por um grande banco varejista brasileiro.

1.4 DELIMITAO DO TRABALHO

Nesse trabalho so construdos modelos de credit scoring baseados numa amostra de 20.000
clientes que obtiveram emprstimo de crdito pessoal em um grande banco de varejo que atua no
mercado brasileiro. A amostra foi coletada em fevereiro de 2004 e refere-se aos emprstimos
concedidos entre agosto de 2002 e fevereiro de 2003; apenas os contratos considerados bons ou

8
maus pela instituio foram selecionados para o trabalho; clientes cuja classificao era
indeterminada no foram focalizados.

1.5 ORGANIZAO DO ESTUDO

Essa dissertao est estruturada em seis captulos. Aps este captulo introdutrio, o Captulo 2
apresenta a fundamentao terica, contendo os conceitos de crdito, risco e modelos de credit
scoring. No Captulo 3 so descritas as particularidades deste estudo, com a explicao do
problema estudado. Na seqncia, o Captulo 4 permite uma viso geral das tcnicas adotadas
neste estudo. O Captulo 5 ilustra uma viso mais detalhada das tcnicas e a forma como elas
foram adotadas; este captulo tambm aborda os resultados obtidos e a comparao entre as
tcnicas. Finalmente, o Captulo 6 traz as concluses advindas deste estudo, bem como
recomendaes para futuros estudos.

9
CAPTULO 2- FUNDAMENTAO TERICA

Nesse captulo sero apresentados conceitos tericos que daro sustentao ao desenvolvimento
do tema deste trabalho, os quais so associados conforme a figura 1, a seguir.

Figura 1: Encadeamento da teoria

Crdito

Crdito ao
Consumidor

Avaliao
do
Risco
de Crdito

Risco

Risco de Mercado

Modelos
de
Credit Scoring

Histrico

Risco Legal

Conceitos

Risco Operacional
Risco de Crdito
F o n t e :

A u t o r

2.1 CRDITO
Crdito, por definio, todo ato de vontade ou disposio de algum de destacar ou ceder,
temporariamente, parte do seu patrimnio a um terceiro, com a expectativa de que esta parcela
volte a sua posse integralmente, aps decorrido o tempo estipulado (SCHRICKEL, 1995, p. 25).
Patrimnio pode ser entendido como dinheiro no caso de emprstimo monetrio ou bens,
emprstimo para uso ou venda com pagamento parcelado, ou a prazo.

10
Devido ao fato de envolver a expectativa do retorno do patrimnio, deve-se entender que todo
crdito est associado a um certo risco (SCHRICKEL, 1995, p. 24).
Como se trata de um ato de vontade, cabe ao cedente do patrimnio a deciso de ced-lo ou no,
tendo o direito de recusar se achar conveniente.
Apesar de existirem emprstimos a ttulo gratuito, ou seja, no onerosos quele que recebe o
bem, normalmente associa-se a qualquer transao de emprstimo um preo remuneratrio, a ser
pago pelo tomador (SECURATO, 2002, p. 18). Esse preo, conhecido como taxa de juros,
baseia-se na compensao dos riscos assumidos pelo cedente quanto possvel perda ou
deteriorao de seu patrimnio que houvera cedido.

2.1.1 Crdito ao Consumidor


A expresso crdito ao consumidor pode ser entendida como uma forma de comrcio onde uma
pessoa fsica obtm dinheiro, bens ou servios e compromete-se a pagar por isso futuramente,
acrescendo ao valor original um prmio (juros) (SANTOS, 2000, p. 15).
Atualmente, o crdito ao consumidor uma grande indstria que opera no mundo. Grandes
varejistas impulsionam suas vendas, fornecendo crdito. Empresas automobilsticas, bancos e
outros segmentos utilizam as linhas de crdito ao consumidor como uma alternativa a mais para
obter lucros. Por outro lado, o crdito ao consumidor injeta recursos na economia, permitindo a
produo e a expanso econmica de um pas, trazendo desenvolvimento para a nao (LEWIS,
1992, p. 2).
Nos dias atuais, crdito ao consumidor um negcio essencial. O maior desafio desta indstria
tornar o crdito largamente disponvel; assim tantas pessoas quanto possveis tero a
oportunidade de utilizar essa poderosa ferramenta (LEWIS, 1992, p. 2). Entretanto, tornar o
crdito largamente disponvel no significa distribuir crdito indistintamente para todos que o
solicitam; existe um fator associado ao crdito ao consumidor que decisivo na deciso de
disponibilizar ou no o crdito: o risco.

11
2.2 RISCO

Gitman (1997, p. 202) define risco como possibilidade de prejuzo financeiro. Ativos que
possuem maiores possibilidades de prejuzo financeiro so mais arriscados que aqueles com
menores possibilidades. Risco pode ser entendido como incerteza ao referir-se possibilidade de
retornos associada a um dado ativo . Entretanto, Lima (2002, p. 20) aponta que no risco, as
probabilidades de ocorrncia de um dado evento so conhecidas enquanto na incerteza no h
dados para calcularmos estas probabilidades .

2.2.1 Principais Tipos de Risco


A classificao dos riscos no obedece norma absoluta; guarda relao com o processo de
gerenciamento de risco de cada instituio. Porm, no ambiente das instituies financeiras
brasileiras j comum falar-se em risco de mercado, risco operacional e risco de crdito
(BERGAMINI JR., 1997, p. 99). O risco legal ainda no conceito bem definido; mesmo assim,
ser adotada a diviso dos quatro grupos: risco de mercado, risco legal, risco operacional e risco
de crdito.
Como o objetivo desse estudo a obteno de um modelo para a previso de risco de crdito, a
apresentao desse risco ser mais detalhada.

2.2.2 Risco de Mercado


O risco de mercado, pode-se dizer, surge como conseqncia do crdito, e se potencializa pela
sofisticao e complexidade dos produtos financeiros oferecidos e pela diversidade e instabilidade dos
mercados de atuao, o que pode levar os bancos, em suas transaes de intermediao financeira, a
manterem posies passivas e ativas no coincidentes, em taxas, prazos ou moedas, levando-os a sofrer
prejuzos em funo deste descasamento (FIGUEIREDO, 2001, p. 10).

Este tipo de risco se apresenta de vrias maneiras, tais como:

12
Risco de taxa de juros: representa a possibilidade de perda financeira em funo de
variaes das taxas de juros - flutuao das taxas de juros sobre as aplicaes e captaes,
no mercado financeiro, em funo das polticas macroeconmicas e turbulncias do
mercado;
Risco de taxa de cmbio: representa a possibilidade de perda financeira em decorrncia de
variaes na taxa de cmbio como descasamento em carteira indexada a alguma moeda
estrangeira;
Risco de liquidez: representa a possibilidade de o banco no ter condies de cumprir
suas obrigaes financeiras, seja por substanciais desencaixes no curto prazo, escassez de
recursos ou, ainda, pela incapacidade de se desfazer, rapidamente, de uma posio, devido
s condies de mercado;
Risco de aes: possibilidade de perdas em funo de mudanas no valor de mercado das
aes componentes de uma carteira.

2.2.3 Risco Legal


O risco legal faz parte das exposies a riscos das instituies financeiras; porm, no existe
ainda uniformizao quanto a conceito e abrangncia. O risco legal est relacionado a possveis
perdas quando um contrato no pode ser legalmente amparado (BERGAMINI JR., 1997, p. 98).
Podem-se incluir aqui riscos de perdas por documentao insuficiente, insolvncia, ilegalidade,
falta de representatividade e/ou autoridade por parte de um negociador.

2.2.4 Risco Operacional


Os estudos sobre risco operacional esto em estgio inicial. O risco operacional est relacionado
a possveis perdas como resultado de sistemas e/ou controles inadequados, falhas de
gerenciamento e erros humanos.
O risco operacional pode ser dividido em trs grandes reas (DUARTE JR., 1996, p. 28):
Risco organizacional: est relacionado com uma organizao ineficiente, administrao
inconsistente e sem objetivos de longo prazo bem definidos, fluxo de informaes

13
internas e externas deficientes, responsabilidades mal definidas, fraudes, acesso a
informaes internas por parte de concorrentes;
Risco de operaes: est relacionado com problemas como overloads de sistemas
(telefonia, eltrico, computacional etc.), processamento e armazenamento de dados
passveis de fraudes e erros, confirmaes incorretas ou sem verificao criteriosa etc;
Risco de pessoal: est relacionado a problemas como empregados no-qualificados e/ou
pouco motivados, personalidade fraca, falsa ambio etc.

2.2.5 Risco de Crdito


O risco de crdito a mais antiga forma de risco no mercado financeiro (FIGUEIREDO, 2001, p.
9). conseqncia de uma transao financeira contratada entre um fornecedor de fundos
(doador do crdito) e um usurio (tomador do crdito). Antes de qualquer sofisticao, produto
da engenharia financeira, o puro ato de emprestar uma quantia a algum traz embutida em si a
probabilidade de ela no ser recebida, a incerteza em relao ao retorno. Isto , na essncia, o
risco de crdito, e que se pode definir como: o risco de uma contraparte, em um acordo de
concesso de crdito, no honrar seu compromisso.
Segundo Caouette et al (2000, p. 1), se crdito pode ser definido como a expectativa de
recebimento de uma soma em dinheiro em um prazo determinado, ento Risco de Crdito a
chance que esta expectativa no se concretize . Mais especificamente enfocado para uma
instituio financeira,
Risco de Crdito define-se como a medida numrica da incerteza com relao ao recebimento futuro de um
valor contratado (ou compromissado), a ser pago por um tomador de um emprstimo, contraparte de um
contrato ou emissor de um ttulo carregado nos estoques da instituio, descontadas as expectativas de
recuperao e realizao de garantias (DUARTE JR. et al, 1999, p. 67).

A atividade de concesso de crdito funo bsica dos bancos; portanto, o risco de crdito toma
papel relevante na composio dos riscos de uma instituio e pode ser encontrado tanto em
operaes onde existe liberao de dinheiro para os clientes como naquelas onde h apenas a

14
possibilidade do uso, os limites pr-concedidos. Os principais tipos de operaes de crdito de
um banco so: emprstimos, financiamentos, descontos de ttulos, adiantamento a depositantes,
adiantamento de cmbio, operaes de arrendamento mercantil (leasing), avais e fianas etc.
Nessas operaes, o risco pode se apresentar sob diversas formas; conhec-las conceitualmente
ajuda a direcionar o gerenciamento e a mitigao. Os principais subtipos deste risco so
(FIGUEIREDO, 2001, p. 9):
Risco de inadimplncia: risco do no-pagamento, por parte do tomador, de uma operao
de crdito - emprstimo, financiamento, adiantamentos, operaes de leasing - ou ainda a
possibilidade de uma contraparte de um contrato ou emissor de um ttulo no honrar seu
crdito;
Risco de degradao de garantia: risco de perdas em funo das garantias oferecidas por
um tomador deixarem de cobrir o valor de suas obrigaes junto instituio em funo
de desvalorizao do bem no mercado, dilapidao do patrimnio empenhado pelo
tomador;
Risco de concentrao de crdito: possibilidade de perdas em funo da concentrao de
emprstimos e financiamentos em poucos setores da economia, classes de ativos, ou
emprstimos elevados para um nico cliente ou grupo econmico;
Risco de degradao de crdito: perda pela queda na qualidade creditcia do tomador de
crdito, emissor de um ttulo ou contraparte de uma transao, ocasionando uma
diminuio no valor de suas obrigaes. Este risco pode acontecer em uma transao do
tipo de aquisio de aes ou de ttulos soberanos que podem perder valor;
Risco soberano: risco de perdas envolvendo transaes internacionais - aquisio de
ttulos, operaes de cmbio - quando o tomador de um emprstimo ou emissor de um
ttulo no pode honrar seu compromisso por restries do pas sede.
No universo do crdito ao consumidor, a promessa de pagamento futuro envolve a idia de risco.
Como o futuro no pode ser corretamente predito, todo crdito ao consumidor envolve risco, pois

15
nunca existe a certeza do pagamento (LEWIS, 1992, p. 2). Cabe anlise de crdito estimar o
risco envolvido para a concesso ou no do crdito.
Na anlise de crdito existem dois fatores cruciais a serem analisados:

1. Qual o risco que o solicitante de crdito apresenta;


2. Qual o risco mximo que a instituio pode aceitar.
O risco mximo que a instituio pode aceitar depende da poltica adotada pela empresa. O risco
apresentado pelo solicitante de extrema importncia no processo de concesso de crdito,
devendo ser considerados vrios quesitos na sua avaliao. A prxima seo focalizar esses
aspectos.

2.3 AVALIAO DO RISCO DE CRDITO


O ponto principal para a concesso de crdito a avaliao do risco. Se o risco for mal avaliado a
empresa certamente ir perder dinheiro, quer seja pelo aceite de clientes que iro gerar prejuzos
ao negcio, quer seja pela recusa de clientes bons que gerariam lucros ao negcio. Empresas que
tm uma avaliao melhor que as concorrentes na concesso de crdito levam vantagem em
relao s demais, por ficarem menos vulnerveis s conseqncias decorrentes de decises
equivocadas no fornecimento de crdito.
A avaliao do risco de um potencial cliente pode ser feita de duas maneiras:
1. Por meio de julgamento, uma forma mais subjetiva que envolve uma anlise mais
qualitativa;
2. Por meio da classificao do tomador via modelos de avaliao, envolvendo uma anlise
mais quantitativa.
Atualmente, praticamente todas as grandes empresas que trabalham com concesso de crdito
utilizam as duas formas combinadas.

16
Na avaliao do risco de crdito por meio de julgamento, o analista avalia a solicitao de
emprstimo mediante ficha cadastral e/ou entrevista. Para este tipo de avaliao existem 4 Cs
largamente mencionados na literatura pesquisada que devem ser considerados (SANTI FILHO,
1997; SCHRICKEL, 1995) 1:
Carter: refere-se inteno de pagar. O avaliador deve levar em considerao o cadastro
do cliente, levantando informaes sobre emprstimos anteriores, atuao na praa,
existncia de restries;
Capacidade: refere-se habilidade de pagar. considerado o aspecto mais subjetivo do
risco, pois depende mais da percepo do analista do que da anlise de dados cadastrais;
Capital: refere-se ao potencial de produzir dinheiro. No caso de anlise para pessoa
fsica, o avaliador deve levar em considerao a renda do indivduo e seu patrimnio para
entender se ele possui meios de quitar o emprstimo;
Condies: referem-se ao micro e macrocenrio em que o tomador est inserido. Esse
ltimo aspecto foge do controle do tomador e requer a anlise dos fatores externos que
afetam a economia como planos de ajuste da economia, bolsas de valores em queda (ou
em alta), entre outros.
Na avaliao do risco de crdito por meio de classificao do tomador que so utilizados os
modelos chamados credit scoring, que permitem uma mensurao do risco do tomador de
crdito, auxiliando na tomada de deciso (concesso ou no do crdito).

Alguns autores como Securato (2002) consideram um quinto C : Colateral que diz respeito s garantias que
o devedor deve apresentar para viabilizar a operao de crdito.

17

2.4 MODELOS DE CREDIT SCORING

2.4.1 Histrico
Ao longo dos anos, muitos administradores de crdito buscaram uma forma de reduzir o processo
de anlise de crdito a uma frmula numrica. Entretanto, at o desenvolvimento dos
computadores, poucos avanos foram feitos na anlise de grandes massas de dados.
O pioneiro dos modelos de crdito foi Henry Wells, executivo da Spiegel Inc. que desenvolveu
um modelo de escore para crdito durante a Segunda Guerra Mundial (LEWIS, 1992, p. 19).
Wells necessitava de ferramentas que permitissem aos analistas inexperientes fazer avaliao de
crdito, pois muitos de seus funcionrios experientes foram recrutados para a Guerra.
Nos anos cinqenta, os modelos de escore foram difundidos na indstria bancria americana. Os
primeiros modelos baseavam-se em pesos pr-estabelecidos para certas caractersticas
determinadas, somando-se os pontos e obtendo-se um escore de classificao.
O crescimento do uso de modelos na dcada de 60 transformou os negcios no mercado
americano (THOMAS, 2000, p. 154). A busca por novas tcnicas cresceu cada vez mais e
mtodos estatsticos que auxiliam na tomada de deciso foram introduzidos nas reas estratgicas
das empresas. No somente empresas do segmento financeiro, mas tambm grandes varejistas
comearam a fazer uso de modelos de credit scoring para efetuar vendas a crdito para seus
consumidores. Varejistas como a Wards, Blomingdale s e J.C. Penney aparecem entre as
pioneiras neste segmento.
Nos anos setenta, as maiores empresas de carto de crdito, Visa e Mastercard, introduziram
modelos nos seus negcios. Com isso, conseguiram diminuir suas taxas, aumentar sua carteira de
clientes e tornaram-se mais competitivas. A General Motors tambm iniciou a utilizao desta
ferramenta na mesma poca para o financiamento de veculos. Atualmente, aproximadamente
90% das empresas americanas que oferecem algum tipo de crdito ao consumidor utilizam
modelos de credit scoring.

18
No Brasil, a histria mais curta. As instituies financeiras passaram a utilizar maciamente os
modelos de credit scoring apenas em meados dos anos 90. Em estudo de Matias e Siqueira
(1996) sobre insolvncia de bancos, h o comentrio (p. 19):
Com a efetiva implantao do novo padro monetrio no Brasil, em 1 de julho de 1994, dentro do
rgido controle de emisso monetria, os ndices de inflao nominal apresentaram sensvel queda

da

ordem de 30% ao ms para cerca de 1,5% ao ms. Em decorrncia, os ganhos do sistema bancrio
decorrentes de floating foram reduzidos de U$ 10 bilhes para menos de U$ 500 milhes, obrigando
os bancos a buscarem fontes alternativas de receita. J no segundo semestre de 1994, os bancos
expandiram suas carteiras de emprstimos, principalmente para pessoas fsicas, comrcio e micro e
pequenas empresas. Em um primeiro momento, alguns bancos no conseguiram se adaptar. Outros,
com a maior concesso de crdito efetiva sem adequados padres de crdito, deterioraram seus ativos
com a crise da inadimplncia e insolvncia que sucedeu.

Este texto mostra quo despreparados estavam os bancos da poca para a concesso de crdito. A
estabilidade da moeda e o aumento dos emprstimos ao consumidor proporcionaram condies
favorveis para que modelos de anlise de crdito fossem efetivamente implantados no Brasil.

19

2.4.2 Conceitos
Neste tpico sero explicados os passos para a construo de um modelo de credit scoring. A
figura 2 sintetiza estes passos.
Figura 2: Ciclo de desenvolvimento de um modelo
Classificao dos
clientes e definio
da varivel resposta

Base de
dados
histrica
de clientes

Seleo e
implantao do
melhor modelo

Seleo de
amostra aleatria
representativa

Definio dos critrios de


comparao dos modelos

Escolha e
aplicao
das tcnicas
a serem
utilizadas

F o n t e :

Anlise
descritiva e
preparao
dos dados

A u t o r

Como j mencionado, a funo de um modelo de credit scoring mensurar o risco, sendo,


portanto, uma ferramenta que auxilia na deciso de fornecer ou no o crdito para o solicitante.
Informaes cadastrais, bem como comportamentos anteriores dos clientes, so levados em

20
considerao para a modelagem e o resultado do modelo identificar perfis de clientes que sejam
atrativos para a empresa conceder o crdito.
Existem alguns passos a serem seguidos para se construir um modelo de credit scoring, a saber:

1. Levantamento de uma base histrica de clientes


A suposio bsica para se construir um modelo de avaliao de crdito que os clientes tm o
mesmo padro de comportamento ao longo do tempo; portanto, com base em informaes
passadas so construdos os modelos. A disponibilidade e qualidade da base de dados so
fundamentais para o sucesso do modelo (TREVISANI et al, 2004).

2. Classificao dos clientes de acordo com o padro de comportamento e definio da


varivel resposta
Neste ponto so definidos quais so os clientes considerados bons e quais os clientes
considerados maus pela instituio. Cabe observar que cada instituio tem sua prpria poltica
de crdito e estes conceitos de bons e maus podem mudar dependendo da instituio. Na
realidade, nessa classificao, alm de clientes bons e maus, tambm existem os clientes
excludos, aqueles que possuem caractersticas peculiares e que no devem ser considerados (por
exemplo, trabalha na instituio) e os clientes indeterminados, que so aqueles que esto na
fronteira entre serem bons ou maus, no existindo, ainda, uma posio clara para eles. Na prtica,
as instituies consideram apenas os clientes bons e maus para fazer o modelo devido maior
facilidade de trabalhar com modelos de resposta binria. Esta tendncia de trabalhar apenas com
clientes bons e maus tambm observada nos trabalhos acadmicos (ROSA, 2000; OHTOSHI,
2003; SEMOLINI, 2002; HAND; HENLEY, 1997; entre outros).

3. Seleo de amostra aleatria representativa da base histrica


Com a base e a varivel resposta definidas, selecionam-se amostras representativas de clientes
bons e maus. importante que as amostras de bons e maus clientes tenham o mesmo tamanho
para se evitar qualquer possvel vis devido diferena de tamanhos. No existe um nmero fixo
para a amostra; entretanto, Lewis (1992, p. 31) sugere uma amostra de 1.500 clientes bons e

21
1.500 clientes maus para serem propiciados resultados robustos. Costuma-se trabalhar com trs
amostras, uma para construo do modelo, outra para validao do modelo e a terceira para teste
do modelo. No captulo 3, seo 3.3, sero detalhadas as funes de cada uma das trs amostras.

4. Anlise descritiva e preparao dos dados


Consiste em analisar segundo critrios estatsticos cada varivel a ser utilizada no modelo. Este
tpico ser abordado mais detalhadamente posteriormente.

5. Escolha e aplicao das tcnicas a serem utilizadas para a construo do modelo


Existem diversas tcnicas utilizadas para construo de modelos, algumas com maior ou menor
complexidade. Neste trabalho sero utilizadas Regresso Logstica, Redes Neurais e Algoritmos
Genticos. Hand e Henley (1997) destacam ainda Anlise de Discriminante, Regresso Linear, e
rvores de Deciso, como mtodos utilizados na prtica. Recentemente alguns estudiosos
tambm tm utilizado Anlise de Sobrevivncia (HARRISON; ANSELL, 2002; ANDREEVA,
2003). No existe um mtodo claramente melhor que os demais, tudo dependendo de como a
tcnica escolhida se ajusta aos dados.

6. Definio dos critrios de comparao dos modelos


Aqui ser definida a medida de comparao dos modelos, normalmente pelo ndice de acertos e a
estatstica de Kolmogorov-Smirnov (KS). Estes critrios sero explicados no captulo 4, seo
4.4.

7. Seleo e Implantao do melhor modelo


Por meio dos critrios previamente definidos, o melhor modelo escolhido. Com isso deve-se
programar a implantao do modelo. A instituio deve adequar seus sistemas para receber o
algoritmo final e programar a utilizao do mesmo junto s demais reas envolvidas.

22
CAPTULO 3- ASPECTOS METODOLGICOS

3.1 DESCRIO DO ESTUDO


Uma instituio financeira deseja conceder emprstimos a seus clientes e, para isso, necessita de
uma ferramenta que avalie o grau de risco associado a cada emprstimo para auxiliar o processo de
tomada de deciso. A instituio gostaria que todos os clientes fossem classificados como bons ou
maus pagadores, para poder estimar a distribuio de perdas de sua carteira de crdito, obter um
credit rating e direcionar o gerenciamento das operaes de acordo com o risco de inadimplncia
dos contratantes. Para viabilizar este projeto, foram disponibilizadas informaes do histrico de
clientes que contrataram um crdito pessoal.

3.2 O PRODUTO DE CRDITO EM ESTUDO


O produto em estudo o crdito pessoal. Os contratos de crdito pessoal podem ter juros pr ou
ps-fixados. Os pr-fixados tm juros estabelecidos quando o cliente contrata o emprstimo e no
ps-fixado, a instituio financeira define um ndice que vai ser o responsvel pela correo das
parcelas do emprstimo ao longo dos meses em que ele tem de ser pago, alm dos juros. Nesse
caso, o valor da parcela varia ao longo do pagamento de acordo com o indexador fixado no
contrato.
O crdito pessoal uma operao de crdito ao consumidor rpida e prtica. No preciso
declarar a finalidade que ser dada ao emprstimo, o qual concedido de acordo com a
capacidade de crdito do solicitante.
Outra caracterstica do produto em questo a no exigncia de bens como garantia de
pagamento.
Sobre o Crdito Pessoal cobrado o IOF (Imposto sobre Operaes Financeiras), conforme
previsto na legislao, e a Taxa de Abertura ou Renovao de Crdito.
Para este estudo abordada a modalidade com juros pr-fixados com prazos de emprstimos
variando de 1 a 12 meses.

23
3.3 OS DADOS
Para a realizao do estudo foram selecionados aleatoriamente, a partir do universo de clientes do
banco em estudo, 10.000 contratos de crdito tidos como bons e 10.000 considerados maus,
realizados no perodo de agosto de 2002 a fevereiro de 2003, sendo que todos estes contratos j
venceram, isto , a amostra foi coletada aps a data de vencimento da ltima parcela de todos os
contratos. Trata-se de uma base de dados histrica com informaes mensais de utilizao do
produto. A partir desta estrutura pode-se acompanhar o andamento do contrato e precisar em que
momento o cliente deixou de pagar uma ou mais parcelas.
No universo da instituio estudada, a proporo de bons contra maus de 85% versus 15%;
neste trabalho, optou-se pela alternativa de uma amostra igualitria, por se acreditar que desta
forma a avaliao da qualidade do ajuste mais precisa, evitando-se o problema de acertos de
classificao a posteriori automticos no grupo majoritrio, independentemente do poder de
aderncia do modelo aos dados. Outra alternativa seria extrair uma amostra aleatria do universo
e posteriormente ponderar os pesos de bons e maus de acordo com sua proporo na amostra;
esta segunda alternativa utilizada em Rosa (2000).
No trabalho a amostra dividida em trs sub-amostras provenientes do mesmo universo de
interesse: uma para construo do modelo, 8.000 dados (sendo 4.000 bons e 4.000 maus); a
segunda para validao do modelo construdo, 6.000 dados (sendo 3.000 bons e 3.000 maus) e a
terceira tambm com 6.000 (com a mesma diviso eqitativa) para testar o modelo obtido.
Cada sub-amostra tem a sua funo especfica (ARMINGER et al, 1997, p. 294). A sub-amostra
de construo do modelo usada para estimao dos parmetros do modelo, a sub-amostra de
teste tem como funo verificar o poder de predio dos modelos construdos, e a sub-amostra de
validao, particularmente numa rede neural, tem a funo de validar os parmetros, evitando o
superajuste (overfitting)2 do modelo. Nos modelos de regresso logstica e algoritmos genticos

Superajuste ou overfitting um fenmeno presente nas redes neurais quando o modelo fica superajustado aos
dados de desenvolvimento; entretanto, o modelo no ser bom em outros dados. A amostra de validao uma
soluo para se evitar o superajuste. Ohtoshi (2003, p. 47) explica: Quando o treinamento progride, o erro no
treinamento naturalmente cai e a funo de erro diminui. De fato, se o erro na amostra de validao pra de cair,
isto indica que a rede est comeando a iniciar um superajuste. Quando o superajuste ocorre na amostra de
treinamento, aconselhvel diminuir o nmero de camadas escondidas ou de unidades da rede .

24
a amostra de validao ter o mesmo papel da amostra de teste, ou seja, avaliar a predio do
modelo.

3.4 AS VARIVEIS
As variveis explanatrias disponveis contm caractersticas que podem ser divididas em dois
grupos: Variveis Cadastrais e Variveis de Utilizao e Restrio. Variveis Cadastrais esto
relacionadas ao cliente, e as Variveis de Utilizao e Restrio so relativas s restries de
crdito e apontamentos sobre outras operaes de crdito do cliente existentes no mercado.
Tanto as Variveis Cadastrais como as de Utilizao e Restrio so coletadas no momento em
que o cliente contrata o produto. A tabela 1 descreve as variveis e suas respectivas escalas.
Tabela 1: Variveis disponibilizadas para este estudo
Varivel
Sexo
Estado Civil
Fone Residencial
Fone Comercial
Tempo no Emprego Atual
Salrio do Cliente
Quantidade de Parcelas a Serem Quitadas
Primeira Aquisio
Tempo na Residncia Atual
Valor da Parcela
Valor Total do Emprstimo
Tipo de Crdito
Idade
CEP Residencial
CEP Comercial
Cdigo de Profisso
Nome da Profisso
Salrio do Cnjuge

Escala
Nominal
Nominal
Nominal
Nominal
Razo
Razo
Razo
Nominal
Razo
Razo
Razo
Nominal
Razo
Nominal
Nominal
Nominal
Nominal
Razo

Tipo de Cliente - Bom (mximo 20 dias de atraso) ou Nominal


Mau (acima de 60 dias de atraso)

25
3.5 DEFINIO DA VARIVEL RESPOSTA
Para o desenvolvimento de um modelo de credit scoring preciso definir, num primeiro
momento, o que a instituio financeira considera como um bom e mau pagador. Esta definio,
da Varivel Resposta, tambm denominada de Definio de Performance, est diretamente ligada
poltica de crdito da instituio. Para o produto em estudo, clientes com 60 ou mais dias de
atraso foram considerados Maus (inadimplentes) e clientes com no mximo 20 dias de atraso
como Bons. A mensurao do atraso calculada por meio da parcela paga com maior atraso pelo
cliente; por exemplo, um cliente que atrasou trs parcelas por vinte dias consecutivos ainda assim
considerado um bom cliente, ao passo que um cliente que tenha atrasado uma parcela por
sessenta dias considerado mau.
Os clientes que apresentam atrasos no intervalo entre bons e maus foram definidos como
indeterminados.
Pode-se destacar a existncia de um grupo de clientes que no faz parte do estudo, pois as
informaes relativas a ele no so armazenadas pela instituio. Trata-se do grupo de clientes
recusados pela instituio antes mesmo de terem suas propostas cadastradas.
Vale ressaltar que a Definio de Performance pode variar de uma instituio para outra.
Da Definio de Performance resultam quatro classificaes: bons, maus, indefinidos e
recusados. No entanto, somente duas delas, Bons e Maus, so utilizadas para a construo da
varivel resposta, pois os clientes denominados Indeterminados representam um grupo cujo
comportamento de crdito no suficientemente claro para indic-los como bons ou maus
pagadores. Na prtica, estes clientes que no esto claramente definidos como bons ou maus so
analisados separadamente pelo analista de crdito com base em anlise qualitativa (Captulo 2,
seo 2.3); a deciso de aceitar ou no estes clientes depende da poltica mais ou menos
conservadora adotada pela instituio financeira.

26
CAPTULO 4- TCNICAS UTILIZADAS

4.1 REGRESSO LOGSTICA


Regresso Logstica a tcnica mais utilizada no mercado para o desenvolvimento de modelos de
credit scoring (ROSA, 2000; OHTOSHI, 2003). Apresenta vantagem em relao Anlise
Discriminante, pois no pressupe que os dados de entrada tenham distribuio Normal, embora
seja desejvel que as variveis tenham essa distribuio (HAIR et al, 1998, p. 231). A regresso
logstica prediz a probabilidade de um evento ocorrer, a qual pode estar entre 0 e 1. A relao
entre as variveis independentes e a varivel dependente se assemelha a uma curva em forma de
S conforme ilustra a figura 3, a seguir.
Figura 3: Exemplo de Regresso Logstica

F o n t e : A d a p t a d o

p e l o

a u t o r

d e

S H A R M A

( 1 9 9 6 ,

p .

3 2 0 )

27

4.1.1 Histrico
Segundo Lima (2002, p. 77), a funo logstica surgiu em 1845, ligada a problemas de
crescimento demogrfico, problemas em que, at os dias de hoje, essa funo utilizada. Na
dcada de 30, esta metodologia passou a ser aplicada no mbito da biologia, e posteriormente nas
reas relacionadas a problemas econmicos e sociais. Paula (2002, p. 118) aponta que, apesar de
o modelo de regresso logstica ser conhecido desde os anos 50, foi devido a trabalhos do
estatstico David Cox, na dcada de 70, que esta tcnica tornou-se bastante popular entre os
usurios de Estatstica.
Atualmente, a regresso logstica uma das principais ferramentas na modelagem estatstica de
dados, sendo largamente utilizada em diversos tipos de problema. Paula (2002, p. 118) explica:
Mesmo quando a resposta no originalmente binria, alguns pesquisadores tm dicotomizado a
varivel resposta de modo que a probabilidade de sucesso possa ser modelada por intermdio da
regresso logstica. Tudo isso se deve, principalmente, facilidade de interpretao dos parmetros de
um modelo logstico e tambm pela possibilidade do uso deste tipo de metodologia em anlise
discriminante.

4.1.2 Conceitos
Nos modelos de regresso logstica, a varivel dependente , em geral, uma varivel binria3
(nominal ou ordinal) e as variveis independentes podem ser categricas (desde que
dicotomizadas aps transformao) ou contnuas.

Na maioria dos casos apresentados na literatura estudada, a regresso logstica apresentada com varivel resposta
binria. Entretanto, h o caso em que a varivel resposta mltipla, ou seja, com mais de duas categorias (Desai et
al, 1997); inclusive, alguns softwares como o SPSS v.12.0 apresentam a opo de utilizao de varivel resposta
mltipla.

28
Considere o caso em que as observaes podem ser classificadas em uma de duas categorias
mutuamente exclusivas (1 ou 0). Como exemplo, as categorias poderiam representar um
indivduo que pode ser classificado como cliente bom ou mau.
A varivel dependente binria Y pode assumir os valores:

1 Se o i-simo indivduo pertence categoria dos bons

Yi =
0 Se o i-simo indivduo pertence categoria dos maus

E seja X

(1, X 1 , X 2 ,..., X n ) : vetor onde o primeiro elemento igual a 1 (constante) e os demais

representam as n variveis independentes do modelo.


O modelo de Regresso Logstica um caso particular dos Modelos Lineares Generalizados
(DOBSON, 1990; PAULA, 2002). A funo que caracteriza esse modelo dada por:

ln

p( X )
1 p( X )
' (

' X = Z , onde

,...,

) : vetor de parmetros associados s variveis

p(X)=E(Y=1|X): probabilidade de o indivduo ser classificado como bom, dado o vetor X. Essa
probabilidade expressa por (NETER et al, 1996, p. 580):

p(X)=E(Y) =

e
1 e

'X
'X

eZ
1 eZ

4.1.2.1 Mtodo de escolha das variveis


Neste trabalho, inicialmente, todas as variveis sero includas para construo do modelo;
entretanto, no modelo logstico final, apenas algumas variveis sero selecionadas. A escolha das

29
variveis ser feita por intermdio do mtodo forward stepwise, que o mais largamente
utilizado em modelos de regresso logstica. No mtodo forward stepwise as variveis so
selecionadas a cada passo, de acordo com critrios que otimizem o modelo, reduzindo a varincia
e evitando problemas de multicolinearidade. Somente as variveis realmente importantes para o
modelo so selecionadas. Para detalhes da metodologia sugere-se a leitura de Canton (1988, p.
28) e Neter et al (1996, p. 348).

4.1.3 Pontos Fortes e Fracos da Aplicao de Regresso Logstica


Fensterstock (2005, p. 48) aponta as seguintes vantagens na utilizao de tcnicas estatsticas na
construo de modelos:
O modelo gerado leva em considerao a correlao entre as variveis, identificando
relaes que no seriam visveis e eliminando variveis redundantes;
Consideram as variveis individual e simultaneamente;
O usurio pode verificar as fontes de erro e otimizar o modelo.
No mesmo texto, o autor tambm identifica desvantagens deste tipo de tcnica:
Em muitos casos a preparao das variveis demanda muito tempo;
No caso de muitas variveis o analista deve fazer uma pr-seleo das mais importantes,
baseando-se em anlises separadas;
Alguns modelos resultantes so de difcil implementao.

30
4.2 REDES NEURAIS ARTIFICIAIS

Redes Neurais Artificiais so tcnicas computacionais que apresentam um modelo matemtico


inspirado na estrutura neural de organismos inteligentes e que adquirem conhecimento por
intermdio de experincias.

Segundo Haykin (1999, p. 28):


Uma rede neural um processador maciamente paralelamente (sic) distribudo constitudo de
unidades de processamento simples, que tm a propenso natural para armazenar conhecimento
experimental e torn-lo disponvel para uso. Ela se assemelha ao crebro em dois aspectos: 1) O
conhecimento adquirido pela rede por meio de um processo de aprendizagem; 2) Foras de conexo
entre neurnios, conhecidas como pesos sinpticos, so utilizadas para armazenar o conhecimento
adquirido.

4.2.1 Histrico
Segundo vrios autores, entre eles, Marks e Schnabl (1997, p. 3); Haykin (1999, p. 63) e Fausett
(1994, p. 22), o primeiro modelo de rede neural surgiu com o trabalho de McCulloch e Pitts.
Warren McCulloch foi um psiquiatra e neuroanatomista que estudava uma representao para o
sistema nervoso. Em 1942, ele se associou com o matemtico Walter Pitts e no ano seguinte eles
publicaram um artigo que propunha um modelo matemtico para uma rede neural, artigo este que
at hoje uma referncia no estudo de redes neurais (HAYKIN, 1999, p. 63). Um segundo
trabalho importante foi publicado por Hebb em 1949, no qual foram propostas as primeiras regras
de aprendizado para redes neurais artificiais; este trabalho tambm inspirou muitos estudiosos em
pesquisas posteriores.
Durante as dcadas de 50 e 60 houve muitas pesquisas e estudos que permitiram avanar muito
no campo das redes neurais. Fausett (1994, p. 23) chama este perodo de anos dourados das
redes neurais . Estudos mostraram que a nova metodologia seria muito promissora; foram

31
propostos novos tipos de rede, novas regras de aprendizado e as redes foram ficando mais
complexas.
Na dcada de 70, contudo, houve uma desacelerao nas pesquisas, conforme apontam Hair et al
(1998, p. 545): (...) no final dos anos 1960, pesquisas demonstraram que as redes neurais
daquela poca eram realmente muito limitadas e a rea em si sofreu um geral retrocesso .
Foi somente nos anos 80 que, com o maior poder computacional, as redes neurais voltaram a ser
largamente estudadas e aplicadas. Fausett (1994, p. 25) destaca o desenvolvimento do algoritmo
backpropagation (retropropagao) como um divisor de guas para a popularidade das redes
neurais. At os dias atuais as redes neurais vm sendo largamente empregadas e estudadas, sendo
utilizadas em diferentes reas de conhecimento como medicina, biologia, economia,
administrao e engenharia.

4.2.2 Conceitos
Um modelo de rede neural artificial processa certas caractersticas e produz respostas
similarmente ao crebro humano. Redes neurais artificiais so desenvolvidas por meio de
modelos matemticos, onde as seguintes suposies so feitas (FAUSETT, 1994, p. 3):
1. O processamento das informaes ocorre dentro dos chamados neurnios;
2. Os estmulos so transmitidos pelos neurnios por meio de conexes;
3. Cada conexo tem associada a si um peso, que, numa rede neural padro, multiplica-se ao
estmulo recebido;
4. Cada neurnio contribui para a funo de ativao (geralmente no linear) para
determinar o estmulo de sada (resposta da rede).
O mencionado modelo pioneiro de McCulloch e Pitts de 1943 (figura 4), para uma unidade de
processamento (neurnio), pode ser resumido em:
Sinais so apresentados entrada;
Cada sinal multiplicado por um peso que indica sua influncia na sada da unidade;

32
feita a soma ponderada dos sinais que produz um nvel de atividade;
Se este nvel excede um limite, a unidade produz uma sada.

Figura 4: O modelo de McCullock e Pitts

F o n t e :

T a t i b a n a

K a e t s u

( S . d . )

No esquema, tm-se p sinais de entrada X 1 , X 2 ,..., X p e pesos correspondentes W1 ,W2 ,..., W p e


seja k o limite.
Neste modelo o nvel de atividade dado por:
p

Wi X i
i 1

A sada y dada por:


y = 1, se a

y = 0, se a < k
Na definio de um modelo de redes neurais trs caractersticas devem ser observadas: a forma que
a rede tem, chamada arquitetura; o mtodo para determinao dos pesos, chamado algoritmo de
aprendizado; e a funo de ativao. Os prximos tpicos explicaro estas caractersticas.

33
4.2.2.1 Arquitetura
Como j mencionado, arquitetura refere-se ao formato da rede. Toda rede dividida em camadas,
usualmente classificadas em trs grupos (conforme ilustra a figura 5, a seguir):
Camada de Entrada: onde os padres so apresentados rede;
Camadas Intermedirias ou Ocultas: onde feita a maior parte do processamento, por
meio das conexes ponderadas; podem ser consideradas como extratoras de
caractersticas;
Camada de Sada: onde o resultado final concludo e apresentado.

Figura 5: Exemplo de uma rede neural

F o n t e :

C a r v a l h o

( S . d . )

Existem basicamente trs tipos principais de arquitetura (HAYKIN, 1999, p. 46-48): redes
feedforward com uma nica camada, redes feedforward com mltiplas camadas, e redes
recorrentes.

34

1. Redes feedforward com uma nica camada: so o caso mais simples de rede, existindo
apenas uma camada de entrada e uma camada de sada. As redes so alimentadas adiante,
ou seja, apenas a camada de entrada fornece informaes para a camada de sada, como
mostra a figura 6, a seguir. Algumas das redes que utilizam essa arquitetura so: Rede de
Hebb, perceptron, ADALINE, entre outras.
Figura 6: Rede Feedforward com uma nica camada

Camada de Entrada
F o n t e : A d a p t a d o

p e l o

a u t o r

Camada de Sada
d e

F A U S E T T

( 1 9 9 4 ,

p .

1 3 )

35

2. Redes feedforward com mltiplas camadas: so aquelas que possuem uma ou mais
camadas intermedirias. A sada de cada camada utilizada como entrada para a prxima
camada. Da mesma forma que a arquitetura anterior, este tipo de rede caracteriza-se
apenas por alimentao adiante. As redes multilayer perceptron (MLP), MADALINE e de
funo de base radial so algumas das redes que utilizam esta arquitetura. A figura 7, a
seguir, ajuda a entender melhor este conceito.
Figura 7: Rede Feedforward com mltiplas camadas

Camada de Entrada Camada Intermediria


F o n t e : A d a p t a d o

p e l o

a u t o r

d e

F A U S E T T

Camada de Sada
( 1 9 9 4 ,

p .

1 3 )

36

3. Redes Recorrentes: neste tipo de rede, a camada de sada possui ao menos uma ligao
que realimenta a rede, como mostra a figura 8. As redes chamadas de BAM (Bidirecional
Associative Memory) e ART1 e ART2 (Adaptative Resonance Theory) so redes
recorrentes.
Figura 8: Rede Recorrente

Camada de Entrada
F o n t e : A d a p t a d o

Camada Intermediria
p e l o

a u t o r

d e

Camada de Sada

H A Y K I N

( 1 9 9 9 ,

p .

4 9 )

37

4.2.2.2 Processo de Aprendizado


A propriedade mais importante das redes neurais a habilidade de aprender de acordo com o
ambiente e com isso melhorar seu desempenho (CASTRO JR., 2003, p. 92). Esse aprendizado
realizado, ajustando-se os pesos por meio de um processo iterativo. O objetivo do processo a
obteno de um algoritmo de aprendizado que permita uma soluo generalizada para certa classe
de problema.
Denomina-se algoritmo de aprendizado um conjunto de regras bem definidas para a soluo de
um problema de aprendizado. Existem muitos tipos de algoritmos especficos para determinados
modelos de redes neurais. Estes algoritmos diferem entre si principalmente pelo modo como os
pesos so modificados.
Existem basicamente trs tipos de aprendizado:
1. Aprendizado Supervisionado: neste tipo de aprendizado, indicada para a rede qual a
resposta esperada. Trata-se do exemplo deste trabalho onde a priori j se sabe se o cliente
bom ou mau;
2. Aprendizado No Supervisionado: neste tipo de aprendizado, a rede deve basear-se
apenas nos estmulos recebidos; a rede deve aprender a agrupar os estmulos;
3. Aprendizado por Reforo: neste tipo de aprendizado, o comportamento da rede avaliado
por um crtico externo.
Cada tipo de aprendizado possui vrios algoritmos possveis de serem utilizados. Na seo 5.3.1
ser detalhado qual algoritmo ser utilizado neste trabalho, bem como as razes que levaram a
esta escolha.

38

4.2.2.3 Funes de Ativao


Como j mencionado, cada neurnio contribui para o estmulo de sada. A funo de ativao
desempenha o papel de restringir a amplitude de sada de um neurnio, em geral [0,1] ou [-1,1]
(HAYKIN, 1999, p. 37). Alguns exemplos de funes de ativao utilizadas so:
1

Se x < k

Se x

Funo Limiar: f(x)=

Funo Logstica: f(x)=

1
1 e(

x)

Funo Tangente Hiperblica: f(x)=tanh(x)

4.2.3 Pontos Fortes e Fracos das Redes Neurais


Berry e Linoff (1997, p. 331) apontam os seguintes pontos positivos na utilizao de redes
neurais:
So versteis: redes neurais podem ser usadas para a soluo de diferentes tipos de
problemas como previso, agrupamento ou identificao de padres;
So capazes de identificar relaes no-lineares entre as variveis;
So largamente utilizadas, estando disponveis em vrios softwares.
No tocante s desvantagens, os autores apontam (p. 333):
Os resultados no so explicveis: no so produzidas regras explcitas, a anlise feita
dentro da rede e s o resultado fornecido pela caixa-preta ;

39
A rede pode convergir para uma soluo inferior: no h garantias de que a rede encontre
a melhor soluo possvel; ela pode convergir para um mximo local4.

4.3 ALGORITMOS GENTICOS


Os algoritmos genticos so uma famlia de modelos computacionais inspirados na evoluo, que
incorporam uma soluo potencial para um problema especfico numa estrutura semelhante de
um cromossomo e aplicam operadores de seleo, cruzamento (cross-over) e mutao a essas
estruturas de forma a preservar informaes crticas relativas soluo do problema.
Normalmente, os AG's so vistos como otimizadores de funes, embora a quantidade de
problemas para os quais os AG's se aplicam seja bastante abrangente.
A idia dos algoritmos genticos se assemelha evoluo das espcies proposta por Darwin: os
algoritmos vo evoluindo com o passar das geraes e os candidatos soluo do problema que
se quer resolver permanecem vivos e se reproduzem (BACK et al, 1996).

4.3.1 Histrico
Bauer (1994, p. 11) assinala que no final dos anos 50 e comeo dos anos 60 muitos bilogos
comearam a experimentar simulaes computacionais de sistemas genticos. Particularmente
importante foi o trabalho de Fraser de 1960 que iniciou o desenvolvimento mais profundo dos
algoritmos genticos.
Entretanto, foi John Holland quem comeou a desenvolver as primeiras pesquisas no tema.
Holland foi gradualmente refinando suas idias e em 1975 publicou o seu livro Adaptation in
Natural and Artificial Systems, hoje considerado a Bblia de algoritmos genticos. Desde ento,
estes algoritmos vm sendo aplicados com sucesso nos mais diversos problemas de otimizao e

Nesta dissertao foi adotada uma amostra de validao para evitar este tipo de problema.

40
aprendizado de mquina. Nos anos 80, a aplicao do modelo de algoritmo gentico de Holland
por Axelrod (1987) ao dilema dos prisioneiros5 popularizou ainda mais o uso desta tcnica.

4.3.2 Conceitos
Segundo Picinini et al (2003, p. 464):
Algoritmos evolutivos so mtodos computacionais que permitem obter solues em problemas para
os quais no existem algoritmos exatos para solucion-los, ou, se existem, a obteno da soluo
requer elevado tempo de processamento. O algoritmo evolutivo mais conhecido o algoritmo gentico
proposto por Holland.

O algoritmo composto por uma populao, que representada por cromossomos, que nada mais
so do que diversas solues possveis para o problema proposto. As solues que so
selecionadas para dar forma a solues novas (a partir de um cruzamento) so selecionadas de
acordo com a aptido (fitness) dos cromossomos pais. Assim, quanto mais apropriado o
cromossomo, maior a possibilidade de ele se reproduzir. Esse processo repetido at que a regra
de parada seja satisfeita, ou seja, encontrar uma soluo muito prxima da desejada.

4.3.2.1 Fases de um algoritmo gentico


Todo algoritmo gentico passa pelas seguintes fases:

Incio: primeiramente gerada uma populao formada por um conjunto aleatrio de indivduos
(cromossomos) que podem ser vistos como possveis solues do problema, conforme a figura 9.

O Dilema dos Prisioneiros descreve a situao em que dois prisioneiros esto presos em salas separadas,
aps cometerem um crime em que foram cmplices. Como a polcia no tem provas suficientes para incrimin-los,
feita uma solicitao de confisso para cada um deles. Se ambos confessarem (ou colaborarem com a polcia), cada
um ser condenado a 5 anos de priso. Se nenhum confessar, o julgamento ser dificultado e eles provavelmente
sero condenados a 2 anos de priso. Por outro lado, se um dos prisioneiros confessar o crime, mas o outro no,
aquele que confessou ser condenado a apenas 1 ano de priso, enquanto o outro ser condenado a 10 anos. O dilema
est em confessar ou no.

41
Figura 9: Cromossomos gerados aleatoriamente

F o n t e :

A d a p t a d o

p e l o

a u t o r

d e

L I N G R A S

( 2 0 0 1 ,

p .

2 1 7 )

Funo de Aptido (Fitness): uma funo de aptido definida para avaliar a qualidade de cada
um dos cromossomos.

Seleo: de acordo com os resultados da funo de aptido, uma porcentagem dos mais adaptados
mantida, enquanto os outros so descartados (Darwinismo). A figura 10 ilustra esta fase.

Figura 10: Seleo dos Melhores

F o n t e :

A d a p t a d o

p e l o

a u t o r

d e

L I N G R A S

( 2 0 0 1 ,

p .

2 1 7 )

Cruzamento (Cross-Over): escolhem-se dois pais e baseando-se neles gerado um filho


baseado num critrio especfico de cruzamento. O mesmo critrio efetuado com o outro
cromossomo, e o material dos dois cromossomos trocado.

Se nenhum cruzamento for

executado, a prole uma cpia exata dos pais. A figura 11 corresponde a esta fase.

42
Figura 11: Cruzamento
Pais

Aps Cross-over
F o n t e :

L I N G R A S

( 2 0 0 1 ,

p .

2 1 7 )

Mutao: atribui-se populao um percentual de mutao. A mutao a alterao de algum


dos genes do cromossomo (figura 12). O intuito da mutao evitar que a populao convirja
para um mximo local. Assim, caso esta convergncia ocorra, a mutao garante que a populao
ir saltar o ponto de mnimo local, tentando alcanar outros pontos de mximo.

Figura 12: Mutao


Cromossomo Original
Cromossomo Modificado
F o n t e :

L I N G R A S

( 2 0 0 1 ,

p .

2 1 7 )

Verificao do critrio de parada: criada uma nova gerao, verifica-se o critrio de parada prestabelecido e retorna-se para a fase da funo de aptido, caso este critrio no esteja satisfeito.

4.3.3 Pontos Fortes e Fracos dos Algoritmos Genticos


Destacam-se os seguintes pontos positivos na utilizao de algoritmos genticos:
Produzem resultados explicveis diferentemente das redes neurais (BERRY; LINOFF,
1997, p. 357);
So facilmente utilizveis (BERRY; LINOFF, 1997, p. 357);

43
Podem trabalhar com um grande conjunto de dados e variveis (FENSTERSTOCK, 2005,
p. 48).
Algumas das desvantagens apontadas na literatura so:
Ainda so pouco utilizados para problemas de avaliao do risco de crdito
(FENSTERSTOCK, 2005, p. 48);
Necessitam de um grande esforo computacional (BERRY; LINOFF, 1997, p. 358);
Esto disponveis em poucos softwares (BERRY; LINOFF, 1997, p. 358).

4.4 CRITRIOS DE AVALIAO DE PERFORMANCE

Os critrios de avaliao de performance indicam quo adequado um modelo . Para avaliar a


performance do modelo foram selecionadas duas amostras, uma de validao e outra de teste de
mesmo tamanho (3000 clientes considerados bons e 3000 considerados maus para cada uma das
duas). Alm das amostras, existem outros critrios que sero utilizados, apresentados nos tpicos
seguintes.

4.4.1 Taxa de Acerto


Mede-se a taxa de acerto por meio da diviso do total de clientes classificados corretamente, pela
quantidade de clientes que fizeram parte do modelo.

Tat=

At
N

Tat...Taxa de acertos total


At...Indivduos corretamente classificados
N...Nmero total de clientes

44

De forma similar, pode-se quantificar a taxa de acertos dos bons e maus clientes.

Tab=

Ab
Nb

Tab...Taxa de acertos de clientes bons


Ab...Indivduos bons corretamente classificados
Nb...Nmero total de clientes bons
Tam=

Am
Nm

Tam...Taxa de acertos de clientes maus


Am...Indivduos maus corretamente classificados
Nm...Nmero total de clientes maus
Entretanto, existem casos de grandes diferenas entre a taxa de acerto de bons e maus clientes
que podem distorcer a qualidade do modelo. Supondo-se que um modelo, aplicado a uma base
com a mesma quantidade de bons e maus clientes, classificasse todos os clientes como bons, seria
obtida uma taxa de acerto de 100% para os clientes bons e 0% para os clientes maus, perfazendo
um total de 50%.
Em algumas situaes, muito mais importante identificar um cliente bom do que um cliente
mau (ou vice-versa); nesses casos, comum dar-se um peso para a taxa de acertos mais adequada
e calcular-se uma mdia ponderada da taxa de acertos.
Neste trabalho, como no se tm informaes a priori sobre o que seria mais atrativo para a
instituio financeira (identificao de bons ou maus clientes), utilizar-se- o produto entre as
taxas de acerto de bons e maus clientes como um indicador de acerto para se avaliar a qualidade
do modelo. Esse indicador privilegiar os modelos que tenham altos ndices de acerto para os
dois tipos de clientes. Quanto maior for o indicador, melhor ser o modelo.

45

Ia= Tab*Tam
Ia...Indicador de acertos
Tab...Taxa de acertos de clientes bons
Tam...Taxa de acertos de clientes maus

4.4.2 Teste de Kolmogorov-Smirnov


O outro critrio bastante utilizado na prtica (PICININI et al, 2003; OOGHE et al, 2001; Pereira,
2004) a ser abordado neste trabalho o teste de Kolmogorov-Smirnov (KS).
O teste de KS uma tcnica no paramtrica para determinar se duas amostras foram extradas da
mesma populao (ou de populaes com distribuies similares) (SIEGEL, 1975, p. 144). Este
teste se baseia na distribuio acumulada dos escores dos clientes considerados como bons e
maus.
Ambas as populaes so divididas em intervalos iguais e para cada um determinada a
freqncia acumulada. Em cada intervalo calcula-se a diferena entre as freqncias acumuladas
e o teste se d focando a maior diferena entre elas. Matematicamente:
seja S n1 (X) a funo acumulada para a primeira amostra,

isto , S n1 (X)=

k
, onde
n1

k= nmero de escores no superiores a X,

46
e seja S n2 (X) a funo acumulada para a segunda amostra,

isto , S n2 (X)=

k
, onde
n2

k= nmero de escores no superiores a X.


A prova de Kolmogorov-Smirnov focaliza
D=mx [S n1 (X) - S n2 (X)].
O exemplo apresentado na tabela 2, a seguir, foi adaptado de Lewis (1992, p. 144); o KS deste
modelo hipottico de 28%.
Tabela 2: Exemplo de clculo no teste de Kolmogorov-Smirnov
Faixa de pontos
280 ou mais
260-279
250-259
240-249
230-239
220-229
210-219
200-209
Abaixo de 200

Nmero de clientes
Bons
Maus
320
2
1291
4
1768
17
2295
26
2571
36
2714
42
2787
81
2690
115
106
11

F o n t e : A d a p t a d o

p e l o

a u t o r

d e

Freqncia Acumulada
Bons
Maus
Diferena
2%
1%
1%
10%
2%
8%
20%
7%
14%
34%
15%
20%
50%
25%
24%
66%
38%
28%
83%
62%
21%
99%
97%
3%
100%
100%
0%
L E W I S

( 1 9 9 2 ,

p .

1 4 4 )

Para se verificar se as amostras possuem a mesma distribuio, existem tabelas que so


consultadas de acordo com o nvel de significncia e tamanho da amostra (ver SIEGEL, 1975, p.
309-310). No caso deste trabalho, como as amostras so grandes, a tendncia que todos os
modelos rejeitem a hiptese de igualdade nas distribuies. Ser considerado melhor modelo
quele que possuir o maior valor no teste, pois este resultado indica uma separao maior entre
bons e maus.

47
CAPTULO 5- APLICAO

Neste captulo sero abordados os mtodos de tratamento das variveis, a aplicao das trs
tcnicas estudadas e os resultados obtidos por intermdio de cada uma delas, comparando-se o
desempenho destas. Para a anlise descritiva, categorizao dos dados e aplicao de regresso
logstica foi utilizado o software SPSS for Windows v.11.0; para a seleo das amostras e
aplicao da rede neural foi utilizado o software Enterprise Miner v.4.1; para o algoritmo
gentico foi utilizado um programa desenvolvido pelo autor em Visual Basic.

5.1 TRATAMENTO DAS VARIVEIS

Nesta seo so apresentados mtodos de transformao de variveis a serem utilizados nos trs
modelos. Quando determinada transformao for especfica para alguma tcnica, esta ser
explicitada.
Inicialmente, as variveis quantitativas foram categorizadas. Rosa (2000, p. 14-15) aponta os
ganhos obtidos com a categorizao:
Padronizao dos Resultados: com a categorizao das variveis, os modelos tornam-se
mais fceis de serem implementados e fica mais simples a interpretao dos pesos
relativos s categorias das variveis;
Estabilidade do Modelo: categorizando as variveis quantitativas, o modelo fica menos
suscetvel a outliers (valores discrepantes). Com isso, a estabilidade do modelo
melhorada;
Transformao das Variveis: em estudos estatsticos, a transformao de uma varivel
necessria por duas razes: quando uma varivel independente quantitativa no
apresenta relao linear com a varivel resposta, ou na tentativa de obter a distribuio
normal da varivel (requisito desejvel para a regresso logstica, mas prescindvel,

48
conforme j mencionado no captulo 4, seo 4.1). Na prtica, porm, algumas
transformaes podem ser de difcil compreenso. Por exemplo, torna-se complicado
interpretar a relao entre bom ou mau pagador com a raiz quadrada da idade do cliente
ou o logaritmo do salrio. A categorizao das variveis quantitativas, por outro lado,
uma transformao de fcil compreenso e permite o agrupamento de variveis de
mesmo comportamento frente varivel resposta. Neste trabalho, como nenhuma das
tcnicas requer fortemente a condio da normalidade, no ser utilizada nenhuma
transformao com este intuito, apenas a categorizao.
Para a categorizao das variveis contnuas, inicialmente foram identificados os decis destas
variveis. Partindo-se dos decis, o passo seguinte foi analis-los de acordo com a varivel
resposta (TIPO). Foi calculada a distribuio de bons e maus clientes por decil e em seguida
calculada a razo entre bons e maus, o chamado risco relativo (RR), conforme mostra a tabela 3,
a seguir.
Tabela 3: Exemplo de clculo do risco relativo
Nmero
Varivel de Bons
Decil1
b1
Decil2
b2
Decil3
b3
Decil4
b4
Decil5
b5
Decil6
b6
Decil7
b7
Decil8
b8
Decil9
b9
Decil10
b10
Total
Tb

Nmero
de Maus
r1
r2
r3
r4
r5
r6
r7
r8
r9
r10
Tr

% Bons
b1/Tb
b2/Tb
b3/Tb
b4/Tb
b5/Tb
b6/Tb
b7/Tb
b8/Tb
b9/Tb
b10/Tb
1

% Maus
R1/Tr
R2/Tr
R3/Tr
R4/Tr
R5/Tr
R6/Tr
R7/Tr
R8/Tr
R9/Tr
r10/Tr
1

RR= %Bons /
%Ruins
(b1/Tb)/(r1/Tr)
(b2/Tb)/(r2/Tr)
(b3/Tb)/(r3/Tr)
(b4/Tb)/(r4/Tr)
(b5/Tb)/(r5/Tr)
(b6/Tb)/(r6/Tr)
(b7/Tb)/(r7/Tr)
(b8/Tb)/(r8/Tr)
(b9/Tb)/(r9/Tr)
(b10/Tb)/(r10/Tr)
1

Grupos que apresentaram risco relativo (RR) semelhante foram reagrupados a fim de se diminuir
o nmero de categorias por varivel.
Tambm para as variveis qualitativas foi calculado o risco relativo para se diminuir o nmero de
categorias, quando possvel. Conforme Pereira (2004, p. 49), existem duas razes para se fazer

49
uma nova categorizao das variveis qualitativas. O primeiro evitar categorias com um
nmero muito pequeno de observaes, o que pode levar a estimativas pouco robustas dos
parmetros associados a elas. O segundo a eliminao de parmetros do modelo; se duas
categorias apresentam risco prximo, razovel agrup-las numa nica classe.
O RR, alm de auxiliar no agrupamento das categorias, ajuda a entender se a categoria em
questo est mais ligada a clientes bons ou ruins. Quando o resultado muito acima de 1,
significa que essa caracterstica est mais ligada ao perfil de bom cliente; da mesma forma, para o
resultado menor que 1 interpreta-se que a caracterstica est relacionada aos maus clientes. No
caso de a razo ser exatamente igual a 1, conclui-se que essa caracterstica no discrimina bons e
maus clientes. Esse mtodo de agrupamento de categorias explicado por Hand e Henley (1997,
p. 527).
Ao trabalhar-se com as variveis disponibilizadas, citadas no captulo 3, os seguintes cuidados
foram tomados:
As variveis sexo, primeira aquisio e tipo de crdito no foram recodificadas por j se
tratarem de variveis binrias;
A varivel profisso foi agrupada conforme a similaridade da natureza das ocupaes;
As variveis telefone comercial e telefone residencial foram recodificadas na forma
binria como posse ou no;
As variveis CEP comercial e CEP residencial foram agrupadas inicialmente de acordo
com os trs primeiros dgitos6; em seguida, foi calculado o risco relativo de cada faixa
(conforme tabela 3) e posteriormente houve o reagrupamento de acordo com risco relativo

De acordo com o site dos correios, http://www.correios.com.br/servicos/cep/cep_estrutura.cfm, os cinco primeiros


dgitos significam respectivamente Regio, Sub-regio, Setor, Sub-setor, Divisor de Sub-setor e os trs ltimos so Identificadores
de Distribuio. Neste trabalho esto sendo utilizados os trs primeiros dgitos, ou seja, regio que, em geral, identifica o estado
(ou grupo de estados); sub-regio que, em geral, identifica o municpio (ou grupo de municpios) e setor.

50
semelhante, procedimento idntico ao adotado por Rosa (2000, p. 17), que explicado
por Hand e Henley (1997, p. 527);
A varivel salrio do cnjuge foi descartada da anlise por conter muitos dados faltantes
(missings);
Foram criadas duas novas variveis, percentual do valor do emprstimo sobre o salrio e
percentual do valor da parcela sobre o salrio. Ambas variveis quantitativas, escala razo
que foram categorizadas em faixas da mesma forma que as demais.
Aps se aplicar esse mtodo, obtiveram-se as categorias apresentadas na tabela 4. O clculo do
RR est apresentado no Apndice A.

51
Tabela 4: Variveis Categorizadas
Varivel
Sexo
Estado Civil

Posse de Fone Residencial


Posse de Fone Comercial
Tempo no Emprego Atual

Salrio do Cliente

Quantidade de Parcelas

Primeira Aquisio
Tempo na Residncia Atual

Valor da Parcela

Valor Total do Emprstimo

Tipo de Crdito
Idade

Faixa de CEP Residencial

Faixa de CEP Comercial

Cdigo de Profisso

% Valor da Parcela / Salrio

% Valor do Emprstimo / Salrio

Tipo de Cliente

Categoria
Masculino
Feminino
Casado
Solteiro
Outros
Sim
No
Sim
No
At 24 meses
De 25 a 72 meses
De 73 a 127 meses
Acima de 127 meses
At 650 reais
Acima de 650 a 950 reais
Acima de 950 a 1575 reais
Acima de 1575 a 2015 reais
Acima de 2015 a 3000 reais
Acima de 3000 reais
At 4
5 ou 6
7a9
10 a 12
Sim
No
At 12 meses
De 13 a 24 meses
De 25 a 120 meses
Acima de 120 meses
At 125 reais
Acima de 125 a 160 reais
Acima de 160 a 260 reais
Acima de 260 reais
At 300 reais
Acima de 300 a 400 reais
Acima de 400 a 500 reais
Acima de 500 a 800 reais
Acima de 800 a 1800 reais
Acima de 1800 reais
Carn
Cheque
At 25 anos
De 26 a 40 anos
De 41 a 58 anos
Acima de 58 anos
Faixa 1
Faixa 2
Faixa 3
Faixa 4
Faixa 5
Faixa 1
Faixa 2
Faixa 3
Faixa 4
Faixa 5
Cdigo 1
Cdigo 2
Cdigo 3
Cdigo 4
Cdigo 5
Cdigo 6
Cdigo 7
At 10%
Acima de 10 a 13,5%
Acima de 13,5 a 16,5%
Acima de 16,5 a 22,5%
Acima de 22,5%
At 28%
Acima de 28 a 47,5%
Acima de 47,5 a 65%
Acima de 65%
Bom=1 Mau=0

Nome da varivel
V_SEXO_M
V_SEXO_F
V_EST_C
V_EST_S
V_EST_O
V_FN_R_S
V_FN_R_N
V_FN_C_S
V_FN_C_N
V_TP_E1
V_TP_E2
V_TP_E3
V_TP_E4
V_SAL_F1
V_SAL_F2
V_SAL_F3
V_SAL_F4
V_SAL_F5
V_SAL_F6
V_Q_PC_1
V_Q_PC_2
V_Q_PC_3
V_Q_PC_4
V_PR_AQ_S
V_PR_AQ_N
V_TP_R1
V_TP_R2
V_TP_R3
V_TP_R4
V_VL_PR1
V_VL_PR2
V_VL_PR3
V_VL_PR4
V_VL_EM1
V_VL_EM2
V_VL_EM3
V_VL_EM4
V_VL_EM5
V_VL_EM6
V_CRE_CN
V_CRE_CH
V_IDADE1
V_IDADE2
V_IDADE3
V_IDADE4
V_CEP_F1
V_CEP_F2
V_CEP_F3
V_CEP_F4
V_CEP_F5
V_CEC_F1
V_CEC_F2
V_CEC_F3
V_CEC_F4
V_CEC_F5
V_COD_P1
V_COD_P2
V_COD_P3
V_COD_P4
V_COD_P7
V_COD_P8
V_COD_P9
V_FX__P1
V_FX__P2
V_FX__P3
V_FX__P4
V_FX__P5
V_FX__E1
V_FX__E2
V_FX__E3
V_FX__E4
TIPO

52
5.2 REGRESSO LOGSTICA

A tcnica de regresso logstica foi empregada para o alcance do objetivo de determinar se


diferenas nas caractersticas scio-demogrficas dos clientes do banco em questo podem
distinguir entre os bons e os maus pagadores de emprstimos bancrios. Para a estimao do
modelo de regresso logstica utilizou-se a amostra de 8000 casos divididos eqitativamente nas
categorias de bons e maus clientes.

5.2.1 Modelo Implementado


Inicialmente, interessante avaliar a relao logstica entre cada varivel independente e a
varivel dependente TIPO. As variveis independentes focalizadas neste trabalho foram
codificadas na forma de variveis dummies. Para cada varivel o nmero de categorias (k)
determinou o nmero de variveis dummies (k-1) includas no processamento da regresso
logstica.
Como um dos objetivos desta anlise identificar quais variveis so mais eficientes na
caracterizao dos dois tipos de clientes bancrios, um procedimento stepwise foi empregado. O
mtodo de seleo escolhido foi o j mencionado forward stepwise.
Foram processados dois modelos forward stepwise: teste da razo de verossimilhana (LR likelihood-ratio test) e a estatstica de probabilidade condicional de mxima verossimilhana
(COND - conditional statistic). Em modelos forward stepwise inicia-se apenas com o termo da
constante, exceto quando se omite este parmetro na especificao da modelagem, e em cada
passo introduzida a varivel com o menor nvel de significncia para o escore estatstico, desde
que este seja menor do que um valor de remoo (cutoff), definido como 0,05 neste trabalho. O
processo continua at que nenhuma varivel seja mais elegvel para ser includa e/ou haja
convergncia na comparao de estatsticas de qualidade da estimao em duas iteraes
sucessivas. Em ambos os mtodos selecionados para processamento, a estatstica de referncia a
funo de verossimilhana definida como a probabilidade de obter os resultados da amostra,
dadas as estimativas dos parmetros do modelo logstico. Como essa probabilidade um valor

53
menor do que 1, convencionou-se usar a expresso 2LL (-2 multiplicado pelo logaritmo decimal
da probabilidade

em ingls, likelihood). Assim, o resultado 2LL uma medida da qualidade

de ajuste do modelo estimado aos dados. Quanto menor o valor de -2LL, maior a qualidade do
ajuste.
A tabela 5, com valores hipotticos, ilustra a relao entre L e 2LL.
Tabela 5: Estatstica 2LL
L
1
0,7
0,4

LL = log L
0
-0,155
-0,398

-2LL
0
0,310
0,796

Ambos os mtodos verificam a mudana em 2LL assumida pelos modelos reduzido (s com
uma constante includa) e aquele com a considerao das variveis j incorporadas. O mtodo
COND computacionalmente menos intensivo por no requerer que o modelo seja reestimado
sem cada uma das variveis.
Foram realizadas duas simulaes, uma para cada mtodo. As variveis foram selecionadas em
cada passo, segundo estatsticas de escores. Idnticos resultados foram encontrados apesar de o
modelo LR consumir tempo consideravelmente maior de processamento.
Das 53 variveis independentes disponveis, considerando-se k-1 dummies para cada varivel de
k nveis, foram includas 28 variveis no modelo, a saber: V_Q_PC_1, V_PR_AQ_N,
V_Q_PC_2, V_CRE_CN, V_TP_E1, V_IDADE2, V_VL_EM1, V_SEXO_M, V_IDADE1,
V_Q_PC_3, V_TP_E2, V_CEP_F1, V_IDADE3, V_COD_P3, V_COD_P7, V_FX__E1,
V_EST_S, V_TP_R2, V_VL_EM3, V_VL_EM2, V_TP_R3, V_FX__E3, V_CEC_F2,
V_CEC_F3, V_COD_P1, V_COD_P8, V_VL_PR1, V_CEC_F1.

A probabilidade de o cliente ser bom pagador dada, segundo o modelo logstico, por:

54

eZ
1 eZ

A expresso eZ denominada desigualdade.


Neste estudo, Z a combinao linear das 28 variveis independentes ponderadas pelos
coeficientes logsticos:
Z = B0 + B1.X1 + B2.X2 + ........+ B28.X28

5.2.2 Resultados
A tabela 6 apresenta, por varivel, as estimativas dos coeficientes logsticos, os desvios-padro
das estimativas, as estatsticas de Wald, os graus de liberdade e os nveis descritivos dos testes de
significncia das variveis independentes.

55

Tabela 6: Modelo de Regresso Logstica


Varivel

V_SEXO_M
V_EST_S
V_TP_E1
V_TP_E2
V_Q_PC_1
V_Q_PC_2
V_Q_PC_3
V_TP_R2
V_TP_R3
V_VL_PR1
V_VL_EM1
V_VL_EM2
V_VL_EM3
V_CRE_CN
V_IDADE1
V_IDADE2
V_IDADE3
V_CEP_F1
V_CEC_F1
V_CEC_F2
V_CEC_F3
V_COD_P1
V_COD_P3
V_COD_P7
V_COD_P8
V_FX__E1
V_FX__E3
V_PR_AQ_N
Constante

Coeficiente Desviologstico
padro
estimado
-0,314
0,053
-0,1707
0,0556
-0,4848
0,0751
-0,2166
0,0608
1,6733
0,1006
0,9658
0,0743
0,3051
0,0679
-0,3363
0,1003
-0,1451
0,0545
-0,2035
0,0878
0,9633
0,1222
0,5915
0,1188
0,4683
0,0889
-1,34
0,0853
-0,7429
0,1371
-0,6435
0,0902
-0,2848
0,0808
-0,3549
0,1159
-0,29
0,1014
-0,2888
0,0642
-0,2662
0,074
0,3033
0,0945
0,5048
0,0889
0,4752
0,1048
0,1899
0,0692
0,2481
0,0824
0,164
0,0664
-0,6513
0,0526
0,5868
0,0903

Wald

Graus de
Nvel
Rliberdade descritivo Correlao
parcial
35,0381
1
0,0000
-0,0546
9,4374
1
0,0021
-0,0259
41,6169
1
0,0000
-0,0598
12,6825
1
0,0004
-0,031
276,6224
1
0,0000
0,1574
169,084
1
0,0000
0,1227
20,2011
1
0,0000
0,0405
11,2356
1
0,0008
-0,0289
7,0946
1
0,0077
-0,0214
5,3672
1
0,0205
-0,0174
62,1252
1
0,0000
0,0736
24,7781
1
0,0000
0,0453
27,7693
1
0,0000
0,0482
246,7614
1
0,0000
-0,1486
29,3706
1
0,0000
-0,0497
50,924
1
0,0000
-0,0664
12,4401
1
0,0004
-0,0307
9,3714
1
0,0022
-0,0258
8,1718
1
0,0043
-0,0236
20,231
1
0,0000
-0,0405
12,9248
1
0,0003
-0,0314
10,3013
1
0,0013
0,0274
32,2381
1
0,0000
0,0522
20,5579
1
0,0000
0,0409
7,534
1
0,0061
0,0223
9,0609
1
0,0026
0,0252
6,0906
1
0,0136
0,0192
153,5677
1
0,0000
-0,1169
42,2047
1
0,0000

Exp(B)

0,7305
0,8431
0,6158
0,8053
5,3296
2,627
1,3568
0,7144
0,865
0,8159
2,6203
1,8067
1,5972
0,2618
0,4757
0,5254
0,7522
0,7012
0,7483
0,7492
0,7663
1,3543
1,6566
1,6084
1,2091
1,2816
1,1782
0,5213

Coeficientes logsticos das variveis independentes


Com variveis categricas, a avaliao do efeito de uma particular categoria deve ser feita em
comparao com uma categoria de referncia. O coeficiente para a categoria de referncia 0.
Para exemplificao, ser interpretado o coeficiente da varivel V_Q_PC_1, sendo anlogas as

56
consideraes para as demais. A varivel quantidade de parcelas tem 4 nveis. Portanto, devem
ser consideradas 3 variveis dummies. Todas as 3 foram includas no modelo stepwise. A varivel
V_Q_PC_1 representa a primeira faixa da escala ordinal para quantidade de parcelas, com os
cdigos 1 para o nvel mais baixo e 0, caso contrrio. Analogamente, a varivel V_Q_PC_2
corresponde segunda faixa, com os cdigos 1 para o segundo nvel e 0, caso contrrio. A
categoria referncia o nvel mais alto, no caso a quarta faixa. O coeficiente logstico para
V_Q_PC_1 positivo, indicando que, comparada mais alta faixa de nmero de parcelas, a faixa
de valor baixo est associada ao aumento do log das desigualdades dos tipos de clientes. Em
outras palavras, clientes com emprstimo bancrio com menos parcelas (primeira faixa) tm
maior probabilidade de serem bons clientes comparativamente queles com emprstimo a ser
pago com nmero superior de parcelas (quarta faixa). O impacto na desigualdade dado por
Exp(B) = Exp(1,6733) = 5,3296. De fato, fixando-se um valor para todas as variveis includas
no modelo (zero, por exemplo) e variando-se apenas o nmero de parcelas, possvel comparar o
impacto da primeira faixa em relao quarta faixa. A desigualdade para o cliente com maior
nmero de parcelas seria, neste exemplo, igual a 1,79822 e resultaria em 9,58405 para aquele
com menor nmero. Logo, a desigualdade para o nvel mais baixo superior ao quntuplo da
usada como referncia (impacto de 5,3296, aproximadamente). As probabilidades, dadas pela
frmula do modelo logstico, so, para os nveis alto e baixo de parcelas, respectivamente, iguais
a 0,643 e 0,906.
Variveis com coeficiente logstico estimado negativo indicam que a categoria focalizada, em
relao referncia, est associada com diminuio na desigualdade e, por conseguinte,
diminuio na probabilidade de se ter um bom cliente. Por exemplo, para a varivel v_pr_aq, um
cliente na situao de ter o primeiro emprstimo concedido, em comparao a um cliente
experiente na obteno de emprstimos, tem menor probabilidade de se comportar como bom
solicitante de apoio financeiro.

Coeficiente de correlao parcial


Trata-se de uma medida da fora de relao entre a varivel dependente e uma varivel
independente, mantendo-se constantes os efeitos das outras variveis independentes. O sinal desta

57
estatstica o mesmo do coeficiente logstico e a sua magnitude indica a contribuio da varivel
no modelo preditivo. As variveis que mais afetam positivamente a probabilidade de se ter um
bom cliente so V_Q_PC_1, V_Q_PC_2 E V_VL_EM1. No extremo oposto, as variveis com
maior impacto negativo sobre esta probabilidade so V_CRE_CN, V_PR_AQ E V_IDADE2.

Teste de significncia de cada varivel


A estatstica de Wald definida como o quadrado da razo entre o coeficiente logstico estimado
e o seu erro padro. Por meio desta estatstica, que tem distribuio Qui-quadrado, testa-se a
seguinte hiptese estatstica para cada varivel independente:
H0 : o coeficiente logstico igual a zero.
Pela tabela 6, constata-se que os coeficientes de todas as variveis includas no modelo logstico
so estatisticamente diferentes de zero. Assim, de acordo com os nveis descritivos do teste, todas
se mostraram relevantes para a discriminao entre os bons e maus clientes.

Teste de significncia do modelo


H dois testes estatsticos para se avaliar a significncia do modelo final: teste Qui-quadrado da
mudana no valor de 2LL e o teste de Hosmer e Lemeshow.
A tabela 7 apresenta o valor inicial de 2LL, considerando-se apenas a constante no modelo, o
seu valor final, a diferena improvement e o nvel descritivo para se medir a sua significncia.
Tabela 7: Teste Qui-quadrado da mudana em 2LL
-2LL
11090,355
9264,686

Qui-quadrado
(improvement)

Graus de
liberdade

Nvel descritivo

1825,669

28

0,0000

58
Este teste Qui-quadrado testa a hiptese estatstica de que os coeficientes para todos os termos no
modelo final, exceto a constante, so iguais a zero. Este teste comparvel ao teste F da tcnica
de regresso mltipla. O valor Qui-quadrado a diferena entre os dois valores de 2LL.
Espera-se que a incluso de variveis independentes contribua significantemente para a reduo
da estatstica 2LL.
No modelo de 28 variveis, constatou-se que a reduo na medida 2LL foi estatisticamente
significante.
O teste de Hosmer e Lemeshow considera a hiptese estatstica de que as classificaes em grupo
previstas so iguais s observadas. Portanto, trata-se de um teste do ajuste do modelo aos dados.
A tabela 8 apresenta os resultados deste teste para este trabalho.
Tabela 8: Teste de Hosmer e Lemeshow
Grupo = maus
Grupo = bons
clientes
clientes
Grupos Observado Esperado Observado Esperado
1
690
687,497
110
112,503
2
599
605,544
201
194,456
3
539
549,053
262
251,947
4
502
490,734
298
309,266
5
428
436,455
373
364,545
6
395
381,757
406
419,243
7
327
323,942
473
476,058
8
257
259,166
543
540,834
9
181
178,014
620
622,986
10
82
87,889
714
708,111

Total
800
800
801
800
801
801
800
800
801
796

A estatstica Qui-quadrado apresentou o resultado 3,4307, com 8 graus de liberdade e nvel


descritivo igual a 0,9045. Este resultado conduz no rejeio da hiptese nula do teste,
endossando a aderncia do modelo aos dados.
Para se entender a elaborao da tabela 8 e o valor obtido para a estatstica Qui-quadrado, ser
feita uma breve descrio dos passos inerentes a este teste.

59
Inicialmente os dados foram classificados em ordem crescente do valor obtido para a
probabilidade prevista pelo modelo, conforme frmula do modelo logstico. No ser exibida esta
ordenao devido grande magnitude da amostra (8000 casos). Foram, ento, formados 10
blocos, sendo que o tamanho de cada bloco deve ser menor ou igual a M, como segue:
M = 0,1. N + 0,5
Nesta frmula, N o nmero de observaes utilizadas, no caso 8000.
Assim, o valor mximo de M 800,5 ou 801. Esta condio foi atendida, conforme revela a
tabela 8. Alm disso, devem ser formados aglomerados de observaes com valores similares das
variveis preditoras e tais aglomerados no podem ser repartidos para alocao dos elementos em
diferentes grupos. Assim que um grupo completado, inicia-se a formao do prximo.
Considerando-se o evento bom cliente, cdigo 1 da varivel binria dependente, , ento,
construda a tabela com a probabilidade mdia de ocorrncia deste evento em cada um dos 10
blocos construdos. Esta probabilidade ser a mdia das probabilidades, segundo a frmula do
modelo logstico, de todas as observaes dentro de cada bloco. A freqncia esperada de
elementos em cada bloco ser o produto desta probabilidade mdia pelo nmero de observaes
pertencentes ao bloco. Esta freqncia esperada , ento, comparada com a freqncia observada
no bloco.
A estatstica Qui-quadrado , ento, calculada pela expresso:

Oi

Ei

Ei

A partir desta frmula foi obtido o resultado 3,4307, referente estatstica Qui-quadrado deste
teste, que conduziu no rejeio da hiptese nula, resultado favorvel para os objetivos deste
estudo.

60
A seo 5.5 apresentar os resultados de classificao obtidos pelo modelo de regresso logstica
e a comparao com os demais modelos.

5.3 REDE NEURAL

Neste trabalho, como j foi mencionado anteriormente, ser utilizada uma rede com aprendizado
supervisionado, pois j se conhece previamente se o cliente em questo bom ou mau. Segundo
Potts (1998, p. 44), a estrutura de rede neural mais utilizado para este tipo de problema
multilayer perceptron (MLP), que se trata de uma rede com arquitetura feedforward com
mltiplas camadas. A literatura consultada (ARMINGER et al, 1997; ARRAES et al, 1999;
ZERBINI, 2000; CASTRO JR., 2003; OHTOSHI, 2003) comprova esta afirmao. Neste
trabalho tambm ser adotada uma rede MLP.
As redes MLP podem ser treinadas utilizando-se os seguintes algoritmos: Gradiente Descendente
Conjugado, Levenberg-Marquardt, Back propagation, Quick propagation ou Delta-bar-Delta. O
mais comum (CASTRO JR., 2003, p. 142) o algoritmo Back propagation, que ser detalhado
posteriormente. Para compreenso dos demais, sugere-se a leitura de Fausett (1994) e Haykin
(1999).

5.3.1 Modelo Implementado


O modelo implementado tem uma camada de neurnios de entrada; um nico neurnio camada
de sada, que corresponde ao resultado se o cliente bom ou mau na classificao da rede e uma
camada intermediria com trs neurnios, pois foi a rede que apresentou melhores resultados,
tanto no quesito de maior percentual de acertos, quanto no quesito de reduo do erro mdio.
Redes que possuam um, dois ou quatro neurnios, tambm foram testadas neste trabalho. A
figura 13, a seguir, ilustra o modelo.

61

Figura 13: Modelo de rede neural artificial utilizado neste trabalho


x1
x2
xn
Neurnios de
Entrada

Neurnio de
Sada

Neurnios
Escondidos
F o n t e :

A R R A E S

e t

a l . ( 2 0 0 1 )

Cada neurnio da camada escondida um elemento de processamento que recebe n entradas


ponderadas por pesos Wi. A soma ponderada das entradas transformada por meio de uma
funo de ativao no linear f(.). A figura 14, a seguir, resume a funo computacional de um
neurnio.
Figura 14: Funo computacional do neurnio

x1
w0
w1 j

x2
x3
Pesos

w2 j
w3 j

Yj

wn j

xn

F o n t e :

Caminho de Sada
Elemento de
Processamento

A R R A E S

e t

a l . ( 2 0 0 1 )

A funo de ativao utilizada neste estudo ser a funo logstica,

Wi X i a soma ponderada das entradas do neurnio.


i 1

1
1 e(

g)

, onde

62
O treinamento da rede consiste em encontrar o conjunto de pesos Wi que minimiza uma funo
de erro. Neste trabalho, ser utilizado para o treinamento o algoritmo Back propagation. Neste
algoritmo a rede opera em uma seqncia de dois passos. Primeiro, um padro apresentado
camada de entrada da rede. A atividade resultante flui atravs da rede, camada por camada, at
que a resposta seja produzida pela camada de sada. No segundo passo, a sada obtida
comparada sada desejada para esse padro particular. Se esta no estiver correta, o erro
calculado. O erro propagado a partir da camada de sada at a camada de entrada, e os pesos das
conexes das unidades das camadas internas vo sendo modificados, conforme o erro
retropropagado. Esse processo repetido nas sucessivas iteraes at o critrio de parada ser
atingido.
luz do modelo de redes neurais adotado neste estudo foram processados os dados, cujas
anlises so apresentadas a seguir.

5.3.2 Resultados
O erro mdio do conjunto de dados de validao foi o critrio de parada adotado neste modelo.
Esse erro calculado por intermdio do mdulo da diferena entre o valor que a rede localizou e
o esperado; calcula-se a sua mdia para os 8000 casos (amostra de treinamento) ou 6000 casos
(amostra de validao). A figura 15 apresenta a curva de erro com diminuio progressiva at sua
estabilizao. O processamento detectou que a estabilidade do modelo ocorreu aps a
nonagsima quarta iterao, que o ponto marcado pela linha vertical. Na amostra de validao o
erro foi um pouco maior (0,62 x 0,58), o que comum visto que o modelo ajustado com base
na primeira amostra.

63
Figura 15: Curva de erro mdio
Erro Mdio

Validao
Treinamento

Nmero de iteraes

Na figura 16 mostrada a evoluo da m classificao de ambas as amostras. Inicialmente, a m


classificao de 50%, pois a alocao de um indivduo como bom ou mau cliente aleatria;
com o aumento das iteraes, atingido o melhor resultado de 30,6% de erro para a amostra de
treino e 32,3% para a amostra de validao. Na seo 5.5 sero mostrados os resultados com mais
detalhes.

64
Figura 16: Curva de erro de classificao
Percentual de m classificao

Validao
Treinamento

Nmero de iteraes

Na tabela 9, esto algumas das estatsticas da rede adotada. Alm da classificao incorreta e o
erro mdio, so apresentados ainda o erro quadrtico e os graus de liberdade. O erro quadrtico
mdio calcula-se pela mdia dos quadrados das diferenas entre o observado e o obtido pela rede.
O nmero de graus de liberdade do modelo refere-se ao nmero de pesos estimados, conexo de
cada um dos atributos aos neurnios da camada intermediria e s ligaes da camada
intermediria com a sada.
Tabela 9: Estatsticas da Rede Neural adotada
Estatsticas Obtidas
Classificao Incorreta de Casos
Erro Mdio
Erro Quadrtico Mdio
Graus de Liberdade do Modelo
Graus de Liberdade do Erro
Graus de Liberdade Total

Treino Validao
0,306
0,576
0,197
220
7780
8000

0,323
0,619
0,211

65

5.4 ALGORITMOS GENTICOS

Na literatura consultada, foram encontradas duas maneiras de lidar com este tipo de problema por
meio de algoritmos genticos. A primeira, adotada por Chen et al (2002) e Fidelis et al (2000),
soluciona o problema por meio de uma seqncia de regras tal qual uma rvore de deciso, ou
seja, uma srie de regras encadeadas que determinam se o cliente bom ou mau, dependendo do
caminho (ou galho da rvore) percorrido.
Na segunda forma, que ser adotada neste trabalho, o algoritmo gentico foi utilizado para
encontrar uma equao discriminante que permita pontuar os clientes e, posteriormente, separar
os bons e maus clientes de acordo com o escore obtido. A equao pontua os clientes e os de
maior pontuao so considerados bons, enquanto maus so aqueles de menor pontuao. Esse
caminho foi adotado por Kishore et al (2000) e Picinini et al (2003).

5.4.1 Modelo Implementado


O algoritmo implementado foi similar ao apresentado em Picinini et al (2003). Cada uma das 71
categorias de varivel (seo 5.1) recebeu um peso aleatrio inicial. A esses setenta e um
coeficientes foi introduzido mais um, uma constante aditiva incorporada equao linear. O valor
de escore do cliente dado por:
72

Sj

wi pij , onde
i 1

S j = Escore obtido pelo cliente j


wi = Peso relativo categoria i

pij = indicador binrio igual a 1, se o cliente j possui a categoria i e 0, caso contrrio.

66
Para se definir se o cliente bom ou mau foi utilizada a seguinte regra7:
Se S j

0 , o cliente considerado bom

Se S j

0 , o cliente considerado mau

Assim sendo, o problema que o algoritmo deve solucionar encontrar o vetor W=[ w1 , w2 ,..., w72 ]
que resulte em um critrio de classificao com uma boa taxa de acertos na predio do
desempenho de pagamento do crdito.
Seguindo as fases de um algoritmo gentico, conforme apresentado na seo 4.3.3, tm-se:
Incio: foi gerada uma populao de 200 indivduos, com cada cromossomo contendo 72 genes.
O peso inicial wi de cada um dos genes foi gerado aleatoriamente no intervalo [-1,1] (Picinini et
al, 2003, p. 464).

Funo de Aptido (Fitness): cada cliente foi associado ao clculo de um escore e classificado
como bom ou mau. Comparando-se com a informao j conhecida a priori sobre a natureza do
cliente, pode-se calcular a preciso de cada cromossomo.

O indicador de acertos (Ia),

apresentado na seo 4.4.1 ser a funo de aptido, ou seja, quanto maior o indicador, melhor
ser o cromossomo.

Seleo: neste trabalho foi utilizado um elitismo de 10%, ou seja, para cada nova gerao, os
vinte melhores cromossomos so mantidos, enquanto os outros cento e oitenta so formados por
meio de cruzamento e mutao.

A escolha do ponto de corte arbitrria, e no tem grande impacto no resultado final. O ponto de corte o
que vai direcionar o clculo dos parmetros; se o ponto de corte for diferente, o algoritmo vai recalcular os
parmetros at atingir o resultado timo. Para facilitar o entendimento do processo e, ao mesmo tempo, torn-lo
similar s outras tcnicas conhecidas, como, por exemplo, a regresso logstica, foi adotado zero como ponto de
corte, da mesma forma que foi feito por Picinini et al (2003, p. 464).

67
Cruzamento (Cross-Over): para a escolha dos pais para o cruzamento, foi utilizado o mtodo
conhecido como roleta (roulette wheel) para seleo dentre os vinte cromossomos que foram
mantidos (CHEN; HUANG, 2003, p. 436-437). Neste mtodo, cada indivduo recebe uma
probabilidade de ser sorteado de acordo com seu valor de funo de aptido, conforme mostra a
tabela 10, a seguir.
Tabela 10: Exemplo de Seleo de Pais via Roleta
Cromossomo Fitness
%
Cromossomo1
14,6%
15
Cromossomo2
13
12,6%
Cromossomo3
24
23,3%
Cromossomo4
18
17,5%
Cromossomo5
17
16,5%
16
15,5%
Cromossomo6
103
100,0%
Total

% Acum.
14,6%
27,2%
50,5%
68,0%
84,5%
100,0%

1
14,6%

6
15,5%

2
12,6%

5
16,5%

3
23,3%

4
17,5%

Neste exemplo, o Cromossomo3 tem 23,3% de chance de ser selecionado como pai. Sua chance
maior, pois o cromossomo com maior valor de fitness (aptido). Inclusive ele pode ser
selecionado duas vezes, o que far com que seu filho seja uma reproduo exata de si mesmo.
Para o processo de troca de material gentico, foi utilizado um mtodo conhecido como
cruzamento uniforme (PAPPA, 2002, p. 22). Neste tipo de cruzamento, cada gene do
cromossomo filho escolhido aleatoriamente entre os genes de um dos pais, enquanto o segundo
filho recebe os genes complementares do segundo pai, conforme mostra a figura 17.

Figura 17: Exemplo de Cruzamento Uniforme


Pai 1
Pai 2

1
2

1
2

1
2

1
2

1
2

1
2

1
2

1
2

1
2

1
2

1
2

Filho 1
Filho 2

1
2

2
1

1
2

1
2

2
1

1
2

2
1

2
1

1
2

1
2

2
1

F o n t e :

P A P P A ( 2 0 0 2 ,

p .

2 3 )

Mutao: no processo de mutao, cada gene do cromossomo avaliado independentemente.


Cada gene de cada cromossomo tem probabilidade de 0,5% de sofrer mutao. Sempre que um
gene for escolhido para a mutao, a alterao gentica realizada, adicionando-se um pequeno

68
valor escalar k neste gene. No experimento descrito, foi sorteado aleatoriamente um valor entre
0,05 e +0,05.

Verificao do critrio de parada: como critrio de parada, foi definido um nmero mximo de
geraes igual a 600. Aps as seiscentas iteraes, o cromossomo com maior aptido ser a
soluo.
Os resultados obtidos para esta configurao de algoritmo so apresentados a seguir.

5.4.2 Resultados
O algoritmo foi executado trs vezes conforme a configurao apontada na seo anterior. Aqui
sero apresentados os resultados do algoritmo que obteve o maior Indicador de acertos (Ia).
Aps a execuo do algoritmo, as variveis com peso muito pequeno foram descartadas. No
trabalho de Picinini et al (2003, p. 464) os autores consideraram que as variveis com peso
inferior a 0,15 ou superior a -0,15 seriam descartadas por possurem um peso no significativo
para o modelo. Neste trabalho, depois de feita uma anlise de sensibilidade, decidiu-se considerar
como significativas para o modelo as variveis com peso superior a 0,10 ou inferior a -0,10. Essa
regra no foi aplicada para a constante, que se mostrou importante para o modelo mesmo com o
valor abaixo do ponto de corte.
O peso das variveis apresentado na tabela 11. Nesta tabela foram separadas as variveis que
obtiveram peso negativo daquelas com peso positivo. O peso negativo indica que a varivel tem
uma relao maior com os clientes considerados maus (pois foi determinado na seo anterior
que clientes com escore total negativo seriam considerados maus). O peso positivo, de forma
inversa, indica relao com os clientes bons.

69
Tabela 11: Pesos finais das variveis
Pesos Negativos
Varivel
Peso (w)
V_FN_C_N
-0,98
V_CRE_CN
-0,98
V_IDADE2
-0,98
V_SAL_F1
-0,95
V_COD_P2
-0,91
V_Q_PC_4
-0,88
V_SAL_F4
-0,87
V_FX__P3
-0,8
V_CEP_F2
-0,79
V_VL_EM5
-0,76
V_Q_PC_3
-0,65
V_SAL_F3
-0,61
V_VL_EM4
-0,59
V_CEC_F2
-0,59
V_COD_P4
-0,56
V_TP_E1
-0,55
V_FN_R_S
-0,54
V_IDADE1
-0,54
V_CEC_F3
-0,5
V_TP_E2
-0,45
V_FX__P2
-0,45
V_CEP_F4
-0,44
V_FX__E1
-0,42
V_FX__E4
-0,39
V_VL_EM6
-0,28
V_CEP_F3
-0,28
V_PR_AQ_S
-0,28
V_CEP_F1
-0,23
V_CEC_F1
-0,22
V_CEC_F5
-0,21
V_TP_R2
-0,14
V_SAL_F2
-0,12
V_COD_P8
-0,12
Constante
-0,08

Pesos Positivos
Varivel
Peso (w)
V_Q_PC_1
1,42
V_SEXO_F
0,97
V_COD_P7
0,95
V_FX__E3
0,95
V_EST_C
0,93
V_IDADE4
0,89
V_Q_PC_2
0,88
V_FX__P5
0,88
V_VL_EM1
0,83
V_CRE_CH
0,81
V_TP_R4
0,75
V_VL_EM2
0,59
V_EST_O
0,58
V_CEP_F5
0,57
V_TP_E4
0,56
V_FX__P1
0,55
V_SAL_F6
0,47
V_COD_P3
0,45
V_VL_PR4
0,41
V_TP_E3
0,39
V_TP_R3
0,39
V_VL_PR2
0,34
V_COD_P9
0,33
V_SEXO_M
0,29
V_VL_EM3
0,25
V_PR_AQ_N
0,24
V_TP_R1
0,19
V_EST_S
0,14
V_CEC_F4
0,13
V_COD_P1
0,13

70
Comparando-se estes resultados com os obtidos pela regresso logstica, nota-se uma
concordncia nas variveis com peso mais alto. Em ambos os modelos, a varivel com maior
peso negativo foi a varivel V_CRE_CN e com maior peso positivo foi V_Q_PC1 (esta foi, em
ambos os modelos, a varivel com maior peso absoluto). Outras variveis como V_TP_E1,
V_IDADE2, V_Q_PC_2, V_VL_EM1, V_VL_EM2 tambm esto entre as variveis com maior
peso nos dois modelos, evidenciando que o resultado do algoritmo foi coerente.

5.5 AVALIAO DA PERFORMANCE DOS MODELOS


Aps obtidos os modelos, foram escoradas as trs amostras e calculados o Ia e o KS para cada um
dos modelos. Os resultados so apresentados nas tabelas a seguir. O detalhamento do clculo do
KS encontra-se no Apndice B.

71
Tabela 12: Resultados de classificao

Observado

Treinamento
Predito
% Acerto
Mau
Bom

REGRESSO LOGSTICA
Validao
Predito
% Acerto
Mau
Bom

Observado

% Acerto

Mau

2833

1167

70,8

Mau

2111

889

70,4

Mau

2159

841

72,0

Bom

1294

2706

67,7

Bom

1078

1922

64,1

Bom

1059

1941

64,7

Total

4127

3873

69,2

Total

3189

2811

67,2

Total

3218

2782

68,3

REDE NEURAL
Validao
Predito
Mau
Bom
% Acerto

Treinamento
Predito
Mau
Bom
% Acerto

Teste
Predito
Mau
Bom

% Acerto

Mau

2979

1021

74,5

Mau

2236

764

74,5

Mau

2255

745

75,2

Bom

1430

2570

64,3

Bom

1177

1823

60,8

Bom

1193

1807

60,2

Total

4409

3591

69,4

Total

3413

2587

67,7

Total

3448

2552

67,7

Treinamento
Predito
Mau
Bom
Observado

Teste
Predito
Mau
Bom

% Acerto

ALGORITMO GENTICO
Validao
Predito
% Acerto
Mau
Bom

Teste
Predito
Mau
Bom

% Acerto

Mau

2692

1308

67,3

Mau

1946

1054

64,9

Mau

2063

937

68,8

Bom

1284

2716

67,9

Bom

1043

1957

65,2

Bom

1073

1927

64,2

Total

3976

4024

67,6

Total

2989

3011

65,1

Total

3136

2864

66,5

A tabela 12 mostra os resultados de classificao obtidos pelos trs modelos.

Todos eles

apresentaram bons resultados de classificao, pois, segundo Picinini et al (2003, p. 465) :


Modelos de credit scoring com taxas de acerto acima de 65% so considerados bons por
especialistas .
Os percentuais de acerto foram muito similares nos modelos de regresso logstica e rede neural,
e foram um pouco inferiores para o modelo de algoritmos genticos. Outro resultado interessante
que, exceto para os algoritmos genticos, os modelos apresentaram maior taxa de acerto nos
clientes maus, sendo superior a 70% a taxa de acerto para clientes maus nas trs amostras dos
modelos logstico e redes neurais.

72
A tabela 13, a seguir, apresenta os resultados dos critrios Ia e KS que foram os escolhidos para
comparar os modelos. Ressalte-se que os ndices Ia so derivados dos resultados da tabela 12,
conforme explanado no captulo 4, seo 4.4.1.

Tabela 13: ndices de Comparao


Ia
Treinamento

Amostra
Validao

Teste

Regresso Logstica

47,9

45,1

46,6

Rede Neural

47,9

45,3

45,3

Algoritmo Gentico

45,7

42,3

44,2

Treinamento

Amostra
Validao

Teste

Regresso Logstica

38

35

37

Rede Neural

39

35

35

Algoritmo Gentico

34

30

32

KS

Os valores KS de todos os modelos podem ser considerados bons. Novamente, Picinini et al


(2003, p. 465) explicam:

O teste de Kolmogorov-Smirnov (KS) utilizado no mercado

financeiro como um dos indicadores de eficincia de modelos de credit scoring, sendo que o
mercado considera um bom modelo quele que apresente um valor de KS igual ou superior a 30 .
Aqui novamente os modelos de regresso logstica e redes neurais apresentam um resultado
muito prximo, superior ao obtido pelo algoritmo gentico.
Na escolha do modelo mais adequado para estes dados, analisando sob o prisma dos indicadores
Ia e KS, foi eleito o modelo construdo por regresso logstica, pois, apesar de ter resultados

73
muito similares aos obtidos por redes neurais, este modelo apresentou melhores resultados na
amostra de teste, sugerindo ser o mais adequado para a aplicao em outras bases de dados.
Contudo, deve ser ressaltado, mais uma vez, que a adoo de qualquer um dos modelos traria
bons resultados instituio financeira.

74
CAPTULO 6- CONCLUSES E RECOMENDAES

O objetivo deste estudo foi desenvolver modelos de predio de credit scoring com base em
dados de uma grande instituio financeira com o uso de Regresso Logstica, Redes Neurais
Artificiais e Algoritmos Genticos.
No desenvolvimento de modelos de avaliao de crdito alguns cuidados devem ser tomados a
fim de se garantir a qualidade do modelo, e a aplicabilidade posterior. Precaues na
amostragem, definio clara nos critrios na classificao de clientes bons e maus e tratamento
das variveis da base de dados antes da aplicao das tcnicas foram cuidados tomados neste
estudo, visando otimizar resultados e minimizar erros.
Os trs modelos apresentaram resultados satisfatrios para a base de dados em questo, que foi
fornecida por um grande banco de varejo que atua no Brasil. O modelo de regresso logstica
apresentou resultados levemente superiores ao modelo construdo por redes neurais e ambos
mostraram-se superiores ao modelo baseado em algoritmos genticos. O modelo proposto por
este estudo para que a instituio pontue seus clientes :

eZ
1 eZ

, onde

p...probabilidade de o cliente ser considerado bom e


Z = B0 + B1.X1 + B2.X2 + ........+ B28.X28 , onde os valores de Bi e Xi encontram-se na tabela 6.
O percentual de acerto total para a amostra de teste foi para a regresso logstica, redes neurais e
algoritmos genticos, respectivamente igual a 68,3; 67,7 e 66,5. Na literatura consultada, o
percentual de acerto total flutua bastante, bem como o modelo mais adequado em cada banco de
dados pode ser diferente do obtido neste estudo. A tabela 14, extrada do trabalho de Thomas
(2000), mostra a variedade de resultados obtidos em outros trabalhos.

75

Tabela 14: Preciso da classificao dos modelos construdos para anlise de crdito

Henley(1995)
Boyle (1992)
Srinivisan(1987)
Yobas (1997)
Desai(1997)

Regresso
Linear
56,6
77,5
87,5
68,4
66,5

Regresso rvores de Programao


Logstica Classificao
Linear
56,7
56,2
75
74,7
89,3
93,2
86,1
62,3
67,3
67,3
-

F o n t e : T H O M A S

( 2 0 0 0 ,

p .

Redes
Neurais
-

Algoritmos
Genticos
-

62
64

64,5
-

1 5 9 )

A tabela 15, construda a partir da literatura pesquisada, similar tabela anterior e refora a
grande variedade de resultados. Note-se que, ao se analisarem as duas tabelas, os modelos
apresentam uma preciso de classificao que varia de 56,2 a 93,2. Observa-se ainda que,
excetuando-se a programao linear, todos os outros mtodos apresentados, em ao menos um
estudo, apresentaram a maior preciso.
Tabela 15: Preciso da classificao dos modelos construdos (literatura pesquisada) 8
Regresso
Linear
Fritz e Hosemann (2000)
Arraes et al (1999)
Chen et al (2002)
Nanda e Pendharkar (2001)
Ohtoshi (2003)
Picinini et al (2003)
Arminger et al (1997)
Huang et al (2004)
Semolini (2002)
Rosa (2000)

Regresso
Logstica

rvores de Programao
Classificao
Linear
79,5

84,8

83,5
63,5
67,6
77
68,3
70,4

73,9
66,4

66,6

Redes
Neurais
81,6
85,4
91,9
85
64,4
65,2
80
67,4

Algoritmos
Genticos
82,4

Anlise
Discriminante
82,7

92,9
65

62,5

REAL

83,1
67,5

71,4

A metodologia REAL (Real Attribute Learning Algorithm), apresentada na tabela 15 um modelo similar a
uma rvore de classificao proposto por Stern et al (1998); mais detalhes podem ser encontrados em Rosa (2000) e
Ohtoshi (2003).

76
No foi objeto deste estudo uma abordagem mais profunda das tcnicas focalizadas. As redes
neurais e os algoritmos genticos apresentam uma grande gama de estruturas e variaes que
podem (e devem) ser melhor exploradas. Os algoritmos genticos, por serem um mtodo bastante
flexvel e ainda no tanto pesquisado em problemas de concesso de crdito, podem ser aplicados
de formas diversas a fim de otimizar o resultado obtido.
Tcnicas novas neste tipo de problema, como anlise de sobrevivncia, tambm merecem ateno
em estudos futuros.

77
BIBLIOGRAFIA

ABE, S. (1997) Neural Networks and Fuzzy Systems, Boston: Kluwer Academic Publishers.
ALMEIDA, F. C.; DUMONTIER, P. (1996) O Uso de Redes Neurais em Avaliao de Risco de
Inadimplncia, Revista de Administrao, So Paulo, v. 31, n. 1, p. 52-63, So Paulo:
Universidade de So Paulo.
ANDREEVA, G. (2003) European generic scoring models using logistic regression and survival
analysis, Bath:Young OR Conference.
ANDREEVA, G.; ANSELL, J.; CROOK, J. N. (2003) Credit Scoring in the Context of the
European Integration, Edinburgh: Proceedings of Credit Scoring & Credit Control VIII
Conference, September 2003, UEMS.
ARMINGER, G., ENACHE, D., BONNE T. (1997) Analyzing Credit Risk Data: A Comparison
of Logistic Discrimination, Classification Trees and Feedforward Networks. Computational
Statistics, v. 12, n. 2, p. 293-310, Berlim: Springer-Verlag.
ARRAES, D., SEMOLINI R., PICININI, R. (1999) Arquiteturas de Redes Neurais Aplicadas a
Data Mining no Mercado Financeiro. Uma Aplicao para a Gerao de Credit Ratings, So
Jos dos Campos: IV Congresso Brasileiro de Redes Neurais.
AXELROD, R. (1987) The Evolution of Strategies in the Iterated Prisoner s Dilemma, In:
Genetic Algorithms and Simulated Annealing, Londres: Pitman, p. 32-41.
BACK, B., LAITINEN, T., AND SERE, K. (1996) Neural Networks and Genetic Algorithms for
Bankruptcy Predictions. Seul: Proceedings of the 3rd World Conference on Expert Systems, p.
123-130.
BARTH, N. (2004) Anlise Quantitativa de Informaes Para Previso de Inadimplncia, So
Paulo: I Congresso Anual de Tecnologia da Informao.
BAUER, R. J. (1994) Genetic Algorithms and Investment Strategies, New York: John Wiley &
Sons.
BERGAMINI, JR., S. (1997) Classificao de Riscos: O Modelo em Uso no BNDES, Revista do
BNDES, v. 4, n. 8, p. 71-100, Rio de Janeiro: Banco Nacional de Desenvolvimento Econmico e
Social.
BERRY, M.; LINOFF G. (1997) Data Mining Techniques, New York: Wiley.

78
BHATTACHARYYA, S. (2003) Evolutionary computation for database marketing Journal of
Database Management, v. 10, n. 4, p. 343-352, Londres: Henry Stewart Publications.
BUGERA, V., KONNO, H., AND URYASEV. S (2002) Credit cards scoring with quadratic
utility functions, Journal of Multi-Criteria Decision Analysis, v. 11, n. 4-5, p. 197-211, New
York: John Wiley & Sons.
CANO, J. R. (2004) Reduccin de Datos basada en Seleccin Evolutiva de Instancias para
Minera de Datos. Tese de Doutorado. Departamento de Cincia da Computao e Inteligncia
Artificial, Universidade de Granada, Espanha.
CANTON, A. W. P. (1988) Aplicao de modelos estatsticos na avaliao de produtos Tese
(Livre Docncia). Departamento de Administrao Universidade de So Paulo FEA/USP.
CAOUETTE, J.; ALTMANO, E.; NARAYANAN, P. (2000) Gesto do Risco de Crdito, Rio de
Janeiro: Qualitymark.
CARVALHO, A. P. L. F. [S.l., s.d.] Redes Neurais Artificiais,
http://www.icmc.usp.br/~andre/research/neural/ acesso em 04/12/04

disponvel

em

CASTRO JR., F. H. F. (2003). Previso de Insolvncia de Empresas Brasileiras Usando Anlise


de Discriminante, Regresso Logstica e Redes Neurais. Dissertao de Mestrado. Departamento
de Administrao Universidade de So Paulo FEA/USP.
CHEN, M.-C.; HUANG, S.-H (2003) Credit scoring and rejected instances reassigning
through evolutionary computation techniques, Expert Systems with Applications, v.
24, n. 4, p. 433-441 St. Louis :Elsevier Science.
CHEN, M.-C.; HUANG, S.-H; CHEN, C.-M. (2002) Credit Classification Analysis through the
Genetic Programming Approach, Taipei: Proceedings of the 2002 International Conference in
Information Management, Tamkang University.
CZARN, A.; MACNISH C.; VIJAYAN, K. TURLACH, B.; GUPTA R. (2004) Statistical
Exploratory Analysis of Genetic Algorithms. IEEE Transactions on Evolutionary Computation v.
8, n. 4, p. 405-421, Birmingham: IEEE Computational Intelligence Society.
DESAI V.S., CONVAY D.G., CROOK J.N., OVERSTREET G.A. (1997) Credit scoring models
in the credit union environment using neural networks and genetic algorithms, IMA J.
Mathematics applied in Business and Industry, v. 8, p. 323-346, Oxford: Oxford University
Press.
DOBSON, A. (1990) An Introduction to Generalized Linear Models, Londres: Chapman & Hall.

79
DRYE T.; WETHERILL G.; PINNOCK A. (2001) When are customers in the market? Applying
survival analysis to marketing challenges, Journal of Targeting, Measurement and Analysis for
Marketing, v. 10, n. 2, p. 179-188, Londres: Henry Stewart Publications.
DUARTE, JR., A. M.; BASTOS, N. T.; PINHEIRO, F. P.; JORDO, M. R. (1999)
Gerenciamento de Riscos Corporativos: Classificao, Definies e Exemplos, Resenha BM&F,
n. 134, So Paulo: Bolsa de Mercadorias & Futuros
DUARTE, JR., A. M. (1996). Riscos: Definies, Tipos, Medio e Recomendaes para seu
Gerenciamento. Resenha BM&F, n. 114, p. 25-33 So Paulo: Bolsa de Mercadorias & Futuros
EMPRESA BRASILEIRA DE CORREIOS E TELEGRAFOS [S. l., s.d.] Homepage da
Estrutura do CEP disponvel http://www.correios.com.br/servicos/cep/cep_estrutura.cfm acesso em 07/03/05.
FAUSETT, L. (1994) Fundamentals of Neural Networks, Englewood-Cliffs: Prentice-Hall.
FENSTERSTOCK, F. (2005) Credit Scoring and the Next Step. Business Credit, v. 107, n. 3, p.
46-49, New York: National Association of Credit Management.
FIDELIS, M.V.; LOPES, H.S.; FREITAS, A.A. (2000) Discovering comprehensible
classification rules with a genetic algorithm. La Jolla: Proceedings of Congress on Evolutionary
Computation p. 805-810.
FIGUEIREDO, R. P. (2001) Gesto de Riscos Operacionais em Instituies Financeiras Uma
Abordagem Qualitativa, Dissertao de Mestrado. Belm: Universidade da Amaznia UNAMA.
FRANOIS, O.; LAVERGNE C. (2001) Design of evolutionary algorithms-A statistical
perspective. IEEE Transactions on evolutionary Computation v. 5, n. 2, p. 129-148, Birmingham:
IEEE Computational Intelligence Society.
FRITZ, S.; HOSEMANN, D. (2000) Restructuring the Credit Process: Behaviour Scoring for
German Corporates International Journal of Intelligent Systems in Accounting, Finance and
Management, v. 9, n. 1, p. 9-21, Nottingham: John Wiley & Sons.
GITMAN, L. J. (1997) Princpios de Administrao Financeira, So Paulo: Harbra.
GOONATILAKE, S.; TRELEAVEN, P. C. (1995) Intelligent Systems for Finance and Business,
New York: Wiley
HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. (1998) Anlise Multivariada
de Dados, Porto Alegre: Bookman.
HALE, R.H. (1983) Credit Analysis: A Complete Guide, New York: John Wiley & Sons.

80
HALL, L.O.; OZYURT, I.B.; BEZDEK, J.C. (1999) Clustering with a genetically optimized
approach IEEE Transactions on evolutionary Computation, v. 3, n. 2, p. 103-112, Birmingham:
IEEE Computational Intelligence Society.
HAND, D. J.; HENLEY, W. E. (1997) Statistical Classification Methods in Consumer Credit
Scoring: a Review. Journal of Royal Statistical Society: Series A, n. 160, p. 523-541 Londres:
Royal Statistical Society.
HARIK, G. R; LOBO, F. G; GOLDBERG, D. E. (1999) The compact genetic algorithm.
IEEE Transactions on Evolutionary Computation, v. 3, n. 4, p. 287-297, Birmingham: IEEE
Computational Intelligence Society.
HARRISON, T.; ANSELL, J. (2002) Customer retention in the insurance industry: Using
survival analysis to predict cross
selling opportunities. Journal of Financial Services
Marketing, v. 6, n. 3, p. 229-239, Londres: Henry Stewart Publications.
HAYKIN, S. (1999) Redes Neurais Princpios e Prtica, Porto Alegre: Bookman.
HRUSCHKA, E. R. (2001) Algoritmos Genticos de Agrupamento para Extrao de Regras de
Redes Neurais Tese de Doutorado. Departamento de Engenharia Civil Universidade de Federal
do Rio de Janeiro UFRJ.
HUANG, Z.; CHEN, H. HSU, C-J.; CHEN, W.; WU, S. (2004) Credit rating analysis with
support vector machines and neural networks: a market comparative study, Decision Support
Systems, v. 37 n. 4, p. 543-558, St. Louis :Elsevier Science
KIM, C. N. (2003) A Neural Network Approach to Compare Predictive Value of Accounting
Versus Market Data International Journal of Digital Management, v. 3, Seul: Hanyang
University, disponvel em http://ijdm.digital.re.kr/past.html acesso em 29/01/05.
KISHORE, J. K.; PATNAIK, L. M.; MANI, V.; AGRAWAL, V. K. (2000) Application of
genetic programming for multicategory pattern classification. IEEE Transactions on evolutionary
Computation, v. 4, n. 3, p. 242-257, Birmingham: IEEE Computational Intelligence Society.
KNIGHT, K. (1990) Connectionist ideas and Algorithms. Communications of the ACM v. 33, n.
11, p. 59-74, New York: Association for Computing Machinery, Inc.
LEWIS, E. M. (1992) An Introduction to Credit Scoring. San Rafael: Fair Isaac and Co., Inc.
LIMA, J. (2002) A Anlise Econmico-Financeira de Empresas sob a tica da Estatstica
Multivariada Dissertao de Mestrado, Curitiba: Universidade Federal do Paran.
LINGRAS, P. (2001) Unsupervised Rough Set Classification using GAs Journal of Intelligent
Information Systems. v. 16, n. 3; p. 215-228, Boston: Kluwer Academic Publishers.

81
MAGYAR, G.; JOHNSSON M.; NEVALAINEN, O. (2000) An Adaptive Hybrid Genetic
Algorithm for the Three-Matching Problem IEEE Transactions on evolutionary Computation, v.
4, n. 2, p. 135-146, Birmingham: IEEE Computational Intelligence Society.
MARKS, R.E.; AND SCHNABL, H. (1997) Genetic Algorithms and Neural Networks: a
comparison based on the Repeated Prisoner's Dilemma, Computational Techniques for Modelling
Learning in Economics, in the series Advances in Computational Economics, Dordrecht: Kluwer
Academic Publishers, forthcoming. Australian Graduate School of Management Working Paper
97-014.
MARTINELI, E. (1999) Extrao de conhecimento de redes neurais artificiais Dissertao de
Mestrado. Instituto de Cincias Matemticas e de Computao USP So Carlos.
MATIAS, A. B.; SIQUEIRA, J. O. (1996) Risco Bancrio: modelo de previso de insolvncia de
bancos no Brasil. Revista de Administrao, So Paulo v. 31, n. 2, p. 19-28, So Paulo:
Universidade de So Paulo.
NANDA, S.; PENDHARKAR, P. (2001) Linear models for minimizing misclassification costs in
bankruptcy prediction International Journal of Intelligent Systems in Accounting, Finance and
Management, v. 10, n. 3, p. 155-168, Nottingham: John Wiley & Sons.
NETER, J.; KUTNER, M.H.; NACHTSHEIN, C. J.; WASSERMAN, W. (1996) Applied Linear
Statistical Models. Chicago : Irwin
OHTOSHI, C. (2003) Uma Comparao de Regresso Logstica, rvores de Classificao e
Redes Neurais: Analisando Dados de Crdito. Dissertao de Mestrado. Departamento de
Estatstica Universidade de So Paulo IME/USP.
OOGHE, H.; CAMERLYNCK, J.; BALCAEN, S. (2001) The Ooghe-Joos-De Vos Failure
Prediction Models: A Cross-Industry Validation. Working paper, Department of Corporate
Finance, University of Ghent.
OOGHE, H.; CLAUS, H.; SIERENS, N.; CAMERLYNCK, J. (2001) International Comparison
of Failure Prediction Models from Different Countries: An Empirical Analysis. Working paper,
Department of Corporate Finance, University of Ghent.
PAL, S. K.; WANG, P. P. (1996) Genetic Algorithms for Pattern Recognition, Boca Raton: CRC
Press.
PAMPA QUISPE, N. R. (2003) Tcnicas e ferramentas para a extrao inteligente e automtica
de conhecimento em banco de dados Dissertao de Mestrado. Departamento de Engenharia
Eltrica. Universidade Estadual de Campinas FEEC/UNICAMP.
PAPPA, G. L. (2002) Seleo de Atributos Utilizando Algoritmos Genticos Multiobjetivos
Dissertao de Mestrado. Departamento de Informtica. Pontifcia Universidade do Paran.

82

PAULA, G. A. (2002) Modelos de Regresso com Apoio Computacional, material disponvel em


http://www.ime.usp.br/~giapaula/livro.pdf acesso em 05/12/2004.
PEREIRA, G. H. A. (2004) Modelos de risco de crdito de clientes: Uma aplicao a dados
reais. Dissertao de Mestrado Departamento de Estatstica Universidade de So Paulo
IME/USP.
PICININI, R.; OLIVEIRA, G. M. B.; MONTEIRO, L. H. A. (2003) Minerao de Critrio de
Credit Scoring Utilizando Algoritmos Genticos Bauru: VI Simpsio Brasileiro de Automao
Inteligente, 2003, Bauru, SP. Anais do VI Simpsio Brasileiro de Automao Inteligente, p. 463466.
POTTS, W. J. E. (1998) Data Mining Primer Overview of Applications and Methods, Carrie:SAS
Institute Inc.
ROSA, P.T.M. (2000). Modelos de Credit Scoring: Regresso Logstica, CHAID e REAL.
Dissertao de Mestrado Departamento de Estatstica Universidade de So Paulo IME/USP.
SANTI FILHO, A. (1997) Avaliao de Riscos de Crdito, So Paulo: Atlas.
SANTOS, J.O. (2000) Anlise de Crdito: Empresas e Pessoas Fsicas, So Paulo: Atlas.
SCARPEL, R. A., MILIONI A. Z. (2001). Aplicao de Modelagem Economtrica Anlise
Financeira de Empresas. Revista de Administrao v. 36, n. 11, p. 80-88, So Paulo:
Universidade de So Paulo.
SCHRICKEL, W. K. (1995) Anlise de Crdito: Concesso e Gerncia de Emprstimos, So
Paulo: Atlas.
SECURATO, J.R. (2002) Crdito: Anlise e Avaliao do Risco, So Paulo: Saint Paul.
SEMOLINI, R. (2002) Support Vector Machines, Inferncia Transdutiva e o Problema de
Classificao. Dissertao de Mestrado. Departamento de Engenharia Eltrica. Universidade
Estadual de Campinas FEEC/UNICAMP.
SHARMA, S. (1996) Applied Multivariate Techniques, New York: John Wiley and Sons.
SIEGEL, S. (1975). Estatstica No-Paramtrica Para as Cincias do Comportamento So
Paulo: Mc Graw-Hill.
STERN, J.M.; NAKANO, F.; LAURETTO, M.S.; RIBEIRO, C.O. (1998) REAL: Algoritmo de
Aprendizagem para Atributos Reais e Estratgias de Operao em Mercado, Lisboa:
Conferncia Ibero-americana de Inteligncia Artificial.

83
SILVA FILHO, D.; CARNEIRO, A.A.F.M. (2004) Dimensionamento evolutivo de usinas
hidroeltricas. SBA Controle & Automao, v. 15, n. 4, p. 437-448, So Jos dos Campos:
Sociedade Brasileira de Automtica.
TATIBANA, C. Y.; KAETSU D. Y. [S. l., s.d.] Homepage de Redes Neurais disponvel em
http://www.din.uem.br/ia/neurais/ acesso em 04/12/04.
THOMAS, L. (2000) A Survey of Credit and Behavioural Scoring: Forecasting Financial Risk of
Lending to Consumers, International Journal of Forecasting, v. 16, n. 2, p. 149-172, Londres:
Elsevier.
TREVISANI, A.T.; GONALVES, E. B.; D EMDIO, M.; HUMES L.L. (2004) Qualidade De
Dados - Desafio Crtico para o Sucesso do Business Intelligence, Itaja: XVIII Congresso Latino
Americano de Estratgia.
VASCONCELLOS, M. S. (2002) Proposta de Mtodo para Anlise de Concesses de Crdito a
Pessoas Fsicas Dissertao de Mestrado. Departamento de Economia Universidade de So
Paulo FEA/USP.
ZERBINI, M. B. A. A. (2000) Trs Ensaios sobre Crdito Tese de Doutorado. Departamento de
Economia Universidade de So Paulo FEA/USP.

84
APNDICE A

CLCULO DO RISCO RELATIVO

SEXO
Masculino
Feminino
Total

Bom
5528
4472
10000

Mau % Bom
5858
0,55
4142
0,45
10000
1

% Mau
0,59
0,41
1

RR
0,94
1,08

ESTADO CIVIL
Casado
Solteiro
Outros
Total

Bom
4817
3461
1722
10000

Mau % Bom
4189
0,48
4284
0,35
1527
0,17
10000
1

% Mau
0,42
0,43
0,15
1

RR
1,15
0,81
1,13

PRIMEIRA AQUISIO
Sim
No
Total

Bom
4471
5529
10000

Mau % Bom
6480
0,45
3520
0,55
10000
1

% Mau
0,65
0,35
1

RR
0,69
1,57

POSSE DE FONE COMERCIAL


Sim
No
Total

Bom
6980
3020
10000

Mau % Bom
7392
0,70
2608
0,30
10000
1

% Mau
0,74
0,26
1

RR
0,94
1,16

TIPO DE CRDITO
Carn
Cheque
Total

Bom
917
9083
10000

Mau % Bom
2067
0,09
7933
0,91
10000
1

% Mau
0,21
0,79
1

RR
0,44
1,14

Bom Mau % Bom


9979 9957
1,00
21
43
0,00
10000 10000
1

% Mau
1,00
0,00
1

RR
1,00
0,49

POSSE DE FONE RESIDENCIAL


Sim
No
Total

85

TEMPO DE RESIDNCIA
At 12 meses
De 13 a 24 meses
De 25 a 120 meses
Acima de 120 meses
Total

Bom
659
666
3581
5094
10000

Mau % Bom
850
0,07
851
0,07
3717
0,36
4582
0,51
10000
1

% Mau
0,09
0,09
0,37
0,46
1

RR
0,78
0,78
0,96
1,11

VALOR DO EMPRSTIMO
At 300 reais
Acima de 300 a 400 reais
Acima de 400 a 500 reais
Acima de 500 a 800 reais
Acima de 800 a 1800 reais
Acima de 1800 reais
Total

Bom
2083
975
1521
1826
2650
945
10000

Mau % Bom
1225
0,21
964
0,10
1317
0,15
2354
0,18
3154
0,27
986
0,09
10000
1

% Mau
0,12
0,10
0,13
0,24
0,32
0,10
1

RR
1,70
1,01
1,15
0,78
0,84
0,96

IDADE
At 25 anos
De 26 a 40 anos
De 41 a 58 anos
Acima de 58 anos
Total

Bom
568
3381
4182
1869
10000

Mau % Bom
893
0,06
4215
0,34
3718
0,42
1174
0,19
10000
1

% Mau
0,09
0,42
0,37
0,12
1

RR
0,64
0,80
1,12
1,59

PARCELA
At 125 reais
Acima de 125 a 160 reais
Acima de 160 a 260 reais
Acima de 260 reais
Total

Bom
2803
2172
2765
2260
10000

Mau % Bom
3118
0,28
1909
0,22
3119
0,28
1854
0,23
10000
1

% Mau
0,31
0,19
0,31
0,19
1

RR
0,90
1,14
0,89
1,22

86
TEMPO NO EMPREGO ATUAL
At 24 meses
De 25 a 72 meses
De 73 a 127 meses
Acima de 128 meses
Total

Bom
1525
2926
2080
3469
10000

Mau % Bom
2580
0,15
3170
0,29
1778
0,21
2472
0,35
10000
1

% Mau
0,26
0,32
0,18
0,25
1

RR
0,59
0,92
1,17
1,40

% VALOR DA PARCELA/SALRIO
At 10%
Acima de 10 a 13,5%
Acima de 13,5 a 16,5%
Acima de 16,5 a 22,5%
Acima de 22,5%
Total

Bom
2296
2113
1918
2819
854
10000

Mau % Bom
1667
0,23
2035
0,21
2046
0,19
3629
0,28
623
0,09
10000
1

% Mau
0,17
0,20
0,20
0,36
0,06
1

RR
1,38
1,04
0,94
0,78
1,37

% VALOR DO EMPRSTIMO/SALRIO
At 28%
Acima de 28 a 47,5%
Acima de 47,5 a 65%
Acima de 65%
Total

Bom
1551
2378
1990
4081
10000

Mau % Bom
452
0,16
1645
0,24
2178
0,20
5725
0,41
10000
1

% Mau
0,05
0,16
0,22
0,57
1

RR
3,43
1,45
0,91
0,71

CDIGO DE PROFISSO
Cdigo 1
Cdigo 2
Cdigo 3
Cdigo 4
Cdigo 5
Cdigo 6
Cdigo 7
Total

Bom
976
439
1234
1101
842
2315
3093
10000

Mau % Bom
910
0,10
563
0,04
1037
0,12
1453
0,11
750
0,08
2712
0,23
2575
0,31
10000
1

% Mau
0,09
0,06
0,10
0,15
0,08
0,27
0,26
1

RR
1,07
0,78
1,19
0,76
1,12
0,85
1,20

87

CEP RESIDENCIAL
Faixa 1
Faixa 2
Faixa 3
Faixa 4
Faixa 5
Total

Bom
447
1021
4719
1724
2089
10000

Mau % Bom
718
0,04
1267
0,10
4943
0,47
1542
0,17
1530
0,21
10000
1

% Mau
0,07
0,13
0,49
0,15
0,15
1

RR
0,62
0,81
0,95
1,12
1,37

QUANTIDADE DE PARCELAS
At 4
5 ou 6
7a9
10 a 12
Total

Bom
2726
2794
2280
2200
10000

Mau % Bom
707
0,27
1997
0,28
3841
0,23
3455
0,22
10000
1

% Mau
0,07
0,20
0,38
0,35
1

RR
3,86
1,40
0,59
0,64

CEP COMERCIAL
Faixa 1
Faixa 2
Faixa 3
Faixa 4
Faixa 5
Total

Bom
691
3279
2135
2334
1561
10000

Mau % Bom
1070
0,07
3766
0,33
2041
0,21
1979
0,23
1144
0,16
10000
1

% Mau
0,11
0,38
0,20
0,20
0,11
1

RR
0,65
0,87
1,05
1,18
1,36

SALRIO DO CLIENTE9
At 650 reais
Acima de 650 a 950 reais
Acima de 950 a 1575 reais
Acima de 1575 a 2015 reais
Acima de 2015 a 3000 reais
Acima de 3000 reais
Total

Bom
1740
1939
3033
1032
1093
1162
9999

Mau
2185
2145
2974
955
922
818
9999

% Mau
0,22
0,21
0,30
0,10
0,09
0,08
1

RR
0,80
0,90
1,02
1,08
1,19
1,42

Dois registros estavam com a varivel salrio em branco

% Bom
0,17
0,19
0,30
0,10
0,11
0,12
1

88
APNDICE B

CLCULO DO KS

Para o clculo dos valores de Kolmogorov-Smirnov, os escores obtidos foram padronizados no


intervalo de 0 a 1. Em seguida foram definidos vinte intervalos de escore e calculado o KS para
cada amostra em cada tcnica. O valor do KS o nmero em negrito na ltima coluna.
REGRESSO LOGSTICA - TREINAMENTO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
12
0,95 |-- 1,00
0%
0%
0%
117
15
0,90 |-- 0,95
3%
0%
3%
256
32
0,85 |-- 0,90
10%
1%
8%
290
60
0,80 |-- 0,85
17%
3%
14%
388
113
0,75 |-- 0,80
27%
6%
21%
379
168
0,70 |-- 0,75
36%
10%
26%
384
183
0,65 |-- 0,70
46%
14%
31%
359
206
0,60 |-- 0,65
55%
19%
35%
332
245
0,55 |-- 0,60
63%
26%
37%
38%
316
272
0,50 |-- 0,55
71%
32%
280
299
0,45 |-- 0,50
78%
40%
38%
218
333
0,40 |-- 0,45
83%
48%
35%
212
323
0,35 |-- 0,40
89%
56%
32%
142
280
0,30 |-- 0,35
92%
63%
29%
117
270
0,25 |-- 0,30
95%
70%
25%
90
281
0,20 |-- 0,25
97%
77%
20%
47
321
0,15 |-- 0,20
98%
85%
13%
38
304
0,10 |-- 0,15
99%
93%
7%
23
266
0,05 |-- 0,10
100%
99%
1%
29
0,00 |-- 0,05
100%
100%
0%

89
REGRESSO LOGSTICA - VALIDAO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
7
2
0,95 |-- 1,00
0%
0%
0%
77
12
0,90 |-- 0,95
3%
0%
2%
156
32
0,85 |-- 0,90
8%
2%
6%
227
57
0,80 |-- 0,85
16%
3%
12%
271
94
0,75 |-- 0,80
25%
7%
18%
287
115
0,70 |-- 0,75
34%
10%
24%
284
169
0,65 |-- 0,70
44%
16%
28%
293
183
0,60 |-- 0,65
53%
22%
31%
271
202
0,55 |-- 0,60
62%
29%
34%
238
212
0,50 |-- 0,55
70%
36%
34%
35%
203
193
0,45 |-- 0,50
77%
42%
166
217
0,40 |-- 0,45
83%
50%
33%
161
255
0,35 |-- 0,40
88%
58%
30%
115
216
0,30 |-- 0,35
92%
65%
27%
89
217
0,25 |-- 0,30
95%
73%
22%
59
243
0,20 |-- 0,25
97%
81%
16%
58
226
0,15 |-- 0,20
99%
88%
11%
27
202
0,10 |-- 0,15
100%
95%
5%
11
147
0,05 |-- 0,10
100%
100%
0%
6
0,00 |-- 0,05
100%
100%
0%

90
REGRESSO LOGSTICA - TESTE
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
7
2
0,95 |-- 1,00
0%
0%
0%
91
8
0,90 |-- 0,95
3%
0%
3%
183
34
0,85 |-- 0,90
9%
1%
8%
200
66
0,80 |-- 0,85
16%
4%
12%
278
113
0,75 |-- 0,80
25%
7%
18%
314
109
0,70 |-- 0,75
36%
11%
25%
296
142
0,65 |-- 0,70
46%
16%
30%
266
160
0,60 |-- 0,65
55%
21%
33%
272
216
0,55 |-- 0,60
64%
28%
35%
252
209
0,50 |-- 0,55
72%
35%
37%
37%
239
238
0,45 |-- 0,50
80%
43%
142
233
0,40 |-- 0,45
85%
51%
34%
153
250
0,35 |-- 0,40
90%
59%
30%
92
236
0,30 |-- 0,35
93%
67%
26%
74
215
0,25 |-- 0,30
95%
74%
21%
75
220
0,20 |-- 0,25
98%
82%
16%
39
200
0,15 |-- 0,20
99%
88%
11%
22
210
0,10 |-- 0,15
100%
95%
4%
5
133
0,05 |-- 0,10
100%
100%
0%
6
0,00 |-- 0,05
100%
100%
0%

91
REDE NEURAL - TREINAMENTO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
181
7
0,95 |-- 1,00
5%
0%
4%
94
7
0,90 |-- 0,95
7%
0%
7%
62
7
0,85 |-- 0,90
8%
1%
8%
66
17
0,80 |-- 0,85
10%
1%
9%
145
46
0,75 |-- 0,80
14%
2%
12%
746
269
0,70 |-- 0,75
32%
9%
24%
805
382
0,65 |-- 0,70
52%
18%
34%
448
284
0,60 |-- 0,65
64%
25%
38%
39%
233
213
0,55 |-- 0,60
70%
31%
199
198
0,50 |-- 0,55
74%
36%
39%
183
184
0,45 |-- 0,50
79%
40%
39%
148
213
0,40 |-- 0,45
83%
46%
37%
146
220
0,35 |-- 0,40
86%
51%
35%
141
245
0,30 |-- 0,35
90%
57%
33%
115
270
0,25 |-- 0,30
93%
64%
29%
164
514
0,20 |-- 0,25
97%
77%
20%
92
544
0,15 |-- 0,20
99%
91%
9%
24
115
0,10 |-- 0,15
100%
93%
6%
4
92
0,05 |-- 0,10
100%
96%
4%
4
173
0,00 |-- 0,05
100%
100%
0%

92
REDE NEURAL - VALIDAO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
117
28
0,95 |-- 1,00
4%
1%
3%
46
19
0,90 |-- 0,95
5%
2%
4%
49
9
0,85 |-- 0,90
7%
2%
5%
73
11
0,80 |-- 0,85
10%
2%
7%
101
32
0,75 |-- 0,80
13%
3%
10%
521
195
0,70 |-- 0,75
30%
10%
20%
628
344
0,65 |-- 0,70
51%
21%
30%
325
233
0,60 |-- 0,65
62%
29%
33%
196
153
0,55 |-- 0,60
69%
34%
34%
35%
180
153
0,50 |-- 0,55
75%
39%
115
161
0,45 |-- 0,50
78%
45%
34%
100
135
0,40 |-- 0,45
82%
49%
33%
118
147
0,35 |-- 0,40
86%
54%
32%
87
184
0,30 |-- 0,35
89%
60%
28%
103
207
0,25 |-- 0,30
92%
67%
25%
129
406
0,20 |-- 0,25
96%
81%
16%
75
368
0,15 |-- 0,20
99%
93%
6%
12
67
0,10 |-- 0,15
99%
95%
4%
15
57
0,05 |-- 0,10
100%
97%
3%
10
91
0,00 |-- 0,05
100%
100%
0%

93
REDE NEURAL - TESTE
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
112
23
0,95 |-- 1,00
4%
1%
3%
57
18
0,90 |-- 0,95
6%
1%
4%
54
14
0,85 |-- 0,90
7%
2%
6%
69
15
0,80 |-- 0,85
10%
2%
7%
99
26
0,75 |-- 0,80
13%
3%
10%
575
202
0,70 |-- 0,75
32%
10%
22%
623
312
0,65 |-- 0,70
53%
20%
33%
292
237
0,60 |-- 0,65
63%
28%
34%
211
183
0,55 |-- 0,60
70%
34%
35%
163
163
0,50 |-- 0,55
75%
40%
35%
35%
144
153
0,45 |-- 0,50
80%
45%
118
154
0,40 |-- 0,45
84%
50%
34%
98
150
0,35 |-- 0,40
87%
55%
32%
88
166
0,30 |-- 0,35
90%
61%
30%
95
216
0,25 |-- 0,30
93%
68%
26%
134
406
0,20 |-- 0,25
98%
81%
16%
45
348
0,15 |-- 0,20
99%
93%
6%
8
81
0,10 |-- 0,15
100%
96%
4%
11
53
0,05 |-- 0,10
100%
97%
3%
4
80
0,00 |-- 0,05
100%
100%
0%

94
ALGORITMO GENTICO - TREINAMENTO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
6
0
0,95 |-- 1,00
0%
0%
0%
21
1
0,90 |-- 0,95
1%
0%
1%
58
4
0,85 |-- 0,90
2%
0%
2%
122
25
0,80 |-- 0,85
5%
1%
4%
216
60
0,75 |-- 0,80
11%
2%
8%
400
108
0,70 |-- 0,75
21%
5%
16%
457
183
0,65 |-- 0,70
32%
10%
22%
535
268
0,60 |-- 0,65
45%
16%
29%
34%
560
352
0,55 |-- 0,60
59%
25%
458
464
0,50 |-- 0,55
71%
37%
34%
400
529
0,45 |-- 0,50
81%
50%
31%
295
497
0,40 |-- 0,45
88%
62%
26%
207
434
0,35 |-- 0,40
93%
73%
20%
141
384
0,30 |-- 0,35
97%
83%
14%
72
275
0,25 |-- 0,30
99%
90%
9%
32
198
0,20 |-- 0,25
100%
95%
5%
14
125
0,15 |-- 0,20
100%
98%
2%
3
57
0,10 |-- 0,15
100%
99%
1%
3
30
0,05 |-- 0,10
100%
100%
0%
0
6
0,00 |-- 0,05
100%
100%
0%

95
ALGORITMO GENTICO - VALIDAO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
2
0
0,95 |-- 1,00
0%
0%
0%
4
0
0,90 |-- 0,95
0%
0%
0%
14
0
0,85 |-- 0,90
1%
0%
1%
39
9
0,80 |-- 0,85
2%
0%
2%
86
23
0,75 |-- 0,80
5%
1%
4%
158
52
0,70 |-- 0,75
10%
3%
7%
284
93
0,65 |-- 0,70
20%
6%
14%
367
183
0,60 |-- 0,65
32%
12%
20%
417
253
0,55 |-- 0,60
46%
20%
25%
385
279
0,50 |-- 0,55
59%
30%
29%
30%
381
353
0,45 |-- 0,50
71%
42%
322
394
0,40 |-- 0,45
82%
55%
27%
244
358
0,35 |-- 0,40
90%
67%
24%
128
364
0,30 |-- 0,35
94%
79%
16%
93
269
0,25 |-- 0,30
97%
88%
10%
49
189
0,20 |-- 0,25
99%
94%
5%
21
111
0,15 |-- 0,20
100%
98%
2%
6
50
0,10 |-- 0,15
100%
99%
1%
0
19
0,05 |-- 0,10
100%
100%
0%
0
1
0,00 |-- 0,05
100%
100%
0%

96
ALGORITMO GENTICO - TESTE
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
3
0
0,95 |-- 1,00
0%
0%
0%
15
3
0,90 |-- 0,95
1%
0%
1%
44
5
0,85 |-- 0,90
2%
0%
2%
80
16
0,80 |-- 0,85
5%
1%
4%
189
59
0,75 |-- 0,80
11%
3%
8%
284
100
0,70 |-- 0,75
21%
6%
14%
348
131
0,65 |-- 0,70
32%
10%
22%
374
205
0,60 |-- 0,65
45%
17%
27%
417
303
0,55 |-- 0,60
58%
27%
31%
32%
377
343
0,50 |-- 0,55
71%
39%
310
380
0,45 |-- 0,50
81%
52%
30%
239
383
0,40 |-- 0,45
89%
64%
25%
139
349
0,35 |-- 0,40
94%
76%
18%
102
262
0,30 |-- 0,35
97%
85%
13%
43
194
0,25 |-- 0,30
99%
91%
8%
23
139
0,20 |-- 0,25
100%
96%
4%
7
77
0,15 |-- 0,20
100%
98%
2%
6
30
0,10 |-- 0,15
100%
99%
1%
0
12
0,05 |-- 0,10
100%
100%
0%
0
9
0,00 |-- 0,05
100%
100%
0%

Vous aimerez peut-être aussi