modelo de anÁlise de risco de crÉdito utilizando...
Post on 14-Nov-2018
226 Views
Preview:
TRANSCRIPT
MODELO DE ANÁLISE DE RISCO DE CRÉDITO UTILIZANDO MÁQUINA DE
VETOR SUPORTE
Francisco Alixandre Ávila Rodrigues
Dissertação de Mestrado apresentada ao Programa de
Pós-graduação em Engenharia de Sistemas e
Computação, COPPE, da Universidade Federal do
Rio de Janeiro, como parte dos requisitos necessários
à obtenção do título de Mestre em Engenharia de
Sistemas e Computação.
Orientador: Nelson Maculan Filho
Rio de Janeiro
Março de 2012
MODELO DE ANÁLISE DE RISCO DE CRÉDITO UTILIZANDO MÁQUINA DE
VETOR SUPORTE
Francisco Alixandre Ávila Rodrigues
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO
LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA
(COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE
DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE
EM CIÊNCIAS EM ENGENHARIA DE SITEMAS E COMPUTAÇÃO.
Examinada por:
Prof. Nelson Maculan Filho, H.D.R.
Profa. Leontina Maria Viana Graziadio Pinto, D. Sc.
Prof. Ernesto Prado Lopes, Ph. D.
RIO DE JANEIRO, RJ - BRASIL
MARÇO DE 2012
iii
Rodrigues, Francisco Alixandre Ávila
Modelo de Análise de Risco de Crédito Utilizando
Máquina de Vetor Suporte/ Francisco Alixandre Ávila
Rodrigues.- Rio de Janeiro: UFRJ/COPPE, 2012.
XI, 55 p. : il.; 29,7 cm
Orientador: Nelson Maculan Filho
Dissertação (mestrado) – UFRJ/COPPE/Programa de
Engenharia de Sistemas e Computação, 2012.
Referências Bibliográficas: p. 51 – 55
1. Risco de Crédito. 2.Máquina de Vetor Suporte.
3.Otimização Quadrática I. Maculan Filho, Nelson. II.
Universidade Federal do Rio de Janeiro, COPPE, Programa
de Engenharia de Sistemas e Computação. III. Título.
iv
Dedico este trabalho a minha esposa Lígia Claudia Castro de Oliveira, pelo seu apoio
incondicional mesmo nas horas mais difíceis, e por todo seu amor, dedicação e
sacrifício.
v
Agradecimentos
Aos meus orientadores, professor Maculan e professora Leontina, pelos seus valiosos
conselhos e sugestões, dedicação à tarefa de ajudar-me e por terem acreditado muito
neste trabalho.
À Engenho Consultoria por ter dado a oportunidade e o apoio necessário à execução
deste trabalho.
A todos os meus colegas de trabalho da Engenho pelo incentivo e motivação.
Aos professores do Departamento de Engenharia de Sistemas e Computação da UFRJ
pelo aprendizado.
Aos membros da banca examinadora pelas contribuições na geração final desta
dissertação.
Aos meus pais Antonio Cruz Rodrigues e Rita Ávila Paiva Rodrigues pelo apoio e por
terem a visão de sempre incentivarem o estudo de seus filhos.
As minhas irmãs Andrea e Adrianne e a todos os meus familiares por sempre torcerem
por mim.
A todos que de alguma forma me ajudaram ou me motivaram no desenvolvimento desta
dissertação.
A Deus por ter me dado forças para superar todos os obstáculos.
vi
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos
necessários para a obtenção do grau de Mestre em Ciências (M. Sc.).
MODELO DE ANÁLISE DE RISCO DE CRÉDITO UTILIZANDO MÁQUINA DE
VETOR SUPORTE
Francisco Alixandre Ávila Rodrigues
Março/2012
Orientador: Nelson Maculan Filho
Programa: Engenharia de Sistemas e Computação
A crise econômica de 2008 trouxe a tona um risco importante na
comercialização de energia que estava esquecido: a qualidade do parceiro e o risco de
credito associado. Não importa quão cuidadosamente o portfólio de contratação seja
construído, o lucro pode ser convertido em grandes perdas caso o fornecedor não
entregue energia ou o consumidor não pague por ela. Este trabalho desenvolve um novo
modelo, baseado em máquina de vetor suporte, para a análise e gestão do risco de
crédito. A construção do portfólio ótimo está além do escopo deste trabalho, todo o
empenho foi na análise de parceiros e na avaliação de suas probabilidades de default. Os
resultados obtidos mostraram que o modelo de SVM com soft-margin não só é viável
como pode auxiliar um processo de tomada de decisão estratégica referente à
comercialização de energia. Dessa forma, o gestor de uma comercializadora de energia
estaria de posse de uma ferramenta que pode auxiliá-lo na escolha de empresas
comercias e industriais para compor seu portfólio de parceiros.
vii
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of master of Science (M.Sc.)
MODEL OF CREDIT RISK ANALYSIS USING SUPPORT VECTOR MACHINE
Francisco Alixandre Ávila Rodrigues
March/2012
Advisor: Nelson Maculan Filho
Department: Systems Engineering and Computation
The economic crisis of 2008 brought to light an important risk in the
commercialization of energy that was forgotten: the quality of the partner and the credit
risk associated. No matter how carefully the contract portfolio is built, the profit can be
turned into large losses if the supplier does not deliver energy or the consumer does not
pay for it. This paper develops a new model based on support vector machine for
analysis and management of credit risk. The construction of the optimal portfolio is
beyond the scope of this work, every effort was the analysis of partners and assessing
their probabilities of default. The results showed that the model with soft-margin SVM
is not only feasible, but may help a process of strategic decision making on the
commercialization of energy. Thus, the manager of an energy trader was in possession
of a tool that can assist you in choosing commercial and industrial companies to
integrate its portfolio of partners.
viii
Sumário
1 Introdução ................................................................................................................. 1
1.1 Motivação .......................................................................................................... 1
1.2 Avaliação do risco de crédito no mercado de energia elétrica ........................... 2
2 Modelos de classificação de risco de crédito na literatura ....................................... 3
2.1 Modelos para classificação de risco de crédito em geral ................................... 3
2.2 Modelos para classificação de risco de crédito no setor de energia elétrica .... 13
3 O modelo proposto ................................................................................................. 19
3.1 Conceitos básicos de aprendizado de máquina ................................................ 19
3.2 Máquinas de vetor suporte ............................................................................... 22
3.2.1 SVM com Hard-Margin ........................................................................... 24
3.2.2 SVM com Soft-Margin ............................................................................. 32
3.2.3 Cálculo da probabilidade de default ......................................................... 37
4 Aplicações do modelo ............................................................................................ 38
4.1 Seleção das variáveis de entrada para a SVM ................................................. 38
4.2 Empresas comerciais ........................................................................................ 41
4.3 Empresas industriais ........................................................................................ 45
5 Conclusões .............................................................................................................. 50
5.1 Sugestões para trabalhos futuros ...................................................................... 50
6 Referências Bibliográficas ...................................................................................... 51
ix
Lista de Figuras
Figura 1 – Relação entre os valores de Z e a probabilidade de sovência. ...................... 16
Figura 2 – Indução de classificador em aprendizado supervisionado. ........................... 21
Figura 3 – Hiperplano ótimo separando os dados com a máxima margem e os vetores
suporte. ........................................................................................................................... 23
Figura 4 – Hiperplano ótimo de separando no espaço bidimensional. ........................... 26
Figura 5 – Cálculo da distância entre os hiperplanos e . ...................................... 27
Figura 6 – Caso de dados inseparáveis no espaço bidimensional. ................................. 33
Figura 7 – Visualização das empresas comerciais para treinamento. ............................ 43
Figura 8 – Visualização da probabilidade de default por região para empresas
comerciais. ...................................................................................................................... 43
Figura 9 – Visualização das empresas comerciais de teste. ........................................... 44
Figura 10 – Visualização das empresas industriais para treinamento. ........................... 47
Figura 11 – Visualização da probabilidade de default por região para empresas
industriais Visualização das empresas industriais para treinamento. ............................. 47
Figura 12 – Visualização das empresas industriais de teste. .......................................... 48
x
Lista de Tabelas
Tabela 1 - Empresas comerciais para treinamento ......................................................... 42
Tabela 2 – Empresas comercias de teste ........................................................................ 43
Tabela 3 - Empresas industriais para treinamento .......................................................... 46
Tabela 4 – Empresas industriais de teste ........................................................................ 48
xi
Lista de Abreviaturas
SVM – Support Vector Machine
CVM – Comissão de Valores Mobiliários
ROA – Return on Assets
KS – Kolmogorov Smirnov
JSTOR – Journal Storage
IEEE – Institute of Eletrical and Electronic Engineers
1
1 Introdução
1.1 Motivação
Na maioria dos países, o setor de energia elétrica tem sido progressivamente
conduzido a um ambiente orientado ao mercado. Não importando a arquitetura
especifica dos mercados, a energia precisa ser comercializada e as receitas são
projetadas com base na qualidade do portfólio de contratação: bons resultados indicam
contratos lucrativos. Os riscos de negócio são avaliados com base, de forma
aproximada, nas incertezas de preço/demanda – em conjunto, com aspectos específicos
da regulação.
Contudo, a crise econômica mundial de 2008 trouxe à tona um risco importante
que estava esquecido: a qualidade do parceiro e o risco de credito associado. Não
importa quão cuidadosamente o portfólio de contratação seja construído, o lucro pode
ser convertido em grandes perdas caso o fornecedor não entregue energia ou o
consumidor não pague por ela.
A inclusão do risco de crédito de parceiros ao portfólio ótimo é, em princípio, um
árduo desafio: a maior parte das agências de “rating” geralmente atribui apenas uma
nota à empresa. Mesmo sendo importante, esta informação não é suficiente. A avaliação
dos indicadores de risco só pode ser efetuada através da probabilidade de default
associada ao parceiro.
O objetivo deste trabalho é propor um novo modelo para a análise e gestão do
risco de crédito especialmente desenvolvido para a comercialização de energia. Para
2
isso focaremos na análise de parceiros e na avaliação de suas probabilidades de default.
A construção do portfólio ótimo está além do escopo deste trabalho.
1.2 Avaliação do risco de crédito no mercado
de energia elétrica
De um modo geral, o risco de crédito é o risco associado a possíveis perdas
quando uma das partes em um contrato não honra os compromissos assumidos. Para
tentar minimizar esse tipo de perda, é fundamental um estudo que possibilite uma
avaliação da situação econômico-financeira de uma empresa.
A capacidade de discriminação entre empresas boas e ruins é crucial na avaliação
do risco de crédito. Desse modo, é imperativo termos um modelo que permita prever
com o máximo de precisão a qualidade do parceiro a fim de permitir às partes
interessadas tomar uma ação preventiva ou corretiva.
No processo de comercialização de energia elétrica, o risco de crédito está sempre
presente. Por exemplo, o fornecedor pode não entregar a energia ou o consumidor não
pagar por ela, caracterizando assim dois tipos de eventos de default.
Embora existam diversos outros tipos de eventos de default, o conceito de default
adotado nesse trabalho foi a concordata, que permite a uma empresa com dificuldades
financeiras continuar funcionando normalmente, dando-lhe um tempo para chegar a um
acordo com seus credores. Esse conceito foi utilizado por se tratar de uma informação
disponível publicamente.
3
2 Modelos de classificação de risco de
crédito na literatura
Existem muitas técnicas utilizadas para a construção de modelos de risco de
crédito. Este capítulo faz uma breve apresentação das técnicas mais utilizadas na
literatura para classificar e prever o risco de crédito, dentre os quais estão: regressão
logística, árvores de classificação, programação linear, redes neurais, algoritmos
genéticos, análise discriminante e SVM.
2.1 Modelos para classificação de risco de
crédito em geral
Nos últimos anos, impulsionado pela crise financeira mundial de 2008, o uso de
metodologias para classificação e previsão de risco de crédito tem sido muito divulgado.
Isto tem feito com que as instituições financeiras travem uma corrida acirrada em busca
dessas ferramentas.
Entretanto, o uso de modelos de risco de crédito não torna os negócios isentos de
riscos, por isso não podem ser compreendidos como receitas milagrosas capazes de
resolver todos os problemas relacionados ao risco de operações de crédito [1,2].
Dentre os métodos mais antigos de classificação e previsão de risco de crédito,
podemos destacar a análise discriminante linear e a regressão logística. Os primeiros
4
estudos desenvolvidos sobre a técnica de análise discriminante linear foram realizados
em 1966 por Beaver [3] seguido por Altman [4] em 1968. Os resultados obtidos deram
credibilidade aos modelos de classificação de risco e diversos estudos foram publicados
sobre o assunto.
É possível encontrar vários trabalhos que fazem uma revisão da literatura dos
principais modelos de risco de crédito utilizados. Nos trabalhos de Assaf Neto e Brito
[14], Resende [38] os autores destacam que Beaver [3] realizou um estudo utilizando
uma amostra com 158 empresas norte-americanas, sendo 79 delas concordatárias e 79
não concordatárias. Para deixar a amostra mais homogênea, o autor agrupou as
empresas por setor econômico e tamanho de seus ativos.
O modelo inicial criado por Beaver considerou 30 variáveis independentes,
divididas nas seguintes categorias de indicadores contábeis: indicadores de fluxo de
caixa, indicadores de rentabilidade, indicadores de dívida sobre ativo, indicadores de
ativos líquidos sobre ativo total, indicadores de ativos líquidos sobre dívida e
indicadores de giro do ativo. Esses indicadores foram calculados para os últimos 05
anos que antecederam o evento de concordata.
Após investigar os índices individualmente, o autor selecionou a variável fluxo
de caixa sobre total da dívida como o melhor indicador financeiro para discriminar
empresas concordatárias de empresas não concordatárias. Vale ressaltar que o autor
considerou igual o custo de classificar incorretamente uma empresa concordatária como
não concordatária e o custo de classificar incorretamente uma empresa não
concordatária como concordatária.
Para avaliar a qualidade do uso de indicadores contábeis como uma técnica
analítica para medir o desempenho de uma empresa, Altman [4] introduziu o modelo de
análise discriminante linear para classificar e fazer previsões envolvendo problemas
5
onde a variável resposta aparece de forma qualitativa. O modelo de análise
discriminante linear resulta em uma combinação linear desses indicadores que melhor
discrimine os diferentes grupos pré - estabelecidos. No caso analisado por Altman, dois
grupos foram constituídos, o grupo das empresas concordatárias e grupo das empresas
não concordatárias, de forma que a análise foi transformada numa única dimensão.
Kanitz [5], em 1976, realizou o primeiro estudo com empresas brasileiras
utilizando a técnica de análise discriminante com o objetivo de verificar a capacidade de
índices financeiros em prever a falência de empresas. O autor utilizou uma amostra de
42 empresas, sendo 21 empresas concordatárias e 21 empresas não concordatária. Um
total de 516 indicadores contábeis foram calculados e avaliados para os últimos 02 anos
que antecederam o evento de falência. Para reduzir o número de variáveis, Kanitz
utilizou a técnica estatística de diferença de médias para identificar alguns indicadores
contábeis com bom poder discriminatório de empresas concordatárias e empresas
saudáveis.
Onusic e Casa Nova [40] também fizeram uma revisão de alguns modelos de
risco de crédito. Assim como em muitos outras trabalhos, os dois autores destacam que
em 1976, Elizabetsky [6] desenvolveu um modelo usando análise discriminante para
decisão de concessão de crédito em bancos comerciais. O modelo estudado apresentou
uma taxa de acerto em classificar empresas como “boas" de 88,89%.
Em 1977, Altman et al. [7] desenvolveram um modelo utilizando a técnica de
análise discriminante linear, que chamaram de ZETA. A razão apontada pelos autores
para o desenvolvimento desse modelo foi a mudança do porte das empresas nos anos
que precederam o estudo. O porte médio das empresas que entraram em concordata
havia aumentado consideravelmente, gerando maior visibilidade e preocupação por
parte das instituições financeiras e agências regulatórias.
6
Os autores utilizaram uma amostra de 111 empresas, sendo 53 empresas
concordatárias e 58 empresas não concordatária, para o período de 1962 a 1975. A
amostra foi subdividida em dois grupos, empresas de manufaturas e empresas de varejo.
Inicialmente foram selecionados 27 indicadores contábeis, divididos em seis categorias:
rentabilidade, índices de cobertura, liquidez, índices de capitalização, variação da
rentabilidade e outros. O modelo selecionado foi reduzido a sete variáveis
independentes, que foram: retorno sobre ativo; estabilidade das receitas; cobertura de
juros; lucro acumulado sobre ativo total; liquidez corrente; capitalização (patrimônio
líquido sobre capital) e tamanho do ativo.
O modelo ZETA foi capaz de classificar corretamente 90% das empresas um
ano antes do evento de concordata e 70% para cinco anos antes do evento de
concordata.
Em 1979, Altman e alguns colaboradores [8] realizaram um estudo para testar a
aplicabilidade do modelo de análise discriminante linear previamente utilizado para
empresas americanas para empresas brasileiras. Os autores utilizaram uma amostra de
58 empresas brasileiras, sendo 23 empresas concordatárias e 35 empresas não
concordatária. Foram utilizadas as cinco variáveis do modelo original de Altman [4],
com alterações nas variáveis lucros retidos sobre ativo total e valor de mercado do
patrimônio líquido sobre valor contábil do exigível total para adaptar ao mercado
brasileiro.
Em 1996, Sanvicente e Bader [9] replicaram o modelo de Altman et. al [8] para
o Brasil. Nesse estudo, os autores utilizaram uma amostra de 144 empresas, sendo 72
empresas concordatárias e 72 empresas não concordatária, para o período de 1986 a
1995. Foram utilizadas as mesmas cinco variáveis do modelo de Altman et. al. Mas
nesse caso, os indicadores contábeis foram calculados para os últimos três anos
7
anteriores ao evento de concordata. Devido à indisponibilidade de dados, a amostra final
de empresas foi reduzida.
O modelo apresentado por Sanvicente e Bader foi capaz de classificar
corretamente 77,4% das empresas um ano antes do evento de concordata, resultado
inferior ao apresentado por Altman et. al.
Em 1998, Sanvicente e Minardi [10] desenvolveram um estudo de caráter
exploratório que tinha como objetivo identificar os indicadores contábeis mais
significativos para prever a falência de empresas brasileiras. A amostra utilizada pelos
autores era composta de 92 empresas brasileiras com ações negociadas na Bolsa de
Valores de São Paulo, sendo 46 empresas concordatárias e 46 empresas não
concordatária no período de 1986 a 1998.
Os indicadores contábeis selecionados por Sanvicente e Minardi basearam-se em
estudos de Altman [4, 7] e na dinâmica de over trading discutida por Assaf Neto e
Tibúrcio Silva [11]. Foram selecionados 14 indicadores contábeis no estudo. Os autores
utilizaram as mesmas cinco variáveis utilizadas por Altman et al. al [8] e Sanvicente e
Bader [9] e adicionaram mais nove variáveis. O modelo selecionado incluiu as seguintes
variáveis: ativo circulante menos passivo total sobre ativo total; patrimônio líquido
menos capital social sobre ativo total; lucro antes de juros e imposto de renda sobre
ativo total; valor contábil do patrimônio líquido sobre valor contábil do exigível total e
lucro operacional antes de juros e imposto de renda sobre despesas financeiras. O
modelo foi capaz de classificar corretamente 81,8% das empresas um ano antes do
evento de concordata.
Os modelos apresentados até agora de análise discriminante linear também
foram criticados, pois muitas vezes não atendiam às rígidas hipóteses que a metodologia
requisitava, tais como: (i) variáveis independentes devem ser normalmente distribuídas,
8
(ii) as matrizes de variância e covariância devem ser iguais entre os dois grupos de
empresas, e (iii) interpretação pouco intuitiva do resultado da função discriminante.
Essas críticas levaram a Ohlson [12], em 1980, a incluir a técnica de regressão
logística na avaliação de riscos na concessão de crédito para empresas com dificuldades
financeiras. O autor desenvolveu um modelo para previsão de falência similar aos
modelos apresentados por Beaver [3] e Altman [4]. Sua contribuição foi essencial para o
desenvolvimento de novas ferramentas para avaliação de risco de crédito, uma vez que
ele introduziu o modelo de regressão logística.
No estudo de Ohlson, foi utilizada uma amostra de 105 empresas americanas
concordatárias e 2.058 empresas não concordatária, para o período de 1970 a 1976.
Setores econômicos como energia, transporte e financeiro foram excluídos da análise. O
autor selecionou nove variáveis independentes para o modelo: tamanho do ativo;
passivo total sobre ativo total; capital de giro sobre ativo total; passivo circulante sobre
ativo circulante; lucro líquido sobre ativo total; geração de caixa operacional sobre
passivo total e variação no lucro líquido.
O modelo apresentado por Ohlson foi capaz de classificar corretamente 96,12%
das empresas um ano antes do evento de concordata, 95,55% para dois anos antes da
concordata e 92,84% para três anos antes da concordata.
Scarpel e Milioni [13] utilizaram um modelo do tipo logit, também conhecido
como regressão logística, em conjunto com o modelo de programação linear inteira. O
objetivo foi auxiliar a análise de crédito utilizando a estimativa da probabilidade de
solvência de empresas, minimizando a soma dos custos de oportunidade e
inadimplência. Os autores concluíram que a utilização conjunta desses modelos
possibilitou eliminar algumas limitações encontradas quando utilizavam isoladamente
cada modelo nas decisões de concessão de crédito.
9
Em 2005, Assaf Neto e Brito [14] replicaram o modelo de regressão logística de
Ohlson [12] para previsão de falências para empresas brasileiras. No estudo, os autores
utilizaram uma amostra de 60 empresas, sendo 30 empresas concordatárias e 30
empresas não concordatária, para o período de 1994 a2004. Foram testados 25
indicadores contábeis no estudo, calculados com base nos demonstrativos contábeis do
penúltimo exercício anterior ao evento de concordata. O modelo selecionado incluiu as
seguintes variáveis: lucros retidos sobre ativo; endividamento financeiro; capital de giro
líquido e saldo de tesouraria sobre vendas. O modelo foi capaz de classificar
corretamente 91,7% das empresas.
O surgimento da técnica chamada redes neurais na década de 1990 que entre
outras atende a problemas de classificação, levou Altman et. al [15] a realizarem um
estudo comparativo entre modelos de classificação tradicionais, como análise
discriminante linear e regressão logística, com o modelo de redes neurais. Esse estudo
foi realizado com uma amostra de mais de 1.000 empresas italianas para o período de
1982 a 1992. Dez indicadores contábeis foram utilizados, entre eles: 04 índices de
endividamento e estrutura de capital, 02índices de liquidez e 04 índices de rentabilidade.
Os resultados encontrados com a utilização de redes neurais foram satisfatórios,
e muitas vezes superiores aos resultados encontrados com a utilização de análise
discriminante linear. No entanto, os autores ressaltam que o maior problema encontrado
foi à existência de tipos não aceitáveis de comportamento na rede neural. O grau e
frequência de tipos de comportamento ilógicos cresceram de acordo com o aumento da
complexidade da arquitetura da rede neural. Somente em casos extremamente simples
foram obtidos resultados aceitáveis.
Desai et al. [16] compararam redes neurais, análise discriminante linear e
regressão logística para a construção de modelos de escore de crédito. Os autores
10
avaliaram o percentual de acerto total de cada modelo e neste aspecto o modelo de redes
neurais foi bastante superior aos demais. Porém o percentual de clientes bons e maus
corretamente classificados pela rede neural foi equivalente ao modelo de regressão
logística.
Em 1996, Almeida e Dumontier [17] publicaram um trabalho em que sugeriram
uma abordagem estruturada de exploração de redes neurais para avaliação dos riscos de
inadimplência do setor de transporte de carga rodoviário francês. Os autores comparam
a técnica de redes neurais sugerida com a regressão logística, e os resultados mostraram
que o desempenho do modelo de redes neurais não apresentou ganhos
significativamente superiores aos obtidos com a utilização da regressão logística.
Contudo, os mesmos autores ressaltaram que estudos futuros poderiam ajudar no
entendimento e compreensão do processo de falência através do uso de redes neurais,
possibilitando assim melhores resultados em outros setores de atividades.
Um estudo comparativo entre três técnicas multivariadas para prever se um
cliente pagará ou não um empréstimo, foi apresentado em 1997por Armingeret al. [18].
As técnicas comparadas foram regressão logística, redes neurais e árvore de decisão.
Para a construção de cada modelo foram levadas em consideração as seguintes
variáveis: sexo, tempo de serviço, idade, possuir ou não carro, possuir ou não telefone e
estado civil. Os resultados demonstraram acertos na classificação dos clientes de 67,6%
para a regressão logística, 66,4% para a árvore de decisão e 65,2 para as redes neurais.
Num esforço adicional os autores combinaram as três técnicas, porém o resultado não
foi satisfatório, sendo pior que o obtido pela regressão logística.
Em 1999, Steiner et al [19] utilizaram sistemas especialistas probabilísticos e
redes neurais, ambas na área de inteligência artificial, para auxiliar na análise de
concessão de crédito bancário a pessoas físicas. Foram utilizados dados históricos de
11
2.855 clientes de um banco alemão com o objetivo de identificar padrões que
mostrassem para diagnósticos futuros, em qual situação é interessante para o banco
fazer a concessão do crédito.
Selau [20] apresentou um estudo destacando a importância de redes neurais
como ferramenta para o reconhecimento de padrões e sua superioridade em comparação
com outras técnicas. Em uma aplicação na área de crédito a autora utilizou uma amostra
de 1000 créditos concedidos em um banco alemão, sendo 700 bons pagadores e 300
maus pagadores. Nessa aplicação, os resultados obtidos com a rede neural foram
superiores quando comparada com as técnicas de regressão logística e árvore de
decisão.
Lemos [21], utilizando redes neurais e árvores de decisão, analisou dados
históricos de 339 empresas clientes de uma agência bancária, dos quais 266 eram
adimplentes e 73 inadimplentes. Para testar o modelo de árvores de decisão, os dados
foram divididos em conjuntos de treinamento e teste, obtendo para o modelo 71,84% de
classificação correta das empresas. Já para a técnica de redes neurais os treinamentos
foram feitos por meio de uma rede de múltiplas camadas, usando o algoritmo back
propagation padrão variando parâmetros, obtendo 90,04% de acerto de classificação.
De acordo com Lemos [21], os resultados sugerem que o desempenho das redes
neurais foi melhor que o apresentado na técnica árvores de decisão em relação à taxa de
classificação correta, porém, do ponto de vista do usuário (analista de crédito ou gerente
bancário), sempre há vantagens do uso de árvores de decisão, pois ela apresenta
resultados (regras de decisão) de fácil compreensão.
Em 2003, Huang et al [22] realizaram um estudo de comparação entre as
metodologias de redes neurais, regressão logística e Support Vector Machine (SVM). A
análise realizada foi em relação a instituições financeiras que trabalhavam com
12
concessão de crédito. O público alvo foi grandes empresas dos Estados Unidos e
Taiwan, que para solicitar o crédito necessitavam fornecer os últimos cinco relatórios
anuais e demonstrações financeiras, tal como o total de ativos e passivos circulantes,
dívidas da empresa, fluxos de caixa.
O experimento realizado por Huang foi baseado em dois conjuntos: o de
treinamento e o de teste. A regressão logística obteve uma taxa de 73,92% de acerto,
77,65% para as redes neurais e 78,90% para SVM demonstrando melhor desempenho
entre as técnicas escolhidas.
Kimura et al. [23], através do uso do procedimento de redes neurais,
apresentaram um modelo de previsão de risco de crédito com base em uma amostra
aleatória de 2475 clientes de uma importante rede de lojas brasileira. O modelo sugerido
apresentou 79% de acertos sobre o perfil de pagamento dos clientes. Os autores
destacaram ainda que, apesar de ter sido considerado na pesquisa um número pequeno
de variáveis, os resultados sugerem que as redes neurais são promissoras como técnica
para análise de concessão de crédito ao consumidor.
Gouvêa e Gonçalves [24], utilizando uma amostra de dados fornecida por uma
grande instituição financeira brasileira, desenvolveram dois modelos com duas técnicas
para a classificação de clientes: redes neurais e algoritmos genéticos. Os resultados
obtidos pelos modelos de rede neural e algoritmo genético foram satisfatórios, sendo o
primeiro modelo superior com percentual de acerto de 69,4% contra 67,6%.
Recentemente uma revisão realizada por Yu et al. [25], destacou algumas das
técnicas mais usadas para a avaliação do risco de crédito. Dentre elas os autores
citaram: análise discriminante linear, regressão logística, regressão probit, árvores de
decisão, k-vizinhos mais próximos, programação linear, redes neurais, algoritmos
evolucionários, SVM e sistemas híbridos.
13
Para comparar a qualidade das diversas técnicas de inteligência computacional
na pesquisa bibliográfica, Yu et al.[25] estabeleceram quatro critérios: precisão,
interpretabilidade, simplicidade e flexibilidade.
De acordo com os autores, cada uma das diferentes técnicas de inteligência
computacional se destaca em um ou mais dos aspectos qualitativos, sendo o mais
relevante para o problema de risco de crédito a precisão. As maiores precisões foram
observadas nas técnicas de SVM e sistemas híbridos. Yu et al. [25] ressaltam a
qualidade da técnica SVM, sobretudo, devido ao alto poder de classificação de padrões
e suas características de funcionamento.
SVM é uma classe de métodos auto adaptáveis, não lineares, dirigidos pelas
amostras sem que haja a necessidade de suposições específicas (por exemplo,
distribuição estatística normal), no qual se pode construir uma função de discriminante
linear para substituir a função não linear de mapeamento de entrada, com a vantagem de
uma dimensão mais baixa que a original. Em consequência dessa linearidade da função
discriminante, a complexidade computacional não fica dependente da dimensão da
amostra. Outra característica importante é a boa capacidade de generalização obtida
pelos métodos, através da maximização da separação de hiperplanos, evitando mínimos
locais [41].
2.2 Modelos para classificação de risco de
crédito no setor de energia elétrica
No setor de energia elétrica, a análise de crédito é feita com o auxílio dos
chamados ratings de crédito que são informações públicas que representam o
14
julgamento de analistas de crédito, supostamente bem informados, a respeito da
capacidade das empresas em honrar compromissos financeiros assumidos.
Geralmente essas agências de rating atribuem apenas uma nota ou um conceito às
empresas. Por exemplo, as agências Moody’s e Standard & Poor’s atribuem os
conceitos “AAA” e “Aaa”, respectivamente, às empresas consideradas de altíssima
qualidade, com mínimo risco de crédito e capacidade de pagamento dos compromissos
extremamente forte. Mesmo sendo importante, esse tipo de “modelo” não é suficiente.
A quantificação do risco econômico associado a um negócio exige o cálculo numérico
da probabilidade de default associada ao parceiro.
Poucos autores propõem modelos para o cálculo da probabilidade de default.
Encontramos, na literatura, o modelo Silva [26] que utilizou a ferramenta estatística de
análise discriminante linear para classificar empresas brasileiras como solventes ou
insolventes. O autor incorporou ao modelo o cálculo da probabilidade de insolvência
(evento de default) das empresas.
Após fazer uma pesquisa dos trabalhos existentes, Silva [26] fez um refinamento
dos índices financeiros que deveriam ser incorporados ao modelo e testou outros fatores
como a segmentação das empresas e horizonte de tempo. Segundo o autor, é necessário
desenvolver modelos específicos para empresas atuantes em setores diferentes
(industrial ou comercial, por exemplo), pois essa separação garante maior eficácia nos
resultados.
Silva [26] construiu dois modelos distintos: um para empresas comercias e outro
para empresas industriais. Para cada segmento de empresas o autor analisou o risco de
crédito para dois horizontes de tempo distintos, 12 e 24 meses.
Martins e Galli [27] fizeram uso do modelo de Cox [28] para classificar
companhias brasileiras de capital aberto com o objetivo de avaliar o risco de crédito.
15
Esse modelo, também conhecido como modelo de riscos proporcionais de Cox, pertence
a uma área da estatística denominada Análise de Sobrevivência (Survival Analysis).
Essa metodologia fornece não apenas a probabilidade de que um determinado evento de
default ocorra no futuro, mas também uma estimativa do tempo até sua ocorrência.
Como sugestão para trabalhos futuros, os autores consideram interessante a
realização de estudos setoriais que contemplem a estimação de modelos de previsão de
insolvência para empresas de mesma atividade econômica. Nesse sentido, Martins e
Galli acreditam que o percentual de acerto do Modelo de Cox tende a se elevar, na
medida em que empresas de um mesmo setor possuem não apenas características
semelhantes, mas tendem a reagir da mesma forma a determinadas mudanças
conjunturais.
Os trabalhos desenvolvidos por Silva [26] e Martins e Galli [27] foram o marco
inicial dessa dissertação. Pois, além de serem modelos que permitem fazer classificação
de empresas brasileiras quanto a serem concordatária ou não concordatária, permitem
também estimar probabilidades de default. Os autores tiveram também o cuidado de
construir modelos distintos para empresas de mesma atividade econômica, obtendo
assim um melhor desempenho.
Os modelos desenvolvidos por Silva [26] fazem uso da metodologia de análise
discriminante linear que é um método estatístico multivariado que se emprega para
descobrir as características que distinguem os membros de diferentes grupos, de modo
que, conhecidas as características de um novo membro, seja possível prever a que grupo
pertence.
Segundo essa metodologia as empresas são classificadas de acordo com índices
financeiros. Cada um dos índices utilizados no modelo recebe um peso, que é referente
à sua ordem de grandeza e importância relativa no conjunto. Esses pesos foram obtidos
16
através do método de mínimos quadrados, de forma que a subjetividade do analista não
interfere no resultado final da classificação. O modelo pode ser representado de forma
básica como:
(3.1)
onde,
Z é o valor da função que irá classificar a empresa,
a1 é o índice do coeficiente x1, o peso de x1,
a2 é o índice do coeficiente x2, o peso de x2,
an é o índice do coeficiente xn, o peso de xn,
x1, x2, x3,..., xn representam cada um dos índices selecionados.
Silva [26] estimou dois tipos de modelo: um para classificar empresas industriais
e outro para classificar empresas comerciais, cada qual utilizando variáveis distintas e
pesos distintos. Cada modelo indica a probabilidade de insolvência da empresa para o
próximo exercício (próximos 12 meses) e a possibilidade de insolvência para os dois
próximos exercícios (próximos 24 meses). O ponto de separação entre empresas boas e
insolventes é zero.
Na figura abaixo mostramos a relação que Silva [26] utiliza entre os valores das
funções Z e a probabilidade de solvência P(S) de uma empresa.
Figura 01 – Relação entre os valores de Z e a probabilidade de solvência.
17
No entanto, para fazer uso dessa metodologia é crucial a verificação de alguns
pressupostos, tais como a presença de outliers, pois uma análise discriminante é
altamente sensível à presença de outliers ou valores extremos de variáveis que têm um
largo impacto nas médias e também aumentam as variâncias, podendo resultar em
classificações erradas. Assim, os outliers devem ser identificados e removidos antes da
análise. Outro pressuposto é que as variáveis sigam uma distribuição Normal
multivariada, sendo necessária a confirmação através de testes estatísticos de
normalidade.
O modelo desenvolvido por Martins e Galli, permite estimar a probabilidade de
sobrevivência para diferentes horizontes de tempo obtendo assim o “perfil de
sobrevivência” das empresas incluídas na amostra. Além disso, esse modelo possui a
vantagem de não estabelecer qualquer hipótese sobre a forma da distribuição estatística
dos dados.
Entretanto, o modelo possui algumas limitações. Pois da mesma forma que
outras técnicas estatísticas utilizadas na previsão de insolvência, o modelo de risco
proporcional exige dados anteriores ao evento sob análise. Além disso, o modelo
assume que os valores das variáveis independentes não se alteram ao longo do período
de tempo no qual se desenvolve o estudo (suposição de proporcionalidade das taxas de
falha). Segundo Whalen [29], a violação dessa hipótese pode reduzir a precisão do
modelo.
A grande dificuldade em fazermos uso das duas metodologias citadas acima, é a
inexistência, em muitos casos, de um conjunto tão amplo de informações disponíveis
para podermos garantir as exigências de cada modelo. No caso da analise discriminante
linear a presença de outliers pode ser um empecilho para seu uso, e a simples retirada
desse valor extremo pode causar um desvio da realidade além de diminuir ainda mais as
18
informações. É comum que empresas industriais (comerciais) tenham indicadores
financeiros bem diferenciados em relação a valor, assim uma grande empresa que tenha
indicadores elevados (ou baixos) em relação às demais seria eliminada da etapa de
treinamento do modelo comprometendo assim o seu poder de classificação.
No caso do modelo de Cox, a falta de informação também dificulta sua
implementação, pois o método é fortemente influenciado pelo tamanho da amostra.
Outra dificuldade para fazermos uso desse modelo é garantirmos a suposição de
proporcionalidade das taxas de falha, ou seja, assumirmos que os valores das variáveis
independentes não se alteram ao longo do período de tempo no qual se desenvolve o
estudo. Assumir essa hipótese não é muito adequado, uma vez que o comportamento
temporal dos indicadores de uma empresa pode ser muito dinâmico.
Assim, o desenvolvimento de uma metodologia que permita fazer classificação,
sem perda de generalização, a partir de amostras que não disponibilizem muitas
informações ou que não tenham alta dependência com o tamanho da amostra se faz
necessário.
19
3 O modelo proposto
O modelo proposto nesse trabalho faz uso da técnica de aprendizado de máquina
conhecida como Máquina de Vetor Suporte, do inglês Support Vectors Machine– SVM.
A escolha dessa metodologia foi devida sua flexibilidade e sua alta capacidade de
classificação, além de não haver problemas em relação à alta dependência com o
tamanho da amostra ou outliers.
Antes de iniciarmos a apresentação do modelo proposto, será feita uma breve
explanação sobre aprendizado de máquina.
3.1 Conceitos básicos de aprendizado de
máquina
A aprendizagem de maquina é um sub-campo da inteligência artificial dedicado
ao desenvolvimento de algoritmos e técnicas que permitam ao computador aprender,
isto e, que permitam ao computador aperfeiçoar seu desempenho em alguma tarefa.
As técnicas de Aprendizado de Máquina (AM) fazem uso de um princípio de
inferência denomina indução, no qual se obtém conclusões genéricas a partir de um
conjunto particular de dados. O aprendizado indutivo pode ser dividido em dois tipos
principais: supervisionado e não supervisionado.
20
No aprendizado supervisionado, o objetivo é induzir conceitos a partir de
exemplos pré-definidos, ou seja, exemplos questão rotulados com uma classe
conhecida.
No aprendizado não supervisionado as classes não estão pré-definidas, ou seja,
existe a incerteza sobre a saída esperada. Nesses casos, é comum utilizar os métodos
probabilísticos para simular a distribuição de probabilidades dos dados em cada classe.
Para realizar tais procedimentos, é amplamente difundida a utilização da aprendizagem
bayesiana ou redes bayesianas.
O tipo de aprendizado abordado neste trabalho é o supervisionado. Neste caso,
dado um conjunto de exemplos rotulados na forma (xi,yi), em que xi representa uma
amostra e yi denota o seu rótulo, deve-se construir um classificador, também
denominado modelo, capaz de prever o rótulo de novos dados. Esse processo de
indução de um classificador a partir de uma amostra de dados é denominado
treinamento. O classificador obtido também pode ser visto como uma função f, a qual
recebe um dado x e fornece uma predição y, ou seja, fornece uma classificação.
Nesse trabalho, o fenômeno em estudo, ou seja, os rótulos ou classes assumem
apenas valores discretos 1, ..., k. Se os rótulos possuem valores contínuos, tem-se um
problema de regressão, que não é foco desse trabalho. Um problema de classificação no
qual k = 2 é denominado binário. Para k > 2, configura-se um problema multiclasses.
Cada amostra x, também referenciada por dado ou caso, é tipicamente
representada por um vetor de características, ou atributos. Normalmente, há dois tipos
básicos de atributos: nominal e contínuo. Um atributo é definido como nominal (ou
categórico) quando não existe uma ordem entre os valores que ele pode assumir (por
exemplo, entre cores). No caso de atributos contínuos, é possível definir uma ordem
linear nos valores assumidos (por exemplo, entre pesos).
21
As técnicas de AM idealmente devem ser robustas a ruídos presentes nos dados,
ou seja, espera-se que a obtenção dos classificadores através dessas técnicas minimize a
influência de outliers no processo de indução, permitindo assim uma melhor avaliação
dos dados disponíveis.
Os conceitos referentes à construção de um classificador a partir do aprendizado
supervisionado são representados de forma simplificada na Figura 02. Tem-se nessa
figura um conjunto com n dados xi. Cada dado xi possui m atributos, ou seja, xi = (xi1,
..., xim) e as variáveis yi representam as classes às quais cada dado xi pertence. Com
essas informações a disposição, o algoritmo de AM extrai um classificador f(x).
Figura 02 – Indução de classif icador em aprendizado supervisionado
A obtenção de um classificador por um algoritmo de AM a partir de uma amostra
de dados também pode ser considerada um processo de busca. Procura-se, entre todas as
hipóteses que o algoritmo é capaz de gerar a partir dos dados, aquela com melhor
capacidade de descrever o domínio em que ocorre o aprendizado [30].
Para estimar as taxas de acerto e de erro obtidas por um classificador, em geral,
divide-se os dados em dois subconjuntos disjuntos: de treinamento e de teste. O
subconjunto de treinamento é utilizado no aprendizado do classificador e o subconjunto
22
de teste é utilizado para medir o grau de efetividade do aprendizado do classificador na
predição de novos dados.
Um conceito comumente empregado em AM é o poder de generalização de um
classificador, que é definido como a sua capacidade de prever corretamente a classe de
novos dados. Em se tratando de generalização de um classificador, dois fenômenos têm
influência direta no seu desempenho:
a) Superajustamento do classificador: esse fenômeno ocorre quando o
modelo se especializa nos dados de treinamento, apresentando baixa
acurácia quando confrontado com novos dados. Esse fenômeno é
também conhecido como over fitting.
b) Subajustamento do classificador: Esse fenômeno ocorre quando o
classificador apresenta baixa acurácia mesmo no conjunto de
treinamento. Esse fenômeno é também conhecido como under fitting.
Na próxima seção, iniciaremos a apresentação da metodologia utilizada para o modelo
proposto desse trabalho.
3.2 Máquinas de vetor suporte
Uma das estratégias de maior sucesso no equacionamento de problemas de
classificação é a denominada Máquina de Vetor Suporte, mais conhecida pela
denominação em inglês Support Vector Machine (SVM) [31].
De forma simplificada, pode-se dizer que SVM é uma técnica de aprendizado de
máquina capaz de produzir classificadores com a máxima capacidade de generalização.
Ou seja, a SVM é capaz de produzir classificadores com uma boa capacidade de
predizer corretamente dados não presentes na amostra de treinamento.
23
A SVM é uma técnica relativamente recente. Foi proposta por Vapnik em 1995
[32] para resolver problemas de classificação binários, tendo sido utilizadas com
sucesso em aplicações de reconhecimento de padrões, tais como categorização de
textos, reconhecimento de caracteres manuscritos, reconhecimento de textura, análise de
expressões de genes, reconhecimento de objetos em três dimensões, etc.
Basicamente o funcionamento de uma SVM pode ser descrito da seguinte forma:
dadas duas classes e um conjunto de pontos que pertencem a essas classes, uma SVM
determina o hiperplano que separa os pontos de forma a colocar o maior numero de
pontos da mesma classe do mesmo lado, enquanto maximiza a distância de cada classe a
esse hiperplano. A distância de uma classe a um hiperplano é definida como a menor
distância entre ele e os pontos dessa classe e é conhecida como margem de separação,
ou simplesmente margem. O hiperplano gerado pela SVM é determinado por um
subconjunto dos pontos das duas classes, chamado vetores de suporte [39]. Ver figura
03 abaixo.
Figura 03 – Hiperplano ótimo separando os dados com a máxima margem e os
vetores suporte.
24
O treinamento de uma SVM consiste em um problema de otimização quadrático
que é atrativo pela garantia da convergência para um mínimo global da superfície de
erro (exceto quando algum problema de precisão numérica está presente), onde o erro
refere-se à diferença entre a resposta desejada e a saída da SVM [33].
Uma das maiores vantagens da SVM é a sua flexibilidade. Utilizando os conceitos
de maximização de margem e dualidade, pode-se adaptar o problema de classificação
binária para resolver muitos outros tipos de problemas.
Nesta sessão, discutiremos as máquinas de vetor suporte para os problemas de
classificação binária. Primeiro, iremos apresentar o caso em que os dados de
treinamento são assumidos linearmente separáveis no espaço de entrada através do
conceito de hard-margin (margem rígida, ou larga) de máquinas de vetores suporte. Em
seguida, abordaremos o caso em que dados de treinamento não são linearmente
separáveis, onde apresentaremos o conceito de soft-margin de máquinas de vetores
suporte. O modelo proposto nesse trabalho usa a ideia de soft-margin.
3.2.1 SVM com Hard-Margin
A complexidade de uma SVM está associada à forma pela qual os dados estão
distribuídos, sendo o caso mais simples quando os dados podem ser linearmente
separados por um hiperplano.
Para padrões linearmente separáveis, a solução do problema de treinamento de
uma SVM consiste em achar um hiperplano que separe perfeitamente os pontos de cada
classe maximizando a margem de separação. Esse hiperplano e chamado de hiperplano
ótimo.
25
Considere M dados de treinamento (dados de entrada) m-
dimensional pertencente a classe 1 ou 2 e associado a cada um rótulo de classe
se for da classe 1 e se for da classe 2. Se os dados forem
linearmente separáveis, podemos definir o hiperplano ótimo como sendo:
(3.2)
Onde é o vetor m-dimensional normal ao hiperplano separador, é o conjunto de
pontos de entrada e determina o deslocamento do hiperplano em relação à origem.
Assim, para , temos a seguinte relação:
{
(3.3)
O fato da amostra de treinamento ser linearmente separável nos dá garantias de
que nenhum dos dados de treinamento satisfaça a igualdade . Assim, para
controlar a separabilidade, em vez de (3.3), podemos considerar as seguintes
inequações:
{
(3.4)
Onde é uma constante de tal forma que podemos afirmar que não há nenhum
dado entre e .
Mas se dividirmos ambos os lados de (3.4) pela constante , obteremos as
seguintes inequações:
26
{
(3.5)
Considerando a restrição imposta por (3.5), podemos afirmar que não há nenhum
dado de treinamento entre e , sendo a margem sempre
maior que a distância entre os hiperplanos e . Devido a
esta suposição a SVM obtida é normalmente chamada de SVM com margens rígidas (ou
largas).
A inequação (3.5) é equivalente a:
(3.6)
E a região é chamada de região de generalização para a função de
decisão . Assim, existem infinitas de funções de decisão que satisfazem (3.6) como
mostra a figura 04.
27
Figura 04 – Hiperplano ótimo de separando no espaço bidimensional.
Entretanto, estamos interessados no hiperplano ótimo. Assim, seja um ponto no
hiperplano e um ponto no hiperplano
, como
mostra na figura 6. Projetando na direção de , que é ortogonal ao hiperplano
separador , é possível obter a distância entre os hiperplanos e [34].
A projeção é apresentada na equação (3.7).
(
‖ ‖
‖ ‖) (3.7)
Margem máxima
Hiperplano ótimo
28
Figura 05 – Cálculo da distância entre os hiperplanos e .
A diferença entre os hiperplanos e , leva a . Substituindo
esse resultado em (3.7), tem-se:
‖ ‖‖ ‖ (3.8)
Como desejamos encontrar o comprimento do vetor projetado, toma-se a norma
da equação (3.8), obtendo:
‖ ‖ (3.9)
29
Essa é a distância , mostrada na figura 05. Como e foram calibrados de forma a
não haver amostras entre e ,
‖ ‖ é a distância mínima entre o hiperplano
separador e os dados de treinamento. De acordo com Campbell [34], essa distância é
definida como a margem geométrica do classificador.
‖ ‖ (3.10)
A equação (3.10) mostra que maximizar a margem de separação entre as classes é
equivalente a minimizar a norma euclidiana do vetor de pesos .
Em resumo, o hiperplano ótimo definido pela equação (3.5), apresenta um vetor
de pesos que leva à máxima separação entre as amostras positivas e negativas. Dessa
forma, recorre-se ao seguinte problema de otimização [35]:
‖ ‖ (3.11)
(3.12)
Onde as restrições são impostas de maneira a assegurar que não existam amostras de
treinamento entre as margens de separação das classes.
Como a função objetivo é convexa e os pontos que satisfazem as restrições
formam um conjunto convexo, esse problema possui um único mínimo global [36].
Problemas desse tipo podem ser solucionados com a utilização de uma função
Lagrangeana. Através desse tipo de função podemos representar o problema primal P1
30
na sua formulação dual, onde a função objetivo dependerá unicamente dos chamados
multiplicadores de Lagrange.
Utilizando a teoria dos multiplicadores de Lagrange, podemos representar (3.11)
através da sua correspondente função Lagrangena, como:
‖ ‖ ∑
(3.13)
Onde são os multiplicadores de Lagrange. A solução ótima de (3.13) é dada pelo
ponto de sela, onde (3.13) e minimizado em relação a e e maximizada com relação
a , e que satisfaça as condições de Karush-Kuhn-Tucker (KKT):
, (3.14)
, (3.15)
(3.16)
(3.17)
A partir de (3.16) podemos concluir que , ou e
deve ser satisfeito. Os dados de entrada quando são os chamados vetores de
suporte.
Usando (3.13), podemos reduzir (3.14) e (3.15), respectivamente, para:
∑ (3.18)
e
∑ (3.19)
31
Substituindo (3.18) e (3.19) em (3.13), chegamos ao seguinte problema dual:
∑
∑
(3.20)
{
∑
(3.21)
O problema formulado P2 é conhecido como SVM com margens rígidas. Como
∑
∑
∑ (3.22)
A maximização de (3.20) sob as restrições (3.21) é um problema de programação
quadrática côncavo. Se existe uma solução, ou seja, se o problema de classificação é
linearmente separável, a solução ótima global existe. Na programação
quadrática, os valores das funções objetivo primal (problema P1) e dual (problema P2)
coincide na solução ótima, se existir [37].
Os dados de treinamento que estão a uma distância do hiperplano ótimo igual à
largura da margem, ou seja, os vetores suporte para as classes 1 e 2, possuem seus
respectivos . Para o restante dos dados de treinamento os .
Então, a partir de (3.18) a função de decisão pode ser reescrita como:
∑ (3.23)
Onde S é o conjunto de índices associado aos vetores suporte. Das condições de KKT
(3.16), b é dado por:
32
(3.24)
Onde é um vetor suporte. Do ponto de vista da precisão dos cálculos, é melhor tomar
a média entre os vetores de suporte da seguinte forma [37]:
∑ . (3.25)
Assim, um dado desconhecido é classificado como:
{
(3.26)
Se , é inclassificável.
3.2.2 SVM com Soft-Margin
As formulações de SVM apresentadas até agora funcionam apenas quando os
dados são linearmente separáveis. Em problemas reais este comportamento nem sempre
é encontrado, sendo a maioria deles complexos e não-lineares. Quando os dados não são
linearmente separáveis, não existe solução viável para o problema de SVM com
margens rígidas.
O método de SVM utilizado nesse trabalho é baseado em um algoritmo que além
de maximizar a margem de separação entre as classes e o hiperplano, possui variáveis
de folga que possibilitam a separação de classes não - linearmente separáveis, ou seja,
podem existir erros de classificação durante o processo de treinamento.
33
Para permitir a inseparabilidade, são introduzidas variáveis de folga não negativas
em (3.6), garantindo a existência de solução viável.
(3.27)
Para uma amostra de treinamento , se ( na figura 7), não temos a
máximo margem, mas ainda estão corretamente classificados. Mas se ( na
figura 7) as amostras são classificados erroneamente pelo hiperplano. Uma vez que as
variáveis de folga não podem assumir valores negativos e sempre que assumirem
valores maiores que 1 implica em erro, temos um objetivo formado, encontrar um
hiperplano que minimize ∑ .
Figura 06 – Caso de dados inseparáveis no espaço bidimensional.
Sendo assim, o modelo de otimização primal para o hiperplano ótimo de
separação pode ser construído da seguinte maneira[37]:
Margem máxima
Hiperplano ótimo
34
‖ ‖ ∑
(3.30)
(3.31)
(3.32)
Onde e C é uma constante, chamada de constante de regularização,
que é usada para controlar o peso dado ao termo referente aos erros de classificação na
função objetivo. A constante C também pode ser entendida como o trade-off entre a
maximização da margem e a minimização dos erros de classificação.
Similarmente ao caso linearmente separável, podemos representar (3.30) através
da sua correspondente função Lagrangena, como:
‖ ‖ ∑
∑
∑ (3.33)
Onde e são
não negativos.
Para a solução ótima, as seguintes condições de KKT são satisfeitas:
, (3.34)
, (3.35)
, (3.36)
(3.37)
35
(3.38)
(3.39)
Usando (3.33), podemos reduzir (3.24) a (3.36), respectivamente para:
∑ (3.40)
∑ (3.41)
. (3.42)
Assim, substituindo (3.40) a (3.42) em (3.33), obteremos a respectiva formulação dual
do problema P3:
∑ ∑
(3.43)
∑ (3.44)
(3.45)
A única diferença entre a formulação do problema P4 (soft- margin) para o
problema P2 (hard- margin) é que não pode exceder a constante de regularização C.
De acordo com (3.37), (3.38) e (3.42), existem três casos para :
1. , então , implicando na classificação correta de .
2. , então e . Implicando em
e é um vetor suporte conhecido como vetor suporte
ilimitado.
36
3. , então e . Assim, é um vetor
suporte conhecido como vetor suporte limitado. Se , é
corretamente classificado, , é classificado incorretamente.
A função de decisão é a mesma para o caso de SVM com hard-margin e é dada
por:
∑ (3.46)
Onde S é o conjunto de índices associados aos vetores suporte. Pelo fato dos
associados aos vetores suporte serem não nulos, o somatório em (3.46) é feito somente
para os que são vetores suporte. Então para os ilimitados,
(3.47)
é satisfeita. Para garantir a precisão dos cálculos, tomamos a média de b que é calculada
em relação aos vetores suporte ilimitados,
∑ , (3.48)
onde U é o conjunto de índices associados aos vetores suporte ilimitados.
Assim, uma amostra desconhecida é classificada como:
{
(3.49)
37
Se , está no limite, portanto é inclassificável. Quando não existem vetores
suporte limitados, a região é uma região de generalização, que é a
mesma para o caso de SVM com hard-margin.
3.2.3 Cálculo da probabilidade de default
Para converter a resposta da SVM em probabilidade, optou-se em utilizar o
teorema de Bayes, uma vez que nesse trabalho foi assumido que os erros de
classificação têm a mesma importância. Ou seja, classificar uma empresa concordatária
como sendo não concordatária é tão ruim quanto classificar uma empresa não
concordatária como sendo concordatária.
O teorema de Bayes está descrito logo abaixo.
Sejam os eventos:
Ci : A empresa pertence a classe i (i = 1, 2)
Rj: A nova observação encontra-se na região j (j = 1, 2, ..., R)
A fórmula de Bayes e dada por,
[ | ]
(3.50)
onde,
∑ [ | ] . (3.51)
38
4 Aplicações do modelo
Nesse capítulo apresentaremos dois casos exemplos da aplicação do modelo de
SVM proposto. Para melhores resultados, as empresas foram divididas em grupos
(industrial e comercial) e o histórico foi restrito aos últimos 10 anos, já que um passado
distante pode não representar o presente de forma precisa. Cada grupo foi dividido em
amostra de treinamento e amostra de validação (ou teste).
Para cada grupo, através do modelo de SVM com soft-margin, construímos a
fronteira entre concordata e não concordata e em seguida estimamos a probabilidade de
default através do Teorema de Bayes.
Todos os dados utilizados nas aplicações foram obtidos através dos relatórios de
demonstrações financeiras que se encontram na base de dados da Comissão de Valores
Mobiliários (CVM).
4.1 Seleção das variáveis de entrada para a
SVM
A base para a construção da região de solvência, ou seja, a região na qual as
empresas são consideradas não concordatárias é a escolha do conjunto gerador do
espaço de vetores. Por um lado, pode ser intuitivo que quanto mais informação
disponível melhor, porém uma região complexa pode levar a problemas super
39
determinados. Excesso de dados pode ser tão fatal quanto a falta deles para a adequação
do modelo.
Nesse trabalho o conjunto de dados que foi utilizado inicialmente foi baseado nos
principais índices citados em Silva [26] que representam a saúde financeira de uma
empresa. No caso de empresas comerciais o conjunto de indicadores utilizado foi:
Retorno sobre o ativo (Roa) = lucro líquido / ativo total médio
Retorno sobre o patrimônio líquido (Roe) = lucro líquido /patrimônio
líquido médio
Margem líquida = lucro líquido / receita líquida
Liquidez corrente = ativo circulante / passivo circulante
Liquidez seca = (ativo circulante – estoques) / passivo circulante
Capital giro = (patrimônio líquido – ativo permanente) / patrimônio
líquido
(reservas + lucros suspensos) / ativo total
(variação do imobilizado) / (lucro líquido + 0,1 x imobilizado médio –
saldo da correção monetária + exigível a longo prazo)
disponível / ativo total
(ativo circulante - disponível - passivo circulante +fic* + duplicatas
descontadas) / vendas
*fic =Financiamentos instituições de crédito
(lucro operacional + despesas financeiras) / (ativo total médio –
investimento médio)
lucro operacional / lucro bruto
(patrimônio líquido / capital de terceiros) / (margem bruta / ciclo
financeiro)
disponível / ativo permanente
duplicatas a receber x 360 / vendas
(ativo total médio – salários, tributos e correções médios) / patrimônio
líquido médio
40
Para empresas industriais, o conjunto foi:
Retorno sobre o ativo (Roa) = lucro líquido / ativo total médio
Retorno sobre o patrimônio líquido (Roe) = lucro líquido /patrimônio
líquido médio
Margem líquida = lucro líquido / receita líquida
Liquidez corrente = ativo circulante / passivo circulante
Liquidez seca = (ativo circulante – estoques) / passivo circulante
Capital de giro = (patrimônio líquido – ativo permanente) / patrimônio
líquido
Estoques / custo do produto vendido
Fornecedores / vendas
(estoque médio / custo dos produtos vendidos) x 360
(passivo circulante + exigível a longo prazo) / ativo total
(variação do imobilizado) / (lucro líquido + 0,1 x imobilizado médio –
saldo da correção monetária + exigível a longo prazo)
Fornecedores / ativo total
(lucro operacional + despesas financeira) / (ativo total médio –
investimentos médios)
Capital de terceiros / (lucro líquido + 0,1 x imobilizado médio – saldo da
correção monetária)
Estoques / ativo total
A seleção das variáveis de entrada para o algoritmo de SVM foi feita de forma
que a região de solvência fosse bidimensional, combinando as vantagens da precisão,
eficiência e uma visualização simples onde o tomador de decisão pode, por inspeção,
avaliar um parceiro e, além disso, comparar diferentes parceiros candidatos a compor o
portfólio.
41
Antes de apresentar as variáveis selecionadas ao modelo, foi feita uma
normalização no vetor de amostras utilizando a seguinte expressão:
( )
(3.52)
Onde, é a variável normalizada, é o j-ésimo elemento da variável original e e
são, respectivamente, a média e o desvio padrão da variável original.
4.2 Empresas comerciais
Para este caso só estão sendo avaliadas empresas do setor comercial. A amostra é
composta de 32 empresas sendo 16 delas usadas para a fase de treinamento do modelo e
16 para a validação. A escolha das variáveis de entrada foi baseada na combinação que
resultou na melhor regra de classificação usando duas variáveis. Depois de alguns
experimentos, chegamos a uma região de solvência simples e eficiente de duas
dimensões definida por: Retorno sobre o Ativo (ROA) e liquidez corrente. O ROA
mede a eficiência do emprego dos recursos da empresa e a liquidez corrente avalia
quando uma empresa está em dificuldades financeira, uma vez que empresas com
dificuldades o seu passivo tende a se elevar mais rapidamente do que os seus ativos,
consequentemente sua liquidez será menor.
Retorno sobre o Ativo (ROA) =
Liquidez Corrente =
42
As empresas comerciais selecionadas para compor a amostra de treinamento
encontram-se na tabela abaixo. Nessa tabela podemos também visualizar a situação
financeira de cada empresa.
Tabela 1 – Empresas comerciais para treinamento
Empresas Condição real
Ambev Não Concordatária
Buettner Não Concordatária
Casa Anglo Brasileira Concordatária
Casa Jose Silva Concordatária
Chapeco Concordatária
Cia Paulista Concordatária
Cosan Não Concordatária
Drogasil Não Concordatária
Energias BR Não Concordatária
Klabin Não Concordatária
Saraiva Não Concordatária
SPSCS Concordatária
Tam Não Concordatária
Teka Não Concordatária
Usiminas Não Concordatária
Varig Concordatária
A figura 7 mostra o posicionamento das empresas do grupo de treinamento no
espaço de variáveis assim como o hiperplano ótimo de separação e os vetores suporte.
Os asteriscos vermelhos representam as empresas concordatárias e os asteriscos azuis
representam as empresas não concordatárias. As siglas CO e NC representam,
respectivamente, as regiões de concordata e não concordata e R1, R2, R3 e R4 são as sub-
regiões que serão utilizadas na estimação da probabilidade de default.
43
Figura 7 – Visualização das empresas comerciais para treinamento.
Depois de encontrado o hiperplano ótimo de separação e os vetores suporte,
estimamos a probabilidade de default. A figura 8 mostra a probabilidade de ocorrência
de default em cada região Rj (j=1,2,3,4).
Figura 8 – Visualização da probabilidade de default por região para empresas
comerciais
44
De posse dessas probabilidades, podemos agora encontrar a probabilidade de
default associado a cada nova empresa apresentada ao modelo da seguinte forma: Se o
posicionamento da empresa estivar na região R1, sua probabilidade de concordata será
de 100%, se estiver em R2, será de 67%, em R3 será de 50% e em R4 terá sua
probabilidade de default nula. A figura 09 mostra o posicionamento das empresas do
grupo de validação no espaço de variáveis. As bolas vermelhas representam as empresas
concordatárias e as bolas azuis representam as empresas não concordatárias.
Figura 9 – Visualização das empresas comerciais de teste.
A tabela 2 mostra as probabilidades associadas a cada empresa do grupo de teste
assim como sua real situação financeira.
45
Tabela 2 – Empresas comercias de teste
Empresas Condição Real Probabilidade de Default obtida
Arapua Concordatária 100%
Bombril Não concordatária 0,00%
Ceb Não concordatária 50,00%
Coest Concordatária 50,00%
Copas Concordatária 67%
Elebra Concordatária 67%
Fazendas Reunidas Boi Gordo Concordatária 100,00%
Gafisa Não concordatária 0,00%
Hoteis Othon Não concordatária 50,00%
Iguatemi Não concordatária 0,00%
Le Lis Blanc Não concordatária 0,00%
Natura Não concordatária 0,00%
Petrobras Não concordatária 0,00%
Tractebel Não concordatária 0,00%
Transbrasil Concordatária 67%
Trevisa Não concordatária 50,00%
Podemos observar que o modelo conseguiu uma boa estimativa da probabilidade de
default para as empresas comerciais de teste.
4.3 Empresas industriais
Agora iremos avaliar apenas empresas do setor industrial. A amostra é composta
de 22 empresas sendo 18 delas usadas para a fase de treinamento do modelo e 04 para a
validação. Assim como no caso de empresas comerciais, a escolha das variáveis de
entrada foi baseada na combinação que resultou na melhor regra de classificação usando
duas variáveis. Depois de alguns experimentos, chegamos as mesmas variáveis que
formam a região de solvência para o casa de empresas comerciais: Retorno sobre o
Ativo (ROA) e Liquidez corrente.
46
As empresas industriais selecionadas para compor a amostra de treinamento
encontram-se na tabela abaixo. Nessa tabela podemos também visualizar a situação
financeira de cada empresa.
Tabela 3 – Empresas industriais para treinamento
Empresas Condição real
Braskem Não concordatária
Brasperola Concordatária
CSN Não concordatária
Cia Itaunense Concordatária
Eucatex Concordatária
Fertilizantes Heringer Concordatária
Grendene Não concordatária
Haga Concordatária
Kalil Sehbe Concordatária
MMX Concordatária
Metalfrio Não concordatária
Sadia Concordatária
Sansuy Concordatária
Schulz Não concordatária
Hypermarcas Não concordatária
Recrusul Concordatária
VASP Concordatária
Wetzel Não concordatária
A figura 10 mostra o posicionamento das empresas industriais do grupo de
treinamento no espaço de variáveis assim como o hiperplano ótimo de separação e os
vetores suporte. Os asteriscos vermelhos representam as empresas concordatárias e os
asteriscos azuis representam as empresas não concordatárias. As siglas CO e NC
representam, respectivamente, as regiões de concordata e não concordata. As sub-
regiões R1, R2, R3 e R4, que serão utilizadas na estimação da probabilidade de default,
estão na mesma disposição para o caso das empresas comerciais.
47
Figura 10 – Visualização das empresas industriais para treinamento.
Depois de encontrado o hiperplano ótimo de separação e os vetores suporte,
estimamos a probabilidade de default. A figura 11 mostra a probabilidade de ocorrência
de default em cada região Rj (j=1,2,3,4).
Figura 11 – Visualização da probabilidade de default por região para empresas
industriais
R1100%
R2 50%
R3 50%
R40%
48
De posse dessas probabilidades, podemos agora encontrar a probabilidade de
default associado a cada nova empresa apresentada ao modelo da seguinte forma: Se o
posicionamento da empresa estivar na região R1, sua probabilidade de concordata será
de 100%, se estiver em R2, será de 50%, em R3 será de 50% e em R4 terá sua
probabilidade de default nula. A figura 12 mostra o posicionamento das empresas do
grupo de validação no espaço de variáveis. As bolas vermelhas representam as empresas
concordatárias e as bolas azuis representam as empresas não concordatárias.
Figura 12 – Visualização das empresas industriais de teste.
A tabela 4 mostra as probabilidades associadas a cada empresa do grupo de teste
assim como sua real situação financeira.
Tabela 4 – Empresas industriais de teste
Empresas Condição Real Probabilidade de Default obtida
Metal leve Não Concordatária 0%
Sharp Concordatária 100%
Tectoy Concordatária 100%
Vale Não Concordatária 0%
49
Podemos novamente observar que o modelo conseguiu uma boa estimativa da
probabilidade de default para as empresas industriais de teste.
50
5 Conclusões
Este trabalho apresentou uma aplicação de Máquinas de Vetores Suporte para
gestão e análise de risco de crédito.
Os modelos desenvolvidos para as empresas industriais e comerciais usam dois
indicadores para descrever a região de solvência, retorno sobre o ativo e liquidez
corrente. A seleção desses indicadores tornou os modelos simples, combinando as
vantagens da precisão, eficiência e uma fácil visualização onde o tomador de decisão
pode, por inspeção, avaliar parceiros para compor seu portfólio. Mais do que isso, é
possível calcular a probabilidade de default associada a cada parceiro.
Os resultados obtidos mostraram que o modelo de SVM com soft-margin não só
é viável como pode auxiliar um processo de tomada de decisão estratégica referente à
comercialização de energia.
Dessa forma, o gestor de uma comercializadora de energia estaria de posse de uma
ferramenta que pode auxiliá-lo na escolha de empresas comercias e industriais para
compor seu portfólio de parceiros.
5.1 Sugestões para trabalhos futuros
A principal sugestão para trabalho futuro é ajustar o modelo ao cenário de mercado,
pois a verdadeira probabilidade de default depende não só da situação econômica do
parceiro, mas também do cenário econômico geral. Por exemplo, a probabilidade de
default de uma empresa pode aumentar significativamente durante uma crise financeira.
51
6 Referências Bibliográficas
[1] SILVA, J. P. Gestão e análise de risco de crédito. 4ª. ed. São Paulo: Atlas, 2003.
[2] CAOUETTE, J. B. et al. Gestão do risco de crédito: o próximo grande desafio
financeiro. Rio de Janeiro: Qualitymark, 1999.
[3] BEAVER, W.H. Financial Ratios as Predictors of Failure. Journal of Accounting
Research, v.4, pp. 71-111, 1966.
[4] ALTMAN, E.I. Financial Ratios, Discriminant Analysis and the Prediction of
Corporate Bankruptcy. The Journal of Finance, v. 23, n. 4, pp. 586-609, Sept.
1968a.
[5] KANITZ, S.C. Indicadores Contábeis e Financeiros de Previsão de Insolvência: a
experiência na pequena e média empresa brasileira. São Paulo, 1976 - Tese
(Livre Docência). Faculdade de Economia Administração e Contabilidade.
[6] ELIZABETSKY, R. Um modelo matemático para a decisão no banco comercial.
(Trabalho apresentado ao Departamento de Engenharia de Produção da Escola
Politécnica da USP), 1976.
[7] ALTMAN, E.I.; HALDEMAN, R.G.; NARAYANAN, P. Zeta analysis: A new
model to identify bank ruptcy risk of corporations. Journal of Banking and
Finance, pp. 29-54, 1977.
[8] ALTMAN, E.I., BAIDYA, T.K.N.; DIAS, L.M.R. Assessing Potential Financial
Problems for Firms in Brazil. Journal of International Business Studies, v. 10, n.
2, pp. 9-24, 1979.
52
[9] SANVICENTE, A.Z; BADER, F.L.C. Filing for Financial Reorganization in
Brazil: Event Prediction with Accounting and Financial Variables and the
Information Content of the Filing Announcement. Instituto Brasileiro de Mercado
de Capitais, São Paulo, Brasil. Working Paper, Mar.1996.
[10] SANVICENTE, A.Z.; MINARDI, A. Identificação de indicadores contábeis
significativos para previsão de concordata de empresas, Instituto Brasileiro de
Mercado de Capitais, São Paulo, Brasil, Working Paper, Out. 1998.
[11] ASSAF NETO, A.; TIBÚRCIO SILVA, C.A. Administração do Capital de Giro.
São Paulo. Editora Atlas, 1995.
[12] OHLSON, J.A. Financial Ratios and the Probabilistic Prediction of Bankruptcy.
Journal of Accounting Research, v. 18, n. 1, pp. 109-131, 1980.
[13] SCARPEL, R. A.; MILIONI. A. Z. Utilização conjunta de modelagem
econométrica e otimização em decisões de concessão de crédito. Pesquisa
Operacional, Rio de Janeiro, v.22, n.1, p.61-72, jan.-jun. 2002.
[14] ASSAF NETO, A.; BRITO, G.A.S. Modelo de Classificação de Risco de Crédito
de Grandes Empresas, 2005.
[15] ALTMAN, E.I.; MARCO, G.; VARETTO, F. Corporate Distress diagnosis:
Comparisons using linear discriminant analysis and neural networks (the Italian
experience). Journal of Banking and Finance, pp. 505-529, 1994.
[16] DESAI, V. S.; CROOK, J. N.; OVERSTREET JR., G. A. A comparison of neural
networks and linear scoring models in the credit union environment. European
Journal of Operational Research, v.95, n.1, p.24-37, nov. 1996.
[17] ALMEIDA, F. C.; DUMONTIER, P. O uso de Redes Neurais em avaliação de
riscos de inadimplência. Revista de Administração FEA/USP, São Paulo, v.31,
n.1, p.52-63, jan.-mar. 1996.
53
[18] ARMINGER, G., ENACHE, D.; BONNE, T. Analyzing Credit Risk Data: A
Comparison of Logistic Discrimination, Classification Trees and Feed forward
Networks. Computational Statistics, v.12, n.2, p.293-310, 1997.
[19] STEINER, M. T. A.; CARNIERI, C.; KOPITTKE, B. H. STEINER NETO, P. J.
Sistemas especialistas probabilísticos e redes neurais na análise do crédito
bancário. Revista de Administração, São Paulo-SP, n.3, p.56-67, julho/setembro
1999.
[20] SELAU, L. P. R. Redes neurais artificiais no contexto estatístico. Porto
Alegre:UFRGS, 2000. Monografia apresentada para obtenção do grau de Bacharel
em Estatística, Departamento de Estatística, Instituto de Matemática,
Universidade Federal do Rio Grande do Sul, 2000.
[21] LEMOS, E. P. Análise de crédito bancário com o uso de data mining: redes
neurais e árvores de decisão. Dissertação (Programa de Pós-Graduação em
Métodos Numéricos em Engenharia) – Universidade Federal do Paraná, PR, 2003.
[22] HUANG, Z.; CHEN, H.; HSU,C.; CHEN, W.; WU, S. Credit rating analysis with
support vector machines and neural networks: a market comparative study.
Decision Support Systems, n.37, p.543-558, 2003.
[23] KIMURA, H.; PERERA, L. C. J.; DONZELLI, C. R.; SILVA FILHO, A. C.;
LIMA, F. G. Aplicação de Redes Neurais na Análise e na Concessão de Crédito
ao Consumidor. In: XXIX ENANPAD – Encontro da Associação Nacional dos
Programas de Pós-graduação em Administração, 2005, Brasília. Anais.
[24] GOUVÊA, M. A.; GONÇALVES, E. B. Análise de Risco de Crédito com o Uso de
Modelos de Redes Neurais e Algoritmos Genéticos. In: IX SEMEAD –
Seminários em Administração FEA-USP, 2006, São Paulo. Anais.
54
[25] YU, L.; WANG, S.; LAI, K. K.; ZHOU, L. Bio-Inspired Credit Risk Analysis:
Computational Intelligence with Support Vector Machines, Springer-
Verlag,Berlin Heidelberg, 2008.
[26] SILVA, J. P. Gestão e Análise de Risco de Crédito, 6ª edição, Editora Atlas, 2008.
[27] MARTINS, M.S., GALLI, O.C. A Previsão de Insolvência pelo Modelo de Cox:
Uma Aplicação para a Análise de Risco de Crédito de Companhias Abertas
Brasileiras. REAd – Edição 55 Vol 13 Nº 1 jan-abr 2007.
[28] COX, D. R. Regression Models And Life-Tables. Journal of The Royal Statistic
Society. “B” Series, n.34, p.187-220, 1972.
[29] WHALEN, Gary. A Proportional Hazards Model of Bank Failure: An
Examination of its Usefulness as an Early Warning Tool. Economic Review,
Federal Reserve Bank of Cleveland, First Quarter, p.21-31, 1991.
[30] MITCHELL, T. Machine Learning. McGraw Hill, 1997.
[31] MONARD, M. C. and BARANAUSKAS, J. A. Conceitos de aprendizado de
máquina. In S. O. Rezende, editor, Sistemas Inteligentes - Fundamentos e
Aplicações, pages 89–114. Editora Manole, 2003.
[32] VAPNIK, V.N., 1995, The nature of statistical learning theory, Springer-Verlag
New York, Inc.
[33] SEMOLINE, R. Support Vector Machines, Inferência Transdutiva e o Problema de
Classificação. Dissertação de mestrado. Faculdade de Engenharia Elétrica e
Computação, Universidade Estadual de Campinas, 2002.
[34] CAMPBELL, C. An introduction to kernel methods. In R. J. How lett and L. C.
Jain, editors, Radial Basis Function Networks: Design and Applications, pages
155–92,Berlin, 2000. Springer Verlag.
55
[35] SMOLA, A. J. and SCHÖLKOPF, B. Learning with Kernels. The MIT Press,
Cambridge, MA, 2002.
[36] PASSERINI, A. Kernel Methods, multiclass classification and applications to
computational molecular biology. PhD thesis, Università Degli Studi di Firenze,
2004.
[37] ABE, S. Advances in Pattern Recognition: Support Vector Machines for Pattern
Classification. Springer, 2005.
[38] RZENDE, F.C. Construção de modelos de classificação de risco de crédito para
empresas brasileiras com base em indicadores contábeis. Dissertação de
mestrado, IBMEC São Paulo, Faculdade de Economia e Administração, 2007.
[39] CHAVES, A. Extração de Regras Fuzzy para Máquinas de Vetor de Suporte
(SVM) para Classificação em Múltiplas Classes. Em: PUC-Rio, 2006.
[40] ONUSIC, L. M., CASA NOVA, S.P.C., A Utilização Conjunta das Técnicas
Análise por Envoltória de Dados e Regressão Logística na Estudo de Insolvência
de Empresas: Um Estudo Exploratório. 30º Encontro da ANPAD, 2006.
[41] REIS, L., ROMERO, R. A. F., Inteligência Computacional Aplicada à Análise de
Risco no Contexto do Tratado da Basiléia. Departamento de Ciências de
Computação e Estatística Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo, 2008.
top related