segmentação dos municípios da região nordeste do brasil ... · gerência de risco, ... as...
TRANSCRIPT
Segmentação dos municípios da região Nordeste do Brasil utilizando uma
árvore de decisão
Marcos S. Oliveira, Clarckson M. A. do N. Júnior,
Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe
Av. Marechal Rondon s/n, Rosa Elze, 49100-000, São Cristóvão-SE E-mail: [email protected], [email protected]
Neilson S. Lopes
Gerência de Risco, Serviços Financeiros, Cencosud Brasil
Rod. BR 235, s/n, km 4, Sobrado, 49160-000, Nossa Senhora do Socorro-SE
E-mail: [email protected]
Palavras-chaves: Qui-quadrado, segmentação de municípios, Árvore de decisão.
Resumo: Este estudo utiliza a técnica árvore de decisão, construída através de um algoritmo
baseado no teste Qui-quadrado com o intuito de detectar de forma automática a interação de
variáveis, e gerar um modelo que classifica os municípios da região Nordeste do Brasil. Utilizando
o SPSS, versão 18 demo, o seu método de CHAID para desenvolvimento de árvores de decisão. Os
resultados foram satisfatórios para utilização da árvore de decisão em processos de segmentação
dos municípios.
1. Introdução
O Brasil está vivendo um início de uma era de prosperidade neste século XXI, e a Região Nordeste
participa ativamente com perspectivas acima da realizada pelo país. Desde a agricultura à indústria
essa região vem sendo foco de investidores nacionais e estrangeiros por encontrar a disponibilidade
de mercado para atuação, como também retornos econômicos e financeiros bem convidativos.
Para que haja um desenvolvimento regional completo o mesmo deveria ocorrer uniformemente
por todos os municípios, mas na prática essa situação não acontece dessa forma. Assim, surge a
necessidade do controle e gerenciamento eficaz do diversos níveis de progresso locais através de
ferramentas econométricas e estatísticas.
Neste trabalho, propomos uma segmentação de municípios da região Nordeste do Brasil,
elaborada pela técnica árvore de decisão feita através do teste do Qui-quadrado. A árvore de decisão
é uma técnica que possibilita uma representação intuitiva e de fácil entendimento [1].
2. Dados e metodologia
2.1. Dados
A segmentação de municípios foi desenvolvida através da utilização do Índice de Desenvolvimento
Humano por Município (IDH-M) ao classificá-los como Desenvolvido ou Subdesenvolvido e por
variáveis econômicas divulgadas pelo IBGE do ano de 2000, com informações dos os 1.787
municípios.
2.2. Teste do Qui-quadrado para independência
O teste do Qui-quadrado é aplicado quando a uma mostra em que a variável nominal assume duas
263
ISSN 2317-3297
ou mais categorias. O teste compara as frequências observadas com as esperadas em cada categoria
[3].
n
i i
ii
Calc E
EO
1
22 )(
(1)
Em que:
2
Calc é valor do Qui-quadrado calculado;
iO é o número de casos observados na i-ésima categoria;
iE é o número dos casos esperados na i-ésima categoria quando 0H é verdadeira;
n é o número de categorias.
Com a comparação do valor Qui-quadrado calculado ao Qui-quadrado tabelado através do grau
de liberdade, nível de significância, hipótese nula e alternativa estabelecidos, podemos determinar a
associação ou dependência entre variáveis [2].
2.3. Árvore de decisão
As árvores de decisão são construídas utilizando o recurso de partição recursiva binária. O termo
“binário” indica que as variáveis são divididas em duas quando é identificada uma diferença de
comportamento que possa aumentar o poder preditivo [1]. Estas divisões, chamadas “nós” se
repetem enquanto for identificada uma quebra que conduza a uma melhor predição.
O processo consiste em examinar as tabelas de tabulação cruzada entre cada uma das variáveis
independentes e os resultados e os testes de significância utilizando um teste independente do Qui-
quadrado. Se mais de uma dessas relações é estatisticamente significativa, irá selecionar a variável
independente que é mais significativa (menor p valor).
3. Resultados
Submetermos ao aplicativo “SPSS versão 18 demo” e o seu método CHAID gerou 10 nós finais
correspondendo à segmentação de clientes disponibilizada pela árvore de decisão.
Figura 1: Árvore de decisão gerada pelo CHAID do SPSS.
264
ISSN 2317-3297
Tabela 1: Nós finais gerados pelo CHAID no SPSS 18.
Nó Dados Ganhos Gerais Ganhos
no Nó
Índice de
Ganhos Quantidade % Quantidade %
9 121 6,8% 114 12,8% 94,2% 189,0%
4 228 12,8% 183 20,5% 80,3% 161,0%
8 119 6,7% 88 9,9% 73,9% 148,3%
14 213 11,9% 132 14,8% 62,0% 124,3%
10 141 7,9% 73 8,2% 51,8% 103,8%
12 152 8,5% 73 8,2% 48,0% 96,3%
15 146 8,2% 59 6,6% 40,4% 81,0%
11 348 19,5% 118 13,2% 33,9% 68,0%
13 128 7,2% 25 2,8% 19,5% 39,2%
5 191 10,7% 26 2,9% 13,6% 27,3%
De acordo com a Tabela 1 temos o “Nó 9” indicado como o melhor, com 121 municípios, sendo
6,8% do Nordeste, onde 114 foram classificados como Desenvolvido, 12,8% do total dos
Desenvolvidos e a 94,2% de todos os municípios nordestinos segmentados no nó. O índice de
ganhos neste nó é de 189,0%, isto é, todos os municípios incluídos neste nó possui o nível de
desenvolvimento percentualmente bem maior em relação aos demais.
Tabela 2: Resultado da segmentação
Observado Previsto
Subdesenvolvido Desenvolvido Acertos (%)
Subdesenvolvido 664 232 74,1%
Desenvolvido 301 590 66,2%
Acertos Gerais 70,2%
4. Conclusões
Neste estudo foi realizada a construção de um modelo para segmentação de municípios da Região
Nordeste do Brasil através da árvore de decisão baseado no teste estatístico do Qui-quadrado, com o
intuito de classificá-los e obteve resultados satisfatórios.
O bom desempenho da segmentação corrobora para progressão deste estudo a nível Brasil.
5. Referências
[1] L. Breiman, J. H. Freidman, R. A. Olshen, C. J. Stone, “Classification and Regression Trees”,
Wadsworth, Belmont, 1984.
[2] A. L. Bruni, “Estatística Aplicada à Gestão Empresarial”, Atlas, São Paulo, 2008.
[3] L. P. Fávero, P. Belfiore, F. L. da Silva, B. L. Chan, “Análise de Dados: modelagem
multivariada para tomada de decisões”, Elsevier, Rio de Janeiro, 2009.
265
ISSN 2317-3297