painel 04 03 - leon - construção de modelos preditivos para melhoria na seleção de processos...

Post on 09-Jan-2017

151 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Crises financeiras e restrições orçamentárias

Redução de Auditores-Fiscais nas administrações tributárias e aduaneiras de todo o mundo

Aumento na carga de trabalho (contribuintes, solicitações de compensação, importação e exportação)

2

3

Saída: pedir mais gente ou trabalhar melhor?

4

Trabalhar melhor = selecionar melhor o que deve ser trabalhado

Volume de dados não permite mais análises de especialistas sem auxílio de ferramentas

Análise de dados: encontrar padrões, correlações e realizar predições a partir de massas de dados* e conhecimento de especialistas nos processos de trabalho

5

6

Compensação de crédito: utilizar um crédito para quitar um débito (diferentes tributos ou não)

Ex: pagamento a maior (erro na hora de pagar um “carnê leão”) pode ser restituído (receber o valor de volta) ou compensado

Vantagem da compensação: processo mais célere em comparação com a restituição

7

O Sistema de Controle de Crédito (SCC) analisa a soliticação e, com base em alguns parâmetros de risco, defere, indefere ou separa a compensaçao para análise manual do Auditor-Fiscal.

Estoque de processos de análise manual se elevou sobremaneira. Classificar melhor as solicitações para escolher aqueles com maior risco de indeferimento

8

Fonte: https://www.serpro.gov.br/tema/noticias-tema/de-volta-para-o-contribuinte

9

Problema: seleção de solicitações para análise manual pode gerar compensações indevidas, afetando o saldo líquido de arrecadação

Proposta: melhorar a seleção de processos de compensação tributária utilizando modelos preditivos

Reduzir os riscos para aumentar a análise de processos que tenham mais riscos de indeferimento (equívoco do contribuinte ou fraude)

10

Mestrado em Computação Aplicada - UnB Orientador: Prof. Dr. João Carlos Felix Coorientador: Prof. Dr. Rommel Novaes Carvalho

(de novo esse cara?)

Predizer se uma solicitação de compensação será indeferida

11

12

Quais características do contribuinte são mais importantes estatisticamente para definir se haverá deferimento ou não da solicitação de compensação?

Para novas solicitações de crédito, quais as chances de serem ou não deferidas?

13

Ensaio inicial: 1a Região Fiscal da RFB, que abrange as unidades federativas do DF, GO, MT, MS e TO

+- 8000 famílias trabalhadas manualmente (classificadas) por Auditores-Fiscais

1 família são todas as solicitações de compensação relativas a um mesmo crédito

14

Tratamentos básicos: Retirada de acentos Exclusão de linhas com poucas informações ou

nulas Transformação de tipos de dados

Os dados foram todos trabalhos utilizando o software R (R Studio).

15

Uma família pode ter solicitações deferidas e indeferidas

Limite arbritrário: acima de 70% do valor do crédito indeferido é uma família indeferida, abaixo de 70% é considerada deferida

16

Do total de variáveis dependentes, foram escolhidas 8 (oito) para iniciar as análise de importância e significância estatística e para construção dos modelos

Variáveis escolhidas por especialistas em compensação de crédito

17

Responder aos questionamentos realizados no entendimento do negócio.

Regressão logística para entender quais características da compensação/contribuinte mais influenciam na decisão de deferimento/indeferimento

18

Regressão logística: somente 4 das 8 delas se mostraram estatisticamente significativas para explicar o modelo

Modelos preditivos: regressão logística, o algoritmo Naive Bayes e Random Forests.

19

Para todos os modelos a base foi separada em duas, uma de treinamento e outra para testes na proporção 80 para 20%.

Base de treinamento foi utilizada para realizar a chamada validação cruzada (cross-validation), que permite que uma mesma base seja usada tanto para treinamento quanto para validação para achar um modelo menos sobreajustado

20

21

22

Boa técnica: usar regressão para escolher as variáveis antes da confecção dos modelos preditivos (modelos com todas as variáveis não passou de 0.53 de acurácia).

Resultados interessantes, cerca de 70% de acerto nas predições

23

Nem sempre acertar mais significa melhora no processo de seleção de trabalhos

Indicador de performance de processo é necessário: valor indeferido/família analisada

Resultado: fracasso completo

24

Retornar ao entendimento do negócio para avaliar por tipo de crédito (Saldo negativo de IRPJ, PIS/Cofins não cumulativo, etc)

Resultado: um pouco melhor

25

26

Análise por tipo de crédito com retirada de outliers (instituições financeiras, grandes empreiteiras)

Amostras maiores (8a RF)

A partir de um modelo com boa predição, aplicar em algumas unidades

27

Obrigado!

Auditor-Fiscal Leon Sólon da Silva – leon.silva@rfb.gov.brAuditor-Fiscal Márcio Vital Santos de Araujo – marcio.vital@rfb.gov.br

top related