classificação de documentos
TRANSCRIPT
![Page 1: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/1.jpg)
Classificação de Documentos
Classificação baseada em Inteligência Artificial
![Page 2: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/2.jpg)
Agenda
1. Introdução
2. Ferramentas
3. Exercício prático
4. Case
![Page 3: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/3.jpg)
Por que classificar documentos?
![Page 4: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/4.jpg)
Como fazer isso?
![Page 5: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/5.jpg)
Classificação de documentos
1. Exemplos de documentos (arquivos) de cada classe;
2. Criar dicionários de dados e extrair características;
3. Separar amostras para treino e teste;
4. Treinar classificador;
5. Testar classificador treinado.
![Page 6: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/6.jpg)
Isso é fácil?
![Page 7: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/7.jpg)
Ferramentas
![Page 8: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/8.jpg)
Ferramentas
● O processamento distribuído do Hadoop permite escalar;
● O Mahout encapsula a complexidade matemática dos algoritmos de ML;
● Embora o Mahout seja uma API Java, é possível utilizá-la com outras
tecnologias.
![Page 9: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/9.jpg)
Ambiente
![Page 10: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/10.jpg)
Ambiente
● Virtualização Docker;
● Apache Hadoop;
● Apache Mahout;
● Exemplos de textos divididos em 4 categorias (esporte, medicina, politica e
religião);
Referência: https://github.com/evertongago/text-mining
![Page 11: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/11.jpg)
Prática :)
![Page 12: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/12.jpg)
Case
![Page 13: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/13.jpg)
Case - Contexto
Uma acessoria jurídica separa, classifica e encaminha convocações judiciais aos advogados associados.
Seu processo de trabalho inclui:
● 200+ diários oficiais publicados entre 06h e 11h da manhã
● Converter arquivos PDF para recortes em arquivos texto
● Classificar manualmente cada convocação (80% = ~ 14M / mês)
![Page 14: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/14.jpg)
Case - Dificuldades
● O volume de trabalho dificulta a evolução do processo
● “Afoga” o departamento de TI e os analistas
● Sobra pouco tempo e recurso para evoluções
![Page 15: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/15.jpg)
Case - Objetivo
Os principais objetivos deste trabalho são:
● Melhorar a classificação automática (hoje ~ 20%)
● Minimizar a classificação crítica e spam
● Diferencial de mercado em relação aos outros players
![Page 16: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/16.jpg)
Case - Solução
![Page 17: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/17.jpg)
Case - Resultados
APROVADOS DESCARTADOS ACERTOS %
APROVADOS 64.934 667 98.98%
DESCARTADOS 40.300 192.388 82.68%
DESCARTES ERRADOS 1.02%
APROVAÇÕES ERRADAS 17.3%
![Page 18: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/18.jpg)
Case - Resultados
Foram criados dois cenários de análise:
● Analisar manualmente as aprovações (-64% de trabalho)
○ Benefício: Minimizar o número de spam
○ Risco: Assume 1.02% de notificações não recebidas
● Analisar manualmente os descartes (-35% de trabalho)
○ Benefício: Minimizar o número de notificações não recebidas
○ Risco: Assume 17.3% de spam
![Page 19: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/19.jpg)
Próximos passos
![Page 20: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/20.jpg)
DecisãoAlgoritmo de Classificação
Naive Bayes
![Page 21: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/21.jpg)
Decisão● Simples de manter● Agilidade de replicação● Integração multiplataforma
Solução baseada em infraestrutura
![Page 22: Classificação de documentos](https://reader033.vdocuments.site/reader033/viewer/2022042619/58832ed41a28abaf6f8b49c7/html5/thumbnails/22.jpg)
Perguntas?