text mining - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-ii/2004-2joseluberap.pdf ·...
TRANSCRIPT
![Page 1: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/1.jpg)
TEXT MINING
José Lino Uber
Dezembro/2004
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING
APLICADA AO SAC
Paulo Roberto Dias OrientadorAluno
![Page 2: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/2.jpg)
Roteiro
• Introdução• Objetivo• Conceitos• Motivação / Tipos de informações que podem ser filtradas• Metodologia• Técnicas• Desenvolvimento• Especificação• Implementação• Resultados e discussão • Conclusão• Extensões
![Page 3: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/3.jpg)
Introdução
Organizações e pessoas acumulam grandes volumes de informações textuais e não sabem como gerenciá-las de forma eficiente,perdendo tempo e conhecimento
As ferramentas de Text Miningpodem ajudar a melhoraro negócio através da análisede informações textuais,oferecendo conhecimento novoe útil
![Page 4: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/4.jpg)
IntroduçãoVários fatores têm contribuído para o grande volume de informações armazenadas em banco dados. A queda nos custos de armazenamento pode ser vista como a principal causa deste crescimento. Outro fator é a disponibilidade de computadores de alto desempenho a baixo custo.
Para se obter conhecimento nesta bases de dados, existem algumas formas de realizar a mineração dos dados. Neste trabalho será estudada a metodologia Cross-Industry Standard Process for Data Mining(CRISP-DM).
![Page 5: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/5.jpg)
IntroduçãoA metodologia CRISP-DM é constituída de seis etapas: compreensão do negócio, compreensão dos dados, preparação dos dados, modelagem, avaliação e aplicação.
Os dados estudados neste trabalho são os chamados telefônicos que estão armazenados em uma base de dados.
Os chamados telefônicos são compostos por: data de abertura, software utilizado, versão do software, descrição do problema, situação da ficha de atendimento, dentre outros, sendo que a descrição do problema é um texto livre, esta foi a variável analisada.
![Page 6: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/6.jpg)
Objetivo
O objetivo deste trabalho, é desenvolver um software para descobrir novos conhecimentos em textos armazenados em um banco de dados (descrição do problema), utilizando para isso técnicas de mineração em texto.
![Page 7: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/7.jpg)
Conceitos
• O que é Text Mining?É uma tecnologia para a análise de textos que permite diminuir a
“sobrecarga de informações”, descobrir padrões, associações e regras, e realizar análises qualitativas ou quantitativas.
• Qual a sua importância?Auxiliar na busca de informações específicas, agilizando
processos com uso de inteligência.
• Permite Recuperação de informaçõesExtração de dados ClassificaçãoExtração de resumos de textos
![Page 8: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/8.jpg)
– Stopwords: São palavras que não demonstram a mínima relevância, não possuem representatividade alguma. Exemplo as vogais.
– Keywords: São as palavras importantes do texto, ignorando-se símbolos e caracteres de controle de arquivo de formatação. Para uma correta determinação das keywords (palavras-chave) é imprescindível que sejam removidas as stopwords. Um dos recursos utilizados para descobrir a importância dessas palavras é calcular a freqüência com que elas aparecem no texto.
Conceitos
![Page 9: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/9.jpg)
– Collocations: São agrupamentos de palavras onde o significado é composto pela soma dos significados das partes mais algum componente semântico adicional. Exemplo: guarda-volume, onde as duas palavras juntas tem um significado. Separadas representam duas outras coisas.
– Stemming: consiste em reduzir todas as palavras ao mesmo stem, por meio da retirada dos afixos da palavra, permanecendo apenas a raiz dela. Por exemplo, quando a palavra “referência” é transformada no stem “referênc”, ao invés do stem considerado correto “refer”.
Conceitos
![Page 10: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/10.jpg)
Motivações
Sobrecarga de Informações
![Page 11: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/11.jpg)
Motivações
Usuário Consulta / Análise
Desenvolvimento
MalhariaCircular
MalhariaRetilínea
Tinturaria
Universo de registros
![Page 12: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/12.jpg)
Que tipos de informações podem ser filtradas ?
• E-mails
• Textos livres resultantes de pesquisas• Arquivos eletrônicos (txt, doc, pdf)
• Páginas Web• Campos textuais (memos) em Bancos de
Dados• Documentos eletrônicos, digitalizados a partir de
papéis
• Outros ...
![Page 13: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/13.jpg)
• Em 1996 foi criado o grupo de trabalho CRISP-DM (Cross-Industry Standard Process for Data Mining), com o intuito de promover a padronização de conceitos e técnicas na busca de informações específicas para tomada de decisões.
• DCBD – Descoberta de conhecimento em bando de dados
Metodologia CRISP-DM para DCBD
![Page 14: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/14.jpg)
Processo para DCBD segundo CRISP-MD
![Page 15: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/15.jpg)
Metodologia - Etapas
11ºº Passo:Passo: Compreensão do negócio(Ficha de Atendimento)
Banco de dados
Recuperação dos registros
Registros relevantes para a análise
![Page 16: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/16.jpg)
Metodologia – Etapas
22ºº Passo:Passo: Compreensão dos dados
Análise das palavras
![Page 17: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/17.jpg)
Metodologia – Etapas
33ºº Passo:Passo: Preparação dos dados
Limpeza dos dados
Registroslimpos
Registros
Limpeza dos dados
![Page 18: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/18.jpg)
Metodologia – Etapas
44ºº Passo:Passo: Modelagem
Algoritmo de mineração de textos
Modelagem Avaliação do algoritmo de classificação
Registroslimpos
![Page 19: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/19.jpg)
Analista de Negócio ou Especialista
Metodologia – Etapas
55ºº Passo:Passo: AvaliaçãoRevisão dos passos seguidos
Registros classificados
Avaliação
![Page 20: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/20.jpg)
Registros classificados corretamente
Metodologia – Etapas
66ºº Passo:Passo: AplicaçãoResultado do conhecimento obtido
Registros avaliados
![Page 21: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/21.jpg)
Técnicas
• Recuperação da informação
• Indexação automática
• Extração de informações- Sumarização- Clustering- Classificação de Dados (FOCO)
![Page 22: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/22.jpg)
Técnicas
RecuperaRecupera çção da informaão da informa ççãoãoobjetivo localizar os documentos que contém informações definidas pelo usuário em uma consulta. Para agilizar, utiliza-se a indexação, extraindo assim os termos mais significativos e excluindo os que não tem importância.
![Page 23: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/23.jpg)
Técnicas
ExtraExtra çção de informaão de informa ççõesõesEncontrar valores implícitos nos textos.
José da Silva éfuncionário da Empresa ABC, reside na Rua X, número 32, na cidade de Porto Alegre e ....
Nome: José da Silva
Empresa: ABC
Endereço: Rua X, 32
Cidade: Porto Alegre
![Page 24: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/24.jpg)
Técnicas
ClassificaClassifica çção de Dados ( FOCO )ão de Dados ( FOCO )Encontrar o assunto de um texto
Categorizador
Desenvolvimento Problema Treinamento
![Page 25: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/25.jpg)
Desenvolvimento
Partindo-se de um software já desenvolvido, que serve para cadastramento da ficha de atendimento, foi estudada a descrição do problema informada pelos Atendentes do Suporte e pela equipe técnica da Operacional Têxtil.
Nessa descrição estão relatados os problemas enfrentados pelos clientes e os erros encontrados pela própria equipe técnica.
• Requisitos não funcionais- Desempenho- Banco de dados- Visualização
![Page 26: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/26.jpg)
Desenvolvimento• Requisitos funcionais
- Lista de palavras.
- Lista de palavras excluídas (stopwords)
- Criação e remoção de categorias;
- Lista de palavras chaves (keywords).
- Lista de freqüência.
- Criação de gráfico.
- Busca de registros por palavras.
- Busca de frases.
![Page 27: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/27.jpg)
Especificação
• Seguindo a metodologia CRISP-DM, inicializou-se compreendendo o funcionamento das Fichas de Atendimento (FA). Para isto verificou-se todas as tabelas envolvidas na (FA).
• Os dados encontravam-se limpos e organizados, sem erros de grafia, portanto a etapa de preparação dos dados não foi realizada. A modelagem foi realizada com a ajuda da ferramenta Jude Community para a especificação do Diagrama de Caso de Uso, e Enterprise Architect para especificar o Diagrama de Classes.
• Na etapa de avaliação constatou-se que o modelo mostrou-se adequado e eficiente apontando as Fichas de Atendimento que estavam com a Situação incorreta em relação ao texto contido na descrição.
![Page 28: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/28.jpg)
Especificação – Caso de uso
![Page 29: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/29.jpg)
Especificação - Classe
![Page 30: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/30.jpg)
ImplementaçãoPara fins de análise dos registros cadastrados pelos
atendentes do suporte e pela equipe técnica da Operacional Têxtil, fez-se necessário à implementação de um software. Este software apresenta de algumas formas a análise dos resultados obtidos dos registros cadastrados. Porém, possui algumas limitações que devem ser ajustadas e refinadas em algum trabalho futuro.
O software foi batizado de MINING OF INFORMATION. Permite que o usuário obtenha conhecimento dos
textos de forma interativa.Implementado na linguagem de programação
DELPHI. O ambiente de programação adotado foi o Borland Delphi 6.0, devido as facilidades de construção de interfaces.
![Page 31: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/31.jpg)
Resultados e discussão
• Falta de referências bibliográficas
![Page 32: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/32.jpg)
Conclusões
• Text Mining pode ser muito útil para apoiar processos de tomada de decisão.
• As pesquisas em Text Mining são recentes, e o interesse em sua realização tem sido cada vez maior.
• Com a construção desse software, minimizou-se os esforços dos gerentes e diretores na determinação de tarefas e prioridades.
![Page 33: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/33.jpg)
Extensões• Permitir que outros formatos de textos (MS-WORD,
Acrobat, HTML, XML, e outros) sejam utilizados, bem como outros bancos de dados (SQL Server, MySQL, e outros);
• Permitir que dados não-estruturados possam ser utilizados, possibilitando ao usuário utilizar textos que contenham delimitadores;
• Implementar outras técnicas de mineração, permitindo ao usuário uma comparação entre os métodos, identificando o melhor método;
• Automatizar a forma de seleção de palavras chaves (keywords);
• Implementar técnica referente a árvore de decisão.
![Page 34: TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea](https://reader035.vdocuments.site/reader035/viewer/2022062911/5c342ab609d3f2f3288bcee1/html5/thumbnails/34.jpg)
SOFTWARE IMPLEMENTADO
MINING OF INFORMATION