qualidade de dados para distribuic¸ao de produtos agr˜ ´ıcolas
TRANSCRIPT
![Page 1: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/1.jpg)
Qualidade de Dados para Distribuicao de Produtos Agrıcolas
Jaime Bueno Junior 1 Prof. Nilton Hideki Takagi 2
1 Analista de SistemasInstituto de Computacao – Universidade Federal de Mato Grosso (UFMT)
Campus Cuiaba – MT – Brasil
2Mestre em Sistemas de ComputacaoInstituto de Computacao - Universidade Federal de Mato Grosso (UFMT)
Campus Cuiaba - MT - Brasil
[email protected], [email protected]
1. Abstract
Data quality has become critical, inaccurate and unstable data compromise the results ofmost organizations. In the field of distribution of agricultural inputs to gain some compe-titive advantage respond in a short time is a differential directly related to data quality.Thisarticle addresses data quality issues by describing, identifying, and classifying related is-sues. The study is based on administrative information on the marketing and distributionof agricultural products.
2. Resumo
A qualidade dos dados tornou-se fundamental, dados imprecisos e instaveis comprome-tem os resultados da maioria das organizacoes. No ramo de distribuicao de insumosagrıcolas para ganhar alguma vantagem competitiva responder em um curto espaco detempo e um diferencial diretamente relacionado a qualidade dos dados. Este artigo abordaquestoes de qualidade dos dados, descrevendo, identificando e classificando os problemasrelacionados. O estudo baseia-se em informacoes administrativas de comercializacao edistribuicao de produtos agrıcolas.
3. Introducao
Na agricultura empresarial os custos com insumos representam uma grande fatia dos gas-tos. No estado de Mato Grosso safra 2015/2016 para o plantio de soja representaramaproximadamente 65% dos custos de producao por hectare (Fig. 1).As pressoes por precos competitivos e o desejo de melhorar os ganhos exigem esforcospara manter uma base de dados confiavel que muitas vezes podem conter dados impre-cisos e instaveis que comprometem os resultados. No ramo de distribuicao de insumosagrıcolas a qualidade dos dados e primordial para as organizacoes.Um dado inconsistente, ao nıvel organizacional, pode significar elevados prejuızos. Acada dia que passa, sao colocados novos desafios as empresas, obrigando-as a responder,em curtos espacos de tempo, para poderem ganhar alguma vantagem competitiva, face asua maior concorrencia. A informacao assume, cada vez mais, um papel de “arma” numaguerra, cada vez mais desleal. Esta nova faceta obriga as organizacoes a planejarem assuas intervencoes, de forma sustentada, sendo, para isso, necessario utilizar todos os re-cursos que os seus sistemas de informacao lhes podem fornecer.
![Page 2: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/2.jpg)
O valor atribuıdo a estes dados esta diretamente relacionado com a sua qualidade, assim,quanto maior for a qualidade dos dados, maior a sua utilidade[1]. Para as empresas dedistribuicao, este tipo de informacao e essencial na estrategia comercial e na gestao fi-nanceira. Na maioria dos sistemas, a qualidade dos dados e totalmente negligenciada,podendo tornar-se um pesadelo.
3.1. ObjetivoO objetivo desse trabalho e entender e identificar um quadro teorico para a medicao dequalidade de dados. Demostrar os resultados obtidos nas analises e propor melhorias quegarantam a qualidade dos dados.
3.2. Objetivos EspecıficosPara alcancar esse objetivo sera desenvolvido mecanismo de analise e validacao em bancode dados e demonstrando os resultados em indicadores de business intelligence.
4. Qualidade dos DadosA qualidade de dados (QD) e um conceito relativo, os dados podem ser qualitativamenteapropriados para um determinado proposito, mas podem nao o ser noutro domınio[2].Para garantir a qualidade de dados, devem ser respeitadas algumas regras basicas: (1)coerencia, (2) integridade, (3) consistencia e (4) atualidade [2,3-5].Os dados sao produzidos, armazenados e consumidos. A producao dos dados ocorrepor todos os profissionais envolvidos no processo de distribuicao, sao responsaveis pelopreenchimento e atualizacao das informacoes. A responsabilidade pelo armazenamentoe gestao dos dados que garante a consistencia e confiabilidade e dos administradores debanco de dados. Os gestores, diretores e gerentes sao os consumidores, que analisam osdados e selecionam as informacoes relevantes para as tomadas de decisoes[5, 6]. Paraum gestor nem sempre e importante ter todos os dados de um cliente, mas sim que elessejam coerentes, consistentes e ausentes de erros para a tomada de decisoes.
4.1. EstruturaExitem muitas informacoes sobre a qualidade dos dados, acordo sobre a definicao e asdimensoes da qualidade dos dados, porem ha uma grande ambiguidade nos termos que
![Page 3: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/3.jpg)
sao usados. Em marco de 2007, a Comissao de Auditoria do Reino Unido publicou umquadro para apoiar a melhoria da qualidade dos dados no setor publico [11]. Este quadroapresenta seis caracterısticas-chave (dimensoes) de dados de boa qualidade: precisao,validade, confiabilidade, pontualidade, relevancia e integridade.
4.2. Trabalhos RelacionadosVarios autores contribuıram para a medicao, avaliacao e melhoria da qualidade dos dados.Um resumo das contribuicoes desses autores.Wang et al. [12], [13] e Redman [14]. em seu trabalho defendem a necessidade de di-mensoes bem definidas e orientadas para objetivos da qualidade dos dados multidimensio-nal. Essa visao inspirou varios autores a definir uma ampla gama de diferentes dimensoesde qualidade de dados. Kim et al. propos uma taxonomia de diferentes dimensoes dequalidade [15] e Batini et al. investigou as dimensoes mais comuns e como medir [16],[17]. Na definicao de medidas para dimensoes de qualidade de dados, Pipino et al. argu-mentou que uma distincao pode ser feita entre medidas objetivas e subjetivas [18]. Estadistincao foi desenvolvida ainda por Even et al. [19], [20], [21] que apontam a distincaoentre medidas imparciais e sem contexto e as medidas contextuais e de utilidade publica.De particular importancia no trabalho de Even et al. e a sua proposta de um con-junto de requisitos a que as medidas para a qualidade dos dados devem aderir. Esteconjunto de requisitos foi adotado e refinado por Heinrich et al. [22], que fornecemuma definicao axiomatica de uma medida de qualidade de dados, afirmando seis axi-omas: (Normalizacao, Intervalo Escalonado ,Interpretacao, Adaptividade, Viabilidade,Agregacao).
5. Impactos Sobre o NegocioDevido as regras internas da organizacao os dados analisados nao podem ser disponibi-lizados para uso fora da empresa e nem seu nome divulgado no trabalho. Respeitandoesses criterios foram identificados alguns impactos causados pela baixa qualidade dos da-dos analisados.O grafico abaixo demonstra em percentual os problemas e a relevancia de cada item paraa baixa qualidade dos dados.
![Page 4: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/4.jpg)
5.1. Impactos Operacionais
Foram identificadas varias situacoes que causaram impactos operacionais representandocustos com retrabalhos.
• Emissao de notas fiscais de complemento de preco causado por valores incorretos;
• Correcao de cadastros identificados com ausencia de valores;
• Correcao de calculo de impostos causados por alteracoes em operacoes fiscais;
• Ajustes de cadastros com violacao de singularidade, clientes diferentes com omesmo codigos no sistema;
• Manutencao de registros duplicados que estavam gerando duplicidade deinformacao;
• Falta de integridade, informacoes alteradas que perderam a referencia. Exp. Alte-rar o cliente do tıtulo gerado pela rotina de faturamento ficando divergente da notafiscal;
• Ajustes de unidades de medidas. A mesma unidade de medida cadastrada devarias formas (numerica, textual e alfanumerica).
5.2. Impactos Estrategicos
Os impactos estrategicos causados pela baixa qualidade dos dados foram relacionadosabaixo. Segundo os gestores da empresa o principal motivo e a possibilidade de levar aperda de clientes.
• Baixa credibilidade dos dados analisados;
• Demora na obtencao de informacao para toma de decisao;
• Dificuldade para implementar novas estrategias.
6. Problemas de Qualidade dos DadosProblemas de qualidade dos dados (PQD) podem custar milhoes as organizacoes, en-quanto desperdicam tempo a analisar dados, que acabam por levar a decisoes incorretas.Os PQD sao normalmente chamados de erros, de anomalias ou mesmo de “lixo”e in-cluem, entre outros, valores em falta e representacoes diferentes para o mesmo fato. Efrequente, em bases de dados em producao, encontrarmos entre 60-90% de dados comfraca qualidade, este problema e um obstaculo enorme, para a utilizacao destes dadosem determinadas analises [7]. E possıvel estudar os problemas de qualidade dos dadosem tres diferentes contextos: (1) quando se pretende corrigir uma anomalia, num unicoregisto de uma determinada BD; (2) quando dados, em BD nao relacionais, sao migra-dos para BD relacionais; (3) quando se pretende integrar varios registos, provenientes demultiplas fontes, num unico registo [8].
6.1. Metodologia
Estarei usando a metodologia proposta por Oliveira[10], por abrager a maioria dos proble-mas de qualidade de dados identifcados em uma amostragem feita conforme exemplos.
![Page 5: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/5.jpg)
6.2. Exemplos de PQD existentes:
1) Falta de atributos obrigatorios. Exemplo: Nome do cliente vazio.2) Erro de Syntax, formato de data errado. Exemplo: data de nascimento num formatoerrado.3) Violacao de domino, o atributo esta fora dos valores possıveis. Exemplo: idade comvalor negativo.4) Valor incorreto, o atributo contem um valor que nao e o correcto, embora esse valoresteja dentro dos valores aceitaveis. Exemplo: idade e 56 em vez de 59.5) Violacao de regra de negocio, este problema surge quando uma ou mais regras denegocio, previamente definidas, nao sao respeitadas. Exemplo: o nome do cliente temque ser constituıdo por pelo menos duas palavras, mas podem existir casos em que issonao aconteca.6) Violacao da singularidade, duas ou mais tuplas tem o mesmo valor num atributo devalor unico. Exemplo: o mesmo codigo de cliente para diferentes pessoas7) Existencia de sinonimos, utilizacao de expressoes diferentes para, indicar o mesmosignificado. Exemplo: utilizacao das designacoes “agrotoxicos” e “defensivos agrıcolas”8) Violacao da dependencia funcional, o valor do atributo viola uma dependencia funcio-nal com outros atributos. Exemplo: cadastros usando o mesmo codigo (codservico = 40;nomeservico = ‘nutricao’) e (codservico = 40; nomeservico = ‘agroquımico).9) Violacao de integridade referencial, o valor de uma referencia externa nao existe comochave primaria na tabela externa. Exemplo: codigo do produto “9999.091” nao existe natabela de produtos.10) Referencia incorreta, integridade referencial esta correta, mas o valor de referenciaesta errado. Exemplo: codigo do produto e “9999.001” em vez do codigo “9999.002”;ambos os codigos existem na tabela de produtos.11) Heterogeneidade das sintaxes, existencia de diferentes representacoes sintatica ematributos relacionados. Exemplo: o atributo datavenda tem a sintaxe dd/mm/yyyy, mas oatributo datafaturamento tem a sintaxe yyyy/mm/dd.12) Heterogeneidade de unidades de medida, utilizacao de diferentes unidades de me-dida, para guardar o mesmo valor. Exemplo: a quantidade vendida gravada numa tabelaem quilos e noutra em toneladas.13) Heterogeneidade de representacao, utilizacao de codigos diferentes, para representa-rem o mesmo valor real, em diferentes BDs. Exemplo: numa BD o sexo esta representadocom os valores (“1”, “2”) mas, noutra esta representado com os valores (“M”, “F”)).
7. Objetivos Geral
O objetivo desse trabalho e entender e identificar um quadro teorico para a medicao dequalidade de dados. Demostrar os resultados obtidos nas analises e propor melhorias quegarantam a qualidade dos dados.
7.1. Objetivos Especıficos
Para alcancar esse objetivo sera desenvolvido mecanismo de analise e validacao em bancode dados e demonstrando os resultados em indicadores de business intelligence.
![Page 6: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/6.jpg)
8. Resultados
8.1. Base de Dados utilizada
A Base de Dados utilizada contem informacoes de 23 filiais dos anos de 2014 a 2016.Como resultado, serao apresentados exemplos dos erros encontrados e a sua respectivaclassificacao, segundo a taxonomia apresentada anteriormente.
8.2. Ausencia de Valores
Este foi o tipo de erros mais encontrado nos dados analisado, ocorrendo em multiplasvariaveis. Em consideracao para a analise os valores relevantes como exemplo disso avariavel “tipo de cliente”, que indica se o atendimento foi para consumidor final, pro-dutor rural, revendedor, solidario ou exportacao (Fig. abaixo). O nao preenchimentodeste campo causa impacto negativo, pois e fundamental para o calculo de varios in-dicadores, como o ındice de atendimento usado para medir o desempenho das vendas.
8.3. Valores Incorretos
Durante este estudo foram detectadas algumas anomalias no campo “valor unitario”.Perante estas evidencias recalculou-se este valor com base nos precos de compras ecomparando o resultado deste calculo foram encontradas algumas diferencas. Estesresultados identificaram erros de digitacao de precos de produtos, foi adotado a partirde 2015 tabela de preco para sanar esse tipo de problema classificado com grau decriticidade alta.
![Page 7: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/7.jpg)
8.4. Violacao de Regra de Negocio
Foram identificadas inconsistencias em algumas operacoes fiscais, a mesma operacaofiscal apresentava diferenca no valor de calculo de ICMS. Esse problema foi ocasio-nado por alteracoes nas operacoes, sendo o correto cadastrar novas operacoes com novaparametrizacao. O problema foi classificado com grau de criticidade alta e restringido oacesso para alteracao de operacoes fiscais.
8.5. Violacao de Singularidade
Foram detectados 23 casos onde o codigo de cliente e o mesmo, mas o numero deidentificacao CPF/CNPJ e diferente. Suspeita-se que este problema possa ter ocorridodevido a inconsistencia no ERP, visto que o controle sequencial nao e gerenciado pelobanco de dados.
![Page 8: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/8.jpg)
8.6. Tuplas duplicadas Inconsistentes
Analisando todas as tuplas da BD, foram encontrados 2.382 casos de tuplas duplicados,ou seja, duas linhas da BD totalmente iguais.
8.7. Violacao de Integridade Referencial
Estudando a variavel “codigo de cliente+numero da nota fiscal” na tabela de contas areceber foram identificados 1.325 casos que nao tem a respectiva correspondencia natabela de faturamento. Esse problema ocorre devido a alteracao do codigo do cliente natabela de contas a receber. Para solucionar o problema foi implementando o processo detransferencia de tıtulos mantendo o rastreamento da operacao para nao perder o vınculocom a tabela de faturamento.
![Page 9: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/9.jpg)
8.8. Heterogeneidade de unidades de medida
Durante o estudo, foram detectadas diferentes representacoes da natureza financeira“servico”. Esta variavel, e usada para segmentar os tıtulos de pagamentos e recebimen-tos. Esta variavel surge com diferentes codificacoes de representacao. Um exemplo dissoesta representado na figura abaixo, onde o servico aparece designado em 234 casos como“SERV”, em 136 casos como “SERVICOS”.
9. Conclusao
A falta de qualidade de dados pode representar perdas de tempo, dinheiro e oportunidades.E essencial que se determine o nıvel de qualidade de dados necessario para a organizacao,dimensionando os esforco e recursos exigidos para mante-la. Alem disso, ha o problemade valor da informacao, pois, para um determinado usuario atribui-se a informacao umsignificado muito diferente do que outros usuarios [26].Os dados administrativos podem conter dados instaveis e imprecisos, embora continuema ser usados diariamente [9,23]. Em inumeras situacoes, continuam a ser o unico meiodisponıvel para obtencao de valores de producao, ou mesmo, no auxılio as tomadas dedecisao por parte dos administradores e gerentes. Identificados e resolvidos alguns dos
![Page 10: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/10.jpg)
problemas existentes [24-25], os dados administrativos podem ser usados na producao deindicadores ou na producao de benchmarks representativos. As organizacoes estao cadavez mais preocupadas com a reducao dos custos, sem diminuir a qualidade entregando aocliente os melhores produtos e servicos.Os esforcos na melhoria da qualidade de dados das base de dados premeiam asinstituicoes, possibilitando-lhes suporte para tomadas de decisao mais precisas e coe-rentes, podendo, assim, melhorar a qualidade da prestacao de servicos e reduzir os custosassociados a esses atos.
10. Referencias[1]D. Arts, N. Keizer, G.-J. Scheffer. Defining and Improving Data Quality in MedicalRegistries: A Literature Review Case Study, and GenericFramework. J Am Med InformAssoc 2002;9: 600-611.[2]G. K. Tayi, D. P. Ballou. Examining Data Quality. CACM 1998;41[3]J. C. Wyatt, J. L. Y. Liu. Basic Concepts in Medical Informatics. J.Epidemiol Com-munity Health 2002;56: 808-812.[4]R. Y. Wang. A Product Perspective on Total Data Quality Management.CACM1998;41: 58-65.[5]M. Gertz, M. T. Ozsu, G. Saake, K.-U. Sattler. Data Quality on the Web.SIGMODRecord 2004;33: 127-132.[6]D. M. Strong, Y. W. Lee, R. Y. Wang. Data Quality in Context. CACM1997;40: 103-110.[7]K. Orr. Data Quality and Systems Theory. CACM 1998;[8]T. Dasu, G. T. Vesonder, J. R. Wright. Data Quality through Knowledge Engineering.SIGKDD’ 03. Washington: 2003. 705-710.[9]L. I. Iezzoni. Assessing Quality Using Administrative Data. Ann Intern Med1997;127: 666-673.[10]P. Oliveira, F. Rodrigues, P. Henriques, H. Galhardas. A Taxonomy of Data QualityProblems. 2nd International Workshop on Data and Information Quality. Porto, Portugal:2005.[11]“Improving information to support decision making: standards for better qualitydata,” Audit Commission, Report, 2007.[12]R. Wang, V. Storey, and C. Firth, “A framework for analysis of data quality research,”IEEE Transactions on Knowledge and Data Engineering, vol. 7, no. 4, pp. 623–640,1995.[13]R. Wang and D. Strong, “Beyond accuracy: What data quality means to data consu-mers,” Journal of Management Information Systems, vol. 12, no. 4, pp. 5–34, 1996.[14]T. Redman, Data Quality for the Information Age. Artech-House, 1996.[15]W. Kim, E.-K. Hong, S.-K. Kim, and D. Lee, “A taxonomy of dirty data,” Data Mi-ning and Knowledge Discovery, vol. 7, pp. 81–99, 2003.[16]C. Batini and M. Scannapieca, Data quality: concepts, methodologies and techniques.Springer-Verlag, 2006.[17]C. Batini, C. Cappiello, C. Francalanci, and A. Maurino, “Methodologies for dataquality assessment and improvement,” ACM Comuting Surveys, vol. 41, no. 3, pp.16–52, 2009.[18]L. Pipino, Y. Lee, and R. Wang, “Data quality assessment,” Communications of theACM, vol. 45, no. 4, pp. 211–218, 2002.
![Page 11: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas](https://reader035.vdocuments.site/reader035/viewer/2022072800/62e0d3ba8070554a50548648/html5/thumbnails/11.jpg)
[19]A. Even and G. Shankaranarayanan, “Value-driven data quality assessment,” in Pro-ceedings of the International Conference on Information Quality, 2005, pp. 265–279.[20]“Understanding impartial versus utility-driven quality assessment in large data-sets,” in Proceedings of the International Conference on Information Quality, 2007, pp.265–279.[21]“Utility-driven assessment of data quality,” The Database for Advances in Informa-tion Systems, vol. 38, no. 2, pp. 75–93, 2007.[22]B. Heinrich, M. Kaiser, and M. Klier, “How to measure data quality? a metric basedapproach,” in Proceedings of the International Conference on Information Systems, 2007,pp. 1–15.[23]D. Torchiana, G. Meyer. Use of administrative data for clinical quality measurement.J Thorac Cardiovasc Surg 2005;129: 1222-4.[24]A. E. Powell, H. T. O. Davies, R. G. Thomson. Using routine comparative data toassess the quality of health care: understanding and avoiding common pitfalls. Qual SafHealth Care 2003;12: 122–128.[25]J. M. Sutherland, C. K. Botz. The effect of misclassification errors on case mix mea-surement. Health Policy. 2006.[26]TAYI, Giri T.; BALLOU, Donald P. – “Examining Data Quality”, Communicationsof the ACM, V. 41, N! 2, fevereiro de 1998.