AGILEKDD: AN AGILE PROCESS MODEL TO KNOWLEDGE ?· AGILEKDD: AN AGILE PROCESS MODEL TO KNOWLEDGE DISCOVERY…

Download AGILEKDD: AN AGILE PROCESS MODEL TO KNOWLEDGE ?· AGILEKDD: AN AGILE PROCESS MODEL TO KNOWLEDGE DISCOVERY…

Post on 18-Nov-2018

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

<ul><li><p>AGILEKDD: AN AGILE PROCESS MODEL TO KNOWLEDGE DISCOVERY IN DATABASES AND BUSINESS INTELLIGENCE SYSTEMATIZATION</p><p>Givanildo Santana do Nascimento (Petrobras, Sergipe, Brasil) - gsnascimento@petrobras.com.brAdicinia Aparecida de Oliveira (Universidade Federal de Sergipe, Sergipe, Brasil) -adicineia@ufs.br</p><p>In the context of knowledge-based economies and Knowledge Society, the global competition is increasingly based on the capacity of transforming data into information, information into knowledge and knowledge into value. Data, information and knowledge constitute fundamental intangible assets for all organizations working in this social and economical model. In this context, the mission of Software Engineering is to produce systems able to process large volumes of data, transform them into relevant knowledge and deliver them to customers, so they can make right decisions at the right time. The development of this kind of systems must have the guidance of a process capable of conduct the transformation of customers business requirements into explicit knowledge and software products, observing harder time, budget and quality constraints. The Knowledge Discovery in Databases and Business Intelligence systematization effort has resulted in several process models. However, companies still face failures in determining the process model used in their Knowledge Discovery in Databases and Business Intelligence projects. The availableprocesses still do not consider Software Engineering fundamental capabilities as projects, requirements and changes managements disciplines. Several existing processes are unsuitable to the ever-changing business environments or lack of scientific experimentation in real cases, in order to confirm their qualities and identify their shortcomings. The process proposed in this work, the AgileKDD, aims to integrate the best practices of the main Knowledge Discovery in Databases processes with an agile software process. The AgileKDD applicability was verified by a real case study, in which common problems such as requirements changes and poor data quality strongly influenced the project results. The case study pointed out some process improvement needs, which were considered in AgileKDD refinement. The resulting refined process can be applied as an adaptive and flexible framework to develop software systems capable of discover knowledge from data and information. The process supports the early and continuous delivery of value to the costumer by means of an iterative and incremental lifecycle, immediate response to changes, as well as the adaptability and flexibility intrinsic to agile processes.</p><p>Keywords: Software Process, Knowledge Discovery in Databases, Business Intelligence, Agile Software Development.</p><p>10th International Conference on Information Systems and Technology Management CONTECSI June, 12 to 14, 2013 - So Paulo, Brazil</p><p>3120</p></li><li><p>I. INTRODUOA Organizao para a Cooperao Econmica e Desenvolvimento definiu as </p><p>economias, baseadas em conhecimento, como economias que so diretamente baseadas na produo, distribuio e uso de conhecimento e informao (OECD, 1996). No contexto das economias baseadas em conhecimento e, de forma mais ampla, na Sociedade doConhecimento, a competio global cada vez mais baseada na capacidade de transformar dados em informaes, informaes em conhecimento e conhecimento em valor. O conhecimento equipara-se aos fatores tradicionais de produo terra, capital, matria-prima, energia e mo-de-obra no processo de criao de riqueza. Desta forma, dados, informao e conhecimento constituem-se ativos intangveis fundamentais para todas as organizaes que atuam neste modelo scio-econmico. Os processos produtivos tradicionais esto evoluindo para modelos de produo intensivos em informao e conhecimento e esta uma das principais preocupaes dos gestores no sculo XXI (BRASIL, 2010). </p><p>As empresas esto organizadas como grandes colees de processos que consomem e produzem quantidades crescentes de dados e informaes (GONALVES, 2000). Os dados tm a capacidade de acumular conhecimento sobre os processos de negcio e este conhecimento, por sua vez, pode ser utilizado na anlise e melhoria dos processos. De acordo com Pressman (2006), ao longo da histria, a computao nas organizaes evoluiu dos Centros de Processamento de Dados (CPD) para as Gerncias de Tecnologia da Informao e a grande maioria do software desenvolvido durante esse perodo teve como finalidade processar dados e produzir informaes. A Engenharia de Software, como sustenta Pressman, tem o desafio de construir software que processe dados e informaes e produza conhecimento. </p><p>A Descoberta de Conhecimento em Bases de Dados (DCBD), ou Knowledge Discovery in Databases (KDD), o processo de busca e extrao de conhecimento em bases de dados (BOENTE, OLIVEIRA e ROSA, 2007). Os Sistemas de Descoberta de Conhecimento em Banco de Dados (Sistemas de DCBD) apoiam a Gesto do Conhecimento possibilitando a extrao e a disseminao de conhecimento organizacionaloculto em grandes volumes de dados provenientes dos processos de negcio (DIAS, 2001).</p><p>O Business Intelligence (BI) integra uma categoria de aplicaes e tecnologias voltadas para a transformao de dados em informaes e conhecimento (GOLFARELLI, RIZZI e CELLA, 2004). Fayyad et al. (1996) definiram DCBD como o processo no trivial de identificao de padres vlidos e potencialmente teis, perceptveis a partir dos dados. A Minerao de Dados (MD) uma das principais tcnicas utilizada tanto no BI quanto na DCBD, chegando a ser confundida com a prpria DCBD (MARISCAL, MARBN e FERNNDEZ, 2010).</p><p>Os Sistemas de DCBD so desenvolvidos a partir de tecnologias como BI e DCBD, formando um arcabouo essencial para as organizaes que competem no contexto scio-econmico do conhecimento. Esses sistemas so vitais para organizaes que desejam desenvolver, integrar, gerenciar e compartilhar informaes e conhecimento como ativos indispensveis para o alcance dos objetivos organizacionais. Por exemplo, os investimentos feitos pela Continental Airlines em BI tiveram um Retorno sobreInvestimento, ou Return on Investment (ROI), equivalente a 1000%, atribudos ao aumento nas vendas e reduo de custos (ALNOUKARI et al., 2012; WATSON et al., 2006; WIXOM et al., 2008).</p><p>Com o objetivo de sistematizar as atividades relacionadas implementao de Sistemas de DCBD, alguns modelos de processos e metodologias foram propostos. Os dois modelos mais utilizados, citados na literatura e suportados por ferramentas, so o KDD </p><p>10th International Conference on Information Systems and Technology Management CONTECSI June, 12 to 14, 2013 - So Paulo, Brazil</p><p>3121</p></li><li><p>Process (FAYYAD et al., 1996) e o CRoss Industry Standard Process for Data Mining(CRISP-DM) (CHAPMAN et al., 2000). Diversos outros processos foram propostos com o mesmo objetivo, entretanto o KDD Process e o CRISP-DM continuaram sendo os principais modelos e os outros processos so considerados variaes deles (ALNOUKARIe SHEIKH, 2012; MARISCAL, MARBN e FERNNDEZ, 2010; ALNOUKARI et al., 2012). O KDD Process, o CRISP-DM e as suas variaes so centrados nas tcnicas deMD e no contemplam ciclos de vida, fases, disciplinas, papeis, produtos de trabalho e outros elementos tipicamente presentes na Engenharia de Sistemas de Software (KURGANe MUSILEK, 2006). Entretanto, tais elementos so indispensveis no desenvolvimento de Sistemas de DCBD.</p><p>Por isso, Dias (2001) props um modelo para formalizao do processo de desenvolvimento de Sistemas de DCBD. Nesse modelo, os dados so armazenados em um Data Warehouse (DW)1 antes de serem submetidos aos algoritmos de minerao de dados.A partir do modelo de processo proposto por Dias (2001), Valentin (2006) descreveu uma arquitetura de referncia para Sistemas de DCBD. Sobre esta arquitetura de referncia, foi definido o Unified Process for Knowledge Discovery in Database (UPKDD) (HERDEN,2007; HERDEN et al., 2011), um processo de software baseado no Processo Unificado(PU)2 para aplicaes analticas centradas em objetivos de descoberta de conhecimento. O UPKDD oferece uma sequncia ordenada e disciplinada de atividades para especificao, projeto, implementao e evoluo de Sistemas de DCBD.</p><p>1.1 Problemtica e Hiptese</p><p>Apesar da prioridade dada pelas organizaes DCBD nos ltimos anos, dos processos, metodologias e ferramentas criados, muitos projetos de DCBD no atingiram os seus objetivos ou foram cancelados (MARISCAL, MARBN e FERNNDEZ, 2010). O agravamento da crise financeira internacional provocou cortes significativos nos oramentos de Tecnologia da Informao (TI) das organizaes a partir de 2009, privilegiando iniciativas mais produtivas e econmicas, em detrimento das que possuemmaior risco e maior prazo para ROI. Por esses motivos, o BI deixou de ocupar o primeiro lugar na lista das dez maiores prioridades em TI em 2010 e 2011, caindo para o quinto lugar na lista (GARTNER GROUP, 2005, 2006, 2007, 2008, 2009, 2010, 2011). Outro estudo revelou que mais de cinquenta por cento dos projetos de BI tiveram baixa aceitao ou falharam devido baixa qualidade dos dados e falta de envolvimento dos clientes (GARTNER GROUP, 2005).</p><p>Assim como o desenvolvimento de sistemas de processamento operacional, o desenvolvimento de sistemas de processamento analtico, aqui denominados Sistemas de DCBD, deve ser guiado por processos de software. No entanto, as organizaes ainda falham na determinao do modelo de processos utilizado para o desenvolvimento de Sistemas de DCBD (ALNOUKARI, 2011). medida que os requisitos de negcio tornam-se mais dinmicos e incertos, os processos de software tradicionais tornam-se menos adequados ao desenvolvimento deste tipo de sistemas. Larson (2012) afirma que os processos tradicionais de desenvolvimento de software no so efetivos no </p><p> 1 O Data Warehouse uma coleo de dados orientada por assuntos, integrada, no-voltil e variante em relao ao tempo, que tem por objetivo apoiar os processos de tomada de deciso (INMON, 1997).</p><p>2 O Processo Unificado determina um conjunto de atividades necessrias para transformar requisitos em sistemas de software, de forma iterativa e incremental (JACOBSON, BOOCH e RUMBAUGH, 1999).</p><p>10th International Conference on Information Systems and Technology Management CONTECSI June, 12 to 14, 2013 - So Paulo, Brazil</p><p>3122</p></li><li><p>desenvolvimento de Sistemas de DCBD porque so incompatveis com a dinmica e a evoluo constante dos ambientes de negcios corporativos. O processo adotado para a implementao da maioria dos projetos de DCBD o CRISP-DM, sendo este o padro de facto. Contudo a adoo do CRISP-DM vem caindo devido ausncia de atividades relacionadas ao gerenciamento de projetos, requisitos e mudanas e Engenharia de Software de forma geral (MARBN et al., 2008).</p><p>Portanto, o desenvolvimento de Sistemas de DCBD necessita de um processo de software que garanta o envolvimento do cliente em todas as etapas e a qualidade mnima dos dados operacionais, antecipe o retorno do investimento, contenha disciplinas para gerenciamento de projetos, requisitos e mudanas. O processo precisa ser suficientemente simples para ser compreendido e seguido por seus praticantes, sem aumentar a complexidade natural dos projetos de DCBD. Essas caractersticas esperadas de um processo para desenvolvimento de Sistemas de DCBD vo ao encontro dos valores presentes no Manifesto para o Desenvolvimento gil de Software (BECK et al., 2001).Estes valores esto presentes nos processos geis de software, os quais so caracterizados por flexibilidade, adaptabilidade, comunicao face a face e fluxo contnuo de conhecimento entre as equipes de projetos (ALZOABI, 2012; LARSON, 2012). </p><p>A hiptese deste trabalho : um processo gil de software pode aumentar o fator de sucesso dos projetos de desenvolvimento de Sistemas de DCBD em cenrios nos quais h mudanas nos requisitos e baixa qualidade dos dados operacionais.</p><p>1.2 Contribuies Esperadas</p><p>Com o desenvolvimento deste trabalho, podem-se apontar as seguintes contribuies: Avaliao dos processos de DCBD existentes; Adequao dos processos de DCBD a um processo gil de Engenharia de </p><p>Software; Definio de um processo gil de software para a Engenharia de Sistemas de </p><p>DCBD; Melhoria do fator de sucesso dos projetos de Sistemas de DCBD, minimizando os </p><p>riscos de fracasso causados por mudana nos requisitos durante os projetos e baixa qualidade dos dados operacionais; e,</p><p> Melhoria da satisfao dos clientes dos projetos de Sistemas de DCBD por meio da entrega antecipada e contnua de produtos de software, antecipando, por conseguinte, o retorno do investimento.</p><p>1.3 Organizao do artigo</p><p>Este artigo est organizado da seguinte forma: a seo um, que corresponde a esta introduo, trata da contextualizao, problemtica, hiptese, objetivos, contribuies esperadas e organizao deste artigo. A seo dois apresenta o enquadramento metodolgico desta pesquisa. A seo trs aborda os processos para descoberta de conhecimento em bancos de dados existentes. A seo quatro descreve o processo AgileKDD, suas fases, atividades e papeis. O estudo de caso que confirmou a aplicabilidade do AgileKDD apresentado na seo cinco. A seo seis explica o refinamento do processo AgileKDD a partir dos pontos de melhoria identificados no estudo de caso. Finalmente, a seo sete apresenta as concluses, as consideraes finais, as principais contribuies, limitaes deste trabalho e as oportunidades de trabalhos futuros.</p><p>10th International Conference on Information Systems and Technology Management CONTECSI June, 12 to 14, 2013 - So Paulo, Brazil</p><p>3123</p></li><li><p>II. METODOLOGIAA Figura 1 apresenta o enquadramento metodolgico desta pesquisa. Sob o ponto de </p><p>vista da sua natureza, esta pesquisa aplicada, pois objetiva gerar conhecimentos para aplicao prtica, dirigidos soluo de problemas especficos. Quanto forma de abordagem do problema, esta pesquisa qualitativa3, pois baseada na interpretao dos resultados e na atribuio de significados descritivos (MIGUEL, 2007). Na pesquisa qualitativa, diferentemente da quantitativa, o pesquisador busca compreender os fenmenos observando-os, interpretando-os e descrevendo-os (MELLO et al., 2012).</p><p>Com relao aos seus objetivos, esta pesquisa exploratria, pois visa proporcionar maior familiaridade com o problema com vistas a torn-lo explcito ou a construir hipteses (GIL, 1996). Ela envolve levantamento bibliogrfico e anlise de exemplos que estimulam a compreenso. Este tipo de pesquisa assume, em geral, as formas de revisesbibliogrficas e estudos de caso (SILVA, 2005). Sob a tica dos procedimentos tcnicos, esta pesquisa utilizar Estudo de Caso4 para a validao de hipteses. Para Severino (2007), esta modalidade de pesquisa cientfica se concentra no estudo de um caso particular, considerado representativo de um conjunto de casos anlogos. Portanto, esta pesquisa Aplicada, Qualitativa, Exploratria, com Estudo de Caso.</p><p>O estudo de caso um estudo de natureza emprica que investiga um determinado fenmeno dentro de um contexto real. Trata-se de uma anlise aprofundada de um ou mais objetos (casos), para que permita o seu amplo e detalhado conhecimento (GIL, 199...</p></li></ul>

Recommended

View more >