agilekdd: an agile process model to knowledge .agilekdd: an agile process model to knowledge...

Download AGILEKDD: AN AGILE PROCESS MODEL TO KNOWLEDGE .AGILEKDD: AN AGILE PROCESS MODEL TO KNOWLEDGE DISCOVERY

Post on 18-Nov-2018

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • AGILEKDD: AN AGILE PROCESS MODEL TO KNOWLEDGE DISCOVERY IN DATABASES AND BUSINESS INTELLIGENCE SYSTEMATIZATION

    Givanildo Santana do Nascimento (Petrobras, Sergipe, Brasil) - gsnascimento@petrobras.com.brAdicinia Aparecida de Oliveira (Universidade Federal de Sergipe, Sergipe, Brasil) -adicineia@ufs.br

    In the context of knowledge-based economies and Knowledge Society, the global competition is increasingly based on the capacity of transforming data into information, information into knowledge and knowledge into value. Data, information and knowledge constitute fundamental intangible assets for all organizations working in this social and economical model. In this context, the mission of Software Engineering is to produce systems able to process large volumes of data, transform them into relevant knowledge and deliver them to customers, so they can make right decisions at the right time. The development of this kind of systems must have the guidance of a process capable of conduct the transformation of customers business requirements into explicit knowledge and software products, observing harder time, budget and quality constraints. The Knowledge Discovery in Databases and Business Intelligence systematization effort has resulted in several process models. However, companies still face failures in determining the process model used in their Knowledge Discovery in Databases and Business Intelligence projects. The availableprocesses still do not consider Software Engineering fundamental capabilities as projects, requirements and changes managements disciplines. Several existing processes are unsuitable to the ever-changing business environments or lack of scientific experimentation in real cases, in order to confirm their qualities and identify their shortcomings. The process proposed in this work, the AgileKDD, aims to integrate the best practices of the main Knowledge Discovery in Databases processes with an agile software process. The AgileKDD applicability was verified by a real case study, in which common problems such as requirements changes and poor data quality strongly influenced the project results. The case study pointed out some process improvement needs, which were considered in AgileKDD refinement. The resulting refined process can be applied as an adaptive and flexible framework to develop software systems capable of discover knowledge from data and information. The process supports the early and continuous delivery of value to the costumer by means of an iterative and incremental lifecycle, immediate response to changes, as well as the adaptability and flexibility intrinsic to agile processes.

    Keywords: Software Process, Knowledge Discovery in Databases, Business Intelligence, Agile Software Development.

    10th International Conference on Information Systems and Technology Management CONTECSI June, 12 to 14, 2013 - So Paulo, Brazil

    3120

  • I. INTRODUOA Organizao para a Cooperao Econmica e Desenvolvimento definiu as

    economias, baseadas em conhecimento, como economias que so diretamente baseadas na produo, distribuio e uso de conhecimento e informao (OECD, 1996). No contexto das economias baseadas em conhecimento e, de forma mais ampla, na Sociedade doConhecimento, a competio global cada vez mais baseada na capacidade de transformar dados em informaes, informaes em conhecimento e conhecimento em valor. O conhecimento equipara-se aos fatores tradicionais de produo terra, capital, matria-prima, energia e mo-de-obra no processo de criao de riqueza. Desta forma, dados, informao e conhecimento constituem-se ativos intangveis fundamentais para todas as organizaes que atuam neste modelo scio-econmico. Os processos produtivos tradicionais esto evoluindo para modelos de produo intensivos em informao e conhecimento e esta uma das principais preocupaes dos gestores no sculo XXI (BRASIL, 2010).

    As empresas esto organizadas como grandes colees de processos que consomem e produzem quantidades crescentes de dados e informaes (GONALVES, 2000). Os dados tm a capacidade de acumular conhecimento sobre os processos de negcio e este conhecimento, por sua vez, pode ser utilizado na anlise e melhoria dos processos. De acordo com Pressman (2006), ao longo da histria, a computao nas organizaes evoluiu dos Centros de Processamento de Dados (CPD) para as Gerncias de Tecnologia da Informao e a grande maioria do software desenvolvido durante esse perodo teve como finalidade processar dados e produzir informaes. A Engenharia de Software, como sustenta Pressman, tem o desafio de construir software que processe dados e informaes e produza conhecimento.

    A Descoberta de Conhecimento em Bases de Dados (DCBD), ou Knowledge Discovery in Databases (KDD), o processo de busca e extrao de conhecimento em bases de dados (BOENTE, OLIVEIRA e ROSA, 2007). Os Sistemas de Descoberta de Conhecimento em Banco de Dados (Sistemas de DCBD) apoiam a Gesto do Conhecimento possibilitando a extrao e a disseminao de conhecimento organizacionaloculto em grandes volumes de dados provenientes dos processos de negcio (DIAS, 2001).

    O Business Intelligence (BI) integra uma categoria de aplicaes e tecnologias voltadas para a transformao de dados em informaes e conhecimento (GOLFARELLI, RIZZI e CELLA, 2004). Fayyad et al. (1996) definiram DCBD como o processo no trivial de identificao de padres vlidos e potencialmente teis, perceptveis a partir dos dados. A Minerao de Dados (MD) uma das principais tcnicas utilizada tanto no BI quanto na DCBD, chegando a ser confundida com a prpria DCBD (MARISCAL, MARBN e FERNNDEZ, 2010).

    Os Sistemas de DCBD so desenvolvidos a partir de tecnologias como BI e DCBD, formando um arcabouo essencial para as organizaes que competem no contexto scio-econmico do conhecimento. Esses sistemas so vitais para organizaes que desejam desenvolver, integrar, gerenciar e compartilhar informaes e conhecimento como ativos indispensveis para o alcance dos objetivos organizacionais. Por exemplo, os investimentos feitos pela Continental Airlines em BI tiveram um Retorno sobreInvestimento, ou Return on Investment (ROI), equivalente a 1000%, atribudos ao aumento nas vendas e reduo de custos (ALNOUKARI et al., 2012; WATSON et al., 2006; WIXOM et al., 2008).

    Com o objetivo de sistematizar as atividades relacionadas implementao de Sistemas de DCBD, alguns modelos de processos e metodologias foram propostos. Os dois modelos mais utilizados, citados na literatura e suportados por ferramentas, so o KDD

    10th International Conference on Information Systems and Technology Management CONTECSI June, 12 to 14, 2013 - So Paulo, Brazil

    3121

  • Process (FAYYAD et al., 1996) e o CRoss Industry Standard Process for Data Mining(CRISP-DM) (CHAPMAN et al., 2000). Diversos outros processos foram propostos com o mesmo objetivo, entretanto o KDD Process e o CRISP-DM continuaram sendo os principais modelos e os outros processos so considerados variaes deles (ALNOUKARIe SHEIKH, 2012; MARISCAL, MARBN e FERNNDEZ, 2010; ALNOUKARI et al., 2012). O KDD Process, o CRISP-DM e as suas variaes so centrados nas tcnicas deMD e no contemplam ciclos de vida, fases, disciplinas, papeis, produtos de trabalho e outros elementos tipicamente presentes na Engenharia de Sistemas de Software (KURGANe MUSILEK, 2006). Entretanto, tais elementos so indispensveis no desenvolvimento de Sistemas de DCBD.

    Por isso, Dias (2001) props um modelo para formalizao do processo de desenvolvimento de Sistemas de DCBD. Nesse modelo, os dados so armazenados em um Data Warehouse (DW)1 antes de serem submetidos aos algoritmos de minerao de dados.A partir do modelo de processo proposto por Dias (2001), Valentin (2006) descreveu uma arquitetura de referncia para Sistemas de DCBD. Sobre esta arquitetura de referncia, foi definido o Unified Process for Knowledge Discovery in Database (UPKDD) (HERDEN,2007; HERDEN et al., 2011), um processo de software baseado no Processo Unificado(PU)2 para aplicaes analticas centradas em objetivos de descoberta de conhecimento. O UPKDD oferece uma sequncia ordenada e disciplinada de atividades para especificao, projeto, implementao e evoluo de Sistemas de DCBD.

    1.1 Problemtica e Hiptese

    Apesar da prioridade dada pelas organizaes DCBD nos ltimos anos, dos processos, metodologias e ferramentas criados, muitos projetos de DCBD no atingiram os seus objetivos ou foram cancelados (MARISCAL, MARBN e FERNNDEZ, 2010). O agravamento da crise financeira internacional provocou cortes significativos nos oramentos de Tecnologia da Informao (TI) das organizaes a partir de 2009, privilegiando iniciativas mais produtivas e econmicas, em detrimento das que possuemmaior risco e maior prazo para ROI. Por esses motivos, o BI deixou de ocupar o primeiro lugar na lista das dez maiores prioridades em TI em 2010 e 2011, caindo para o quinto lugar na lista (GARTNER GROUP, 2005, 2006, 2007, 2008, 2009, 2010, 2011). Outro estudo revelou que mais de cinquenta por cento dos projetos de BI tiveram baixa aceitao ou falharam devido baixa qualidade dos dados e falta de envolvimento dos clientes (GARTNER GROUP, 2005).

    Assim como o desenvolvimento de sistemas de processamento operacional, o desenvolvimento de sistemas de processamento analtico, aqui denominados Sistemas de DCBD, deve ser guiado por processos de software. No entanto, as organizaes ainda falham na determinao do modelo de processos utilizado para o desenvolvimento de Sistemas de DCBD (ALNOUKARI, 2011). medida que os requisitos de negcio tornam-se mais dinmicos e incertos, os processos de software tradicionais tornam-se menos adequados ao desenvolvimento deste tipo de sistemas. Larson (2012) afirma que os processos tradicionais de desenvolvimento de software no so efetivos no

    1 O Data Warehouse uma coleo de dados orientada por assuntos, integrada, no-voltil e variante em relao ao tempo, que tem por ob