slide sem título - universidade federal do parဦ · ppt file · web view2003-11-06 · dwing...

64
DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo

Upload: lamdieu

Post on 28-Jun-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

DWing e

Ferramentas de ETLM

Curso de DwingTecBD-DI PUC-RioProf. Rubens Melo

Page 2: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Contexto da aula Evolução de DW

Rápido resumo Como Chegar ao DW ?

Resumo das opções DW / DM Infra-estrutura em DWing

Um pouco mais de Modelagem de Dados Extração/Transformação/Carga de

Dados/Metadados(ETLM)

Características de Ferramentas de ETLM

Page 3: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Extração, Transformação, Carga e Metadados: ETLM

70% do esforço em data warehousing é gasto com a definição de fontes, mapeamentos, regras, scheduling, e

manutenção dos processos de ETLM

Page 4: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Transformando Dados em Informação

Transformando Dados em Informação:

Extrair Integrar Sumarizar Filtrar Converter

Valores default Reestruturar Reformatar Criar consistencia Regras de Negócio

Ambiente Legacy: Ilhas de Teias de Aranha de

Dados Processamento Informacional

Data WarehouseData Mart

Metadados

Page 5: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

4 Tipos de atividades Monitoração: dos dados que vem das fontes Integração: Limpeza de dados, Carga, ... Gerência: Metadado, Projeto, ... Processamento: Query processing,

indexing, ...

Page 6: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Monitoração Tipos de Fontes: tabelas, arquivos, IMS, VSAM,

IDMS, WWW, IBGE, REUTERS, … Incremental vs. Refresh (tudo)

customer id name address city53 joe 10 main sfo81 fred 12 main sfo

111 sally 80 willow la new

Page 7: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Técnicas de Monitoração Snapshots periódicos Database triggers Log shipping (envio de Log) Data shipping (replication service) Transaction shipping Polling (queries nas fontes) Recortes de telas ....

V

anta

gens

& D

esva

ntag

ens!

!

Page 8: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Questões na Monitoração Frequência

periódica: diária, semanal, … triggered: qdo ocorre “big” mudança, muitas

mudanças, ... Transformação de Dados

converte dados ( formato uniforme) remove & add campos(ex., add date => history)

Uso de Padrões (ex., ODBC) Gateways

Page 9: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Questões na Integração Limpeza de Dados Carga de Dados Dados Derivados Client Client

DW

Source Source Source

Query & Analysis

integração

Metadado

Page 10: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Limpeza de Dados Migração (ex., yen dollars) Scrubbing: uso de conhecimento em domínio específico

(ex., números de CPFs) Fusão (ex., lista de correio, casar dados clientes)

Auditing: descobrir regras & relacionamentos (ex. data mining)

billing DB

service DB

customer1(Joe)

customer2(Joe)

merged_customer(Joe)

Page 11: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Carga de Dados Incremental vs. Refresh Off-line vs. on-line Frequência de carga

A noite, 1x p/sem/mês, continuamente Carga Paralela/Particionada

Page 12: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Dados Derivados Dados Derivados no DW

indices Agregados Views materializadas

Qdo atualizar dados derivados? Incremental vs. Refresh...

Page 13: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Para aumentar a performance, DWs freqüentemente armazenam resumos calculados e visões predefinidas

Informação adicional de fontes externas também podem ser incluídas no DW

Carga de DW

Page 14: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Views Materializadas Define nova tabela no DW usando SQL

sale prodId storeId date amtp1 c1 1 12p2 c1 1 11p1 c3 1 50p2 c2 1 8p1 c1 2 44p1 c2 2 4

product id name pricep1 bolt 10p2 nut 5

joinTb prodId name price storeId date amtp1 bolt 10 c1 1 12p2 nut 5 c1 1 11p1 bolt 10 c3 1 50p2 nut 5 c2 1 8p1 bolt 10 c1 2 44p1 bolt 10 c2 2 4

Esta tabela não veio de fonte

Page 15: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Leitura de dados de fontes variadas

Qualidade de dados é crítica Precisamos de cargas eficientes, flexíveis Cargas noturnas (limites)

Carga de DW

Page 16: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

DW vem de múltiplas fontes “sujas” Legacy systems não documentados Sistemas de produção sem

verificações de integridade Fontes externas com procedi-

mentos de qualidade questionáveis Decisões e recomendações com

segurança precisam de dados com qualidade

Realidades sobre Realidades sobre Qualidade de DadosQualidade de Dados

Page 17: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Processamento de único passo Ler, ajustar e reformatar a entrada Detectar dados sujos, incluindo violações de

integridade referencial Agregar, armazenar e indexar dados Nesse caso sempre uma carga total

Cargas multi-função Insert, append, update, modify, replace Carga total e incremental

Cargas on-line e off-line

Cargas Eficientes, FlexíveisCargas Eficientes, Flexíveis

Page 18: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Conversão deDados

IntegridadeReferencial

Criação de Índice

AtualizaçãoBD

Processamento de CargaProcessamento de Carga

campo1 campo2 campo3campo1 campo2 campo3campo1 campo2 campo3campo1 campo2 campo3campo1 campo2 campo3campo1 campo2 campo3

Input file

Carga otimizada, single-step

Page 19: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

SummarySummaryTableTable

SummarySummaryTableTable

DetailDetailDataData

NewNewDataData

MetaCubeMetaCubeAggregatorAggregator

Existem ferramentas para agregar dados

Page 20: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Processamento de CargaProcessamento de Carga

campo1 campo2 campo3campo1 campo2 campo3campo1 campo2 campo3campo1 campo2 campo3campo1 campo2 campo3campo1 campo2 campo3

Input file

Agregador

StoreID Total_vendas

Resumo de Vendas da Corporação

Semana StoreID Total_vendas

Resumo de Vendas Semanal

Data Categoria Vendas

Resumo por Categoria

Data StoreID Categoria Item UPC Unidades Preço Promoção Tempo

Detalhamento

Page 21: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

DW > 100 GB estão tornando-se comuns

“ 52% dos DWs passarão de 20GB para terabytes nos próximos anos” (META Group 97)

Nível de detalhe requerido pelo negócio determina volumes de dados armazenados

Armazenamento de Dados no DWArmazenamento de Dados no DW

52%

20 GB ou maior

Page 22: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

As “janelas” da operação já não dão para carregar os dados de DW

Volumes de dados operacionais crescem

Medidas em gigabytes por hora...

Limite ? 70-100 Gb / noite

Cargas NoturnasCargas Noturnas

Page 23: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

São necessárias novas formas de gerência de BD para os grandes volumes de dados dos DWs de hoje (DWA)

“Resiliência” de BD é chave para gerência

Grande número de usuários => precisa de baixo custo de administração

Grandes BDs tendem a ter mais falhas de hardware... (Segmentar? Por mês, Por Produto,...)

AdministraçãoAdministração

Page 24: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

O que Materializar? Gravar no DW resumos e agregados úteis p/

queries mais comuns Exemplo:

day 2 c1 c2 c3p1 44 4p2 c1 c2 c3

p1 12 50p2 11 8

day 1

c1 c2 c3p1 56 4 50p2 11 8

c1 c2 c3p1 67 12 50

c1p1 110p2 19

129

. . .total sales

materializar

Page 25: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Fatores p/ Materialização Tipo/frequência de queries Tempo de resposta de Queries Custo de armazenamento Custo de atualização

Page 26: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Extração e Transformação

Qual é a Qual é a funcionalidadefuncionalidade necessária para uma necessária para uma

ferramenta de Extração e ferramenta de Extração e Transformação de dados Transformação de dados operacionais para carga operacionais para carga

de DW ?de DW ?

Page 27: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Extração e Transformação

Leitura com um SGBD operacional (como o IMS) Gravação por meio de um SGBD de DW (com SQL estendida p/ DW)

A extração de dados do A extração de dados do ambiente operacional para o ambiente operacional para o

ambiente DW requer umaambiente DW requer uma mudança de tecnologia mudança de tecnologia !!

Complexidade

Page 28: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Extração e Transformação

À medida que os dados vão sendo

extraídos e transformados,

vão sendo carregados no DW (e gerando

metadados)

DWDW............

Extração e Transformação

Complexidade

Page 29: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Extração primária (leitura dos arquivos operacionais)

Identificação dos registros alterados Generalização de chaves das dimensões Transformação em registros para carga Migração dos dados do ambiente operacional

para o ambiente de DW

Ex. de Passos de ETLM

Page 30: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Construção dos agregados Generalização de chaves para os

agregados (Tabelas resumos etc) Carga Processamento de exceções Garantia de qualidade Documentação e publicação

Ex. de Passos de ETLM

Page 31: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Mitos e Polêmicas sobre ETLM

1. Construção Manual X Uso de Ferramentas 2. Performance de ETL 3. Metadados

Page 32: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Construção Manual X

Uso de Ferramentas ETLM

Page 33: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

ETLM: Desenvolvimento Manual

Características- Codificação Manual- Performance Depende da Linguagem Usada e do Ambiente- Linguagens 3GL / 4GL (Cobol, C, Natural, VB, Easytrieve, PL/SQL, Transact/SQL, Shell Scripts)

Vantagens- Pouco Investimento Inicial- Aproveitamento de Equipes Treinadas e Metodologias Consolidadas (se existentes), bem como de Recursos de Mercado - Menor Dependência de Fornecedores

Desvantagens- Qualidade Depende dos Programadores (Difícil Padronização)- Difícil Manutenção/Entendimento - Não Integração a Execução / Transporte / Scheduling- Inexistência de Templates ERP / CRM- Não Captura de Metadados

Page 34: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

ETLM: Ferramentas de 1a. / 2a. Geração

Características- Geradores de Código ou Frameworks de Código (ETI Extract, Oracle Warehouse Builder, CA/Platinum Decision Base, Natquery)- Performance Depende da Linguagem Gerada e do Ambiente- Principais Linguagens Geradas (Cobol, C, Natural, PL/SQL, Extensões de SQL)

Vantagens- Aproveitamento de equipes existentes e recursos de mercado relativos às linguagens- Dependência de Fornecedores é Atenuada pelo Código Fonte Gerado- Maior Facilidade de Desenvolvimento e Manutenção- Captura de Metadados

Desvantagens- Investimento Inicial- Menor produtividade que 3a. Geração- Não Integração a Compilação / Transporte / Scheduling- Necessidade de Código Manual Adicional- Inexistência de Templates ERP / CRM

Page 35: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

ETLM: Ferramentas de 3a. Geração

Vantagens- Integração a Pré-compilação / Transporte / Scheduling- Recursos Avançados (Debuggger, Scheduling, Metadados) - Maior Inteligência / Extensibilidade- Maior Produtividade- Templates ERP / CRM Disponíveis- Captura de Metadados- Otimização do Desenvolvimento e Manutenção

Desvantagens- Investimento Inicial- Maior Dependência de Fornecedores

Características- Tem como Base um “Engine” que gera apenas Código Interno (também chamado de “codeless”)- Escalabilidade e Performance Dependem da Tecnologia do Engine e do Ambiente - Principais Produtos no Mercado (Acta - ActaWorks, Ascential - DataStage, Cognos - DecisionStream, DataJunction - Integration Studio, IBM - Warehouse Manager, Informatica - PowerMart/PowerCenter, Microsoft - DTS, Sagent - Solution Data Load Server)

Page 36: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Requisitos Desejáveis em ETL para Ferramentas de 3a. Geração

Interface Gráfica de Fácil Uso Engine Escalável e com Boa Performance Biblioteca de Funções (Quantidade e

Funcionalidade) Suporte a Joins Heterogeneos Tabelas de Lookup em Memória Geradores de Números Seqüenciais Chamada e Inclusão de Stored procedures e

Código Externo Especial nas Bibliotecas de Funções

Suporte a Agregação Incremental

Page 37: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Requisitos Desejáveis em ETL para Ferramentas de 3a. Geração Criação e Schedulagem de Sessões de ETL

Batches para Seqüencias / Dependências de Carga

Monitoração de Performance em Tempo Real Recuperação de Erros Metricas de Performance de Carga e para

Refinamento Suporte a Processamentos Pré e Pós Sessão Notificação Automática de Resultados via e-mail Disponibilidade de Plataformas Opções na Linha de Produtos com

Escalabilidade do Investimento

Page 38: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Escolha de Ferramentas de 3a. Geração

Avaliar: Volumes de Dados Periodicidade dos Processos Complexidade das Transformações Estratégia de Atualização Variedade de Fontes e Alvos Ambiente de H/W, S/W, Rede Necessidade de Integração a Pacotes

- Desde “Custo Zero” até Centenas de Milhares de US$- Desde um Revólver 22 até um Lança Mísseis

Page 39: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Os fornecedores queoferecem “DW solutions”,em geral, também oferecem ou tem parcerias para uso de produtos como: ETI: Unix - gera C, Cobol, etc. - extrai de

DB2, Oracle, IMS, Cobol etc.. ( Prism ): Gera Cobol - para os sistemas

comuns (Oracle, Sybase,DB2, etc) Passport e outros mais.

Extratores de DadosProdutos Produtos

ExtratoresExtratores

Page 40: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

AF05_1-40

Performance de Extração/Transformação/Carg

a

Page 41: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Performance em ETL A performance de Saida é muito mais crítica que a

performance de Entrada no DW!Entrada Saida

Performance é um conceito relativo que deve ser analisado à luz de arquitetura, modelagem, volumes, recursos de hardware, software e rede, etc Codificação Manual/Geração de Código Não Significam Maior Performance que Ferramentas ETL com Engine Monitoração e refinamento constante são necessários para refletir as mudanças do ambiente do DW (fontes, regras de negócio e alvo)

Page 42: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Os DWs estão crescendo demais Terabytes ! VLDB !

“O meu DW é maior do que o seu” Se é de graça, os usuários querem

todas as informações 2 anos ? 5 anos ?

Diária ? Mensal ?

Sobre o Tamanho dos DWsSobre o Tamanho dos DWs

Page 43: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Falta de metodologia para extração de dados --> VLDW Exemplo Código “M” “Masculino” Código 0315 “Vacinação” etc

na extração aumenta o DW

Sobre o Tamanho dos DWsSobre o Tamanho dos DWs

Page 44: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Replicação em DMs Precisamos de pesquisas para abordar

esse problema porque

VLDWVLDW

Sobre o Tamanho dos DWsSobre o Tamanho dos DWs

baixo desempenhoalto customaior risco de não disponibilidadeusuários menos felizes

Page 45: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Gerência de DW Gerência dos Metadados Gerência do Projeto de DW Gerência das Ferramentas

Client Client

Warehouse

Source Source Source

Query & Analysis

integração

Metadado

Page 46: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Resumo de Questões do Projeto Que dados são necessários? De onde vêm (orígem, fontes)? Como “limpá-los”, sincronizá-los? Como representá-los em DW (schema)? O Que sumarizar? O Que materializar? O Que indexar? etc

Page 47: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Resumo: DWing

DWing não é apenas desenvolver um super BD disponibilizado para Análise de Negócios. É uma estratégia que inclue uma arquitetura, uma metodologia de desenvolvimento, um conjunto de ferramentas, um modelo de dados, um BD, um “padrinho” de negócios e um ciclo de vida.

Page 48: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

7 Pecados fatais em DWing

1) Falta de planejamento2) Descaso com a Arquitetura3) Pouca importância à documentação4) Descaso com metodologia e ferramentas5) Desrespeito ao ciclo de vida do DW6) Descaso com a resolução de conflitos7) Falta de aprendizado com erros passados

Page 49: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Duas das principais causas de crescimento são:Novos dados históricos adicionados de forma compostaAdição de dados sumarizados

Assim, o seguinte paradoxo ocorre:O custo do data warehouse CRESCE !A performance do data warehouse DIMINUI !

Para controlar custos e melhorar performance, o Administrador do Data Warehouse necessita:

Otimizar investimentos em hardware (principalmente em discos, memória e processadores)

Otimizar investimentos em software Melhorar a performance das queries para atender às necessidades de produtividade dos usuários finais

Administração do DWAdministrando o Crescimento

Page 50: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Metadados

$1,872.95$1,472.95

Page 51: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

São os dados dos dados Metadados: técnicos e semânticos Usuários podem examinar o

repositório de metadados para a seleção de subconjuntos apropriados

de dados, em suas consultas ou validações do significado de dados

em seus relatórios

Metadados

Page 52: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

De Negócio termos & definições do negócio posse do dado, cobranças, etc.

Operational origem do dado (fonte) status do dado (ex., activo, arquivado, “purged”) uso de estatist., relat de erro, audit trails..

Metadados

Page 53: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Administrativo definição de fontes, tools, ... schemas, Hierarquias de Dimensão, … regras p/ extração, limpeza, … políticas de refresh, exclusão (purging) perfis de usuários, access control, ...

Metadados

Page 54: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Uso por ferramenta de consulta que automaticamente lê o catálogo de um BD( metadados) , acessa os dados desejados e apresenta aos usuários informação sobre negócios

Quando o usuário faz “drill down” em resumos de dados em um BD (usa metadados) para detalhar dados em uma certa analise

As ferramentas (ETL) de extração / transformação automaticamente usa os metadados na tarefa de mapeamento dos dados “legacy”para a carga de DW

Etc...

Metadados - Exemplo de usos

Page 55: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Metadados(resumo)Contém (pelo menos): A estrutura do dados Os algoritmos usados para

os resumos e derivação de dados

O mapeamento do ambiente operacional para o DW

Page 56: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

É usado como: Um diretório para ajudar o analista de

OLAP a localizar o conteúdo do DW Um guia para o mapeamento de dados,

do ambiente operacional para o ambiente warehouse

Um guia para os algoritmos usados no processo de agregação e resumos de dados

Metadados(resumo)

Page 57: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Requisitos de Metadados para Ferramentas de 3a. Geração

Geração e Atualização Automática de Metadados Visualização de Metadados via Web Metadados Técnicos, Operacionais e de Negócio Análise de Dependências Armazenamento dos Metadados em Repositório Contido

em SGBDR Aberto Integração de Metadados Técnicos a Metadados

Operacionais e a Metadados de Negócio

Page 58: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

FerramentasFerramentas

Hummingbird-GenioETISagentInformatica....

IBM(Informix)(Red Brick)MicrosoftOracleSybase(Tandem)Teradata........

BrioBusiness ObjectCognosMicroStrategyINF Advantage.........

Page 59: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Ferramentas de DW de Desenvolvimento

design & edit: schemas, views, scripts, rules, queries, reports de Planejamento & Análise

Cenários what-if (mudança de schema, períodos de refresh), capacity plan, etc.

de Gerência de DW monitoração de performance, padrões de uso, relat de exceção,

etc de Gerência de Sistema & Network

mede tráfego (fontes => DW => clientes) de Gerência de Workflow

Scripts p/ “limpar” & analisar dados, executar tarefas etc.

Page 60: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Situação do Mercado Extração e integração feitas off-line

em grandes e lentos progs em batch Tudo vai p/o DW

Não é seletivo sobre o que deve ir ao DW Benefício de Query vs custo de storage & update

Query optimization (dbms) ainda de OLTP => alto throughput em vez de rapidez pois processa toda a query antes de mostrar

alguma coisa...

Page 61: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Check-list de Arquitetura para o DW • Arquitetura Informacional “Multi-camada”

– Informação consistente para a corporação (DW), para cada departamento e para os usuários/unidades (DMs)

– Informação necessária, formato e nível de detalhe adequado para os diversos tipos de usuários

– Estrutura de dados adequada para cada tipo de usuário

– Performance de acesso otimizada para cada tipo de usuário

• Arquitetura de ETL ( ETLM ) em Camadas– Minimizando o impacto nos sistemas “legacy” -

performance otimizada– Assegurando qualidade dos dados dentro do

DW –Coordenando a captura de metadados – Minimizando o esforço de desenvolvimento – Baixo impacto, manutenção simplificada - fácil

adaptação a mudanças

DistributedData Marts

Departmental Data Marts

Atomic Data

Archived Detail Data

Source Data Meta Data

Atomic DataSource

Data DepartmentalData Marts

Distributed Data Marts

Extract &Transformation

ApplicationsMeta Data

Page 62: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

O Balanço Adequado dos Ingredientes

FERR

AM.

ALICERCETECNICO

TALENTOSucessoem

Data Warehousing

Ferramentasde Software

Consultoriae Serviços

•Infra-estrutura de Hardware e Rede•Metodologia •Best-practices•Arquitetura •Modelos Genéricos

Extração/Transformação/CargaQualidade/Limpeza de DadosGerenciamento de MetadadosScheduling e TransporteAcesso OLAP / Data MiningMonitoração e Adm.. . .

Especialistas - NegócioEspecialistas - Ferram.Especialistas – Plataform.Arquitetos/ModeladoresGerentes de ProjetoAdm de dados/metadados. . .

Page 63: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

O Conselho FinalUse o triângulo (harmonia):

Equipe, Ferramentas e Arquitetura

BIBLIOGRAFIABuilding the Data Warehouse, Inmon, Wiley, New York, 1992The Data Model Resource Book, Silverston, Inmon, Graziano, Wiley, New York, 1997The Data Warehouse Toolkit, Kimball, John Wiley & Sons, New York, 1996 Palestra de Modelagem e Extração (ConsultBrasil)

Page 64: Slide sem título - Universidade Federal do Parဦ · PPT file · Web view2003-11-06 · DWing e Ferramentas de ETLM Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Contexto

Exercícios

Quais os principais subprocessos de DWing? Explique sucintamente o processo de ETLM.

Que significa o E? o T? o L? e o M? Qual o papel de Metadados em DWing e onde

ele entra no processo?