tema 1: introdução a data warehouse prof. dr. …...2. data warehouse características: • não...

45
Tema 1: Introdução a Data Warehouse Prof. Dr. Lawrence Chung Koo

Upload: others

Post on 11-May-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Tema 1:

Introdução a Data Warehouse

Prof. Dr. Lawrence Chung Koo

Page 2: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Sumário

1. Introdução

2. Data Warehouse

3. Data Mart

4. Metadados

5. Modelo multidimensional

Pontuando

Page 3: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

1. Introdução

Fase de armazenagem

• Data warehouse (visão de todo o negócio)

• Data mart (dividido por assunto ou departamentos)

• Metadados (informação sobre os dados)

• Como essas informações estão armazenadas?

Fonte Imagem: http://Office.com

Page 4: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Gestão e Operação

Dados Operacionais e Externas

ExtraçãoTransformação

Carga

Armazenagem DW

Áreas de Negócio

Busca e Entendimento

Análise e Descoberta

Elemento de DadosMapeamentosBusiness Views

Processo de Datawarehousing

Prof. Dr. Lawrence Chung Koo

Page 5: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

1. Introdução

Fase de armazenagem

Page 6: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Sumário

1. Introdução

2. Data Warehouse

3. Data mart

4. Metadados

5. Modelo multidimensional

Pontuando

Page 7: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Definição

• O data warehouse pode ser considerado um banco

de dados voltado a um conjunto de assuntos. Ele

extrai informações valiosas das diversas fontes de

dados e as armazena no banco de dados único de

um forma estruturada para atender as ferramentas

de suporte à decisão.

Page 8: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Definição

• Ralph Kimbal define o data warehouse como um

conjunto de data marts.

• Bill Inmon, define o data warehouse como sendo

uma estrutura que possui as seguintes

características: orientado a assunto, integrado, não

volátil e variável no tempo.

Fonte Imagem: http://Office.com

Page 9: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Definição

Ralph Kimball define o data

warehouse como um conjunto de

data marts que representa os focos

de análise de forma intuitiva,

facilitando a filtragem e agregação dos

dados gerenciais.

Bill Inmon define o data warehouse

como uma base de dados orientada

por assuntos, integrada, não

volátil, com histórico cumulativo

indexado no tempo.

Ralph Kimball

Fonte da imagem: Intelligent Enterprise, 2007. Google image

Bill Inmon

Page 10: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Tema 2:

Data Warehouse e Data Mart

Prof. Dr. Lawrence Chung Koo

Page 11: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Características:

• Orientado a assunto: as suas estruturas devem

ser organizadas de forma a atender a necessidade

de se estudar um determinado assunto.

• Departamento de vendas :

Produtos x Mês

• Departamento de marketing:

Avaliar o produto durante o ano

Fonte Imagem: http://Office.com

Page 12: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Características:

• Integrado: deve armazenar informações de

diferentes fontes de dados de forma consistente.

Ou seja, deve ter seus dados apurados por

ferramentas de ETL.

Page 13: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Características:

• Não volátil: isto significa que o banco de dados

não pode ser atualizados, eles são somente

consultados.

• Variável no tempo: os dados devem ser

armazenados de acordo com o momento do

carregamento.

• Permite que a mesma consulta seja retornada

com o mesmo dados

Fonte Imagem: http://Office.com

Page 14: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Arquitetura DW – Bill Inmon

Prof. Dr. Lawrence Chung Koo

Fonte: The Data Warehouse Toolkit – R. Kimball

TransaçõesFontes

Aq

uis

içã

o d

e d

ad

os

EDW(DWCorporativo)

Tabelas em3ª. FormaNormalDadosAtômicosPesquisávelPeloUsuário

Da

ta D

eli

ve

ry

Data Mart- Dimensional- Geralmente

Sumarizado- Departamental A

pli

ca

çõ

es B

I

Back roomFront room

Page 15: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Arquitetura DW – R.Kimball

Prof. Dr. Lawrence Chung Koo

Fonte: The Data Warehouse Toolkit – R. Kimball

TransaçõesFontes

E

T

L

EDW(DWCorporativo)

Tabelas em3ª. FormaNormalDadosAtômicos

E

T

L

Área de Apresen-tação

- Dimensional (Star Schemaou Cubos OLAP)

- Dados atômicos e sumarizados

- Organizados pelos processos de Negócios

- Utilizados na suas dimensões

Ap

lica

çõ

es B

I

Back room Front room

EDWBUS

Page 16: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Características:

• Variável no tempo:

Cliente

Nome Est. Civil

Maria Casada

José Solteiro

10/01/10 Cliente

Nome Est. Civil

Maria Casada

José Solteiro

Ana Solteira

João Casado

10/01/11

Page 17: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Estrutura:

Page 18: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

2. Data Warehouse

Diferenças entre BI e Data Warehouse:

• Inteligência de negócios

• Utilização da tecnologia de data warehouse

• Ferramentas de apoio a tomada de decisão

• Voltado a negócios

• Parte organizacional

Page 19: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Sumário

1. Introdução

2. Data Warehouse

3. Data Mart

4. Metadados

5. Modelo multidimensional

Pontuando

Page 20: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

O que é um Data Mart

Data Mart

“Uma implementação de um DW com um escopo menor emais restrito de dados e funções, servindo a um únicodepartamento ou parte de uma organização”*

Fontes

de Dados

Prof. Dr. Lawrence Chung Koo

Page 21: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

3. Data Mart

Definição:

• É um segmento/parte do Data Warehouse;

• Separado por assunto/departamento;

• Protótipo rápido;

• Restringe o acesso aos dados;

• Possui três tipos: dependente, independente e o

híbrido.

Page 22: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Data Mart - Características

Características de um Data Mart

Um data mart tem escopo restrito

tamanho, usabilidade, ciclo de vida

Um data mart suporta dados primitivos, sumarizadosou outras derivações, direcionados para resolver umproblema de negócio

Um data mart geralmente suporta análise de dadosmulti-dimensionais

O desenho de um data mart tende a ser dependenteda ferramenta

Prof. Dr. Lawrence Chung Koo

Page 23: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Tema 3:

Data Marts e Metadados

Prof. Dr. Lawrence Chung Koo

Page 24: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

3. Data Mart

Tipos de Data Mart:

• Dependente: Sua fonte de

dados é o próprio data

warehouse .

Fonte Imagem: adaptado de LANE et al., 1999

Page 25: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

3. Data Mart

Tipos de Data Mart:

• Independente: É criado sem

um data warehouse central,

busca as suas informações

diretamente dos bancos

operacionais e dados

externos

Fonte Imagem: adaptado de LANE et al., 1999

Page 26: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

3. Data Mart

Tipos de Data Mart:

• Híbrido: Não há exigência

quanto ao tipo de sua fonte

de dados. Pode ser gerado a

partir de diversas fontes

como data warehouses, data

marts, bancos de dados

operacionais e dados

externos.

Fonte Imagem: adaptado de LANE et al., 1999

Page 27: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Sumário

1. Introdução

2. Data Warehouse

3. Data Mart

4. Metadados

5. Modelo multidimensional

Pontuando

Page 28: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

4. Metadados

Definição:

• Os metadados são informações sobre os dados;

• A ideia principal, é abstrair a informação de forma

que ela possa ser compreendida por qualquer

sistema;

• Possuem 4 tipos: sintáticos, estruturais,

semânticos e negócios/técnicos.

Page 29: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

4. Metadados

Definição:

• Os Metadados podem estar dentro encapsulados dentro do

mesmo arquivo de dados ou podem estar separados em

outros arquivos. Por exemplo, no início de cada arquivo de

dados temos a descrição em forma de tags.

<nome>

Conteúdo com a característica da tag

</nome>

• São baseadas nos padrões XML (Extended Markup

Language – Linguagem de Marcação Extendida).

Page 30: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

4. Metadados

Definição:

• Dicionário de dados

• Catálogo de dados

• Diretório de dados

• Normalmente administrado por um DA (Data

Administrator), gestor de informação da empresa

Page 31: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Tema 4:

Modelo Multidimensional

Prof. Dr. Lawrence Chung Koo

Page 32: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Sumário

1. Introdução

2. Data Warehouse

3. Data Mart

4. Metadados

5. Modelo multidimensional

Pontuando

Page 33: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

5. Modelo Multidimensional

Definição:

• É uma forma de estruturação dos dados é

baseada em tabelas dimensão e fato,

diferentemente da entidade-relacionamento que

nós conhecemos.

Page 34: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

5. Modelo Multidimensional

Definição:

• Tabelas dimensão: são as unidades de

consultas representadas por tabelas que devem

possuir um campo de identificação (chave) e

campos interessantes para consulta/junções que

podem ser estar organizados de forma

hierárquica.

Page 35: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

5. Modelo Multidimensional

Definição:

• Tabelas fato: são tabelas que relacionam/

agrupam dimensões através de medidas. Ela

contém chaves das dimensões e as medidas da

relação entre seus membros.

Page 36: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

5. Modelo Multidimensional

Modelo estrela:

Page 37: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

5. Modelo Multidimensional

Modelo floco de neve:

Page 38: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

5. Modelo Multidimensional

Consultas

• Representação do cubo

vendas (fato) para análise

da data, produto e cliente

(dimensões).

Page 39: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

5. Modelo Multidimensional (OLAP)

230

49

31

9258

6819132214

16610

3510718

63202815

48122511Curitiba

Recife

São Paulo

Rio de Janeiro

VW

Porto Alegre

Total de acidentes

GMFiat Honda

Total de acidentes comveículos marca Honda

Veículos marca GM acidentados em

Recife

Total de acidentesem Porto Alegre

Cidades

Veículos

Fonte: Kugler, 2013.

Acidentes em 26/set

Page 40: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

58

14

18

15

11

58

14

18

15

11

58

14

18

15

11

58

14

18

15

11

14

18

15

11

58

14

18

15

11

58

14

18

15

11

58

14

18

15

11

58

14

18

15

11

14

18

15

11

14

18

15

11

58

14

18

15

11

14

18

15

11

58

14

18

11

14

18

15

11

Curitiba

Recife

São Paulo

Rio de Janeiro

VW

Porto Alegre

GMFiat Honda

26/set27/set

28/set

Total de veículos Fiat acidentados em Recife

nos 3 dias

Cidades

Veículos

Data

Total de veículos FIAT acidentados em 27/set

Total de acidentesnos 3 dias

Total de veículos Honda acidentados nos

3 dias

Total de veículos GM acidentados em Porto

Alegre nos 3 dias

Total de acidentes

em Porto Alegre em 28/set

5. Modelo Multidimensional (OLAP)

Fonte: Kugler, 2013.

Page 41: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Modelo ER vs. Modelo Dimensional

ER MD

Fonte: Kugler, 1997.

Page 42: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Modelo Relacional

Voltados para processamento transacional (OLTP –online transaction processing).

Executam operações específicas, pontuais,predefinidas.

Gerenciam acessos múltiplos ao mesmo banco dedados.

Muitas pessoas realizando concorrentemente asmesmas operações.

Tempo de resposta precisa ser imediato.

Transações rápidas e curtas operando sobre poucosdados.

Fonte: Kugler, 2013.

Page 43: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Atualização em tempo real.

As bases de dados refletem imediatamente asoperações realizadas.

Controle rígido de concorrência.

Mecanismos de locking, commit e rollback paraevitar corrupção dos dados.

Extração e Reporting complicados.

Muitas solicitações encaminhadas à TI, gerandobacklog.

Históricos com horizonte breve.

Em geral, limitados a poucos meses.

Modelo Relacional

Fonte: Kugler, 2013.

Page 44: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são

Modelo Dimensional

Orientado para análise (OLAP – onlineanalytical processing).

• Consultas para análises táticas e planejamentoestratégico.

Menos usuários.

• Relativamente poucas pessoas realizandoconsultas e análises ao mesmo tempo.

• Tempo de resposta > minutos ou horas.

• Consultas sobre muitos fatos e grande volumede dados.

Page 45: Tema 1: Introdução a Data Warehouse Prof. Dr. …...2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são