ccm205 aula17 dw - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/... ·...
TRANSCRIPT
1
Data Warehouse
Profa. Maria Camila Nardini [email protected] B - sala 937
2° trimestre de 2011
Pós-graduação em Ciência da ComputaçãoCCM-202 Sistemas de Banco de Dados
CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
IntroduçãoNegócio
Ambiente de negócio em mudança constanteAnálise complexa — questões impossíveis de se preverAlto volume de dados e necessidade de resposta rápida
2
IntroduçãoO Ambiente de DadosDados – Componentes básicos
Informação – Dados em um contexto
Contexto – Situação a ser analisada
Conhecimento – informação, que permite tomar decisões adequadas,
� Vantagem competitiva
Banco de Dados – Coleção de dados logicamente relacionados para uma finalidade
3CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
IntroduçãoComo obter a informação certa?
Dados dos Clientes Dados de Compras
Comentários e Reclamações de Clientes
Dados de Levantamentos
Pedidos de Serviço
Dados de ProdutosDisponíveis
4CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
IntroduçãoSurge o Data Warehouse
Integrar dados de múltiplas fontesFacilitar o processo de análise sem impacto para os dados operacionaisObter informação de qualidadeAtender diferentes tipos de usuáriosFlexibilidade e agilidade para realizar novas análises
BDs Operacionais
DW
SAD OLAP Data
Mart
5CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse DefiniçãoUm data warehouse (ou armazém/depósito de dados) é uma coleção de dados:� orientada por assuntos, � integrada, � variante no tempo, � e não-volátil,
Tem por objetivo dar suporte aos processos de tomada de decisão
W. H. Inmon
7CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
2
Data Warehouse Definição
Orientada por assuntos� Refere-se aos negócios da empresa� Ao contrário dos sistemas transacionais que focam no controle operacional do dia-a-dia
� Exemplo: numa empresa de telecom, o principal assunto é o cliente, o arquiteto de DW deve desenhar o modelo, dividindo as visões de acordo com o que o analista quer ver
8CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Definição
Integrada� Utiliza todos os outros sistemas de informação da empresa, sincronizando os dados e colocando-os no mesmo padrão
� Os dados são de vários sistemas da empresa, e até, dados externos, como a cotação do dólar
� Problemas que podem surgir na hora da análise: geralmente os dados não estão padronizados � exemplo: atributo sexo (pode ser M ou F, 0 ou 1) � Para isto:
� na fase de ETL (Extração, Transformação e Carga), um único padrão
9CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Definição
Não-volátil� A atualização dos dados não implica em sobreposição
� No DW, acontecem somente cargas de dados e consultas - há somente selects e inserts, e não há updates
10CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse DefiniçãoVariáveis com o tempo� O DW retrata a situação que estamos analisando, num determinado ponto do tempo
� O DW mantém características de base de dados temporal� A chave do registro contém um elemento de tempo
� Analogia com as fotografias� Pegue uma fotografia sua, quando recém nascido, depois, pegue outra quando você tinha 5 anos, e compare
� Com certeza muitas modificações ocorreram, mas ela retrata exatamente a sua situação naquele exato momento do tempo
� Guardamos fotografias dos assuntos em determinados pontos do tempo, e com isso é possível poder traçar uma análise histórica e comparativa entre os fatos
11CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Arquitetura
12CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
PropriedadesDimensão� Mega, Giga, Tera Bytes - Não existe uma fronteira fixa
A informação é guardada para análise:� de forma a poder ser obtida de forma mais eficiente� separada do sistema operacional� Suportam sistemas sofisticados de análise on-line
� Análise Multi-dimensional
Integrar informação proveniente de mais que um sistema operacional.� Integrar informação sobre salários, finanças, marketing,
produção.� Possibilidade de cruzar informação
13CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
3
Sumarização dos dadosMuitas consultas e relatórios são agregações baseados em parâmetros pré-definidos.� Vendas por semana, mês, ou trimestre
Uma diferença importante:� Num sistema o que existe fisicamente é a definição
da consulta� A execução da consulta dá origem a uma tabela virtual que
existe apenas enquanto a consulta está a ser executada.
� Num DW existe uma tabela que é criada e mantida independentemente do utilizador
Eficiência na obtenção de resposta� Novas técnicas de indexação
14CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Considerações no processo de Data Warehousing
Que dados incluir?
Como conciliar inconsistências?
Frequência de atualizações?
15CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Arquitetura de DW
Data Warehouse
Extração Transform . Carga Atualização
BDs Operacionais
Fontes Externas
FONTES DE DADOS
Data Marts
FERRAMENTAS DE CONSULTA
Análise
Data Mining
Ger . Relatórios
Monitoração
Meta Dados
Administração
Serv . OLAP
Serv . OLAP
Visão Geral sobre DW16CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Identificando a necessidade1. A empresa se baseia em informações
para a tomada de decisões2. O segmento de negócios da empresa é caracterizado
por uma forte concorrência e mudanças rápidas3. A base de clientes é grande e diversificada4. Os dados estão armazenados em diversos locais5. Os dados estão duplicados e espalhados por diversos
sistemas6. Os dados estão em formatos e especificações diferentes7. A empresa está distribuindo o processo decisório,
buscando maior agilidade e rapidez
18CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Projeto: Aspectos IniciaisCriar um data warehouse não é uma questão de tecnologia de Banco de Dados
Envolve: Planejamento e Modelagem
Um projeto completo costuma ser caro
Não pode ser exclusivo da área de sistemas
Levar em consideração o lado cultural
19CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Projeto: Aspectos Iniciais
Equipe de projeto� Pessoal da área de negócios
� Necessidades dos negócios
� Pessoal da área tecnológica� Necessidades da empresa
� Projeto e implementação
Projeto de HardwareHDRAMMultiprocessada+ HD
20CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
4
Montagem Carregamento DistribuiçãoAcesso
Data Warehouse Etapas do projeto
21CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Dados OperacionaisDados operacionais são armazenados em aplicações já existentesCada aplicação possui seu conjunto único e particular de requisitos Problemas:� Mesmos dados em vários lugares com nomes diferentes
� Dados que apresentam o mesmo nome em todos os lugares mas com diferentes unidades de medida
22CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Aspectos ImportantesQualidade dos Dados� Validade� ConsistênciaSegurança dos Dados� Regras de Segurança� Administração da Segurança� AuditoriasIntegração dos Dados� Armazenar e Integrar os dados de várias áreas da empresa em uma única base de dados de modo que estas possam pesquisar e utilizar os dados de forma consistente e sem redundância
24CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Dados Primitivos x Dados Derivados
Dados Operacionais
Data Warehouse
25CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
detalhados
acesso contínuo
valores atualizados
voltados para as aplicações do cotidiano
Dados Operacionais
Data Warehouse
Data Warehouse Dados Primitivos x Dados Derivados
26CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
orientados a um assunto
integradosnão-voláteis
variáveis com o tempoutilizados para apoiar decisões gerenciais
Dados Operacionais
Data Warehouse
Data Warehouse Dados Primitivos x Dados Derivados
27CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
5
Data Warehouse Exemplo
apólice de vidaJosé da SilvaMasculino20 de julho de 1945 ... ... ...
apólice de automóvelJosé da Silva Duas multas no ano passadoum acidente grave ... ... ...
apólice de saúdeJosé da Silva dois filhoshipertensão arterial ... ... ...
apólice residencialJosé da Silva Rua Bela, 123casado ... ... ...
clienteJosé da Silva Masculino, nascido em 20 de julho de 1945teve duas multas no ano passadoe um acidente gravemora na Rua Bela, 123é casadotem dois filhossofre de hipertensão arterial ... ... ...
28CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Dados: Questões importantesQuando coletar os dados?� Duas arquiteturas
� Centrada nas fontes de dados � responsáveis pela transmissão dos dados
� Centrada no DW � requisita dados
Como coletar os dados?� Por meio de extratores de dados compostos:
� Uma ou mais operações de consulta� Pode ser em SQL
�Mecanismos de comunicação
29CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Modelo de Dados: Questões importantes
Que esquema utilizar?� O projeto de DW é dirigido pelas projeções de uso
� Para que propósito? De que modo?� Definido o modelo � esquema
� Além da definição do esquema � repositório de metadados contendo:� Detalhes técnicos
� Processo de aquisição, estruturas de armazenamento, descrições de dados e operações de manutenção
� Detalhes da aplicação� Regras de negócio
30CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Modelo Dimensional
O modelo de organização das informações de um data warehouse é conhecido como sendo um Modelo Dimensional (ou Multidimensional)
Oferece um ferramental para a concepção e visualização de um conjunto de medidas que descrevem aspectos comuns de negócios
É formado por três elementos básicos:� Fatos� Dimensões� Medidas
31CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Modelo Dimensional
Fatos� Itens de dados
� Medidas� Contexto
� É utilizado para analisar o processo de negócio de uma empresa
� É representado por valores numéricos
32CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Modelo Dimensional
Dimensões� Elementos que participam de um fato
� São as possíveis formas de visualizar os dados� São os “por”: “por mês”, “por produto”, ...
� Determinam o contexto de um assunto de negócios
� Normalmente não possuem atributos numéricos
� Podem possuir níveis de hierarquia� Tempo: Ano, Trimestre, Mês� Local: Estado, Cidade
33CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
6
Data Warehouse Modelo Dimensional
Medidas (Variáveis)� Atributos numéricos que representam um fato
� São determinadas pela combinação das dimensões que participam de um fato
34CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Modelo Dimensional
Fornece uma abstração na qual o usuário visualiza os dados como pertencentes a um cubo de dados
Cada aresta representa uma das dimensões do negócio e seus valores são distribuídos ao longo da mesma
O modelo não se restringe à organização de somente três dimensões� É possível criar e manipular n dimensões
35CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Modelo Dimensional
Nesse cubo escolheu-se como dimensões o Local da venda, o Tempo (momento) da venda e o Produtovendido
Local
Tempo
Produto
Vendas
36CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
A medida é o volume de venda � determinado pela combinação: local, produto, tempo
Data Warehouse Tipo de implementaçãoStar ou Estrela� Tabela de fatos� Tabela dimensional
Snowflake ou Floco de Neve
37CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Projeto: Etapas
Definir os processos (tabelas fatos)Identificar as informações necessárias para dar suporte aos processos decisórios e onde essas informações serão obtidasDeterminar a granularidade e as agregações dos dadosDefinir e detalhar as tabelas de fatos Definir e detalhar as dimensões
38CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse GranularidadeA granularidade diz respeito ao nível de detalhe ou de resumo contido nas unidades de dados existentes no data warehouse
Alto nível de detalhesBaixo nível de granularidade
Baixo nível de detalhes
Alto nível de granularidade
39CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
- Afeta o volume de dados que reside no DW- Quanto maior o volume, menor a performance
7
Data Warehouse Modelo Estrela
Uma forma de implementar o modelo dimensionalExiste uma tabela dominante no centro do esquema, chamada de tabela de fato As outras tabelas possuem apenas uma junção com a tabela central e são chamadas de tabelas dimensõesRelacionamentos 1:M entre dimensões e fato
40CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo Modelo Estrela
codProdcodTempocodRegiaovendas
qt-vendasunidadevr-vendas
VENDAS
codTempodata
semanamês
trimestreano
TEMPO codProdutocategoria
des-categoriaestilopreco
PRODUTO
codRegiaocidadeestadopais
REGIAO
tabela fatos
tabela dimensão
tabela dimensãotabela
dimensão
41CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Modelo Snowflack
Uma forma de implementar o modelo dimensional
Um refinamento do esquema estrela, no qual astabelas dimensão são organizadas em umahierarquia por meio de sua decomposição
Relacionamentos M:1 entre os membros emuma dimensão
42CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Modelo Snowflack
codProdcodTempocodRegiaovendas
qt-vendasunidadevr-vendas
VENDAS
codTempodata
semanaMesano
TEMPO
codProdutocategoriaestilopreco
PRODUTO
codRegiaocidadeestado
REGIAO
tabela fatos
tabela dimensão
tabela dimensão
tabela dimensão
mestrimestre
TEMPO-MES
estadopais
ESTADO
tabela dimensão
categoriades-categoria
CATEGORIA
tabela dimensão
tabela dimensão
43CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Modelagem Tradicional X Modelagem Multidimensional
O modelo relacional de BD (3FN) foi desenhado para:� Flexibilidade para extensões
� Eficiência no processamento on-line de transações
Quando o objetivo é analisar dados� A dispersão destes por diferentes tabelas é problemático
� A execução de uma consulta em um BD� Requer operações de JOIN entre as tabelas
� Para BD suficientemente grandes esta operação pode levar dias
� Os dados sujeitos a análise poderão estar num SGBD relacional, não (necessariamente) na 3FN
44CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Des-normalização dos dados
Normalização� Desdobra uma relação em várias relações
independentes.� Aumenta a flexibilidade do modelo
Des-normalização� Concatena várias relações numa única� Reduz a necessidade de operações de Join em
consultas.� Campos Calculados
45CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
8
Data Warehouse Exemplo1: Modelo Base Operacional
Professor
Aluno
Disciplina
faz parte
N
N
N
1
NCursoContém
Matricula
N
1
46CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo1: Modelo Relacional
47CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Aluno = {NumAluno, Nome, Endereco, Cidade, Telefone, NumCurso(Curso.NumCurso)}
Disciplina= NumDisc, Nome, QuantCreditos}
Professor={NumFunc, Nome, Admissao, AreaPesquisa}
Curso={NumCurso, Nome, Area, TotalCréditos}
Ministra={ NumAluno(Aluno.NumAluno), NumDisc(Disciplina.NumDisc), NumFunc(Professor.NumFunc), Semestre, Nota}
Constituido={NumDisc(Disciplina.NumDisc), NumCurso(Curso.NumCurso)}
Data Warehouse Exemplo1: PerguntasQual é o fato?� aula
O que é medido em fato?� crédito, nota
Qual a granularidade do fato?� semestre
Quais as dimensões?� Curso, Professor, Aluno, Disciplina
Quais os agrupamentos nas dimensões?48CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo1: Modelo Estrela
NumFuncNomeAreaPesquisa
Professor
CódigoDoCursoCódigoDoProfessorCódigoDoDisciplinaCódigoDoAlunoSemetrenotacredito
Aula
CódigoDoCursoNomeArea
Curso
CódigoDoDisciplinaNome
Disciplina
NumAlunoNomeCidadeEstado
Aluno
49CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo2:
Tabela Relacional
50CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo2:
Tabela Dimensional (matriz bi-dimensional )
Vendas dimensionado por Produtos e Regiões
produtos
regiões
51CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
9
Data Warehouse Exemplo2:
Consolidação?
52CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo2:
Tabela Dimensional (matriz bi-dimensional )
Vendas consolidadas e dimensionadas por Produtos e Regiões
produtos
regiões
53CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo2: Modelo Multidimensional
TEMPOPRODUTO
REGIÃO
FATOS
54CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo2: Dimensões
Consultas típicas:� Grupos de produtos
� Vestidos de mulher
� Consultas que envolvem tamanho, cor, estilo
As consultas poderão ser aceleradas se a informação sobre os produtos estiver numa única tabela� Situações onde o acréscimo de informação
não relevante é grande pode ser contraproducente
55CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Exemplo2: Modelo Estrela (Star)
Vendas
chave_de_produto (FK)chave_de_loja (FK)chave_de_promoção (FK)chave_de_tempo (FK)
VendasQuantidadesCustosContador_de_Clientes
Produto
chave_de_produto
descriçãopacote_de_unidadessub-categoriacategoriadepartamentodietapesoprateleira
Loja
chave_de_loja
nomeendereçocidadeestadodistrito_de_vendas...
Tempo
chave_de_tempo
dia_da_semanadia_do_mêsmêstrimestreano_fiscaferiadofim_de_semanaúltimo_dia_do_mês
Promoção
chave_de_promoção
nome_da_promoçãotipo_de_reduçãocusto_da_promoçãoinício_da_promoçãofim_da_promoção
Tabela Fato
56CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011 57CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
10
Montagem Carregamento DistribuiçãoAcesso
Data Warehouse Etapas do projeto
58CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Carregamento: Questões importantes
Como alimentar o DW?� Dados do DW � extraídos de múltiplas fontes de dados heterogêneas
� É necessária etapa de pré-processamento composta de várias etapas� Limpeza � qualidade dos dados� Transformação � divisão ou combinação de itens de dados
� Consolidação � relacionamentos implícitos se tornam explícitos
59CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Carregamento
Aplicação A m,fAplicação B 1,0Aplicação C x,yAplicação D masc, fem
Aplicação A centAplicação B polegAplicação C pésAplicação D jardas
m,f
cent
60CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Montagem Carregamento DistribuiçãoAcesso
Data Warehouse Etapas do projeto
61CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse AcessoAcesso eficiente aos dados dos sistemas existentes
Problema:� Como saber quais os dados que já foram varridos dos sistemas de informação
� Realizar varreduras completas toda vez que há necessidade de enviar dados ao ambiente de data warehouse é custoso e trabalhoso
62CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Tipos de carga
Carregamento de dados históricos
� dados são carregados verificandoo histórico do ambiente operacional
Carregamento de dados de valor corrente do ambiente operacional
� dados operacionais são descarregados em um arquivo seqüencial para posterior carregamento
Carregamento de alterações do data warehouse
� parte de alterações (atualizações) no ambiente operacional desde a última atualização do data warehouse
63CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
11
Data Warehouse Acesso: Questões importantes
Como propagar atualizações?
� Quão atualizados os dados precisam estar?
� O warehouse pode ficar fora de serviço? Por quanto tempo?
� Qual é a disponibilidade de armazenamento?
� Qual é o tempo de carga (incluindo a etapa de pré-processamento e transmissão)?
Quando eliminar dados (purging)?
64CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Montagem Carregamento DistribuiçãoAcesso
Data Warehouse Etapas de um DW
65CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Distribuição
BANCO DE DADOS
BANCO DE DADOS
BANCO DE DADOS
FERRAMENTA DE EXTRAÇÃO
DE DADOS
FERRAMENTA DE TRANSFORMAÇÃO
DE DADOS
OLAP
DATA MINING
SIMULAÇÃO
FERRAMENTA DELIMPEZA DE DADOS
FERRAMENTA DE CONSULTA
FERRAMENTA DE GERENCIAMENTO DE RELATÓRIOS FERRAMENTA DE
GERENCIAMENTO EADMINISTRAÇÃO
TRANSFERÊNCIA DE DADOSE REPLICAÇÃO
REPOSITÓRIO DE METADADOS
66CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Distribuição
Ferramentas gerenciamento de consultas:� consultas e/ou relatórios retirando os dados do data warehouse, resumindo-os e apresentando-os em um formato apropriado
Ferramentas para gerenciamento de relatórios: � são semelhantes às ferramentas do item anterior, porém elas estão voltadas para a geração de relatórios mais complexos, contendo, por exemplo, relatórios sintéticos e analíticos em conjunto, gráficos e outros tipos de visualização dos dados
67CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Distribuição
Simulação: � projeta cenários respondendo perguntas do tipo “e se”, por exemplo: “e se os juros aumentarem, qual será o comportamento de minhas vendas?”
OLAP:� É a parte mais visível do data warehouse porque é por meio dessas ferramentas que se faz a análise dos dados. Ajudam os gerentes a sintetizarem as informações sobre a empresa por meio de comparações, visões personalizadas, análise histórica e projeção de dados.
68CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse Distribuição
Mineração de Dados: � ferramental utilizado para descobrir novas correlações, padrões e tendências por meio da análise de grandes quantidades de dados armazenados em data warehouse usando técnicas de reconhecimento de padrões, estatísticas e matemáticas
69CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
12
On-Line Analytical Processing - OLAPModelo Relacional � Operações da Álgebra Relacional
Modelo Dimensional � Operações OLAP
Caracterizada pela análise dimensional dinâmica dos dados apoiando o usuário na suas atividades� Construção de relatórios para responder questões gerenciais
70CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAPModelo Dimensional
Nesse cubo escolheu-se como dimensões o Local da venda, o Tempo (momento) da venda e o Produto vendido. Local
Tempo
Produto
Vendas
71CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAP Modelo DimensionalPara visualização dos dados primeiramente escolhe-se 2 dimensões. Por exemplo dimensão tempo e Local. Local
Tempo
Produto
Vendas
72CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAP Operações sobre o CuboMudar Granularidade� Movimentar a visão dos dados ao longo dos níveis hierárquicos
de uma dimensão � Drill-Down
Local (Estados)
Tempo
Produto
Vendas
Jan
Fev
Mar
Abr
Mai
São Paulo Rio de JaneiroJun
Drill-down
Local (Cidades)
Tempo
Produto
Vendas
Jan
Fev
Mar
Abr
Mai
S.Carlos R.Preto R.Janeiro CamposJun
73CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAP Operações sobre o Cubo
Mudar Granularidade� Movimentar a visão dos dados ao longo dos níveis hierárquicos
de uma dimensão � Roll-up
Roll-up74CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Local (Estados)
Tempo
Produto
Vendas
Jan
Fev
Mar
Abr
Mai
São Paulo Rio de JaneiroJun
Local (Cidades)
Tempo
Produto
Vendas
Jan
Fev
Mar
Abr
Mai
S.Carlos R.Preto R.Janeiro CamposJun
OLAP Operações sobre o CuboRotacionamento (Rotate)
� Ângulo pelo qual os dados são vistos ou trocados
Produto
Local
Tempo
Vendas
Local
Tempo
Produto
Vendas
Local
Tempo
Produto
Vendas
75CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
13
CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAP Resultados
Analisando os resultados de vendas por região, nosso diretor identifica os bons resultados de vendas da região sudeste 76 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Ele vê então os resultados da região sudeste detalhados por estados. No entanto verifica que esses resultados da região sudeste estavam mascarando problemas de vendas no estado de São Paulo. Para identificar o problema, ele busca informações ainda mais detalhadas
OLAP Resultados
77
OLAP Resultados
Agora ele pode identificar com precisão o desempenho de cada produto e observar que o CDPlayer apresentou o maior problema de vendas
78CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
MOLAP
ROLAP
WOLAP
HOLAP
OLAP Tipos OLAP
79CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Suporte OLAP (implementação)
Para a visualização dos dados, existe uma classe específica de ferramentas, comumente conhecidas como ferramentas OLAP
ROLAP (Relational OLAP) – a arquitetura se compõe de:
SGBD + ferramenta ROLAP
estratégia onde são usados os próprios sgbdrs, com as tabelas sendo implementadas como estruturas relacionais clássicas.
Oferecem todas as vantagens de um SGBDR
exigem um projeto cuidadoso do ponto de vista de performance, onde o excesso de tabelas normalizadas poderá comprometer a performance das buscas. As tabelas básicas e os agregados (visões e cubos) são armazenados nesse formato
80CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Suporte OLAP (implementação)MOLAP ( Multidimensional OLAP) – a arquitetura se compõe de:
SGBD + servidor MOLAP
estratégia onde são usados gerenciadores de BD proprietários, com características de armazenamento especiais e ferramentas para tratamento dimensional de dados.
armazenamento como matrizes esparsas, operações com array e indexação de bitmap
não oferecem toda a gama de recursos (debug, paralelismo, log, otimizadores)
exigem a migração dos dados do SGBD relacional para o armazenamento multidimensional e a sua constante atualização
podem ser limitados na sua capacidade máxima de armazenamento, mas podem apresentar, em tese, melhor desempenho do que as outras alternativas por serem voltados exclusivamente para essas aplicações.
Tanto as estruturas básicas (maior granularidade), quanto as estruturas agregadas ou cubos são armazenadas nesse formato.
81CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
14
Suporte OLAP (implementação)Para a visualização dos dados, existe uma classe específica de ferramentas, comumente conhecidas como ferramentas OLAP
A maioria das ferramentas OLAP comerciais usam "Hybrid OLAP" (HOLAP)
integração de características ROLAP + MOLAP
representa uma abordagem de uso misto das duas estratégias anteriores, onde as estruturas relacionais são normalmente utilizadas para os dados de maior granularidade e as estruturas dimensionais nativas são dedicadas ao armazenamento de agregados (menor granularidade)
82CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Sumário - OLAPObjetivos do OLAP� Sumarização da informação� Análise da Informação
Técnicas� Consolidação de Queries� Bases de Dados Multidimensionais
A essência da tecnologia OLAP:� Flexibilidade,� Resposta rápida
Possibilidade de sumarizar dados sobre várias dimensões� Análise multidimensional
� Análise de tendências sobre o tempo
83CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
SBD vs. DWCaracterística Sistema de BD Ambiente de DW
Origem dos dados
�obtidos principalmente através de programas de aplicação (ou simplesmente, aplicações) do usuário�não há a necessidade de extração prévia de dados, pois as aplicações se encarregam de alimentar e acessar diretamente as bases de dados, via um SGBD
�um ou vários sistemas de bancos de dados possivelmente distribuídos e heterogêneos são as fontes de dados �faz se necessária a extração dos dados, que fica a cargo de aplicações do próprio ambiente DW
Preparação dos dados
�os dados oriundos das aplicaçõespassam por restrições de integridade, mas normalmente, à medida que sãodepositados nas bases de dados, se tornam disponíveis à utilização
�os dados precisam passar porprocessos de extração, limpeza, transformação e integração, parasó aí estarem disponíveis à utilização
84CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
SBD vs. DW
Característica Sistema de BD Ambiente de DW
Processamento de consultas
�o processamento de consultas é feito sem a preocupação de se précomputar as consultas�as consultas são processadas à medida que são solicitadas
�as consultas manipulam volumes maiores de dados e precisam ser, pré-computadas e armazenadas como visões materializadas, de forma a estarem de antemão disponíveis aos usuários
Aplicações �Os programas são normalmente aplicações de cadastro e controle que cuidam das funções operacionais da empresa
�As aplicações estão voltadasprincipalmente aoprocessamento analítico dos dados
85CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Processamento Analítico versusProcessamento Transacional
Características OLAP OLTP
Objetivo Tomada de Decisão Controle Operacional
Operação Típica Análise de Padrões Atualização de Dados
Complexidade das Operações Grande Pequena
Agregação dos Dados Necessária Pouco Utilizada
Dados Históricos Necessários Pouco Utilizados
Freqüência das Transações Moderada Alta
Duração típica das Transações Longa Curta
Usuário Típico Gestores do Negócio Pessoal Operacional
86CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Dados Operacionais vs. Dados AnalíticosFonte: Carlos Barbieri, BI – Business Intelligence – Modelagem & Tecnologia, Axcel Books do Brasil Editora, 2001, Página 47
87CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
15
ReferênciasMachado, Felipe Nery Rodrigues. Tecnologia e Projeto de DataWarehouse. São Paulo:Érica, 2004, 318 p.
Elmasri, Ramez; Navathe, Shamkant B. Sistemas de banco dedados. 4 ed. São Paulo: Addison Wesley, 2005, 724 p.
Inmon, William H. (1996). Building the Data Warehouse. John Wiley & Sons,Inc., 4 edition.
Nota: Estes slides foram produzidos a partir do Material Didáticoproduzido pelos professores Enzo Seraphim e Sahudy MontenegroGonzález
88CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Atividades Propostas
Leitura� Capítulo 28 do Navathe� Introdução e Capítulos 1, 2, 4 e 6
�Machado, F. N. R. Tecnologia e Projeto de Data Warehouse: Uma visão Multidimensional. Editora Érica, 2004.
� Capítulos 2 e 3� Inmon, W. H. Building the data warehouse. 4th ed. Wiley, 2005.
CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011 89