começando com amazon redshift
TRANSCRIPT
![Page 1: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/1.jpg)
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Daniel Bento, Arquiteto de Soluções – [email protected]
02 de Junho de 2016
Começando com Redshift
AWS Summit São Paulo 2016
![Page 2: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/2.jpg)
Agenda
• Introdução
• Provisionamento
• Carga de Dados
• Fazendo Consultas
• Monitoramento de Queries
![Page 3: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/3.jpg)
Introdução
![Page 4: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/4.jpg)
AnalisarArmanezar
Amazon
Glacier
Amazon S3
Amazon
DynamoDB
Amazon RDS,
Amazon Aurora
AWS big data portfolio
AWS Data Pipeline
Amazon
CloudSearch
Amazon EMR Amazon EC2
Amazon
Redshift
Amazon
Machine
Learning
Amazon
Elasticsearch
Service
AWS Database
Migration Service
Amazon
QuickSight
Amazon
Kinesis
Firehose
AWS Import/Export
AWS Direct
Connect
Coletar
Amazon Kinesis
Streams
![Page 5: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/5.jpg)
Data warehouse relacional
Processamento paralelo massivo – MPP
Escala de petabytes
Totalmente gerenciado
Plataformas em HDD e SSD
$1,000/TB/ano; comece com $0.25/hora
Amazon
Redshift
+ rápido
+ simples
+ barato
![Page 6: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/6.jpg)
Provisionamento
![Page 7: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/7.jpg)
Arquitetura do Amazon Redshift - MPP
Leader node
Simple SQL endpoint
Armazenamento de metadados (nome de tabelas, colunas, objetos)
Otimização do plano de execução de queries
Coordenação da execução de queries
Compute nodes
Storage local por colunas
Execução paralela/distribuída de todas as queries, carga de dados, backups, recuperação e redimensionamento
Comece com $0.25/hora, cresça até 2 PB
DC1: SSD; escala de 160 GB até 326 TB (Dense compute)
DS2: HDD; escala de 2 TB até 2 PB (Dense storage)
Ingestion/Backup
Backup
Restore
JDBC/ODBC
10 GigE
(HPC)
![Page 8: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/8.jpg)
Amazon Redshift é rápido
Menos I/O
Armazenamento em colunas
Compressão de dados
Zone maps
Direct-attached storage
Blocos de dados grandes (1 MB)
analyze compression listing;
Table | Column | Encoding
---------+----------------+----------
listing | listid | delta
listing | sellerid | delta32k
listing | eventid | delta32k
listing | dateid | bytedict
listing | numtickets | bytedict
listing | priceperticket | delta32k
listing | totalprice | mostly32
listing | listtime | raw
10 | 13 | 14 | 26 |…
… | 100 | 245 | 324
375 | 393 | 417…
… 512 | 549 | 623
637 | 712 | 809 …
… | 834 | 921 | 959
10
324
375
623
637
959
![Page 9: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/9.jpg)
Redimensionamento em poucos cliques
![Page 10: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/10.jpg)
Redimensionamento
• Redimensionamento com o cluster
online (somente leitura)
• Um novo cluster é provisionado em
background
• Cópia de dados ocorre em paralelo
nó a nó
• Somente é cobrado pelo cluster de
origem
![Page 11: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/11.jpg)
Carga de dados
![Page 12: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/12.jpg)
Dataset está armazenado em um bucket público do S3 (redshift-
demo localizado em us-east-1).
Vários arquivos .gz
Utilizará comando copy com múltiplos arquivos em paralelo
copy lineitem from 's3://redshift-demo/tpc-
h/100/lineitem/lineitem.tbl.' CREDENTIALS
'aws_access_key_id=XXXXX;aws_secret_access_key=YYYYYY' gzip delimiter
'|';
Carga de dados – Dataset público
![Page 13: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/13.jpg)
Tabela #ArquivosTamanho
arquivo(MB)Total(MB) #Linhas
customer 150 5.7 855 15,000,000
lineitem 600 37.6 22560 600,037,902
nation 1 987bytes 987bytes 25
orders 150 32.8 4920 150,000,000
part 200 2.8 560 20,000,000
partsupp 80 34.3 2744 80,000,000
region 1 267bytes 987bytes 5
supplier 100 0.56 56 1,000,000
Total 31,695MB 866,037,932
30.95GB
Carga de dados – Dataset público
![Page 14: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/14.jpg)
AWS CloudCorporate Data center
Amazon S3Amazon
Redshift
Flat files
Carga de dados
![Page 15: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/15.jpg)
Use o comando COPY
Cada slice pode carregar um arquivo por vez
Um único arquivo significa que somente um slice está carregando dados
Ao invés de 100MB/s, vocêsomente consegue 6.25MB/s
Use múltiplos arquivos de entrada para
maximizar o throughput
![Page 16: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/16.jpg)
Use o comando COPY
Você precisa tantos arquivos quanto o número de slices
Com 16 arquivos, todos os slides estão trabalhando, assim você maximiza o throughput
Consiga 100MB/s por nó; escalelinearmente conforme vocêadiciona nós
Use múltiplos arquivos de entrada para
maximizar o throughput
![Page 17: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/17.jpg)
Fazendo Consultas
![Page 18: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/18.jpg)
JDBC/ODBC
Amazon Redshift
Amazon Redshift funciona com suas
ferramentas atuais de análise
![Page 19: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/19.jpg)
ODBC/JDBC
BI ClientsRedshift
![Page 20: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/20.jpg)
Query que localiza qual fornecedor deve ser selecionada para fazer um
pedido para uma determinada parte de uma determinada região.
Fazendo consultas – Jasper Reports
![Page 21: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/21.jpg)
Monitoramento de performance de query
performance
![Page 22: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/22.jpg)
Visualize os planos de execução
![Page 23: Começando com Amazon Redshift](https://reader031.vdocuments.site/reader031/viewer/2022021922/58ef2bc61a28ab750b8b45dd/html5/thumbnails/23.jpg)
Muito Obrigado!