construindo um data lake - store & retrieve data …...2018/12/17  · 5 14,3 bi 10 receita...

34
Construindo um Data Lake E democratizando os dados empresa a fora Daniel Cassiano Head of Data @ luizalabs

Upload: others

Post on 19-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Construindo um Data LakeE democratizando os dados empresa a fora

Daniel CassianoHead of Data @ luizalabs

Page 2: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Olá! :)Daniel CassianoHead of Data @ luizalabs #magalu

@danielcassiano

br.linkedin.com/in/dcassiano

2

Page 3: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

● Introdução e contexto

● Ecossistema e Arquitetura

● Democratizando os dados

● Ecossistema

● Perguntas?

3

Agenda

Page 4: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Um pouco decontexto

1

Page 5: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

5

14,3 bi

10

Receitabruta 2017

3

Milhões de clientes ativos

Milhões de cartões Luiza

950 Lojas

+30% Participaçãoe-commerce (2017)

vs 24% em 2016

20M Visitantes únicos nos canais digitais

Foco em

Pessoas einovação

Page 6: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Data Team40 pessoas

8 times

6

DataData

Engineering

Intelligence

Recommendations

CRM BI

Search

Exploration

DS Tools

Page 7: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

7

● Democratizar os Dados e a Ciência na empresa

● Resolver problemas de negócio com inteligência e dados

● Ser os owners, prover dados analíticos e ferramentas

● Governança

A missão

Page 8: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

8

● +400 aplicações

● +200 bases

● Multi-cloud: AWS, Google Cloud, Azure e On-premises

● Múltiplos sabores: batch, streaming, file...

● 56 times

● 540 pessoas

O universo

Page 9: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Algumasáreasque consomem nossos dados

9

e-commerce

Logística

Planejamento e

abastecimento

Marketing

Financeiro

Page 10: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Arquitetura

2

Page 11: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Ecossistema de Dados

PlataformasMagalu

Inteligência / Machine Learning

Banco de DadosBI - negócio

TimeX

BILojas

BIe-comm

BILogística

Área de negócio

DataAnalyst

DataScientist

Dados externos

Data LakeHub

Page 12: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Arquitetura - v1

● 1 ano e meio de vida● 40 TB dados● ~200 pessoas● D-7 a T-2

Page 13: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Arquitetura - v2

● 6 meses de vida● 200 TB● ~250 pessoas● D-7 a Real Time

Page 14: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Zonas

Transient

Zona 1

Dado no seu estado mais puro, ou seja, não tem

otimização de leitura/escrita, validação de schema e pode estar

corrompido.

Zona 2

Raw Trusted

Zona 3 Zona 4

Refined

Dado otimizado para leitura usando Parquet já formatado, usando um schema e pronto para

consumo de aplicações/Data

Scientists.

Dado vindo da zona Raw com possíveis melhorias

semânticas e agregações, e que indica uma fonte

única da verdade. Aqui o dado pode ser usado

tanto em Parquet quanto enviado para outras fontes de dados como BigQuery,

Tableau, etc.

Variações do dado Raw/Trusted que não refletem uma verdade absoluta, mas que faz

sentido no contexto de algum time/aplicação. Ex:

Ações de usuários são dados Trusted mas

recomendações são uma visão Refined.

Page 15: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Sources

PlataformasMagalu

Sness Data LakeHub

PlataformasMagalu

PlataformasMagalu

PlataformasMagalu

DadosExternos

On-premises

Page 16: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Democratizandoos dados

3

Page 17: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

17

● Simples é melhor do que complexo

● Acessível é melhor do que lindo tecnicamente

● Acurácia é tudo

● Documentação e didática fazem diferença

● Governança gera confiança

Premissas

Page 18: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

18

● Vários formatos disponíveis, com samples e conexões

● Ferramentas exploratórias e dashboards

● Confiança nos dados: single source of truth

● Habilitar e não burocratizar

● D-1 é melhor do que zero

● Para todos os sabores

Pilares

Page 19: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Ecossistema

4

Page 20: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Quedê

Page 21: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

21

Page 22: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

22

Page 23: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

23

Page 24: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Celebro

Page 25: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

25

Page 26: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

26

Page 27: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Arcade

Page 28: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

28

Page 29: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

29

Page 30: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

30

Page 31: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

31

Page 32: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

Sness

Page 33: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação
Page 34: Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita bruta 2017 3 Milhões de clientes ativos Milhões de cartões Luiza 950 Lojas +30% Participação

34

[email protected]

@danielcassiano

br.linkedin.com/in/dcassiano