building realtime data pipelines with kafka connect and spark streaming by ewen cheslack-postava

25

BUILDING REALTIME DATA PIPELINES WITH KAFKA CONNECT AND SPARK STREAMING Ewen Cheslack-Postava Confluent

Upload: spark-summit

Post on 16-Apr-2017

4.581 views

Category:

Data & Analytics

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

BUILDING REALTIME DATA PIPELINES WITH KAFKA CONNECT AND SPARK STREAMING

Ewen Cheslack-PostavaConfluent

Page 2: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

About Me: Ewen Cheslack-Postava• Engineer @ Confluent• Kafka Committer• Kafka Connect Lead

Page 3: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Traditional ETL

Page 4: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

More Data Systems

Page 5: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Stream Processing

Page 6: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Page 7: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Page 8: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Separation of Concerns

Page 9: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Large-scale streaming data import/export for Kafka

Kafka Connect

Page 10: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Page 11: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Separation of Concerns

Page 12: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Page 13: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Page 14: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Tasks - Parallelism

Page 15: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Execution Model - Standalone

Page 16: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Execution Model - Distributed

Page 17: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Execution Model - Distributed

Page 18: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Execution Model - Distributed

Page 19: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Data Integration as a Service

Page 20: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Delivery Guarantees• Automatic offset checkpointing and recovery

– Supports at least once– Exactly once for connectors that support it

(e.g. HDFS)– At most once simply swaps write & commit– On restart: task checks offsets & rewinds

Page 21: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Spark Streaming• Use Direct Kafka streams (1.3+)

– Better integration, more efficient, better semantics

• Spark Kafka Writer– At least once– Kafka community is working on improved

producer semantics

Page 22: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Spark Streaming & Kafka Connect• Increase # of systems Spark Streaming

works with, indirectly• Reduce friction to adopt Spark Streaming• Reduce need for Spark-specific connectors• By leveraging Kafka as de facto streaming

data storage

Page 23: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Kafka Connect Summary

23

• Designed for large scale stream or batch data integration

• Community supported and certified way of using Kafka

• Soon, large repository of open source connectors• Easy data pipelines when combined with Spark &

Spark Streaming

Page 24: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

THANK YOU.Follow me on Twitter: @ewencpTry it out: http://confluent.io/downloadMore like this, but in blog form: http://confluent.io/blog

Page 25: Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

Add Pages as Necessary• Supporting points go here.

Déčko — Česká televize...mluvit jako pohádková postava. Ostatní hráä hádají která. Náplní hry je mluvit jako pohádková postava tak presvédävé, aby té ostatní

K. Tzoumas & S. Ewen – Flink Forward Keynote

RADNA GUMENA OBUĆA Novo Novo - tigar.rs · Asortiman brojeva: No 39-47 Postava: Pamučni triko Asortiman brojeva: No 39-47 Postava: Pamučni triko Asortiman brojeva: No 39-47 Postava:

Stephan Ewen - Scaling to large State

Postava čarodějnice ve světové fantasy · 2020-07-16 · Interpretační část se zabývá dvěma díly, ve kterých se vyskytuje postava čarodějnice. Tato kapitola nejprve

EWEN Introd in Teoriile Personalitatii Preview

Mc ewen ecn_2012

LIDSKÁ POSTAVA

Aleš Postava: Na Baťovy myšlenky se odvolává spousta lidí, … · 2019-02-04 · Aleš Postava: Na Baťovy myšlenky se odvolává spousta lidí, málokdo se jimi ale řídí

Gordon Baldwin & Ewen Henderson

Building Realtime Data Pipelines with Kafka Connect and Spark Streaming: Spark Summit East Talk by Ewen Cheslack Postava

Cook Islands IDyLL - Photography by Ewen Bell · Photography by Ewen Bell. Ewen works with a Canon 5DMkIII and shoots most of his work with his two favourite prime lenses, the Canon

Building Realtime Data Pipelines with Kafka Connect and Spark Streaming by Ewen Cheslack-Postava

EWEN SMITH Estudios de caso / Case studies

1 Copyright © 2006, 2007 by Ewen Leung Copyright © 2006, 2007 by Ewen Leung Instruction Manual of Harmony 2006

SWEDEN - Ewen Bell

Sharon Ewen...Sharon Ewen Sharon Ewen, %LOJBO Director, TSA Effectiveness of Service v3.0 standards module - Quality Policy - Clinical Governance Strategy - Implementation of Best

ABOUT EWEN CHIA -

Postava-subjekt a postava-objekt · typ rytfie, kte4f se zpronevěÍil svému poslání a dostal se do rozporu s kur-toazní etiketou. V realistick ch románech byli takovlmi postavami

Ispitivanje iskrenja postava nadograđene komore …...Ispitivanje iskrenja postava nadograđene komore vremenske projekcije u ALICE detektoru na LHC-u Author Fizika Created Date 1/24/2019

Assignment 7 - Jake Ewen

Kenneth Ewen and Gary D. Brunner

Recollections of D Ewen Cameron

4D Compression and Relighting with High-Resolution Light ...graphics.berkeley.edu/papers/CheslackPostava-4CR... · Ewen Cheslack-Postava Stanford University Nolan Goodnight NVIDIA

Slides for Presentation - Ewen Design

Postava krále Artuše jako prostředek legitimizace moci · Postava krále Artuše jako prostředek legitimizace moci Edmund Spenser a John Dee Zdeňka špiclová Západočeská

The Mc Ewen Photographic Studio

Imedijatna i rana postava na implanti - seminarska rabota

Jean Mc Ewen : le roi couleur

8.01 Ewen Perez JY [email protected] REV

Nadia Mcallister, Sumaira Macdonald, Carol Ewen

The Old Forge Ewen Cirencester GL7

Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Cheslack-Postava

Celá postava ví. manipulačníc h končetin Model je …...Celá postava ví. manipulačníc h končetin Oiekavarc bfžnč zatíženi motelu ntt& J rrmsi býl kop str u 0 v i n ffliíUBiátor

JEZUS IN POSTAVA - ŽUPNIJA RADENCI · JEZUS IN POSTAVA Tudi Jezus se je kot človek nahajal v točno določenem zgodovinskem kontekstu, v jasno določeni verski družbi. ožja postava