evaluation of distributed open source solutions in cern database use cases hepix, spring 2015 kacper...

Evaluation of distributed open source solutions in CERN database use casesHEPiX, spring 2015Kacper Surdy IT-DB-DBFM. Grzybek, D. L. Garcia, Z. Baranowski, L. Canali, E. Grancher

Motivations• propose better suited solution for big volumes of

read-only data• open new possibilities for data analysis• offload Oracle in data warehouse workloads• our users ask for this!

Hadoop evaluation• One interface (SQL)• Different use cases from CERN• LHC log, Controls data, Atlas jobs manager (PANDA)

• Different query engines• Different approaches for storing data

Query enginesApache Hive• SQL -> MapReduce jobs

Cloudera Impala• Custom SQL planner and executor• Uses Hive metastore

Apache Spark SQL• Spark lightweight threading execution• Can use Hive metastore

Data formatsData storage format and compression type make a difference• data volume• IO vs. CPU bound throughput• benefits of columnar storage• partitioning

Data formatsCSV• human readable

CSV SequenceFile Avro Parquet0 GB

200 GB

400 GB

600 GB

800 GB

1000 GB

1200 GB

1400 GB

1600 GB

1800 GB

1240 GB

238 GB

109 GB

649 GB

ACCLOG 8 days - file size comparison

no compression snappy bzip2 Oracle

SequenceFile• flat set of binary stored (key, value) pairs

200 GB

400 GB

600 GB

800 GB

1000 GB

1200 GB

1400 GB

1600 GB

1800 GB

1240 GB

1545 GB

238 GB 265 GB

109 GB 117 GB

649 GB

Apache Avro• binary serializing standard

200 GB

400 GB

600 GB

800 GB

1000 GB

1200 GB

1400 GB

1600 GB

1800 GB

1240 GB

1545 GB

542 GB

238 GB 265 GB 226 GB

109 GB 117 GB171 GB

649 GB

SequenceFile Avro Parquet0 s

1000 s

1200 s

1400 s

1600 s

1800 s

2000 s

1800 s

ACCLOG 8 days - union query execution time

no compression snappy bzip2

Apache Avro• binary serializing standard

Parquet• binary columnar-storage

200 GB

400 GB

600 GB

800 GB

1000 GB

1200 GB

1400 GB

1600 GB

1800 GB

1240 GB

1545 GB

542 GB 558 GB

238 GB 265 GB 226 GB288 GB

109 GB 117 GB171 GB

649 GB

SequenceFile Avro Parquet0 s

1000 s

1200 s

1400 s

1600 s

1800 s

2000 s

216 s328 s

113 s 117 s

1800 s

ACCLOG 8 days - union query execution time

no compression snappy bzip2

Potential columnar store benefit

Parquet Avro Oracle0

467.31

Ntuples data exeuction comparison

Scalability - Impala

4 8 12 160

ACCLOG data

MeasuredIdeal

Number of nodes

Scalability - Hive

4 8 12 160

ACCLOG data – Hive scalability

MeasuredIdeal

Number of nodes

Scalability – Spark SQL

4 8 12 160

ACCLOG data

MeasuredIdeal

Number of nodes

Summary• Data format choice is a key• Heterogeneous data in the same place• No matter what interface -> it scales

evaluation of distributed open source solutions in cern database use cases hepix, spring 2015 kacper...

standard slide

grancher slide

scalability hive slide

value pairs slide

scalability impala slide

scalability spark sql

controls data

key heterogeneous data

Documents

factors influencing adolescent eating behaviour ... ·...

kacper ryx i król przeklęty

1/47 peter grzybek kriq 75, august 18/19, 2014 peter...

kacper popko

artur sulik, kacper toczylowski department of pediatric

henryk baranowski. the russian period

kacper ryx

replication solutions for oracle database 11g zbigniew...

tomasz baranowski technische studien ferenca liszta

zbigniew baranowski

dr mariusz baranowski, raport na temat osób bezdomnych

baranowski adapting conservation systems

kacper obrzut 3a - my school

linux kacper

dna extraction jewelry collection amber baranowski...

kacper i jego sprawy - elżbieta pałasz - ebook

my school by natalia and kacper

tadeusz baranowski nr.4 - antresolka profesorka nerwosolka

joanna m. chmielew ska - stowarzyszenie na rzecz...

peter grzybek & ernst stadlober austrian research fund ...