introductory keynote at hadoop workshop by ospcon (2014)

26
ЭКОСИСТЕМЫ HADOOP Становление и тенденции коммерциализации

Upload: andrei-nikolaenko

Post on 08-Jul-2015

148 views

Category:

Software


2 download

DESCRIPTION

Note on Hadoop Ecosystem status: Apache Software Foundation projects around Hadoop, Hadoop-as-a-Service solutions, hadoop appliances, hadoop-enabled architecture solutions

TRANSCRIPT

Page 1: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

ЭКОСИСТЕМЫHADOOP

Становление и тенденции коммерциализации

Page 2: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

ЭКОСИСТЕМА?

«Экосистема» как архитектура конкретных решений, использующих Hadoop

Тиражируемые ИТ-решения, связанные с Hadoop

«Экосистема» программных

продуктов, стыкующихся с

Hadoop (как проектов фонда

Apache, так и сторонних)

Готовые сборки «экосистем» –дистриубитвы

Hadoop

Готовые услуги по предоставлению

«экосистем» –«Hadoop как услуга»

Готовые аппаратно-программные «экосистемы»

Page 3: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

HADOOP И СВЯЗАННЫЕ

ПРОЕКТЫ

Проекты Apache

Сторонние проекты

Page 4: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

HADOOP 2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ

YARN[yet another resource

negotiator]

От MapReduce отделена логика управления

ресурсами и планирования заданий

Мультиарендность в одном кластере

YARN – «кластерная операционная система»

Изображения: ©2014, Hortonworks

Page 5: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

“ЭКОСИСТЕМА”ПРОЕКТОВ

HDFS

GlusterFS

Ceph

YARN

MapReduce(пакетная

обработка)

Tez(интерактивная

обработка)

Amazon S3 CloudStore

Swift

Pig(сценарии)

Hive(запросы)

HBase(NoSQL)

Impala(SQL)

Drill(аналог Dremel)

Mahout(машинное обучение)

Zookeeper(координатор)

Ambari(управление)

Hue(ClouderaManager)

Ganglia(монитор)

Spark(оперативная обработка)

Storm(поточная

обработка)

Kafka(брокер

сообщений)

Oozie(workflow)

Sqoop(пакетная загрука)

Flume(поточная загрузка)

Hama(машинное обучение)

Taychon(in-memory data grid)

Azure Blob

Storage

файловые системы объектные хранилища

обработчики

СУБД-сервис

глубинный анализ

связующие управляющие

Сторонние проекты

ЯдроHadoop

Проекты Фонда

Apache

BigTop(сборка пакетов)

Page 6: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

©2014, Arian Nawa

ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАН НАВА)

Page 7: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

ДИСТРИБУТИВЫ HADOOP

Page 8: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Рынок дистрибутивов Hadoop

ДИСТРИБУТИВЫ-ЛИДЕРЫ

Cloudera

Oracle Big Data

Appliance

EMC Isilon

MapR

Amazon EMR

Pivotal Greenplu

m HD(первая версия)

Hortonworks

Teradata

MircosoftWindows и

Azure

Изображение: ©2013, Altoros

Page 9: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ»

IBM

выпускается

EMC (Pivotal)

выпускается

Intel

закрыт(в пользу Cloudera)

Yahoo

закрыт [в пользу Hortonworks]

Дистрибутивы Linux

Red Hat, Fedora, CentOS SuSE Debian, Ubuntu

Apache BigTop

.rpm .debрецепты для Vagrant,

docker…

Page 10: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

HADOOP КАК УСЛУГА

Hadoop в публичных облаках

Page 11: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

ОСНОВНЫЕ ПРОВАЙДЕРЫ

• На базе MapR

• Интегрирован с S3

AmazonElastic MapReduce

• На базе Hortonworks

• Интегрирован с SwiftFSRackspace

• На базе HortonworksMicrosoft Azure

• BigInsightsIBM Bluemix

Page 12: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

HADOOP-КОМПЛЕКСЫ

Тиражируемые интегрированные аппаратно-программные комплексы с Hadoop

Page 13: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

КОМПЛЕКСЫ

Hadoopна «голом железе»

Oracle Big Data Appliance

Teradata HadoopAppliance

EMC/PivotalGreenplum HD

Конвергентные комплексы

VCE [Cisco – Vmware – EMC]

FlexPod[Cisco –… – NetApp]

IBM/LenovoPure for Hadoop

Page 14: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

КАРТИНЫ МИРА ОТ DATAMEER

… названные «экосистема Hadoop»

Page 15: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

HADOOP ECOSYSTEM

as of January, 2012

Изображение: ©2012, Datameer

Page 16: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Изображение: ©2013, Datameer

Page 17: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Изображение: ©2014, Forrester Research

… И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)

Page 18: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

АРХИТЕКТУРНЫЕ РЕШЕНИЯ

Page 19: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Λ-АРХИТЕКТУРА

Все данные

Свежие данные

Предобработанные

данные

с л о й р а з д а ч и

п а к е т н ы й с л о й

б ы с т р ы й с л о й

Данные реального

времени

Поток данных Инкремент данных

Комплексный

агрегат

Частичный

агрегат

Частичный

агрегат

Пакетные представления

Представление реального времени

MapReduce

Storm

HDFSFlume

Flume

HBase

Свежие данные подпадают одновременно в слои пакетной и быстрой обработки

и комбинируются в отдельном слое раздачи

Page 20: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

SPARKСамый активный

свободный проект

в области больших данных

file = spark.textFile("hdfs://...")

file.flatMap(lambda line: line.split())

.map(lambda word: (word, 1))

.reduceByKey(lambda a, b: a+b)

Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти

Изображение: ©2014, Apache Software Foundation

SharkSpark

SQL

Spark

streamingMLib

Graph

X

Проекты над Spark:

Page 21: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

SQL НАД HADOOP

Изображение: ©2014, Gigaom Research

Федераторы

Teradata SQL-H Greenplum Hawk

Встраиваемые в «экосистему» (YARN)

Cloudera ImpalaHadapt

(поглощена Teradata)

SQL над Apache Spark

Shark Spark SQL

В развитие Hive

HortonworksStinger

Facebook Presto

«Появление решений, обеспечивающих

выполнение ANSI SQL над Hadoop

создало непосредственную возможность

признания Hadoop уже в 2015 году

как практической платформы данных для

широкого круга организаций»

Forrester Research, ноябрь 2014

Page 22: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

ГЛОССАРИЙ

Page 23: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Applicance

Программно-аппаратный

комплекс

Комплекс

Bare-metal

«Голое железо»

Box

Узел

Chunk

Блок данных

Commodity hardware

Оборудование массового

класса

Curring

Каррирование

A…J

Data node

Узел данных

Deployment

Развёртывание

Direct-attached storage

Устройство хранения прямого

подключения

Engine

Механизм

Движок

Job

Задание

Job tracker

Трекерзаданий

Page 24: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Machine

Машина

Map

[?]

Mapper

[?]

Mapping

Соответствие

Master node

Главный узел

Multi-tennancy

Мульти-арендность

M…R

Name node

Узел имён

Namespace

Пространство имён

Node

Узел

Realtime

…реального времени

Reduce

Свёртка

Сведение

Reducer

Свёртка

Page 25: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

S…W

Shard

Узел [распределённо

го хранения]

Shuffle

Тасовка

Slave node

Подчинённый узел

Slot

Слот

Stack

Стек

Task

Задача

Task tracker

Трекер задач

Trail

След

Worker

Исполнитель

Worker node

Узел исполнения

Workflow

Поток операций

Workload

Нагрузка

Page 26: Introductory Keynote at Hadoop Workshop by Ospcon (2014)

СПАСИБО ЗА ВНИМАНИЕ!

mailto:[email protected]