bigintegrate - разрушение мифов по поводу etl на hadoop
TRANSCRIPT
BigIntegrate - разрушение мифов по поводу ETL на Hadoop.
Андрей Орлов, эксперт по решениям IBM Big [email protected]
Twitter: @lokaro LinkedIn: in/lokaro
Пару слов обо мне…
School of Business InformaticsSoftware engineering
IBM Certified Solution Advisor Big Data & Analytics
Agenda
• Что такое Information Server?• Что такое Hadoop?• Что такое ETL / ELT на Hadoop?• Что такое Information Server на Hadoop?• Что такое BigIntegrate / BigQuality?
IBM Information Server 11.5
IBM Information ServerЛидирующая на рынке платформа интеграции данных Линейная масштабируемость при
резком увеличении объемов данных Операционная интеграция 24x7 Полная интеграция на уровне
метаданных и понимание происхождения данных
Сопоставление Бизнес и IT целей Оптимизированное подключение к
различным источникам данных
InfoSphereInformation
Server
Information Governance
Catalog
Data Integration
Data Quality
Information Governance CatalogПонимание и совместная работа
Понимание• Полный каталог метаданных• Бизнес-контекст для информационных активов• Уверенность бизнеса в информационных активах
Управление• Совместное управление бизнес-словарем• Создание стюардов, распределение обязанностей• Понимание происхождения данных• Соединение бизнес-терминов и правил управления
с информационными активами• Расширение источников данных и ассетов при помощи REST-
API для создания, импорта и управления расширениями• Поддержка русского языка для контента
Улучшенные возможности расширения
XSD / XML поддержка
Information Server for Data IntegrationВыгрузка, трансформация и доставка любых данных
Подключения• Масштабирование трансформаций на узлах кластера hadoop• Улучшенный File Connector• SQL Srv 2014, Sybase ASE/IQ 16, Teradata 15.10
Дизайн и трансформация• Трансформация и агрегация любого объема данных• Сотни встроенных функций преобразования• Использование системы управления метаданными для
повышения производительности и совместной работы• Встроенная защита конфиденциальных данных налету при
помощи лучшего в своем классе Optim Masking
Управление и мониторинг• Простые веб-дашборды для управление среды исполнения
Information Server for Data QualityАнализ, очистка и мониторинг ваших данныхАнализ• Обнаружение данных на основе определенных бизнес
классов данных• Анализ структуры данных и контента• Автоматический процесс анализа данных
Очистка• Исследование, стандартизация, соответствие и выживание
данных внутри процесса интеграции данныхМониторинг
• Оценка и мониторинг качества данных в любой системе• Соотношение индикаторов качества данных и бизнес-политик• Подключение дата-стюардов, когда качество данных
опускается ниже определенного уровня
Hadoop. IBM BigInsights
Hadoop изнутриИнфраструктура для параллельной обработки больших
объемов данных
Hadoop изнутриИнфраструктура для параллельной обработки больших
объемов данных
Распределённая файловая система
Hadoop изнутриИнфраструктура для параллельной обработки больших
объемов данных
Распределённая файловая система
Распределённые вычисления
Hadoop изнутриИнфраструктура для параллельной обработки больших
объемов данных
Распределённая файловая система
Распределённые вычисления
А также:
Модернизация хранилищ данных
Интеграция больших данных и традиционных хранилищ для повышения эффективности
Использование разнообразных данных
Расширение инфраструктуры хранилища
• Оптимизация хранения и лицензирования за счет переноса редко используемых данных в Hadoop
• Сокращение хранения за счет обработки потоковых данных
• Повышение производительности
• Структурированные, неструктурированные, потоковые данные для анализа
• Минимальные задержки по анализу (часы, а не недели или месяцы)
• Запросы к любым данным
Существующие ETL/ELT решения в Hadoop• Механизмы Hadoop
– MapReduce– Spark
• Tools– Flume– Sqoop
• SQL-like– Hive– BigSQL– Impala– HAWQ– Presto– …
BigIntegrate & BigQuality
BigIntegrate & BigQuality
• Масштабируемый движок по интеграции и качеству данных теперь полноценно работает прямо на кластере Hadoop
• Трансформация, обогащение и очистка данных, которые лежат в Hadoop
• Вся мощность Hadoop кластера для решения задач интеграции без написания строк кода
• Поддерживаемые дистрибутивы: BigInsights 4.0+, HortonWorks 2.2+, Cloudera 5.3+
Быстрая загрузка и обработка прямо внутри Hadoop
Полное доверие к вашим данным
Высочайший уровень продуктивности
В 15x быстреечем большинство других решений
Встроенные возможности управления, очистки, безопасности и
происхождения данных
87% экономиипри помощи более сотни функций
преобразования
Hadoop Platform
HDFS
BigIntegrate &BigQuality
Engine
YARN
(Резервирование,надежное хранение)
(Менеджер ресурсовкластера Hadoop)
Tez (Движок исполнения)
MapReduce(batch)
Hive(SQL) …
VS
Hadoop Platform
BigIntegrate & BigQualityEngine
MapReduce(batch)
Hive(SQL) …
VS
Интеграция, качество и инструмент управления
Только Hadoop интеграция
Traditional ETL
Выполнение на любой платформе
Единый дизайн заданий
within DB within Hadoop 2.0
HDFS
BigIntegrationBigQuality
YARN
Уникальный подход IBM
• Высокая производительность благодаря исполнению заданий Information Server напрямую через Yarn
• Запуск спроектированного задания на базе данных (ELT), традиционным образом (ETL) или же на Hadoop
Спасибо за внимание!Андрей Орлов, эксперт по решениям IBM Big Data
[email protected]: @lokaro LinkedIn: in/lokaro