Андрей Николаенко,
IBS, архитектор
Современный архив
корпоративного уровня с
использованием решений IBM
Процессо- и датацентричность Что в первооснове ИТ –
данные или вычисления?
• Вопрос диалектический
• Каждые 15 лет маятник колеблется в противоположную сторону
•Пакетная обработка
•Интерактивные системы
•Unix
1965 – 1980
•Реляционные СУБД
•ERP (idefix «одна база»)
•CASE
•Data-driven architecture
1980 – 1995 •«Компьютер – это сеть»
•Сервис-ориентированная архитектура
•Виртуализация
•Облачные вычисления
1995 – 2010
•Логическое хранилище данных
•Большие данные
•Data Governance
2010 – …
Data Governance
Управление жизненным циклом данных
Управление хранением данных
Управление логистикой и качеством данных
– дисциплина централизованного управления данными
в цифровой форме как ключевым активом организации
«Проводники» Data Governance
Источник: Forrester Wave: Data Governance Tools, Q2 2014
Разработчики платформ
управления данными (MDM, ETL, EL-T,
CDC)
Разработчики платформ BI и
аналитики
Разработчики платформ
управления метаинформацией
Разработчики решений по управлению
качеством данными
Разработчики систем управления контентом
Разработчики систем объектных архивов
По «происхождению»:
Уровни проявления Data Governance
И н ф р а с т р у к т у р а …
П л а т ф о р м ы
MDM ETL, DQ CDC DLM/ILM ECM Records
mgmt …
П р и л о ж е н и я
Из приложений выделяются функции управления данными и передаются соответствующим общим платформенным сервисам
Инфраструктура Разные устройства, разные скорости,
точка принятия решений – одна
Вместе с этапами жизненного цикла – данные перемещаются по разным типам хранения
Блочное хранилище Объектное хранилище
Интенсивный
ввод-вывод
Классические
файловые
системы
Долгосрочный
архив
Групповой
контент
Медиа под
доставку
Машинные
потоковые
данные
Машинный
контент
GUID
Метаинфо
Содержимое
… … о п ц и о н а л ь н а я
г е о р е п л и к а ц и я
Г е о з о н а 1
…
С е р в и с г е о п е р е н а п р а в л е н и я
С е р в и с
г е о д о с т а в к и
К л а с с и ф и к а т о р
м е х а н и з м а х р а н е н и я
O b j e c t S t o r a g e A P I
M / R A P I C I F S N F S T o r r e n t W e b D A V
NoSQL
DB
BigData
как
сервис
File
sharing
Media
Library
ECM
Archive
Г е о з о н а n
R E S T
Объём и структура цифровых архивов
0
50
100
150
200
250
300
350
2010 2011 2012 2013 2014 2015
Объём мировых ресурсов архивного хранения, ЭБ
Файлы, объекты
СУБД
Электронная почта
Источник: Enterprise Strategy Group. Digital Archive Market Forecast, 2010–2015
Архивирование и резервирование Транзакционные
приложения
Резервное
копирование
Объектно-
контентный
архив
Независимый от приложений и
их версий формат
Сохранение значимой
информации
Возможность восстановления в приложениях
Контрольные суммы,
неизменность
Свёртка данных в контент (отчёты)
Сохранение метаинформации как атрибутов
Индексация, адресация по содержимому
Сохранение ЭП
pdf, xls, doc, …
XML,
JSON
Dump, redo-log
Сегмент рынка:
архивирование
структурированных
данных и
консервации
приложений
Источник: Gartner Magic Quadrant for Structural Data Archiving and Application Retirement, June 2014
Типичный путь к единому архиву
структурированных данных • Ежегодно каждый экземпляр каждого приложения
(экземпляра филиала) целиком копируется в «тёплый» резерв
• В основных экземплярах исторические данные вычищаются
Отслоение исторических экземпляров
• Рядом с каждым экземпляром каждого приложения создаётся электронный архив
• Перед вычисткой исторических данных из основного экземпляра, данные сериализуются в локальный архив
Локальные архивы
• Создаётся единый центральный электронный архив
• Перед вычисткой исторических данных из основного экземпляра, данные поднимаются и сериализуются в центральный архив
Центральный архив
Отслоение исторических экземпляров
2 0 0 8 2 0 0 9 2 0 1 0 2 0 1 1 2 0 1 2 2 0 1 3
Снимается полная копия базы и (текущая) версия приложения
Удаляются данные “дата < год – 3”
Ёмкость (год) = (Vср × (1+прирост)× (год – 2010)) × N
Приложение 1
Локальные архивы
Архив
приложения 1 ECM
СУБД Сервер
приложений Шина
сообщений
Аппаратные серверы
Система хранения данных
Центральный архив
Экономика
• Снижение стоимости хранения маловостребованных (исторических) данных
Функциональность
• Возможность однократной реализации функций управления жизненным циклом
Эксплуатация
• Единая точка обслуживания и эксплуатации
Безопасность
• Централизация функций управления правами доступа
Эффект масштаба
• Возможность использования серийных горизонтально масштабируемых решений
Эффект концентрации
• Станадратизация уровней обслуживания
• Сосредоточение функций контроля и аудита
Функции, централизуемые в архиве Единая
пользовательская навигация по
документам всех приложений
Во многих случаях для получения
информации не будет
необходимости даже заходить в
приложения
Унифицированная визуализация документов
В приложениях отпадает
необходимость в значительной
части «отчётов по операции», «отчётов по документу»
Пользовательский информационный
поиск
Атрибутный и контекстный
поиск
Нет необходимости
реализовывать в приложениях
Межсистемный информационный
обмен
Во многих случаях будет
достаточно послать GUID
архивного документа вместо
пересылки содержимого
Глубинный анализ над всем массивом данных
Выявление аномалий
Data Mining
Глубинное обучение
Контент-анализ
Технологии «больших данных»
Электронная подпись
Единый механизм
подписания
Универсальная валидация
Решения IBM для современного архива
DS
Storwize [Unified] TS
Tivoli Storage Manager
Data
Replication
Optim Guardium
Data Explorer
FileNet
OmniFind
Info
sp
he
re
MDM Atlas
eDiscovery
Id & Collection
Policy
Assessment
Content Collector for
SAP
for
for
file systems …
Pure
Data
for
Hadoop
Спасибо за
внимание!