b m w k - kataeva.rukataeva.ru/wp-content/uploads/2014/12/met1-dm.pdf · Пособие...

№ 5291 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ

РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное

автономное образовательное учреждение

высшего образования

«Южный федеральный университет»

Каф

ед

ра м

енед

жм

ен

та

Лабораторный практикум

на тему

Базовые подходы использования

аналитических систем на примере

Deductor Studio Academic

по дисциплинам

Анализ данных

Экономико-математические модели и методы

Для студентов по направлениям

38.03.02 Менеджмент

38.03.05 – Бизнес-информатика

ИУЭС

Ростов-на-Дону

Издательство Южного федерального университета

2014

http://sfedu.ru/

http://management.tti.sfedu.ru/

http://management.tti.sfedu.ru/

http://sfedu.ru/

ББК: 65в641(0765) Л-125

Хлебникова А.И., Катаева Т.М., Катаев А.В. Лабораторный

практикум на тему «Базовые подходы использования аналитических

систем на примере Deductor Studio Academic» по дисциплинам

«Анализ данных», «Экономико-математические модели и методы». –

Ростов-на-Дону: Изд-во ЮФУ, 2014. – 36 с.

В лабораторном практикуме приведены методические

рекомендации по аналитической обработке данных, их визуализации

с использованием специализированного программного обеспечения

Deductor Studio Academic.

Лабораторный практикум предназначен для студентов,

обучающихся по направлениям бакалавриата 38.03.02 «Менеджмент»

и 38.03.05 «Бизнес-информатика», а также всем заинтересованным

лицам, изучающим применение математических и статистических

методов в экономике и управлении.

Ил. 27. Библиогр.: 10 назв.

Рецензенты: Паклин Н.Б., канд. техн. наук, ФГБОУ ВПО

Рязанский государственный университет им. С.А. Есенина;

Хашковский В.В., канд. техн. наук, доцент, ИКТИБ ЮФУ.

http://kataeva.ru/

http://kataev.ru/

3

СОДЕРЖАНИЕ

Введение ...................................................................................................... 4

Основные понятия ...................................................................................... 5

Развитие и назначение аналитических платформ ................................... 6

Подготовка данных. Очистка и трансформации данных ....................... 7

Базовые навыки работы в Deductor ........................................................ 12

Базовые визуализаторы ........................................................................... 16

Лабораторная работа №1 Формирование сценариев в Deductor Studio.

Базовые визуализаторы ........................................................................... 18

Лабораторная работа №2 Основные алгоритмы по отчистке и

трансформации данных в Deductor ........................................................ 27

4

Введение

Современные системы управления требуют выработки

обоснованных управленческих решений. Транзакционные системы

порождают большие объемы данных, которые накапливаются в

корпоративных базах данных и находятся в распоряжении лиц,

принимающих решения. Возникает потребность в

квалифицированных специалистах, обладающих знаниями в области

статистики, информатики и экономико-математических методов, а

также имеющих опыт использования аналитических платформ.

Изучение методов анализа данных требует как технических знаний,

так и знаний в области математических моделей и методов. Данный

лабораторный практикум рассчитан на обучающихся, изучивших

дисциплины «Статистика», «Эконометрика» и «Базы данных».

Пособие составлено в соответствии с федеральным государственным

образовательным стандартом по направлению 38.03.05 – Бизнес-

информатика, профиль «Электронный бизнес» и направлению

38.03.02 Менеджмент, профиль «Общий менеджмент» на основе

действующих программ по дисциплинам «Анализ данных» и

«Экономико-математические модели и методы».

Решения бизнес-аналитики нового поколения помогают

организациям понимать информацию в контексте бизнеса. С

помощью этих решений можно быстрее и проще извлечь ценную

информацию из всех видов данных на множестве платформ и

устройств. Благодаря возможностям самостоятельной работы и

встроенной аналитике вы получите необходимую свободу и

уверенность для принятия более удачных решений, которые будут

точнее соответствовать целям вашего бизнеса.

Аналитические платформы позволяют принимать обоснованные

и эффективные решения, которые выводят возможности анализа

данных на совершенно новый уровень, позволяющий каждому

сотруднику получать релевантную информацию, необходимую для

развития бизнеса. Аналитические инструменты позволяют

пользователю для достижения лучших бизнес-результатов

использовать функции создания отчетов, анализа, моделирования,

планирования и совместной работы для реализации инициатив по

бизнес-аналитике, управлению производительностью и анализу.

Основной целью пособия является углубление практических

знаний и приобретение практических навыков использования

аналитических платформ на примере Deductor Academic 5.3 от

5

компании BaseGroup Labs. Методическое пособие включает в себя

указания по выполнению двух лабораторных работ. Предлагаемые

лабораторные работы имеют единую структуру и включают в себя

цель работы, общие сведения по теме исследования, лабораторное

задание, рекомендации по выполнению в Deductor Academic.

В разделе «Общие понятия» представлены основные понятия и

термины по теме лабораторного практикума. Следует заметить, что

данные методические указания не заменяют рекомендованных

программами курсов учебников и учебных пособий. Для успешной

работы необходимо охватить более широкий материал в соответствии

с рекомендованной учебной литературой.

Основные понятия

Моделирование данных – это этап интеллектуального анализа

данных, реализация которого предполагает применение алгоритмов

для выявления закономерностей и тенденций. В дальнейшем

выявленные закономерности можно использовать для анализа или

прогнозирования.

Надстройки интеллектуального анализа данных позволяют

реализовать такой анализ с помощью мастеров, которые упрощают

создание моделей. Мастера анализируют данные, определяют

взаимосвязи, вычисляют статистическую значимость всех

переменных и автоматически выбирают лучшую модель.

Под обработкой в Deductor подразумевается любое действие,

связанное с неким преобразованием данных, например фильтрация,

построение модели, очистка и прочее. Собственно в блоке

"Обработка данных" и производятся самые важные с точки зрения

анализа действия. Наиболее существенной особенностью механизмов

обработки, реализованных в аналитической платформе Deductor,

является то, что полученные в результате их применения данные

можно опять обрабатывать любым методом из доступных. Таким

образом, имеется возможность строить сколь угодно сложные

сценарии.

Набор данныхНабор данных

Обработка

6

Подобная функциональность очень важна, так как при анализе

реальных бизнес-данных практически всегда приходится выполнять

последовательность действий для получения нужного результата.

Например, при построении прогноза в самом простом случае нужно

после импорта очистить данные, трансформировать их, построить

модель и применить ее для прогноза на несколько шагов вперед. В

действительности же сценарии бывают значительно сложнее. В них

сохраняются параметры обработки, поэтому для получения

результата на новых данных достаточно всего лишь применить к ним

подготовленный сценарий.

В широком смысле интеллектуальный анализ данных в

экономике и бизнесе представляет собой процесс изучения и оценки

альтернативных стратегий. В Data Mining - это подход, позволяющий

экспериментально исследовать поведение моделей машинного

обучения (нейронных сетей, деревьев решений и т.д.) для различных

входных воздействий.

Развитие и назначение аналитических платформ

Deductor – это аналитическая платформа, основа для создания

законченных прикладных решений в области анализа данных.

Реализованные в Deductor технологии позволяют на базе единой

архитектуры пройти все этапы построения аналитической системы:

от консолидации данных до построения моделей и визуализации

полученных результатов.

В конце 80-х гг. произошел стремительный рост объемов

информации, накапливаемый на машинных носителях, и возросли

потребности бизнеса по применению анализа данных. Ответом этому

стало появление новых парадигм в анализе: хранилища данных,

машинное обучение, Data Mining, Knowlegde Discovery in Databases,

Big Data. Это позволило популяризировать анализ данных, вывести

его на промышленную основу и решить огромное число бизнес-задач

с большим экономическим эффектом.

Результатом развития анализа данных стали специализированные

программные системы – аналитические платформы, которые

полностью автоматизировали все этапы анализа от консолидации

данных до эксплуатации моделей и интерпретации результатов.

Аналитическая платформа Deductor состоит из 6 компонент:

1. Warehouse – хранилище данных, консолидирующее

информацию из разных источников.

7

2. Studio – приложение, позволяющее пройти все этапы

построения прикладного решения, рабочее место аналитика.

3. Viewer – рабочее место конечного пользователя, одно из

средств тиражирования знаний (т.е. когда построенные аналитиком

модели используют пользователи, не владеющие технологиями

анализа данных).

4. Analytical Server – служба, обеспечивающая удаленную

аналитическую обработку данных.

5. Client – клиент доступа к Deductor Server. Обеспечивает доступ

к серверу из сторонних приложений и управление его работой.

6. Integration Server – веб-сервис, функционирующий поверх

аналитической службы Deductor Analytical Server.

Существует три типа варианта поставки платформы Deductor:

Enterprise;

Professional;

Academic.

Подготовка данных. Очистка и трансформации данных

Сбор информации На данном этапе необходимо руководствоваться принципом Gi-

Go. Он гласит следующее: “Мусор на входе – мусор на выходе”. Если

мы будем собирать неверную информацию, то в конечном итоге мы

будем принимать и неверные решения, которые смогут оказаться для

нас фатальными.

Подготовка данных

Перед использованием алгоритмов анализа данных необходимо

произвести подготовку набора данных. Исходные данные с одной

http://zaremsky22.com/wp-content/uploads/2012/04/%D0%BF%D1%80%D0%B8%D0%BD%D1%86%D0%B8%D0%BF-gi-go.jpg

8

стороны должны иметь значительный объём, чтобы их было

достаточно для выявления закономерностей. Чаще всего в качестве

исходных данных выступают хранилища или витрины данных.

Подготовка необходима для анализа многомерных данных до

кластеризации или интеллектуального анализа данных.

Далее данные очищаются путем удаления выборки с шумами и

пропущенными данными. Очищенные данные сводятся к наборам

признаков – один набор признаков на наблюдение. Набор признаков

формируется в соответствии с гипотезами о том, какие признаки

«сырых» данных имеют высокую прогнозную силу в расчете на

требуемую вычислительную мощность для обработки. Ряд

алгоритмов умеют обрабатывать пропущенные данные, имеющие

прогностическую силу (например, отсутствие у клиента покупок

определенного вида). Так, например, при использовании метода

ассоциативных правил обрабатываются наборы переменной

размерности. Выбор целевой функции в зависимости от целей

анализа будет иметь основополагающее значение для успешного

интеллектуального анализа данных. Наблюдения делятся на две

категории – обучающий набор и тестовый набор. Обучающий набор

используется для построения моделей Data Mining, а тестовый набор

– для проверки найденных закономерностей на независимом

множестве наблюдений.

Предварительная обработка данных

Анализировать можно как качественные, так и некачественные

данные. Результат будет достигнут и в том, и в другом случае. Для

обеспечения качественного анализа необходимо проведение

предварительной обработки данных, которая является необходимым

этапом процесса Data Mining. Данные, полученные в результате

сбора, должны соответствовать определенным критериям качества.

Таким образом, можно выделить важный подэтап процесса Data

Mining – оценка качества данных.

Качество данных – это критерий, определяющий полноту,

точность, своевременность и возможность интерпретации данных.

Данные могут быть высокого качества и низкого качества, последние

– это так называемые «грязные» или «плохие» данные.

Данные высокого качества – это полные, точные,

своевременные данные, которые поддаются интерпретации. Такие

данные обеспечивают получение качественного результата: знаний,

9

которые смогут поддерживать процесс принятия решений. О

важности обсуждаемой проблемы говорит тот факт, что «серьезное

отношение к качеству данных» занимает первое место среди десяти

основных тенденций, прогнозирующихся в начале 2005 г. в области

Business Intelligence и хранилищ данных компанией Knightsbridge

Solutions. Этот прогноз был сделан в январе 2005 г., а в июне 2005 г.

Даффи Брансон (Duffie Brunson), один из руководителей компании

Knightsbridge Solutions, проанализировал состоятельность данных

ранее прогнозов.

Многие компании стали обращать больше внимания на качество

данных, поскольку низкое качество стоит денег в том смысле, что

ведет к снижению производительности, принятию неправильных

бизнес-решений и невозможности получить желаемый результат, а

также затрудняет выполнение требований законодательства. Поэтому

компании действительно намерены предпринимать конкретные

действия для решения проблем качества данных.

Качество данных должно обеспечиваться процессами извлечения,

преобразования и загрузки (Extraction, Transformation, Loading – ETL),

а также получения данных из источников, которые подготавливают

данные для анализа.

Данные низкого качества, или «грязные» данные – это

отсутствующие, неточные или бесполезные данные с точки зрения

практического применения (например, представленные в неверном

формате, не соответствующем какому-либо стандарту).

«Грязные» данные могут появиться по разным причинам, таким

как ошибка при вводе данных, использование иных форматов

представления или единиц измерения, несоответствие стандартам,

отсутствие своевременного обновления, неудачное обновление всех

копий данных, неудачное удаление записей-дубликатов и т.д.

Необходимо оценить стоимость наличия «грязных» данных; другими

словами, наличие «грязных» данных может действительно привести к

финансовым потерям и юридической ответственности, если их

присутствие не предотвращается или они не обнаруживаются и не

очищаются.

Выделяют различные типы грязных данных:

данные, которые могут быть автоматически обнаружены и

очищены;

данные, появление которых может быть предотвращено;

10

данные, которые непригодны для автоматического

обнаружения и очистки;

данные, появление которых невозможно предотвратить.

Важно понимать, что специальные средства очистки могут

справиться не со всеми видами «грязных» данных.

Наиболее распространенные виды «грязных» данных:

пропущенные значения;

дубликаты;

шумы и выбросы.

Пропущенные значения. Некоторые значения данных могут

быть пропущены в связи с тем, что данные вообще не были собраны

или некоторые атрибуты могут быть неприменимы для некоторых

объектов. В таких ситуациях можно исключить объекты с

пропущенными значениями из обработки, рассчитать новые

значения для пропущенных данных, игнорировать пропущенные

значения в процессе анализа или заменить пропущенные значения на

возможные значения.

Дублирование данных. Набор данных может включать

продублированные данные. Дубликатами называются записи с

одинаковыми значениями всех атрибутов. Наличие дубликатов в

наборе данных может являться способом повышения значимости

некоторых записей. Такая необходимость иногда возникает для

особого выделения определенных записей из набора данных. Однако

в большинстве случаев, продублированные данные являются

результатом ошибок при подготовке данных.

Существует два варианта обработки дубликатов. Удаляется вся

группа записей, содержащая дубликаты при условии, что наличие

дубликатов вызывает недоверие к информации, полностью ее

обесценивает. Либо заменяются все группы дубликатов на одну

уникальную запись.

Шумы и выбросы. Выбросы – резко отличающиеся объекты или

наблюдения в наборе данных. Шумы и выбросы являются достаточно

общей проблемой в анализе данных. Выбросы могут представлять

собой как отдельные наблюдения, так и быть объединенными в некие

группы. Задача аналитика – не только их обнаружить, но и оценить

степень их влияния на результаты дальнейшего анализа. Если

выбросы являются информативной частью анализируемого набора

данных, используют робастные методы и процедуры. Достаточно

11

распространена практика проведения двухэтапного анализа – с

выбросами и с их отсутствием – и сравнение полученных

результатов. Методы Data Mining имеют разную чувствительность к

выбросам, этот факт необходимо учитывать при выборе метода

анализа данных. Также некоторые инструменты Data Mining имеют

встроенные процедуры очистки от шумов и выбросов. Визуализация

данных позволяет представить данные, в том числе и выбросы, в

графическом виде.

Результаты Data Mining на основе «грязных» данных не могут

считаться надежными и полезными. Однако наличие таких данных не

обязательно означает необходимость их очистки или же

предотвращения появления. Всегда должен быть разумный выбор

между наличием грязных данных и стоимостью и/или временем,

необходимым для их очистки. Инструменты очистки данных не

избавляют пользователя от работы, пользователю достаточно сложно

их освоить. Некоторые грязные данные вообще не поддаются

автоматической очистке. Перед тем как принимать решение об

очистке данных, необходимо рассчитать ее стоимость, т.е.

определить, оправдан ли будет этот процесс. Если принято решение,

что очистка данных необходима, аналитик получает гарантию того,

что процесс Data Mining будет проведен на основе достоверных и

качественных данных.

12

Базовые навыки работы в Deductor

Главное окно Deductor Studio –рабочее место аналитика -

выглядит следующим образом (рис. 1)

Рис. 1. Главное окно Deductor Studio

На панели управления основные вкладки – Сценарии,

Отчеты и Подключения. В Deductor Studio ключевым понятием

является Проект. Это файл с расширением *.ded, по структуре

соответствующий стандартному xml-файлу. Он хранит в себе:

последовательности обработки данных (сценарии);

настроенные визуализаторы;

переменные проекта и служебную информацию.

В Deductor Studio вся работа ведется с использованием пяти

мастеров:

мастер импорта;

мастер экспорта;

мастер обработки;

мастер визуализации;

мастер подключений.

В Deductor Studio для аналитика основополагающим понятием

является сценарий. Сценарий представляет собой последовательность

операций с данными, представленную в виде иерархического дерева.

13

В дереве каждая операция образует узел, заголовок которого

содержит: имя источника данных, наименование применяемого

метода обработки, используемые при этом поля и т.д. Кроме того,

слева от наименования узла стоит значок, соответствующий типу

операции (рис. 2).

Рис. 2. Узлы обработки сценария

Сценарий состоит из ветвей. Deductor не имеет собственных

средств для ввода данных, поэтому сценарий всегда начинается с

узла импорта из какого-либо источника. Любой вновь создаваемый

узел импорта будет находиться на верхнем уровне (подчиненным

главному узлу Сценарии).

Создание нового узла импорта осуществляется с помощью

Мастера импорта (рис. 3).

Рис. 3. Мастер импорта

14

К любому узлу импорта можно добавить узел обработки или

узел экспорта, предварительно выделив узел импорта мышью.

Новый узел будет добавлен как подчиненный к узлу импорта.

Создание нового узла обработки осуществляется с помощью

Мастера обработки (рис. 4).

Рис. 4. Мастер обработки

К каждому узлу применимы базовые операции. Список

доступных операций:

1. Открытие узла – узел запускается на выполнение, причем

выполняются все родительские узлы, а справа открываются

визуализаторы, настроенные для данного узла. В интерактивном

режиме для каждого узла должен быть настроен хотя бы один

визуализатор, например «Таблица» или «Сведения».

2. Настройка узла – вызывается Мастер импорта, Мастер

обработки или Мастер экспорта, в зависимости от типа узла, для

изменения параметров обработки, производимой в узле.

3. Вырезать узел – удаляет текущий узел из сценария

обработки. Все его потомки при этом перемещаются на один уровень

вверх и начинают подчиняться родителю удаленного узла.

15

4. Вставить узел – вставляет перед текущим узлом сценария

новый узел и вызывает для него Мастер обработки. Вставить узел

перед узлом импорта данных нельзя.

5. Копировать ветвь – копирует ветвь сценария, начиная с

текущего узла и включая все его потомки.

6. Удалить ветвь – удаляет узел сценария и все его подузлы.

Узел Настройка набора данных

Обработчик Настройка набора данных позволяет:

изменить имя, метку, тип, вид и назначение полей текущего

набора данных;

изменить порядок следования столбцов в наборе данных;

скрыть столбцы набора данных;

задать опцию кэширования выходного набора.

Изменение имени или метки поля удобно в тех случаях, когда

имена столбцов могут измениться в источнике данных или при

перенастройке узлов верхних уровней. В этом случае в узле

Настройка набора данных (рис. 5) имя исходного столбца заменяется

другим, на которое и настраиваются все дочерние узлы. После такой

операции изменение имен полей на верхних уровнях не потребует

перенастройки всех дочерних узлов в дереве сценариев.

Рис. 5. Мастер обработки – Настройка набора данных

16

Базовые визуализаторы

К каждому узлу сценария, который содержит структурированный

набор данных, всегда предлагается несколько визуализаторов.

Мастер визуализации (рис. 6) в интерактивном пошаговом режиме

позволяет выбрать и настроить наиболее удобный способ

представления данных. В зависимости от выбранного способа будут

настраиваться различные параметры, а Мастер, соответственно, будет

содержать различное число шагов. Первый шаг Мастера

визуализации будет одинаков для всех видов, поскольку на нем и

производится выбор визуализатора.

Рис. 6. Мастер визуализации

Мастер визуализации запускается для выделенного узла

сценария. Кроме того, Мастер визуализации всегда является

продолжением Мастера обработки, т.е. активизируется при

создании (настройке) узла. Базовыми визуализаторами в Deductor

являются следующие:

Таблица;

Статистика;

Сведения.

Визуализатор Статистика служит для отображения основных

статистических характеристик набора данных конкретного узла.

Статистические характеристики отображаются в таблице по каждому

полю выборки. В верхней части окна статистики отображается общее

количество записей в наборе данных. Панель инструментов окна

17

статистики позволяет управлять отображением статистических

характеристик (среднее, минимум, максимум и т.п.) с помощью

группы кнопок .

Визуализатор Сведения позволяет просмотреть все параметры, с

которыми был выполнен тот или иной процесс преобразования

данных, в результате которого была сформирована новая выборка:

импорт, обработка одним из методов или экспорт. Такими

параметрами являются время и длительность выполняемого процесса,

условия остановки, наличие первичного ключа, ограничители

столбцов, разделители целой и дробной частей чисел, элементов даты

и т.д. Визуализатор в основном предназначен для оперативного

анализа текущих настроек узлов и для поиска возможных ошибок.

18

Лабораторная работа №1

Формирование сценариев в Deductor Studio. Базовые

визуализаторы

Цель работы – приобрести умения и навыки создания сценариев,

а также использования визуализаторов Статистика и Таблица в

Deductor Studio Academic, версия 5.3.

Задание:

1. Загрузите приложение Deductor Studio Academic 5.3, создайте

новый проект и сохраните его под именем Лаб.раб_01.ded (меню:

Файл→ Создать, Файл → Сохранить как…).

2. Заполните свойства проекта в диалоговом окне «Свойства

проекта» (меню: Файл → Свойства проекта…) в соответствие с

рис. 7.

Рис. 7. Образец заполнения сведений проекта

Помните, что для просмотра файла проекта Deductor в формате

xml необходимо снять опцию «Использовать упакованный формат

файла» в диалоговом окне Свойства проекта (рис. 7).

3. Сделайте видимыми вкладки Отчеты и Подключения,

измените порядок вкладок Сценарии и Подключения. Переместите

вкладки Отчеты и Подключения вниз.

4. Запустите мастер импорта (рис. 8), вызвав его кнопкой ,

выберите файл «провайдеры.txt».

19

Данные для выполнения заданий в виде txt-файла размещены на

странице http://kataeva.ru/published/analizd/.

Deductor не позволяет ввести исходные данные, поэтому

сценарий всегда начинается с узла импорта из текстовых файлов либо

из созданного в аналитической платформе хранилища.

Рис. 8. Первый шаг работы мастера импорта

В сценарии загрузки можно использовать как абсолютные (рис.

9), так и относительные (рис. 10) пути к текстовым файлам.

Рис. 9. Второй шаг мастера импорта (указан абсолютный путь

к файлу)

Рис. 10. Второй шаг мастера импорта (указан относительный

путь к файлу)

http://kataeva.ru/published/analizd/

20

5. В целях корректного чтения загружаемых данных на 3-м шаге

мастера импорта необходимо убедиться, что разделители в исходном

файле совпадают с указанными в диалогом окне. В противном случае

необходимо внести соответствующие изменения (рис. 11) в

параметры загрузки.

Рис. 11. Установление формата исходных данных при импорте

В случае, если в исходных данных значения полей отделяются

специальными символами, то на следующем 4-м шаге необходимо

указать символ-разделитель столбцов и другие вспомогательные

параметры импорта файла. Если исходные данные имеют

(постоянную) фиксированную ширину, то на следующем 5-м шаге

устанавливаются параметры импорта файла со столбцами такой

ширины.

В процессе извлечения данных могут возникнуть ошибки, о чем

будет указано в появившемся на экране сообщении. Причину их

возникновения можно уточнить в системном журнале.

6. В случае, если процесс импорта данных был успешно

завершен, то активизируется кнопка «Далее», которая позволит

перейти на следующие шаги Мастера импорта к странице

«Определение способов отображения» (рис. 12).

21

Рис. 12. Завершения процесса импорта данных

7. На 8-м шаге необходимо указать визуализаторы, которые

будут использованы для отображения импортированных данных (рис.

13).

Рис. 13. Настройка визуализаторов

22

Выберите следующие способы отображения данных: таблица,

статистика.

8. На последнем 9-м шаге необходимо присвоить имя и метку

новому узлу, которые должны соответствовать приведенным на рис.

14. После завершения процедуры импорта этот узел появится в

дереве сценариев (рис. 15).

Рис. 14. Присвоение имени и метки узлу импорта

В дальнейшем для изменения параметров импорта данных

необходимо реализовать операцию настройки узла, для чего следует

выделить узел импорта и выбрать из всплывающего меню или панели

инструментов кнопку .

Рис. 15. Узел импорта в создаваемом сценарии

23

9. Измените последовательность столбцов в таблице: поменяйте

местами второй и третий столбцы. Объедините заголовки столбцов

"Респондент.Район" и "Респондент.Пол" под общим названием

"Респондент" в шапке таблицы. Для этого с помощью обработчика

"Настройка набора данных" измените метку первого столбца на

Респондент|Район, а второго на Респондент|Пол. Результат

преобразований приведен на рис. 16.

Рис. 16. Результат перемещения и объединения заголовков двух

столбцов исходных данных

10. Измените заглавие столбца таблицы «Респондент.Семья

(количество чел.)» на «Количество человек в семье», используя для

изменения параметров узла контекстное меню – Настроить узел или

кнопку . Оптимизируйте ширину данного столбца как показано на

рис. 17.

Рис. 17. Результаты изменения названия и ширины третьего

столбца в исходных данных

11. Используя Мастер обработки, сделайте столбец «Реклама»

неиспользуемый. Сохраните конфигурацию визуализатора под

названием «Провайдеры_1».

12. Выделите узел импорта и создайте узел «Настройка набора

данных», в котором сделайте все столбцы, кроме «Интернет-

провайдер» и «Оценка критериев…», неиспользуемыми. Измените

метку этого узла на «Оценку критериев выбора провайдера».

24

Операция выполняется с помощью клавиши F2 или контекстного

меню – закладка «Переименовать» (рис. 18).

Рис. 18. Фрагмент сценария

13. Проанализируйте информацию, содержащуюся в области

визуализации на закладке Статистика (рис. 19). Обратите внимание:

общее количество записей в наборе данных равно 590;

по каждому столбцу исходных данных выборки отображается

следующая информация: гистограмма, минимум, максимум,

среднее, стандартное отклонение, сумма, сумма квадратов

отклонений, количество уникальных значений и количество

пустых значений.

На основе анализа представленной информации ответьте на

следующие вопросы:

1. В каком из столбцов минимум не равен нулю?

2. Присутствуют ли уникальные значения среди данных столбца

«Интернет-провайдеры», назовите их.

3. В выборке больше клиентов какого интернет-провайдера?

4. Какова доля (в %) таких клиентов в общем объеме

опрошенных?

5. Какой средний балл имеет оценка критерия «Скорость

связи»?

6. В каком диапазоне находится оценка по критерию

«стоимость» более 60 % опрошенных Интернет-пользователей?

7. Имеются ли пропущенные значения в анализируемой

информации?

25

Рис. 19. Фрагмент области визуализации – закладка

Статистика

14. Сохраните конфигурацию визуализатора Статистика под

названием «Статистика_провайдеры».

15. В визуализаторе Таблица установите фильтр Оценка критерия

«скорость связи» (0-4 балла) = не пустой. Сколько строк прошло

через фильтр? Удалите фильтр.

16. Скопируйте узел «Настройка набора данных (Оценка

критериев выбора провайдера)» в сценарии, используя кнопку

либо контекстное меню – копировать узел, удалите вновь созданный

узел или .

Замечание: После вставки нового узла или удаления

существующего узлы-потомки могут стать нерабочими. Удаленная

ветвь восстановлению не подлежит.

17. Экспортируйте полученный набор данных в текстовый файл

«Оценка критериев выбора провайдера» с настройками,

предлагаемыми по умолчанию.

Замечание: к узлу экспорта невозможно добавить ни один узел.

26

18. Сохраните проект под именем «Провадеры.ded» и завершите

работу. Итоговый сценарий выполнения лабораторной работы

приведен на рис. 20.

Рис. 20. Итоговый сценарий выполнения лабораторной работы

Контрольные вопросы

1. Опишите, что представляет собой Deductor Studio. Назовите

основные части данной аналитической платформы.

2. Что такое проект в аналитической платформе Deductor Studio?

3. Как создать новый проект и сохранить текущий под другим

именем в данной программной системе?

4. Сколько мастеров имеется в Deductor Studio? Каково их

функциональное назначение?

5. Что такое сценарий и узел сценария?

6. Какие шаги мастера импорта нужно пройти для импорта

текстового файла?

7. Каким образом в Deductor Studio можно изменить параметры

импорта текстового файла после его осуществления?

8. Какие способы визуализации данных предусмотрены в данной

аналитической платформе?

9. Какие характеристики набора данных показывает визуализатор

Статистика?

10. Что позволяет сделать обработчик Настройка набора данных?

11. Что означает красный заголовок столбца в визуализаторе

Таблица?

12. Какие условия фильтрации предусмотрены в программе?

13. Какие способы отображения данных предусмотрены в

визуализаторе Таблица?

14. Как скрыть столбец в визуализаторе Таблица?

15. Возможно ли область визуализации настроить таким образом,

чтобы исходные данные были представлены в виде таблицы и

статистики одновременно? Если да, то как это сделать?

27

Лабораторная работа №2

Основные алгоритмы по отчистке и трансформации данных

в Deductor

Цель работы приобрести умения и навыки обработки и анализа

данных в Deductor Studio Academic 5.3. посредством использования

основных алгоритмы по отчистке и трансформации данных.

Задание:

1. Загрузите Deductor Studio Academic 5.3, создайте новый проект

и сохраните его под именем Лаб.раб._2.

2. Импортируйте текстовый файл провайдеры.txt в Deductor,

корректно настроив параметры. Метка (название) создаваемого узла

сценария Текстовый файл (провайдеры.txt).

3. С помощью мастера обработки создайте 3 узла фильтрации по

следующим критериям:

- «Интернет-провайдер» = «МТС» и «Район»=«Западный»;

- «Интернет-провайдер» = «МТС» и «Район» = «Русское поле»;

- «Интернет-провайдер» = «МТС» и «Район» = «Северный»;

Обратите внимание на особенности формирования условий

фильтрации, связанные с определением операций (рис. 21).

Рис. 21. Настройка условий фильтрации входных данных

28

Какие типы операций можно установить при фильтрации. Чем

обосновывается необходимость использования операции «или» при

задании указанных выше условий?

Сколько строк прошло через фильтр?

4. Используя обработчик Замена данных, сделайте следующую

замену в поле Возможна смена провайдера: значение True измените

на Да, False на Нет.

Замечание: Указанные преобразования невозможно совершить с

данными логического типа, необходимо изменить тип данных на

строковый.

5. Необходимо сделать поле «Возможна смена провайдера»

неиспользуемым, а название вновь созданного столбца «Возможна

смена провайдера_Replace» изменить на «Изменение провайдера».

Для этого следует воспользоваться обработчиком Настройка набора

данных.

6. Произведите следующую замену: в поле «Сумма оплаты в

месяц (в руб.)» значение 150-300 – на 300, 300-500 – на 400, более 500

– на 500. Удалите поле с исходными данными из набора, а новому

полю присвойте название старого.

7. Произведите сортировку последнего набора данных в поле

«Сумма оплаты в месяц» по возрастанию (рис. 22).

Рис. 22. Настройка параметров сортировки данных

29

8. Используя обработчик Калькулятор (функцию RowNum()),

добавьте поле с названием Номер строки. Какое количество строк в

наборе данных?

9. Используя узел Калькулятор, создайте новое поле Дата

обработки, значения в котором равны текущей дате (функция

Today()).

Замечание: Задавая параметры выражения, не забудьте

установить тип данных «Дата/время».

10. Добавьте еще одно поле «Предыдущая дата обработки», в

котором должна быть указана дата, предшествующая текущей на

одну неделю. Один из способов установления такой даты

представлен на рис. 23.

Рис. 23. Установление фиксированной даты обработки данных

Замечание: Задавая указанным выше способом параметры

выражения, не забудьте установить тип данных «Строковый».

11. Создайте новое поле «Сегмент», которое делит всех клиентов

на сегменты по следующим правилам (функция IFF или IF):

a) ЕСЛИ Кол-во часов в день = более 10 и Сумма оплаты в месяц

>400, то Сегмент=1;

b) ЕСЛИ Кол-во часов в день =5-10 часов, то Сегмент=2;

c) Сегмент=3 во всех остальных случаях.

30

Пример одного из способов решения поставленной задачи:

12. Загрузите экспортированный в лабораторной работе №1

текстовый файл «Оценка критериев выбора провайдера» с

настройками, предлагаемыми по умолчанию.

13. С помощью обработчика Фильтрация получите две

отдельные таблицы «Оценка критериев выбора провайдера

РОСТЕЛЕКОМ» и «Оценка критериев выбора провайдера МТС». На

3-м шаге мастера обработки выберите два способа отображения

данных – таблица и статистика.

14. Используя обработчик Заполнение пропусков, восстановите

пропуски в данных таблицы «Оценка критериев выбора провайдера

МТС». При выполнении данной операции используйте настройки по

умолчанию, дополнительно установив два визуализатора – Таблица

и Статистика.

Какое количество пропущенных значений было заполнено?

Изменились ли минимум, максимум, среднее значение и сумма по

каждой из оценок критериев интернет-провайдера МТС?

Для ответа на вопросы воспользуйтесь информацией,

содержащейся на закладке Статистика в узлах «Фильтр ([Интернет-

провайдер] = 'МТС')» и «Заполнение пропущенных данных».

15. Используя Калькулятор (функция Stat("ИмяСтолбца";"Avg")),

вычислите интегральный показатель для оценки выбора провайдера

МТС по формуле:

“ показатель” “ ”

16. Используя Калькулятор (функция Round (интегральный

показатель;2)), округлите полученное в предыдущем узле значение

интегрального показателя с точностью до сотых.

17. С помощью обработчика Группировка объедините записи,

содержащие одинаковые значения. Введите следующие параметры

группировки данных:

поле «Интернет-провайдеры» измерение;

все остальные поля – факт;

способ агрегации – «первый».

31

18. Добавьте к сценарию узел Скрипт, выполняющий те же

действия с набором данных «Оценка критериев выбора провайдера

РОСТЕЛЕКОМ», что и в п.п. 14-17.

Замечание: Скрипты представляют собой динамическую копию

выбранного участка сценария и позволяют автоматизировать процесс

добавления в сценарий однотипных ветвей обработки. Скрипт

является готовой последовательность действий, с помощью которой

выполняются заложенные один раз в ветви операции.

Для добавления в сценарий скрипта предусмотрены следующие

шаги:

1) Выбор начального этапа обработки и настройки полей

(рис. 24):

Рис. 24. Начальный этап обработки полей при создании узла

Скрипт

Замечание: В целях корректного выполнения данной операции

необходимо, чтобы создаваемый скрипт был подузлом узла «Фильтр

([Интернет-провайдер] = 'РОСТЕЛЕКОМ')».

2) Выбор конечного этапа обработки и настройки полей (рис. 25):

Рис. 25. Конечный этап обработки полей при создании узла

Скрипт

32

3) Запуск выполнения скрипта.

В случае корректного и благополучного выполнения операции

создания скрипта после основных этапов появится название

«Успешное завершение» (рис. 26).

Рис. 26. Иллюстрация запуска выполнения скрипта

19. Скопируйте узел «Фильтр ([Интернет-провайдер] =

'РОСТЕЛЕКОМ'» и его подузел Скрипт. Настройте данный фильтр на

интернет-провайдер Спарк. С помощью каких операций проще всего

выполнить задание? Внесите соответствующие изменения в название

вновь созданного узла. Сравните полученные с помощью скриптов

значения интегральных показателей интернет-провайдеров МТС,

Ростелеком, Спарк и сделайте выводы.

20. Сохраните проект под именем «Лабораторная работа №2» и

завершите работу.

Итоговый сценарий выполнения лабораторной работы приведен

на рис. 27.

33

Рис. 27. Итоговый сценарий выполнения лабораторной

работы №2

Контрольные вопросы

1. Перечислите основные алгоритмы по отчистке данных в

Deductor.

2. Как работает и для чего предназначен узел Фильтр, созданный

с помощью мастера обработки?

3. Какие условия фильтрации существуют?

4. Что делать, если нужно поставить фильтр по значению,

которого в данный момент нет в рассматриваемом наборе данных?

5. Как работает и для чего предназначен узел Замена данных?

6. При выполнении лабораторной работы в ходе осуществления

замены данных была необходимость изменить тип исходных данных,

как была решена данная проблема?

7. Для чего предназначен узел Сортировка? Какие режимы

сортировки предусмотрены?

8. Опишите функционал обработчика Калькулятор? Перечислите

основные виды предусмотренных в нем функций и операций.

9. Каким образом строится описание выражения в обработчике

Калькулятор? Сколько таких выражений может содержать один узел?

34

10. Чем отличаются функции IF и IFF?

11. Опишите способы установки текущей и отличной от нее даты

в наборе данных с помощью узла Калькулятор.

12. Каково назначение функции ?

13. Что представляет собой обработчик Скрип? Опишите этапы

его создания.

14. Чем отличается копирование ветви от применения скрипта?

Библиографический список

1. Deductor. Принципы работы. Обработка данных [Электронный

ресурс] / Официальный сайт компании BaseGroup Labs Режим

доступа: http://www.basegroup.ru/deductor/work/process/.

2. Deductor. Руководство аналитика. Версия 5.2 / BaseGroup Labs,

2009. 192 с.

3. Вон Ким. Три основных недостатка современных хранилищ

данных [Электронный ресурс] / Вон Ким // Открыты системы, 2003.

№2. – Режим доступа: http://www.osp.ru/os/2003/02/182655/.

4. Глоссарий [Электронный ресурс] / Сайт компании BaseGroup

Labs. – Режим доступа: http://www.basegroup.ru/glossary/.

5. Даффи Брансон. Десять основных тенденций 2005 года в

области Business Intelligence и Хранилищ данных: оправдался ли

прогноз? [Электронный ресурс] / Даффи Брансон. Октябрь, 2005 г.

Режим доступа: http://citcity.ru/11100/.

6. Дюк В., Самойленко А. Data Mining: учебный курс (+CD).

СПб.: Питер, 2001. 368 с.

7. Зиновьев А. Ю. Визуализация многомерных данных.

Красноярск: Изд-во Красноярского государственного технического

университета, 2000. 180 с.

8. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к

знаниям (+ СD): учеб. пособие. 2-е изд., перераб. и доп. СПб.:

Питер, 2010. 704 с.

9. Современные проблемы информатизации в моделировании и

социальных технологиях // Сб. трудов. Вып. 17 / Под ред. д.т.н., проф.

О.Я. Кравца. Воронеж: Изд-во "Научная книга", 2012. 124 с.

10. Чубукова И. А. Data Mining: учебное пособие. М.:

Интернет-университет информационных технологий: БИНОМ:

Лаборатория знаний, 2006. 382с.

http://www.basegroup.ru/deductor/work/process/

http://citcity.ru/11100/

http://pca.narod.ru/ZINANN.htm

http://www.intuit.ru/department/database/datamining/

35

Хлебникова Анна Игоревна

Катаева Татьяна Михайловна

Катаев Алексей Владимирович

Лабораторный практикум

на тему

Базовые подходы использования

аналитических систем на примере

Deductor Studio Academic

по дисциплинам

Анализ данных

Экономико-математические модели и методы

Для студентов по направлениям

38.03.02 Менеджмент

38.03.05 – Бизнес-информатика

Редактор Надточий З.И.

Корректор Чиканенко Л.В.

Подписано в печать

Заказ № Тираж 10 экз.

Формат 60х841/16 Усл. п. л. – 1,5. Уч.-изд. л. – 1,4.

__________________________________________________________ Издательство Южного федерального университета

344091, г. Ростов-на-Дону, пр. Стачки, 200/1.

Тел. (863) 2478051

Отпечатано в Секторе обеспечения полиграфической продукции кампуса в

г. Таганроге отдела полиграфической, корпоративной и сувенирной продукции

ИПК КИБ ЦЕНТРА ЮФУ. ГСП 17А, Таганрог, 28, Энгельса, 1

Тел (8634)371717.

b m w k - kataeva.rukataeva.ru/wp-content/uploads/2014/12/met1-dm.pdf · Пособие...

Documents