spss modeler

28
Интеллектуальный анализ данных для повышения эффективности работы государственных органов управления. Олег Данильченко

Upload: -

Post on 21-Nov-2014

523 views

Category:

Documents


15 download

DESCRIPTION

 

TRANSCRIPT

Page 1: SPSS Modeler

Интеллектуальный анализ данных для повышения эффективности работы государственных органов управления.

Олег Данильченко

Page 2: SPSS Modeler

Что такое прогнозная аналитика и почему она важна?Примеры решаемых задач для повышения эффективности работы государственных органовОбзор продуктов IBM SPSSПримеры внедрений

Page 3: SPSS Modeler

Применение аналитических средств обработки данных является клучевым конкурентным преимуществом

“В то время, когда компании во многих отраслях промышленности предлагают похожие продукты и используют схожие технологии, повыщение эффективности бизнес процессов является одной из последних оставшихся точек дифференциации” Tom Davenport, “Competing on Analytics”

57%

55%

61%

62%

63%

64%

66%

70%

76%

80%

63%

68%

70%

67%

71%

73%

71%

73%

77%

86%

Unified Communication

SOA/Web Services

Business Process Management

Application Harmonization

Self-Service Portals

Customer and Partner Collaboration

Mobility Solutions

Risk Management and Compliance

Virtualization

Business Intelligence and Analytics

Ten Most Important Visionary Plan ElementsInterviewed CIOs could select as many as they wanted

Highgrowth

Low growth

BI/Analytics #1инвестиции в

повышение конкурентноспособности

IBM Global CIO Study 2009

Page 4: SPSS Modeler

Что такое прогнозная аналитика и почему она важна?

Аналитика – это процесс, в который вовлечены как компьютерные технологии, так и навыки конкретных людей и который позволяет получить знания из данных, преобразовать эти знания в стратегии

Data Mining - это область знаний, которая находится на пересечении науки и искусства

Page 5: SPSS Modeler

Прогнозная аналитика: Тенденции 2011

Тренд №1: Инновационные пути применения аналитикиПомимо стандартных методов применения аналитики появляются новые места применения углубленной аналитики, позволяющие организации получать дополнительную выгоду.

Тренд №2: Данные, Данные, ДанныеНовые источники данных, например, неструктурированные текстовые данные и данные из социальных сетей .

Тренд №3: Новые методологи Методы углублённой аналитики постоянно расширяют область своего применения и глубину анализа. Например, пуассоновская регрессия, анализ выживаемости, и оптимизационные модели.

Page 6: SPSS Modeler

Прогнозная аналитика

“NOW”

Традиционный BI и анализ:• Замер исторических KPI, метрик и проч.• Детальный анализ агрегированных данных по запросу пользователя

Предиктивная аналитика:• Алгоритмы автоматически находят значимые закономерности в данных• Использование закономерностей позволяет принимать более эффективные решения•“Обучение” на исторических данных – создание предиктивных моделей

“NOW”

“NOW”

Внедрение предиктивных моделей• Использование текущих и исторических данных• Создание точных прогнозов• Внедрение в бизнес процессы для повышения их эффективности

M

KPI

KPIKPI

Осознание и реакция

Проактивныедействия

время

время

время

Page 7: SPSS Modeler

Основные гипотезы аналитического подхода

•Случайный характер исхода события

•Факторная зависимость вероятности исхода события

•«Завтра похоже на вчера»

~

Page 8: SPSS Modeler

Виды Виды data mining data mining задачзадач

•Направленный (directed) data mining•Классификация•Оценивание•Прогнозирование

•Ненаправленный (undirected) data mining•Группировка по сходству или поиск ассоциативных правил•Кластеризация•Описание и визуализация

8 из 36

Page 9: SPSS Modeler

Задачи Задачи data mining:data mining:КлассификацияКлассификация (Classification) (Classification)

Задача:Определить класс, к которому принадлежит объект, описываемый набором характеристик. Число классов конечно.

9 из 36

Page 10: SPSS Modeler

Задачи Задачи data mining: data mining: ПрогнозированиеПрогнозирование (Forecasting) (Forecasting)

10 из 36

Задача:На основе входной информации предсказать будущие значения различных характеристик объекта.

Page 11: SPSS Modeler

Задачи Задачи data mining: data mining: КластеризацияКластеризация (Clustering) (Clustering)

11 из 36

Задача:Сегментировать большое количество разнородных элементов в определенное количество схожих подгрупп или кластеров. Признак для кластеризации заранее неизвестен.

Page 12: SPSS Modeler

Данныепо абонентам(CDR и др.)

Выборка

Настройка моделипо обучающей

выборке

Тестирование модели

Модель

Изменениепараметров, отбор

предикторов

Скоринг

Обучающаявыборка

Тестоваявыборка

Данные

Page 13: SPSS Modeler

1.Понимание бизнес-задачи2.Понимание данных•Какие данные доступны?•Все ли атрибуты представлены?•Оценка качества данных и т.д.

3.Подготовка данных•Отбор данных•Расчет производных показателей•Объединение данных из разных источников

4.Моделирование•Выбор методов•Настройка моделей и тестирование•Выбор лучшей модели

5.Оценка результатов6.Внедрение моделей

Page 14: SPSS Modeler

Анализ данных опросов• Мониторинг общественного мнения• Анализ социально-экономической ситуации•Анализ данных нужен для выяснения ситуации в регионе и определения проблемных сфер.•Определение проблем, формирующих кризисную ситуацию. •Анализ данных необходим не только для выявления проблем региона, но и для определения причин их возникновения.•Анализ реакции населения на внедрение различных федеральных и региональных программ. •Возможность корректировки программ для повышения их эффективности.•Анализ экономического положения

Page 15: SPSS Modeler

Образование•Планирование школьных округов. Нахождение оптимального месторасположения новых школ, в зависимости •от условий района,•демографической ситуации •других факторов.

•Отслеживание успеваемости учащихся,•выявление факторов способствующих повышению успеваемости.

•Администрирование •контроль за уровнем выполнения обязательных программ и тестов.

Page 16: SPSS Modeler

Здравоохранение•Отслеживание болезней и создание отчетов о случаях заболеваний.

• Эпидемиология - выявление причин заболеваний и территории их распространения, а также контрользаболеваемости.

•Медицинская помощь - определение профилей тех, кому часто требуется медицинская помощь.

•Профилактика - выявление групп риска и необходимости медицинского вмешательства.

Page 17: SPSS Modeler

Стратегическое планирование

•Анализа удовлетворенности клиентов и изучения изменений потребностей общественности.

• Оценки программ- понимания факторов успешной реализации программы.

•Профилирования населения 1 более эффективного направления действия программы на определенные слои населения.

• Анализа затрат - выявления наиболее эффективных программ.

• Анализа результатов выполнения программ (пример - энергоэффективность)

•Прогнозирование аварийных ситуаций на объектах промышленности

Page 18: SPSS Modeler

Решение по выявлению мошенничества в налоговых декларациях

•Выявление налогоплательщиков, не подавших налоговые декларации,компаний и граждан, которые могут иметь налоговые обязательства, но не отчитались перед налоговыми органами. •Выбор кандидатов для проведения аудиторских проверок — выявление налогоплательщиков, которые вероятнее всего занижают свои налоговые обязательства. •Управление взиманием налогов — определение эффективной стратегии погашения налоговой задолженности для каждого конкретного случая.

Page 19: SPSS Modeler

Обхор продуктов SPSS

Page 20: SPSS Modeler

Предиктивная аналитика: Семейства продуктов IBM SPSS

Data Collection:–Проведение и обработка результатов опросов

Statistics:–Глубокая аналитика и проверка статистических гипотез

Modeling:–Инструмент построения предиктивных моделей

Deployment:–Внедрение и автоматизация применения предиктивных моделей–Распространение результатов анализа

Page 21: SPSS Modeler

Что отличает IBM SPSS Modeler?•Простота использования / интуитивный визуальный интерфейс•Визуальный подход – не нужны навыки программирования•Полный набор инструментов Data mining•Разнообразные возможность внедрения моделей•Автоматизация моделирования•Автоматическая подготовка данных•Автоматическая настройка нескольких моделей и поддержка выбора оптимального решения•Автоматическая сегментация•Открытая масштабируемая архитектура•Нет необходимости в специализированной базе данных•Data mining в стандартных базах данных с использованием технологии SQL pushback•Максимальное использование IT-инфраструктуры: многопоточность, кластеры и использование встроенных алгоритмов

Page 22: SPSS Modeler

Collaboration & Deployment ServicesCollaboration & Deployment Services

•Управление аналитическими ресурсами•Централизованный репозиторий•Автоматизация аналитических процессов•Создание многоэтапных заданий•Автоматическое обновление моделей и скоринг •Внедрение результатов•Автоматизация построения отчетов для мониторинга •Автоматическое распространение отчетов с доступом через web-браузер•Интеграция аналитических процессов с другими бизнес-процессами

Page 23: SPSS Modeler

23

IBM SPSS Modeler: визуальное моделирование на основе CRISP-DM

Постановка задачи Экспорт

Анализ данных

Подготовка данных

Построение модели

Оценка модели

Page 24: SPSS Modeler

Predict: SPSS Modeler

Доступ к разрозненным источникам данных

Преобразование входящих данных

Понимание взаимосвязей в данных и визуализаци

Прогнозирование и классификация событий

Page 25: SPSS Modeler

Predict: SPSS Modeler

Анализ неструктурированнй информации (блогосфера, социальные сети)

Выгрузка результатов моделирования

Page 26: SPSS Modeler

Customer StoryCanada Revenue Agency

Business ChallengeIdentify potential cases from the non filer group that gets filtered out as low

potential during the annual load process:•Identify those who failed to file tax returns•Determine which ones have positive tax potential•Take enforcement actions to obtain the missing returns and related payments

SolutionUse of SPSS predictive analytics and data mining to

•Improve workload selection, enhance workflow, detect anomalies, predict client behavior to determine tax strategies, and increase collection rate•Improve the ability to assess the value of non-compliance issues – specifically missing returns –and focus on the “best ROI” workload•Identify accounts with good tax potential that are rejecting as “low potential” thru the current legacy business rules systemResults•Based on a pilot conducted in 2004, estimated results for full production year

- Approx $100 million in revenue for a single tax year

Predictive Analytics for Improving Collections & Compliance

Page 27: SPSS Modeler
Page 28: SPSS Modeler

Спасибо за внимание!