9306
.pdfН.Ю.Прокопенко
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ
(аналитические информационные системы поддержки принятия решений на базе Deductor Studio Academic 5.2)
Учебноепособие
ННГАСУ-2012
М И Н О Б Р Н А У К И Р О С С И И
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«Нижегородский государственный архитектурно-строительный университет» (ННГАСУ)
Н. Ю. Прокопенко
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ
(аналитические информационные системы поддержки принятия решений
на базе Deductor Studio Academic 5.2)
Учебное пособие
Нижний Новгород 2012
ББК 32.973.26-018.2я73
П78
Рецензенты:
Кащеев Н.И. – к.т.н., доцент, директор Нижегородского института информационных технологий
Елесин А.В. – к.ф.-м.н., доцент кафедры информатики и информационных технологий Нижегородского института управления филиала РАНХ и ГС при Президенте РФ
Прокопенко Н.Ю. Информационные технологии анализа данных (аналитические информационные системы поддержки принятия решений на базе Deductor Studio Academic 5.2) [Текст]: учебн. пособие для вузов./Н. Ю. Прокопенко; Нижегор. гос. архитектур.-строит. ун-т. – Н. Новгород: ННГАСУ, 2012. – 149 с.
Рассматриваются вопросы автоматизации информационной подготовки принятия управленческих решений с использованием современных инструментальных средств, основные этапы проектирования и сопровождения информационных хранилищ, технологии оперативного и интеллектуального анализа данных, отражающих деятельность в различных предметных областях.
Предназначено для подготовки студентов бакалавриата и магистратуры направления 230700 «Прикладная информатика», а также может быть использовано в учебном процессе направления 230400 «Информационные системы и технологии».
©Прокопенко Н.Ю., 2012
©ННГАСУ, 2012
3
Содержание
Введение…………………………………………………………………………..…5
1.Аналитические информационные системы поддержки принятия решений…6
1.1.Аспекты проблемы анализа и их реализация в программных продуктах….6
1.2.Аналитическая платформа Deductor………...………………………….……11
1.3.Интерфейс Deductor Studio……………………………………………………19
1.4.Практическая работа «Базовые навыки работы в аналитической платформе Deductor Studio Academic»………………..……….……………………….………21 1.5 Вопросы для самопроверки…………..………………………………………..30
2.Технологии сбора и хранения данных в аналитических информационных
системах...................................................................................................................... |
32 |
2.1. Консолидация данных и хранилища данных................................................... |
32 |
2.2.Архитектура хранилища данных……………………………………………..39
2.3.Проектирование структуры хранилища данных………….…………..……..42
2.4.Практическая работа «Создание ХД в Deductor Studio Academic»……...…46
2.5.Оценка качества данных, очистка и предобработка…...……………………51
2.6.Методы и инструменты аудита данных в Deductor Studio ...……………….56
2.7.Практическая работа «Загрузка информации в ХД»……………….……….64
2.8.Практическая работа «Извлечение информации из ХД»………..………….68
2.9.Вопросы для самопроверки………………………………………………...…74 3. Визуализация и аналитическая отчетность…………………………………….75
3.1.Цели и методы визуализации…………………………………………...…….75
3.2.Многомерный анализ и OLAP………………………………….…………….78
3.3.Визуализация и отчеты в Deductor Studio …………………….....……..……83
3.4.Практическая работа «Визуализация в Deductor Studio Academic»…….….91
3.5.Вопросы для самопроверки…………………………………………………...97 4. Методы и модели Data Mining...………………………………………………..98
4.1Технологии KDD и Data Mining……………………………………………….98
4.2.Деревья решений…………………………………………..…………………102
4
4.3.Нейронные сети…………………………………………………….……..….113
4.4.Кластеризация…………………………………………………………….......129
4.5.Практическая работа «Модели Data Mining в Deductor Studio Academic» 144
4.6.Вопросы для самопроверки………………………………………………….148 Список литературы…………..……………………………………………………149
.
5
Введение
В современных реалиях культура использования информационных технологий и компьютеров становится частью общей культуры человека, а знания и опыт применения интеллектуальных методов анализа информации и профессиональных программ, включающих Data Mining, уже в ближайшее время станут одним из показателей профессионализма студентов разных направлений.
Настоящее учебное пособие предназначено для магистрантов и студентов, изучающих в рамках дисциплин «Интеллектуальные информационные системы», «Интеллектуальные методы анализа данных», «Современные методы обработки данных в интеллектуальных системах», «Компьютерные технологии и статистические методы в экологии»,
«Аналитические системы в региональной экономике», «Компьютерные технологии в экономике и управлении», вопросы использования современных корпоративных информационных систем, включающих системы обработки данных (СОД), информационные системы управления (ИСУ) и системы поддержки принятия управленческих решений (СППР).
В пособии раскрываются теоретические и практические основы использования свободно распространяемой аналитической платформы Deductor Studio Academic (http://www.basegroup.ru). Реализованные в Deductor технологии позволяют пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.
6
1. Аналитические информационные системы поддержки принятия решений 1.1. Аспекты проблемы анализа и их реализация в программных продуктах
В современном понимании анализ данных – это прикладная научная дисциплина, представляющая собой систему взаимосвязанных методов и технологий обработки исходной стохастической информации, полученной из наблюдений, экспериментов, опросов, статистических отчетов, существующих баз данных, компьютерных систем управления различными сферами деятельности с целью выявления (подтверждения, уточнения) скрытых закономерностей определенной предметной области для принятия управленческих решений.
Аналитические исследования играют определяющую роль в организации эффективного управления социально-экономическим развитием территорий, так как от достоверности и объективности полученных результатов зависит выбор направлений развития и инструментарий управленческого воздействия на объект исследования. Исследования в данном случае выступают как важный административный ресурс, ориентированный на конечный результат – принятие взвешенных, обоснованных и тщательно просчитанных управленческих решений.
Необходимость оперативной аналитической обработки эколого- социально-экономической информации, макроструктурного анализа, краткосрочного и долгосрочного стратегического прогнозирования и планирования развития регионов требует привлечения методов статистического и интеллектуального анализа данных, использования современных инструментальных средств и пакетов прикладных программ.
Одной из первостепенных задач при подготовке и принятии решений является анализ данных, имеющихся в распоряжении лиц, принимающих решения. Потребности в быстром и высококачественном обеспечении принятия
7
решений, а также высокий уровень развития информационных технологий привели к созданию отдельного направления информационных систем – информационно-аналитических систем (ИАС), под которыми понимают комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ в целях обоснования принятия управленческих решений и других возможных применений. Создание информационно-аналитических систем, реально отвечающих целям и задачам эффективного управления социальноэкономическим развитием региона, представляет собой сложный процесс, включающий этапы формирования концепции, проектирования, разработки, внедрения и сопровождения.
Задачами информационно-аналитических систем являются сбор, организация и обеспечение хранения необходимых для анализа данных в целях обоснования принятия решений; обеспечение анализа имеющихся в распоряжении данных, в том числе в режимах оперативного и интеллектуального анализа; подготовка результатов анализа в виде отчетов, карт и диаграмм, выполненного в соответствии с необходимостью в том или ином режиме для эффективного восприятия потребителями.
Проблема аналитической подготовки принятия решений имеет следующие аспекты:
–извлечение из многих источников разнородных данных, представленных в различных форматах и приведение их к единому формату и единой структуре;
–организация хранения и предоставления пользователям необходимой для принятия решений информации;
–собственно анализ, в том числе оперативный и интеллектуальный, и подготовка плановой или регулярной оценки состояния управляемого объекта в виде документов или экранных форм;
8
– подготовка результатов оперативного и интеллектуального анализа для эффективного их восприятия потребителями и принятия на ее основе адекватных решений.
Аспект, касающийся сбора и хранения информации с сопутствующей доработкой, оформился в концепцию информационных хранилищ (Data Warehouse). Эта концепция состоит в том, что сведения о деятельности предприятия или иного объекта хозяйственной или иной деятельности накапливаются в течение длительного периода времени (годы) в информационном хранилище по определенным правилам. Они используются в различных временных режимах для анализа как источник данных для разного рода отчетности и работы с партнерами и обоснования управленческих решений.
Информационно-аналитические системы объединяют, анализируют и хранят как единое целое информацию, извлекаемую как из учетных баз данных организации, так и из внешних источников. Входящие в состав информационноаналитических систем хранилища данных обеспечивают преобразование больших объемов сильно детализированных данных в обобщенную выверенную информацию, которая пригодна для принятия обоснованных решений. В отличие от обычных баз данных хранилища содержат обработанное, упорядоченное и понятное руководителям представление данных. Хранилище данных представляет собой специализированную базу для поддержки процесса анализа данных, отвечающую следующим требованиям: ориентации на предметную область, интегрированности и внутренней непротиворечивости, привязке ко времени, неизменяемости, поддержке высокой скорости получения данных из хранилища, полноте и достоверности хранимых данных, поддержке качественного процесса пополнения данных.
В связи с большим объемом и сложностью аспект проблемы собственно анализа имеет два направления: оперативный анализ информации, широко распространена аббревиатура англоязычного названия – OnLine Analytical
9
Processing – OLAP, и интеллектуальный анализ данных. Основной задачей оперативного или OLAP-анализа является быстрое (в пределах секунд) извлечение необходимой аналитику для обоснования или принятия решения информации.
Интеллектуальный анализ информации имеет также широко распространенное в русской специальной литературе англоязычное название Data mining (DM). Его характерные особенности:
предназначен для фундаментального исследования проблем в той или иной предметной области;
требования по времени менее жестки, но используются более сложные методики;
ставятся, как правило, задачи и получают результаты стратегического значения;
при решении сложных задач в режиме Data mining приходится использовать весьма мощные специальные программные средства.
Аспекты проблемы анализа и необходимые для их разрешения функции нашли выражение в соответствующих программных продуктах. Соответственно средства автоматизации анализа представлены в различных видах. Имеются комплексные информационно-аналитические системы, выполняющие в той или иной степени функции в соответствии с рассмотренными аспектами. Представлены на рынке программных продуктов и целевые программные системы, выполняющие в увеличенном объеме, расширенном составе и повышенной сложности какие-либо функции, например, оперативного или интеллектуального анализа. ИАС информационно подпитывают системы поддержки принятия решений (СППР), в литературе также применяют аббревиатуру DSS (Decisin Support Sistem).
Вцелом сложился рынок инструментальных средств создания и поддержки OLAP-систем, информационных хранилищ (DWH), СППР (DSS),