Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9306

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.5 Mб
Скачать

Н.Ю.Прокопенко

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ

(аналитические информационные системы поддержки принятия решений на базе Deductor Studio Academic 5.2)

Учебноепособие

ННГАСУ-2012

М И Н О Б Р Н А У К И Р О С С И И

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

«Нижегородский государственный архитектурно-строительный университет» (ННГАСУ)

Н. Ю. Прокопенко

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ

(аналитические информационные системы поддержки принятия решений

на базе Deductor Studio Academic 5.2)

Учебное пособие

Нижний Новгород 2012

ББК 32.973.26-018.2я73

П78

Рецензенты:

Кащеев Н.И. – к.т.н., доцент, директор Нижегородского института информационных технологий

Елесин А.В. – к.ф.-м.н., доцент кафедры информатики и информационных технологий Нижегородского института управления филиала РАНХ и ГС при Президенте РФ

Прокопенко Н.Ю. Информационные технологии анализа данных (аналитические информационные системы поддержки принятия решений на базе Deductor Studio Academic 5.2) [Текст]: учебн. пособие для вузов./Н. Ю. Прокопенко; Нижегор. гос. архитектур.-строит. ун-т. – Н. Новгород: ННГАСУ, 2012. – 149 с.

Рассматриваются вопросы автоматизации информационной подготовки принятия управленческих решений с использованием современных инструментальных средств, основные этапы проектирования и сопровождения информационных хранилищ, технологии оперативного и интеллектуального анализа данных, отражающих деятельность в различных предметных областях.

Предназначено для подготовки студентов бакалавриата и магистратуры направления 230700 «Прикладная информатика», а также может быть использовано в учебном процессе направления 230400 «Информационные системы и технологии».

©Прокопенко Н.Ю., 2012

©ННГАСУ, 2012

3

Содержание

Введение…………………………………………………………………………..…5

1.Аналитические информационные системы поддержки принятия решений…6

1.1.Аспекты проблемы анализа и их реализация в программных продуктах….6

1.2.Аналитическая платформа Deductor………...………………………….……11

1.3.Интерфейс Deductor Studio……………………………………………………19

1.4.Практическая работа «Базовые навыки работы в аналитической платформе Deductor Studio Academic»………………..……….……………………….………21 1.5 Вопросы для самопроверки…………..………………………………………..30

2.Технологии сбора и хранения данных в аналитических информационных

системах......................................................................................................................

32

2.1. Консолидация данных и хранилища данных...................................................

32

2.2.Архитектура хранилища данных……………………………………………..39

2.3.Проектирование структуры хранилища данных………….…………..……..42

2.4.Практическая работа «Создание ХД в Deductor Studio Academic»……...…46

2.5.Оценка качества данных, очистка и предобработка…...……………………51

2.6.Методы и инструменты аудита данных в Deductor Studio ...……………….56

2.7.Практическая работа «Загрузка информации в ХД»……………….……….64

2.8.Практическая работа «Извлечение информации из ХД»………..………….68

2.9.Вопросы для самопроверки………………………………………………...…74 3. Визуализация и аналитическая отчетность…………………………………….75

3.1.Цели и методы визуализации…………………………………………...…….75

3.2.Многомерный анализ и OLAP………………………………….…………….78

3.3.Визуализация и отчеты в Deductor Studio …………………….....……..……83

3.4.Практическая работа «Визуализация в Deductor Studio Academic»…….….91

3.5.Вопросы для самопроверки…………………………………………………...97 4. Методы и модели Data Mining...………………………………………………..98

4.1Технологии KDD и Data Mining……………………………………………….98

4.2.Деревья решений…………………………………………..…………………102

4

4.3.Нейронные сети…………………………………………………….……..….113

4.4.Кластеризация…………………………………………………………….......129

4.5.Практическая работа «Модели Data Mining в Deductor Studio Academic» 144

4.6.Вопросы для самопроверки………………………………………………….148 Список литературы…………..……………………………………………………149

.

5

Введение

В современных реалиях культура использования информационных технологий и компьютеров становится частью общей культуры человека, а знания и опыт применения интеллектуальных методов анализа информации и профессиональных программ, включающих Data Mining, уже в ближайшее время станут одним из показателей профессионализма студентов разных направлений.

Настоящее учебное пособие предназначено для магистрантов и студентов, изучающих в рамках дисциплин «Интеллектуальные информационные системы», «Интеллектуальные методы анализа данных», «Современные методы обработки данных в интеллектуальных системах», «Компьютерные технологии и статистические методы в экологии»,

«Аналитические системы в региональной экономике», «Компьютерные технологии в экономике и управлении», вопросы использования современных корпоративных информационных систем, включающих системы обработки данных (СОД), информационные системы управления (ИСУ) и системы поддержки принятия управленческих решений (СППР).

В пособии раскрываются теоретические и практические основы использования свободно распространяемой аналитической платформы Deductor Studio Academic (http://www.basegroup.ru). Реализованные в Deductor технологии позволяют пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.

6

1. Аналитические информационные системы поддержки принятия решений 1.1. Аспекты проблемы анализа и их реализация в программных продуктах

В современном понимании анализ данных – это прикладная научная дисциплина, представляющая собой систему взаимосвязанных методов и технологий обработки исходной стохастической информации, полученной из наблюдений, экспериментов, опросов, статистических отчетов, существующих баз данных, компьютерных систем управления различными сферами деятельности с целью выявления (подтверждения, уточнения) скрытых закономерностей определенной предметной области для принятия управленческих решений.

Аналитические исследования играют определяющую роль в организации эффективного управления социально-экономическим развитием территорий, так как от достоверности и объективности полученных результатов зависит выбор направлений развития и инструментарий управленческого воздействия на объект исследования. Исследования в данном случае выступают как важный административный ресурс, ориентированный на конечный результат – принятие взвешенных, обоснованных и тщательно просчитанных управленческих решений.

Необходимость оперативной аналитической обработки эколого- социально-экономической информации, макроструктурного анализа, краткосрочного и долгосрочного стратегического прогнозирования и планирования развития регионов требует привлечения методов статистического и интеллектуального анализа данных, использования современных инструментальных средств и пакетов прикладных программ.

Одной из первостепенных задач при подготовке и принятии решений является анализ данных, имеющихся в распоряжении лиц, принимающих решения. Потребности в быстром и высококачественном обеспечении принятия

7

решений, а также высокий уровень развития информационных технологий привели к созданию отдельного направления информационных систем – информационно-аналитических систем (ИАС), под которыми понимают комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ в целях обоснования принятия управленческих решений и других возможных применений. Создание информационно-аналитических систем, реально отвечающих целям и задачам эффективного управления социальноэкономическим развитием региона, представляет собой сложный процесс, включающий этапы формирования концепции, проектирования, разработки, внедрения и сопровождения.

Задачами информационно-аналитических систем являются сбор, организация и обеспечение хранения необходимых для анализа данных в целях обоснования принятия решений; обеспечение анализа имеющихся в распоряжении данных, в том числе в режимах оперативного и интеллектуального анализа; подготовка результатов анализа в виде отчетов, карт и диаграмм, выполненного в соответствии с необходимостью в том или ином режиме для эффективного восприятия потребителями.

Проблема аналитической подготовки принятия решений имеет следующие аспекты:

извлечение из многих источников разнородных данных, представленных в различных форматах и приведение их к единому формату и единой структуре;

организация хранения и предоставления пользователям необходимой для принятия решений информации;

собственно анализ, в том числе оперативный и интеллектуальный, и подготовка плановой или регулярной оценки состояния управляемого объекта в виде документов или экранных форм;

8

– подготовка результатов оперативного и интеллектуального анализа для эффективного их восприятия потребителями и принятия на ее основе адекватных решений.

Аспект, касающийся сбора и хранения информации с сопутствующей доработкой, оформился в концепцию информационных хранилищ (Data Warehouse). Эта концепция состоит в том, что сведения о деятельности предприятия или иного объекта хозяйственной или иной деятельности накапливаются в течение длительного периода времени (годы) в информационном хранилище по определенным правилам. Они используются в различных временных режимах для анализа как источник данных для разного рода отчетности и работы с партнерами и обоснования управленческих решений.

Информационно-аналитические системы объединяют, анализируют и хранят как единое целое информацию, извлекаемую как из учетных баз данных организации, так и из внешних источников. Входящие в состав информационноаналитических систем хранилища данных обеспечивают преобразование больших объемов сильно детализированных данных в обобщенную выверенную информацию, которая пригодна для принятия обоснованных решений. В отличие от обычных баз данных хранилища содержат обработанное, упорядоченное и понятное руководителям представление данных. Хранилище данных представляет собой специализированную базу для поддержки процесса анализа данных, отвечающую следующим требованиям: ориентации на предметную область, интегрированности и внутренней непротиворечивости, привязке ко времени, неизменяемости, поддержке высокой скорости получения данных из хранилища, полноте и достоверности хранимых данных, поддержке качественного процесса пополнения данных.

В связи с большим объемом и сложностью аспект проблемы собственно анализа имеет два направления: оперативный анализ информации, широко распространена аббревиатура англоязычного названия – OnLine Analytical

9

Processing – OLAP, и интеллектуальный анализ данных. Основной задачей оперативного или OLAP-анализа является быстрое (в пределах секунд) извлечение необходимой аналитику для обоснования или принятия решения информации.

Интеллектуальный анализ информации имеет также широко распространенное в русской специальной литературе англоязычное название Data mining (DM). Его характерные особенности:

предназначен для фундаментального исследования проблем в той или иной предметной области;

требования по времени менее жестки, но используются более сложные методики;

ставятся, как правило, задачи и получают результаты стратегического значения;

при решении сложных задач в режиме Data mining приходится использовать весьма мощные специальные программные средства.

Аспекты проблемы анализа и необходимые для их разрешения функции нашли выражение в соответствующих программных продуктах. Соответственно средства автоматизации анализа представлены в различных видах. Имеются комплексные информационно-аналитические системы, выполняющие в той или иной степени функции в соответствии с рассмотренными аспектами. Представлены на рынке программных продуктов и целевые программные системы, выполняющие в увеличенном объеме, расширенном составе и повышенной сложности какие-либо функции, например, оперативного или интеллектуального анализа. ИАС информационно подпитывают системы поддержки принятия решений (СППР), в литературе также применяют аббревиатуру DSS (Decisin Support Sistem).

Вцелом сложился рынок инструментальных средств создания и поддержки OLAP-систем, информационных хранилищ (DWH), СППР (DSS),

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]