Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8860

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
1.97 Mб
Скачать

особенно при использовании их для построения систем, основанных на обучении (нейронных сетей, деревьев решений и т.д.).

5.Снижение размерности входных данных.

В основе работы большинства аналитических моделей лежит принцип обобщения, т.е. чтобы получить на выходе модели даже единственное значение,

нужно подать на её вход некоторый набор значений, на основе соотношений между которыми и будет определено выходное. При разработке аналитической модели изначально стараются привлечь максимум собранной информации об исследуемом объекте. Это влечет к тому, что набор входных переменных разрастается, что приводит к усложнению аналитической модели, делает ее уязвимой к некачественным данным, увеличивает время, требуемое на аналитическую обработку. Для снижения размерности производится поиск входных признаков (атрибутов, показателей), которые обладают высокой степенью статистической взаимозависимости. Такие данные могут быть исключены из рассмотрения без существенного ущерба для результатов анализа.

6.Устранение незначащих факторов.

Не все имеющиеся в распоряжении аналитика данные являются одинаково важными с точки зрения целей анализа. Экономический показатель,

включаемый в рассмотрение при анализе, должен вносить достаточный вклад в решение задачи, участвовать в объяснении причинно-следственной связи между исходными данными и результатом, т.е. между входными и выходными факторами должна быть высокая степень взаимной зависимости. Если между каким-либо входным фактором и выходным результатом такая связь мала или вообще отсутствует, то использование этого входного фактора бессмысленно или даже вредно, поскольку может увести решение в ложном направлении.

Чаще всего критерием для определения значимости входных факторов является некоторый показатель значимости, который согласовывается со степенью зависимости (корреляции) искомого решения от данного фактора. Если

21

показатель значимости входного фактора меньше некоторого порога, то этот фактор может быть определен как слабо влияющий на решение и исключен из рассмотрения без существенного ухудшения качества анализа.

В целом последние две задачи похожи, т.к. в них из анализа исключаются данные, которые в контексте решаемой задачи являются избыточными и только создают дополнительные вычислительные затраты, усложняют используемую аналитическую модель. Принципиальной разницей является только то, что в первом случае в качестве критерия для исключения факторов используется степень взаимной зависимости (корреляции) между входными факторами.

Следовательно, чем выше эта степень, тем больше оснований для исключения факторов. Во втором случае используется степень связи между входными факторами и результатом. Это значит, чем ниже эта степень, тем больше оснований для исключения фактора.

Методы и инструменты аудита данных в Deductor

Для проведения первичной оценки качества массива данных, представ-

ленного аналитику, необходима определенная последовательность действий,

которую называют аудитом данных. Эту процедуру желательно проводить са-

мой первой, она заканчивается отчетом и выводами о качестве данных.

Первичная оценка качества данных подразумевает, в первую очередь, вы-

явление и обработку объективных ошибок и отклонений – дубликаты, противо-

речия, пропуски, аномалии (для упорядоченных наборов еще присутствует процедура сглаживания). Аудит данных, как правило, не предполагает полную очистку данных и устранение всех проблем, он ориентирован больше на их идентификацию.

Рассмотрим рекомендуемую схему аудита (рис. 3).

22

Рис. 3. Последовательность аудита данных

В таблице 4 сведены инструменты для решения задач аудита данных в

Deductor Studio.

 

 

 

Таблица 4

 

Методы и инструменты аудита данных в Deductor

Задача

Метод

Обработчик/

Визуализатор

 

 

 

1

 

Стандартные статистические

Визуализатор Стати-

 

Изучение ста-

стика, статистические

 

показатели: минимум, максимум,

 

тистики

функции в обработчи-

 

среднее и т.п.

 

 

ке Калькулятор.

 

 

 

2

Проверка и

 

Обработчик и визуа-

 

 

 

устранение

 

 

 

лизатор Дубликаты и

 

дубликатов и

 

 

противоречия

 

противоречий

 

 

 

 

 

 

 

 

3

 

Для неупорядоченных данных:

 

 

Обработка

подстановка константы; подста-

Обработчики Парци-

 

новка среднего; подстановка

альная обработка,

 

пропусков

 

наиболее вероятного значения.

Калькулятор

 

 

 

 

Для упорядоченных данных: под-

 

 

 

23

 

 

 

становка константы; подстановка

 

 

 

среднего; интерполяция (путем

 

 

 

сглаживания ряда).

 

4

Выявление вы-

Статистический метод на основе

Обработчики

 

отклонения среднего от средне-

Парциальная обра-

 

бросов

 

квадратического отклонения.

ботка, Калькулятор

 

 

OLAP (OnLine Analytical Processing, оперативная аналитическая обработка данных) является на сегодня одним из самых популярных методов анализа дан-

ных. Его основное назначение – поддержка аналитической деятельности, а так-

же произвольных (нерегламентированных) запросов лиц, принимающих реше-

ния. На основе OLAP строятся многочисленные системы поддержки принятия решений и подготовки отчетов.

Эта технология позволяет осуществлять многомерный анализ данных. Она может применяться не только для подготовки отчетности, но и для первичной проверки гипотез об изучаемой предметной области. Такие гипотезы неизбеж-

но возникают в процессе анализа; для выработки качественных решений они должны быть проверены на основе имеющейся информации.

Средства OLAP-системы должны обеспечить работу с данными в много-

мерном представлении данных – естественном на уровне ненормализованной

ER-модели с полной поддержкой иерархий независимо от того, какие типы баз данных используются в качестве источников.

В OLAP-системах предварительно подготовленная информация преобра-

зуется в форму многомерного куба; такими данными гораздо легче манипули-

ровать, используя необходимые для анализа срезы (рис. 4).

Многомерный куб можно рассматривать как систему координат, осями ко-

торой являются измерения, например, Дата, Товар, Покупатель. По осям будут откладываться значения измерений – даты, наименования товаров, названия фирм-покупателей, ФИО физических лиц и т. д.

В такой системе каждому набору значений измерений (например, дата – товар – покупатель) будет соответствовать ячейка, в которой можно разместить

24

числовые показатели (то есть факты), связанные с данным набором. Таким об-

разом, между объектами бизнес-процесса и их числовыми характеристиками будет установлена однозначная связь.

Принцип организации многомерного куба поясняется на рис. 4.

Рис. 4. Принцип организации многомерного куба

Рис. 5. Измерения и факты в многомерном кубе

25

Многомерный взгляд на измерения Дата, Товар и Покупатель представ-

лен на рис. 5. Фактами в данном случае являются Цена, Количество, Сумма.

Выделенный сегмент содержит информацию о том, сколько плит, на какую сумму и по какой цене приобрела фирма ЗАО «Строитель» 3 ноября.

Визуализация OLAP-куба производится с помощью специального вида таблиц, которые строятся на основе срезов OLAP-куба, содержащих необходи-

мую пользователю информацию. Срезы, в свою очередь, являются результатом выполнения соответствующего запроса к базе данных. Как правило, в процессе построения срезов пользователь с помощью мыши и клавиатуры манипулирует заголовками измерений, добиваясь наиболее информативного представления данных в кубе. В зависимости от положения заголовков измерений в таблице автоматически формируется запрос к базе или хранилищу данных. Запрос из-

влекает данные из базы или хранилища, после чего OLAP-ядро системы визуа-

лизирует их.

Общую схему работы настольной OLAP системы можно представить сле-

дующим образом:

Рис. 6. Технология OLAP

Алгоритм работы следующий:

1.Получение данных в виде плоской таблицы или результата выполнения

SQL запроса.

2.Кэширование данных и преобразование их к многомерному кубу.

3.Отображение построенного куба при помощи кросс-таблицы или диа-

граммы и т.п. В общем случае, к одному кубу может быть подключено

произвольное количество отображений.

26

Отображения, используемые в OLAP системах, чаще всего бывают двух видов – кросс-таблицы и кросс-диаграммы. Кросс-таблица является основным и наиболее распространенным способом отображения куба. Она отличается от обычной плоской таблицы наличием нескольких уровней вложенности (напри-

мер, она допускает разбиение строк на подстроки, а столбцов – на подстолбцы).

Кросс-диаграмма представляет собой диаграмму заданного типа (гистограмму,

линейную диаграмму и т.д.), построенную на основе кросс-таблицы. Основное отличие кросс-диаграммы от обычной диаграммы в том, что она однозначно соответствует текущему состоянию куба и при любых его изменениях (транс-

понирование, фильтрация по измерениям и т.д.) также синхронно изменяется. OLAP-куб можно использовать не только как метод визуализации, но и

как средство оперативного формирования отчетов и представления информа-

ции в нужном разрезе (так называемая аналитическая отчетность).

OLAP-куб позволяет анализировать данные сразу по нескольким измере-

ниям, т.е. выполнять многомерный анализ. Пользователь, анализирующий ин-

формацию, может «резать» куб по разным направлениям, получать сводные

(например, по годам) или, наоборот, детальные (по неделям) сведения и осу-

ществлять прочие манипуляции, которые необходимы ему в процессе анализа.

В анализе может использоваться любое число измерений, каждое из которых будет представлено новой осью. Конечно, для OLAP-куба с размерностью больше трех геометрическая интерпретация не имеет смысла (тем более что речь идет не о реальном, а об информационном пространстве).

Следует отметить, что задача расчета и визуализации куба с большим числом измерений, во-первых, может потребовать слишком больших вычисли-

тельных ресурсов, а во-вторых, ее содержательная интерпретация весьма за-

труднительна. Как правило, человек не способен анализировать больше 5-7 из-

мерений одновременно. Поэтому сложные задачи, требующие анализа данных большой размерности, следует по возможности сводить к нескольким более простым.

27

Визуализация и отчеты в Deductor Studio

На верхнем уровне принятия решений значение имеет не точность цифр,

а закономерности, поэтому визуализация результатов анализа в виде OLAP–

отчетов, графиков, карт и диаграмм – наиболее оптимальный вариант отображения статистической информации, который позволяет на уровне простых обобщений получить агрегированные данные на текущий момент и спланировать динамику на ближайшее время.

В АП Deductor предусмотрены следующие способы визуализации данных:

OLAP-кубы, диаграммы, графики, гистограммы, статистика, правила, матрицы классификации, диаграммы рассеяния, ретропрогноз, карты Кохонена, профили кластеров.

Визуализаторы общего назначения рассматривались в разделе «Базовые навыки работы Deductor Studio Academic». Визуализаторы для иллюстрации построения и оценки качества аналитических моделей будут использоваться в разделе «Модели Data Mining». Рассмотрим OLAP-кубы – визуализаторы, ко-

торые чаще всего используются в отчетах.

Аналитическая отчетность (отчеты) – это одно из средств визуализации и консолидации результатов анализа данных для конечного пользователя (для лиц, принимающих решения). Аналитическая отчетность обеспечивает быст-

рый доступ к результатам анализа, не требуя от пользователя навыков анализа данных и работы в АП Deductor. При работе с отчетами пользователь не видит сценарий анализа данных, ему доступны только конечные результаты (выдерж-

ки) из работы аналитика.

Для построения аналитической отчетности в АП Deductor предназначена вкладка Отчеты, cпособ открытия: «Вид – Отчеты» или кнопка , после нажатия на которую, в рабочей части экрана появится панель Отчеты.

Отчеты строятся в виде древовидного иерархического списка (рис. 7),

каждым узлом которого является отдельный отчет или папка, содержащая не-

сколько отчетов. Каждый узел дерева отчетности связан со своим узлом в дере-

28

ве сценария. Для каждого отчета настраивается свой способ отображения (таб-

лица, гистограмма, кросс таблица, кросс диаграмма и т.п.). Это удобно, так как несколько отчетов могут быть связаны с одним узлом дерева сценария.

Рис. 7. Панель отчетов сценария «Мониторинг водных ресурсов» Чтобы добавить новый отчет, нужно щелкнуть по кнопке Добавить узел

или выбрать соответствующую команду из контекстного меню. В результате откроется окно Выбор узла, в котором следует выделить узел дерева сценария,

где содержится нужная выборка данных, и щелкнуть по кнопке Выбрать.

Следует отметить, что операция добавления нового отчета доступна, толь-

ко если выделена папка или корневой пункт Отчеты списка отчетов. Если вы-

делить узел, содержащий отдельный отчет, команда создания нового отчета бу-

дет недоступна.

Чтобы добавить новую папку, нужно щелкнуть по кнопке Добавить папку

или выбрать соответствующую команду в контекстном меню. В результате в списке отчетов появится новая папка с открытым полем имени, куда следует ввести имя папки. После ввода имени для его сохранения щелкнуть по любому узлу списка. Чтобы поместить отчет в папку, нужно перед вызовом команды

Добавить узел выделить эту папку.

На рис. 7. представлены отчеты сценария «Мониторинг водных ресурсов»,

которые содержат в себе историю работы с данными и их анализа. Для перехо-

да на ту или иную ветку сценария необходимо щелкнуть правой кнопкой мыши

29

по интересующему отчету и выбрать опцию Найти узел в сценарии, после чего откроется тот или иной узел.

Используя имеющиеся в Deductor OLAP-технологии, отчеты можно пред-

ставить в виде OLAP-кубов и кросс-диаграмм. Примером является отчет «Ди-

намика загрязнения объекта» (рис. 8.). Он представляет собой сводную таблицу по измерениям «Дата» и «Створ» и кросс-диаграмму, которая показывает ди-

намику загрязнения водного объекта (в данном случае реки Беленькая) для фо-

нового и для контрольного створа конкретным загрязнителем (в данном случае ХПК) на протяжении всего периода проведения мониторинга.

Данный отчет является универсальным, так как здесь имеется возмож-

ность выбора любого другого водного объекта и загрязнителя для быстрого со-

ставления отчетности.

Рис. 8. Отчет «Динамика загрязнения объекта»

Рассмотрим порядок настройки OLAP-куба для отчета «Динамика загряз-

нения объекта» (рис. 8).

Чтобы построить OLAP-куб, пользователь должен активировать мастер визуализации и выбрать способ отображения данных в виде куба (рис. 9).

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]