Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие 3000439.doc
Скачиваний:
26
Добавлен:
30.04.2022
Размер:
4.31 Mб
Скачать

Olap-технологии

В основе концепции оперативной аналитической обработки (OLAP) лежит многомерное представление данных. Термин OLAP ввел E. F. Codd в 1993 году. По Кодду, многомерное концептуальное представление (multi-dimensional conceptual view) является наиболее естественным взглядом управляющего персонала на объект управления. Оно представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям данных определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению. В этом случае становится возможным произвольный выбор желаемого уровня детализации информации по каждому из измерений.

OLAP-системы являются частью более общего понятия Business Intelligence, которое включает в себя помимо традиционного OLAP-сервиса средства организации совместного использования документов, возникающих в процессе работы пользователей хранилища. Технология Business Intelligence обеспечивает электронный обмен отчетными документами, разграничение прав пользователей, доступ к аналитической информации из Интернет и Интранет.

В настоящее время на рынке ПО предлагается большое число OLAP-систем. Западные: Arbor Software, IBM, Informix, Microsoft, Oracle, SAS Institute, Sybase и т.д. Однако, наибольшее распространение в России получили решения только Oracle и Microsoft. Российские: Intersoft Lab, Институт Открытых Систем, BaseGroup Labs.

Интеллектуальный анализ данных

Интеллектуальный анализ данных (Data Mining) — это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

В общем случае процесс интеллектуального анализа данных состоит из трёх стадий:

Рис. 13. Процесс интеллектуального анализа данных

Компьютерными технологиями, образующими Data Mining являются:

Статистические пакеты. Полезны главным образом для проверки заранее сформулированных гипотез и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных. Хорошо известны пакеты SPSS, STATGRAPHICS, STATISTICA, STADIA.

Нейронные сети и их вариации. Представляют собой сеть взаимосвязанных элементов, которые являются математической моделью нейронов головного мозга. Используются для определения априорно неизвестных сложных функциональных зависимостей на основании статистических данных. Отличительная особенность - возможность обучения. После обучения нейронная сеть становится моделью, которую можно применить к новым данным с целью прогнозирования. Основным недостатком в этом случае является необходимость иметь очень большой объем обучающей выборки. Наиболее известные примеры - BrainMaker, NeuroShell, OWL, NeuroScalp, Эврика+.

Экспертные системы. Позволяют на основании опыта экспертов моделировать процесс принятия решений и выдавать эффективный результат. Наиболее известные примеры: Acquire, Active AgentX, ReThink.

Байесовы (вероятностные) сети. Моделируют вероятностные причинно-следственные связи. Позволяют рассчитывать вероятность наступления того или иного события при известной априорной вероятности причин. Позволяют строить модели в режиме реального времени с учетом неполноты данных и возможностью корректировки результата при появлении дополнительной информации.

Методы эвристической самоорганизации. Методы данной группы исследуют функциональные и вероятностные взаимосвязи "входов" и "выходов" некоторой системы, т.е. позволяют моделировать сложные нелинейные процессы и системы при отсутствии априорных знаний о структуре системы.

Теория игр. Позволяет формализовать описание процессов принятия сознательных целенаправленных решений при участии одной или нескольких сторон в условиях неопределенностей, риска и конфликта, которые возникают при столкновении интересов. Задача теории игр заключается в предложении рекомендаций рационального образа действий участников процесса принятия решений, т.е. в определении оптимальной стратегии для каждого из них.

Теория хаоса. Предлагает новые методы анализа данных, позволяющие выявлять скрытые зависимости там, где раньше систему считали случайной, и не имеющей каких-либо закономерностей. Применение аппарата теории хаоса позволяет качественно изучать нестабильное апериодическое поведение в нелинейных динамических системах, например, в экономических процессах.

Многозначные логики. Нечеткая логика. Логика антонимов. Расширяет возможности "обычной" двоичной логики, оперирующей только понятиями "1-да" и "0-нет". Позволяет оперировать с нечеткой, неточной, "размытой" информацией. Дает возможность использования качественных, а не количественных характеристик, что позволяет манипулировать лингвистическими понятиями и знаниями, выражаемыми на обычном языке (например, для описания процессов: "плохо"-"средне"-"хорошо" и т.д.).

Эволюционные алгоритмы. Адаптивные методы поиска, используемые для решения задач функциональной оптимизации. Основаны на эволюционных процессах биологических организмов: популяции развиваются, подчиняясь законам естественного отбора и принципу "выживает сильнейший". Моделируя этот процесс, эволюционные алгоритмы, в частности генетические, способны "развивать" решения реальных задач, если они соответствующим образом закодированы. Такой подход является динамическим и позволяет довольно быстро находить оптимальные, с определенной точки зрения, решения. Примером такой системы является PolyAnalyst.

Деревья решений и Алгоритмы классификации (decision trees). Создается иерархическая структура классифицирующих правил типа "ЕСЛИ..., ТО...", имеющая вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Определяют естественные “разбивки” в данных, основанные на целевых переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев либо хи-квадрат индукция (Chi-squared Automatic Induction, CHAID). Недостаток: деревья решений принципиально не способны находить "лучшие" (наиболее полные и точные) правила в данных. (IDIS, KnowledgeSEEKER, See5/C5.0).

Системы рассуждений на основе аналогичных случаев. Вывод путем сопоставления (Memory-based Reasoning, MBR) или вывод, основанный на прецедентах (Case-based Reasoning, CBR). Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия). Эти методы называют еще методом "ближайшего соседа". В выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов строятся ответы. Примеры: KATE tools (Франция), Pattern Recognition Workbench (США), КОРА (Россия).

Ассоциативные правила. Алгоритмы ограниченного перебора. Предложены М.М. Бонгардом для поиска логических закономерностей в данных. Выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме “если <условия>, то <вывод>”. Их можно использовать для прогнозирования или оценки неизвестных параметров (значений). На основе частоты встречаемости логических закономерностей делается вывод о полезности какой-либо их комбинации (конъюнкции) для установления ассоциации в данных, для классификации, прогнозирования и т.д. (Пример, WizWhy).

Кластерный анализ. Подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.

Иммунные сети. Основаны на принципах функционирования иммунной системы позвоночных, которая, выступает "вторым" интеллектом - как и нервная система, обладает такими свойствами как память, способность обучаться, умение распознавать и принимать решения о том, как вести себя в новых ситуациях. Методы, основанные на концепции искусственных иммунных сетей, используются в задачах распознавания образов, информационной безопасности, прогнозировании временных рядов и др.

Роевой интеллект. Данный подход основан на коллективном интеллекте социальных насекомых - муравьев и пчел, каждая особь которых обладает очень малыми возможностями, но, собираясь в многотысячную и многомиллионную колонию, они становятся роем, представляющим собой мощную интеллектуальную распределенную систему. Многие современные задачи управления, моделирования и прогнозирования могут быть эффективно решены с помощью автономных эмерджентных систем, построенных по такому принципу. Наиболее активными сферами применения являются социальное моделирование, экономическое прогнозирование, маркетинговые исследования.

Методы экспертных оценок. Применяются при отсутствии возможности или трудо-ресурсной нецелесообразности получения данных в количественном выражении. При моделировании многих процессов и систем понятие точных числовых оценок теряет всякий смысл. В таких случаях обращаются к использованию знаний и опыта экспертов - методам экспертных оценок, которые включают в себя методы получения, формализации и интеграции экспертных знаний.

Среди западных систем класса Data Mining на российском рынке наиболее известно решение Microsoft Data Mining. Наиболее известная российская система класса Data Mining - PolyAnalyst.