Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие 1955

.pdf
Скачиваний:
6
Добавлен:
30.04.2022
Размер:
3.16 Mб
Скачать

Рассмотрим более подробно основные этапы построения Хранилища данных.

Создание Хранилища данных и соответствующей инфраструктуры начинается с тщательного планирования и определения сроков работ. Первое - надо четко определить цели визуализации данных. Должна быть проанализирована отчетность компании. Целесообразно разбить отчетность на обязательную (предоставляемую в контролирующие органы) и внутрикорпоративную. Далее идет разделение по срокам (ежедневная, ежемесячная, ежеквартальная и т.д.). Внутрикорпоративная информация также разделяется по отделам (подразделениям) для создания витрин данных. Уже на этом этапе нужно выявить и избавиться по возможности от дублирования отчетности.

Планирование должно осуществляться с учетом возможного расширения бизнеса. Сроки и средства, закладываемые на создание хранилища данных, находятся в плотной связи с текущим состоянием информационной системы компании и могут очень сильно различаться. Имеет смысл все работы по созданию хранилища разбить на этапы. Каждый этап должен завершаться тестированием, которое подразумевает опытную загрузку информации в хранилище, получение необходимых рассчитанных значений с помощью хранилища, различные экспериментальные выборки. Тестовые задания должны быть подготовлены с особой тщательностью, чтобы выявить все ошибки, которые могли быть внесены на различных стадиях разработки.

Непосредственно построение хранилища для упрощения задачи можно начинать с проектирования витрины данных для одного из отделов компании, то есть создания некого «облегченного» прототипа хранилища, сфокусировав усилия на решении аналитических задач определенного подразделения. Другими словами, информационную систему можно разбить на составные части - объекты системы - и, сосредоточившись на одной из таких частей, отработать технологию.

220

Другой путь - это начать с описания всей системы, всех имеющихся данных, отработать взаимосвязь этих данных и затем приступать к созданию единого хранилища. Этот процесс более сложный, но представляет из себя объективный взгляд на систему в целом. Здесь, как и во многих случаях, хорош принцип «золотой середины». Например, начать с проектирования хранилища и витрины данных для пилотного проекта, но не в каком-то автономном виде, а в связи с данными других отделов и с заранее приведенной в порядок единой Нормативно-справочной системы (НСИ) компании. Любое изменение в пилотном проекте, а также изменения в других объектах системы следует отслеживать в разрезе взаимодействия друг с другом и влияния на систему в целом, причем выделить это в отдельный процесс, с детальным протоколированием. Таким образом, на базе одного из отделов можно будет выработать некое стандартное решение и использовать это решение в дальнейшем для построения общего хранилища и витрин данных для других подразделений.

Отдельно хотелось бы отметить процесс проектирования процедур извлечения, загрузки и преобразования данных (ETL - extract, transform and load). На этом этапе решаются пробле-

мы совместимости данных из разных источников, то, каким образом будут осуществлены данные процедуры, с помощью каких средств. Наряду с анализом и стандартизацией информации это один из самых трудоемких и ответственных этапов, а также один из наиболее затратных по времени.

Что касается завершения работ и сдачи в эксплуатацию, то на этом этапе процесс создания не заканчивается, а переходит в стадию постоянного развития, поскольку бизнес развивается, растут и изменяются различные требования к информационной системе, улучшаются различные процедуры выборки и подготовки данных.

Из наиболее часто возникающих вопросов можно выделить задачу определения периодичности сбора, загрузки и обработки информации из различных источников первичной информации - транзакционных баз данных, то есть как часто

221

необходимо обновлять данные в хранилище. От этого зависит, как и когда запускать соответствующие процедуры, какие требования предъявлять к каналам передачи данных в сети, как распределять нагрузку. Что касается процедур ETL, то существует целый ряд мощных инструментов от различных поставщиков, также активно используются на данном этапе хранимые серверные процедуры, благодаря которым, избегая больших издержек, можно регулировать параметры данного процесса.

Еще одна важная задача - это обеспечение безопасности. Каким образом распределить доступ к хранилищу, как организовать защиту от сбоев (это и каналы связи, и сервера БД, резервное копирование) - вот вопросы, которые обязательно надо планировать и разрешать. Широко распространен способ предоставления полномочий и использование данных в хранилище на ролевой основе, когда пользователю или группе пользователей назначается определенная роль, согласно которой определяется возможность доступа к определенным группам данных, причем уровнем детализации предоставляемых данных можно весьма гибко варьировать.

Очень важным аспектом в построении хранилищ и их эксплуатации является оценка уровня актуальности данных в нем. Эта оценка осуществляется с помощью статистики запросов к различным категориям данных за определенные значимые для компании периоды времени. Сбор и анализ такой информации является неотъемлемой частью эффективной работы с хранилищем. Результаты такой аналитической работы позволяют решить, какие данные оставить в оперативном доступе, а какие переместить в архивную часть, надо ли увеличить производительность, отметить и устранить слабые стороны в плане производительности.

Согласно исследованию META Group, 90 – 95 % компаний, активно применяющих хранилища данных, в среднем получили 400-процентный возврат своих инвестиций в СППРсистемы. Перечислим главные преимущества хранилищ данных:

222

единый источник информации: компания получает выверенную единую информационную среду, на которой будут строиться все справочно-аналитические приложения в той предметной области, по которой построено хранилище. Эта среда будет обладать единым интерфейсом, унифицированными структурами хранения, общими справочниками и другими корпоративными стандартами, что облегчает создание и поддержку аналитических систем. Также, при проектировании информационного хранилища данных особое внимание уделяют достоверности информации, которая попадает в хранилище;

производительность: физические структуры хранилища данных специальным образом оптимизированы для выполнения абсолютно произвольных выборок, что позволяет строить действительно быстрые системы запросов;

быстрота разработки: специфическая логическая организация хранилища и существующее специализированное ПО позволяют создавать аналитические системы с минимальными затратами на программирование;

интегрированность: интеграция данных из разных источников уже сделана, поэтому не надо каждый раз производить соединение данных для запросов требующих информацию из нескольких источников. Под интеграцией понимается не только совместное физическое хранение данных, но и их предметное, согласованное объединение; очистку и выверку при их формировании; соблюдение технологических особенностей и т.д.;

историчность и стабильность: OLTP-системы оперируют с актуальными данными, срок применения и хранения которых обычно не превышает величины текущего бизнеспериода (полугода-год), в то время как информационное хранилище данных нацелено на долговременное хранение информации (обычно временные рамки данных, находящихся в хранилище, лежат в пределах от 15-ти месяцев до пяти лет. Данные большей давности, как правило, переносятся в архив). Стабильность означает, что фактическая информация

223

в хранилище данных не обновляется и не удаляется, а только специальным образом адаптируется к изменениям бизнесатрибутов. Таким образом, появляется возможность осуществлять исторический анализ информации;

независимость: выделенность информационного хранилища существенно снижает нагрузку на OLTP-системы со стороны аналитических приложений, тем самым производительность существующих систем не ухудшается, а на практике происходит уменьшение времени отклика и улучшение доступности систем.

На основе хранилища данных возможно составление отчетности для руководства, анализ данных с помощью OLAPтехнологий и интеллектуальный анализ данных (Data Mining).

4.4.3. Современный рынок Хранилищ данных

В основном хранилища данных функционируют на базе реляционных СУБД. Согласно данным компании Gartner, среди лидеров - поставщиков СУБД сегодня ведущей компанией является Oracle. Их последний продукт - СУБД Oracle 10g - отвечает практически всем требованиям качества обслуживания и безопасности, а также обладает возможностями кластеризации. Эта СУБД дает возможности параллельной обработки данных, имеет встроенные средства OLAP, извлечения, преобразования и загрузки данных, бизнес-анализа, распространения отчетов и т.д.

Для разработки и развертывания хранилищ и витрин данных предназначен продукт Oracle Warehouse Builder, который представляет собой интегрированную CASE-среду, ориентированную на создание информационно-аналитических систем. Средствами этого продукта можно проектировать, создавать и администрировать хранилища и витрины данных, разрабатывать и генерировать процедуры извлечения, преобразования и загрузки данных из различных источников, эффективно управлять метаданными.

Кроме собственно продуктов, обеспечивающих построение Хранилищ данных, корпорация Oracle предлагает

224

оригинальную методологию выполнения проекта по созданию и сопровождению таких систем. Эта методология называется

Data Warehouse Method (DWM) и является частью общего под-

хода Oracle к проектированию и реализации различных проектов.

Еще один лидер рынка СУБД - компания Teradata. Она имеет репутацию компании, предлагающей решения для внедрения Хранилищ данных с наилучшим соотношением цена/качество. Правда, в некоторых случаях это соотношение оказывается существенно ниже, чем у конкурентов. Но внедрение СУБД Teradata требует меньше ресурсов центрального процессора, чем внедрение СУБД конкурентов, что обусловлено скоростью процессоров данной СУБД и более эффективным использованием этих ресурсов.

Компания IBM известна своей СУБД DB2. Ее основные особенности - развитые средства самовосстановления и автоматического выполнения операций, связанных с поддержкой базы данных. Эта СУБД поддерживает создание Хранилищ данных и включает средства переноса данных в Хранилище и управления Хранилищами. Также СУБД DB2 обеспечивает поддержку реляционных и комплексных данных, возможность работы на мультипроцессорных платформах, 64-разрядную архитектуру памяти, средства распределенного администрирования и обработки данных и многие другие функциональные возможности.

Microsoft SQL Server, по мнению Gartner, вплотную приближается к лидерам рынка СУБД, что стало особенно очевидным после выхода нового продукта - SQL Server 2005. Он имеет целый ряд свойств, которые расширяют возможности продукта по поддержке внедрений крупных Хранилищ данных. Это такие характеристики, как средства разбиения данных, передовые средства оптимизации запросов, поддержка оптимизации запросов при работе со сложными моделями данных, а также расширенные возможности по поддержке среды крупных Хранилищ данных.

225

В целях реализации процесса создания хранилища дан-

ных Microsoft разработала продукт DataWarehousing Framework, в котором объединены различные технологии (доступ к данным, метаданные, преобразования, запрос конечного пользователя и т.д.) во всех циклах построения и использования хранилища данных, а также управления им. Фирма Microsoft, кроме того, обеспечила поддержку каждого компо-

нента Warehousing Network в продуктах Microsoft Office, BackOffice и Visual Studio. Microsoft тесно сотрудничает и с другими фирмами – производителями продуктов разработки хранилища данных с целью создания Data Warehousing Alliance. Все эти фирмы работают на основе общих технологий и протоколов, которые были установлены для Warehousing Framework. Это позволяет повысить совместимость и возможность взаимодействия различных продуктов.

Продукт фирмы Sybase Adaptive Server IQ - это СУБД, оптимизированная для анализа данных на уровне физического дизайна. Уникальная архитектура IQ позволяет обрабатывать незапланированные аналитические запросы в десятки-сотни раз быстрее, чем традиционные СУБД. При этом вместо разбухания данных в хранилище происходит их сжатие.

СУБД Sybase Adaptive Server IQ специально разработана для высокоскоростного анализа данных. Благодаря использованию передовой технологии обработки запросов, уникальных способов индексирования и алгоритмов, оптимизирующих производительность, удалось увеличить скорость выполнения нерегламентированныхзапросов более чем в 100 раз по сравнению с традиционными CУБД и поддерживать производительность, несмотря на увеличение числа пользователей и на изменение типов запросов в зависимости от потребностей бизнеса. В отличие от технологий традиционных СУБД, Adaptive Server IQ обеспечивает отличную производительность без интенсивной настройки.

Технологии Sybase Adaptive Server IQ Multiplex обеспе-

чивают практически неограниченную масштабируемость при простоте и низкой стоимости внедрения и обслуживания.

226

Также Sybase обладает и своим инструментальным средством для построения хранилищ данных - Sybase Warehouse Studio. Данное ПО значительно упрощает процесс разработки

иобслуживания хранилища. В комплект входят: Warehouse Architect - CASE-средство проектирования хранилища, Warehouse Control Center - средство управления метаданными

иадминистрирования хранилища, Infomaker - генератор отчетов и пр.

Для управления процессом импорта, преобразования и загрузки данных Warehouse Studio эффективно интегрируется с лидером рынка Sybase PowerStage. Информация PowerStage о

схеме преобразования данных может импортироваться в репо-

зитарий метаданных Warehouse Control Center.

Существуют и другие решения для построения Храни-

лищ данных, например, Silverrun (CSA Research), Platinum, MSP и т.д.

* * *

Альтернативным по отношению к концепции Хранилищ данных способом формирования единого взгляда на корпоративные данные является создание виртуального источника, опирающегося на распределенные базы данных различных СОД. При этом каждый запрос к такому источнику динамически транслируется в запросы к исходным базам данных, а полученные результаты на лету согласовываются, связываются, агрегируются и возвращаются к пользователю. Однако такой способ обладает рядом существенных недостатков: время обработки запросов значительно больше, требуется постоянная связь всех источников данных в сети, задействован большой объем ресурсов сервера БД, данные могут иметь разные форматы и кодировки данных, а значит, могут быть несогласованны и т.п. Главным же недостатком следует признать практическую невозможность обзора длительных исторических последовательностей, ибо при физическом отсутствии центрального хранилища доступны только те данные, которые на момент запроса есть в реальных базах данных.

227

4.5. OLAP-технологии

OLAP (On-Line Analitycal Processing - оперативная ана-

литическая обработка) - сервис представляет собой инструмент для анализа больших объемов данных в режиме реального времени. Взаимодействуя с OLAP-системой, пользователь может осуществлять гибкий просмотр информации, получать произвольные срезы данных, и выполнять аналитические операции детализации, свертки, сквозного распределения, сравнения во времени. Вся работа с OLAP-системой происходит в терминах предметной области.

В основе концепции OLAP лежит многомерное представление данных. Термин OLAP ввел E. F. Codd в 1993 году. По Кодду, многомерное концептуальное представление (multidimensional conceptual view) является наиболее естественным взглядом управляющего персонала на объект управления. Оно представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям данных определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению. В этом случае становится возможным произвольный выбор желаемого уровня детализации информации по каждому из измерений.

Технологии ОLAP используют гиперкубы — специально структурированные данные (ОLAP-кубы). В структуре данных гиперкуба различают:

меры — количественные показатели (реквизитыоснования), используемые для формирования сводных статистических итогов;

измерения — описательные категории (реквизитыпризнаки), в разрезе которых анализируются меры.

228

Размерность гиперкуба определяется числом измерений для одной меры. Например, гиперкуб СБЫТ может содержать следующие данные:

измерения: потребители, даты операций, группы товаров, номенклатура, модификации, упаковки, склады, виды оплаты, виды отгрузки, тарифы, валюта, организации, подразделения, ответственные, каналы распределения, регионы, города;

меры: количество плановое, количество фактическое, сумма плановая, сумма фактическая, платежи плановые, платежи фактические, сальдо плановое, сальдо фактическое, цена реализации, срок исполнения заказа, сумма возврата.

* * *

Современный рынок OLAP-систем можно разделить на четыре основных сектора.

Application OLAP (Прикладной OLAP). Прикладной

OLAP, как правило, состоит из многомерных баз данных, доступ к которым происходит через конкретное приложение, или, возможно, через множество приложений. Поставщики в данной области рынка в основном предлагают клиенты для базы данных. Клиент может быть как простым средством просмотра, так и более мощным приложением.

Поставщиками данного сектора являются: Oracle, Hyperion Solutions, Comshare, Adaytum, Crystal Decisions, Pilot Software (сейчас Accrue), Gentia Software, SAS Institute, WhiteLight, Sagent, Speedware, Kenan and Information Builders.

MOLAP (Multidimensional OLAP, многомерная OLAP). В

основе лежит не реляционная структура данных, обеспечивающая многомерное хранение, обработку и представление данных - исходные и многомерные данные хранятся в многомерной БД или в многомерном локальном кубе. В этом случае получается наибольшая избыточность, так как многомерные данные полностью содержат реляционные данные. Такой способ хранения обеспечивает высокую скорость выполнения

OLAP-операций. Поставщики: Hyperion (Essbase), Applix (iTM1), Oracle, Gentia, Microsoft.

229