- •Сергей Кузнецов, Александр Константинов, Николай Скворцов Ценность ваших данных
- •Предисловие
- •Введение
- •Глава 1. Цифровое многообразие
- •1.1. В чем ценность данных
- •1.2. Данные для науки
- •1.3. Данные для бизнеса
- •1.4. Данные для торговых сетей
- •1.5. Данные для государства
- •Литература к главе 1
- •Глава 2. От данных к мудрости
- •2.1. Данные и информация
- •2.2. Информационная иерархия
- •2.3. Внутри пирамиды знаний
- •2.4. Разрыв между данными и информацией
- •Глава 3. От побочного продукта к стратегическому ресурсу
- •3.1. Эволюция концепций стратегического менеджмента
- •3.2. Ресурсный подход к фирме
- •3.3. Концепция динамических способностей
- •3.4. Взгляд на фирму, основанный на знаниях
- •3.5. Данные как ресурс: ресурсоориентированный взгляд на данные и информацию
- •Литература к главе 3
- •Глава 4. Данные как ресурс: особенности и подходы к управлению
- •4.1. Свойства данных как ресурса
- •4.2. Особенности управления данными как ресурсом
- •4.3. Концепция управления информационными ресурсами
- •Литература к главе 4
- •Глава 5. От стратегического ресурса к ценнейшему активу
- •5.1. Повестка дня для совета директоров: развитие концепции управления информационными ресурсами
- •5.2. Данные как актив
- •5.3. Семь законов информации
- •5.4. Модели оценки информационных активов
- •5.5. Три уровня ценности информационных активов
- •Литература к главе 5
- •Глава 6. Данные как актив: барьеры и ошибки на пути извлечения ценности
- •6.1. Барьеры на пути развертывания информационных активов и Лидерский манифест о данных
- •6.3. Доктрина в области данных (версия 2)
- •6.5. Семь «смертных грехов» в области работы с данными
- •Литература к главе 6
- •Глава 7. Построение цепочек
- •7.1. Цепочка ценности данных
- •7.2. Цепочка поставок данных
- •7.3. Дата-центричная организация и организация, управляемая на основе данных
- •7.4. Управление информационными активами и управление корпоративной информацией: в чем разница?
- •7.5. Управление корпоративной информацией: необходимость актуализации повестки дня для совета директоров
- •7.6. Управление корпоративной информацией: сегодняшняя повестка дня для совета директоров
- •7.7. Управление корпоративной информацией: выгоды от внедрения и чек-лист для совета директоров
- •Литература к главе 7
- •Глава 8. Данные как объект управления
- •8.1. Источники данных и виды информационных активов
- •8.2. Классификация данных
- •8.3. Жизненный цикл данных, цепочка данных и происхождение данных
- •8.4. Системы и люди (организации, подразделения, сотрудники) в процессах управления данными
- •8.5. Эволюция управления данными в организациях и референтные модели
- •Литература к главе 8
- •Глава 9. Управление данными: принципы и структуры
- •9.1. Методология DAMA-DMBOK
- •9.2. Принципы создания системы управления данными
- •9.3. Модель зрелости управления данными
- •Литература к главе 9
- •Глава 10. Руководство данными
- •10.1. Руководство данными и его ключевая роль в управлении данными
- •10.2. Стратегия работы с данными
- •10.3. Программа руководства данными
- •10.4. Распоряжение данными
- •10.5. Организационная система руководства и управления данными
- •10.6. Контекстная диаграмма области знаний и уровни зрелости функции «Руководство данными»
- •Литература к главе 10
- •Глава 11. Планирование и проектирование данных
- •11.1. Архитектура данных
- •11.2. Моделирование и проектирование данных
- •Литература к главе 11
- •Глава 12. Обеспечение доступности и обслуживание данных: основы
- •12.1. Хранение и операции с данными
- •12.2. Интеграция и интероперабельность данных
- •12.3. Управление справочными и основными данными
- •Литература к главе 12
- •Глава 13. Управление основными данными: практика внедрения
- •13.1. Две стратегии внедрения MDM
- •13.3. MDM-проекты
- •13.5. Описание модели
- •13.6. Примеры MDM-проектов
- •13.7. Сопоставление существующих и описанного подходов
- •13.8. Пример архитектуры информационных систем, основанной на комплексном MDM-решении
- •Литература к главе 13
- •Глава 14. Обеспечение доступности и обслуживание данных: развитие
- •14.1. Ведение хранилищ данных и бизнес-аналитика
- •14.2. Управление документами и контентом
- •14.3. Большие данные и наука о данных
- •Литература к главе 14
- •Глава 15. Базовая поддержка жизненного цикла данных
- •15.1. Управление безопасностью данных
- •15.2. Управление метаданными
- •15.3. Управление качеством данных
- •Литература к главе 15
- •Глава 16. Организационные аспекты управления данными
- •16.1. Операционные модели руководства данными и управления данными
- •16.2. Роли, относящиеся к руководству и управлению данными
- •16.3. Ключевые первоначальные шаги
- •Литература к главе 16
- •Глава 17. Использование данных и расширение возможностей применения
- •17.1. Использование основных данных
- •17.2. Бизнес-аналитика
- •17.3. Наука о данных
- •17.4. Развитие платформенных решений в области управления данными
- •Литература к главе 17
- •Глава 18. Основные тренды будущего
- •18.1. Основные тренды на ближайшую перспективу
- •18.2. Ценность данных в различных областях
- •Литература к главе 18
- •Заключение
- •Сноски
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
позволяющих определять смысловую нагрузку исходя не только из прямого значения, но и из контекста.
●Visualization – визуализация. Полученные в результате сбора данные непригодны для восприятия человеком. Поэтому требуется их обработка для представления в доступной форме – визуализация. Характерный пример визуализации данных – построение графиков и диаграмм, отображающих результаты анализа данных. Важна возможность самостоятельной настройки. Необходимые параметры представления пользователи определяют сами, в зависимости от поставленных целей и задач.
●Value – ценность. Потенциальная ценность больших данных крайне высока. На ценность влияют тщательный и точный анализ данных, актуальность информации и полученные в результате визуализации выводы. Наибольший коммерческий и научный интерес представляют те сведения, которые можно использовать для решения текущих задач конкретного пользователя, а также результаты анализа, которые способствуют генерации новых идей.
Наконец, в зависимости от носителя данных, могут быть выделены:
●данные на бумажных носителях;
●данные в электронном виде.
8.3.Жизненный цикл данных, цепочка данных и происхождение данных
Как и у любого другого актива, у данных есть свой жизненный цикл. Для эффективного управления информационными активами организации необходимо его понимание и планирование.
Концептуально жизненный цикл данных описывается достаточно просто (рис. 8.6). Он включает:
●процессы планирования, а также проектирования и обеспечения доступности данных;
●процессы, которые создают или получают данные;
●процессы, которые осуществляют их перемещение, преобразование, хранение, а также обеспечивают обслуживание данных
ипредоставление совместного доступа к ним;
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
●процессы использования и расширения возможностей применения данных;
●процессы, обеспечивающие их ликвидацию.
Кроме того, на протяжении всего их жизненного цикла данные могут очищаться, преобразовываться, подвергаться слиянию или агрегироваться.
Требования к организации отдельных этапов жизненного цикла могут существенно различаться в зависимости от вида данных. Поскольку к данным разных категорий предъявляются различные требования, им присущи различные риски и отведены различные роли в организации, многие инструменты управления данными всецело сфокусированы на различных аспектах классификации и контроля. Например, основные данные имеют иное назначение и области применения, нежели транзакционные, соответственно и требования к управлению данными двух этих категорий предъявляются различные.
Специфика конкретного жизненного цикла данных в отдельно взятой организации может оказаться весьма запутанной, поскольку в течение цикла данные обычно перемещаются из одного места в другое внутри организации, а также за ее пределами. По сравнению с остальными видами активов ситуация с данными усложняется за счет такой характеристики, как возможность совместного использования неограниченным количеством потребителей[335]. Поэтому при управлении данными, наряду с управлением на отдельных фазах их жизненного цикла, важно обеспечивать контроль их движения по различным участкам хранения и обработки.
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
* DAMA International. DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition. Technics Publications, 2017. (Русский перевод: DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International. – М.: Олимп-Бизнес, 2020.)
Для обозначения набора процессов и систем, участвующих в перемещении данных, часто используются термины «цепочка данных»
(data chain) и «информационная цепочка» (information chain)[336]. Хотя у них есть не менее часто употребляемые синонимы – «поток данных» и «информационный поток»[337], метафора цепочки может оказаться очень полезной. Она подразумевает связь процессов и систем. Если одно звено обрывается, это негативно сказывается на всей последовательности элементов. При этом заметим, что для отражения реальных взаимосвязей в большинстве организаций (когда один набор данных может быть звеном многих цепочек) более точной была бы метафора сети данных.
С жизненным циклом данных и цепочкой данных связано такое понятие, как «происхождение данных» (data lineage). Под происхождением (lineage) обычно понимается линия связи с предком. Большинство людей, интересующихся происхождением данных, хотят осознать два аспекта.
Во-первых, их интересует подтвержденная информация о самом раннем экземпляре (первоисточнике) данных. В искусстве для обозначения истории владения художественным произведением (с того
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
момента, как оно было создано, и по настоящее время) используется термин «провенанс» (provenance). В отношении данных существует аналогичный термин data provenance. Его можно перевести просто как «провенанс данных».
Во-вторых, люди хотят знать, как (а иногда и почему) данные менялись в процессе перехода от самого раннего экземпляра. Изменения могут происходить внутри одной системы или при передаче между системами. Понимание изменений в данных требует понимания цепочки данных, правил, которые применялись к данным по мере их перемещения по цепочке, и того, какое влияние эти правила оказали на данные.
Происхождение данных (data lineage) включает в себя и их провенанс, и сведения об изменениях данных (сведения о последовательности шагов по изменению при движении по цепочке данных, в том числе и при подготовке к применению для различных целей). Используя метафору цепочки легко представить, что данные по мере своего перемещения по ее звеньям будут сохранять некоторые (но не все) свойства своих предыдущих состояний и приобретать новые в процессе преобразования.
Следует заметить, что трактовки понятий data chain, data lineage и data provenance в разных источниках могут несколько различаться. Часто data lineage и data provenance рассматриваются отдельно. Здесь мы ориентируемся на книгу выпускающего редактора DMBOK2 Лауры Себастьян-Коулман «Измерение качества данных в целях постоянного совершенствования: Рамочная модель для оценки качества данных»[338].
Наличие подробной информации о происхождении дает возможность проводить анализ влияния на данные (data impact analysis) – выяснять, какие элементы данных в целевой базе данных или
вприложении будут затронуты, если мы изменим тот или иной элемент
впредшествующих звеньях цепочки данных. На рисунке 8.7 представлен простейший пример описания происхождения элемента данных. Мы видим, что элемент «Сумма заказа», физически реализованный в базе данных как столбец zz_total, зависит от трех связанных с ним элементов: «Цена за шт.» (yy_unit_cost), «Скидка»
(yy_disc) и «Заказано (шт.)» (yy_qty).