Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

Г Л А В А 1 4

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Большие данные и наука о данных

1. ВВЕДЕНИЕ

После 2000 года термины большие данные (Big Data) и наука о данных (Data Science) стали употреб ляться даже слишком часто. При этом понимание смысла стоящих за ними понятий во многом утеряно, — по крайней мере, круг устоявшихся определений, относительно которых выработан консенсус, крайне ограничен. Даже само определение «большие» трактуется весьма относительно. Тем не менее за обоими этими понятиями — «большие данные» и «наука о данных» стоят значительные технологические изменения, благодаря которым человечество имеет возможность генерировать, хранить и анализировать колоссальные объемы данных, и эти объемы продолжа ют неуклонно расти. Что еще важнее, люди научились использовать такие данные для моделиро вания, прогнозирования и влияния на поведение, а также получения углубленных представлений о широком спектре важнейших предметов, включая статистику здравоохранения, управления природными ресурсами, экономического развития и т. д.

Термин «большие данные» указывает не только на объем данных, но и на их разнообразие (структурированные и неструктурированные, документы, файлы, аудио- и видеозаписи, пото ковые данные и т. д.), а также на скорость, c которой они производятся. Специалистов, которые исследуют данные, строят предиктивные (predictive) и предписывающие (prescriptive) модели, а также модели машинного обучения (machine learning), проводят на их основе анализ и осущест вляют внедрение полученных результатов в интересах заинтересованных сторон, стали теперь называть «учеными в области данных» или «учеными по данным» (data scientists).

На самом же деле понятие «наука о данных» используется для обозначения хорошо извест ной прикладной статистики (applied statistics). Другое дело, что вычислительные мощности, не обходимые для выявления статистических закономерностей, сегодня выросли настолько, что способствовали появлению больших данных и реализации технологий их статистико-аналитиче ской обработки. Традиционная бизнес-аналитика (BI) подобна «зеркалу заднего вида» (rear-view mirror), поскольку описывает тенденции, выявленные по результатам изучения структурирован ных ретроспективных данных. Иногда выявленные закономерности бизнес-аналитики исполь зуются и для прогнозирования, но уверенности в надежности таких прогнозов нет и быть не может по определению, поскольку это всего лишь экстраполяции в будущее прошлых тенденций,

Большие данные и наука о данных

623

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

которые в любой момент могут измениться. До недавнего времени углубленный анализ колос сальных массивов данных был невозможен по технологическим причинам, и аналитикам при ходилось полагаться на ограниченные по размерам статистические выборки или иные средства приблизительной оценки. С ростом вычислительных мощностей ученые научились накапливать

иобрабатывать гораздо более объемные массивы данных и применять к ним комплексные мето ды анализа, позаимствованные из прикладной математики, статистики, информатики, обработки

ипреобразования сигналов, теории вероятностей, распознавания образов, машинного обучения, моделирования неопределенности, визуализации данных и других прикладных областей знания с целью углубленного изучения и предсказания поведения систем на основе массивов больших данных. Иными словами, наука о данных нашла новые способы анализа данных и извлечения из них ценности.

Сырые данные

ДАННЫЕ

Данные в базовом контексте (c основными метаданными)

Данные в контексте бизнеса или функции

Понимание вопроса с учетом бизнес-контекста, функций и сопутствующей информации

ИНФОРМАЦИЯ

ЗНАНИЯ

СМЫСЛ

УМНЫЕ ДАННЫЕ (SMART DATA)

Доверенный источник данных для принятия

бизнес-решений

БОЛЬШИЕ ДАННЫЕ

Наука о данных: выявление повторяющихся структур / кластеров; построение предположений о пока неизвестном

Рисунок 96. 1

данные Основные

Информационный треугольник Абате

Бизнес-аналитика

Работа с хранилищами данных Визуализация данных Выявление отклонений

Прошлое

Настоящее

Будущее

Наука о данных

Предиктивная аналитика Предписывающая аналитика Машинное обучение

1 Роберт Абате (англ.-ит. Robert J. Abate) — американский специалист по архитектурам данных на основе сервисов (SBA) и управлению большими данными, вице-президент нью-йоркской секции DAMA. — Примеч. пер.

624

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Спривнесением больших данных в среды хранилищ данных и BI (см. главу 11) методы науки

оданных стали использоваться для обеспечения возможности смотреть вперед («через лобовое стекло» — windshield). Возможность прогнозирования на основе моделей, в том числе в режиме, близком к реальному времени, с использованием разнородных данных из множества различных источников помогает организациям всё лучше понимать направления своего развития (см. рис. 96).

Однако для использования преимуществ больших данных требуется изменить методы управ ления данными. Большинство хранилищ данных используют традиционную реляционную мо дель. Большие данные, как правило, в виде такой модели не представлены. В большинстве храни лищ данных обработка тесно связана с процедурами ETL (извлечение, преобразование, загрузка). В решениях для обработки больших данных (в частности, в так называемых «озерах данных») используется концепция ELT, то есть загрузка и последующее преобразование. Не менее важно и другое: скорость и потоки загрузки в случае сбора больших данных столь велики, что стандарт ные подходы к критически важным аспектам управления данными — интеграции, управлению метаданными, обеспечению качества данных — становятся неприемлемыми, и возникает необхо димость в выработке и реализации принципиально новых решений еще и в этих областях.

1.1 Бизнес-драйверы

Главный драйвер развития в организации работ в области сбора и исследования больших дан ных — стремление к обнаружению скрытых бизнес-возможностей посредством всесторонней аналитической проработки массивов данных с использованием широкого спектра диверсифици рованных алгоритмов. Большие данные побуждают к инновациям, поскольку объемы и разно образие массивов, доступных для исследования, растут безостановочно, и все эти данные можно использовать для определения моделей прогнозирования нужд потребителей и создания пер сонализированных презентаций продуктов и услуг. Наука о данных способствует повышению производительности и результативности обработки больших данных. Алгоритмы машинного обучения помогают автоматизировать сложные по структуре и ресурсоемкие комплексы рабо чих процессов, способствуя повышению эффективности работы организации, снижая затраты и минимизируя риски.

1.2 Принципы

Большие данные сулят заманчивую перспективу глубокого осмысления реальности под новыми и неожиданными углами зрения, но для этого нужно для начала уметь ими управлять. Из-за боль шого разнообразия источников и форматов управление большими данными дается на порядок сложнее и требует значительно большей дисциплины по сравнению с управлением реляцион ными базами данных. Принципы управления большими данными до конца не сформировыва лись, но главный принцип на сегодняшний день сформулирован предельно четко: управление большими данными требует тщательного управления метаданными, описывающими источники больших данных, чтобы можно было обеспечить полный учет файлов данных, их происхожде ния, контента и ценности.

Большие данные и наука о данных

625

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

БОЛЬШИЕ ДАННЫЕ И НАУКА О ДАННЫХ

Определение: Сбор (больших данных), анализ и визуализация (наука о данных) множества разнородных данных различных видов с целью получения ответов на те вопросы, которые будут сформулированы лишь в процессе анализа

Цели:

1.Раскрытие связей между данными и бизнесом

2.Итеративное включение источников данных в среду организации

3.Выявление и анализ новых факторов, которые могут оказывать влияние на бизнес

4.Публикация (и визуализация) достоверных данных в подходящей и этичной форме

Бизнесдрайверы

Входные материалы:

 

Проводимые работы:

 

Результаты:

• Стратегия и цели бизнеса

 

1.

Определение стратегии

 

• Стратегия и стандарты

• Дерево решений

 

 

в области больших данных

 

в области больших данных

(собственное,

 

и потребностей бизнеса (П)

 

• План работ с источниками

приобретенное

 

2.

Выбор источников данных (П)

 

данных

или позаимствованное)

 

3.

Получение доступа к источникам

 

• Подключенные источники

• ИТ-стандарты

 

 

и загрузка данных (Р)

 

данных

• Источники данных

 

4.

Разработка гипотез и методов (Р)

 

• Первичные гипотезы

 

 

5.

Интеграция/Согласование

 

• Результаты анализа

 

 

 

данных для анализа (Р)

 

• План развития

 

 

6.

Исследование данных (Р)

 

 

 

 

7.

Внедрение и мониторинг (O)

 

 

 

 

 

 

 

 

Поставщики:

Проектировщики архитектуры платформы для работы с большими данными

Специалисты в области науки о данных

Производители данных

Поставщики данных

Потребители информации

Методы:

Объединение данных

Методы машинного обучения

Расширенное

контролируемое

обучение

Участники:

 

Потребители:

• Проектировщики архитектуры

 

• Бизнес-партнеры

платформы для работы с большими

 

• Руководство бизнеса

данными

 

• Руководство ИТ

• Эксперты в предметных областях

 

 

• Специалисты в области науки

 

 

о данных

 

 

• Ведущие разработчики

 

 

аналитических методов

 

 

• Менеджеры в области

 

 

управления данными

 

 

• Специалисты по метаданным

 

 

 

 

 

Технические

 

 

драйверы

 

 

Инструменты:

 

Метрики:

 

• Решения на основе распределенных

 

• Показатели использования

файлов

 

данных

• Колоночное сжатие

 

• Время ответа

• Архитектуры MPP без разделения

 

и производительность

ресурсов

 

• Метрики загрузки

• Вычисления и базы данных

 

и сканирования данных

в оперативной памяти

 

• Показатели эффективности

• Алгоритмы «в базе данных»

 

и истории успешных

• Инструменты визуализации данных

 

внедрений

 

 

 

(П) Планирование, (К) Контроль, (Р) Разработка, (О) Операции

Рисунок 97. Контекстная диаграмма: большие данные и наука о данных

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

626

Г Л А В А 14