Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

В маркетинге и рекламе это поняли первыми и стали использовать анимированную и иными спо собами приукрашенную графику для повышения привлекательности образа всего, что ею описы вается. Следом за рекламщиками журналисты, блогеры, учителя всех уровней, школ и предметов осознали всю степень полезности инфографики для анализа трендов, эффектности презентаций и распространения сообщений. Современные методы компьютеризованного наглядного пред ставления информации — лепестковые диаграммы («радарные карты»), графики сопоставления многих измерений, облака тегов, тепловые карты и многие другие типы карт данных — теперь поддерживаются многими наборами инструментов. При таком богатстве визуализаций пользо вателям гораздо проще оперативно улавливать изменения в динамике данных, переходить к про смотру связанных элементов, разбираться в причинно-следственных связях и выявлять настора живающие признаки до того, как начнутся реальные неприятности. Подобные средства визуали зации обладают, как минимум, следующими преимуществами по сравнению с традиционными:

наличие самых сложных разновидностей аналитической визуализации, таких как спектры с мультиплетами, осциллограммы, тепловые карты, гистограммы, каскадные диаграммы и т. д. и т. п.;

встроенная поддержка обеспечения соблюдения стандартов и рекомендаций в области на глядных представлений;

интерактивные возможности углубленного исследования визуально выявленных закономер ностей и тенденций.

4. МЕТОДЫ

4.1 Аналитическое моделирование

Имеется несколько источников с открытыми кодами, а также ряд провайдеров услуг облачных хранилищ, предлагающих программное обеспечение для разработки моделей данных, в том числе с поддержкой визуальной разработки, веб-сканирования и оптимизации линейного программи рования. Для создания, распространения и обработки моделей, созданных другими приложения ми, лучше использовать средства, поддерживающие язык разметки прогнозных моделей PMML (predictive model markup language), основанный на XML.

Доступ в режиме реального времени решает большинство проблем с запаздыванием, неиз бежных при пакетной обработке. Apache Mahout — проект с открытым кодом, который занимает ся разработкой библиотеки алгоритмов машинного обучения, всерьез нацелившийся на решение задачи автоматизации исследований больших данных посредством разведки рекомендованных источников, классификации документов и кластеризации элементов. Это направление разви тия науки о данных идет в обход традиционных для решений класса MapReduce методов досту па к данным и, в частности, вовсе не предусматривает пакетной обработки. Вместо этого в пол ной мере используются преимущества прямого доступа через API-интерфейсы в слой хранения

Большие данные и наука о данных

657

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

распределенных данных HDFS, что позволяет поддерживать широкий спектр разнообразных функций, начиная от обработки SQL-запросов и потоковой трансляции контента и заканчивая машинным обучением и библиотеками шаблонов визуализации.

Аналитические модели могут варьироваться по глубине и направленности.

Описательное моделирование нацелено на получение сводных данных или компактных пред ставлений структурированных данных. Такой подход далеко не всегда позволяет проверять гипотезы, выявлять причинно-следственные связи или предсказывать исходы, но зачастую он и не преследует подобных целей. Зато он позволяет использовать алгоритмы определения или уточнения связей или параметрических зависимостей между множеством переменных и тем самым делает их пригодными для описания.

Разъясняющее моделирование заключается в применении к данным статистических моде лей с целью проверки гипотезы о причинно-следственных связях в рамках теоретических по строений. Технические приемы в данном случае мало отличаются от используемых при добы че данных и в аналитическом прогнозировании, а вот цель преследуется иная: не предсказать исходы или смоделировать прогнозы, а просто проверить соответствие результатов, получае мых с помощью гипотетической модели, реальным данным.

Предиктивная аналитика, или аналитическое прогнозирование, ставит целью обучение на при мерах в процессе отладки (тренировки) модели. Эффективность итеративного обучения прове ряется по способности модели к достоверным прогнозам на основе независимого набора кон трольных данных. Полученный результат используется для выбора следующего урока и одно временно оценки качества модели. Кроме того, работоспособность модели оценивается еще и по такому критерию, как способность к обобщению при обработке нового набора данных, включая выявление ошибочных обобщений.

Избегайте избыточной подгонки или чрезмерной обученности модели. Такой риск присут ствует при обучении на непрезентативных выборках, при излишней сложности модели относи тельно данных, а также при особой чувствительности модели, приводящей к описанию шумовых помех вместо глубинных связей. Дополнительно используйте скользящую перекрестную провер ку на последних k-частях данных, чтобы своевременно уловить момент, когда дальнейшее обуче ние не требуется, поскольку не приводит к улучшению способности модели к обобщению.

Ошибки обучения неуклонно снижаются по мере усложнения модели и теоретически могут быть сведены к нулю. Следовательно, они не могут использоваться в качестве показателя ошибки тестирования. Случайным образом разделите массив данных на три части — учебную, прове рочную и контрольную выборки. На учебном наборе натаскивайте модель, контрольный набор используйте для прогнозирования ошибки выбора, а проверочный набор — для оценки ошибки обобщения в окончательной модели.

Многократное использование одного и того же тестового набора может повлечь занижен ную оценку ошибки тестирования по сравнению с ее истинной величиной. В идеале нужна

658

Г Л А В А 14