- •Оглавление
- •Список иллюстраций
- •Список таблиц
- •Вступительное слово компании «Юнидата»
- •Вступительное слово компании BSSG
- •Предисловие
- •Глава 1. Управление данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели
- •2. ОСНОВНЫЕ ПОНЯТИЯ И КОНЦЕПЦИИ
- •2.1 Данные
- •2.2 Данные и информация
- •2.3 Данные как актив организации
- •2.4 Принципы управления данными
- •2.5 Проблемы управления данными
- •2.6 Стратегия управления данными
- •3. РАМОЧНЫЕ СТРУКТУРЫ УПРАВЛЕНИЯ ДАННЫМИ
- •3.1 Модель стратегического выравнивания
- •3.2 Амстердамская информационная модель
- •3.3 Рамочная структура DAMA-DMBOK
- •3.4 Пирамида DMBOK (Айкен)
- •3.5 Дальнейшая эволюция рамочной структуры управления данными DAMA
- •4. DAMA И DMBOK
- •5. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 2. Этика обращения с данными
- •1. ВВЕДЕНИЕ
- •2. БИЗНЕС-ДРАЙВЕРЫ
- •3. ОСНОВНЫЕ ПОНЯТИЯ И КОНЦЕПЦИИ
- •3.1 Этические принципы, связанные с данными
- •3.2 Основополагающие принципы законодательства о конфиденциальности данных
- •3.3 Этические аспекты работы с данными в режиме онлайн
- •3.4 Риски, обусловленные неэтичными практиками обращения с данными
- •3.5 Формирование культуры этичного обращения с данными
- •3.6 Этика обращения с данными и руководство данными
- •4. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 3. Руководство данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение задач и функций руководства данными в организации
- •2.2 Проведение оценки готовности
- •2.3 Выявление возможностей / угроз и согласование с бизнесом
- •2.4 Создание точек взаимодействия внутри организации
- •2.5 Разработка стратегии руководства данными
- •2.6 Определение операционной рамочной структуры руководства данными
- •2.7 Выработка целей, принципов и политик
- •2.8 Поддержка проектов в области управления данными
- •2.9 Внедрение практики управления организационными изменениями
- •2.10 Внедрение практики управления проблемными вопросами
- •2.11 Оценка требований по нормативно-правовому соответствию
- •2.12 Внедрение руководства данными
- •2.13 Поддержка стандартов и процедур
- •2.14 Разработка бизнес-глоссария
- •2.15 Координация взаимодействия с архитектурными группами
- •2.16 Оказание содействия в финансовой оценке данных
- •2.17 Встраивание руководства данными в процессы
- •3. ИНСТРУМЕНТЫ И МЕТОДЫ
- •3.1 Присутствие в Сети / Веб-сайты
- •3.2 Бизнес-глоссарий
- •3.3 Инструменты для управления потоками работ
- •3.4 Инструменты для управления документами
- •3.5 Оценочная ведомость руководства данными
- •4. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •4.1 Организация и культура
- •4.2 Согласование действий и коммуникации
- •5. МЕТРИКИ
- •6. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 4. Архитектура данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Результаты и практики разработки архитектуры данных
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Внедрение практики разработки и сопровождения архитектуры данных
- •2.2 Интеграция с корпоративной архитектурой
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Программное обеспечение для управления ИТ-активами
- •3.3 Приложения для графического проектирования
- •4. МЕТОДЫ
- •4.1 Проекции на фазы жизненного цикла
- •4.2 Четкость и ясность графических представлений
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО АРХИТЕКТУРОЙ ДАННЫХ
- •6.1 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 5. Моделирование и проектирование данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 План проведения работ по моделированию данных
- •2.2 Построение модели данных
- •2.3 Проверка и оценка качества моделей данных
- •2.4 Сопровождение моделей данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Инструменты для отслеживания происхождения данных
- •3.3 Инструменты профилирования данных
- •3.4 Репозитории метаданных
- •3.5 Шаблоны моделей данных
- •3.6 Отраслевые модели данных
- •4. ЛУЧШИЕ ПРАКТИКИ
- •4.1 Лучшие практики в области соглашений об именовании
- •4.2 Лучшие практики проектирования баз данных
- •5. РУКОВОДСТВО МОДЕЛИРОВАНИЕМ И ПРОЕКТИРОВАНИЕМ ДАННЫХ
- •5.1 Управление качеством моделей и проектных решений
- •5.2 Метрики моделирования данных
- •6. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 6. Хранение и операции с данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Управление технологиями баз данных
- •2.2 Управление базами данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Инструменты мониторинга баз данных
- •3.3 Инструменты управления конфигурацией баз данных
- •3.4 Инструменты разработки приложений
- •4. МЕТОДЫ
- •4.1 Тестирование в средах более низкого уровня
- •4.2 Стандарты именования для физической модели данных
- •4.3 Использование сценариев для внесения любых изменений
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО ХРАНЕНИЕМ И ОПЕРАЦИЯМИ С ДАННЫМИ
- •6.1 Метрики
- •6.2 Отслеживание и учет информационных активов
- •6.3 Аудит и проверка корректности данных
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 7. Безопасность данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Выявление требований по безопасности данных
- •2.2 Определение политики безопасности данных
- •2.3 Определение стандартов в области безопасности данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Антивирусное программное обеспечение
- •3.2 Протокол HTTPS
- •3.3 Технологии управления идентификацией
- •3.4 Системы обнаружения и предотвращения вторжений
- •3.5 Межсетевые экраны
- •3.6 Отслеживание метаданных
- •3.7 Маскировка / Шифрование данных
- •4. МЕТОДЫ
- •4.1 Использование CRUD-матриц
- •4.2 Немедленное развертывание обновлений безопасности
- •4.3 Атрибуты безопасности в метаданных
- •4.4 Метрики
- •4.5 Учет потребностей в безопасности данных в проектных требованиях
- •4.6 Эффективный поиск в массиве зашифрованных данных
- •4.7 Санитизация документов
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •5.3 Доступность информации о наборах прав пользователей
- •5.4 Обеспечение безопасности данных в условиях аутсорсинга
- •5.5 Обеспечение безопасности данных в облачных средах
- •6. РУКОВОДСТВО БЕЗОПАСНОСТЬЮ ДАННЫХ
- •6.1 Безопасность данных и корпоративная архитектура
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 8. Интеграция и интероперабельность данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование и анализ
- •2.2 Проектирование решений по интеграции данных
- •2.3 Разработка решений по интеграции данных
- •2.4 Внедрение и мониторинг
- •3. ИНСТРУМЕНТЫ
- •3.1 Программный комплекс для преобразования данных / ETL-инструмент
- •3.2 Сервер виртуализации данных
- •3.3 Корпоративная шина данных (ESB)
- •3.4 Программный комплекс для управления бизнес-правилами
- •3.5 Инструменты моделирования данных и процессов
- •3.6 Инструменты профилирования данных
- •3.7 Репозиторий метаданных
- •4. МЕТОДЫ
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО DII
- •6.1 Соглашения о совместном доступе к данным
- •6.2 DII и происхождение данных
- •6.3 Метрики для оценки эффективности интеграции данных
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 9. Управление документами и контентом
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование управления жизненным циклом
- •2.2 Управление жизненным циклом документов и контента
- •2.3 Публикация и доставка контента
- •3. ИНСТРУМЕНТЫ
- •3.1 Системы управления корпоративным контентом
- •3.2 Инструменты поддержки совместной работы
- •3.3 Инструменты управления контролируемыми словарями и метаданными
- •3.4 Стандартные форматы разметки и обмена
- •3.5 Технологии e-discovery
- •4. МЕТОДЫ
- •4.1 Сценарий подготовки электронной доказательной базы
- •4.2 Карта данных, которые могут быть найдены и представлены
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО УПРАВЛЕНИЕМ ДОКУМЕНТАМИ И КОНТЕНТОМ
- •6.1 Рамочные структуры руководства информацией
- •6.2 Рост объемов информации
- •6.3 Управление качеством контента
- •6.4 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 10. Справочные и основные данные
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Работы по управлению основными данными
- •2.2 Работы по управлению справочными данными
- •3. ИНСТРУМЕНТЫ И МЕТОДЫ
- •4. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •4.1 Строгое следование архитектуре основных данных
- •4.2 Мониторинг движения данных
- •4.3 Управление изменениями справочных данных
- •4.4 Соглашения о совместном использовании данных
- •5. ОРГАНИЗАЦИОННЫЕ И КУЛЬТУРНЫЕ ИЗМЕНЕНИЯ
- •6. РУКОВОДСТВО СПРАВОЧНЫМИ И ОСНОВНЫМИ ДАННЫМИ
- •6.1 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 11. Ведение хранилищ данных и бизнес-аналитика
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Выработка понимания требований к DW
- •2.2 Определение и сопровождение архитектуры DW/BI
- •2.3 Проектирование и разработка хранилища и витрин данных
- •2.4 Заполнение хранилища данных
- •2.5 Внедрение портфеля инструментов BI
- •2.6 Сопровождение информационных продуктов
- •3. ИНСТРУМЕНТЫ
- •3.1 Репозиторий метаданных
- •3.2 Средства интеграции данных
- •3.3 Типы инструментов BI
- •4. МЕТОДЫ
- •4.1 Прототипирование с целью уточнения требований
- •4.2 BI по принципу самообслуживания
- •4.3 Открытые для пользователей данные аудита
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Дорожная карта выпуска релизов
- •5.3 Управление конфигурациями
- •5.4 Организационные и культурные изменения
- •6. РУКОВОДСТВО DW/BI
- •6.1 Обеспечение одобрения со стороны бизнеса
- •6.2 Удовлетворенность клиентов/пользователей
- •6.3 Соглашения об уровне обслуживания
- •6.4 Стратегия в области отчетности
- •6.5 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 12. Управление метаданными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение стратегии работы с метаданными
- •2.2 Выработка понимания требований к метаданным
- •2.3 Определение архитектуры метаданных
- •2.4 Создание и ведение метаданных
- •2.5 Применение метаданных в аналитике и при формировании запросов и отчетов
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты управления репозиторием метаданных
- •4. МЕТОДЫ
- •4.1 Отслеживание происхождения и анализ влияния
- •4.2 Метаданные для обработки больших данных
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО МЕТАДАННЫМИ
- •6.1 Механизмы контроля процессов
- •6.2 Документация, описывающая метаданные
- •6.3 Стандарты и руководства
- •6.4 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 13. Качество данных
- •1. ВВЕДЕНИЕ
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение данных высокого качества
- •2.2 Определение стратегии качества данных
- •2.3 Определение критически важных данных и бизнес-правил
- •2.4 Проведение первичной оценки качества данных
- •2.5 Выявление и приоритизация потенциальных улучшений
- •2.6 Определение целей повышения качества данных
- •2.7 Разработка и внедрение операционных процедур обеспечения качества данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты профилирования данных
- •3.2 Инструменты формирования запросов к данным
- •3.3 Инструменты моделирования данных и средства ETL
- •3.4 Шаблоны правил качества данных
- •3.5 Репозитории метаданных
- •4. МЕТОДЫ
- •4.1 Превентивные меры
- •4.2 Корректирующие меры
- •4.3 Программные модули проверки и аудита качества
- •4.4 Эффективные метрики качества данных
- •4.5 Статистическое управление процессами
- •4.6 Выявление и анализ корневых причин
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО КАЧЕСТВОМ ДАННЫХ
- •6.1 Политика в области качества данных
- •6.2 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 14. Большие данные и наука о данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Стратегическое планирование потребностей бизнеса в больших данных
- •2.2 Выбор источников данных
- •2.3 Определение источников и загрузка данных
- •2.4 Выработка гипотез и выбор методов
- •2.5 Предварительная интеграция / Cогласование данных для анализа
- •2.6 Исследование данных с помощью моделей
- •2.7 Внедрение и мониторинг
- •3. ИНСТРУМЕНТЫ
- •3.1 Технологии и архитектуры MPP без разделения ресурсов
- •3.2 Базы данных на основе распределенных файловых систем
- •3.3 Алгоритмы «в базе данных»
- •3.4 Облачные хранилища больших данных
- •3.5 Языки статистических вычислений и графических представлений
- •3.6 Средства визуализации данных
- •4. МЕТОДЫ
- •4.1 Аналитическое моделирование
- •4.2 Моделирование больших данных
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Согласование со стратегией организации
- •5.2 Оценка готовности / Оценка рисков
- •5.3 Организационные и культурные изменения
- •6. РУКОВОДСТВО В ОБЛАСТИ БОЛЬШИХ ДАННЫХ И НАУКИ О ДАННЫХ
- •6.1 Управление каналами визуализации
- •6.2 Наука о данных и стандарты визуализации
- •6.3 Безопасность данных
- •6.4 Метаданные
- •6.5 Качество данных
- •6.6 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 15. Оценка зрелости управления данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование работ по оценке
- •2.2 Проведение оценки зрелости
- •2.3 Интерпретация результатов
- •2.4 Создание целевой программы совершенствования управления данными
- •2.5 Проведение повторных оценок зрелости
- •3. ИНСТРУМЕНТЫ
- •4. МЕТОДЫ
- •4.1 Выбор рамочной структуры DMM
- •4.2 Возможность использования рамочной структуры DAMA-DMBOK
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ DMMA
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО УПРАВЛЕНИЕМ ЗРЕЛОСТЬЮ
- •6.1 Надзор за процессом DMMA
- •6.2 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 16. Организация управления данными и ролевые ожидания
- •1. ВВЕДЕНИЕ
- •2. ВЫРАБОТКА ПОНИМАНИЯ СУЩЕСТВУЮЩЕЙ ОРГАНИЗАЦИОННОЙ СИСТЕМЫ И КУЛЬТУРНЫХ НОРМ
- •3. СТРУКТУРЫ ОРГАНИЗАЦИОННЫХ СИСТЕМ УПРАВЛЕНИЯ ДАННЫМИ
- •3.1 Децентрализованная операционная модель
- •3.2 Сетевая операционная модель
- •3.3 Централизованная операционная модель
- •3.4 Гибридная операционная модель
- •3.5 Федеративная операционная модель
- •3.6 Выбор оптимальной для организации операционной модели
- •3.7 Альтернативные варианты организационной системы и соображения проектирования
- •4. КРИТИЧЕСКИЕ ФАКТОРЫ УСПЕХА
- •4.1 Куратор в высшем руководстве
- •4.3 Упреждающее планирование изменений
- •4.4 Согласование позиций руководства
- •4.5 Прямая и обратная связь
- •4.6 Обеспечение заинтересованности и участия
- •4.7 Ориентировка, инструктаж и подготовка
- •4.8 Мониторинг восприятия и освоения новых методов
- •4.9 Соблюдение руководящих принципов
- •4.10 Эволюции — да! Революции — нет!
- •5. ПОСТРОЕНИЕ ОРГАНИЗАЦИОННОЙ СИСТЕМЫ УПРАВЛЕНИЯ ДАННЫМИ
- •5.1 Выявление действующих участников управления данными
- •5.2 Определение состава участников Координационного комитета
- •5.3 Выявление и анализ заинтересованных сторон
- •5.4 Привлечение заинтересованных сторон
- •6. ВЗАИМОДЕЙСТВИЕ DMO С ДРУГИМИ ОРГАНАМИ УПРАВЛЕНИЯ
- •6.1 Директор по данным
- •6.2 Руководство данными
- •6.3 Управление качеством данных
- •6.4 Корпоративная архитектура
- •6.5 Особенности управления данными, присущие глобальным организациям
- •7. РОЛИ В ОБЛАСТИ УПРАВЛЕНИЯ ДАННЫМИ
- •7.1 Организационные роли
- •7.2 Индивидуальные роли
- •8. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 17. Управление данными и управление организационными изменениями
- •1. ВВЕДЕНИЕ
- •2. ЭМПИРИЧЕСКИЕ ЗАКОНЫ ПРАКТИКИ ИЗМЕНЕНИЙ
- •3. УПРАВЛЯТЬ НЕ ИЗМЕНЕНИЯМИ, А ПРОЦЕССОМ ПЕРЕХОДА
- •4. ВОСЕМЬ ОШИБОК УПРАВЛЕНИЯ ИЗМЕНЕНИЯМИ ПО КОТТЕРУ
- •4.1 Ошибка № 1: самонадеянность
- •4.2 Ошибка № 2: неспособность создать достаточно мощную поддержку сверху
- •4.6 Ошибка № 6: пренебрежение созиданием краткосрочных побед
- •4.7 Ошибка № 7: преждевременное объявление о победе
- •4.8 Ошибка № 8: Пренебрежение закреплением перемен в корпоративной культуре
- •5. ВОСЕМЬ СТАДИЙ ПРОВЕДЕНИЯ КРУПНОЙ РЕФОРМЫ ПО КОТТЕРУ
- •5.1 Выработка всеобщего понимания ситуации и безотлагательности перемен
- •5.2 Руководящая коалиция
- •6. ФОРМУЛА ИЗМЕНЕНИЙ
- •7. ДИФФУЗИЯ ИННОВАЦИЙ И ПОДДЕРЖАНИЕ ИЗМЕНЕНИЙ
- •7.1 Главные трудности на пути распространения инноваций
- •7.2 Ключевые элементы диффузии инноваций
- •7.3 Пять стадий восприятия инновации
- •7.4 Субъективные причины неприятия или отторжения инноваций и изменений
- •8. ОБЕСПЕЧЕНИЕ ПОДДЕРЖКИ ИЗМЕНЕНИЙ
- •8.1 Острота чувства неотложности или неудовлетворенности
- •8.3 Состав руководящей коалиции
- •8.4 Объективность и осязаемость улучшений
- •9. ДОНЕСЕНИЕ ЦЕННОСТИ УПРАВЛЕНИЯ ДАННЫМИ ДО ВСЕОБЩЕГО ПОНИМАНИЯ
- •9.1 Базовые принципы коммуникаций
- •9.2 Оценка информированности и подготовка целевой аудитории
- •9.3 Задействование элементов неформального общения
- •9.4 План коммуникаций
- •9.5 Продолжение осуществления коммуникаций по завершении внедрения программы управления данными
- •10. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Выражение признательности
- •Предметный указатель
- •Именной указатель
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
Г Л А В А 1 4
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
Большие данные и наука о данных
1. ВВЕДЕНИЕ
После 2000 года термины большие данные (Big Data) и наука о данных (Data Science) стали употреб ляться даже слишком часто. При этом понимание смысла стоящих за ними понятий во многом утеряно, — по крайней мере, круг устоявшихся определений, относительно которых выработан консенсус, крайне ограничен. Даже само определение «большие» трактуется весьма относительно. Тем не менее за обоими этими понятиями — «большие данные» и «наука о данных» стоят значительные технологические изменения, благодаря которым человечество имеет возможность генерировать, хранить и анализировать колоссальные объемы данных, и эти объемы продолжа ют неуклонно расти. Что еще важнее, люди научились использовать такие данные для моделиро вания, прогнозирования и влияния на поведение, а также получения углубленных представлений о широком спектре важнейших предметов, включая статистику здравоохранения, управления природными ресурсами, экономического развития и т. д.
Термин «большие данные» указывает не только на объем данных, но и на их разнообразие (структурированные и неструктурированные, документы, файлы, аудио- и видеозаписи, пото ковые данные и т. д.), а также на скорость, c которой они производятся. Специалистов, которые исследуют данные, строят предиктивные (predictive) и предписывающие (prescriptive) модели, а также модели машинного обучения (machine learning), проводят на их основе анализ и осущест вляют внедрение полученных результатов в интересах заинтересованных сторон, стали теперь называть «учеными в области данных» или «учеными по данным» (data scientists).
На самом же деле понятие «наука о данных» используется для обозначения хорошо извест ной прикладной статистики (applied statistics). Другое дело, что вычислительные мощности, не обходимые для выявления статистических закономерностей, сегодня выросли настолько, что способствовали появлению больших данных и реализации технологий их статистико-аналитиче ской обработки. Традиционная бизнес-аналитика (BI) подобна «зеркалу заднего вида» (rear-view mirror), поскольку описывает тенденции, выявленные по результатам изучения структурирован ных ретроспективных данных. Иногда выявленные закономерности бизнес-аналитики исполь зуются и для прогнозирования, но уверенности в надежности таких прогнозов нет и быть не может по определению, поскольку это всего лишь экстраполяции в будущее прошлых тенденций,
Большие данные и наука о данных |
623 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
которые в любой момент могут измениться. До недавнего времени углубленный анализ колос сальных массивов данных был невозможен по технологическим причинам, и аналитикам при ходилось полагаться на ограниченные по размерам статистические выборки или иные средства приблизительной оценки. С ростом вычислительных мощностей ученые научились накапливать
иобрабатывать гораздо более объемные массивы данных и применять к ним комплексные мето ды анализа, позаимствованные из прикладной математики, статистики, информатики, обработки
ипреобразования сигналов, теории вероятностей, распознавания образов, машинного обучения, моделирования неопределенности, визуализации данных и других прикладных областей знания с целью углубленного изучения и предсказания поведения систем на основе массивов больших данных. Иными словами, наука о данных нашла новые способы анализа данных и извлечения из них ценности.
Сырые данные |
ДАННЫЕ |
Данные в базовом контексте (c основными метаданными)
Данные в контексте бизнеса или функции
Понимание вопроса с учетом бизнес-контекста, функций и сопутствующей информации
ИНФОРМАЦИЯ
ЗНАНИЯ
СМЫСЛ
УМНЫЕ ДАННЫЕ (SMART DATA)
Доверенный источник данных для принятия
бизнес-решений
БОЛЬШИЕ ДАННЫЕ
Наука о данных: выявление повторяющихся структур / кластеров; построение предположений о пока неизвестном
Рисунок 96. 1
данные Основные
Информационный треугольник Абате
Бизнес-аналитика
Работа с хранилищами данных Визуализация данных Выявление отклонений
Прошлое
Настоящее
Будущее
Наука о данных
Предиктивная аналитика Предписывающая аналитика Машинное обучение
1 Роберт Абате (англ.-ит. Robert J. Abate) — американский специалист по архитектурам данных на основе сервисов (SBA) и управлению большими данными, вице-президент нью-йоркской секции DAMA. — Примеч. пер.
624 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
Спривнесением больших данных в среды хранилищ данных и BI (см. главу 11) методы науки
оданных стали использоваться для обеспечения возможности смотреть вперед («через лобовое стекло» — windshield). Возможность прогнозирования на основе моделей, в том числе в режиме, близком к реальному времени, с использованием разнородных данных из множества различных источников помогает организациям всё лучше понимать направления своего развития (см. рис. 96).
Однако для использования преимуществ больших данных требуется изменить методы управ ления данными. Большинство хранилищ данных используют традиционную реляционную мо дель. Большие данные, как правило, в виде такой модели не представлены. В большинстве храни лищ данных обработка тесно связана с процедурами ETL (извлечение, преобразование, загрузка). В решениях для обработки больших данных (в частности, в так называемых «озерах данных») используется концепция ELT, то есть загрузка и последующее преобразование. Не менее важно и другое: скорость и потоки загрузки в случае сбора больших данных столь велики, что стандарт ные подходы к критически важным аспектам управления данными — интеграции, управлению метаданными, обеспечению качества данных — становятся неприемлемыми, и возникает необхо димость в выработке и реализации принципиально новых решений еще и в этих областях.
1.1 Бизнес-драйверы
Главный драйвер развития в организации работ в области сбора и исследования больших дан ных — стремление к обнаружению скрытых бизнес-возможностей посредством всесторонней аналитической проработки массивов данных с использованием широкого спектра диверсифици рованных алгоритмов. Большие данные побуждают к инновациям, поскольку объемы и разно образие массивов, доступных для исследования, растут безостановочно, и все эти данные можно использовать для определения моделей прогнозирования нужд потребителей и создания пер сонализированных презентаций продуктов и услуг. Наука о данных способствует повышению производительности и результативности обработки больших данных. Алгоритмы машинного обучения помогают автоматизировать сложные по структуре и ресурсоемкие комплексы рабо чих процессов, способствуя повышению эффективности работы организации, снижая затраты и минимизируя риски.
1.2 Принципы
Большие данные сулят заманчивую перспективу глубокого осмысления реальности под новыми и неожиданными углами зрения, но для этого нужно для начала уметь ими управлять. Из-за боль шого разнообразия источников и форматов управление большими данными дается на порядок сложнее и требует значительно большей дисциплины по сравнению с управлением реляцион ными базами данных. Принципы управления большими данными до конца не сформировыва лись, но главный принцип на сегодняшний день сформулирован предельно четко: управление большими данными требует тщательного управления метаданными, описывающими источники больших данных, чтобы можно было обеспечить полный учет файлов данных, их происхожде ния, контента и ценности.
Большие данные и наука о данных |
625 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
БОЛЬШИЕ ДАННЫЕ И НАУКА О ДАННЫХ
Определение: Сбор (больших данных), анализ и визуализация (наука о данных) множества разнородных данных различных видов с целью получения ответов на те вопросы, которые будут сформулированы лишь в процессе анализа
Цели:
1.Раскрытие связей между данными и бизнесом
2.Итеративное включение источников данных в среду организации
3.Выявление и анализ новых факторов, которые могут оказывать влияние на бизнес
4.Публикация (и визуализация) достоверных данных в подходящей и этичной форме
Бизнесдрайверы
Входные материалы: |
|
Проводимые работы: |
|
Результаты: |
|
• Стратегия и цели бизнеса |
|
1. |
Определение стратегии |
|
• Стратегия и стандарты |
• Дерево решений |
|
|
в области больших данных |
|
в области больших данных |
(собственное, |
|
и потребностей бизнеса (П) |
|
• План работ с источниками |
|
приобретенное |
|
2. |
Выбор источников данных (П) |
|
данных |
или позаимствованное) |
|
3. |
Получение доступа к источникам |
|
• Подключенные источники |
• ИТ-стандарты |
|
|
и загрузка данных (Р) |
|
данных |
• Источники данных |
|
4. |
Разработка гипотез и методов (Р) |
|
• Первичные гипотезы |
|
|
5. |
Интеграция/Согласование |
|
• Результаты анализа |
|
|
|
данных для анализа (Р) |
|
• План развития |
|
|
6. |
Исследование данных (Р) |
|
|
|
|
7. |
Внедрение и мониторинг (O) |
|
|
|
|
|
|
|
|
Поставщики:
•Проектировщики архитектуры платформы для работы с большими данными
•Специалисты в области науки о данных
•Производители данных
•Поставщики данных
•Потребители информации
Методы:
•Объединение данных
•Методы машинного обучения
•Расширенное
контролируемое
обучение
Участники: |
|
Потребители: |
• Проектировщики архитектуры |
|
• Бизнес-партнеры |
платформы для работы с большими |
|
• Руководство бизнеса |
данными |
|
• Руководство ИТ |
• Эксперты в предметных областях |
|
|
• Специалисты в области науки |
|
|
о данных |
|
|
• Ведущие разработчики |
|
|
аналитических методов |
|
|
• Менеджеры в области |
|
|
управления данными |
|
|
• Специалисты по метаданным |
|
|
|
|
|
Технические |
|
|
драйверы |
|
|
Инструменты: |
|
Метрики: |
|
||
• Решения на основе распределенных |
|
• Показатели использования |
файлов |
|
данных |
• Колоночное сжатие |
|
• Время ответа |
• Архитектуры MPP без разделения |
|
и производительность |
ресурсов |
|
• Метрики загрузки |
• Вычисления и базы данных |
|
и сканирования данных |
в оперативной памяти |
|
• Показатели эффективности |
• Алгоритмы «в базе данных» |
|
и истории успешных |
• Инструменты визуализации данных |
|
внедрений |
|
|
|
(П) Планирование, (К) Контроль, (Р) Разработка, (О) Операции
Рисунок 97. Контекстная диаграмма: большие данные и наука о данных
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
626 |
Г Л А В А 14 |